-
Diese
Erfindung bezieht sich auf Nukleinsäurearrays.
-
Arrays
von Bindemitteln oder Sonden, z. B. Polypeptid und Nukleinsäuren, werden
in der Branche der Biotechnologie und auf verwandten Gebieten zu
einem immer wichtigeren Hilfsmittel. Diese Bindemittelarrays, bei
denen eine Mehrzahl von Sonden in Form eines Arrays oder Musters
auf einer Feststoffträgeroberfläche positioniert
sind, werden auf einer Vielzahl unterschiedlicher Gebiet eingesetzt,
z. B. Genomik (bei der Sequenzierung durch Hybridisierung, SNP-Erfassung, Differentialgenexpressionsanalyse,
Identifizierung neuartiger Gene, Genabbildung, Fingerabdruckverfahren
usw.) und Proteomik.
-
Bei
der Verwendung derartiger Arrays werden die oberflächengebundenen
Sonden mit interessierenden Molekülen oder Analyten, d. h. Zielen,
in einer Probe in Berührung
gebracht. Ziele in der Probe binden sich an die komplementären Sonden
auf dem Substrat, um einen Bindungskomplex zu bilden. Das Muster
der Bindung der Ziele an die Sondenmerkmale oder -punkte auf dem
Substrat erzeugt ein Muster auf der Oberfläche des Substrats und liefert
gewünschte
Informationen über
die Probe. In den meisten Fällen
werden die Ziele mit einer erfassbaren Markierung oder Meldungseinrichtung
wie z. B. einer fluoreszierenden Markierung, einer chemilumineszierenden
Markierung oder einer radioaktiven Markierung markiert. Die sich
ergebende Bindungsinteraktion oder Komplexe von Bindungspaaren werden
anschließend
erfasst und gelesen oder abgefragt, z. B. durch eine optische Einrichtung,
obwohl auch andere Verfahren verwendet werden können, je nach der verwendeten
erfassbaren Markierung.
-
Beispielsweise
kann Laserlicht verwendet werden, um fluoreszierende Markierungen,
die an ein Ziel gebunden sind, anzuregen, wobei lediglich an denjenigen
Punkten auf dem Substrat, die ein Ziel, und somit eine fluoreszierende
Markierung aufweisen, das bzw. die an ein Sondenmolekül gebunden
ist, ein Signal erzeugt wird. Dieses Muster kann dann zu Zwecken
der Computeranalyse digital gescannt bzw. abgetastet werden.
-
Die
Normalisierung ist ein allgemeines Problem bei der Analyse von Daten
in Bezug auf Nukleinsäuremikroarrays,
die zu Proben hybridisiert sind, die in 2 oder mehr Farben markiert
sind. Die Normalisierung ist der Vorgang, anhand dessen die Daten
von allen Farbkanälen
auf denselben relativen Maßstab
gebracht werden. Eine derartige erneute Skalierung ist eine Voraussetzung
für die
Berechnung verschiedener Expressionsverhältnisse, da die aus den Daten
erzeugten, berechneten Expressionsverhältnisse mit irgendeinem unbekannten
Faktor oder einer unbekannten Funktion multipliziert werden, wenn
sich die Daten nicht auf derselben relativen Skala befinden.
-
Derzeitige
Normalisierungsverfahren stützen
sich allgemeinen auf zwei Schritte. Der erste Schritt besteht darin,
einen Teilsatz von Daten für
das Expressionsverhältnis
zu identifizieren, von dem man (zumindest im Durchschnitt) glaubt,
dass es bekannt sei. Beispielsweise kann man einen Satz von „organisatorischen
Genen" (Genen, von
denen man annimmt, dass sie in unterschiedlichen Probentypen einheitlich
exprimiert werden) verwenden, oder man kann alle statistisch bedeutsamen
Daten verwenden (falls man annimmt, dass die Anzahl unterschiedlich
exprimierter Gene im Vergleich zu der Gesamtpopulation gering ist).
Der zweite Schritt besteht darin, die Datenkanäle gemäß einem geeigneten Modell neu
zu skalieren. Das Modell kann einfach nur eine Teilung aller in
jedem Kanal befindlichen Daten durch den arithmetischen oder geometrischen
Mittelwert der in diesem Kanal befindlichen Daten beinhalten, oder
es kann so eine komplexe Angelegenheit wie eine Anpassung an eine
nichtlineare Funktion sein.
-
Die
oben erwähnten
Verfahren stützen
sich auf die Identifizierung eines Teilsatzes der Daten zur Verwendung
als Normalisierungssonden. Diese Sonden können a priori, beispielsweise
bei der Verwendung von Routinegenen, identifiziert werden, oder
sie können
als Bestandteil des Normalisierungsprozesses identifiziert werden,
wie dies unter Verwendung des LOPS-Verfahrens (LOPS = Longest Order-Preserving Set, längster die
Reihenfolge beibehaltender Satz) oder unter Verwendung des Rangordnungsnormalisierungsprotokolls (Rank
Order Normalization Protocol) (Agilent Technologies, Palo Alto,
Kalifornien) erfolgt. Routinegensätze weisen die Schwierigkeit
auf, dass sich bei vielen derartigen Sätzen nach einer ausführlichen
Untersuchung herausstellt, dass sie über verschiedene Proben hinweg
nicht einheitlich exprimiert, d. h. unterschiedlich exprimiert,
werden und somit allgemein nicht über eine große Vielfalt
von Probensätzen
hin nützlich
sind. Verfahren, die sich auf eine „im Prozess erfolgende" Identifizierung
von Normalisierungssonden stützen,
schlagen eventuell fehl, falls die Anzahl unterschiedlich exprimierter
Gene im Vergleich zu der Gesamtpopulation nicht gering ist oder
wenn die Gesamtpopulation gering ist.
-
Als
solches besteht ein fortgesetztes Interesse an der Identifizierung
von Normalisierungssonden zur Verwendung bei Nukleinsäurearrayversuchen.
-
Relevante
Literatur
-
Interessierende
U.S.-Patentschriften umfassen 6,591,196; 6,251,588 und 5,556,749.
Interessierende veröffentlichte
U.S.-Patentanmeldungen umfassen 20030156136 und 20030065449.
-
Die
WO 99/57314 beschreibt ein Verfahren zum elektrischen Isolieren
von Nukleinsäuren.
Auf einem Probenträger
wird eine Probe, die Nukleinsäuren
enthält,
mittels eines elektrischen Feldes aufgeschlossen. Nach dem Aufschluss
der Probe wird dieselbe mit einem nukleinsäureaffinen Material in Kontakt
gebracht, so dass einzelne oder mehrere in der Probe enthaltene
Nukleinsäuren
gebunden werden.
-
Die
EP 1 209 612 A2 beschreibt
ein Verfahren zum Vorhersagen einer Hybridisierungsaffinität einer Nukleinsäure zum
Auswählen
von Sonden für
eine Genexpression. Eine Hybridi- sierungsaffinität zwischen der
Sonde und Zielmolekülen
wird durch vorbestimmte Messungen bestimmt. Unter Verwendung eines
Modells, bei dem die Hybridisierungsaffinität unter Verwendung einer Summe
aus der freien Energie Pi bei einer bestimmten Position und eines
entsprechenden Werts, der von der Probensequenz abgeleitet wird,
wird eine Berechnung durchgeführt,
um die gemessene Identizität
mittels eines linearen Least-square-Fit zu beschreiben. Zum Auswählen einer
Sonde wird eine Identizitätsdifferenz
von jeweiligen Probenpaaren, d. h. eines perfekten Übereinstimmens
und eines Nicht-Übereinstimmens
vorhergesagt und diejenigen Probepaare verwendet, die in einer oberen
Hälfte
der Vorhersagen liegen.
-
Kaderali
et al., „Selecting
signature oligonucleotides to identify organisms using DNA arrays" Bioinformatics,
Vol. 18, No. 102002, Seiten 1340–1349 zeigt ein Verfahren zum
Auswählen
von Signatur-Oligonucleotiden zum Identifizieren von Organismen.
Für jede
Zielsequenz wird eine Temperatur bestimmt, so dass eine Schmelztemperatur
für eine
Sonde größer ist
als eine Schmelztemperatur für
andere potentielle Sonden. Die Sonde mit der höchsten Schmelztemperatur wird
daraufhin ausgewählt.
Vor dem Durchführen
einer Berechnung der Schmelztemperaturen wird eine Sondenlänge auf
einen vorbestimmten Bereich begrenzt, und Sonden, die bezüglich zwei
oder mehr Zielsequenzen ein perfektes Komplementär darstellen, durchgeführt. Ferner wird
hinsichtlich einer Minimumtemperatur eine Einschränkung eingeführt, dass
die Schmelztemperatur über einer
Temperatur des Arrays liegen soll.
-
Die
US 2002/0068293 A1 beschreibt ein Array von immobilisierten Nukleinsäuresonden,
die neben Hybridisierungssonden Hintergrundsonden umfasst. Die Hintergrundsonden
liefern ein Hintergrundsignal und können empirisch beobachtete
Sonden, Sonden mit einer stabilen intermolekularen Struktur, wie
beispielsweise Haarnadeln oder Pseudo-Halbknoten, kurze Proben,
Proben mit umgekehrt-Polaritätnukleotidanalogen oder
Proben mit Phosphordiesther oder modifizierte Nukleotideinheiten
umfassen.
-
Die
EP 1186673 A2 beschreibt
ein Verfahren zum Kalibrieren von Molekulararraydaten. Kalibrierungsmerkmale
werden systematisch über
den Bereich des Molekulararrays verteilt, wobei die Kalibrierungsmerkmale
Sondenmoleküle
aufweist, die zuverlässig
mit einer großen
Anzahl von Zielmolekülen
hybridisieren.
-
Die
Aufgabe der vorliegenden Erfindung besteht darin, Verfahren, ein
computerlesbares Medium, ein Rechenanalysesystem, ein Nukleinsäurearray
sowie ein Ausrüstungspaket
mit verbesserten Charakteristika zu schaffen.
-
Diese
Aufgabe wird durch Verfahren gemäß einem
der Ansprüche
1, 17, 20, durch ein computerlesbares Medium gemäß Anspruch 15, ein Rechenanalysesystem
gemäß Anspruch
16, gemäß Anspruch
20 sowie durch ein Ausrüstungspaket
gemäß Anspruch
24 gelöst.
-
Es
werden Verfahren zum Identifizieren einer Sequenz einer Sonde, z.
B. einer biopolymeren Sonde, z. B, einer Nukleinsäure, die
sich zur Verwendung als oberflächenimmobilisierte
Normalisierungssonde auf einem Nukleinsäurearray eignet, vorgesehen.
Ein Merkmal der vorliegenden Verfahren besteht darin, dass ein Satz
von rechnerisch ermittelten, in Frage kommenden anfänglichen
Sequenzen empirisch ausgewertet werden, um funktionelle Daten zu
erhalten, die dann verwendet werden, um die in Frage kommenden Sequenzen bezüglich ihrer
Eignung als Normalisierungssonden zu bewerten. Sequenzen, die als
zur Verwendung als Normalisierungssonden gemäß den vorliegenden Verfahren
geeignet identifiziert werden, sind solche, die mit anderen Sonden
des in Frage kommenden Satzes keine Cluster bzw. Anhäufungen
bilden, die eine hohe Signalintensität aufweisen und die über eine
große
Anzahl von Proben hinweg im Wesentlichen keine unterschiedliche
Expression aufweisen. Die vorliegende Erfindung umfasst ferner Algorithmen
zum Durchführen
der vorliegenden Verfahren, die auf ein computerlesbares Medium
aufgezeichnet sind, sowie Rechenanalysesysteme, die dieselben umfassen.
Ebenfalls vorgesehen sind Nukleinsäurearrays, die mit Normalisierungssonden
erzeugt werden, die Sequenzen aufweisen, die durch die vorliegenden
Verfahren identifiziert werden, sowie Verfahren zum Verwenden derselben.
-
Bevorzugte
Ausführungsbeispiele
der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf
die beiliegenden Zeichnungen näher
erläutert.
Es zeigen:
-
1 ein
Flussdiagramm, das die Schritte der vorliegenden Verfahren darstellt;
-
2 einen
Graphen des logarithmischen Verhältnisses
gegenüber
der Signalintensität
für eine
Reihe von Normalisierungssonden, die gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung identifiziert wurden, gemäß der Beschreibung
in dem nachstehenden experimentellen Abschnitt.
-
Bei
der vorliegenden Anmeldung beziehen sich die folgenden Begriffe
auf die angegebenen Charakteristika, wenn keine gegenteilige Absicht
angegeben ist.
-
Wenn
keine andere Definition angegeben ist, weisen alle hierin verwendeten
technischen und wissenschaftlichen Begriffe dieselbe Bedeutung auf,
wie sie üblicherweise
durch Fachleute auf dem Fachgebiet, zu dem diese Erfindung gehört, verstanden
werden. Trotzdem sind bestimmte Elemente der Deutlichkeit und Übersichtlichkeit
halber nachstehend definiert.
-
Ein „Biopolymer" ist ein Polymer
von einem oder mehreren Typen sich wiederholender Einheiten. Biopolymere
finden sich üblicherweise
in biologischen Systemen und umfassen insbesondere Polysaccharide (z.
B. Kohlehydrate), Peptide (wobei dieser Begriff verwendet wird,
um Polypeptide und Proteine zu umfassen) und Polynucleotide sowie
ihre Analoga, z. B. diejenigen Verbindungen, die aus Aminosäureanaloga
oder Nicht-Aminosäuregruppen
oder Nucleotidanaloga oder Nicht-Nucleotidgruppen bestehen oder
dieselben enthalten. Biopolymere umfassen Polynucleotide, bei denen
die herkömmliche
Hauptkette durch eine nicht in der Natur vorkommende oder synthetische
Hauptkette ersetzt wurde, und Nukleinsäu ren (oder synthetische oder in
der Natur vorkommende Analoga), bei denen eine oder mehrere der
herkömmlichen
Basen durch eine (natürliche
oder synthetische) Gruppe ersetzt wurde, die in der Lage ist, an
Wasserstoffbindungsinteraktionen vom Watson-Crick-Typ teilzunehmen.
Polynucleotide umfassen einfache oder mehrsträngige Konfigurationen, wobei
einer oder mehrere der Stränge
eventuell nicht vollständig
miteinander ausgerichtet sind. Ein „Nucleotid" bezieht sich auf eine Teileinheit einer
Nukleinsäure
und weist eine Phosphatgruppe, einen 5-Kohlenstoff-Zucker und eine
stickstoffhaltige Base auf, sowie funktionelle Analoga (ob sie nun
synthetisch sind oder in der Natur vorkommen) derartiger Teileinheiten,
die in der Polymerform (als Polynucleotid) auf eine sequenzspezifische
Art und Weise, die analog ist zu der von zwei in der Natur vorkommenden
Polynucleotiden, mit in der Natur vorkommenden Polynucleotiden hybridisieren
können.
Biopolymere umfassen DNA (einschließlich cDNA), RNA, Oligonucleotide
und PNA und andere Polynucleotide, die in der U.S.-Patentschrift
Nr. 5,948,902 und den dort erwähnten
Referenzdokumenten (von denen alle durch Bezugnahme in das vorliegende
Dokument aufgenommen sind), unabhängig der Quelle, beschrieben
sind. Ein „Oligonucleotid" bezieht sich allgemein
auf ein Nucleotidmultimer einer Länge von etwa 10 bis 100 Nucleotiden,
wohingegen ein „Polynucleotid" ein Nucleotidmultimer
mit einer beliebigen Anzahl von Nucleotiden umfasst. Ein „Biomonomer" verweist auf eine
einzelne Einheit, die mit denselben oder anderen Biomonomeren verknüpft werden
kann, um ein Biopolymer zu bilden (z. B. eine einzelne Aminosäure oder
ein einzelnes Nucleotid mit zwei Verknüpfungsgruppen, von denen eine
bzw. die beide entfernbare Schutzgruppen aufweisen kann bzw. können).
-
Ein „Array" umfasst jegliche
eindimensionale, zweidimensionale oder im Wesentlichen zweidimensionale
(sowie eine dreidimensionale) Anordnung adressierbarer Regionen;
die einen bestimmten chemischen Anteil oder bestimmte chemische
Anteile (z. B. Biopolymere wie z. B. Polynucleotid- oder Oligonucleotidsequenzen
(Nukleinsäuren),
Polypeptide (z. B. Proteine), Kohlehydrate, Lipide usw.), die dieser
Region zugeordnet sind, tragen. Im weitesten Sinne sind die bevorzugten
Arrays Arrays von polymeren Bindemitteln, wobei die polymeren Bindemittel
jegliche der Folgenden sein können:
Polypeptide, Proteine, Nukleinsäuren,
Polysaccharide, synthetische Nachahmungsstoffe derartiger biopolymeren
Bindemittel usw. Bei vielen interessierenden Ausführungsbeispielen
sind die Arrays Arrays von Nukleinsäuren, einschließlich Oligonucleotide,
Polynucleotide, cDNAs, mRNAs, synthetische Nachahmungsstoffe derselben
und dergleichen. Dort, wo die Arrays Arrays von Nukleinsäuren sind,
können
die Nukleinsäuren
an jeglichem Punkt entlang der Nukleinsäurekette kovalent an die Arrays
angehängt
sein, sind jedoch im allgemeinen an eine deren Endungen (z. B. die
3'- oder die 5'-Endung) angehängt. Manchmal
sind die Arrays Arrays von Polypeptiden, z. B. Proteinen oder Fragmenten
derselben.
-
Jegliches
gegebene Substrat kann ein, zwei, vier oder mehr Arrays tragen,
die auf einer vorderen Oberfläche
des Substrats angeordnet sind. Je nach Verwendung können beliebige
oder alle Arrays identisch sein oder sich voneinander unterscheiden
und können
jeweils mehrere Punkte („spots") oder Merkmale enthalten.
Ein typisches Array kann in einem Bereich von weniger als 20 cm2 oder sogar weniger als 10 cm2 mehr als
zehn, mehr als einhundert, mehr als eintausend, mehr als zehntausend
Merkmale oder sogar mehr als hunderttausend Merkmale enthalten.
Beispielsweise können
Merkmale Breiten (d. h., für
einen runden Punkt, Durchmesser) im Bereich von 10 μm bis 1,0
cm aufweisen. Bei anderen Ausführungsbeispielen
kann jedes Merkmal eine Breite im Bereich von 1,0 μm bis 1,0
mm, üblicherweise
5,0 μm bis
500 μm und
noch üblicher 10 μm bis 200 μm, aufweisen.
Nicht-runde Merkmale können
Flächenbandbreiten
aufweisen, die äquivalent zu
kreisförmigen
Merkmalen mit den vorstehenden Breitenbandbreiten (Durchmesserbandbreiten)
sind. Zumindest manche oder alle Merkmale weisen unterschiedliche Zusammensetzungen
auf (beispielsweise können
die verbleibenden Merkmale, wenn jegliche Wiederholungen jeder Merkmalszusammensetzung
ausgeschlossen ist, zumindest 5 %, 10 % oder 20 % der Gesamtanzahl
der Merkmale ausmachen). Es sind üblicherweise Bereiche zwischen
einzelnen Merkmalen (jedoch nicht unbedingt) vorhanden, die kein
Polynucleotid (oder kein anderes Biopolymer oder keinen anderen
chemischen Anteil eines Typs, aus dem die Merkmale bestehen) tragen.
Derartige Bereiche zwischen einzelnen Merkmalen sind üblicherweise
dort vorhanden, wo die Arrays durch Prozesse gebildet werden, die
eine Tropfenaufbringung von Reagenzien beinhalten, die eventuell nicht
vorhanden sind, wenn z. B. mit Licht gelenkte Syntheseherstellungsverfahren
verwendet werden. Man wird jedoch einsehen, dass die Zwischenräume zwischen
den Merkmalen, wenn sie vorhanden sind, verschiedene Größen und
Konfigurationen aufweisen könnten.
-
Jedes
Array kann eine Fläche
von weniger als 100 cm2 oder sogar weniger
als 50 cm2, 10 cm2 oder
1 cm2 abdecken. Bei vielen Ausführungsbeispielen
ist das Substrat, das das eine oder die mehreren Arrays trägt, allgemein
als rechteckiger Festkörper
(obwohl auch andere Formen möglich
sind) mit einer Länge
von mehr als 4 mm und weniger als 1 m, üblicherweise mehr als 4 mm
und weniger als 600 mm, noch üblicher
weniger als 400 mm; einer Breite von mehr als 4 mm und weniger als
1 m, üblicherweise
weniger als 500 mm und noch üblicher
weniger als 400 mm; und einer Dicke von mehr als 0,01 mm und weniger
als 5,0 mm; üblicherweise mehr
als 0,1 mm und weniger als 2 mm, und noch üblicher mehr als 0,2 und weniger
als 1 mm geformt. Bei Arrays, die durch ein Erfassen der Fluoreszenz
gelesen werden, kann das Substrat aus einem Material bestehen, das
auf eine Beleuchtung mit dem Anregungslicht hin eine geringe Fluoreszenz
emittiert. In dieser Situation kann das Substrat zusätzlich relativ
transparent sein, um die Absorption des einfallenden beleuchtenden Laserlichts
und ein anschließendes
Erwärmen,
falls sich der fokussierte Laserstrahl zu langsam über eine
Region bewegt, zu verringern. Beispielsweise kann das Substrat 10
zumindest 20 % oder 50 % (oder sogar zumindest 70 %, 90 % oder 95
%) des auf die Vorderfläche
auftreffenden, beleuchtenden Lichts, wie es über das, gesamte integrierte
Spektrum dieses beleuchtenden Lichts oder, alternativ dazu, bei
532 nm oder 633 nm gemessen wird, transmittieren.
-
Arrays
können
unter Verwendung einer Tropfenaufbringung aus Pulsstrahlvorrichtungen
entweder von Polynucleotid-Vorläufer-Einheiten
(z. B. Monomeren) im Fall einer In-Situ-Herstellung, oder des zuvor erhaltenen
Polynucleotids hergestellt werden. Derartige Verfahren sind beispielsweise
in den zuvor erwähnten
Referenzdokumenten, einschließlich
der U.S.-Patentschriften Nrn. 6,242,266, 6,232,072, 6,180,351, 6,171,797, 6,323,043
sowie der U.S.-Patentanmeldung
mit der Seriennummer 09/302,898, die am 30. April 1999 von Caren
u. a. eingereicht wurden, und den dort zitierten Referenzdokumenten
ausführlich
beschrieben. Diese Referenzen sind durch Bezugnahme in das vorliegende
Dokument aufgenommen. Für
die Herstellung können weitere
Tropfenaufbringungsverfahren verwendet werden, wie zuvor in diesem
Dokument beschrieben wurde. Ferner können statt Tropfenaufbringungsverfahren
auch mit Licht gelenkte Herstellungsverfahren verwendet werden,
wie sie in der Technik bekannt sind. Es müssen keine Bereiche zwischen
einzelnen Merkmalen vorliegen, insbesondere wenn die Arrays anhand
von mit Licht gelenkten Syntheseprotokollen hergestellt werden.
-
Ein
Array ist „adressierbar", wenn es mehrere
Regionen unterschiedlicher Anteile (z. B. unterschiedlicher Polynucleotidsequenzen)
aufweist, derart, dass eine Region (d. h. ein „Merkmal" oder „Punkt" des Arrays) an einer jeweiligen vorbestimmten
Position (d. h. einer „Adresse") auf dem Array ein
bestimmtes Ziel oder eine bestimmte Klasse von Zielen erfasst (obwohl
ein Merkmal gelegentlich auch Nicht-Ziele dieses Merkmals erfassen kann).
Arraymerkmale sind üblicherweise
durch dazwischenliegende Räume
getrennt, dies muss jedoch nicht der Fall sein. Im Fall eines Arrays
wird das „Ziel" als ein Anteil in
einer mobilen Phase (üblicherweise flüssig) bezeichnet,
der anhand von Sonden („Zielsonden"), die an den verschiedenen
Regionen an das Substrat gebunden sind, erfasst werden soll. Jedoch
kann entweder das „Ziel" oder auch die „Zielsonde" dasjenige bzw. diejenige
sein, das bzw. die durch das bzw. die jeweils andere zu bewerten
ist (somit könnte
jede(s) von beiden ein unbekanntes Gemisch von Polynucleotiden sein,
das durch ein Binden mit dem bzw. der anderen zu bewerten ist).
Eine „Abtastregion" bezieht sich auf
einen zusammenhängenden
(vorzugsweise rechteckigen) Bereich, in dem die interessierenden
Arraypunkte oder -merkmale, wie sie oben definiert wurden, zu finden
sind. Die Abtastregion ist derjenige Abschnitt des beleuchteten
Gesamtbereichs, aus dem die sich ergebende Fluoreszenz erfasst und
aufgezeichnet wird. Für
die Zwecke dieser Erfindung umfasst die Scanregion den gesamten
Bereich des Dias, das bei jedem Durchgang der Linse abgetastet wird,
zwischen dem ersten interessierenden Merkmal und dem letzten interessierenden
Merkmal, auch wenn dazwischenliegende Bereiche vorliegen, die keine
interessierenden Merkmale aufweisen. Ein „Array-Layout" bezieht sich auf
eine oder mehr Charakteristika der Merkmale, z. B. Positionierung
von Merkmalen auf dem Substrat, ein oder mehrere Merkmalsabmessungen
sowie einen Hinweis auf einen Anteil an einer gegebenen Position.
Die Begriffe „hybridisieren" und „binden" werden in Bezug
auf Polynucleotide austauschbar verwendet.
-
Der
Begriff „Substrat" bezieht sich gemäß seiner
Verwendung in diesem Dokument auf eine Oberfläche, auf der Markierungsmoleküle oder
-sonden, z. B. ein Array, haften können. Glasdias sind das üblichste Substrat
für Biochips,
obwohl auch Rauch-Silika, Silizium, Kunststoff oder andere Materialien
geeignet sind.
-
Der
Begriff „flexibel" wird hierin verwendet,
um auf eine Struktur, z. B. eine untere Oberfläche oder eine Abdeckung, Bezug
zu nehmen, die in der Lage ist, gebogen, gefaltet oder auf ähnliche
Weise manipuliert zu werden, ohne zu brechen. Beispielsweise ist
eine Abdeckung flexibel, wenn sie in der Lage ist, von der unteren Oberfläche abgezogen
zu werden, ohne zu brechen.
-
„Flexibel" in Bezug auf ein
Substrat oder eine Substratbahn nimmt darauf Bezug, dass das Substrat 180
Grad um eine Rolle eines Radius von weniger als 1,25 cm gebogen
werden kann. Das Substrat kann zumindest 100 mal ohne Defekt (z.
B. Rissbildung) oder Verformung des Kunststoffs wiederholt in beide
Richtungen gebogen und begradigt werden. Dieses Biegen muss innerhalb
der elastischen Grenzen des Materials erfolgen. Der vorstehende
Flexibilitätstest
wird bei einer Temperatur von 20°C
durchgeführt.
-
Eine „Bahn" bezieht sich auf
ein langes, durchgehendes Stück
eines Substratmaterials, dessen Länge größer ist als seine Breite. Beispielsweise
kann das Verhältnis
der Bahnlänge
zur -breite zumindest 5/1, 10/1, 50/1, 100/1, 200/1 oder 500/1 oder
sogar zumindest 1.000/1 betragen.
-
Das
Substrat kann flexibel sein (z. B. eine flexible Bahn). Wenn das
Substrat flexibel ist, kann es verschiedene Längen aufweisen, einschließlich zumindest
1 m, zumindest 2 m oder zumindest 5 m (oder sogar zumindest 10 m).
-
Der
Begriff „starr" wird hierin verwendet,
um auf eine Struktur, z. B. eine untere Oberfläche oder eine Abdeckung, Bezug
zu nehmen, die sich nicht ohne weiteres biegen lässt, ohne zu brechen, d. h.
die Struktur ist nicht flexibel.
-
Die
Begriffe „spezifisch
zu ... hybridisieren" und „spezifische
Hybridisierung" und „selektiv
zu ... hybridisieren",
wie sie hierin verwendet werden, beziehen sich auf das Binden, Duplexieren
oder Hybridisieren eines Nukleinsäuremoleküls unter strengen Bedingungen,
vorzugsweise zu einer bestimmten Nucleotidsequenz.
-
Die
Abk. „M" und „mM" stehen für die Einheiten
mol/l bzw. mmol/l. Der Begriff „strenge Bedingungen" bezieht sich auf
Bedingungen, unter denen eine Sonde vorzugsweise zu ihrer Zielteilsequenz
und, in geringerem Umfang, zu anderen Sequenzen, oder überhaupt
nicht zu anderen Sequenzen, hybridisiert. Anders gesagt bezieht
sich der Begriff „strenge
Hybridisierungsbedingungen" gemäß seiner
Verwendung in diesem Dokument auf Bedingungen, die kompatibel sind,
um Duplexe auf einer Arrayoberfläche
zwischen komplementären
Bindebaugliedern, z. B. zwischen Sonden und komplementären Zielen
in einer Probe, z. B. Duplexe von Nukleinsäuresonden, wie z. B. DNA-Sonden,
und ihren entsprechenden Nukleinsäurezielen, die in der Probe vorliegen,
z. B. ihren entsprechenden mRNA-Analyten, die in der Probe vorliegen,
zu erzeugen. Eine „strenge Hybridisierung" und „strenge
Hybridisierungswaschbedingungen" im
Zusammenhang einer Nukleinsäure-Hybridisierung
(z. B. in einem Array, südliche
und nördliche
Hybridisierungen) sind sequenzabhängig und unterscheiden sich
unter unterschiedlichen Umweltparametern. Strenge Hybridisierungsbedingungen,
die verwendet werden können,
um Nukleinsäuren
innerhalb des Schutzumfangs der Erfindung zu identifizieren, können z.
B. eine Hybridisierung in einem Puffer umfassen, der 50 % Formamid,
5 × SSC
und 1 % SDS bei 42°C
aufweist, oder eine Hybridisierung in einem Puffer, der 5 × SSC und
1 % SDS bei 65°C
aufweist, beide mit einer Wäsche
von 0,2 × SSC
und 0,1 % SDS bei 65°C.
Beispielhafte strenge Hybridisierungsbedingungen können auch
eine Hybridisierung in einem Puffer von 40 % Formamid, 1 M NaCl
und 1 % SDS bei 37°C
und eine Wäsche
in 1 × SSC
bei 45°C
umfassen. Alternativ dazu können
eine Hybridisierung zu einer filtergebundenen DNA in 0,5 M NaHPO4, 7 % Natriumdodecylsulfat (SDS), 1 mμM EDTA bei
65°C und
eine Wäsche
in 0,1 × SSC/0,1
% SDS bei 68°C
verwendet werden. Zusätzliche
strenge Hybridisierungsbedingungen umfassen eine Hybridisierung
bei 60°C
oder mehr und 3 × SSC
(450 mM Natriumchlorid/45 mM Natriumcitrat) oder eine Inkubation
bei 42°C
in einer Lösung,
die 30 % Formamid, 1 M NaCl, 0,5 % Natriumsarkosin, 50 mM MES, pH-Wert
6,5, ent hält.
Fachleute werden ohne weiteres erkennen, dass alternative, jedoch
vergleichbare Hybridisierungs- und Waschbedingungen verwendet werden
können,
um ähnlich
strenge Bedingungen zu schaffen.
-
Bei
bestimmten Ausführungsbeispielen
legt die Strenge der Waschbedingungen die Bedingungen fest, die
bestimmen, ob eine Nukleinsäure
spezifisch zu einer Sonde hybridisiert wird. Waschbedingungen, die verwendet
werden, um Nukleinsäuren
zu identifizieren, können
beispielsweise folgende umfassen: eine Salzkonzentration von etwa
0,02 Mol bei einem pH-Wert von 7 und einer Temperatur von zumindest
etwa 50°C oder
etwa 55°C
bis etwa 60°C;
oder eine Salzkonzentration von etwa 0,15 M NaCl bei 72°C über etwa
15 Minuten; oder eine Salzkonzentration von etwa 0,2 × SSC bei
einer Temperatur von zumindest etwa 50°C oder etwa 55°C bis etwa
60°C über etwa
15 bis etwa 20 Minuten; oder der Hybridisierungskomplex wird zweimal mit
einer Lösung
mit einer Salzkonzentration von etwa 2 × SSC, die 0,1 % SDS enthält, 15 Minuten
lang bei Raumtemperatur gewaschen und anschließend zweimal mit 0,1 × SSC, das
0,1 % SDS enthält,
15 Minuten lang bei 68°C
gewaschen; oder äquivalente
Bedingungen. Strenge Bedingungen für das Waschen können z. B.
auch 0,2 × SSC/0,1
% SDS bei 42°C
betragen. In Fällen,
in denen die Nukleinsäuremoleküle Deoxyoligonucleotide
(„Oligos") sind, können strenge
Bedingungen ein Waschen in 6 × SSC/0,05
Natriumpyrophosphat bei 37°C
(für 14-Basen-Oligos),
48°C (für 17-Basen-Oligos),
55°C (für 20-Basen-Oligos)
und 60°C
(für 23-Basen-Oligos)
umfassen. In Bezug auf ausführliche
Beschreibungen äquivalenter
Hybridisierungs- und Waschbedingungen und in Bezug auf Reagenzien
und Puffer, z. B. SSC-Puffer und äquivalente Reagenzien und Bedingungen,
siehe Sambrook, Ausubel oder Tijssen (nachstehend zitiert).
-
Strenge
Hybridisierungsbedingungen sind Hybridisierungsbedingungen, die
zumindest so streng sind wie die obigen repräsentativen Bedingungen, wobei
Bedingungen als mindestens so streng erachtet werden, wenn sie zumindest
etwa 80 % so streng, üblicherweise
zumindest etwa 90 % so streng sind wie die obigen spezifischen strengen
Bedingungen. Andere strenge Hybridisierungsbedingungen sind in der
Technik bekannt und können
nach Bedarf ebenfalls verwendet werden.
-
Mit „entfernte
Position" meint
man eine andere Position als die Position, an der das Array vorliegt
und eine Hybridisierung erfolgt. Beispielsweise könnte eine
entfernte Position eine andere Position (z. B. ein anderes Büro, Labor
usw.) in derselben Stadt, eine andere Position in einer anderen
Stadt, eine andere Position in einem anderen Staat, eine andere
Position in einem anderen Land usw. sein. Wenn also ein Posten als „entfernt" von einem anderen
angegeben wird, ist damit gemeint, dass sich die zwei Posten zumindest
in unterschiedlichen Räumen
oder unterschiedlichen Gebäuden
befinden und zumindest eine Meile, zehn Meilen oder zumindest einhundert
Meilen voneinander entfernt sein können. Ein „Kommunizieren" von Informationen
bezieht sich auf ein Senden der Daten, die diese Informationen darstellen,
als elektrische Signale über
einen geeigneten Kommunikationskanal (z. B. ein privates oder öffentliches
Netzwerk). Ein „Weiterleiten" eines Postens bezieht
sich auf ein beliebiges Mittel, diesen Posten von einer Position
zur nächsten
zu befördern,
entweder durch ein physisches Transportieren dieses Postens oder
auf andere Art und Weise (wo dies möglich ist), und umfasst zumindest
im Fall von Daten ein physisches Transportieren eines Mediums, das
die Daten trägt oder
das die Daten kommuniziert. Ein Array-„Paket" kann das Array plus lediglich ein Substrat
sein, auf dem das Array angeordnet ist, obwohl das Paket andere
Merkmale (z. B. ein Gehäuse
mit einer Kammer) umfassen kann. Eine „Kammer" bezieht sich auf ein umschlossenes
Volumen (obwohl eine Kammer durch ein oder zwei Tore zugänglich sein
kann). Man wird ferner erkennen, dass Wörter wie z. B. „oberste
(r, s)", „obere
(r, s)" und „untere
(r, s)" in der gesamten
vorliegenden Anmeldung lediglich in einem relativen Sinn verwendet
werden.
-
Ein „computerbasiertes
System" bezieht
sich auf die Hardwareeinrichtung, Softwareeinrichtung und Datenspeichereinrichtung,
die verwendet werden, um die Informationen der vorliegenden Erfindung
zu analysieren. Die minimale Hardware der computerbasierten Systeme
der vorliegenden Erfindung umfasst eine Zentralverarbeitungseinheit
(CPU), eine Eingabeeinrichtung, eine Ausgabeeinrichtung und eine
Datenspeichereinrichtung. Erfahrene Fachleute werden ohne weiteres
erkennen, dass jegliche derzeit erhältliche computerbasierte Systeme
zur Verwendung bei der vorliegenden Erfindung geeignet sind. Die
Datenspeichereinrichtung kann jegliche Herstellung umfassen, die
ein Aufzeichnen der vorliegenden Erfindung gemäß der obigen Beschreibung umfasst,
oder eine Speicherzugriffseinrichtung, die auf eine derartige Herstellung
zugreifen kann.
-
Ein „Aufzeichnen" von Daten, einer
Programmierung oder anderer Informationen auf ein computerlesbares
Medium bezieht sich auf einen Prozess des Speicherns von Informationen
unter Verwendung jeglicher Verfahren, wie sie in der Technik bekannt
sind. Auf der Basis der Einrichtung, die zum Zugreifen auf die gespeicherten
Informationen verwendet wird, kann jegliche zweckmäßige Datenspeicherstruktur
gewählt
werden. Zur Speicherung kann eine Vielzahl von Datenprozessorprogrammen
und -formaten verwendet werden, z. B. Textverarbeitungsdatei, Datenbankformat
usw.
-
„Prozessor" bezieht sich auf
jegliche Kombination von Hardware und/oder Software, die die von
derselben verlangten Funktionen erfüllt. Beispielsweise kann jeglicher
Prozessor hierin ein programmierbarer digitaler Mikroprozessor sein,
wie er beispielsweise in Form einer elektronischen Steuerung, eines
Hauptrechners, eines Servers oder eines Personal-Computers (Desktop
oder tragbar) erhältlich
ist. Wenn der Prozessor programmierbar ist, kann eine geeignete
Programmierung von einer entfernten Position an den Prozessor kommuniziert
oder zuvor in einem Computerpro- grammprodukt (z. B. einem tragbaren
oder feststehenden computerlesbaren Speichermedium, ob es nun auf
einem magnetischen, optischen oder Halbleitergerät basiert) gesichert werden.
Beispielsweise kann ein magnetisches Medium oder eine optische Platte
die Programmierung tragen und kann anschließend durch eine geeignete Lesevorrichtung,
die mit jedem Prozessor an seiner entsprechenden Station kommuniziert,
gelesen werden.
-
Es
werden Verfahren zum Identifizieren einer Sequenz einer Sonde, z.
B. einer biopolymeren Sonde, z. B. einer Nukleinsäure, die
sich zur Verwendung als oberflächenimmobilisierte
Normalisierungssonde auf einem Nukleinsäurearray eignet, vorgesehen.
Ein Merkmal der vorliegenden Verfahren besteht darin, dass ein Satz
von rechnerisch ermittelten, in Frage kommenden anfänglichen
Sequenzen empirisch ausgewertet werden, um funktionelle Daten zu
erhalten, die dann verwendet werden, um die in Frage kommenden Sequenzen bezüglich ihrer
Eignung als Normalisierungssonden zu bewerten. Sequenzen, die als
zur Verwendung als Normalisierungssonden gemäß den vorliegenden Verfahren
geeignet identifiziert werden, sind solche, die mit anderen Sonden
des in Frage kommenden Satzes keine Cluster bzw. Anhäufungen
bilden, die eine hohe Signalintensität aufweisen und die über eine
große
Anzahl unterschiedlicher Proben hinweg im Wesentlichen keine unterschiedliche
Expression aufweisen. Die vorliegende Erfindung umfasst ferner Algorithmen
zum Durchführen
der vorliegenden Verfahren, die auf ein computerlesbares Medium
aufgezeichnet sind, sowie Rechenanalysesysteme, die dieselben umfassen.
Ebenfalls vorgesehen sind Nukleinsäurearrays, die mit Sonden erzeugt werden,
die Sequenzen aufweisen, die durch die vorliegenden Verfahren identifiziert
werden, sowie Verfahren zum Verwenden derselben.
-
Bevor
die vorliegende Erfindung näher
beschrieben wird, sollte man verstehen, dass die Erfindung nicht
auf die nachstehend beschriebenen bestimmten Ausführungsbeispiele der
Erfindung beschränkt
ist, da Abwandlungen der jeweiligen Ausführungsbeispiele durchgeführt werden
können
und trotzdem in den Schutzumfang der beigefügten Patentansprüche fallen.
Ferner ist zu verstehen, dass die verwendete Terminologie lediglich
dem Zweck des Beschreibens bestimmter Ausführungsbeispiele dient und keine
Einschränkung
darstellen soll. Stattdessen wird der Schutzumfang der vorliegenden
Erfindung durch die beigefügten
Patentansprüche
festgelegt.
-
In
dieser Spezifikation und in den beigefügten Patentansprüchen umfassen
die Singularformen „ein", „eine" usw. sowie „der", „die", „das" usw. Pluralbezugnahmen,
es sei denn, der Kontext gibt eindeutig etwas anders vor.
-
Man
muss verstehen, dass, wenn ein Wertebereich angegeben ist, jeder
dazwischenliegende Wert bis zum Zehntel der Einheit der Untergrenze,
es sei denn, der Kontext gibt eindeutig etwas anderes vor, zwischen der
Obergrenze und der Untergrenze dieses Bereichs und jeglicher andere
angegebene oder dazwischenliegende Wert in diesem angegeben Bereich
in der Erfindung enthalten ist. Die Ober- und Untergrenze dieser kleineren
Bereiche können
unabhängig
in den kleineren Bereichen enthalten sein und sind ebenfalls in
der Erfindung beinhaltet, vorbehaltlich jegliches spezifisch ausgeschlossenen
Wertes in dem angegebenen Bereich. Wenn der angegebene Bereich eine
oder beide Grenzen umfasst, sind Bereiche, die eine oder beide diese eingeschlossenen
Grenzen ausschließen,
ebenfalls in der Erfindung enthalten.
-
Wenn
keine anderslautende Definition vorliegt, weisen alle hierin verwendeten
technischen und wissenschaftlichen Begriffe dieselbe Bedeutung auf,
wie sie üblicherweise
von Fachleuten auf dem Gebiet, zu dem diese Erfindung zählt, verstanden
wird. Obwohl jegliche Verfahren, Vorrichtungen und Materialien,
die den hierin beschriebenen ähnlich
oder zu denselben äquivalent
sind, bei der Praxis oder beim Testen der Erfindung verwendet werden
können,
werden nun die bevorzugten Verfahren, Vorrichtungen und Materialien
beschrieben. Hierin erwähnte
Verfahren können
in jeglicher beliebigen Reihenfolge der erwähnten Ereignisse, die logisch
möglich
ist, sowie in der erwähnten
Reihenfolge der Ereignisse durchgeführt werden.
-
Alle
in dieser Anmeldung erwähnten
Patentschriften und anderen Referenzdokumente sind durch Bezugnahme
in die vorliegende Anmeldung aufgenommen, sofern sie nicht im Widerspruch
zur vorliegenden Anmeldung stehen (in diesem Fall hat die vorliegende
Anmeldung Vorrang).
-
Wie
oben zusammengefasst wurde, liefert die vorliegende Erfindung Verfahren
zum Identifizieren oder Entwerfen von Normalisierungssonden zur
Verwendung bei Arraystrukturen, wobei die Normalisierungssonden
chemische Sonden, z. B. biopolymere Sonden, sind, wie z. B. Nukleinsäuren. Obwohl
die folgende Beschreibung der Übersichtlichkeit
der Beschreibung halber anhand von Normalisierungs-Nukleinsäuresondenentwurfsprotokollen
bereitgestellt wird, ist der Schutzumfang der Erfindung nicht hierauf
beschränkt,
sondern erstreckt sich Stattdessen auf die Identifizierung oder
den Entwurf geeigneter Normalisierungssonden zur Verwendung bei
einem beliebigen Typ von Arraystruktur.
-
Bei
der weiteren Beschreibung der vorliegenden Erfindung werden zunächst die
Verfahren zum Identifizieren geeigneter Normalisierungssondensequenzen
ausführlicher
beschrieben, wonach eine erneute Überprüfung von Arrays, die unter
Verwendung von Sonden hergestellt werden können, die durch die vorliegenden Verfahren
identifiziert werden, sowie repräsentativerr
Anwendungen für
derartige Arrays folgt.
-
Verfahren
-
Wie
oben zusammenfassend erläutert
wurde, liefert die vorliegende Erfindung Verfahren zum Identifizieren
einer Sequenz einer Nukleinsäure,
die sich zur Verwendung als oberflächenimmobilisierte Normalisierungssonde
für ein
Nukleinsäurearray
eignet. Mit anderen Worten liefert die vorliegende Erfindung Verfahren zum
Entwerfen von Nukleinsäuresonden,
die zur Verwendung als Normalisierungssonden auf Nukleinsäurearrays
geeignet sind. Die vorliegenden Verfahren führen, zur Identifizierung von
Normalisierungssonden, die über
eine Mehrzahl von unterschiedlichen Probentypen eine hohe Signalintensität und eine
geringe, falls überhaupt
vorhandene, Differentialexpression aufweisen. Ein Merkmal der vorliegenden
Verfahren besteht darin, dass sie sowohl Rechenschritte als auch
empirische Schritte umfassen, wobei spezifisch eine Sammlung von in
Frage kommenden Sondensequenzen für eine gegebene Zielnukleinsäure rechnerisch
aus der Sequenz der interessierenden Zielnukleinsäure identifiziert
wird, wobei die anfänglich
identifizierten in Frage kommenden Sequenzen anschließend empirisch
getestet und ferner unter Verwendung zusätzlicher Rechenschritte bewertet
werden, um eine oder mehrere geeignete Normalisierungssonden zu
identifizieren.
-
Bei
vielen Ausführungsbeispielen
umfassen die vorliegenden Verfahren die folgenden Schritte:
- (a) Identifizieren einer Mehrzahl von in Frage
kommenden Sondensequenzen für
die Zielnukleinsäure;
- (b) empirisches Auswerten jeder der identifizierten, in Frage
kommenden Sondensequenzen;
- (c) Clustern bzw. Anhäufen
der identifizierten in Frage kommenden Sondensequenzen zu zwei oder
mehr Gruppen von in Frage kommenden Sondensequenzen auf der Basis
beobachteter empirischer Datenwerte, wobei Angehörige eines Clusters über eine
Mehrzahl verschiedener experimenteller Sätze, insbesondere über eine
Mehrzahl von Differentialgenexpressionsexperimenten, im Wesentlichen
dieselbe Leistungsfähigkeit
aufweisen; und
- (d) Bewerten jeglicher verbleibender nicht geclusterter in Frage
kommender Sondensequenzen für
diejenigen, die über
eine Mehrzahl verschiedener Proben eine hohe Signalintensität und im
Wesentlichen keine Differentialexpression aufweisen, um Sequenzen
zu identifizieren, die sich zur Verwendung bei Normalisierungssonden
eignen.
-
1 liefert
ein Flussdiagramm, das jeden der obigen Schritte der vorliegenden
Verfahren zeigt. Bei der weiteren Beschreibung der vorliegenden
Verfahren wird nun jeder der obigen Schritte erneut gesondert und
ausführlicher
betrachtet.
-
Identifizierung
von in Frage kommenden Sonden
-
Wie
oben erwähnt
wurde, besteht der erste Schritt bei den vorliegenden Verfahren
darin, eine Mehrzahl von in Frage kommenden Sondensequenzen für eine interessierende
gegebene Zielnukleinsäure
zu identifizieren. Die interessierende Zielnukleinsäure ist
allgemein eine Nukleinsäure
einer bekannten Sequenz, wobei die Länge der Nukleinsäure variieren
kann, in der Regel jedoch zwischen etwa 200 nt und etwa 4.000 nt, z.
B. zwischen etwa 400 nt und etwa 2.500 nt, einschließlich zwischen
etwa 800 nt und etwa 1.500 nt, beträgt. Bei vielen Ausführungsbeispielen
weist die Zielnukleinsäure
die Sequenz eines interessierenden mRNA-Transkripts oder die komplementäre Sequenz
desselben oder die Sequenz einer Erster- oder Zweiter-Strang-DNA, die
aus einer interessierenden mRNA hergestellt ist, auf.
-
Die
in Frage kommenden Sonden werden auf der Basis zumindest eines Auswahlkriteriums
identifiziert, wobei bei vielen Ausführungsbeispielen eine Mehrzahl
verschiedener Auswahlkriterien zusammen eingesetzt werden, um die
in Frage kommenden Sonden aus der Zielnukleinsäuresequenz zu identifizieren,
wobei mit „Mehrzahl" zumindest 2 gemeint
sind, und wobei „Mehrzahl" sogar 10 oder mehr
betragen kann, üblicherweise
jedoch weniger als 5, z. B. 2 bis 3, beträgt.
-
Ein
interessierendes Auswahlkriterium, das verwendet werden kann, ist
die Entfernung von dem 3'-Ende
des mRNA-Transkripts,
das der Zielnukleinsäure
entspricht, z. B. das die Zielnukleinsäure ist oder das Komplement
der Zielnukleinsäure
ist, oder von dem die Zielnukleinsäure abgeleitet ist, z. B. dort,
wo die Zielnukleinsäure
eine Erster- oder Zweiter-Strang-cDNA ist. Wenn dieses Kriterium
eingesetzt wird, werden in Frage kommende Sequenzen der Zielnukleinsäure ausgewählt, die
sich innerhalb von zumindest etwa 2.000 nt, üblicherweise innerhalb von
etwa 1.500 nt und noch üblicher
innerhalb etwa 800 nt des 3'-Endes
der mRNA befinden, die der Zielnukleinsäure entspricht.
-
Ein
weiteres interessierendes Auswahlkriterium ist die Basenzusammensetzung
der Sondensequenz. Wenn dieses Kriterium eingesetzt wird, werden
Sequenzen, die normalerweise reich oder arm an GC sind, lange Folgen
einer einzelnen Base und/oder Basenzusammensetzungen, von denen
man weiß,
dass sie inakzeptable Arraymerkmale erzeugen, z. B. unter In-Situ-Produktionsbedingungen,
vermieden. Sequenzen, die abnormal reich oder arm an GC sind, sind
diejenigen Sequenzen, deren Prozentsätze an G- und C-Basen größer sind
als etwa 30, z. B. größer als
etwa 35, oder geringer sind als etwa 60, z. B. geringer als etwa
45. Mit „langer
Folge" einer einzelnen
Base ist ein Abschnitt von Nucleotiden derselben Base gemeint, der
größer ist als
etwa 6, z. B. größer als
etwa 10. Sequenzen, von denen man weiß, dass sie inakzeptable Arraymerkmale erzeugen,
umfassen diejenigen, die Folgen von zumindest 10 Gs enthalten, sind
aber nicht auf diese beschränkt.
-
Ein
weiteres interessierendes Auswahlkriterium ist die Homologie der
in Frage kommenden Sondensequenz in Bezug auf andere Sequenzen von
demselben Organismus, d. h. in Bezug auf andere mRNA-Transkripte
oder Komplemente desselben Organismus, von dem die interessierende
Zielsequenz, für die
die Sonde entworfen ist, erhalten wird. Sequenzen mit einem hohen
Potential, zu mehr als einem mRNA-Transkript von einem gegebenen
Organismus zu hybridisieren, werden vermieden. Das Über-Kreuz-Hybridisierung-Potential
von in Frage kommenden Sequenzen kann über eine thermodynamische Punktbewertung
der Ausgabe von BLAST, einer standardmäßigen Bioinformatik-Anwendung,
die verwendet wird, um eine Sequenzhomologie zu erfassen, und die
Fachleuten hinreichend bekannt ist, oder über jegliches andere zweckmäßige Über-Kreuz-Hybridisierung-Potential-Beurteilungsprotokoll
geschätzt
werden. Eine Verwendung dieses Kriteriums führt zur Identifizierung von
Sondensequenzen, die für
die interessierende Zielnukleinsäure
spezifisch sind.
-
Bei
bestimmten Ausführungsbeispielen
ist der verwendete Identifizierungsprozess oder -algorithmus einer,
bei dem Parameter verwendet werden, die die Anzahl identifizierter
in Frage kommender Sondensequenzen, die einander überlappen,
minimieren. Jegliche der oben aufgeführten Kriterien können eingestellt werden,
um zu einer minimalen Überlappung
der identifizierten in Frage kommenden Sondensequenzen zu führen. Der Überlappungsparameter
ist entworfen, um in Frage kommende Sonden zu ergeben, die das Ziel überspannen – falls
er nicht spezifiziert ist, identifiziert der verwendete Algorithmus
eventuell Sonden, die stark überlappt
sind (bis zu 59 von 60 Basen). Obwohl diese die besten Sonden sein
können,
vereitelt die Verwendung eines derartigen Satzes von in Frage kommenden
Sonden die Clusterungsanalyse, da derartige Sonden fast schon per
definitionem einer engen Clusterbildung unterliegen.
-
Unter
Verwendung des obigen Protokolls wird eine Mehrzahl von in Frage
kommenden Sondensequenzen für
eine gegebene Zielnukleinsäure
identifiziert. Bei manchen Ausführungsbeispielen
beträgt
die Anzahl von identifizierten in Frage kommenden Sonden-Nukleinsäuresequenzen
zumindest etwa 5, üblicherweise
zumindest etwa 7, und kann sogar 15, 20 oder mehr betragen, übersteigt üblicherweise
jedoch nicht etwa 15, wobei die Anzahl von in Frage kommenden Sondensequenzen,
die für
eine gegebene Zielnukleinsäure identifiziert
werden, bei bestimmten Ausführungsbeispielen
zwischen etwa 7 und 12, z. B. 8, 9, 10 oder 11, beträgt.
-
Bei
bestimmten Ausführungsbeispielen
wird ein Algorithmus eingesetzt, z. B. in Verbindung mit einem Rechenanalysesystem,
um in Frage kommende Sondensequenzen aus einer Zielnukleinsäure zu identifizieren.
Jeglicher zweckmäßige Algorithmus
oder Prozess, der in der Lage ist, die obige Funktion auszuführen, kann
verwendet werden. Bei vielen Ausführungsbeispielen sind die Sondenentwurfsalgorithmen
von Agilent (Agilent Technologies, Palo Alto, Kalifornien) von Interesse,
wobei die Algorithmen bei der Identifizierung von in Frage kommenden
Sondensequenzen eingesetzt werden. Im einzelnen umfassen die Entwurfsparameter, die
verwendet werden können,
folgende: 1) die bevorzugten und zulässigen Entfernungen von dem
3'-Ende, 2) die
Anzahl von Sonden, die erforderlich sind, bevor eine Basenzusammensetzungsiteration
beendet wird (wobei eine geeignete Anzahl üblicherweise zwischen etwa
20 und etwa 200, üblicherweise
zwischen etwa 50 und etwa 100 liegt), 3) die Kriterien, die verwendet
werden, um Sonden als „Überlappung" zu markieren (wobei „Überlappung" als Sonden definiert
sein kann, deren Sequenzen um eine Anzahl von Basen, z. B. mehr
als 10 nt; noch üblicherweise
mehr als 40 nt, überlappen)
und 4) die Anzahl von Sonden, die vor der Homologieberechnung benötigt werden
(wobei eine geeignete Anzahl üblicherweise
zwischen etwa 10 und etwa 40, üblicherweise
zwischen etwa 12 und etwa 20 liegt).
-
Ein
weiterer interessierender Algorithmus umfasst den Sondenauswahlalgorithmus,
der in der anhängigen
U.S.-Anmeldung mit
der Seriennummer 09/659,173, deren Offenbarung durch Bezugnahme
in das vorliegende Dokument aufgenommen ist, beschrieben ist.
-
Wie
oben angegeben wurde, führt
der obige erste Schritt bei den vorliegenden Verfahren zur Identifizierung
einer Mehrzahl verschiedener in Frage kommender Sondensequenzen
für eine
gegebene Zielnukleinsäure.
-
Empirische Bewertung von
identifizierten in Frage kommenden Sondennukleinsäuresequenzen
-
Bei
dem nächsten
Schritt der vorliegenden Verfahren wird jede der identifizierten
in Frage kommenden Sondensequenzen empirisch bewertet. Im einzelnen
wird jede der identifizierten in Frage kommenden Sondensequenzen
bezüglich
ihrer Leistungsfähigkeit
unter einer Mehrzahl von verschiedenen experimentellen Sätzen, speziell
einer Mehrzahl von Differentialgenexpressionsexperimenten, bewertet,
um eine Sammlung von empirisch erhaltenen Leistungsfähigkeitsdatenwerten
für jede
der in Frage kommenden Nukleinsäuresondensequenzen
für jede
der Mehrzahl von verschiedenen experimentellen Bedingungen zu erhalten.
Bei vielen Ausführungsbeispielen
sind die experimentellen Bedingungen Differentialgenexpressions-Versuchsexperimente,
wobei eine gegebene experimentelle Bedingung ein Differentialgenexpressionsversuch
ist, der ein bestimmtes Nukleinsäureprobenpaar
verwendet, wobei jede Probe des Paares von einer anderen Quelle,
z. B. Gewebe oder Zell-Linie, erhalten wird. Versuche, die auf einem
Differentialgenexpressionsarray beruhen, sind Fachleuten hinreichend
bekannt. Die Anzahl von unterschiedlichen, auf einem Differentialgenexpressionsarrayberuhenden
Versuchen, für
die eine gegebene in Frage kommende Sonde empirisch bewertet wird,
kann variieren, wobei die Zahl zwischen etwa 2 und etwa 20, z. B.
zwischen etwa 5 und etwa 15, einschließlich zwischen etwa 7 und etwa
12, z. B. bei 10, liegen kann. Zwei beliebige Differentialgenexpressionsversuche
oder -protokolle werden als unterschiedlich erachtet, wenn zumindest
eine der Nukleinsäureproben,
die die Paare zweier beliebiger Paare bilden, zwischen den zwei
Paaren unterschiedlich ist.
-
Die
Differentialgenexpressionsversuche werden üblicherweise durchgeführt, indem
zuerst ein Array von in Frage kommenden Nukleinsäuresonden bereitgestellt wird,
die auf einer Oberfläche
eines festen Trägers
immobilisiert sind, wobei das Array eine substratoberflächenimmobilisierte
in Frage kommende Nukleinsäuresonde
für jede
der empirisch zu bewertenden identifizierten in Frage kommenden
Sondensequenzen umfasst. Mit anderen Worten ist ein Array vorgesehen,
das eine Sonde für
jede der zu bewertenden in Frage kommenden Sondensequenzen umfasst,
d. h. alle zu bewertenden in Frage kommenden Sondensequenzen weisen
auf dem Array entsprechende Sonden auf, die dieselbe Sequenz umfassen.
Die Arrays von in Frage kommenden Sonden können auf viele verschiedene
Weisen bereitgestellt werden, z. B. über eine In-Situ-Produktion, wie sie
in den U.S.-Patentschriften Nrn. 6,451,998; 6,446,682; 6,440,669;
6,420,180; 6,372,483; 6,323,043; und 6,242,266, deren Offenbarungen
durch Bezugnahme in das vorliegende Dokument aufgenommen sind, beschrieben
ist.
-
Die
in Frage kommenden oberflächenimmobilisierten
Sonden, die die Sequenzen der in Frage kommenden Sondensequenzen
aufweisen, werden dann unter Differentialgenexpressionsanalysebedingungen mit
zwei oder mehreren Sätzen
von Nukleinsäureprobenpaaren
in Berührung
gebracht, um die Sonden zu bewerten. Bei bestimmten Ausführungsbeispielen
wird ein in Frage kommendes identisches Sondenarray mit jedem unterschiedlichen
Probenpaar des Satzes von unterschiedlichen Probenpaaren in Berührung gebracht, während bei
anderen Ausführungsbeispielen
dasselbe Nukleinsäurearray
mit zwei oder mehr Probenpaaren in Berührung gebracht werden kann,
solange etwaige hybridisierte Ziele von jeglichem vorherigem Versuch
vor einer Berührung
mit dem nächsten
Probenpaar auf effiziente Weise entfernt bzw. „gestrippt" werden. Nachfolgend werden Differentialgenexpressionsversuchsprotokolle
näher beschrieben.
-
Bei
einem repräsentativen
Beispiel des obigen empirischen Bewertungsschritts der vorliegenden
Verfahren werden unter Verwendung eines In-Situ-Nukleinsäurearraysyntheseprotokolls
mehrere Kopien eines Mikroarrays erzeugt, das in Frage kommende
60mer-Sonden umfasst, die Sequenzen aufweisen, die durch den vorherigen
Sequenzidentifizierungsschritt identifiziert wurden. Diese sich,
ergebenden Mikroarrays werden anschließend zu 10 unterschiedlichen
Gewebe-/Zell-Linie-Kombinationen (4 Replikate pro Probenpaar) hybridisiert:
eine Selbst-Gegenüber-Selbst
und 9 Probenpaare, die ausgewählt
sind, um die Anzahl von mRNAs, die zwischen den Angehörigen des
Paares differentiell exprimiert werden, zu maximieren. Wie nachstehend
ausführlicher
beschrieben wird, werden die Arrays anschließend abgetastet, und die Merkmalsdaten werden
unter Verwendung einer Extraktionssoftware, beispielsweise unter
Verwendung der Merkmalsextraktionssoftware (Feature Extraction Software)
von Agilent (von Agilent Technologies, Palo Alto, Kalifornien, erhältlich),
extrahiert. Wo erwünscht,
können
die resultierenden Daten in eine tabellarische Form gebracht oder
zu einer relationalen Datenbank zusammengestellt oder auf andere
Art und Weise organisiert werden. Üblicherweise berechnet das
Merkmalsextraktionsprotokoll P-Werte, spezifisch die Wahrscheinlichkeit,
dass der P-Wert sich beträchtlich
von 0 unterscheidet. Die Merkmalsdaten werden ferner verarbeitet,
um Daten von Merkmalen, die bestimmte Qualitätssteuermaße nicht erfüllen, z.
B. Signalsättigung
oder das Vorliegen zu vieler Ausreißer-Pixelwerte, auszuschließen, und
um Daten von Sonden auszuschließen,
die bei keinem der Experimente ausreichend Signal erzeugen. Die
erhaltenen Merkmalsdaten werden ferner verarbeitet, indem Wiederholungsexperimente
unter Verwendung statistischer Gewichte, die von den jedem Merkmal
zugeordneten P-Werten abgeleitet sind, kombiniert werden, z. B.
durch Verwendung eines zu diesem Zweck entworfenen Verarbeitungsalgorithmus.
-
Der
obige empirische Auswertungsprozess führt zur Herstellung einer Sammlung
von empirisch erhaltenen Datenwerten für jede in Frage kommende Sondensequenz,
wobei die empirischen Datenwerte Maße der Leistungsfähigkeit über eine
Mehrzahl von verschiedenen experimentellen Sätzen sind, im einzelnen einer Mehrzahl
von Differentialgenexpressionsexperimenten. Im einzelnen wird für jede in
Frage kommende Sonde eine Sammlung von Sondenleistungsfähigkeitsdatenwerten
(z. B. in Form von Werten eines logarithmischen Verhältnisses)
für jedes
unterschiedliche Differentialgenexpressionsexperiment erhalten,
derart, dass man für jede
Sonde ein empirisches oder experimentell bestimmtes Maß der Leistungsfähigkeit
dieser Sonde bei jedem einer Anzahl von unterschiedlichen Differentialgenexpressionsversuchen
erhält,
z. B. wird ein Wert erhalten, um die Leistungsfähigkeit jeder Sonde in jedem
Experiment darzustellen. Die Daten, die eine gegebene Sammlung von
Datenwerten bilden, können
rohe Daten oder verarbeitet sein und können ein Maß der Hybridisierungseffizienz,
der Signalintensität,
des Signalverhältnisses,
des Signal-Log.-Verhältnisses
oder einer Kombination derselben sein.
-
Clustern von in Frage
kommenden Sondensequenzen.
-
Im
nächsten
Schritt der vorliegenden Verfahren werden die in Frage kommenden
Sondensequenzen zu zwei oder mehr Gruppen von in Frage kommenden
Sondensequenzen geclustert, wobei die in Frage kommenden Sondensequenzen
auf der Basis der beobachteten empirischen Datenwerte, die bei dem
vorherigen empirischen Bewertungsschritt erhalten wurden, in zwei
oder mehr Gruppen von in Frage kommenden Sondensequenzen aufgeteilt
werden.
-
Bei
vielen Ausführungsbeispielen
dieses Clusterungs- oder Gruppierungsschritts erhält man zuerst
einen Expressionsvektor für
jede der in Frage kommenden Sondensequenzen, unter Verwendung der
Sammlung empirischer Datenwerte der in Frage kommenden Sondensequenz.
Von dem erhaltenen Expressionsvektor für jede in Frage kommende Sondensequenz
leitet man dann eine Ähnlichkeitsmatrix
für den
Satz der in Frage kommenden Sondensequenzen ab, wobei die Ähnlichkeitsmatrix
ein Maß dessen
liefert, wie ähnlich
die in Frage kommende Probesequenz im Vergleich zu den anderen in
Frage kommenden Sondensequenzen, die gerade bewertet werden, funktioniert.
Auf der Grundlage der abgeleiteten Ähnlichkeitsmatrix für den Satz
von in Frage kommenden Sondensequenzen werden die in Frage kommenden
Sondensequenzen dann in zwei oder mehrere Gruppen gruppiert. Jeder
der obigen Teilschritte des Clusterungsschritts wird nun erneut
gesondert und ausführlicher
betrachtet.
-
Wie
oben angegeben wurde, ist der erste Teilschritt des Clusterungsschritts
die Erzeugung eines Expressionsvektors für jede in Frage kommende Sondensequenz,
wobei der Expressionsvektor unter Verwendung der empirischen Daten
für die
bei dem oben beschriebenen empirischen Bewertungsschritt erhaltene
in Frage kommende Sondensequenz erzeugt wird. Bei vielen Ausführungsbeispielen
sind die bei der Erzeugung des Expressionsvektors verwendeten empirischen
Daten die Log.-Verhältnis-Werte
aus den Probenpaar-Experimenten, wie oben angegeben. Dort, wo sie
vorhanden sind, können
Wiederholungs-Log.-Verhältnis-Werte unter
Verwendung einer fehlergewichteten Durchschnittsbildung kombiniert
werden. Die kombinierten Log.-Verhältnis-Daten
für in
Frage kommende Sonden, die entworfen sind, um ein einzelnes Gen
anzuvisieren, werden verwendet, um eine Expressionsmatrix I zu besetzen,
wobei Iij das gemessene Expressionsniveau
der Sonde i in dem Experiment (der Bedingung) j ist. Die Anzahl
von Spalten in der Expressionsmatrix ist die Anzahl von Experimenten,
die für
die empirische Validierung durchgeführt wurden, wobei die Anzahl
von Zeilen in der Expressionsmatrix die Anzahl von in Frage kommenden
Sonden ist, die entworfen sind, um ein einzelnes Gen anzuvisieren.
Die Bedeutung des verwendeten Ähnlichkeitsmaßes hängt von
der Anzahl durchgeführter experimenteller
Bedingungen ab. Wenn eine Pearson-Korrelation verwendet wird, um die Ähnlichkeit
von Sonden zu messen, sollte die Expressionsmatrix aus zumindest
4 Experimenten, vorzugsweise 8 Experimenten und noch stärker bevorzugt
zumindest 12 Experimenten, bestehen. Die Matrix enthält lediglich
Daten, die die oben beschriebenen Verarbeitungsschritte überstehen.
Wie oben angegeben wurde, können
bestimmte Merkmalsdaten ausgeschlossen werden, was zu fehlenden
Werten in der Expressionsmatrix führt, was üblicherweise angegeben wird,
indem ein spezieller Wert (einer, der niemals aus einem Experiment
hervorgehen könnte, beispielsweise
ein Log.-Verhältnis
von 10^6) in die Matrix eingegeben wird. Nachfolgende Verarbeitungsschritte
müssen
in der Lage sein, eine derartige Matrix zu verarbeiten.
-
Im
nächsten
Teilschritt wird eine Ähnlichkeitsmatrix
abgeleitet oder aus der erhaltenen Expressionsmatrix des ersten
Teilschritts berechnet. Bei dieser Ähnlichkeitsmatrix stellt der
Eintrag Sij die Ähnlichkeit der Expressionsvektoren
für die
Sonden i und j dar. Das für
diesen Schritt verwendete Ähnlichkeitsmaß ist unabhängig von
dem Clusterungsmechanismus. Spezifische Beispiele sind Pearsons
Korrelationskoeffizient (wie beispielsweise bei Duda, R.O., und
Hart, P.E. (1973) beschrieben. Pattern Classification and Scene
Analysis. New York, John Wiley and Sons), Kendall's Rangkorrelation
(bei Kendall, M.G. (1970) beschrieben. Rangkorrelationsverfahren
(4. Ausg.). Griffin und Co. Ltd.), Ähnlichkeitsmaß, das auf
dem euklidischen Abstand beruht, und gewichtete Pearson-Korrelation.
-
Spezifische
Einzelheiten zu Vorstehendem folgen nun:
P sei die Expressionsmatrix
mit m Zeilen und n Spalten. Der Eintrag Pij dieser
Matrix ist das Expressionsniveau der Sonde i in dem Experiment j.
Der Eintrag Sij der Ähnlichkeitsmatrix S ist die Ähnlichkeit
zwischen der Sonde i und der Sonde j, wobei spezifische Beispiele,
wie diese Ähnlichkeit
berechnet werden kann, nachfolgend angegeben sind.
- 1. Pearsons Korrelation.
Duda, R.O., und Hart, P.E. (1973).
Pattern Classification and Scene Analysis. New York, John Wiley
and Sons.
Pearsons Korrelation Sij zwischen
den Sonden i und j lautet
- 2. Kendalls Rangkorrelation.
Kendall, M.G. (1970). Rangkorrelationsverfahren
(4. Ausg.). Griffin und Co. Ltd.
- 3. In ein Ähnlichkeitsmaß umgewandelter
euklidischer Abstand. Dann gilt:
- 4. Gewichtete Pearson-Korrelation.
Analog zur Pearson-Korrelation,
jedes Experiment j wird jedoch mit dem Gewicht wj genommen.
Wenn
n Gewichte w1, w2,
..., wn gegeben sind, so dasswird die gewichtete Pearson-Korrelation
auf folgende Weise berechnet: wobei Pi und σi die
gewichtete mittlere bzw. Standardabweichung der Sonde i sind:
-
Bei
dem dritten Teilschritt werden die in Frage kommenden Sonden auf
der Basis ihrer Ähnlichkeitsindizes
oder -matrizes zu einer oder mehreren Gruppen geclustert bzw., die
bei dem vorherigen Teilschritt bestimmt wurden. Mit anderen Worten
werden die in Frage kommenden Sondensequenzen auf der Basis ähnlicher
Expressionsmuster in Gruppen platziert. Bei diesem Teilschritt wird üblicherweise
ein Clusterungsalgorithmus verwendet. Hier können mehrere Clusterungsansätze angewendet
werden, wobei bestimmte Ausführungsbeispiele
den folgenden Lösungsansatz
verwenden. Die Eingabe in den Algorithmus ist ein Paar (S,t), wobei
S eine n-mal-n-Ähnlichkeitsmatrix
ist (n ist gleich der Anzahl von in Frage kommenden Sonden und liegt zwischen
etwa 3 und etwa 20, üblicherweise
zwischen etwa 5 und etwa 12) und t eine benutzerspezifizierte Affinitätsschwelle
ist, die bestimmt, welches Affinitätsniveau als bedeutend erachtet
wird (wobei t oft zwischen etwa 0,3 und etwa 0,9, z. B. zwischen
etwa 0,5 und etwa 0,8, liegt). Der Algorithmus konstruiert Cluster
auf inkrementale Weise und verwendet eine durchschnittliche innerhalb
eines Clusters vorliegende Ähnlichkeit
(Affinität)
zwischen nicht zugewiesenen Scheitelpunkten und dem aktuellen Cluster,
um seine nächste
Entscheidung zu treffen, Elemente zu Gruppen hinzuzufügen oder
von denselben zu entfernen. Die Cluster sind „stabil", wenn die durchschnittliche Ähnlichkeit
die Affinitätsschwelle
(t) überschreitet.
Bei vielen Ausführungsbeispielen
ermöglicht
der Algorithmus eine Eingabe von bis zu 5 t Werten und führt bei
abnehmenden Affinitätsschwellen
auf iterative Weise die Clusteranalyse durch, bis ein Cluster einer
benutzerdefinierten Minimalgröße entsteht.
Angehörige
eines Clusters sind jedem Cluster zugewiesen, und eine Clustergröße und eine
Clusterqualitätspunktzahl
werden berechnet. Die Qualitätspunktzahl
eines Clusters ist ein Maß der
Wahrscheinlichkeit, dass ein derartiges Cluster auftritt, wenn Daten
von nicht verwandten Sonden von dem Datensatz geclustert wurden.
An äußerst unwahrscheinliche
Cluster (d. h. diejenigen, bei denen sich die Daten viel enger anhäufen, als
man es von Daten erwarten würde,
die zufällig
ausgewählt
werden, gemäß der Ähnlichkeitsverteilung
zwischen allen Sonden in den Daten) werden hohe Punktzahlen vergeben.
-
Das
obige Clusterungsprotokoll und Teilschritte desselben (einschließlich des
obigen spezifischen repräsentativen
Clusterungsprotokolls, das einen Affinitätswert und Punktbewertungsmerkmale
umfasst) können
unter Verwendung jeglichen zweckmäßigen Algorithmus durchgeführt werden.
Von Interesse sind Algorithmen, die die Schritte des Datenfilterns,
der Datenkombination, des Clusterns, des Clusterfilterns und der Sondenauswahl
automatisieren, z. B. indem sie alle oben beschriebenen Teilschritte
durchführen.
Von besonderem Interesse sind Algorithmen, die eine nicht-hierarchische Clusterbildung
erzeugen (d. h. die Cluster sind nicht verwandt, und Clustergrenzen
werden durch den Algorithmus bestimmt) und keine gegebene Anzahl
von Clustern aufweisen (d. h. die Anzahl von Clustern wird durch
den Algorithmus bestimmt, statt eine Konstante zu sein, die als
Eingabeparameter gegeben ist). Bei bestimmten Ausführungsbeispielen
ist der bei diesem Schritt verwendete Algorithmus ein CAST-Clusterungsalgorithmus
(CAST = Cluster Affinity Search Technique, Clusteraffinitätssuchtechnik),
wie Fachleuten bekannt ist und in der U.S.-Patentschrift Nr. 6,421,668,
deren Offenbarung durch Bezugnahme in das vorliegende Dokument aufgenommen
ist, beschrieben ist. Siehe auch U.S.-Patentschrift Nr. 6,468,476,
deren Offenbarung durch Bezugnahme in das vorliegende Dokument aufgenommen
ist und die ferner Clusterungsprogramme oder -algorithmen offenbart,
die bei den vorliegenden Verfahren Verwendung finden.
-
Der
obige Teilschritt führt
zu einem Clustern oder Gruppieren der verschiedenen in Frage kommenden Sondensequenzen
zu zwei oder mehreren Gruppen oder Clustern von Sequenzen, wobei
jedes Cluster aus Sondensequenzen besteht, die zu einem einzigen
Ziel hybridisieren und sich bei Genexpressi onsexperimenten ähnlich verhalten,
sowohl innerhalb eines einzelnen experimentellen Probenpaares als
auch über
mehrere experimentelle Probenpaare hinweg.
-
Der
obige Teilschritt kann auch eine oder mehrere nicht geclusterte
in Frage kommende Sondensequenzen bereitstellen, d. h. eine oder
mehrere Sequenzen, die während
des Clusterungsschrittes nicht mit anderen Sequenzen geclustert
oder gruppiert werden. Jegliche resultierenden nicht-clusternden in Frage
kommenden Sondensequenzen werden dann bei dem nächsten Schritt der vorliegenden
Verfahren auf ihre Eignung als Normalisierungssonden hin bewertet.
Man beachte, dass, wenn im Anschluss an den Clusterungsschritt keine
nicht-clusternden Sonden vorliegen, der folgende Bewertungsschritt
nicht durchgeführt
wird. Stattdessen wird ein neuer Satz von in Frage kommenden Sondensequenzen
erzeugt, z. B. zu einem anderen Ziel, und wie oben beschrieben verarbeitet,
bis eine oder mehrere nicht-clusternde
Sequenzen identifiziert werden, die gemäß dem nächsten Schritt auf ihre Eignung
als Normalisierungssonden hin bewertet werden können.
-
Bewertung von nicht-clusternden
Sondensequenzen auf ihre Eignung als Normalisierungssonden hin
-
Beim
nächsten
Schritt der vorliegenden Verfahren werden jegliche verbleibenden
nicht geclusterten in Frage kommenden Sondensequenzen, d. h. jegliche
in Frage kommenden Sondensequenzen, die in dem vorherigen Clusterungsschritt
nicht mit zumindest einer weiteren in Frage kommenden Sondensequenz
gruppiert wurden, da sie keine ausreichenden Hybridisierungsähnlichkeiten
aufweisen, auf ihre Eignung zur Verwendung als Normalisierungssonden
in einem arraybasierten Versuch bewertet. Im einzelnen werden jegliche
resultierenden nicht-clusternden Sondensequenzen in Bezug auf spezifische
Normalisierungssonden-Eignungsparameter beurteilt. Spezifische repräsentative
Normalisierungsson den-Eignungsparameter oder -Kriterien, auf die
jegliche resultierende nicht-clusternde Sonden in diesem abschließenden Schritt
der vorliegenden Verfahren geprüft
werden, lauten: (a) Signalintensität; und (b) Expressionsvarianz über mehrere
Proben hinweg.
-
Als
solches wird die Signalintensität,
die durch jegliche resultierende nicht-clusternde in Frage kommende
Sonden in zumindest einem Probenkontaktprotokoll, allgemein in zumindest
einem Differentialgenexpressionsversuch und noch typischer bei der
Mehrzahl von oben beschriebenen unterschiedlichen experimentellen
Sätzen,
bereitgestellt wird, bei diesem Bewertungsschritt der vorliegenden
Verfahren beurteilt, um zu bestimmen, ob die Signalintensität der Sonde
bei zumindest einer der Testbedingungen, üblicherweise die durchschnittliche
Signalintensität
zumindest mancher der Testbedingungen, und bei bestimmten Ausführungsbeispielen
die durchschnittliche Signalintensität bei allen der Mehrzahl von
Testbedingungen, eine vorbestimmte Signalintensitätsschwelle
erfüllt
bzw. erreicht. Bei bestimmten Ausführungsbeispielen ist die Signalintensitätsschwelle
zumindest etwa zweimal, z. B. zumindest etwa fünfmal intensiver als der Hintergrund
(z. B. 10-mal, 25-mal, 50-mal so intensiv oder noch intensiver). Üblicherweise
ist die Signalintensitätsschwelle
so gewählt, dass
in Frage kommende Sondensequenzen, die die Schwelle erfüllen bzw.
erreichen, eine hohe Signalintensität aufweisen, wenn sie bei einem
Versuch einer Mehrzahl unterschiedlicher Nukleinsäureproben
verwendet werden.
-
Zusätzlich werden
jegliche resultierenden nicht-clusternden in Frage kommenden Sondensequenzen bei
diesem Schritt der vorliegenden Verfahren bewertet, um zu bestimmen,
ob sie im Wesentlichen keine, falls überhaupt eine, Signalvariation
aufweisen, wenn sie bei arraybasierten Versuchen unterschiedlicher
Nukleinsäureproben,
die gemäß dem in
dem nachfolgenden experimentellen Abschnitt beschriebenen Protokoll durchgeführt werden,
eingesetzt werden. Mit anderen Worten werden jegliche resultierende
nicht-clusternde in
Frage kommende Sondensequenzen bewertet, um diejenigen Sequenzen
zu identifizieren, die keine Differentialexpression aufweisen, wenn
sie einer Mehrzahl unterschiedlicher Nukleinsäureproben ausgesetzt werden.
Anders gesagt werden jegliche in Frage kommende nicht-clusternde
Sequenzen bewertet, um zu bestimmen, ob sie über eine Mehrzahl unterschiedlicher
Proben hinweg ein im Wesentlichen einheitliches Signal liefern.
Man sagt, dass eine gegebene in Frage kommende Sondensequenz im
Wesentlichen keine, falls überhaupt
eine, Signalvariation aufweist oder liefert, wenn das mittlere logarithmische
Verhältnis
des Signals, das über
die Mehrzahl unterschiedlicher Proben durch die Sonde bereitgestellt
wird, nicht stark von Null abweicht, wobei „nicht stark von Null abweicht" bedeutet, dass das
logarithmische Verhältnis
zwischen etwa 0,5 und –0,5 liegt,
z. B. zwischen etwa 0,4 und –0,4.
Verfahren zum Bestimmen des logarithmischen Verhältnisses einer Sonde über eine
Anzahl unterschiedlicher Proben hinweg sind Fachleuten hinreichend
bekannt, wie in dem nachfolgenden experimentellen Abschnitt näher beschrieben
wird, wobei repräsentative
Verfahren auch in der U.S.-Patentschrift Nr. 6,591,196 sowie in
den veröffentlichten
U.S.-Patentanmeldungen
20030156136 und 20030065449, deren Offenbarungen durch Bezugnahme
in das vorliegende Dokument aufgenommen sind, beschrieben sind.
Siehe auch Baggerly u. a., J Comput Biol. 2001; 8(6): 639–59. Dieser
Teilschritt der vorliegenden Verfahren ergibt in Frage kommende
Sondensequenzen, die im Wesentlichen keine Signalvariation aufweisen,
d. h. ein im Wesentlichen einheitliches Signal aufweisen, bei auf
ansonsten identischen Arrays basierenden Versuchen, die sich lediglich
in Bezug auf die Nukleinsäurequelle.
voneinander unterscheiden. Bei manchen Ausführungsbeispielen wird die oben
beschriebene Einheitlichkeit des Signals über zumindest 5 verschiedene
Proben hinweg, z. B. zumindest etwa 10 verschiedene Proben, einschließlich zumindest
etwa 15 verschiedene Proben hinweg, beobachtet.
-
Der
oben beschriebene Bewertungsschritt führt zur Identifizierung von
in Frage kommenden Sondensequenzen (falls solche überhaupt
vorliegen), die sich zur Verwendung als Normalisierungssonden an
Nukleinsäurearrays
eignen. Die identifizierten in Frage kommenden Sondensequenzen eignen
sich zur Verwendung als Normalisierungssonden, da sie über eine
Mehrzahl von Probentypen, wobei die Probentypen sehr stark divergieren
können,
mit einem bekannten Expressionsverhältnis (z. B. logarithmisches
Verhältnis
= 0) einheitlich exprimiert werden. Der obige Schritt unterscheidet
Sonden, die keine Differentialexpression zeigen, da das Ziel nicht
vorliegt (wobei diese Sonden wahrscheinlich nicht als Normalisierungssonden
geeignet sind), und Sonden, die keine Differentialexpression zeigen,
da sie eine geringe Affinitätshybridisierung
bezüglich
einer Vielzahl von Zielen zeigen (diese Sonden sind wahrscheinlich
als Ziel geeignet).
-
Bei
vielen Ausführungsbeispielen
sind die Normalisierungssonden-Nukleinsäuresequenzen, die unter Verwendung
der vorliegenden Verfahren identifiziert werden, in einem Textformat
oder als Textfolge vorgesehen, wobei der Text die Sequenz von Nucleotiden
einer Sonden-Nukleinsäure
darstellt oder derselben entspricht. Die Nukleinsäuresequenzen
können
eine beliebige Länge
aufweisen, wobei die Nukleinsäuresequenzen üblicherweise
eine Länge
von etwa 20 nt bis etwa 100 nt aufweisen, z. B. von etwa 20 bis
etwa 80 nt, z. B. 25 nt, 60 nt usw. Jedoch können auch Nukleinsäuresequenzen
einer geringeren oder größeren Länge als geeignet
identifiziert werden. Geeignete Nukleinsäurenormalisierungssonden, die
aus denselben erzeugt werden, können
Oligonucleotide oder Polynucleotide sein, wie nachstehend näher beschrieben
wird.
-
Ein
oder mehrere Aspekte der obigen Methodologie können in Form von computerlesbaren
Medien vorliegen, auf denen eine Programmierung zum Implementieren
der vorliegenden Verfahren gespeichert ist. Die computerlesbaren
Medien können beispielsweise
in Form einer Computerplatte oder CD, einer Floppy-Disk, einer magnetischen „Hartkarte", eines Servers oder
eines beliebigen anderen computerlesbaren Mediums vorliegen, das
in der Lage ist Daten oder dergleichen zu enthalten, die elektronisch,
magnetisch, optisch oder anderweitig gespeichert sind. Demgemäss können gespeicherte
Programmierungsverkörperungsschritte zum
Durchführen
der vorliegenden Verfahren durch einen physischen Transfer einer
CD, Floppy-Disk oder eines ähnlichen
Mediums an einen Computer, z. B. einen Personal-Computer (PC) (d.
h. für
einen Forscher oder dergleichen zugänglich), transferiert werden,
oder sie können
unter Verwendung eines Computernetzes, Servers oder einer anderen
Schnittstellenverbindung, z. B. des Internets, transferiert werden.
-
Bei
einem Ausführungsbeispiel
der vorliegenden Erfindung kann ein System der Erfindung einen einzelnen
Computer oder dergleichen mit einem gespeicherten Algorithmus umfassen,
der in der Lage ist, geeignete Sondenidentifizierungsverfahren durchzuführen, d.
h. ein Rechenanalysesystem. Bei bestimmten Ausführungsbeispielen ist das System
ferner dadurch gekennzeichnet, dass es eine Benutzerschnittstelle
liefert, wobei die Benutzerschnittstelle einem Benutzer die Option
präsentiert,
verschiedene Parameterwerte für
den Algorithmus, wie oben beschrieben, z. B. die Entfernung von
dem 3'-Ende, die
Definition der Überlappung
t usw. aus einer oder mehren verschiedenen, einschließlich vieler
verschiedener Eingaben auszuwählen.
Rechensysteme, die ohne weiteres zu Systemen der vorliegenden Erfindung
modifiziert werden können,
umfassen diejenigen, die in der U.S.-Patentschrift Nr. 6,251,588, deren Offenbarung
durch Bezugnahme in das vorliegende Dokument aufgenommen ist, beschrieben
sind.
-
NUTZEN
-
Die
oben beschriebenen Verfahren und die Vorrichtungen, die zum Praktizieren
derselben programmiert sind, können
verwendet werden, um Normalisierungssonden-Nukleinsäuren zu
identifizieren, die auf Oberflächen
von beliebigen einer Vielzahl unterschiedlicher Substrate, einschließlich sowohl
flexibler als auch starrer Substrate, z. B. bei der Herstellung
von Nukleinsäurearrays,
erzeugt werden sollen. Interessierende Materialien liefern einen
physischen Träger
für das
aufgebrachte Material und halten den Bedingungen des Aufbringungsprozesses
und jeglicher anschließenden
Behandlung oder Handhabung oder Verarbeitung, die bei der Verwendung
des jeweiligen Arrays stattfinden kann, stand. Das Arraysubstrat
kann eine Vielzahl von Konfigurationen aufweisen, die einfach bis
komplex sein können.
Somit könnte
das Substrat allgemein eine planare Form aufweisen, z. B. eine Objektträger- oder
Plattenkonfiguration, z. B. eine rechteckige oder quadratische Scheibe.
Bei manchen Ausführungsbeispielen
ist das Substrat allgemein als rechteckiger Festkörper geformt,
der eine Länge
im Bereich von etwa 4 mm bis 200 mm, üblicherweise etwa 4 mm bis
150 mm, noch üblicher
etwa 4 mm bis 125 mm; eine Breite im Bereich von etwa 4 mm bis 200
mm, üblicherweise
etwa 4 mm bis 120 mm und noch üblicher
etwa 4 mm bis etwa 80 mm; und eine Dicke im Bereich von etwa 0,01
mm bis etwa 5 mm, üblicherweise
von etwa 0, 1 mm bis etwa 2 mm und noch üblicher von etwa 0,2 mm bis
etwa 1 mm aufweist. Jedoch können
auch größere oder
kleinere Substrate vorliegen und verwendet werden, insbesondere
wenn diese nach der Herstellung in Substrate einer kleineren Größe geschnitten
werden, die eine geringere Gesamtanzahl von Arrays 12 tragen. Es
können
auch Substrate anderer Konfigurationen und äquivalenter Flächen gewählt werden.
Die Konfiguration des Arrays kann gemäß Herstellungs-, Handhabungs-
und Verwendungsüberlegungen
ausgewählt
werden.
-
Die
Substrate können
aus beliebigen einer Vielzahl von Materialien hergestellt werden.
Bei bestimmten Ausführungsbeispielen,
z. B. dann, wenn die Produktion von Bindungspaararrays zur Verwendung
in der Forschung und bei verwandten Anwendungen gewünscht ist,
sollten die Materialien, aus denen das Substrat hergestellt werden
kann, während
Hybridisierungsereignissen Idealerweise ein niedriges Niveau einer nichtspezifischen
Bindung aufweisen. In vielen Situationen ist es auch vorzuziehen,
ein Material zu verwenden, das für
sichtbares und/oder UV-Licht durchsichtig ist. Für flexible Substrate umfassen
interessierende Materialien: Nylon, sowohl modifiziert als auch
unmodifiziert, Nitrozellulose, Polypropylen und dergleichen; wobei eine
Nylonmembran sowie Derivate derselben bei diesem Ausführungsbeispiel
besonders nützlich
sein können.
Für starre
Substrate umfassen spezifische interessierende Materialien: Glas;
Quarzglas; Silizium, Kunststoffe (z. B. Polytetrafluorethylen, Polypropylen,
Polystyren, Polycarbonat und Gemische derselben, und dergleichen);
Metalle (z. B. Gold, Platin und dergleichen).
-
Die
Substratoberfläche,
auf die die Sondennukleinsäurezusammensetzungen
oder andere Anteile aufgebracht werden, kann glatt oder im Wesentlichen
planar sein oder auch Unregelmäßigkeiten
wie z. B. Vertiefungen oder Erhöhungen
aufweisen. Die Oberfläche
kann mit einer oder mehreren unterschiedlichen Schichten von Verbindungen
modifiziert sein, die dazu dienen, die Eigenschaften der Oberfläche auf
wünschenswerte
Weise zu modifizieren. Derartige interessierende Modifizierungsschichten
umfassen: anorganische und organische Schichten wie z. B. Metalle,
Metalloxide, Polymere, kleine organische Moleküle und dergleichen. Interessierende
polymere Schichten umfassen Schichten von: Peptiden, Proteinen,
Polynukleinsäuren
oder Nachahmungsstoffen derselben (z. B. Peptidnukleinsäuren und
dergleichen); Polysacchariden, Phospholipiden, Polyurethanen, Polyestern,
Polycarbonaten, Polyharnstoffen, Polyamiden, Polyethylenaminen, Polyarylensulfiden,
Polysiloxanen, Polyimiden, Polyacetaten und dergleichen, wobei die
Polymere hetero- oder
homopolymer sein können
und wobei getrennte funktionelle Anteile an dieselben angehängt sein
können, aber
nicht müssen
(z. B. konjugierte Anteile).
-
ARRAYS
-
Ferner
sieht die vorliegende Erfindung Nukleinsäurearrays vor, die unter Verwendung
der oben beschriebenen vorliegen den Verfahren hergestellt werden.
Die vorliegenden Arrays umfassen zumindest eine Sonde und üblicherweise
eine Mehrzahl unterschiedlicher Sonden einer unterschiedlichen Sequenz
(z. B. zumindest etwa 10, üblicherweise
zumindest etwa 50, z. B. zumindest etwa 100, 1.000, 5.000, 10.000
oder mehr), die auf verschiedenen und bekannten Positionen auf der
Substratoberfläche
immobilisiert sind, z. B. kovalent oder nichtkovalent an dieselbe
angebracht sind. Ein Merkmal der vorliegenden Arrays besteht darin, dass
zumindest eine der Sonden eine Normalisierungssonde mit einer Sequenz
ist, die gemäß den vorliegenden
Verfahren identifiziert ist, wobei bei vielen Ausführungsbeispielen
zumindest etwa 5, 10 oder mehr der Sondensequenzen Normalisierungssequenzen
sind, die durch die vorliegenden Verfahren identifiziert sind. Jede
gesonderte Nukleinsäuresequenz
des Arrays liegt üblicherweise
als Zusammensetzung mehrerer Kopien des Polymers auf der Substratoberfläche vor,
z. B. als Punkt auf der Oberfläche
des Substrats. Die Anzahl gesonderter Nukleinsäuresequenzen, und somit von
Punkten oder ähnlichen
Strukturen (d. h. Arraymerkmalen), die auf dem Array vorliegen,
kann variieren, beträgt
allgemein jedoch zumindest 2, üblicherweise
zumindest 5 und noch üblicherweise
zumindest 10, wobei die Anzahl unterschiedlicher Punkte auf dem
Array je nach der beabsichtigten Verwendung des Arrays sogar 50,
100, 500, 1.000, 10.000 oder mehr betragen kann. Die Punkte gesonderter
Nukleinsäuren,
die auf der Arrayoberfläche
vorliegen, liegen allgemein als Muster vor, wobei das Muster in
Form organisierter Zeilen und Spalten von Punkten, z. B. in Form
eines Gitters von Punkten, über
die Substratoberfläche,
in Form einer Serie von krummlinigen Zeilen über die Substratoberfläche, z.
B. in Form einer Serie von konzentrischen Kreisen oder Halbkreisen
von Punkten und dergleichen vorliegen kann. Die Dichte der auf der
Arrayoberfläche
vorliegenden Punkte kann variieren, beträgt jedoch allgemein zumindest
10 und üblicherweise
zumindest etwa 100 Punkte/cm2, wobei die
Dichte sogar 106 oder mehr betragen kann,
jedoch allgemein etwa 105 Punkte/cm2 nicht übersteigt.
Bei den vorliegenden Arrays von Nukleinsäuren können die Nukleinsäuren an
einem beliebigen Punkt entlang der Nukleinsäurekette kovalent an die Arrays angehängt sein,
sind jedoch allgemein an eine ihrer Endungen, z. B. die 3'- oder die 5'-Endung, angehängt.
-
Ein
Merkmal der vorliegenden Arrays besteht darin, dass sie eine oder
mehrere, üblicherweise
eine Mehrzahl von, Normalisierungssonden umfassen, deren Sequenz
gemäß den vorliegenden
Protokollen ausgewählt
wurde. Da die Sequenzen der Normalisierungssonden auf den Arrays
gemäß den obigen
Protokollen gewählt
werden, sind die Normalisierungssondensequenzen solche, die für ein hohes
Signal mit geringer Schwankung bei einer Mehrzahl verschiedener
Differentialgenexpressionsprotokolle sorgen. Beispielsweise liefern
eine oder mehrere der Normalisierungssondensequenzen auf dem Array
eine Leistungsfähigkeit,
die zwischen zwei oder mehreren unterschiedlichen Differentialgenexpressionsversuchen
wenig, falls überhaupt, variiert,
d. h. sie bleibt bei einer Mehrzahl von verschiedenen experimentellen
Bedingungen im Wesentlichen gleich, wie z. B. dadurch bestimmt wird,
dass sie über
eine Mehrzahl unterschiedlicher experimenteller Sätze hinweg
ein logarithmisches Verhältnis
aufweist, das nicht beträchtlich
von Null abweicht.
-
NÜTZLICHKEIT
VON ARRAYS
-
Die
vorliegenden Arrays werden bei einer Vielzahl unterschiedlicher
Anwendungen eingesetzt, wobei derartige Anwendungen allgemein Analytenerfassungsanwendungen
sind, bei denen das Vorhandensein eines bestimmten Analyten in einer
gegebenen Probe zumindest qualitativ, wenn nicht quantitativ, erfasst
wird. Protokolle zum Durchführen
derartiger Versuche sind Fachleuten hinreichend bekannt und müssen hier
nicht ausführlich
beschrieben werden. Allgemein wird die Probe, von der man annimmt,
dass sie den interessierenden Analyten aufweist, mit einem Array
in Berührung
gebracht, das gemäß den vorliegenden
Verfahren unter Bedingungen erzeugt wurde, die ausreichend sind,
dass sich der Analyt an sein jeweiliges Bindungspaar-Teilelement,
das auf dem Array vorliegt, bindet. Wenn also der interessierende
Analyt in der Probe vorliegt, bindet er sich an der Stelle seines
komplementären
Bindungsteilelements an das Array, und auf der Arrayoberfläche entsteht
ein Komplex. Das Vorliegen dieses Bindungskomplexes auf der Arrayoberfläche wird
dann erfasst, z. B. durch Verwendung eines Signalerzeugungssystems,
z. B. einer isotopen oder fluoreszierenden Markierung, die auf dem
Analyten vorliegt, usw. Das Vorhandensein des Analyten in der Probe
wird dann von der Erfassung von Bindungskomplexen auf der Substratoberfläche schlussgefolgert.
-
Spezifische
Analytenerfassungsanwendungen, die hier von Interesse sind, umfassen
Hybridisierungsversuche, bei denen die Nukleinsäurearrays der vorliegenden
Erfindung eingesetzt werden. Bei diesen Versuchen wird zuerst eine
Probe von Zielnukleinsäuren
hergestellt, wobei die Herstellung ein Markieren der Zielnukleinsäuren mit
einer Markierung, z. B. einem Teilelement eines Signalerzeugungssystems,
umfassen kann. Wenn die Arrays „Alle-Basen-Alle-Schichten"-Kontrollsonden umfassen, wie oben beschrieben
wurde, ist in der Probe üblicherweise
eine Sammlung markierter Kontrollziele enthalten, wobei die Sammlung
aus Kontrollzielen bestehen kann, die alle mit derselben Markierung
markiert sind, oder aus zwei oder mehreren Sätzen, die auf unterscheidbare
Weise mit verschiedenen Markierungen markiert sind, wie oben beschrieben
wurde. Anschließend
an die Probenherstellung wird die Probe unter Hybridisierungsbedingungen
(z. B. strengen Hybridisierungsbedingungen) mit dem Array in Berührung gebracht,
wodurch Komplexe zwischen Zielnukleinsäuren gebildet werden, die zu
Sondensequenzen, die an die Arrayoberfläche angehängt sind, komplementär sind.
Anschließend
wird das Vorliegen von hybridisierten Komplexen erfasst. Interessierende
spezifische Hybridisierungsversuche, die unter Verwendung der vorliegenden
Arrays praktiziert werden können,
umfassen: Genentdeckungsversuche, Differentialgenexpressionsanalyseversuche;
Nukleinsäuresequenzierungsversuche;
und dergleichen. Patentschriften und Patentanmeldungen, die Verfahren
zum Verwenden von Arrays bei verschiedenen Anwendungen beschreiben,
umfassen 5,143,854; 5,288,644; 5,324,633; 5,432,049; 5,470,710;
5,492,806; 5,503,980; 5,510,270; 5,525,464; 5,547,839; 5,580,732;
5,661,028; 5,008,992; die Offenbarungen derselben sind durch Bezugnahme
in das vorliegende Dokument aufgenommen.
-
Bei
bestimmten Ausführungsbeispielen
umfassen die vorliegenden Verfahren einen Schritt des Sendens von
Daten von zumindest einem der Erfassungs- und Ableitungsschritte,
die oben beschrieben wurden, an eine entfernte Position. Mit „entfernter
Position" ist eine
andere Position gemeint als die Position, an der das Array vorliegt
und die Hybridisierung erfolgt. Beispielsweise könnte eine entfernte Position
eine andere Position (z. B. ein anderes Büro, Labor usw.) in derselben
Stadt, eine andere Position in einer anderen Stadt, eine andere
Position in einem anderen Staat, eine andere Position in einem anderen
Land usw. sein. Wenn ein Posten als von einem anderen „entfernt" angegeben wird,
bedeutet dies also, dass sich die zwei Posten zumindest in unterschiedlichen
Gebäuden
befindet und zumindest eine Meile, zehn Meilen oder zumindest hundert
Meilen voneinan der entfernt sein können. „Kommunizieren" von Informationen
bedeutet, die Daten, die diese Informationen darstellen, als elektrische
Signale über
einen geeigneten Kommunikationskanal (z. B. ein privates oder öffentliches
Netzwerk) zu senden. Einen Posten „weiterzuleiten" bezieht sich auf
jegliches Mittel, diesen Posten von einer Position zur nächsten zu
befördern,
ob nun durch ein physisches Transportieren dieses Postens oder auf
andere Weise (wo dies möglich
ist), und umfasst, zumindest im Fall von Daten, ein physisches Transportieren
eines Mediums, das die Daten trägt
oder die Daten kommuniziert. Die Daten können zur weiteren Bewertung
und/oder Verwendung an die entfernte Position gesendet werden. Zum
Senden der Daten können
jegliche zweckmäßigen Telekommunikationseinrichtungen
eingesetzt werden, z. B. Faksimile, Modem, Internet usw.
-
Durch
Verwendung eines Arrays, das anhand des Verfahrens der vorliegenden
Erfindung hergestellt wurde, wird das Array üblicherweise einer Probe (z.
B. einem fluoreszierend markierten Analyten, z. B. einer proteinhaltigen
Probe) ausgesetzt, und anschließend
wird das Array gelesen. Das Lesen des Arrays kann bewerkstelligt
werden, indem das Array beleuchtet wird und die Position und Intensität der sich
ergebenden Fluoreszenz an jedem Merkmal des Arrays gelesen wird,
um etwaige Bindungskomplexe auf der Oberfläche des Arrays zu erfassen.
Beispielsweise kann zu diesem Zweck ein Scanner verwendet werden,
der ähnlich
der Vorrichtung AGILENT MICROARRAY SCANNER ist, die von Agilent
Technologies, Palo Alto, Kalifornien, erhältlich ist. Andere geeignete
Vorrichtungen und Verfahren sind in den U.S.-Patenten Nrn. 5,091,652;
5,260,578; 5,296,700; 5,324,633; 5,585,639; 5,760,951; 5,763,870;
6,084,991; 6,222,664; 6,284,465; 6,371,370; 6,320,196 und 6,355,934,
deren Offenbarungen durch Bezugnahme in das vorliegende Dokument
aufgenommen sind, beschrieben. Jedoch können Arrays auch anhand beliebiger
anderer Verfahren oder Vorrichtungen als den Vorstehenden gelesen
werden, wobei andere Leseverfahren andere optische Techniken (z.
B.
-
Erfassen
von chemilumineszenten oder elektrolumineszenten Markierungen) oder
elektrische Techniken umfassen (wobei jedes Merkmal mit einer Elektrode
versehen ist, um eine Hybridisierung an diesem Merkmal auf eine
Weise, wie sie in der U.S.-Patentschrift Nr. 6,221,583 und andernorts
offenbart ist, zu erfassen). Ergebnisse des Ablesens können Rohergebnisse
(z. B. Fluoreszenzintensitätslesewerte
für jedes
Merkmal in einem oder mehreren Farbkanälen) sein oder können verarbeitete
Ergebnisse sein, wie sie beispielsweise erhalten werden, indem ein
Ablesewert für
ein Merkmal, der unter einer vorbestimmten Schwelle liegt, abgewiesen
wird, und/oder indem auf der Basis des von dem Array gelesenen Musters
(z. B. ob eine bestimmte Zielsequenz eventuell in der Probe vorhanden
ist) Schlussfolgerungen gezogen werden. Die Ergebnisse des Ablesewerts
(verarbeitet oder nicht) können,
falls gewünscht,
an eine entfernte Position (z. B. durch Kommunikation) weitergeleitet
werden und dort zur weiteren Verwendung (z. B. zur Weiterverarbeitung)
empfangen werden.
-
AUSRÜSTUNGSPAKETE
-
Ausrüstungspakete
zur Verwendung bei Analytenerfassungsversuchen sind ebenfalls vorgesehen. Die
Ausrüstungspakete
umfassen zumindest die Arrays der Erfindung, wie oben beschrieben.
Die Ausrüstungspakete
können
ferner eine oder mehrere zusätzliche
Komponenten umfassen, die zum Durchführen eines Analytenerfassungsversuchs
notwendig sind, z. B. Probenherstellungsreagenzien, Puffer, Markierungen und
dergleichen. Als solche können
die Ausrüstungspakete
einen oder mehrere Behälter
wie z. B. Phiolen oder Flaschen umfassen, wobei jeder Behälter eine
gesonderte Komponente für
den Versuch und Reagenzien zum Durchführen eines Arrayversuchs, z.
B. eines Nukleinsäurehybridisierungsversuchs
oder dergleichen, enthält. Die
Ausrüstungspakete
können
ferner ein Denaturierungsreagens zum Denaturieren des Analyten,
Puffer wie z. B. Hybridisierungspuffer, Waschme dien, Enzymsubstrate,
Reagenzien zum Erzeugen einer markierten Zielprobe wie z. B. einer
markierten Zielnukleinsäureprobe,
negative und positive Kontrollen und schriftliche Anweisungen zum
Verwenden der Arrayversuchsvorrichtungen zum Durchführen eines
arraybasierten Versuchs umfassen. Derartige Ausrüstungspakete umfassen ferner üblicherweise
Anweisungen zur Verwendung beim Praktizieren von arraybasierten
Versuchen.
-
Ausrüstungspakete
zur Verwendung in Verbindung mit den Normalisierungssondenentwurfsprotokollen
der vorliegenden Erfindung können
ebenfalls vorgesehen sein. Derartige Ausrüstungspakete umfassen vorzugsweise
zumindest ein computerlesbares Medium, das eine Programmierung,
wie sie oben erörtert
wurde, und Anweisungen umfasst. Die Anweisungen können Installations-
oder Einrichtungsanleitungen umfassen. Die Anweisungen können Anleitungen
zur Verwendung der Erfindung umfassen.
-
Die
Bereitstellung von Software und Anweisungen als Ausrüstungspaket
kann einer Anzahl von Zwecken dienen. Die Kombinationen können als
Mittel zum Aufrüsten
einer vorhandenen Herstellungsvorrichtung als Paket zusammengestellt
und erworben werden. Alternativ dazu kann die Kombination in Verbindung
mit einer neuen Vorrichtung zum Herstellen von Arrays, bei der die
Software vorab auf dieselbe geladen werden kann, vorgesehen sein.
In diesem Fall dienen die Anweisungen als Referenz-Benutzeranleitung
(oder als Teil derselben), und das computerlesbare Medium dient
als Sicherungskopie des vorab geladenen Dienstprogramms.
-
Die
Anweisungen der oben beschriebenen Ausrüstungspakete sind allgemein
auf ein geeignetes Aufzeichnungsmedium aufgezeichnet. Beispielsweise
können
die Anweisungen auf ein Substrat, z. B. Papier oder Kunststoff usw.,
gedruckt werden. Als solches können
die Anweisungen in den Ausrüstungspaketen
als Paketeinlage, in der Markierung des Behälters des Ausrüstungspakets
oder Komponenten desselben (d. h. der Paketierung oder Teilpaketierung
zugeordnet) usw. vorliegen. Bei anderen Ausführungsbeispielen liegen die
Anweisungen als elektronische Speicherdatendatei vor, die auf einem
geeigneten computerlesbaren Speichermedium, z. B. einem CDROM, einer
Diskette usw., das bzw. die dasselbe Medium umfasst, auf dem das
Programm präsentiert
wird, vorliegt.
-
Bei
wieder anderen Ausführungsbeispielen
liegen die Anweisungen selbst nicht in dem Ausrüstungspaket vor, sondern es
werden Mittel zum Erhalten der Anweisungen von einer entfernten
Quelle, z. B. über
das Internet, bereitgestellt. Ein Beispiel dieses Ausführungsbeispiels
ist ein Ausrüstungspaket,
das eine Webadresse umfasst, bei der die Anweisungen eingesehen
und/oder von der die Anweisungen heruntergeladen werden können. Umgekehrt
können
Mittel zum Erhalten der vorliegenden Programmierung von einer entfernten
Quelle, z. B. durch Bereitstellen einer Webadresse, vorgesehen sein.
Des weiteren kann das Ausrüstungspaket
eines sein, bei dem sowohl die Anweisungen als auch die Software
von einer entfernten Quelle, z. B. im Internet bzw. World Wide Web,
erhalten oder heruntergeladen werden können. Es kann eine gewisse
Form der Zugriffssicherheit oder eines Identifizierungsprotokolls
verwendet werden, um den Zugriff auf diejenigen zu beschränken, die
zur Verwendung der vorliegenden Erfindung berechtigt sind. Wie bei
den Anweisungen ist das Mittel bzw. die Einrichtung zum Erhalten
der Anweisungen und/oder Programmierung allgemein auf ein geeignetes
Aufzeichnungsmedium aufgezeichnet.
-
Die
folgenden Beispiele werden der Veranschaulichung halber und nicht
der Einschränkung
halber angegeben.
-
EXPERIMENTE
-
A. Auswahl der in Frage
kommenden Sonde:
-
Zehn
60mer-Sondensequenzen wurden für
jede von etwa 18.232 menschliche Sequenzen unter Verwendung eines
Sondenentwurfssoftwarepakets von Agilent (Agilent Technologies,
Palo Alto, Kalifornien) entworfen. Dieses Softwarepaket wählt Sonden
gemäß den folgenden
Kriterien aus:
- • Entfernung von dem 3'-Ende der mRNA. Dieses
Kriterium wirkt sich vorwiegend auf die Empfindlichkeit aus. Sonden
werden allgemein innerhalb einer definierten Entfernung (Basen)
von der Polyadenylierungsstelle der mRNA gewählt. Das liegt daran, dass
die Nukleinsäurezielsynthese üblicherweise
von dieser Stelle aus vorbereitet bzw. geprimt (primed) wird und
dass die Effizienz der Zielproduktion üblicherweise mit der Entfernung
von dem Primer abnimmt.
- • Basenzusammensetzung
der Sondensequenz. Dieses Kriterium betrifft sowohl die Empfindlichkeit
als auch die Spezifität.
Sequenzen, die abnormal reich oder arm an GC sind, werden vermieden,
und auch lange Sequenzen einer einzelnen Base werden vermieden.
- • Homologie
der Sondensequenz zu anderen Sequenzen desselben Organismus. Dieses
Kriterium betrifft hauptsächlich
die Spezifität.
Sequenzen mit einem hohen Potential, zu mehr als einer mRNA von
einem gegebenen Organismus zu hybridisieren, werden vermieden. Das über-Kreuz-Hybridisierung-Potential
wird über
eine thermodynamische Punktbewertung der Ausgabe von BLAST, einer
zum Erfassen der Sequenzhomologie verwendeten standardmäßigen Bioinformatikanwendung,
geschätzt.
-
B. Hybridisierung von
in Frage kommenden Sonden:
-
In
Frage kommende 60mer-Sonden, die durch Sondenentwurfsalgorithmen
von Agilent spezifiziert wurden, wurden auf 22,5K-Arraydesigns ausgelegt,
und die Mikroarrays wurden unter Verwendung des SurePrint-In-Situ-Oligonucleotidsyntheseprozesses
von Agilent gedruckt. Diese Mikroarrays wurden zu 10 verschiedenen
Gewebe-/Zell-Linien-Kombinationen
(4 Replikate pro Probenpaar) hybridisiert: eines Selbst-Gegenüber-Selbst
und 9 Probenpaare, die gewählt
wurden, um die Anzahl von Sonden, die Werte des logarithmischen
Verhältnisses
in dem experimentellen Satz abzuwerfen, zu maximieren. Der verwendete
Probensatz bestand aus den folgenden cRNA-Zielpaaren: 1) Gehirn
(rot) und Plazenta (grün),
2) HeLa (rot) und Clontech-Referenzprobe
(grün),
3) HeLa (rot) und HeLa (grün),
4) K-562 (rot) und
Clontech-Referenzprobe (grün), 5)
K-562 (rot) und MG63 (grün),
6) Lunge (rot) und Leber (grün),
7) Lunge (rot) und Plazenta (grün),
8) Plazenta (rot) und Clontech-Referenzprobe
(grün),
9) Milz (rot) und HeLa (grün),
10) Stratagene-Referenzprobe (rot) und Clontech-Referenzprobe (grün). Die
markierten, von den Geweben gewonnenen Proben wurden aus im Handel
erhältlicher
polyadenylierter RNA oder Gesamt-RNA unter Verwendung des Ausrüstungspakets
der linearen Aktivierung von Agilent hergestellt (Ambion, Inc.,
Woodlands, TX, BD Clontech, Inc., Palo Alto, Kalifornien, und Stratagene,
Inc., La Jolla, Kalifornien). Die Hybridisierung, Wäsche und
Abtastung wurden gemäß Prozeduren
durchgeführt,
die in dem Microarray User Manual von Agilent beschrieben sind.
-
Nach
dem Abtasten wurden die Merkmalsdaten unter Verwendung der Merkmalsextraktionssoftware (Feature
Extraction Software) (Version A.7.1.1) von Agilent extrahiert, und
die Merkmalsdaten wurden unter Verwendung der Kiwi-II-Anwendung
von Agilent in Microsoft-Access-Datenbanken eingefügt.
-
C. Anwenden von CAST-Clusterungsalgorithmen
-
Die
Strategie der Verwendung einer Clusterungsanalyse für eine experimentelle
Sondenvalidierung beruht auf der Annahme, dass Sonden, die zu einem
einzigen Ziel hybridisieren, bei Genexpressionsexperimenten ein ähnliches
Verhalten aufweisen, sowohl innerhalb eines einzigen experimentellen
Paares als auch über
viele experimentelle Paare hinweg. Ungleiche Werte logarithmischer
Verhältnisse
für Sonden,
die für
ein einziges Ziel entworfen sind, können durch eine Vielzahl von
Faktoren bewirkt werden, die eine nichtspezifische Hybridisierung
eines zusätzlichen
Ziels bzw. zusätzlicher
Ziele, eine Sondensekundärstruktur
oder andere Faktoren, die die Hybridisierungseffizienz einschränken, eine
Fehlannotation der Zielstruktur (z. B.: Intron-/Exon-Grenzen) und systematische
Markierungsfehler umfassen. Die meisten dieser Faktoren, wenn nicht
alle, können
unter Verwendung von „In-Silico"-Verfahren nicht
genau vorausgesagt werden. Clusterungstechniken werden bei der Analyse
von Genexpressionsdaten verwendet, um Gene zu identifizieren, die
koreguliert werden. Für
die Sondenvalidierung verwendeten wir CAST-Clusterungsalgorithmen
(CAST = Cluster Affinity Search Technique, Clusteraffinitätssuchtechnik)
(Ben-Dor A. u. a. (1999), J. Comput. Biol. 6, 281–297), um
koregulierte Sonden aus den in Frage kommenden Sonden, die dazu
entworfen waren, ein einzelnes Gen anzuvisieren, zu identifizieren.
CAST ist ein nicht-gieriger Clusterungsalgorithmus, der Cluster
konstruiert, indem er auf allen Stufen eine hohe Ähnlichkeit
innerhalb eines Clusters beibehält:
Dieses Ähnlichkeitsniveau wird
durch einen Eingangsparameter τ bestimmt.
Diese Algorithmen weisen gegenüber
anderen Clusterungsalgorithmen für
diese Anwendung mehrere Vorteile auf: sie bilden eine nicht-hierarchische Clusterung
(d. h. die Cluster sind nicht verwandt, und Clustergrenzen werden
durch den Algorithmus bestimmt) und sie gehen nicht von einer gegebenen
Anzahl von Clustern aus (d. h. die Anzahl der Cluster wird durch den
Algorithmus bestimmt, statt eine Konstante zu sein, die als Eingabeparameter
gegeben wird).
-
Cluster-Zugehörigkeiten
für in
Frage kommende Sonden, die für
menschliche Gene entworfen wurden, wurden unter Verwendung des Softwarepakets „OC Analysis" von Agilent identifiziert.
Die Anwendung führt
die folgenden Schritte durch:
- • Erzeugung
einer Expressionsmatrix. Logarithmisches-Verhältnis-Wiederholungswerte
für ein
gegebenes Probenpaar werden unter Verwendung einer fehlergewichteten
Durchschnittsbildung kombiniert. Die kombinierten Logarithmisches-Verhältnis-Daten
für in
Frage kommende Sonden, die entworfen sind, um ein einzelnes Gen
anzuvisieren, werden verwendet, um eine Expressionsmatrix I zu besetzen,
wobei Iij das gemessene Expressionsniveau
der Sonde i bei dem Experiment (der Bedingung) j ist. Lediglich
diejenigen Sonden, die eine benutzerspezifizierte Signalschwelle
auf jeglichen der kombinierten Arrays überschreiten, sind in der Expressionsmatrix
enthalten. Die Größe der Expressionsmatrix
hängt von
dem bei dem Clusterungsalgorithmus verwendeten Ähnlichkeitsmaß ab. Beispielsweise
hängt die
Bedeutung des Pearson-Korrelationskoeffizienten von der Anzahl der
Experimente ab, und eine Expressionsmatrix, die aus zumindest acht
Experimenten besteht, ist ideal. Die Leistungsfähigkeit des Clusterungsalgorithmus
hängt nicht
von der Anzahl von Sonden ab, da er Sonden auf der Basis der Affinität bezüglich des
Clusters Clustern zuweist, jedoch sollte die Anzahl der Sonden hoch
genug sein, um für
alle möglichen
Sonden für
die Eingabesequenz repräsentativ
zu sein. Somit ist der Clusterungsalgorithmus in der Lage, mit einer
Matrix mit einigen Nulleinträgen
zu arbeiten.
- • Berechnung
einer Ähnlichkeitsmatrix
S. In dieser Matrix stellt der Eintrag Sij die Ähnlichkeit
des Expressionsmusters für
die Sonden i und j dar. Das von CAST für diesen Schritt verwendete Ähnlichkeitsmaß ist unabhängig von
dem Clustermechanismus. Spezifische Bei- spiele sind der Pearson-Korrelationskoeffizient
und die Kendall-Rangkorrelation.
- • Clustern
von Sonden unter Verwendung von CAST. Die CAST-Clusterungsalgorithmen
teilen die Sonden auf der Basis von ähnlichen Expressionsmustern
in Gruppen auf. Die Eingabe in den Algorithmus ist ein Paar (S, τ), wobei
S eine n-mal-n-Ähnlichkeitsmatrix
ist und τ eine
benutzerspezifizierte Affinitätsschwelle ist,
die bestimmt, welches Affinitätsniveau
als bedeutend erachtet wird. Der Algorithmus konstruiert Cluster auf
inkrementale Weise und verwendet eine durchschnittliche Ähnlichkeit
(Affinität)
zwischen nicht zugewiesenen Scheitelpunkten und dem aktuellen Cluster,
um seine nächste
Entscheidung zu treffen, Elemente zu Gruppen hinzuzufügen oder
von denselben zu entfernen. Die Cluster sind „stabil", wenn die durchschnittliche Ähnlichkeit
die Affinitätsschwelle
(τ) überschreitet.
Die OC-Analyse-Anwendung ermöglicht
eine Eingabe von bis zu 5 τ-Werten
und führt
auf iterative Weise die Clusteranalyse bei sinkenden Affinitätsschwellen
durch, bis ein Cluster einer benutzerdefinierten Minimalgröße entsteht.
Cluster-Zugehörigkeit wird
für jedes
Cluster zugewiesen, und eine Clustergröße und eine Clusterqualitätspunktzahl
werden berechnet. Die Qualitätspunktzahl
eines Clusters ist ein Maß der
Wahrscheinlichkeit, dass ein derartiges Cluster auftritt, wenn Daten
von nicht verwandten Sonden von dem Datensatz geclustert wurden.
An Cluster mit einer hohen Wahrscheinlichkeit (d. h. an diejenigen,
bei denen sich die Daten viel enger anhäufen, als man es von Daten
erwarten würde,
die zufällig
ausgewählt
werden, gemäß der Ähnlichkeitsverteilung
zwischen allen Sonden in den Daten) werden hohe Punktzahlen vergeben.
-
D. Verwendung einer Clustermetrik,
um Sonden in dem „besten
Cluster" zu identifizieren
-
Die
OC-Analyse-Anwendung identifiziert das „beste Cluster" auf der Basis der
verwendeten Affinitätsschwelle
und der Größe des gebildeten
Clusters. Für
diejenigen Ziele, bei denen die in Frage kommenden Sonden auf mehrere
Gruppen aufgeteilt wurden, wurde das „repräsentative Cluster" als das Cluster
ausgewählt,
das bei dem höchsten τ gebildet
wurde, das eine Bildung eines Clusters ermöglicht, das zumindest 50 %
größer ist
als das nächstgrößte Cluster,
und eine minimale Clustergröße von 4
Elementen ermöglichte.
Diese Kriterien wurden so gewählt,
dass „repräsentative
Cluster" eine Mehrheit
der auf eine gegebene Zielsequenz getesteten Sonden aufweisen. Für die 15.032
Gene, bei denen akzeptable Cluster identifiziert wurden, zeigten
lediglich 4.315 (29 %) ähnliche
Genexpressionsmuster für
10 der 10 getesteten in Frage kommenden Sonden; die restlichen 71
wiesen zumindest eine in Frage kommende Sonde auf, die andere Muster
aufwies.
-
Die
bei dieser Anwendung verwendeten spezifischen Algorithmen, der Softwarecode
und eine Vorgehensweise, die die Verwendung dieser Anwendung für eine empirische
Sondenauswahl für
Catalog Microarray Products von Agilent beschreiben, sind in der
U.S.-Patentanmeldung Seriennummer ... (Anwaltsaktenzeichen Nr. 10021251-1),
deren Offenbarung durch Bezugnahme in das vorliegende Dokument aufgenommen
ist, beschrieben.
-
Auswahl von
Normalisierungssonden
-
Die
anfänglichen
Auswahlkriterien wählen
in Frage kommende Sonden aus, die über den experimentellen Satz
keine beträchtlichen
Veränderungen
des logarithmischen Verhältnisses
aufwiesen. Vertrauensintervalle (99 %) wurden um mittlere Logarithmisches-Verhältnis-Wiederholungswerte
(n = 4) herum berechnet. Sonden wurden ausgewählt, wenn die mittleren Logarithmisches-Verhältnis-Werte
für jede
der 10 experimentellen Proben nicht beträchtlich von 0 abwichen. Lediglich
254 Sonden, die jeweils für
ein unterschiedliches Ziel entworfen waren, wiesen über den
stark divergierenden experimentellen Satz keine beträchtliche
Differentialexpression auf. Angesichts der Tatsache, dass der anfängliche
Sondensatz 182.319 Sonden für
18.232 menschliche Sequenzen umfasste, legt dieses Ergebnis nahe,
dass „Routinegene" (Gene, die in allen
Geweben auf demselben Niveau „universell" ausgedrückt werden)
extrem selten sind. Es lagen keine Fälle vor, bei denen mehrere
Sonden zu einem gegebenen Ziel keine beträchtliche Differentialexpression über den
experimentellen Satz aufwiesen (was man erwarten würde, wenn
das offensichtliche Fehlen einer Differentialexpression konstante
relative Zielniveaus widerspiegeln würde).
-
Sonden
wurden ferner als Normalisierungssonden gewählt, wenn sie die folgenden
Kriterien erfüllten: 1)
sie waren von einer Zielsequenz abgeleitet, bei der ein akzeptables
in Frage kommendes Sondencluster identifiziert wurde, und 2) die
Sonde war nicht in dem akzeptablen Cluster enthalten. Diese Auswahl
wurde durchgeführt,
um Sonden, die einfach deshalb keine Differentialexpression aufwiesen,
weil das komplementäre
Ziel nicht in dem Probensatz dargestellt war, nicht auszuwählen. In
der Tat war die Verteilung von Signalintensitäten für die Sonden, die diese Kriterien
erfüllten,
höher als
die von Signalintensitäten
für die
Sonden, die sie nicht erfüllten
(Daten nicht gezeigt). Unter Verwendung dieser Kriterien wurden
aus dem anfänglichen
Satz 104 Sonden als Normalisierungssonden ausgewählt.
-
2 zeigt
Signalintensitäten
und Logarithmisches-Verhältnis-Werte
für die
10 experimentellen Probenpaare (nach experimentellem Probenpaar
eingefärbt)
für die
unter Verwendung dieses Verfahrens ausgewählten Normalisierungssonden.
Die Signalintensitäten
dieser Sonden umspannen den dynamischen Bereich der Mikroarrayplattform,
was eine nützliche,
wenn nicht unabdingbare, Charakteristik für eine robuste Normalisierungsleistungsfähigkeit
ist.
-
Aus
den obigen Ergebnissen und der obigen Erläuterung ist es offensichtlich,
dass durch die vorliegende Erfindung ein neues und nützliches
Verfahren zum Entwerfen von Normalisierungssonden zur Verwendung
auf Nukleinsäuremikroarrays
bereitgestellt wird. Normalisierungssonden, die gemäß den vorliegenden Verfahren
identifiziert werden, weisen hohe Signale mit geringer Schwankung über eine
große
Anzahl divergierender Nukleinsäureproben
auf und eignen sich somit besonders zur Verwendung als Normalisierungssonden.
Als solches stellt die vorliegende Erfindung einen bedeutenden Beitrag
auf ihrem Fachgebiet dar.
-
Alle
in dieser Spezifikation erwähnten
Veröffentlichungen
und Patentanmeldungen sind durch Bezugnahme in das vorliegende Dokument
aufgenommen, so als ob auf jede einzelne Veröffentlichung oder Patentanmeldung
spezifisch als durch Bezugnahme in dem vorliegenden Dokument enthalten
verwiesen worden wäre.
-
Obwohl
die vorstehende Erfindung der Veranschaulichung halber und beispielhaft
zu Zwecken eines klaren Verständnisses
ausführlich
beschrieben wurde, leuchtet es Fachleuten ohne weiteres ein, dass
angesichts der Lehren dieser Erfindung bestimmte Änderungen
und Modifikationen an derselben vorgenommen werden können, ohne
von der Wesensart oder dem Schutzumfang der beigefügten Patentansprüche abzuweichen.