DE102004049891B4

DE102004049891B4 - Verfahren zum Identifizieren von geeigneten Nukleinsäurenormalisierungssondensequenzen zur Verwendung bei Nukleinsäurearrays

Info

Publication number: DE102004049891B4
Application number: DE102004049891A
Authority: DE
Inventors: Karen W. Los Gatos Shannon
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2003-10-14
Filing date: 2004-10-13
Publication date: 2007-09-27
Anticipated expiration: 2024-10-14
Also published as: DE102004049891A1; GB0422405D0; GB2407090A; US20050079509A1

Abstract

Verfahren zum Identifizieren einer Sequenz einer Nukleinsäure, die zur Verwendung als substratoberflächenimmobilisierte Normalisierungssonde geeignet ist, wobei das Verfahren folgende Schritte umfasst:
(a) Identifizieren einer Mehrzahl von in Frage kommenden Sondensequenzen für eine Zielnukleinsäure auf der Basis zumindest eines Auswahlkriteriums;
(b) empirisches Bewerten jeder der in Frage kommenden Sondensequenzen unter einer Mehrzahl unterschiedlicher experimenteller Sätze, um eine Sammlung empirischer Datenwerte für jede der in Frage kommenden Nukleinsäuresondensequenzen für jeden der Mehrzahl unterschiedlicher experimenteller Sätze zu erhalten;
(c) Clustern der in Frage kommenden Sondensequenzen zu einer oder mehreren Gruppen von in Frage kommenden Sondensequenzen auf der Basis der Sammlung von empirischen Datenwerten jeder in Frage kommenden Sondensequenz, wobei jede der einen oder mehreren Gruppen über die Mehrzahl experimenteller Sätze im Wesentlichen dasselbe Verhalten aufweist;
(d) Bewerten jeglicher verbleibender nicht-clusternder Sonden für in Frage kommende Sondensequenzen, die eine Signalintensitätsschwelle erfüllen und bei der Mehrzahl unterschiedlicher experimenteller Sätze im Wesentlichen...

Description

Diese Erfindung bezieht sich auf Nukleinsäurearrays.
Arrays von Bindemitteln oder Sonden, z. B. Polypeptid und Nukleinsäuren, werden in der Branche der Biotechnologie und auf verwandten Gebieten zu einem immer wichtigeren Hilfsmittel. Diese Bindemittelarrays, bei denen eine Mehrzahl von Sonden in Form eines Arrays oder Musters auf einer Feststoffträgeroberfläche positioniert sind, werden auf einer Vielzahl unterschiedlicher Gebiet eingesetzt, z. B. Genomik (bei der Sequenzierung durch Hybridisierung, SNP-Erfassung, Differentialgenexpressionsanalyse, Identifizierung neuartiger Gene, Genabbildung, Fingerabdruckverfahren usw.) und Proteomik.

Bei der Verwendung derartiger Arrays werden die oberflächengebundenen Sonden mit interessierenden Molekülen oder Analyten, d. h. Zielen, in einer Probe in Berührung gebracht. Ziele in der Probe binden sich an die komplementären Sonden auf dem Substrat, um einen Bindungskomplex zu bilden. Das Muster der Bindung der Ziele an die Sondenmerkmale oder -punkte auf dem Substrat erzeugt ein Muster auf der Oberfläche des Substrats und liefert gewünschte Informationen über die Probe. In den meisten Fällen werden die Ziele mit einer erfassbaren Markierung oder Meldungseinrichtung wie z. B. einer fluoreszierenden Markierung, einer chemilumineszierenden Markierung oder einer radioaktiven Markierung markiert. Die sich ergebende Bindungsinteraktion oder Komplexe von Bindungspaaren werden anschließend erfasst und gelesen oder abgefragt, z. B. durch eine optische Einrichtung, obwohl auch andere Verfahren verwendet werden können, je nach der verwendeten erfassbaren Markierung.

Beispielsweise kann Laserlicht verwendet werden, um fluoreszierende Markierungen, die an ein Ziel gebunden sind, anzuregen, wobei lediglich an denjenigen Punkten auf dem Substrat, die ein Ziel, und somit eine fluoreszierende Markierung aufweisen, das bzw. die an ein Sondenmolekül gebunden ist, ein Signal erzeugt wird. Dieses Muster kann dann zu Zwecken der Computeranalyse digital gescannt bzw. abgetastet werden.

Die Normalisierung ist ein allgemeines Problem bei der Analyse von Daten in Bezug auf Nukleinsäuremikroarrays, die zu Proben hybridisiert sind, die in 2 oder mehr Farben markiert sind. Die Normalisierung ist der Vorgang, anhand dessen die Daten von allen Farbkanälen auf denselben relativen Maßstab gebracht werden. Eine derartige erneute Skalierung ist eine Voraussetzung für die Berechnung verschiedener Expressionsverhältnisse, da die aus den Daten erzeugten, berechneten Expressionsverhältnisse mit irgendeinem unbekannten Faktor oder einer unbekannten Funktion multipliziert werden, wenn sich die Daten nicht auf derselben relativen Skala befinden.

Derzeitige Normalisierungsverfahren stützen sich allgemeinen auf zwei Schritte. Der erste Schritt besteht darin, einen Teilsatz von Daten für das Expressionsverhältnis zu identifizieren, von dem man (zumindest im Durchschnitt) glaubt, dass es bekannt sei. Beispielsweise kann man einen Satz von „organisatorischen Genen" (Genen, von denen man annimmt, dass sie in unterschiedlichen Probentypen einheitlich exprimiert werden) verwenden, oder man kann alle statistisch bedeutsamen Daten verwenden (falls man annimmt, dass die Anzahl unterschiedlich exprimierter Gene im Vergleich zu der Gesamtpopulation gering ist). Der zweite Schritt besteht darin, die Datenkanäle gemäß einem geeigneten Modell neu zu skalieren. Das Modell kann einfach nur eine Teilung aller in jedem Kanal befindlichen Daten durch den arithmetischen oder geometrischen Mittelwert der in diesem Kanal befindlichen Daten beinhalten, oder es kann so eine komplexe Angelegenheit wie eine Anpassung an eine nichtlineare Funktion sein.

Die oben erwähnten Verfahren stützen sich auf die Identifizierung eines Teilsatzes der Daten zur Verwendung als Normalisierungssonden. Diese Sonden können a priori, beispielsweise bei der Verwendung von Routinegenen, identifiziert werden, oder sie können als Bestandteil des Normalisierungsprozesses identifiziert werden, wie dies unter Verwendung des LOPS-Verfahrens (LOPS = Longest Order-Preserving Set, längster die Reihenfolge beibehaltender Satz) oder unter Verwendung des Rangordnungsnormalisierungsprotokolls (Rank Order Normalization Protocol) (Agilent Technologies, Palo Alto, Kalifornien) erfolgt. Routinegensätze weisen die Schwierigkeit auf, dass sich bei vielen derartigen Sätzen nach einer ausführlichen Untersuchung herausstellt, dass sie über verschiedene Proben hinweg nicht einheitlich exprimiert, d. h. unterschiedlich exprimiert, werden und somit allgemein nicht über eine große Vielfalt von Probensätzen hin nützlich sind. Verfahren, die sich auf eine „im Prozess erfolgende" Identifizierung von Normalisierungssonden stützen, schlagen eventuell fehl, falls die Anzahl unterschiedlich exprimierter Gene im Vergleich zu der Gesamtpopulation nicht gering ist oder wenn die Gesamtpopulation gering ist.

Als solches besteht ein fortgesetztes Interesse an der Identifizierung von Normalisierungssonden zur Verwendung bei Nukleinsäurearrayversuchen.

Relevante Literatur

Interessierende U.S.-Patentschriften umfassen 6,591,196; 6,251,588 und 5,556,749. Interessierende veröffentlichte U.S.-Patentanmeldungen umfassen 20030156136 und 20030065449.

Die WO 99/57314 beschreibt ein Verfahren zum elektrischen Isolieren von Nukleinsäuren. Auf einem Probenträger wird eine Probe, die Nukleinsäuren enthält, mittels eines elektrischen Feldes aufgeschlossen. Nach dem Aufschluss der Probe wird dieselbe mit einem nukleinsäureaffinen Material in Kontakt gebracht, so dass einzelne oder mehrere in der Probe enthaltene Nukleinsäuren gebunden werden.

Die EP 1 209 612 A2 beschreibt ein Verfahren zum Vorhersagen einer Hybridisierungsaffinität einer Nukleinsäure zum Auswählen von Sonden für eine Genexpression. Eine Hybridi- sierungsaffinität zwischen der Sonde und Zielmolekülen wird durch vorbestimmte Messungen bestimmt. Unter Verwendung eines Modells, bei dem die Hybridisierungsaffinität unter Verwendung einer Summe aus der freien Energie Pi bei einer bestimmten Position und eines entsprechenden Werts, der von der Probensequenz abgeleitet wird, wird eine Berechnung durchgeführt, um die gemessene Identizität mittels eines linearen Least-square-Fit zu beschreiben. Zum Auswählen einer Sonde wird eine Identizitätsdifferenz von jeweiligen Probenpaaren, d. h. eines perfekten Übereinstimmens und eines Nicht-Übereinstimmens vorhergesagt und diejenigen Probepaare verwendet, die in einer oberen Hälfte der Vorhersagen liegen.

Kaderali et al., „Selecting signature oligonucleotides to identify organisms using DNA arrays" Bioinformatics, Vol. 18, No. 102002, Seiten 1340–1349 zeigt ein Verfahren zum Auswählen von Signatur-Oligonucleotiden zum Identifizieren von Organismen. Für jede Zielsequenz wird eine Temperatur bestimmt, so dass eine Schmelztemperatur für eine Sonde größer ist als eine Schmelztemperatur für andere potentielle Sonden. Die Sonde mit der höchsten Schmelztemperatur wird daraufhin ausgewählt. Vor dem Durchführen einer Berechnung der Schmelztemperaturen wird eine Sondenlänge auf einen vorbestimmten Bereich begrenzt, und Sonden, die bezüglich zwei oder mehr Zielsequenzen ein perfektes Komplementär darstellen, durchgeführt. Ferner wird hinsichtlich einer Minimumtemperatur eine Einschränkung eingeführt, dass die Schmelztemperatur über einer Temperatur des Arrays liegen soll.

Die US 2002/0068293 A1 beschreibt ein Array von immobilisierten Nukleinsäuresonden, die neben Hybridisierungssonden Hintergrundsonden umfasst. Die Hintergrundsonden liefern ein Hintergrundsignal und können empirisch beobachtete Sonden, Sonden mit einer stabilen intermolekularen Struktur, wie beispielsweise Haarnadeln oder Pseudo-Halbknoten, kurze Proben, Proben mit umgekehrt-Polaritätnukleotidanalogen oder Proben mit Phosphordiesther oder modifizierte Nukleotideinheiten umfassen.

Die EP 1186673 A2 beschreibt ein Verfahren zum Kalibrieren von Molekulararraydaten. Kalibrierungsmerkmale werden systematisch über den Bereich des Molekulararrays verteilt, wobei die Kalibrierungsmerkmale Sondenmoleküle aufweist, die zuverlässig mit einer großen Anzahl von Zielmolekülen hybridisieren.

Die Aufgabe der vorliegenden Erfindung besteht darin, Verfahren, ein computerlesbares Medium, ein Rechenanalysesystem, ein Nukleinsäurearray sowie ein Ausrüstungspaket mit verbesserten Charakteristika zu schaffen.

Diese Aufgabe wird durch Verfahren gemäß einem der Ansprüche 1, 17, 20, durch ein computerlesbares Medium gemäß Anspruch 15, ein Rechenanalysesystem gemäß Anspruch 16, gemäß Anspruch 20 sowie durch ein Ausrüstungspaket gemäß Anspruch 24 gelöst.

Es werden Verfahren zum Identifizieren einer Sequenz einer Sonde, z. B. einer biopolymeren Sonde, z. B, einer Nukleinsäure, die sich zur Verwendung als oberflächenimmobilisierte Normalisierungssonde auf einem Nukleinsäurearray eignet, vorgesehen. Ein Merkmal der vorliegenden Verfahren besteht darin, dass ein Satz von rechnerisch ermittelten, in Frage kommenden anfänglichen Sequenzen empirisch ausgewertet werden, um funktionelle Daten zu erhalten, die dann verwendet werden, um die in Frage kommenden Sequenzen bezüglich ihrer Eignung als Normalisierungssonden zu bewerten. Sequenzen, die als zur Verwendung als Normalisierungssonden gemäß den vorliegenden Verfahren geeignet identifiziert werden, sind solche, die mit anderen Sonden des in Frage kommenden Satzes keine Cluster bzw. Anhäufungen bilden, die eine hohe Signalintensität aufweisen und die über eine große Anzahl von Proben hinweg im Wesentlichen keine unterschiedliche Expression aufweisen. Die vorliegende Erfindung umfasst ferner Algorithmen zum Durchführen der vorliegenden Verfahren, die auf ein computerlesbares Medium aufgezeichnet sind, sowie Rechenanalysesysteme, die dieselben umfassen. Ebenfalls vorgesehen sind Nukleinsäurearrays, die mit Normalisierungssonden erzeugt werden, die Sequenzen aufweisen, die durch die vorliegenden Verfahren identifiziert werden, sowie Verfahren zum Verwenden derselben.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
1 ein Flussdiagramm, das die Schritte der vorliegenden Verfahren darstellt;
2 einen Graphen des logarithmischen Verhältnisses gegenüber der Signalintensität für eine Reihe von Normalisierungssonden, die gemäß einem Ausführungsbeispiel der vorliegenden Erfindung identifiziert wurden, gemäß der Beschreibung in dem nachstehenden experimentellen Abschnitt.
Bei der vorliegenden Anmeldung beziehen sich die folgenden Begriffe auf die angegebenen Charakteristika, wenn keine gegenteilige Absicht angegeben ist.
Wenn keine andere Definition angegeben ist, weisen alle hierin verwendeten technischen und wissenschaftlichen Begriffe dieselbe Bedeutung auf, wie sie üblicherweise durch Fachleute auf dem Fachgebiet, zu dem diese Erfindung gehört, verstanden werden. Trotzdem sind bestimmte Elemente der Deutlichkeit und Übersichtlichkeit halber nachstehend definiert.
Ein „Biopolymer" ist ein Polymer von einem oder mehreren Typen sich wiederholender Einheiten. Biopolymere finden sich üblicherweise in biologischen Systemen und umfassen insbesondere Polysaccharide (z. B. Kohlehydrate), Peptide (wobei dieser Begriff verwendet wird, um Polypeptide und Proteine zu umfassen) und Polynucleotide sowie ihre Analoga, z. B. diejenigen Verbindungen, die aus Aminosäureanaloga oder Nicht-Aminosäuregruppen oder Nucleotidanaloga oder Nicht-Nucleotidgruppen bestehen oder dieselben enthalten. Biopolymere umfassen Polynucleotide, bei denen die herkömmliche Hauptkette durch eine nicht in der Natur vorkommende oder synthetische Hauptkette ersetzt wurde, und Nukleinsäu ren (oder synthetische oder in der Natur vorkommende Analoga), bei denen eine oder mehrere der herkömmlichen Basen durch eine (natürliche oder synthetische) Gruppe ersetzt wurde, die in der Lage ist, an Wasserstoffbindungsinteraktionen vom Watson-Crick-Typ teilzunehmen. Polynucleotide umfassen einfache oder mehrsträngige Konfigurationen, wobei einer oder mehrere der Stränge eventuell nicht vollständig miteinander ausgerichtet sind. Ein „Nucleotid" bezieht sich auf eine Teileinheit einer Nukleinsäure und weist eine Phosphatgruppe, einen 5-Kohlenstoff-Zucker und eine stickstoffhaltige Base auf, sowie funktionelle Analoga (ob sie nun synthetisch sind oder in der Natur vorkommen) derartiger Teileinheiten, die in der Polymerform (als Polynucleotid) auf eine sequenzspezifische Art und Weise, die analog ist zu der von zwei in der Natur vorkommenden Polynucleotiden, mit in der Natur vorkommenden Polynucleotiden hybridisieren können. Biopolymere umfassen DNA (einschließlich cDNA), RNA, Oligonucleotide und PNA und andere Polynucleotide, die in der U.S.-Patentschrift Nr. 5,948,902 und den dort erwähnten Referenzdokumenten (von denen alle durch Bezugnahme in das vorliegende Dokument aufgenommen sind), unabhängig der Quelle, beschrieben sind. Ein „Oligonucleotid" bezieht sich allgemein auf ein Nucleotidmultimer einer Länge von etwa 10 bis 100 Nucleotiden, wohingegen ein „Polynucleotid" ein Nucleotidmultimer mit einer beliebigen Anzahl von Nucleotiden umfasst. Ein „Biomonomer" verweist auf eine einzelne Einheit, die mit denselben oder anderen Biomonomeren verknüpft werden kann, um ein Biopolymer zu bilden (z. B. eine einzelne Aminosäure oder ein einzelnes Nucleotid mit zwei Verknüpfungsgruppen, von denen eine bzw. die beide entfernbare Schutzgruppen aufweisen kann bzw. können).
Ein „Array" umfasst jegliche eindimensionale, zweidimensionale oder im Wesentlichen zweidimensionale (sowie eine dreidimensionale) Anordnung adressierbarer Regionen; die einen bestimmten chemischen Anteil oder bestimmte chemische Anteile (z. B. Biopolymere wie z. B. Polynucleotid- oder Oligonucleotidsequenzen (Nukleinsäuren), Polypeptide (z. B. Proteine), Kohlehydrate, Lipide usw.), die dieser Region zugeordnet sind, tragen. Im weitesten Sinne sind die bevorzugten Arrays Arrays von polymeren Bindemitteln, wobei die polymeren Bindemittel jegliche der Folgenden sein können: Polypeptide, Proteine, Nukleinsäuren, Polysaccharide, synthetische Nachahmungsstoffe derartiger biopolymeren Bindemittel usw. Bei vielen interessierenden Ausführungsbeispielen sind die Arrays Arrays von Nukleinsäuren, einschließlich Oligonucleotide, Polynucleotide, cDNAs, mRNAs, synthetische Nachahmungsstoffe derselben und dergleichen. Dort, wo die Arrays Arrays von Nukleinsäuren sind, können die Nukleinsäuren an jeglichem Punkt entlang der Nukleinsäurekette kovalent an die Arrays angehängt sein, sind jedoch im allgemeinen an eine deren Endungen (z. B. die 3'- oder die 5'-Endung) angehängt. Manchmal sind die Arrays Arrays von Polypeptiden, z. B. Proteinen oder Fragmenten derselben.
Jegliches gegebene Substrat kann ein, zwei, vier oder mehr Arrays tragen, die auf einer vorderen Oberfläche des Substrats angeordnet sind. Je nach Verwendung können beliebige oder alle Arrays identisch sein oder sich voneinander unterscheiden und können jeweils mehrere Punkte („spots") oder Merkmale enthalten. Ein typisches Array kann in einem Bereich von weniger als 20 cm² oder sogar weniger als 10 cm² mehr als zehn, mehr als einhundert, mehr als eintausend, mehr als zehntausend Merkmale oder sogar mehr als hunderttausend Merkmale enthalten. Beispielsweise können Merkmale Breiten (d. h., für einen runden Punkt, Durchmesser) im Bereich von 10 μm bis 1,0 cm aufweisen. Bei anderen Ausführungsbeispielen kann jedes Merkmal eine Breite im Bereich von 1,0 μm bis 1,0 mm, üblicherweise 5,0 μm bis 500 μm und noch üblicher 10 μm bis 200 μm, aufweisen. Nicht-runde Merkmale können Flächenbandbreiten aufweisen, die äquivalent zu kreisförmigen Merkmalen mit den vorstehenden Breitenbandbreiten (Durchmesserbandbreiten) sind. Zumindest manche oder alle Merkmale weisen unterschiedliche Zusammensetzungen auf (beispielsweise können die verbleibenden Merkmale, wenn jegliche Wiederholungen jeder Merkmalszusammensetzung ausgeschlossen ist, zumindest 5 %, 10 % oder 20 % der Gesamtanzahl der Merkmale ausmachen). Es sind üblicherweise Bereiche zwischen einzelnen Merkmalen (jedoch nicht unbedingt) vorhanden, die kein Polynucleotid (oder kein anderes Biopolymer oder keinen anderen chemischen Anteil eines Typs, aus dem die Merkmale bestehen) tragen. Derartige Bereiche zwischen einzelnen Merkmalen sind üblicherweise dort vorhanden, wo die Arrays durch Prozesse gebildet werden, die eine Tropfenaufbringung von Reagenzien beinhalten, die eventuell nicht vorhanden sind, wenn z. B. mit Licht gelenkte Syntheseherstellungsverfahren verwendet werden. Man wird jedoch einsehen, dass die Zwischenräume zwischen den Merkmalen, wenn sie vorhanden sind, verschiedene Größen und Konfigurationen aufweisen könnten.
Jedes Array kann eine Fläche von weniger als 100 cm² oder sogar weniger als 50 cm², 10 cm² oder 1 cm² abdecken. Bei vielen Ausführungsbeispielen ist das Substrat, das das eine oder die mehreren Arrays trägt, allgemein als rechteckiger Festkörper (obwohl auch andere Formen möglich sind) mit einer Länge von mehr als 4 mm und weniger als 1 m, üblicherweise mehr als 4 mm und weniger als 600 mm, noch üblicher weniger als 400 mm; einer Breite von mehr als 4 mm und weniger als 1 m, üblicherweise weniger als 500 mm und noch üblicher weniger als 400 mm; und einer Dicke von mehr als 0,01 mm und weniger als 5,0 mm; üblicherweise mehr als 0,1 mm und weniger als 2 mm, und noch üblicher mehr als 0,2 und weniger als 1 mm geformt. Bei Arrays, die durch ein Erfassen der Fluoreszenz gelesen werden, kann das Substrat aus einem Material bestehen, das auf eine Beleuchtung mit dem Anregungslicht hin eine geringe Fluoreszenz emittiert. In dieser Situation kann das Substrat zusätzlich relativ transparent sein, um die Absorption des einfallenden beleuchtenden Laserlichts und ein anschließendes Erwärmen, falls sich der fokussierte Laserstrahl zu langsam über eine Region bewegt, zu verringern. Beispielsweise kann das Substrat 10 zumindest 20 % oder 50 % (oder sogar zumindest 70 %, 90 % oder 95 %) des auf die Vorderfläche auftreffenden, beleuchtenden Lichts, wie es über das, gesamte integrierte Spektrum dieses beleuchtenden Lichts oder, alternativ dazu, bei 532 nm oder 633 nm gemessen wird, transmittieren.
Arrays können unter Verwendung einer Tropfenaufbringung aus Pulsstrahlvorrichtungen entweder von Polynucleotid-Vorläufer-Einheiten (z. B. Monomeren) im Fall einer In-Situ-Herstellung, oder des zuvor erhaltenen Polynucleotids hergestellt werden. Derartige Verfahren sind beispielsweise in den zuvor erwähnten Referenzdokumenten, einschließlich der U.S.-Patentschriften Nrn. 6,242,266, 6,232,072, 6,180,351, 6,171,797, 6,323,043 sowie der U.S.-Patentanmeldung mit der Seriennummer 09/302,898, die am 30. April 1999 von Caren u. a. eingereicht wurden, und den dort zitierten Referenzdokumenten ausführlich beschrieben. Diese Referenzen sind durch Bezugnahme in das vorliegende Dokument aufgenommen. Für die Herstellung können weitere Tropfenaufbringungsverfahren verwendet werden, wie zuvor in diesem Dokument beschrieben wurde. Ferner können statt Tropfenaufbringungsverfahren auch mit Licht gelenkte Herstellungsverfahren verwendet werden, wie sie in der Technik bekannt sind. Es müssen keine Bereiche zwischen einzelnen Merkmalen vorliegen, insbesondere wenn die Arrays anhand von mit Licht gelenkten Syntheseprotokollen hergestellt werden.
Ein Array ist „adressierbar", wenn es mehrere Regionen unterschiedlicher Anteile (z. B. unterschiedlicher Polynucleotidsequenzen) aufweist, derart, dass eine Region (d. h. ein „Merkmal" oder „Punkt" des Arrays) an einer jeweiligen vorbestimmten Position (d. h. einer „Adresse") auf dem Array ein bestimmtes Ziel oder eine bestimmte Klasse von Zielen erfasst (obwohl ein Merkmal gelegentlich auch Nicht-Ziele dieses Merkmals erfassen kann). Arraymerkmale sind üblicherweise durch dazwischenliegende Räume getrennt, dies muss jedoch nicht der Fall sein. Im Fall eines Arrays wird das „Ziel" als ein Anteil in einer mobilen Phase (üblicherweise flüssig) bezeichnet, der anhand von Sonden („Zielsonden"), die an den verschiedenen Regionen an das Substrat gebunden sind, erfasst werden soll. Jedoch kann entweder das „Ziel" oder auch die „Zielsonde" dasjenige bzw. diejenige sein, das bzw. die durch das bzw. die jeweils andere zu bewerten ist (somit könnte jede(s) von beiden ein unbekanntes Gemisch von Polynucleotiden sein, das durch ein Binden mit dem bzw. der anderen zu bewerten ist). Eine „Abtastregion" bezieht sich auf einen zusammenhängenden (vorzugsweise rechteckigen) Bereich, in dem die interessierenden Arraypunkte oder -merkmale, wie sie oben definiert wurden, zu finden sind. Die Abtastregion ist derjenige Abschnitt des beleuchteten Gesamtbereichs, aus dem die sich ergebende Fluoreszenz erfasst und aufgezeichnet wird. Für die Zwecke dieser Erfindung umfasst die Scanregion den gesamten Bereich des Dias, das bei jedem Durchgang der Linse abgetastet wird, zwischen dem ersten interessierenden Merkmal und dem letzten interessierenden Merkmal, auch wenn dazwischenliegende Bereiche vorliegen, die keine interessierenden Merkmale aufweisen. Ein „Array-Layout" bezieht sich auf eine oder mehr Charakteristika der Merkmale, z. B. Positionierung von Merkmalen auf dem Substrat, ein oder mehrere Merkmalsabmessungen sowie einen Hinweis auf einen Anteil an einer gegebenen Position. Die Begriffe „hybridisieren" und „binden" werden in Bezug auf Polynucleotide austauschbar verwendet.
Der Begriff „Substrat" bezieht sich gemäß seiner Verwendung in diesem Dokument auf eine Oberfläche, auf der Markierungsmoleküle oder -sonden, z. B. ein Array, haften können. Glasdias sind das üblichste Substrat für Biochips, obwohl auch Rauch-Silika, Silizium, Kunststoff oder andere Materialien geeignet sind.
Der Begriff „flexibel" wird hierin verwendet, um auf eine Struktur, z. B. eine untere Oberfläche oder eine Abdeckung, Bezug zu nehmen, die in der Lage ist, gebogen, gefaltet oder auf ähnliche Weise manipuliert zu werden, ohne zu brechen. Beispielsweise ist eine Abdeckung flexibel, wenn sie in der Lage ist, von der unteren Oberfläche abgezogen zu werden, ohne zu brechen.
„Flexibel" in Bezug auf ein Substrat oder eine Substratbahn nimmt darauf Bezug, dass das Substrat 180 Grad um eine Rolle eines Radius von weniger als 1,25 cm gebogen werden kann. Das Substrat kann zumindest 100 mal ohne Defekt (z. B. Rissbildung) oder Verformung des Kunststoffs wiederholt in beide Richtungen gebogen und begradigt werden. Dieses Biegen muss innerhalb der elastischen Grenzen des Materials erfolgen. Der vorstehende Flexibilitätstest wird bei einer Temperatur von 20°C durchgeführt.
Eine „Bahn" bezieht sich auf ein langes, durchgehendes Stück eines Substratmaterials, dessen Länge größer ist als seine Breite. Beispielsweise kann das Verhältnis der Bahnlänge zur -breite zumindest 5/1, 10/1, 50/1, 100/1, 200/1 oder 500/1 oder sogar zumindest 1.000/1 betragen.
Das Substrat kann flexibel sein (z. B. eine flexible Bahn). Wenn das Substrat flexibel ist, kann es verschiedene Längen aufweisen, einschließlich zumindest 1 m, zumindest 2 m oder zumindest 5 m (oder sogar zumindest 10 m).
Der Begriff „starr" wird hierin verwendet, um auf eine Struktur, z. B. eine untere Oberfläche oder eine Abdeckung, Bezug zu nehmen, die sich nicht ohne weiteres biegen lässt, ohne zu brechen, d. h. die Struktur ist nicht flexibel.
Die Begriffe „spezifisch zu ... hybridisieren" und „spezifische Hybridisierung" und „selektiv zu ... hybridisieren", wie sie hierin verwendet werden, beziehen sich auf das Binden, Duplexieren oder Hybridisieren eines Nukleinsäuremoleküls unter strengen Bedingungen, vorzugsweise zu einer bestimmten Nucleotidsequenz.
Die Abk. „M" und „mM" stehen für die Einheiten mol/l bzw. mmol/l. Der Begriff „strenge Bedingungen" bezieht sich auf Bedingungen, unter denen eine Sonde vorzugsweise zu ihrer Zielteilsequenz und, in geringerem Umfang, zu anderen Sequenzen, oder überhaupt nicht zu anderen Sequenzen, hybridisiert. Anders gesagt bezieht sich der Begriff „strenge Hybridisierungsbedingungen" gemäß seiner Verwendung in diesem Dokument auf Bedingungen, die kompatibel sind, um Duplexe auf einer Arrayoberfläche zwischen komplementären Bindebaugliedern, z. B. zwischen Sonden und komplementären Zielen in einer Probe, z. B. Duplexe von Nukleinsäuresonden, wie z. B. DNA-Sonden, und ihren entsprechenden Nukleinsäurezielen, die in der Probe vorliegen, z. B. ihren entsprechenden mRNA-Analyten, die in der Probe vorliegen, zu erzeugen. Eine „strenge Hybridisierung" und „strenge Hybridisierungswaschbedingungen" im Zusammenhang einer Nukleinsäure-Hybridisierung (z. B. in einem Array, südliche und nördliche Hybridisierungen) sind sequenzabhängig und unterscheiden sich unter unterschiedlichen Umweltparametern. Strenge Hybridisierungsbedingungen, die verwendet werden können, um Nukleinsäuren innerhalb des Schutzumfangs der Erfindung zu identifizieren, können z. B. eine Hybridisierung in einem Puffer umfassen, der 50 % Formamid, 5 × SSC und 1 % SDS bei 42°C aufweist, oder eine Hybridisierung in einem Puffer, der 5 × SSC und 1 % SDS bei 65°C aufweist, beide mit einer Wäsche von 0,2 × SSC und 0,1 % SDS bei 65°C. Beispielhafte strenge Hybridisierungsbedingungen können auch eine Hybridisierung in einem Puffer von 40 % Formamid, 1 M NaCl und 1 % SDS bei 37°C und eine Wäsche in 1 × SSC bei 45°C umfassen. Alternativ dazu können eine Hybridisierung zu einer filtergebundenen DNA in 0,5 M NaHPO₄, 7 % Natriumdodecylsulfat (SDS), 1 mμM EDTA bei 65°C und eine Wäsche in 0,1 × SSC/0,1 % SDS bei 68°C verwendet werden. Zusätzliche strenge Hybridisierungsbedingungen umfassen eine Hybridisierung bei 60°C oder mehr und 3 × SSC (450 mM Natriumchlorid/45 mM Natriumcitrat) oder eine Inkubation bei 42°C in einer Lösung, die 30 % Formamid, 1 M NaCl, 0,5 % Natriumsarkosin, 50 mM MES, pH-Wert 6,5, ent hält. Fachleute werden ohne weiteres erkennen, dass alternative, jedoch vergleichbare Hybridisierungs- und Waschbedingungen verwendet werden können, um ähnlich strenge Bedingungen zu schaffen.
Bei bestimmten Ausführungsbeispielen legt die Strenge der Waschbedingungen die Bedingungen fest, die bestimmen, ob eine Nukleinsäure spezifisch zu einer Sonde hybridisiert wird. Waschbedingungen, die verwendet werden, um Nukleinsäuren zu identifizieren, können beispielsweise folgende umfassen: eine Salzkonzentration von etwa 0,02 Mol bei einem pH-Wert von 7 und einer Temperatur von zumindest etwa 50°C oder etwa 55°C bis etwa 60°C; oder eine Salzkonzentration von etwa 0,15 M NaCl bei 72°C über etwa 15 Minuten; oder eine Salzkonzentration von etwa 0,2 × SSC bei einer Temperatur von zumindest etwa 50°C oder etwa 55°C bis etwa 60°C über etwa 15 bis etwa 20 Minuten; oder der Hybridisierungskomplex wird zweimal mit einer Lösung mit einer Salzkonzentration von etwa 2 × SSC, die 0,1 % SDS enthält, 15 Minuten lang bei Raumtemperatur gewaschen und anschließend zweimal mit 0,1 × SSC, das 0,1 % SDS enthält, 15 Minuten lang bei 68°C gewaschen; oder äquivalente Bedingungen. Strenge Bedingungen für das Waschen können z. B. auch 0,2 × SSC/0,1 % SDS bei 42°C betragen. In Fällen, in denen die Nukleinsäuremoleküle Deoxyoligonucleotide („Oligos") sind, können strenge Bedingungen ein Waschen in 6 × SSC/0,05 Natriumpyrophosphat bei 37°C (für 14-Basen-Oligos), 48°C (für 17-Basen-Oligos), 55°C (für 20-Basen-Oligos) und 60°C (für 23-Basen-Oligos) umfassen. In Bezug auf ausführliche Beschreibungen äquivalenter Hybridisierungs- und Waschbedingungen und in Bezug auf Reagenzien und Puffer, z. B. SSC-Puffer und äquivalente Reagenzien und Bedingungen, siehe Sambrook, Ausubel oder Tijssen (nachstehend zitiert).
Strenge Hybridisierungsbedingungen sind Hybridisierungsbedingungen, die zumindest so streng sind wie die obigen repräsentativen Bedingungen, wobei Bedingungen als mindestens so streng erachtet werden, wenn sie zumindest etwa 80 % so streng, üblicherweise zumindest etwa 90 % so streng sind wie die obigen spezifischen strengen Bedingungen. Andere strenge Hybridisierungsbedingungen sind in der Technik bekannt und können nach Bedarf ebenfalls verwendet werden.
Mit „entfernte Position" meint man eine andere Position als die Position, an der das Array vorliegt und eine Hybridisierung erfolgt. Beispielsweise könnte eine entfernte Position eine andere Position (z. B. ein anderes Büro, Labor usw.) in derselben Stadt, eine andere Position in einer anderen Stadt, eine andere Position in einem anderen Staat, eine andere Position in einem anderen Land usw. sein. Wenn also ein Posten als „entfernt" von einem anderen angegeben wird, ist damit gemeint, dass sich die zwei Posten zumindest in unterschiedlichen Räumen oder unterschiedlichen Gebäuden befinden und zumindest eine Meile, zehn Meilen oder zumindest einhundert Meilen voneinander entfernt sein können. Ein „Kommunizieren" von Informationen bezieht sich auf ein Senden der Daten, die diese Informationen darstellen, als elektrische Signale über einen geeigneten Kommunikationskanal (z. B. ein privates oder öffentliches Netzwerk). Ein „Weiterleiten" eines Postens bezieht sich auf ein beliebiges Mittel, diesen Posten von einer Position zur nächsten zu befördern, entweder durch ein physisches Transportieren dieses Postens oder auf andere Art und Weise (wo dies möglich ist), und umfasst zumindest im Fall von Daten ein physisches Transportieren eines Mediums, das die Daten trägt oder das die Daten kommuniziert. Ein Array-„Paket" kann das Array plus lediglich ein Substrat sein, auf dem das Array angeordnet ist, obwohl das Paket andere Merkmale (z. B. ein Gehäuse mit einer Kammer) umfassen kann. Eine „Kammer" bezieht sich auf ein umschlossenes Volumen (obwohl eine Kammer durch ein oder zwei Tore zugänglich sein kann). Man wird ferner erkennen, dass Wörter wie z. B. „oberste (r, s)", „obere (r, s)" und „untere (r, s)" in der gesamten vorliegenden Anmeldung lediglich in einem relativen Sinn verwendet werden.
Ein „computerbasiertes System" bezieht sich auf die Hardwareeinrichtung, Softwareeinrichtung und Datenspeichereinrichtung, die verwendet werden, um die Informationen der vorliegenden Erfindung zu analysieren. Die minimale Hardware der computerbasierten Systeme der vorliegenden Erfindung umfasst eine Zentralverarbeitungseinheit (CPU), eine Eingabeeinrichtung, eine Ausgabeeinrichtung und eine Datenspeichereinrichtung. Erfahrene Fachleute werden ohne weiteres erkennen, dass jegliche derzeit erhältliche computerbasierte Systeme zur Verwendung bei der vorliegenden Erfindung geeignet sind. Die Datenspeichereinrichtung kann jegliche Herstellung umfassen, die ein Aufzeichnen der vorliegenden Erfindung gemäß der obigen Beschreibung umfasst, oder eine Speicherzugriffseinrichtung, die auf eine derartige Herstellung zugreifen kann.
Ein „Aufzeichnen" von Daten, einer Programmierung oder anderer Informationen auf ein computerlesbares Medium bezieht sich auf einen Prozess des Speicherns von Informationen unter Verwendung jeglicher Verfahren, wie sie in der Technik bekannt sind. Auf der Basis der Einrichtung, die zum Zugreifen auf die gespeicherten Informationen verwendet wird, kann jegliche zweckmäßige Datenspeicherstruktur gewählt werden. Zur Speicherung kann eine Vielzahl von Datenprozessorprogrammen und -formaten verwendet werden, z. B. Textverarbeitungsdatei, Datenbankformat usw.
„Prozessor" bezieht sich auf jegliche Kombination von Hardware und/oder Software, die die von derselben verlangten Funktionen erfüllt. Beispielsweise kann jeglicher Prozessor hierin ein programmierbarer digitaler Mikroprozessor sein, wie er beispielsweise in Form einer elektronischen Steuerung, eines Hauptrechners, eines Servers oder eines Personal-Computers (Desktop oder tragbar) erhältlich ist. Wenn der Prozessor programmierbar ist, kann eine geeignete Programmierung von einer entfernten Position an den Prozessor kommuniziert oder zuvor in einem Computerpro- grammprodukt (z. B. einem tragbaren oder feststehenden computerlesbaren Speichermedium, ob es nun auf einem magnetischen, optischen oder Halbleitergerät basiert) gesichert werden. Beispielsweise kann ein magnetisches Medium oder eine optische Platte die Programmierung tragen und kann anschließend durch eine geeignete Lesevorrichtung, die mit jedem Prozessor an seiner entsprechenden Station kommuniziert, gelesen werden.
Es werden Verfahren zum Identifizieren einer Sequenz einer Sonde, z. B. einer biopolymeren Sonde, z. B. einer Nukleinsäure, die sich zur Verwendung als oberflächenimmobilisierte Normalisierungssonde auf einem Nukleinsäurearray eignet, vorgesehen. Ein Merkmal der vorliegenden Verfahren besteht darin, dass ein Satz von rechnerisch ermittelten, in Frage kommenden anfänglichen Sequenzen empirisch ausgewertet werden, um funktionelle Daten zu erhalten, die dann verwendet werden, um die in Frage kommenden Sequenzen bezüglich ihrer Eignung als Normalisierungssonden zu bewerten. Sequenzen, die als zur Verwendung als Normalisierungssonden gemäß den vorliegenden Verfahren geeignet identifiziert werden, sind solche, die mit anderen Sonden des in Frage kommenden Satzes keine Cluster bzw. Anhäufungen bilden, die eine hohe Signalintensität aufweisen und die über eine große Anzahl unterschiedlicher Proben hinweg im Wesentlichen keine unterschiedliche Expression aufweisen. Die vorliegende Erfindung umfasst ferner Algorithmen zum Durchführen der vorliegenden Verfahren, die auf ein computerlesbares Medium aufgezeichnet sind, sowie Rechenanalysesysteme, die dieselben umfassen. Ebenfalls vorgesehen sind Nukleinsäurearrays, die mit Sonden erzeugt werden, die Sequenzen aufweisen, die durch die vorliegenden Verfahren identifiziert werden, sowie Verfahren zum Verwenden derselben.
Bevor die vorliegende Erfindung näher beschrieben wird, sollte man verstehen, dass die Erfindung nicht auf die nachstehend beschriebenen bestimmten Ausführungsbeispiele der Erfindung beschränkt ist, da Abwandlungen der jeweiligen Ausführungsbeispiele durchgeführt werden können und trotzdem in den Schutzumfang der beigefügten Patentansprüche fallen. Ferner ist zu verstehen, dass die verwendete Terminologie lediglich dem Zweck des Beschreibens bestimmter Ausführungsbeispiele dient und keine Einschränkung darstellen soll. Stattdessen wird der Schutzumfang der vorliegenden Erfindung durch die beigefügten Patentansprüche festgelegt.
In dieser Spezifikation und in den beigefügten Patentansprüchen umfassen die Singularformen „ein", „eine" usw. sowie „der", „die", „das" usw. Pluralbezugnahmen, es sei denn, der Kontext gibt eindeutig etwas anders vor.
Man muss verstehen, dass, wenn ein Wertebereich angegeben ist, jeder dazwischenliegende Wert bis zum Zehntel der Einheit der Untergrenze, es sei denn, der Kontext gibt eindeutig etwas anderes vor, zwischen der Obergrenze und der Untergrenze dieses Bereichs und jeglicher andere angegebene oder dazwischenliegende Wert in diesem angegeben Bereich in der Erfindung enthalten ist. Die Ober- und Untergrenze dieser kleineren Bereiche können unabhängig in den kleineren Bereichen enthalten sein und sind ebenfalls in der Erfindung beinhaltet, vorbehaltlich jegliches spezifisch ausgeschlossenen Wertes in dem angegebenen Bereich. Wenn der angegebene Bereich eine oder beide Grenzen umfasst, sind Bereiche, die eine oder beide diese eingeschlossenen Grenzen ausschließen, ebenfalls in der Erfindung enthalten.
Wenn keine anderslautende Definition vorliegt, weisen alle hierin verwendeten technischen und wissenschaftlichen Begriffe dieselbe Bedeutung auf, wie sie üblicherweise von Fachleuten auf dem Gebiet, zu dem diese Erfindung zählt, verstanden wird. Obwohl jegliche Verfahren, Vorrichtungen und Materialien, die den hierin beschriebenen ähnlich oder zu denselben äquivalent sind, bei der Praxis oder beim Testen der Erfindung verwendet werden können, werden nun die bevorzugten Verfahren, Vorrichtungen und Materialien beschrieben. Hierin erwähnte Verfahren können in jeglicher beliebigen Reihenfolge der erwähnten Ereignisse, die logisch möglich ist, sowie in der erwähnten Reihenfolge der Ereignisse durchgeführt werden.
Alle in dieser Anmeldung erwähnten Patentschriften und anderen Referenzdokumente sind durch Bezugnahme in die vorliegende Anmeldung aufgenommen, sofern sie nicht im Widerspruch zur vorliegenden Anmeldung stehen (in diesem Fall hat die vorliegende Anmeldung Vorrang).
Wie oben zusammengefasst wurde, liefert die vorliegende Erfindung Verfahren zum Identifizieren oder Entwerfen von Normalisierungssonden zur Verwendung bei Arraystrukturen, wobei die Normalisierungssonden chemische Sonden, z. B. biopolymere Sonden, sind, wie z. B. Nukleinsäuren. Obwohl die folgende Beschreibung der Übersichtlichkeit der Beschreibung halber anhand von Normalisierungs-Nukleinsäuresondenentwurfsprotokollen bereitgestellt wird, ist der Schutzumfang der Erfindung nicht hierauf beschränkt, sondern erstreckt sich Stattdessen auf die Identifizierung oder den Entwurf geeigneter Normalisierungssonden zur Verwendung bei einem beliebigen Typ von Arraystruktur.
Bei der weiteren Beschreibung der vorliegenden Erfindung werden zunächst die Verfahren zum Identifizieren geeigneter Normalisierungssondensequenzen ausführlicher beschrieben, wonach eine erneute Überprüfung von Arrays, die unter Verwendung von Sonden hergestellt werden können, die durch die vorliegenden Verfahren identifiziert werden, sowie repräsentativerr Anwendungen für derartige Arrays folgt.
Verfahren
Wie oben zusammenfassend erläutert wurde, liefert die vorliegende Erfindung Verfahren zum Identifizieren einer Sequenz einer Nukleinsäure, die sich zur Verwendung als oberflächenimmobilisierte Normalisierungssonde für ein Nukleinsäurearray eignet. Mit anderen Worten liefert die vorliegende Erfindung Verfahren zum Entwerfen von Nukleinsäuresonden, die zur Verwendung als Normalisierungssonden auf Nukleinsäurearrays geeignet sind. Die vorliegenden Verfahren führen, zur Identifizierung von Normalisierungssonden, die über eine Mehrzahl von unterschiedlichen Probentypen eine hohe Signalintensität und eine geringe, falls überhaupt vorhandene, Differentialexpression aufweisen. Ein Merkmal der vorliegenden Verfahren besteht darin, dass sie sowohl Rechenschritte als auch empirische Schritte umfassen, wobei spezifisch eine Sammlung von in Frage kommenden Sondensequenzen für eine gegebene Zielnukleinsäure rechnerisch aus der Sequenz der interessierenden Zielnukleinsäure identifiziert wird, wobei die anfänglich identifizierten in Frage kommenden Sequenzen anschließend empirisch getestet und ferner unter Verwendung zusätzlicher Rechenschritte bewertet werden, um eine oder mehrere geeignete Normalisierungssonden zu identifizieren.
Bei vielen Ausführungsbeispielen umfassen die vorliegenden Verfahren die folgenden Schritte:

(a) Identifizieren einer Mehrzahl von in Frage kommenden Sondensequenzen für die Zielnukleinsäure;
(b) empirisches Auswerten jeder der identifizierten, in Frage kommenden Sondensequenzen;
(c) Clustern bzw. Anhäufen der identifizierten in Frage kommenden Sondensequenzen zu zwei oder mehr Gruppen von in Frage kommenden Sondensequenzen auf der Basis beobachteter empirischer Datenwerte, wobei Angehörige eines Clusters über eine Mehrzahl verschiedener experimenteller Sätze, insbesondere über eine Mehrzahl von Differentialgenexpressionsexperimenten, im Wesentlichen dieselbe Leistungsfähigkeit aufweisen; und
(d) Bewerten jeglicher verbleibender nicht geclusterter in Frage kommender Sondensequenzen für diejenigen, die über eine Mehrzahl verschiedener Proben eine hohe Signalintensität und im Wesentlichen keine Differentialexpression aufweisen, um Sequenzen zu identifizieren, die sich zur Verwendung bei Normalisierungssonden eignen.

1 liefert ein Flussdiagramm, das jeden der obigen Schritte der vorliegenden Verfahren zeigt. Bei der weiteren Beschreibung der vorliegenden Verfahren wird nun jeder der obigen Schritte erneut gesondert und ausführlicher betrachtet.
Identifizierung von in Frage kommenden Sonden
Wie oben erwähnt wurde, besteht der erste Schritt bei den vorliegenden Verfahren darin, eine Mehrzahl von in Frage kommenden Sondensequenzen für eine interessierende gegebene Zielnukleinsäure zu identifizieren. Die interessierende Zielnukleinsäure ist allgemein eine Nukleinsäure einer bekannten Sequenz, wobei die Länge der Nukleinsäure variieren kann, in der Regel jedoch zwischen etwa 200 nt und etwa 4.000 nt, z. B. zwischen etwa 400 nt und etwa 2.500 nt, einschließlich zwischen etwa 800 nt und etwa 1.500 nt, beträgt. Bei vielen Ausführungsbeispielen weist die Zielnukleinsäure die Sequenz eines interessierenden mRNA-Transkripts oder die komplementäre Sequenz desselben oder die Sequenz einer Erster- oder Zweiter-Strang-DNA, die aus einer interessierenden mRNA hergestellt ist, auf.
Die in Frage kommenden Sonden werden auf der Basis zumindest eines Auswahlkriteriums identifiziert, wobei bei vielen Ausführungsbeispielen eine Mehrzahl verschiedener Auswahlkriterien zusammen eingesetzt werden, um die in Frage kommenden Sonden aus der Zielnukleinsäuresequenz zu identifizieren, wobei mit „Mehrzahl" zumindest 2 gemeint sind, und wobei „Mehrzahl" sogar 10 oder mehr betragen kann, üblicherweise jedoch weniger als 5, z. B. 2 bis 3, beträgt.
Ein interessierendes Auswahlkriterium, das verwendet werden kann, ist die Entfernung von dem 3'-Ende des mRNA-Transkripts, das der Zielnukleinsäure entspricht, z. B. das die Zielnukleinsäure ist oder das Komplement der Zielnukleinsäure ist, oder von dem die Zielnukleinsäure abgeleitet ist, z. B. dort, wo die Zielnukleinsäure eine Erster- oder Zweiter-Strang-cDNA ist. Wenn dieses Kriterium eingesetzt wird, werden in Frage kommende Sequenzen der Zielnukleinsäure ausgewählt, die sich innerhalb von zumindest etwa 2.000 nt, üblicherweise innerhalb von etwa 1.500 nt und noch üblicher innerhalb etwa 800 nt des 3'-Endes der mRNA befinden, die der Zielnukleinsäure entspricht.
Ein weiteres interessierendes Auswahlkriterium ist die Basenzusammensetzung der Sondensequenz. Wenn dieses Kriterium eingesetzt wird, werden Sequenzen, die normalerweise reich oder arm an GC sind, lange Folgen einer einzelnen Base und/oder Basenzusammensetzungen, von denen man weiß, dass sie inakzeptable Arraymerkmale erzeugen, z. B. unter In-Situ-Produktionsbedingungen, vermieden. Sequenzen, die abnormal reich oder arm an GC sind, sind diejenigen Sequenzen, deren Prozentsätze an G- und C-Basen größer sind als etwa 30, z. B. größer als etwa 35, oder geringer sind als etwa 60, z. B. geringer als etwa 45. Mit „langer Folge" einer einzelnen Base ist ein Abschnitt von Nucleotiden derselben Base gemeint, der größer ist als etwa 6, z. B. größer als etwa 10. Sequenzen, von denen man weiß, dass sie inakzeptable Arraymerkmale erzeugen, umfassen diejenigen, die Folgen von zumindest 10 Gs enthalten, sind aber nicht auf diese beschränkt.
Ein weiteres interessierendes Auswahlkriterium ist die Homologie der in Frage kommenden Sondensequenz in Bezug auf andere Sequenzen von demselben Organismus, d. h. in Bezug auf andere mRNA-Transkripte oder Komplemente desselben Organismus, von dem die interessierende Zielsequenz, für die die Sonde entworfen ist, erhalten wird. Sequenzen mit einem hohen Potential, zu mehr als einem mRNA-Transkript von einem gegebenen Organismus zu hybridisieren, werden vermieden. Das Über-Kreuz-Hybridisierung-Potential von in Frage kommenden Sequenzen kann über eine thermodynamische Punktbewertung der Ausgabe von BLAST, einer standardmäßigen Bioinformatik-Anwendung, die verwendet wird, um eine Sequenzhomologie zu erfassen, und die Fachleuten hinreichend bekannt ist, oder über jegliches andere zweckmäßige Über-Kreuz-Hybridisierung-Potential-Beurteilungsprotokoll geschätzt werden. Eine Verwendung dieses Kriteriums führt zur Identifizierung von Sondensequenzen, die für die interessierende Zielnukleinsäure spezifisch sind.
Bei bestimmten Ausführungsbeispielen ist der verwendete Identifizierungsprozess oder -algorithmus einer, bei dem Parameter verwendet werden, die die Anzahl identifizierter in Frage kommender Sondensequenzen, die einander überlappen, minimieren. Jegliche der oben aufgeführten Kriterien können eingestellt werden, um zu einer minimalen Überlappung der identifizierten in Frage kommenden Sondensequenzen zu führen. Der Überlappungsparameter ist entworfen, um in Frage kommende Sonden zu ergeben, die das Ziel überspannen – falls er nicht spezifiziert ist, identifiziert der verwendete Algorithmus eventuell Sonden, die stark überlappt sind (bis zu 59 von 60 Basen). Obwohl diese die besten Sonden sein können, vereitelt die Verwendung eines derartigen Satzes von in Frage kommenden Sonden die Clusterungsanalyse, da derartige Sonden fast schon per definitionem einer engen Clusterbildung unterliegen.
Unter Verwendung des obigen Protokolls wird eine Mehrzahl von in Frage kommenden Sondensequenzen für eine gegebene Zielnukleinsäure identifiziert. Bei manchen Ausführungsbeispielen beträgt die Anzahl von identifizierten in Frage kommenden Sonden-Nukleinsäuresequenzen zumindest etwa 5, üblicherweise zumindest etwa 7, und kann sogar 15, 20 oder mehr betragen, übersteigt üblicherweise jedoch nicht etwa 15, wobei die Anzahl von in Frage kommenden Sondensequenzen, die für eine gegebene Zielnukleinsäure identifiziert werden, bei bestimmten Ausführungsbeispielen zwischen etwa 7 und 12, z. B. 8, 9, 10 oder 11, beträgt.
Bei bestimmten Ausführungsbeispielen wird ein Algorithmus eingesetzt, z. B. in Verbindung mit einem Rechenanalysesystem, um in Frage kommende Sondensequenzen aus einer Zielnukleinsäure zu identifizieren. Jeglicher zweckmäßige Algorithmus oder Prozess, der in der Lage ist, die obige Funktion auszuführen, kann verwendet werden. Bei vielen Ausführungsbeispielen sind die Sondenentwurfsalgorithmen von Agilent (Agilent Technologies, Palo Alto, Kalifornien) von Interesse, wobei die Algorithmen bei der Identifizierung von in Frage kommenden Sondensequenzen eingesetzt werden. Im einzelnen umfassen die Entwurfsparameter, die verwendet werden können, folgende: 1) die bevorzugten und zulässigen Entfernungen von dem 3'-Ende, 2) die Anzahl von Sonden, die erforderlich sind, bevor eine Basenzusammensetzungsiteration beendet wird (wobei eine geeignete Anzahl üblicherweise zwischen etwa 20 und etwa 200, üblicherweise zwischen etwa 50 und etwa 100 liegt), 3) die Kriterien, die verwendet werden, um Sonden als „Überlappung" zu markieren (wobei „Überlappung" als Sonden definiert sein kann, deren Sequenzen um eine Anzahl von Basen, z. B. mehr als 10 nt; noch üblicherweise mehr als 40 nt, überlappen) und 4) die Anzahl von Sonden, die vor der Homologieberechnung benötigt werden (wobei eine geeignete Anzahl üblicherweise zwischen etwa 10 und etwa 40, üblicherweise zwischen etwa 12 und etwa 20 liegt).
Ein weiterer interessierender Algorithmus umfasst den Sondenauswahlalgorithmus, der in der anhängigen U.S.-Anmeldung mit der Seriennummer 09/659,173, deren Offenbarung durch Bezugnahme in das vorliegende Dokument aufgenommen ist, beschrieben ist.
Wie oben angegeben wurde, führt der obige erste Schritt bei den vorliegenden Verfahren zur Identifizierung einer Mehrzahl verschiedener in Frage kommender Sondensequenzen für eine gegebene Zielnukleinsäure.
Empirische Bewertung von identifizierten in Frage kommenden Sondennukleinsäuresequenzen
Bei dem nächsten Schritt der vorliegenden Verfahren wird jede der identifizierten in Frage kommenden Sondensequenzen empirisch bewertet. Im einzelnen wird jede der identifizierten in Frage kommenden Sondensequenzen bezüglich ihrer Leistungsfähigkeit unter einer Mehrzahl von verschiedenen experimentellen Sätzen, speziell einer Mehrzahl von Differentialgenexpressionsexperimenten, bewertet, um eine Sammlung von empirisch erhaltenen Leistungsfähigkeitsdatenwerten für jede der in Frage kommenden Nukleinsäuresondensequenzen für jede der Mehrzahl von verschiedenen experimentellen Bedingungen zu erhalten. Bei vielen Ausführungsbeispielen sind die experimentellen Bedingungen Differentialgenexpressions-Versuchsexperimente, wobei eine gegebene experimentelle Bedingung ein Differentialgenexpressionsversuch ist, der ein bestimmtes Nukleinsäureprobenpaar verwendet, wobei jede Probe des Paares von einer anderen Quelle, z. B. Gewebe oder Zell-Linie, erhalten wird. Versuche, die auf einem Differentialgenexpressionsarray beruhen, sind Fachleuten hinreichend bekannt. Die Anzahl von unterschiedlichen, auf einem Differentialgenexpressionsarrayberuhenden Versuchen, für die eine gegebene in Frage kommende Sonde empirisch bewertet wird, kann variieren, wobei die Zahl zwischen etwa 2 und etwa 20, z. B. zwischen etwa 5 und etwa 15, einschließlich zwischen etwa 7 und etwa 12, z. B. bei 10, liegen kann. Zwei beliebige Differentialgenexpressionsversuche oder -protokolle werden als unterschiedlich erachtet, wenn zumindest eine der Nukleinsäureproben, die die Paare zweier beliebiger Paare bilden, zwischen den zwei Paaren unterschiedlich ist.
Die Differentialgenexpressionsversuche werden üblicherweise durchgeführt, indem zuerst ein Array von in Frage kommenden Nukleinsäuresonden bereitgestellt wird, die auf einer Oberfläche eines festen Trägers immobilisiert sind, wobei das Array eine substratoberflächenimmobilisierte in Frage kommende Nukleinsäuresonde für jede der empirisch zu bewertenden identifizierten in Frage kommenden Sondensequenzen umfasst. Mit anderen Worten ist ein Array vorgesehen, das eine Sonde für jede der zu bewertenden in Frage kommenden Sondensequenzen umfasst, d. h. alle zu bewertenden in Frage kommenden Sondensequenzen weisen auf dem Array entsprechende Sonden auf, die dieselbe Sequenz umfassen. Die Arrays von in Frage kommenden Sonden können auf viele verschiedene Weisen bereitgestellt werden, z. B. über eine In-Situ-Produktion, wie sie in den U.S.-Patentschriften Nrn. 6,451,998; 6,446,682; 6,440,669; 6,420,180; 6,372,483; 6,323,043; und 6,242,266, deren Offenbarungen durch Bezugnahme in das vorliegende Dokument aufgenommen sind, beschrieben ist.
Die in Frage kommenden oberflächenimmobilisierten Sonden, die die Sequenzen der in Frage kommenden Sondensequenzen aufweisen, werden dann unter Differentialgenexpressionsanalysebedingungen mit zwei oder mehreren Sätzen von Nukleinsäureprobenpaaren in Berührung gebracht, um die Sonden zu bewerten. Bei bestimmten Ausführungsbeispielen wird ein in Frage kommendes identisches Sondenarray mit jedem unterschiedlichen Probenpaar des Satzes von unterschiedlichen Probenpaaren in Berührung gebracht, während bei anderen Ausführungsbeispielen dasselbe Nukleinsäurearray mit zwei oder mehr Probenpaaren in Berührung gebracht werden kann, solange etwaige hybridisierte Ziele von jeglichem vorherigem Versuch vor einer Berührung mit dem nächsten Probenpaar auf effiziente Weise entfernt bzw. „gestrippt" werden. Nachfolgend werden Differentialgenexpressionsversuchsprotokolle näher beschrieben.
Bei einem repräsentativen Beispiel des obigen empirischen Bewertungsschritts der vorliegenden Verfahren werden unter Verwendung eines In-Situ-Nukleinsäurearraysyntheseprotokolls mehrere Kopien eines Mikroarrays erzeugt, das in Frage kommende 60mer-Sonden umfasst, die Sequenzen aufweisen, die durch den vorherigen Sequenzidentifizierungsschritt identifiziert wurden. Diese sich, ergebenden Mikroarrays werden anschließend zu 10 unterschiedlichen Gewebe-/Zell-Linie-Kombinationen (4 Replikate pro Probenpaar) hybridisiert: eine Selbst-Gegenüber-Selbst und 9 Probenpaare, die ausgewählt sind, um die Anzahl von mRNAs, die zwischen den Angehörigen des Paares differentiell exprimiert werden, zu maximieren. Wie nachstehend ausführlicher beschrieben wird, werden die Arrays anschließend abgetastet, und die Merkmalsdaten werden unter Verwendung einer Extraktionssoftware, beispielsweise unter Verwendung der Merkmalsextraktionssoftware (Feature Extraction Software) von Agilent (von Agilent Technologies, Palo Alto, Kalifornien, erhältlich), extrahiert. Wo erwünscht, können die resultierenden Daten in eine tabellarische Form gebracht oder zu einer relationalen Datenbank zusammengestellt oder auf andere Art und Weise organisiert werden. Üblicherweise berechnet das Merkmalsextraktionsprotokoll P-Werte, spezifisch die Wahrscheinlichkeit, dass der P-Wert sich beträchtlich von 0 unterscheidet. Die Merkmalsdaten werden ferner verarbeitet, um Daten von Merkmalen, die bestimmte Qualitätssteuermaße nicht erfüllen, z. B. Signalsättigung oder das Vorliegen zu vieler Ausreißer-Pixelwerte, auszuschließen, und um Daten von Sonden auszuschließen, die bei keinem der Experimente ausreichend Signal erzeugen. Die erhaltenen Merkmalsdaten werden ferner verarbeitet, indem Wiederholungsexperimente unter Verwendung statistischer Gewichte, die von den jedem Merkmal zugeordneten P-Werten abgeleitet sind, kombiniert werden, z. B. durch Verwendung eines zu diesem Zweck entworfenen Verarbeitungsalgorithmus.
Der obige empirische Auswertungsprozess führt zur Herstellung einer Sammlung von empirisch erhaltenen Datenwerten für jede in Frage kommende Sondensequenz, wobei die empirischen Datenwerte Maße der Leistungsfähigkeit über eine Mehrzahl von verschiedenen experimentellen Sätzen sind, im einzelnen einer Mehrzahl von Differentialgenexpressionsexperimenten. Im einzelnen wird für jede in Frage kommende Sonde eine Sammlung von Sondenleistungsfähigkeitsdatenwerten (z. B. in Form von Werten eines logarithmischen Verhältnisses) für jedes unterschiedliche Differentialgenexpressionsexperiment erhalten, derart, dass man für jede Sonde ein empirisches oder experimentell bestimmtes Maß der Leistungsfähigkeit dieser Sonde bei jedem einer Anzahl von unterschiedlichen Differentialgenexpressionsversuchen erhält, z. B. wird ein Wert erhalten, um die Leistungsfähigkeit jeder Sonde in jedem Experiment darzustellen. Die Daten, die eine gegebene Sammlung von Datenwerten bilden, können rohe Daten oder verarbeitet sein und können ein Maß der Hybridisierungseffizienz, der Signalintensität, des Signalverhältnisses, des Signal-Log.-Verhältnisses oder einer Kombination derselben sein.
Clustern von in Frage kommenden Sondensequenzen.
Im nächsten Schritt der vorliegenden Verfahren werden die in Frage kommenden Sondensequenzen zu zwei oder mehr Gruppen von in Frage kommenden Sondensequenzen geclustert, wobei die in Frage kommenden Sondensequenzen auf der Basis der beobachteten empirischen Datenwerte, die bei dem vorherigen empirischen Bewertungsschritt erhalten wurden, in zwei oder mehr Gruppen von in Frage kommenden Sondensequenzen aufgeteilt werden.
Bei vielen Ausführungsbeispielen dieses Clusterungs- oder Gruppierungsschritts erhält man zuerst einen Expressionsvektor für jede der in Frage kommenden Sondensequenzen, unter Verwendung der Sammlung empirischer Datenwerte der in Frage kommenden Sondensequenz. Von dem erhaltenen Expressionsvektor für jede in Frage kommende Sondensequenz leitet man dann eine Ähnlichkeitsmatrix für den Satz der in Frage kommenden Sondensequenzen ab, wobei die Ähnlichkeitsmatrix ein Maß dessen liefert, wie ähnlich die in Frage kommende Probesequenz im Vergleich zu den anderen in Frage kommenden Sondensequenzen, die gerade bewertet werden, funktioniert. Auf der Grundlage der abgeleiteten Ähnlichkeitsmatrix für den Satz von in Frage kommenden Sondensequenzen werden die in Frage kommenden Sondensequenzen dann in zwei oder mehrere Gruppen gruppiert. Jeder der obigen Teilschritte des Clusterungsschritts wird nun erneut gesondert und ausführlicher betrachtet.
Wie oben angegeben wurde, ist der erste Teilschritt des Clusterungsschritts die Erzeugung eines Expressionsvektors für jede in Frage kommende Sondensequenz, wobei der Expressionsvektor unter Verwendung der empirischen Daten für die bei dem oben beschriebenen empirischen Bewertungsschritt erhaltene in Frage kommende Sondensequenz erzeugt wird. Bei vielen Ausführungsbeispielen sind die bei der Erzeugung des Expressionsvektors verwendeten empirischen Daten die Log.-Verhältnis-Werte aus den Probenpaar-Experimenten, wie oben angegeben. Dort, wo sie vorhanden sind, können Wiederholungs-Log.-Verhältnis-Werte unter Verwendung einer fehlergewichteten Durchschnittsbildung kombiniert werden. Die kombinierten Log.-Verhältnis-Daten für in Frage kommende Sonden, die entworfen sind, um ein einzelnes Gen anzuvisieren, werden verwendet, um eine Expressionsmatrix I zu besetzen, wobei I_ij das gemessene Expressionsniveau der Sonde i in dem Experiment (der Bedingung) j ist. Die Anzahl von Spalten in der Expressionsmatrix ist die Anzahl von Experimenten, die für die empirische Validierung durchgeführt wurden, wobei die Anzahl von Zeilen in der Expressionsmatrix die Anzahl von in Frage kommenden Sonden ist, die entworfen sind, um ein einzelnes Gen anzuvisieren. Die Bedeutung des verwendeten Ähnlichkeitsmaßes hängt von der Anzahl durchgeführter experimenteller Bedingungen ab. Wenn eine Pearson-Korrelation verwendet wird, um die Ähnlichkeit von Sonden zu messen, sollte die Expressionsmatrix aus zumindest 4 Experimenten, vorzugsweise 8 Experimenten und noch stärker bevorzugt zumindest 12 Experimenten, bestehen. Die Matrix enthält lediglich Daten, die die oben beschriebenen Verarbeitungsschritte überstehen. Wie oben angegeben wurde, können bestimmte Merkmalsdaten ausgeschlossen werden, was zu fehlenden Werten in der Expressionsmatrix führt, was üblicherweise angegeben wird, indem ein spezieller Wert (einer, der niemals aus einem Experiment hervorgehen könnte, beispielsweise ein Log.-Verhältnis von 10^6) in die Matrix eingegeben wird. Nachfolgende Verarbeitungsschritte müssen in der Lage sein, eine derartige Matrix zu verarbeiten.
Im nächsten Teilschritt wird eine Ähnlichkeitsmatrix abgeleitet oder aus der erhaltenen Expressionsmatrix des ersten Teilschritts berechnet. Bei dieser Ähnlichkeitsmatrix stellt der Eintrag S_ij die Ähnlichkeit der Expressionsvektoren für die Sonden i und j dar. Das für diesen Schritt verwendete Ähnlichkeitsmaß ist unabhängig von dem Clusterungsmechanismus. Spezifische Beispiele sind Pearsons Korrelationskoeffizient (wie beispielsweise bei Duda, R.O., und Hart, P.E. (1973) beschrieben. Pattern Classification and Scene Analysis. New York, John Wiley and Sons), Kendall's Rangkorrelation (bei Kendall, M.G. (1970) beschrieben. Rangkorrelationsverfahren (4. Ausg.). Griffin und Co. Ltd.), Ähnlichkeitsmaß, das auf dem euklidischen Abstand beruht, und gewichtete Pearson-Korrelation.
Spezifische Einzelheiten zu Vorstehendem folgen nun:
P sei die Expressionsmatrix mit m Zeilen und n Spalten. Der Eintrag P_ij dieser Matrix ist das Expressionsniveau der Sonde i in dem Experiment j. Der Eintrag S_ij der Ähnlichkeitsmatrix S ist die Ähnlichkeit zwischen der Sonde i und der Sonde j, wobei spezifische Beispiele, wie diese Ähnlichkeit berechnet werden kann, nachfolgend angegeben sind.

1. Pearsons Korrelation. Duda, R.O., und Hart, P.E. (1973). Pattern Classification and Scene Analysis. New York, John Wiley and Sons. Pearsons Korrelation S_ij zwischen den Sonden i und j lautet
2. Kendalls Rangkorrelation. Kendall, M.G. (1970). Rangkorrelationsverfahren (4. Ausg.). Griffin und Co. Ltd.
3. In ein Ähnlichkeitsmaß umgewandelter euklidischer Abstand.
Dann gilt:
4. Gewichtete Pearson-Korrelation. Analog zur Pearson-Korrelation, jedes Experiment j wird jedoch mit dem Gewicht w_j genommen. Wenn n Gewichte w₁, w₂, ..., w_n gegeben sind, so dass
wird die gewichtete Pearson-Korrelation auf folgende Weise berechnet:
wobei P_i und σ_i die gewichtete mittlere bzw. Standardabweichung der Sonde i sind:

Bei dem dritten Teilschritt werden die in Frage kommenden Sonden auf der Basis ihrer Ähnlichkeitsindizes oder -matrizes zu einer oder mehreren Gruppen geclustert bzw., die bei dem vorherigen Teilschritt bestimmt wurden. Mit anderen Worten werden die in Frage kommenden Sondensequenzen auf der Basis ähnlicher Expressionsmuster in Gruppen platziert. Bei diesem Teilschritt wird üblicherweise ein Clusterungsalgorithmus verwendet. Hier können mehrere Clusterungsansätze angewendet werden, wobei bestimmte Ausführungsbeispiele den folgenden Lösungsansatz verwenden. Die Eingabe in den Algorithmus ist ein Paar (S,t), wobei S eine n-mal-n-Ähnlichkeitsmatrix ist (n ist gleich der Anzahl von in Frage kommenden Sonden und liegt zwischen etwa 3 und etwa 20, üblicherweise zwischen etwa 5 und etwa 12) und t eine benutzerspezifizierte Affinitätsschwelle ist, die bestimmt, welches Affinitätsniveau als bedeutend erachtet wird (wobei t oft zwischen etwa 0,3 und etwa 0,9, z. B. zwischen etwa 0,5 und etwa 0,8, liegt). Der Algorithmus konstruiert Cluster auf inkrementale Weise und verwendet eine durchschnittliche innerhalb eines Clusters vorliegende Ähnlichkeit (Affinität) zwischen nicht zugewiesenen Scheitelpunkten und dem aktuellen Cluster, um seine nächste Entscheidung zu treffen, Elemente zu Gruppen hinzuzufügen oder von denselben zu entfernen. Die Cluster sind „stabil", wenn die durchschnittliche Ähnlichkeit die Affinitätsschwelle (t) überschreitet. Bei vielen Ausführungsbeispielen ermöglicht der Algorithmus eine Eingabe von bis zu 5 t Werten und führt bei abnehmenden Affinitätsschwellen auf iterative Weise die Clusteranalyse durch, bis ein Cluster einer benutzerdefinierten Minimalgröße entsteht. Angehörige eines Clusters sind jedem Cluster zugewiesen, und eine Clustergröße und eine Clusterqualitätspunktzahl werden berechnet. Die Qualitätspunktzahl eines Clusters ist ein Maß der Wahrscheinlichkeit, dass ein derartiges Cluster auftritt, wenn Daten von nicht verwandten Sonden von dem Datensatz geclustert wurden. An äußerst unwahrscheinliche Cluster (d. h. diejenigen, bei denen sich die Daten viel enger anhäufen, als man es von Daten erwarten würde, die zufällig ausgewählt werden, gemäß der Ähnlichkeitsverteilung zwischen allen Sonden in den Daten) werden hohe Punktzahlen vergeben.
Das obige Clusterungsprotokoll und Teilschritte desselben (einschließlich des obigen spezifischen repräsentativen Clusterungsprotokolls, das einen Affinitätswert und Punktbewertungsmerkmale umfasst) können unter Verwendung jeglichen zweckmäßigen Algorithmus durchgeführt werden. Von Interesse sind Algorithmen, die die Schritte des Datenfilterns, der Datenkombination, des Clusterns, des Clusterfilterns und der Sondenauswahl automatisieren, z. B. indem sie alle oben beschriebenen Teilschritte durchführen. Von besonderem Interesse sind Algorithmen, die eine nicht-hierarchische Clusterbildung erzeugen (d. h. die Cluster sind nicht verwandt, und Clustergrenzen werden durch den Algorithmus bestimmt) und keine gegebene Anzahl von Clustern aufweisen (d. h. die Anzahl von Clustern wird durch den Algorithmus bestimmt, statt eine Konstante zu sein, die als Eingabeparameter gegeben ist). Bei bestimmten Ausführungsbeispielen ist der bei diesem Schritt verwendete Algorithmus ein CAST-Clusterungsalgorithmus (CAST = Cluster Affinity Search Technique, Clusteraffinitätssuchtechnik), wie Fachleuten bekannt ist und in der U.S.-Patentschrift Nr. 6,421,668, deren Offenbarung durch Bezugnahme in das vorliegende Dokument aufgenommen ist, beschrieben ist. Siehe auch U.S.-Patentschrift Nr. 6,468,476, deren Offenbarung durch Bezugnahme in das vorliegende Dokument aufgenommen ist und die ferner Clusterungsprogramme oder -algorithmen offenbart, die bei den vorliegenden Verfahren Verwendung finden.
Der obige Teilschritt führt zu einem Clustern oder Gruppieren der verschiedenen in Frage kommenden Sondensequenzen zu zwei oder mehreren Gruppen oder Clustern von Sequenzen, wobei jedes Cluster aus Sondensequenzen besteht, die zu einem einzigen Ziel hybridisieren und sich bei Genexpressi onsexperimenten ähnlich verhalten, sowohl innerhalb eines einzelnen experimentellen Probenpaares als auch über mehrere experimentelle Probenpaare hinweg.
Der obige Teilschritt kann auch eine oder mehrere nicht geclusterte in Frage kommende Sondensequenzen bereitstellen, d. h. eine oder mehrere Sequenzen, die während des Clusterungsschrittes nicht mit anderen Sequenzen geclustert oder gruppiert werden. Jegliche resultierenden nicht-clusternden in Frage kommenden Sondensequenzen werden dann bei dem nächsten Schritt der vorliegenden Verfahren auf ihre Eignung als Normalisierungssonden hin bewertet. Man beachte, dass, wenn im Anschluss an den Clusterungsschritt keine nicht-clusternden Sonden vorliegen, der folgende Bewertungsschritt nicht durchgeführt wird. Stattdessen wird ein neuer Satz von in Frage kommenden Sondensequenzen erzeugt, z. B. zu einem anderen Ziel, und wie oben beschrieben verarbeitet, bis eine oder mehrere nicht-clusternde Sequenzen identifiziert werden, die gemäß dem nächsten Schritt auf ihre Eignung als Normalisierungssonden hin bewertet werden können.
Bewertung von nicht-clusternden Sondensequenzen auf ihre Eignung als Normalisierungssonden hin
Beim nächsten Schritt der vorliegenden Verfahren werden jegliche verbleibenden nicht geclusterten in Frage kommenden Sondensequenzen, d. h. jegliche in Frage kommenden Sondensequenzen, die in dem vorherigen Clusterungsschritt nicht mit zumindest einer weiteren in Frage kommenden Sondensequenz gruppiert wurden, da sie keine ausreichenden Hybridisierungsähnlichkeiten aufweisen, auf ihre Eignung zur Verwendung als Normalisierungssonden in einem arraybasierten Versuch bewertet. Im einzelnen werden jegliche resultierenden nicht-clusternden Sondensequenzen in Bezug auf spezifische Normalisierungssonden-Eignungsparameter beurteilt. Spezifische repräsentative Normalisierungsson den-Eignungsparameter oder -Kriterien, auf die jegliche resultierende nicht-clusternde Sonden in diesem abschließenden Schritt der vorliegenden Verfahren geprüft werden, lauten: (a) Signalintensität; und (b) Expressionsvarianz über mehrere Proben hinweg.
Als solches wird die Signalintensität, die durch jegliche resultierende nicht-clusternde in Frage kommende Sonden in zumindest einem Probenkontaktprotokoll, allgemein in zumindest einem Differentialgenexpressionsversuch und noch typischer bei der Mehrzahl von oben beschriebenen unterschiedlichen experimentellen Sätzen, bereitgestellt wird, bei diesem Bewertungsschritt der vorliegenden Verfahren beurteilt, um zu bestimmen, ob die Signalintensität der Sonde bei zumindest einer der Testbedingungen, üblicherweise die durchschnittliche Signalintensität zumindest mancher der Testbedingungen, und bei bestimmten Ausführungsbeispielen die durchschnittliche Signalintensität bei allen der Mehrzahl von Testbedingungen, eine vorbestimmte Signalintensitätsschwelle erfüllt bzw. erreicht. Bei bestimmten Ausführungsbeispielen ist die Signalintensitätsschwelle zumindest etwa zweimal, z. B. zumindest etwa fünfmal intensiver als der Hintergrund (z. B. 10-mal, 25-mal, 50-mal so intensiv oder noch intensiver). Üblicherweise ist die Signalintensitätsschwelle so gewählt, dass in Frage kommende Sondensequenzen, die die Schwelle erfüllen bzw. erreichen, eine hohe Signalintensität aufweisen, wenn sie bei einem Versuch einer Mehrzahl unterschiedlicher Nukleinsäureproben verwendet werden.
Zusätzlich werden jegliche resultierenden nicht-clusternden in Frage kommenden Sondensequenzen bei diesem Schritt der vorliegenden Verfahren bewertet, um zu bestimmen, ob sie im Wesentlichen keine, falls überhaupt eine, Signalvariation aufweisen, wenn sie bei arraybasierten Versuchen unterschiedlicher Nukleinsäureproben, die gemäß dem in dem nachfolgenden experimentellen Abschnitt beschriebenen Protokoll durchgeführt werden, eingesetzt werden. Mit anderen Worten werden jegliche resultierende nicht-clusternde in Frage kommende Sondensequenzen bewertet, um diejenigen Sequenzen zu identifizieren, die keine Differentialexpression aufweisen, wenn sie einer Mehrzahl unterschiedlicher Nukleinsäureproben ausgesetzt werden. Anders gesagt werden jegliche in Frage kommende nicht-clusternde Sequenzen bewertet, um zu bestimmen, ob sie über eine Mehrzahl unterschiedlicher Proben hinweg ein im Wesentlichen einheitliches Signal liefern. Man sagt, dass eine gegebene in Frage kommende Sondensequenz im Wesentlichen keine, falls überhaupt eine, Signalvariation aufweist oder liefert, wenn das mittlere logarithmische Verhältnis des Signals, das über die Mehrzahl unterschiedlicher Proben durch die Sonde bereitgestellt wird, nicht stark von Null abweicht, wobei „nicht stark von Null abweicht" bedeutet, dass das logarithmische Verhältnis zwischen etwa 0,5 und –0,5 liegt, z. B. zwischen etwa 0,4 und –0,4. Verfahren zum Bestimmen des logarithmischen Verhältnisses einer Sonde über eine Anzahl unterschiedlicher Proben hinweg sind Fachleuten hinreichend bekannt, wie in dem nachfolgenden experimentellen Abschnitt näher beschrieben wird, wobei repräsentative Verfahren auch in der U.S.-Patentschrift Nr. 6,591,196 sowie in den veröffentlichten U.S.-Patentanmeldungen 20030156136 und 20030065449, deren Offenbarungen durch Bezugnahme in das vorliegende Dokument aufgenommen sind, beschrieben sind. Siehe auch Baggerly u. a., J Comput Biol. 2001; 8(6): 639–59. Dieser Teilschritt der vorliegenden Verfahren ergibt in Frage kommende Sondensequenzen, die im Wesentlichen keine Signalvariation aufweisen, d. h. ein im Wesentlichen einheitliches Signal aufweisen, bei auf ansonsten identischen Arrays basierenden Versuchen, die sich lediglich in Bezug auf die Nukleinsäurequelle. voneinander unterscheiden. Bei manchen Ausführungsbeispielen wird die oben beschriebene Einheitlichkeit des Signals über zumindest 5 verschiedene Proben hinweg, z. B. zumindest etwa 10 verschiedene Proben, einschließlich zumindest etwa 15 verschiedene Proben hinweg, beobachtet.
Der oben beschriebene Bewertungsschritt führt zur Identifizierung von in Frage kommenden Sondensequenzen (falls solche überhaupt vorliegen), die sich zur Verwendung als Normalisierungssonden an Nukleinsäurearrays eignen. Die identifizierten in Frage kommenden Sondensequenzen eignen sich zur Verwendung als Normalisierungssonden, da sie über eine Mehrzahl von Probentypen, wobei die Probentypen sehr stark divergieren können, mit einem bekannten Expressionsverhältnis (z. B. logarithmisches Verhältnis = 0) einheitlich exprimiert werden. Der obige Schritt unterscheidet Sonden, die keine Differentialexpression zeigen, da das Ziel nicht vorliegt (wobei diese Sonden wahrscheinlich nicht als Normalisierungssonden geeignet sind), und Sonden, die keine Differentialexpression zeigen, da sie eine geringe Affinitätshybridisierung bezüglich einer Vielzahl von Zielen zeigen (diese Sonden sind wahrscheinlich als Ziel geeignet).
Bei vielen Ausführungsbeispielen sind die Normalisierungssonden-Nukleinsäuresequenzen, die unter Verwendung der vorliegenden Verfahren identifiziert werden, in einem Textformat oder als Textfolge vorgesehen, wobei der Text die Sequenz von Nucleotiden einer Sonden-Nukleinsäure darstellt oder derselben entspricht. Die Nukleinsäuresequenzen können eine beliebige Länge aufweisen, wobei die Nukleinsäuresequenzen üblicherweise eine Länge von etwa 20 nt bis etwa 100 nt aufweisen, z. B. von etwa 20 bis etwa 80 nt, z. B. 25 nt, 60 nt usw. Jedoch können auch Nukleinsäuresequenzen einer geringeren oder größeren Länge als geeignet identifiziert werden. Geeignete Nukleinsäurenormalisierungssonden, die aus denselben erzeugt werden, können Oligonucleotide oder Polynucleotide sein, wie nachstehend näher beschrieben wird.
Ein oder mehrere Aspekte der obigen Methodologie können in Form von computerlesbaren Medien vorliegen, auf denen eine Programmierung zum Implementieren der vorliegenden Verfahren gespeichert ist. Die computerlesbaren Medien können beispielsweise in Form einer Computerplatte oder CD, einer Floppy-Disk, einer magnetischen „Hartkarte", eines Servers oder eines beliebigen anderen computerlesbaren Mediums vorliegen, das in der Lage ist Daten oder dergleichen zu enthalten, die elektronisch, magnetisch, optisch oder anderweitig gespeichert sind. Demgemäss können gespeicherte Programmierungsverkörperungsschritte zum Durchführen der vorliegenden Verfahren durch einen physischen Transfer einer CD, Floppy-Disk oder eines ähnlichen Mediums an einen Computer, z. B. einen Personal-Computer (PC) (d. h. für einen Forscher oder dergleichen zugänglich), transferiert werden, oder sie können unter Verwendung eines Computernetzes, Servers oder einer anderen Schnittstellenverbindung, z. B. des Internets, transferiert werden.
Bei einem Ausführungsbeispiel der vorliegenden Erfindung kann ein System der Erfindung einen einzelnen Computer oder dergleichen mit einem gespeicherten Algorithmus umfassen, der in der Lage ist, geeignete Sondenidentifizierungsverfahren durchzuführen, d. h. ein Rechenanalysesystem. Bei bestimmten Ausführungsbeispielen ist das System ferner dadurch gekennzeichnet, dass es eine Benutzerschnittstelle liefert, wobei die Benutzerschnittstelle einem Benutzer die Option präsentiert, verschiedene Parameterwerte für den Algorithmus, wie oben beschrieben, z. B. die Entfernung von dem 3'-Ende, die Definition der Überlappung t usw. aus einer oder mehren verschiedenen, einschließlich vieler verschiedener Eingaben auszuwählen. Rechensysteme, die ohne weiteres zu Systemen der vorliegenden Erfindung modifiziert werden können, umfassen diejenigen, die in der U.S.-Patentschrift Nr. 6,251,588, deren Offenbarung durch Bezugnahme in das vorliegende Dokument aufgenommen ist, beschrieben sind.
NUTZEN
Die oben beschriebenen Verfahren und die Vorrichtungen, die zum Praktizieren derselben programmiert sind, können verwendet werden, um Normalisierungssonden-Nukleinsäuren zu identifizieren, die auf Oberflächen von beliebigen einer Vielzahl unterschiedlicher Substrate, einschließlich sowohl flexibler als auch starrer Substrate, z. B. bei der Herstellung von Nukleinsäurearrays, erzeugt werden sollen. Interessierende Materialien liefern einen physischen Träger für das aufgebrachte Material und halten den Bedingungen des Aufbringungsprozesses und jeglicher anschließenden Behandlung oder Handhabung oder Verarbeitung, die bei der Verwendung des jeweiligen Arrays stattfinden kann, stand. Das Arraysubstrat kann eine Vielzahl von Konfigurationen aufweisen, die einfach bis komplex sein können. Somit könnte das Substrat allgemein eine planare Form aufweisen, z. B. eine Objektträger- oder Plattenkonfiguration, z. B. eine rechteckige oder quadratische Scheibe. Bei manchen Ausführungsbeispielen ist das Substrat allgemein als rechteckiger Festkörper geformt, der eine Länge im Bereich von etwa 4 mm bis 200 mm, üblicherweise etwa 4 mm bis 150 mm, noch üblicher etwa 4 mm bis 125 mm; eine Breite im Bereich von etwa 4 mm bis 200 mm, üblicherweise etwa 4 mm bis 120 mm und noch üblicher etwa 4 mm bis etwa 80 mm; und eine Dicke im Bereich von etwa 0,01 mm bis etwa 5 mm, üblicherweise von etwa 0, 1 mm bis etwa 2 mm und noch üblicher von etwa 0,2 mm bis etwa 1 mm aufweist. Jedoch können auch größere oder kleinere Substrate vorliegen und verwendet werden, insbesondere wenn diese nach der Herstellung in Substrate einer kleineren Größe geschnitten werden, die eine geringere Gesamtanzahl von Arrays 12 tragen. Es können auch Substrate anderer Konfigurationen und äquivalenter Flächen gewählt werden. Die Konfiguration des Arrays kann gemäß Herstellungs-, Handhabungs- und Verwendungsüberlegungen ausgewählt werden.
Die Substrate können aus beliebigen einer Vielzahl von Materialien hergestellt werden. Bei bestimmten Ausführungsbeispielen, z. B. dann, wenn die Produktion von Bindungspaararrays zur Verwendung in der Forschung und bei verwandten Anwendungen gewünscht ist, sollten die Materialien, aus denen das Substrat hergestellt werden kann, während Hybridisierungsereignissen Idealerweise ein niedriges Niveau einer nichtspezifischen Bindung aufweisen. In vielen Situationen ist es auch vorzuziehen, ein Material zu verwenden, das für sichtbares und/oder UV-Licht durchsichtig ist. Für flexible Substrate umfassen interessierende Materialien: Nylon, sowohl modifiziert als auch unmodifiziert, Nitrozellulose, Polypropylen und dergleichen; wobei eine Nylonmembran sowie Derivate derselben bei diesem Ausführungsbeispiel besonders nützlich sein können. Für starre Substrate umfassen spezifische interessierende Materialien: Glas; Quarzglas; Silizium, Kunststoffe (z. B. Polytetrafluorethylen, Polypropylen, Polystyren, Polycarbonat und Gemische derselben, und dergleichen); Metalle (z. B. Gold, Platin und dergleichen).
Die Substratoberfläche, auf die die Sondennukleinsäurezusammensetzungen oder andere Anteile aufgebracht werden, kann glatt oder im Wesentlichen planar sein oder auch Unregelmäßigkeiten wie z. B. Vertiefungen oder Erhöhungen aufweisen. Die Oberfläche kann mit einer oder mehreren unterschiedlichen Schichten von Verbindungen modifiziert sein, die dazu dienen, die Eigenschaften der Oberfläche auf wünschenswerte Weise zu modifizieren. Derartige interessierende Modifizierungsschichten umfassen: anorganische und organische Schichten wie z. B. Metalle, Metalloxide, Polymere, kleine organische Moleküle und dergleichen. Interessierende polymere Schichten umfassen Schichten von: Peptiden, Proteinen, Polynukleinsäuren oder Nachahmungsstoffen derselben (z. B. Peptidnukleinsäuren und dergleichen); Polysacchariden, Phospholipiden, Polyurethanen, Polyestern, Polycarbonaten, Polyharnstoffen, Polyamiden, Polyethylenaminen, Polyarylensulfiden, Polysiloxanen, Polyimiden, Polyacetaten und dergleichen, wobei die Polymere hetero- oder homopolymer sein können und wobei getrennte funktionelle Anteile an dieselben angehängt sein können, aber nicht müssen (z. B. konjugierte Anteile).
ARRAYS
Ferner sieht die vorliegende Erfindung Nukleinsäurearrays vor, die unter Verwendung der oben beschriebenen vorliegen den Verfahren hergestellt werden. Die vorliegenden Arrays umfassen zumindest eine Sonde und üblicherweise eine Mehrzahl unterschiedlicher Sonden einer unterschiedlichen Sequenz (z. B. zumindest etwa 10, üblicherweise zumindest etwa 50, z. B. zumindest etwa 100, 1.000, 5.000, 10.000 oder mehr), die auf verschiedenen und bekannten Positionen auf der Substratoberfläche immobilisiert sind, z. B. kovalent oder nichtkovalent an dieselbe angebracht sind. Ein Merkmal der vorliegenden Arrays besteht darin, dass zumindest eine der Sonden eine Normalisierungssonde mit einer Sequenz ist, die gemäß den vorliegenden Verfahren identifiziert ist, wobei bei vielen Ausführungsbeispielen zumindest etwa 5, 10 oder mehr der Sondensequenzen Normalisierungssequenzen sind, die durch die vorliegenden Verfahren identifiziert sind. Jede gesonderte Nukleinsäuresequenz des Arrays liegt üblicherweise als Zusammensetzung mehrerer Kopien des Polymers auf der Substratoberfläche vor, z. B. als Punkt auf der Oberfläche des Substrats. Die Anzahl gesonderter Nukleinsäuresequenzen, und somit von Punkten oder ähnlichen Strukturen (d. h. Arraymerkmalen), die auf dem Array vorliegen, kann variieren, beträgt allgemein jedoch zumindest 2, üblicherweise zumindest 5 und noch üblicherweise zumindest 10, wobei die Anzahl unterschiedlicher Punkte auf dem Array je nach der beabsichtigten Verwendung des Arrays sogar 50, 100, 500, 1.000, 10.000 oder mehr betragen kann. Die Punkte gesonderter Nukleinsäuren, die auf der Arrayoberfläche vorliegen, liegen allgemein als Muster vor, wobei das Muster in Form organisierter Zeilen und Spalten von Punkten, z. B. in Form eines Gitters von Punkten, über die Substratoberfläche, in Form einer Serie von krummlinigen Zeilen über die Substratoberfläche, z. B. in Form einer Serie von konzentrischen Kreisen oder Halbkreisen von Punkten und dergleichen vorliegen kann. Die Dichte der auf der Arrayoberfläche vorliegenden Punkte kann variieren, beträgt jedoch allgemein zumindest 10 und üblicherweise zumindest etwa 100 Punkte/cm², wobei die Dichte sogar 10⁶ oder mehr betragen kann, jedoch allgemein etwa 10⁵ Punkte/cm² nicht übersteigt. Bei den vorliegenden Arrays von Nukleinsäuren können die Nukleinsäuren an einem beliebigen Punkt entlang der Nukleinsäurekette kovalent an die Arrays angehängt sein, sind jedoch allgemein an eine ihrer Endungen, z. B. die 3'- oder die 5'-Endung, angehängt.
Ein Merkmal der vorliegenden Arrays besteht darin, dass sie eine oder mehrere, üblicherweise eine Mehrzahl von, Normalisierungssonden umfassen, deren Sequenz gemäß den vorliegenden Protokollen ausgewählt wurde. Da die Sequenzen der Normalisierungssonden auf den Arrays gemäß den obigen Protokollen gewählt werden, sind die Normalisierungssondensequenzen solche, die für ein hohes Signal mit geringer Schwankung bei einer Mehrzahl verschiedener Differentialgenexpressionsprotokolle sorgen. Beispielsweise liefern eine oder mehrere der Normalisierungssondensequenzen auf dem Array eine Leistungsfähigkeit, die zwischen zwei oder mehreren unterschiedlichen Differentialgenexpressionsversuchen wenig, falls überhaupt, variiert, d. h. sie bleibt bei einer Mehrzahl von verschiedenen experimentellen Bedingungen im Wesentlichen gleich, wie z. B. dadurch bestimmt wird, dass sie über eine Mehrzahl unterschiedlicher experimenteller Sätze hinweg ein logarithmisches Verhältnis aufweist, das nicht beträchtlich von Null abweicht.
NÜTZLICHKEIT VON ARRAYS
Die vorliegenden Arrays werden bei einer Vielzahl unterschiedlicher Anwendungen eingesetzt, wobei derartige Anwendungen allgemein Analytenerfassungsanwendungen sind, bei denen das Vorhandensein eines bestimmten Analyten in einer gegebenen Probe zumindest qualitativ, wenn nicht quantitativ, erfasst wird. Protokolle zum Durchführen derartiger Versuche sind Fachleuten hinreichend bekannt und müssen hier nicht ausführlich beschrieben werden. Allgemein wird die Probe, von der man annimmt, dass sie den interessierenden Analyten aufweist, mit einem Array in Berührung gebracht, das gemäß den vorliegenden Verfahren unter Bedingungen erzeugt wurde, die ausreichend sind, dass sich der Analyt an sein jeweiliges Bindungspaar-Teilelement, das auf dem Array vorliegt, bindet. Wenn also der interessierende Analyt in der Probe vorliegt, bindet er sich an der Stelle seines komplementären Bindungsteilelements an das Array, und auf der Arrayoberfläche entsteht ein Komplex. Das Vorliegen dieses Bindungskomplexes auf der Arrayoberfläche wird dann erfasst, z. B. durch Verwendung eines Signalerzeugungssystems, z. B. einer isotopen oder fluoreszierenden Markierung, die auf dem Analyten vorliegt, usw. Das Vorhandensein des Analyten in der Probe wird dann von der Erfassung von Bindungskomplexen auf der Substratoberfläche schlussgefolgert.
Spezifische Analytenerfassungsanwendungen, die hier von Interesse sind, umfassen Hybridisierungsversuche, bei denen die Nukleinsäurearrays der vorliegenden Erfindung eingesetzt werden. Bei diesen Versuchen wird zuerst eine Probe von Zielnukleinsäuren hergestellt, wobei die Herstellung ein Markieren der Zielnukleinsäuren mit einer Markierung, z. B. einem Teilelement eines Signalerzeugungssystems, umfassen kann. Wenn die Arrays „Alle-Basen-Alle-Schichten"-Kontrollsonden umfassen, wie oben beschrieben wurde, ist in der Probe üblicherweise eine Sammlung markierter Kontrollziele enthalten, wobei die Sammlung aus Kontrollzielen bestehen kann, die alle mit derselben Markierung markiert sind, oder aus zwei oder mehreren Sätzen, die auf unterscheidbare Weise mit verschiedenen Markierungen markiert sind, wie oben beschrieben wurde. Anschließend an die Probenherstellung wird die Probe unter Hybridisierungsbedingungen (z. B. strengen Hybridisierungsbedingungen) mit dem Array in Berührung gebracht, wodurch Komplexe zwischen Zielnukleinsäuren gebildet werden, die zu Sondensequenzen, die an die Arrayoberfläche angehängt sind, komplementär sind. Anschließend wird das Vorliegen von hybridisierten Komplexen erfasst. Interessierende spezifische Hybridisierungsversuche, die unter Verwendung der vorliegenden Arrays praktiziert werden können, umfassen: Genentdeckungsversuche, Differentialgenexpressionsanalyseversuche; Nukleinsäuresequenzierungsversuche; und dergleichen. Patentschriften und Patentanmeldungen, die Verfahren zum Verwenden von Arrays bei verschiedenen Anwendungen beschreiben, umfassen 5,143,854; 5,288,644; 5,324,633; 5,432,049; 5,470,710; 5,492,806; 5,503,980; 5,510,270; 5,525,464; 5,547,839; 5,580,732; 5,661,028; 5,008,992; die Offenbarungen derselben sind durch Bezugnahme in das vorliegende Dokument aufgenommen.
Bei bestimmten Ausführungsbeispielen umfassen die vorliegenden Verfahren einen Schritt des Sendens von Daten von zumindest einem der Erfassungs- und Ableitungsschritte, die oben beschrieben wurden, an eine entfernte Position. Mit „entfernter Position" ist eine andere Position gemeint als die Position, an der das Array vorliegt und die Hybridisierung erfolgt. Beispielsweise könnte eine entfernte Position eine andere Position (z. B. ein anderes Büro, Labor usw.) in derselben Stadt, eine andere Position in einer anderen Stadt, eine andere Position in einem anderen Staat, eine andere Position in einem anderen Land usw. sein. Wenn ein Posten als von einem anderen „entfernt" angegeben wird, bedeutet dies also, dass sich die zwei Posten zumindest in unterschiedlichen Gebäuden befindet und zumindest eine Meile, zehn Meilen oder zumindest hundert Meilen voneinan der entfernt sein können. „Kommunizieren" von Informationen bedeutet, die Daten, die diese Informationen darstellen, als elektrische Signale über einen geeigneten Kommunikationskanal (z. B. ein privates oder öffentliches Netzwerk) zu senden. Einen Posten „weiterzuleiten" bezieht sich auf jegliches Mittel, diesen Posten von einer Position zur nächsten zu befördern, ob nun durch ein physisches Transportieren dieses Postens oder auf andere Weise (wo dies möglich ist), und umfasst, zumindest im Fall von Daten, ein physisches Transportieren eines Mediums, das die Daten trägt oder die Daten kommuniziert. Die Daten können zur weiteren Bewertung und/oder Verwendung an die entfernte Position gesendet werden. Zum Senden der Daten können jegliche zweckmäßigen Telekommunikationseinrichtungen eingesetzt werden, z. B. Faksimile, Modem, Internet usw.
Durch Verwendung eines Arrays, das anhand des Verfahrens der vorliegenden Erfindung hergestellt wurde, wird das Array üblicherweise einer Probe (z. B. einem fluoreszierend markierten Analyten, z. B. einer proteinhaltigen Probe) ausgesetzt, und anschließend wird das Array gelesen. Das Lesen des Arrays kann bewerkstelligt werden, indem das Array beleuchtet wird und die Position und Intensität der sich ergebenden Fluoreszenz an jedem Merkmal des Arrays gelesen wird, um etwaige Bindungskomplexe auf der Oberfläche des Arrays zu erfassen. Beispielsweise kann zu diesem Zweck ein Scanner verwendet werden, der ähnlich der Vorrichtung AGILENT MICROARRAY SCANNER ist, die von Agilent Technologies, Palo Alto, Kalifornien, erhältlich ist. Andere geeignete Vorrichtungen und Verfahren sind in den U.S.-Patenten Nrn. 5,091,652; 5,260,578; 5,296,700; 5,324,633; 5,585,639; 5,760,951; 5,763,870; 6,084,991; 6,222,664; 6,284,465; 6,371,370; 6,320,196 und 6,355,934, deren Offenbarungen durch Bezugnahme in das vorliegende Dokument aufgenommen sind, beschrieben. Jedoch können Arrays auch anhand beliebiger anderer Verfahren oder Vorrichtungen als den Vorstehenden gelesen werden, wobei andere Leseverfahren andere optische Techniken (z. B.
Erfassen von chemilumineszenten oder elektrolumineszenten Markierungen) oder elektrische Techniken umfassen (wobei jedes Merkmal mit einer Elektrode versehen ist, um eine Hybridisierung an diesem Merkmal auf eine Weise, wie sie in der U.S.-Patentschrift Nr. 6,221,583 und andernorts offenbart ist, zu erfassen). Ergebnisse des Ablesens können Rohergebnisse (z. B. Fluoreszenzintensitätslesewerte für jedes Merkmal in einem oder mehreren Farbkanälen) sein oder können verarbeitete Ergebnisse sein, wie sie beispielsweise erhalten werden, indem ein Ablesewert für ein Merkmal, der unter einer vorbestimmten Schwelle liegt, abgewiesen wird, und/oder indem auf der Basis des von dem Array gelesenen Musters (z. B. ob eine bestimmte Zielsequenz eventuell in der Probe vorhanden ist) Schlussfolgerungen gezogen werden. Die Ergebnisse des Ablesewerts (verarbeitet oder nicht) können, falls gewünscht, an eine entfernte Position (z. B. durch Kommunikation) weitergeleitet werden und dort zur weiteren Verwendung (z. B. zur Weiterverarbeitung) empfangen werden.
AUSRÜSTUNGSPAKETE
Ausrüstungspakete zur Verwendung bei Analytenerfassungsversuchen sind ebenfalls vorgesehen. Die Ausrüstungspakete umfassen zumindest die Arrays der Erfindung, wie oben beschrieben. Die Ausrüstungspakete können ferner eine oder mehrere zusätzliche Komponenten umfassen, die zum Durchführen eines Analytenerfassungsversuchs notwendig sind, z. B. Probenherstellungsreagenzien, Puffer, Markierungen und dergleichen. Als solche können die Ausrüstungspakete einen oder mehrere Behälter wie z. B. Phiolen oder Flaschen umfassen, wobei jeder Behälter eine gesonderte Komponente für den Versuch und Reagenzien zum Durchführen eines Arrayversuchs, z. B. eines Nukleinsäurehybridisierungsversuchs oder dergleichen, enthält. Die Ausrüstungspakete können ferner ein Denaturierungsreagens zum Denaturieren des Analyten, Puffer wie z. B. Hybridisierungspuffer, Waschme dien, Enzymsubstrate, Reagenzien zum Erzeugen einer markierten Zielprobe wie z. B. einer markierten Zielnukleinsäureprobe, negative und positive Kontrollen und schriftliche Anweisungen zum Verwenden der Arrayversuchsvorrichtungen zum Durchführen eines arraybasierten Versuchs umfassen. Derartige Ausrüstungspakete umfassen ferner üblicherweise Anweisungen zur Verwendung beim Praktizieren von arraybasierten Versuchen.
Ausrüstungspakete zur Verwendung in Verbindung mit den Normalisierungssondenentwurfsprotokollen der vorliegenden Erfindung können ebenfalls vorgesehen sein. Derartige Ausrüstungspakete umfassen vorzugsweise zumindest ein computerlesbares Medium, das eine Programmierung, wie sie oben erörtert wurde, und Anweisungen umfasst. Die Anweisungen können Installations- oder Einrichtungsanleitungen umfassen. Die Anweisungen können Anleitungen zur Verwendung der Erfindung umfassen.
Die Bereitstellung von Software und Anweisungen als Ausrüstungspaket kann einer Anzahl von Zwecken dienen. Die Kombinationen können als Mittel zum Aufrüsten einer vorhandenen Herstellungsvorrichtung als Paket zusammengestellt und erworben werden. Alternativ dazu kann die Kombination in Verbindung mit einer neuen Vorrichtung zum Herstellen von Arrays, bei der die Software vorab auf dieselbe geladen werden kann, vorgesehen sein. In diesem Fall dienen die Anweisungen als Referenz-Benutzeranleitung (oder als Teil derselben), und das computerlesbare Medium dient als Sicherungskopie des vorab geladenen Dienstprogramms.
Die Anweisungen der oben beschriebenen Ausrüstungspakete sind allgemein auf ein geeignetes Aufzeichnungsmedium aufgezeichnet. Beispielsweise können die Anweisungen auf ein Substrat, z. B. Papier oder Kunststoff usw., gedruckt werden. Als solches können die Anweisungen in den Ausrüstungspaketen als Paketeinlage, in der Markierung des Behälters des Ausrüstungspakets oder Komponenten desselben (d. h. der Paketierung oder Teilpaketierung zugeordnet) usw. vorliegen. Bei anderen Ausführungsbeispielen liegen die Anweisungen als elektronische Speicherdatendatei vor, die auf einem geeigneten computerlesbaren Speichermedium, z. B. einem CDROM, einer Diskette usw., das bzw. die dasselbe Medium umfasst, auf dem das Programm präsentiert wird, vorliegt.
Bei wieder anderen Ausführungsbeispielen liegen die Anweisungen selbst nicht in dem Ausrüstungspaket vor, sondern es werden Mittel zum Erhalten der Anweisungen von einer entfernten Quelle, z. B. über das Internet, bereitgestellt. Ein Beispiel dieses Ausführungsbeispiels ist ein Ausrüstungspaket, das eine Webadresse umfasst, bei der die Anweisungen eingesehen und/oder von der die Anweisungen heruntergeladen werden können. Umgekehrt können Mittel zum Erhalten der vorliegenden Programmierung von einer entfernten Quelle, z. B. durch Bereitstellen einer Webadresse, vorgesehen sein. Des weiteren kann das Ausrüstungspaket eines sein, bei dem sowohl die Anweisungen als auch die Software von einer entfernten Quelle, z. B. im Internet bzw. World Wide Web, erhalten oder heruntergeladen werden können. Es kann eine gewisse Form der Zugriffssicherheit oder eines Identifizierungsprotokolls verwendet werden, um den Zugriff auf diejenigen zu beschränken, die zur Verwendung der vorliegenden Erfindung berechtigt sind. Wie bei den Anweisungen ist das Mittel bzw. die Einrichtung zum Erhalten der Anweisungen und/oder Programmierung allgemein auf ein geeignetes Aufzeichnungsmedium aufgezeichnet.
Die folgenden Beispiele werden der Veranschaulichung halber und nicht der Einschränkung halber angegeben.
EXPERIMENTE
A. Auswahl der in Frage kommenden Sonde:
Zehn 60mer-Sondensequenzen wurden für jede von etwa 18.232 menschliche Sequenzen unter Verwendung eines Sondenentwurfssoftwarepakets von Agilent (Agilent Technologies, Palo Alto, Kalifornien) entworfen. Dieses Softwarepaket wählt Sonden gemäß den folgenden Kriterien aus:

• Entfernung von dem 3'-Ende der mRNA. Dieses Kriterium wirkt sich vorwiegend auf die Empfindlichkeit aus. Sonden werden allgemein innerhalb einer definierten Entfernung (Basen) von der Polyadenylierungsstelle der mRNA gewählt. Das liegt daran, dass die Nukleinsäurezielsynthese üblicherweise von dieser Stelle aus vorbereitet bzw. geprimt (primed) wird und dass die Effizienz der Zielproduktion üblicherweise mit der Entfernung von dem Primer abnimmt.
• Basenzusammensetzung der Sondensequenz. Dieses Kriterium betrifft sowohl die Empfindlichkeit als auch die Spezifität. Sequenzen, die abnormal reich oder arm an GC sind, werden vermieden, und auch lange Sequenzen einer einzelnen Base werden vermieden.
• Homologie der Sondensequenz zu anderen Sequenzen desselben Organismus. Dieses Kriterium betrifft hauptsächlich die Spezifität. Sequenzen mit einem hohen Potential, zu mehr als einer mRNA von einem gegebenen Organismus zu hybridisieren, werden vermieden. Das über-Kreuz-Hybridisierung-Potential wird über eine thermodynamische Punktbewertung der Ausgabe von BLAST, einer zum Erfassen der Sequenzhomologie verwendeten standardmäßigen Bioinformatikanwendung, geschätzt.

B. Hybridisierung von in Frage kommenden Sonden:
In Frage kommende 60mer-Sonden, die durch Sondenentwurfsalgorithmen von Agilent spezifiziert wurden, wurden auf 22,5K-Arraydesigns ausgelegt, und die Mikroarrays wurden unter Verwendung des SurePrint-In-Situ-Oligonucleotidsyntheseprozesses von Agilent gedruckt. Diese Mikroarrays wurden zu 10 verschiedenen Gewebe-/Zell-Linien-Kombinationen (4 Replikate pro Probenpaar) hybridisiert: eines Selbst-Gegenüber-Selbst und 9 Probenpaare, die gewählt wurden, um die Anzahl von Sonden, die Werte des logarithmischen Verhältnisses in dem experimentellen Satz abzuwerfen, zu maximieren. Der verwendete Probensatz bestand aus den folgenden cRNA-Zielpaaren: 1) Gehirn (rot) und Plazenta (grün), 2) HeLa (rot) und Clontech-Referenzprobe (grün), 3) HeLa (rot) und HeLa (grün), 4) K-562 (rot) und Clontech-Referenzprobe (grün), 5) K-562 (rot) und MG63 (grün), 6) Lunge (rot) und Leber (grün), 7) Lunge (rot) und Plazenta (grün), 8) Plazenta (rot) und Clontech-Referenzprobe (grün), 9) Milz (rot) und HeLa (grün), 10) Stratagene-Referenzprobe (rot) und Clontech-Referenzprobe (grün). Die markierten, von den Geweben gewonnenen Proben wurden aus im Handel erhältlicher polyadenylierter RNA oder Gesamt-RNA unter Verwendung des Ausrüstungspakets der linearen Aktivierung von Agilent hergestellt (Ambion, Inc., Woodlands, TX, BD Clontech, Inc., Palo Alto, Kalifornien, und Stratagene, Inc., La Jolla, Kalifornien). Die Hybridisierung, Wäsche und Abtastung wurden gemäß Prozeduren durchgeführt, die in dem Microarray User Manual von Agilent beschrieben sind.
Nach dem Abtasten wurden die Merkmalsdaten unter Verwendung der Merkmalsextraktionssoftware (Feature Extraction Software) (Version A.7.1.1) von Agilent extrahiert, und die Merkmalsdaten wurden unter Verwendung der Kiwi-II-Anwendung von Agilent in Microsoft-Access-Datenbanken eingefügt.
C. Anwenden von CAST-Clusterungsalgorithmen
Die Strategie der Verwendung einer Clusterungsanalyse für eine experimentelle Sondenvalidierung beruht auf der Annahme, dass Sonden, die zu einem einzigen Ziel hybridisieren, bei Genexpressionsexperimenten ein ähnliches Verhalten aufweisen, sowohl innerhalb eines einzigen experimentellen Paares als auch über viele experimentelle Paare hinweg. Ungleiche Werte logarithmischer Verhältnisse für Sonden, die für ein einziges Ziel entworfen sind, können durch eine Vielzahl von Faktoren bewirkt werden, die eine nichtspezifische Hybridisierung eines zusätzlichen Ziels bzw. zusätzlicher Ziele, eine Sondensekundärstruktur oder andere Faktoren, die die Hybridisierungseffizienz einschränken, eine Fehlannotation der Zielstruktur (z. B.: Intron-/Exon-Grenzen) und systematische Markierungsfehler umfassen. Die meisten dieser Faktoren, wenn nicht alle, können unter Verwendung von „In-Silico"-Verfahren nicht genau vorausgesagt werden. Clusterungstechniken werden bei der Analyse von Genexpressionsdaten verwendet, um Gene zu identifizieren, die koreguliert werden. Für die Sondenvalidierung verwendeten wir CAST-Clusterungsalgorithmen (CAST = Cluster Affinity Search Technique, Clusteraffinitätssuchtechnik) (Ben-Dor A. u. a. (1999), J. Comput. Biol. 6, 281–297), um koregulierte Sonden aus den in Frage kommenden Sonden, die dazu entworfen waren, ein einzelnes Gen anzuvisieren, zu identifizieren. CAST ist ein nicht-gieriger Clusterungsalgorithmus, der Cluster konstruiert, indem er auf allen Stufen eine hohe Ähnlichkeit innerhalb eines Clusters beibehält: Dieses Ähnlichkeitsniveau wird durch einen Eingangsparameter τ bestimmt. Diese Algorithmen weisen gegenüber anderen Clusterungsalgorithmen für diese Anwendung mehrere Vorteile auf: sie bilden eine nicht-hierarchische Clusterung (d. h. die Cluster sind nicht verwandt, und Clustergrenzen werden durch den Algorithmus bestimmt) und sie gehen nicht von einer gegebenen Anzahl von Clustern aus (d. h. die Anzahl der Cluster wird durch den Algorithmus bestimmt, statt eine Konstante zu sein, die als Eingabeparameter gegeben wird).
Cluster-Zugehörigkeiten für in Frage kommende Sonden, die für menschliche Gene entworfen wurden, wurden unter Verwendung des Softwarepakets „OC Analysis" von Agilent identifiziert. Die Anwendung führt die folgenden Schritte durch:

• Erzeugung einer Expressionsmatrix. Logarithmisches-Verhältnis-Wiederholungswerte für ein gegebenes Probenpaar werden unter Verwendung einer fehlergewichteten Durchschnittsbildung kombiniert. Die kombinierten Logarithmisches-Verhältnis-Daten für in Frage kommende Sonden, die entworfen sind, um ein einzelnes Gen anzuvisieren, werden verwendet, um eine Expressionsmatrix I zu besetzen, wobei I_ij das gemessene Expressionsniveau der Sonde i bei dem Experiment (der Bedingung) j ist. Lediglich diejenigen Sonden, die eine benutzerspezifizierte Signalschwelle auf jeglichen der kombinierten Arrays überschreiten, sind in der Expressionsmatrix enthalten. Die Größe der Expressionsmatrix hängt von dem bei dem Clusterungsalgorithmus verwendeten Ähnlichkeitsmaß ab. Beispielsweise hängt die Bedeutung des Pearson-Korrelationskoeffizienten von der Anzahl der Experimente ab, und eine Expressionsmatrix, die aus zumindest acht Experimenten besteht, ist ideal. Die Leistungsfähigkeit des Clusterungsalgorithmus hängt nicht von der Anzahl von Sonden ab, da er Sonden auf der Basis der Affinität bezüglich des Clusters Clustern zuweist, jedoch sollte die Anzahl der Sonden hoch genug sein, um für alle möglichen Sonden für die Eingabesequenz repräsentativ zu sein. Somit ist der Clusterungsalgorithmus in der Lage, mit einer Matrix mit einigen Nulleinträgen zu arbeiten.
• Berechnung einer Ähnlichkeitsmatrix S. In dieser Matrix stellt der Eintrag S_ij die Ähnlichkeit des Expressionsmusters für die Sonden i und j dar. Das von CAST für diesen Schritt verwendete Ähnlichkeitsmaß ist unabhängig von dem Clustermechanismus. Spezifische Bei- spiele sind der Pearson-Korrelationskoeffizient und die Kendall-Rangkorrelation.
• Clustern von Sonden unter Verwendung von CAST. Die CAST-Clusterungsalgorithmen teilen die Sonden auf der Basis von ähnlichen Expressionsmustern in Gruppen auf. Die Eingabe in den Algorithmus ist ein Paar (S, τ), wobei S eine n-mal-n-Ähnlichkeitsmatrix ist und τ eine benutzerspezifizierte Affinitätsschwelle ist, die bestimmt, welches Affinitätsniveau als bedeutend erachtet wird. Der Algorithmus konstruiert Cluster auf inkrementale Weise und verwendet eine durchschnittliche Ähnlichkeit (Affinität) zwischen nicht zugewiesenen Scheitelpunkten und dem aktuellen Cluster, um seine nächste Entscheidung zu treffen, Elemente zu Gruppen hinzuzufügen oder von denselben zu entfernen. Die Cluster sind „stabil", wenn die durchschnittliche Ähnlichkeit die Affinitätsschwelle (τ) überschreitet. Die OC-Analyse-Anwendung ermöglicht eine Eingabe von bis zu 5 τ-Werten und führt auf iterative Weise die Clusteranalyse bei sinkenden Affinitätsschwellen durch, bis ein Cluster einer benutzerdefinierten Minimalgröße entsteht. Cluster-Zugehörigkeit wird für jedes Cluster zugewiesen, und eine Clustergröße und eine Clusterqualitätspunktzahl werden berechnet. Die Qualitätspunktzahl eines Clusters ist ein Maß der Wahrscheinlichkeit, dass ein derartiges Cluster auftritt, wenn Daten von nicht verwandten Sonden von dem Datensatz geclustert wurden. An Cluster mit einer hohen Wahrscheinlichkeit (d. h. an diejenigen, bei denen sich die Daten viel enger anhäufen, als man es von Daten erwarten würde, die zufällig ausgewählt werden, gemäß der Ähnlichkeitsverteilung zwischen allen Sonden in den Daten) werden hohe Punktzahlen vergeben.

D. Verwendung einer Clustermetrik, um Sonden in dem „besten Cluster" zu identifizieren
Die OC-Analyse-Anwendung identifiziert das „beste Cluster" auf der Basis der verwendeten Affinitätsschwelle und der Größe des gebildeten Clusters. Für diejenigen Ziele, bei denen die in Frage kommenden Sonden auf mehrere Gruppen aufgeteilt wurden, wurde das „repräsentative Cluster" als das Cluster ausgewählt, das bei dem höchsten τ gebildet wurde, das eine Bildung eines Clusters ermöglicht, das zumindest 50 % größer ist als das nächstgrößte Cluster, und eine minimale Clustergröße von 4 Elementen ermöglichte. Diese Kriterien wurden so gewählt, dass „repräsentative Cluster" eine Mehrheit der auf eine gegebene Zielsequenz getesteten Sonden aufweisen. Für die 15.032 Gene, bei denen akzeptable Cluster identifiziert wurden, zeigten lediglich 4.315 (29 %) ähnliche Genexpressionsmuster für 10 der 10 getesteten in Frage kommenden Sonden; die restlichen 71 wiesen zumindest eine in Frage kommende Sonde auf, die andere Muster aufwies.
Die bei dieser Anwendung verwendeten spezifischen Algorithmen, der Softwarecode und eine Vorgehensweise, die die Verwendung dieser Anwendung für eine empirische Sondenauswahl für Catalog Microarray Products von Agilent beschreiben, sind in der U.S.-Patentanmeldung Seriennummer ... (Anwaltsaktenzeichen Nr. 10021251-1), deren Offenbarung durch Bezugnahme in das vorliegende Dokument aufgenommen ist, beschrieben.
Auswahl von Normalisierungssonden
Die anfänglichen Auswahlkriterien wählen in Frage kommende Sonden aus, die über den experimentellen Satz keine beträchtlichen Veränderungen des logarithmischen Verhältnisses aufwiesen. Vertrauensintervalle (99 %) wurden um mittlere Logarithmisches-Verhältnis-Wiederholungswerte (n = 4) herum berechnet. Sonden wurden ausgewählt, wenn die mittleren Logarithmisches-Verhältnis-Werte für jede der 10 experimentellen Proben nicht beträchtlich von 0 abwichen. Lediglich 254 Sonden, die jeweils für ein unterschiedliches Ziel entworfen waren, wiesen über den stark divergierenden experimentellen Satz keine beträchtliche Differentialexpression auf. Angesichts der Tatsache, dass der anfängliche Sondensatz 182.319 Sonden für 18.232 menschliche Sequenzen umfasste, legt dieses Ergebnis nahe, dass „Routinegene" (Gene, die in allen Geweben auf demselben Niveau „universell" ausgedrückt werden) extrem selten sind. Es lagen keine Fälle vor, bei denen mehrere Sonden zu einem gegebenen Ziel keine beträchtliche Differentialexpression über den experimentellen Satz aufwiesen (was man erwarten würde, wenn das offensichtliche Fehlen einer Differentialexpression konstante relative Zielniveaus widerspiegeln würde).
Sonden wurden ferner als Normalisierungssonden gewählt, wenn sie die folgenden Kriterien erfüllten: 1) sie waren von einer Zielsequenz abgeleitet, bei der ein akzeptables in Frage kommendes Sondencluster identifiziert wurde, und 2) die Sonde war nicht in dem akzeptablen Cluster enthalten. Diese Auswahl wurde durchgeführt, um Sonden, die einfach deshalb keine Differentialexpression aufwiesen, weil das komplementäre Ziel nicht in dem Probensatz dargestellt war, nicht auszuwählen. In der Tat war die Verteilung von Signalintensitäten für die Sonden, die diese Kriterien erfüllten, höher als die von Signalintensitäten für die Sonden, die sie nicht erfüllten (Daten nicht gezeigt). Unter Verwendung dieser Kriterien wurden aus dem anfänglichen Satz 104 Sonden als Normalisierungssonden ausgewählt.
2 zeigt Signalintensitäten und Logarithmisches-Verhältnis-Werte für die 10 experimentellen Probenpaare (nach experimentellem Probenpaar eingefärbt) für die unter Verwendung dieses Verfahrens ausgewählten Normalisierungssonden. Die Signalintensitäten dieser Sonden umspannen den dynamischen Bereich der Mikroarrayplattform, was eine nützliche, wenn nicht unabdingbare, Charakteristik für eine robuste Normalisierungsleistungsfähigkeit ist.
Aus den obigen Ergebnissen und der obigen Erläuterung ist es offensichtlich, dass durch die vorliegende Erfindung ein neues und nützliches Verfahren zum Entwerfen von Normalisierungssonden zur Verwendung auf Nukleinsäuremikroarrays bereitgestellt wird. Normalisierungssonden, die gemäß den vorliegenden Verfahren identifiziert werden, weisen hohe Signale mit geringer Schwankung über eine große Anzahl divergierender Nukleinsäureproben auf und eignen sich somit besonders zur Verwendung als Normalisierungssonden. Als solches stellt die vorliegende Erfindung einen bedeutenden Beitrag auf ihrem Fachgebiet dar.
Alle in dieser Spezifikation erwähnten Veröffentlichungen und Patentanmeldungen sind durch Bezugnahme in das vorliegende Dokument aufgenommen, so als ob auf jede einzelne Veröffentlichung oder Patentanmeldung spezifisch als durch Bezugnahme in dem vorliegenden Dokument enthalten verwiesen worden wäre.
Obwohl die vorstehende Erfindung der Veranschaulichung halber und beispielhaft zu Zwecken eines klaren Verständnisses ausführlich beschrieben wurde, leuchtet es Fachleuten ohne weiteres ein, dass angesichts der Lehren dieser Erfindung bestimmte Änderungen und Modifikationen an derselben vorgenommen werden können, ohne von der Wesensart oder dem Schutzumfang der beigefügten Patentansprüche abzuweichen.

Claims

Verfahren zum Identifizieren einer Sequenz einer Nukleinsäure, die zur Verwendung als substratoberflächenimmobilisierte Normalisierungssonde geeignet ist, wobei das Verfahren folgende Schritte umfasst: (a) Identifizieren einer Mehrzahl von in Frage kommenden Sondensequenzen für eine Zielnukleinsäure auf der Basis zumindest eines Auswahlkriteriums; (b) empirisches Bewerten jeder der in Frage kommenden Sondensequenzen unter einer Mehrzahl unterschiedlicher experimenteller Sätze, um eine Sammlung empirischer Datenwerte für jede der in Frage kommenden Nukleinsäuresondensequenzen für jeden der Mehrzahl unterschiedlicher experimenteller Sätze zu erhalten; (c) Clustern der in Frage kommenden Sondensequenzen zu einer oder mehreren Gruppen von in Frage kommenden Sondensequenzen auf der Basis der Sammlung von empirischen Datenwerten jeder in Frage kommenden Sondensequenz, wobei jede der einen oder mehreren Gruppen über die Mehrzahl experimenteller Sätze im Wesentlichen dasselbe Verhalten aufweist; (d) Bewerten jeglicher verbleibender nicht-clusternder Sonden für in Frage kommende Sondensequenzen, die eine Signalintensitätsschwelle erfüllen und bei der Mehrzahl unterschiedlicher experimenteller Sätze im Wesentlichen keine Signalvariation aufweisen, um jegliche in Frage kommenden Sondensequenzen der Mehrzahl zu identifizieren, die zur Verwendung als substratoberflächenimmobilisierte Normalisierungssonde geeignet sind.
Verfahren gemäß Anspruch 1, bei dem das zumindest eine Auswahlkriterium, das bei dem Identifizierungsschritt (a) verwendet wird, aus folgenden ausgewählt ist: (i) Nähe zu dem 3'-Ende des entsprechenden mRNA-Transkripts der Zielnukleinsäure; (ii) Basenzusammensetzung; und (iii) fehlende Homologie zu anderen exprimierten Sequenzen des Organismus der Zielnukleinsäure.
Verfahren gemäß Anspruch 2, bei dem alle drei Auswahlkriterien (i), (ii) und (iii) bei dem Identifizierungsschritt (a) eingesetzt werden.
Verfahren gemäß Anspruch 3, bei dem der Identifizierungsschritt (a) ferner dadurch gekennzeichnet ist, dass Parameter eingesetzt werden, die die Anzahl identifizierter in Frage kommender Sondensequenzen, die einander überlappen, minimieren.
Verfahren gemäß einem der Ansprüche 1 bis 4, bei dem der Schritt des empirischen Bewertens (b) für jede Angehörige der Mehrzahl unterschiedlicher experimenteller Bedingungen folgendes umfasst: (i) Bereitstellen eines Arrays von in Frage kommenden Nukleinsäuresonden, die auf einer Oberfläche eines festen Trägers immobilisiert sind, wobei das Array eine substratoberflächenimmobilisierte in Frage kommende Nukleinsäuresonde für jede der identifizierten in Frage kommenden Sondensequenzen umfasst; und (ii) Unterwerfen des Arrays dem Angehörigen der Mehrzahl unterschiedlicher experimenteller Sätze.
Verfahren gemäß Anspruch 5, bei dem jede Angehörige der Mehrzahl unterschiedlicher experimenteller Bedingungen ein unterschiedlicher Gewebe-/Zell-Linie-Differentialgenexpressionsversuch ist.
Verfahren gemäß einem der Ansprüche 1 bis 6, wobei der Clusterungsschritt (c) folgende Schritte umfasst: (i) Erhalten eines Expressionsvektors für jede der in Frage kommenden Sondensequenzen unter Verwendung der Sammlung von empirischen Datenwerten der in Frage kommenden Sequenz; (ii) Ableiten einer Ähnlichkeitsmatrix für den Satz der in Frage kommenden Sondensequenzen von den Expressionsvektoren der in Frage kommenden Sondensequenzen; und (iii) Gruppieren der in Frage kommenden Sondensequenzen auf der Basis ihrer abgeleiteten Ähnlichkeit.
Verfahren gemäß Anspruch 7, bei dem diejenigen in Frage kommenden Sonden, die im Wesentlichen ähnliche Expressionsmuster aufweisen, zusammengruppiert werden.
Verfahren gemäß einem der Ansprüche 1 bis 8, bei dem der Clusterungsschritt eine Affinitätsschwelle oder einen anderen Zwangskraft-Steuerparameter verwendet.
Verfahren gemäß einem der Ansprüche 1 bis 9, bei dem eine in Frage kommende Sondensequenz bei der Mehrzahl unterschiedlicher experimenteller Sätze als im Wesentlichen keine Signalvariation aufweisend betrachtet wird, wenn ihr logarithmisches Verhältnis über die Mehrzahl unterschiedlicher experimenteller Sätze nicht wesentlich von Null abweicht.
Verfahren gemäß Anspruch 10, bei dem das logarithmische Verhältnis zwischen etwa 0,5 und –0,5 beträgt.
Verfahren gemäß einem der Ansprüche 1 bis 11, bei dem die Mehrzahl unterschiedlicher experimenteller Sätze zumindest 2 beträgt.
Verfahren gemäß Anspruch 12, bei dem der Bewertungsschritt (d) nicht durchgeführt wird, wenn nach dem Clusterungsschritt (c) keine nicht-clusternden Sonden vorliegen.
Verfahren gemäß einem der Ansprüche 1 bis 13, bei dem zumindest manche der Schritte durch ein Rechenanalysesystem durchgeführt werden.
Computerlesbares Medium, auf dem ein Programm aufgezeichnet ist, das eine Sequenz einer Nukleinsäure, die zur Verwendung als substratoberflächenimmobilisierte Normalisierungssonde geeignet ist, gemäß dem Verfahren eines der Ansprüche 1 bis 14, identifiziert.
Rechenanalysesystem, das ein computerlesbares Medium gemäß Anspruch 15 umfasst.
Verfahren zum Herstellen eines Nukleinsäurearrays, wobei das Verfahren folgenden Schritt umfasst: Identifizieren einer Sequenz einer Nukleinsäure, die zur Verwendung als substratoberflächenimmobilisierte Normalisierungssonde geeignet ist, gemäß einem der Ansprüche 1 bis 14; und Erzeugen zumindest zweier unterschiedlicher Sondennukleinsäuren, die auf einer Oberfläche eines festen Trägers immobilisiert sind, wobei zumindest eine der zumindest zwei unterschiedlichen Sondennukleinsäuren ei ne Normalisierungssonde ist, die eine Sequenz von Nucleotiden aufweist, die gemäß dem Verfahren eines der Ansprüche 1 bis 14 identifiziert sind.
Verfahren gemäß Anspruch 17, bei dem die zumindest zwei unterschiedlichen Sondennukleinsäuren auf der Oberfläche des festen Trägers erzeugt werden, indem die Sondennukleinsäuren auf der Oberfläche synthetisiert werden.
Verfahren gemäß Anspruch 17 oder 18, bei dem die zumindest zwei unterschiedlichen Sondennukleinsäuren auf der Oberfläche des festen Trägers erzeugt werden, indem die zumindest zwei unterschiedlichen Sondennukleinsäuren auf die Oberfläche des festen Trägers aufgebracht werden.
Verfahren zum Erfassen des Vorliegens eines Nukleinsäureanalyten in einer Probe, wobei das Verfahren folgende Schritte umfasst: (a) Herstellen eines Nukleinsäurearrays gemäß einem der Ansprüche 17 bis 19; (b) Inberührungbringen des Nukleinsäurearrays, das eine Nukleinsäuresonde aufweist, die sich speziell an den Nukleinsäureanalyten bindet, mit einer Probe, von der vermutet wird, dass sie den Analyten aufweist, unter Bedingungen, die ausreichend sind, dass die Anbindung des Analyten an den Nukleinsäureliganden auf dem Array stattfindet; und (c) Erfassen des Vorliegens von Bindungskomplexen auf der Oberfläche des Arrays, um das Vorliegen des Analyten in der Probe zu erfassen.
Verfahren, das ein Übertragen eines Ergebnisses eines Ablesens eines Arrays, das gemäß dem Verfahren von Anspruch 20 erhalten wurde, von einer ersten Position an eine zweite Position umfasst.
Verfahren gemäß Anspruch 21, bei dem die zweite Position eine entfernte Position ist.
Verfahren, das ein Empfangen eines gesendeten Ergebnisses eines Ablesens eines gemäß dem Verfahren von Anspruch 20 erhaltenen Arrays umfasst.
Ausrüstungspaket zum Identifizieren einer Sequenz einer Nukleinsäure, die zur Verwendung als substratoberflächenimmobilisierte Normalisierungssonde geeignet ist, wobei das Ausrüstungspaket folgende Merkmale aufweist: (a) einen Algorithmus, der eine Sequenz einer Nukleinsäure identifiziert, die zur Verwendung als substratoberflächenimmobilisierte Normalisierungssonde geeignet ist, gemäß dem Verfahren eines der Ansprüche 1 bis 14, wobei der Algorithmus auf einem computerlesbaren Medium vorliegt; und (b) Anweisungen zum Verwenden des Algorithmus, um die Sequenz einer Nukleinsäure zu identifizieren, die zur Verwendung als substratoberflächenimmobilisierte Normalisierungssonde geeignet ist.