DE60013303T2

DE60013303T2 - Verfahren zum entfernen systematischer fehler und abweichungen und zum abschätzen zufälliger fehler in chemischen und biologischen testverfahren

Info

Publication number: DE60013303T2
Application number: DE60013303T
Authority: DE
Inventors: Peter Ramm; Robert Nadon; Peide Shi
Original assignee: Amersham Biosciences Niagara Inc
Current assignee: GE Healthcare Niagara Inc
Priority date: 1999-06-17
Filing date: 2000-06-19
Publication date: 2005-09-22
Anticipated expiration: 2020-06-20
Also published as: US20020094535A1; ATE274602T1; WO2000078991A3; EP1200620B1; AU5096700A; US6876929B2; CA2375890A1; WO2000078991A2; EP1200620A2; DE60013303D1

Description

1. Gebiet der Erfindung
Die vorliegende Erfindung betrifft ein Verfahren zum Aufstellen von Bewertungen, welche Analysen von Daten erhalten aus Hybridisierungs- Arrays objektivieren. Die vorliegende Erfindung stellt in einem Aspekt einen Prozess zum Entfernen systematischer Fehler dar, welche in genomischen Wiederholungsproben (replizierten genomischen Proben) vorliegen. Ein zweiter Aspekt ist ein Verfahren zum Detektieren und Entfernen von Extremwertdaten (Ausreißer). Ein dritter Aspekt ist ein Optimierungsverfahren zum Detektieren oder Entfernen von Extremwertdaten (Ausreißer). Ein vierter Aspekt ist ein Prozess zum Abschätzen des Ausmaßes der zufälligen Fehler, die in genomischen Wiederholungsproben bestehend aus einer kleinen Anzahl von Datenpunkten vorliegen.
2. Hintergrund der Erfindung
Array- gestützte genetische Analysen beginnen mit einer großen Bibliothek von cDNAs oder Oligonucleotiden (Sonden), immobilisiert auf einem Substrat. Die Sonden werden mit einer einfach gelabelten Sequenz hybridisiert oder einer gelabelten komplexen Mischung abgeleitet von einer Messenger- RNA eines Gewebes oder einer Zellinie (Target). Wie hier verwendet, wird sich die Bezeichnung "Sonde" daher so verstehen, dass sie sich auf ein Material bezieht, das an das Array gebunden ist und die Bezeichnung "Target" wird sich auf ein Material beziehen, das auf die Sonden auf dem Array angewandt wird, so dass Hybridisierung auftreten kann.
Die Bezeichnung "Element" wird sich auf einen Punkt auf einem Array beziehen. Array-Elemente reflektieren die Sonden/ Target- Interaktion. Die Bezeichnung "Hintergrund" wird sich auf eine Fläche auf dem Substrat außerhalb der Elemente beziehen. Die Bezeichnung "Replikat" wird sich auf zwei oder mehrere gemessene Werte derselben Sonden/ Target Interaktion beziehen. Replikate können unabhängig voneinander sein (die gemessenen Werte sind unabhängig) oder abhängig (die gemessenen Werte sind verwandt, statistisch korreliert oder reaktionsgepaart). Replikate (Wiederholungen) können innerhalb von Arrays sein, über Arrays hinweg, innerhalb Experimenten, über Experimente hinweg oder irgendeine Kombination davon.
Gemessene Werte der Sonden/ Target – Interaktionen sind eine Funktion ihrer tatsächlichen Werte und von Messfehlern. Die Bezeichnung "Ausreißer" wird sich auf einen Extremwert in einer Verteilung von Werten beziehen. Ausreißerarten resultieren häufig aus nicht korrigierbaren Messfehlern und werden typischerweise aus weiteren statistischen Analysen gestrichen.
Es gibt zwei Arten von Fehlern, zufällige und systematische, welche das Ausmaß, in welchen beobachtete (gemessene) Werte von ihren wirklichen Werten abweichen, beeinflussen.
Zufällige Fehler erzeugen Fluktationen in den beobachteten Werten desselben Prozesses oder Attributs. Das Ausmaß und die Verteilungsform von zufälligen Fehlern kann detektiert werden durch wiederholte Messungen des gleichen Prozesses oder Attributs. Kleine zufällige Fehler korrespondieren mit hoher Präzision.
Systematische Fehler erzeugen Verschiebungen (Offsets) in gemessenen Werten. Gemessene Werte mit systematischen Fehlern nennt man "tendenziös". Systematische Fehler können nicht durch wiederholte Messungen des gleichen Prozesses oder Attributs detektiert werden, da die Tendenz in gleicher Weise beeinflusst wird. Geringe systematische Fehler korrespondieren mit hoher Treffergenauigkeit. Die Bezeichnungen "systematischer Fehler", "Tendenz" und "Offset" werden austauschbar untereinander im vorliegenden Dokument verwendet.
Eine Erfindung zum Abschätzen zufälliger Fehler, die in genomischen Wiederholungsproben vorliegen, bestehend aus einer kleinen Anzahl von Daten, wurde von Ramm und Nadon in "Process for Evaluating Chemical and Biological Assays" WO 99/ 54724 beschrieben.
In einer bevorzugten Ausführungsform nahm der Prozess, der darin beschrieben ist, an, dass vor dem Durchführen statistischer Test systematische Fehler in der Messung entfernt worden waren und Ausreißer beseitigt worden waren.
In Übereinstimmung mit einem Aspekt stellt die vorliegende Erfindung einen Prozess dar, welcher einen systematischen Fehler aus gemessenen Werten abschätzt und entfernt. In einem weiteren Aspekt stellt sie einen Prozess zum Optimieren der Detektion und Deletion von Ausreißern dar. Ein zweiter Aspekt ist ein Prozess zum Detektieren und Löschen von Ausreißern. Ein dritter Aspekt ist ein Prozess zum Optimieren der Detektion von Ausreißern und ihrer automatischen Beseitigung. Ein vierter Aspekt ist ein Prozess zum Abschätzen des Ausmaßes des zufälligen Fehlers, der in genomischen Wiederholungsproben vorliegt, bestehend aus einer kleinen Anzahl von Daten.
Es gibt zwei Typen von systematischen Fehlern, die potentiell im Hybridisierungsarrays auftreten.
Arrayelemente können mit Offsets innerhalb Arrays vorliegen. Typischerweise ist dieser Offset additiv. Er kann von verschiedenen Ursachen herrühren, einschließend Distorsionen im Nylon- Membran- Substrat (Duggan, Bittner, Chen, Meltzer & Trent "Expression profiling using cDNA microarrays", Nature Genetics, 21, 10- 14 (1999).
Falls vorliegend, wird der Offset korrigiert durch eine Prozedur, die man "Hintergrundkorrektur" nennt, welche das Subtrahieren der Intensität einer Hintergrundfläche außerhalb des Arrayelements von besagtem Arrayelement einschließt.
Flächen, verwendet für die Kalkulation des Hintergrundes, können nahe an dem Arrayelement (wie beispielsweise ein Kreis, der um das Element herumliegt), oder entfernt (ein Rechtwinkel, um das gesamte Array) liegen. Da der Offset innerhalb eines Arrays dazu tendiert, spezifisch für individuelle Arrayelemente zu sein (selbst bei relativ einheitlichem Hintergrund) werden Flächen in der Nähe des Elementes im allgemeinen zur Hintergrundkorrektur bevorzugt.
Alternativ können Hintergrundabschätzungen aus "Blindproben"- Elementen (d.h. Elementen ohne Probenmaterial) erhalten werden. In dieser Prozedur wird der "Hintergrund" un terschiedlich von dem typischeren Verfahren beschrieben im vorangegangenen Abschnitt definiert. Theoretisch werden die Blindproben- Element- Intensitäten durch die gleichen Fehlerfaktoren beeinflusst, welche die nicht- Element- Hintergrundflächen (beispielsweise Waschprozeduren) beeinflussen und auch durch Fehlerfaktoren, welche die Elementquantifizierung beeinflussen, welche jedoch ohne Beziehung zum biologischen Signal von Interesse ist (beispielsweise Verteilungsfehler).
Die vorliegende Erfindung adressiert nicht die Frage der Hintergrundkorrektur. In einer bevorzugten Ausführungsform wurde die Hintergrundkorrektur wenn nötig vor der Abschätzung des systematischen Fehlers und der Ausreißerdetektion vorgenommen. In einer nicht bevorzugten Ausführungsform kann der Prozess noch angewandt werden auf Arrays, die nicht in punkto Hintergrund- Offset korrigiert wurden.
In einem Aspekt stellt die vorliegende Erfindung einen Prozess dar zum Abschätzen und Entfernen systematischer Fehler über Arrays. Im Gegensatz zum Hintergrundbeitrag tendiert der Beitrag über Arrays hinweg dazu, proportional zu sein.
Beiträge über Arrays können von verschiedenen Ursachen herrühren. Für Microarray-Untersuchungen, welche Fluoreszenz- Labeling verwenden, schließen Faktoren solcher Beiträge die Targetmenge, das Ausmaß des Target- Labelings, die Fluoreszenzanregungs- und Emissionseffizienten und die Detektoreffizienz ein. Diese Faktoren können alle Elemente gleichermaßen beeinflussen oder können teilweise spezifisch für Elementuntereinheiten des Arrays sein. Beispielsweise kann die Menge des Targetmaterials für verschiedene fleckenbildende Kontaktstellen eines Roboter- Arrays unterschiedliche Beiträge aufweisen (siehe Bowtell "Options available – from start to finish – for obtaining expression data by microarray" Nature Genetics, 21, 25- 32, Seite 31 (1999).
Für Radio- gelabelte Macroarray- Untersuchungen schließen proportionale Beitragsfaktoren die Target- Menge und die Target- Zugänglichkeit ein (Perret, Ferrán, Marinx, Liauzun, et al. in "Improved differential screening approach to analyse transcriptional variations in organized cDNA libraries" Gene, 208, 103- 115 (1998).
Die Tageszeit, zu welcher die Arrays betrieben werden (Lander "Array of hope" Nature Genetics, 21, 3- 4 (1999)) und die Variation in chemischen Waschprozeduren über die Experimente (Shalon, Smith & Brown" A DNA microarray system for analyzing complex DNA samples using two- color fluorescent probe hybridization" Genome Research 6, 639-645 (1996)) sind auch als Faktoren des Offsets zitiert worden.
Duggan et al. (Nature Genetics, 21, 10- 14 (1999)) beschreiben die Expressions-Formgebung unter Verwendung von cDNA Microarrays. DNA Targets in der Form von Expressed Sequenz Tags werden auf Glas angeordnet und mit Fluoreszenz- oder radioaktiv- gelabelter cDNA nachgewiesen. Eine Prozedur der Normalisierung ist, eine gekennzeichnete Untereinheit von Genen mit einer konstanten Expressions- Formgebung zu betrachten. Die Varianz des Normalisierungs- Satzes kann verwendet werden, um Abschätzungen der erwarteten Varianz zu erzeugen, was zur Vorhersage von Vertrauensbereichen führt, die geeignet sind, die Signifikanz der beobachteten Veränderungen im kompletten Datensatz zu bewerten.
Verfahren aus dem Stand der Technik zum Entfernen des systematischen Fehlers nennt man "Normalisierungs"- Prozeduren. Diese Prozeduren schließen das Dividieren der Werte der Array- Elemente durch einen Referenzwert ein. Diese Referenz kann basiert sein auf allen Sonden oder einer Untereinheit (Teilsatz) ("haushaltende Gene", deren theoretische Expressionsgerade sich nicht mit den Bedingungen ändern). Einmal erhalten kann die Referenz jedoch abgeschätzt werden, durch einen oder verschiedene summative Werte (beispielsweise Mittelwert oder ein spezifiziertes Perzentil).
Sobald ein systematischer Fehler entfernt worden ist, sind alle zurückbleibenden Mess-Fehler theoretisch zufällige. Zufällige Fehler reflektieren die erwartete statistische Variation eines gemessenen Wertes. Ein gemessener Wert kann beispielsweise aus einem einzelnen Wert bestehen, einer Summe von Werten (Mittelwert, Median), einer Differenz zwischen einzelnen oder Summenwerten oder einer Differenz zwischen Differenzen. Damit zwei Werte als signifikant unterschiedlich voneinander gelten, muss ihre Differenz einen Schwellenwert überschreiten, der gemeinsam definiert wird durch den Messfehler assoziiert mit der Differenz und einer spezifizierten Wahrscheinlichkeit für fehlerhafte Schlüsse, dass die beiden Werte unterschiedlich sind (Typ 1 Fehlerrate). Statistische Tests werden durchgeführt, um zu bestimmen, ob Werte sich signifikant voneinander unterscheiden.
Alle die Normalisierungsprozeduren des Standes der Technik schätzen systematische Fehler als außerhalb des Kontexts eines statistisch liegenden Modells ab. Da diese informellen Prozeduren implizit (und oft unkorrekter Weise) Annahmen über die Struktur der Daten machen (beispielsweise über Form und Ausmaß sowohl von systematischen als auch zufälligen Fehlern) scheitern sie oft bei der adäquaten Elimination von systematischen Messabweichungen und können zusätzliche Messabweichungen aufgrund der Normalisierungsprozedur selbst einbringen. In einem anderen wissenschaftlichen Zusammenhang beschrieben Freedman und Navidi, in "Regression models for adjusting the 1980 census", Statistical Science, 1, 3- 11 (1986) die Probleme die inherent in Ermangelung des korrekten Modellierens von Daten, welche Messfehler ("Unsicherheit" in ihrer Terminologie) enthalten, sind.
Modelle werden oft verwendet, um Probleme in Situationen zu entscheiden, die durch Unsicherheit gekennzeichnet sind. Jedoch hängen statistische Schlussfolgerungen von Daten von Annahmen über die Prozesse ab, welche diese Daten generierten. Falls die Annahmen nicht standhalten, können die Schlussfolgerungen auch nicht verlässlich sein. Diese Begrenzung wird oft durch die Anwender ignoriert, die daran scheitern, die entscheidenden Annahmen zu identifizieren oder sie jeglicher Art von empirischen Tests zu unterziehen. Unter solchen Umständen kann die Verwendung statistische Prozeduren nur die Unsicherheit vergrößern (S. 3).
Zusätzlich zur korrekten Entfernung des systematischen Fehlers verlangen viele statistische Tests die Annahme, dass Reste (=Residualwerte) normal verteilt sind. Reste reflektieren die Differenz zwischen den abgeschätzten wahren Größen der Treffer und ihren beobachteten (gemessenen) Größen. Falls die Größe eines Rests extrem ist (relativ zu anderen Größen in der Verteilung) nennt man diesen einen Ausreißer. Der Ausreißer wird typischerweise von der weiteren statistischen Analyse entfernt, da er im allgemeinen darauf hindeutet, dass der gemessene Wert einen exzessiven Messfehler enthält, der nicht korrigiert werden kann. Um normal verteilte Reste zu erhalten, ist oft eine Datentransformation von Nöten (z.B. eine logarithmische Transformation).
In einem Aspekt stellt die vorliegende Erfindung einen Prozess zum Detektieren und Entfernen von Ausreißern durch Untersuchen der Verteilung von Resten dar. In einem ande ren Aspekt stellt sie einen Prozess zum Detektieren und Entfernen von Ausreißern in automatischer Art und Weise durch einen iterativen Prozess dar, welcher die Charakteristik hat der Verteilung der Reste untersucht (z.B. Schiefe, Kurtosis).
Wie bei der Korrektur von Offsets über Arrays (Normalisierung) verlässt sich der Stand der Technik bei der Detektion von Ausreißern auf informelle und zufällige Prozeduren außerhalb eines Kontexts von statistischen Modellen. Beispielsweise verglichen Perret, Ferrán, Marinx Liauzun, et al., Improved differential screening approach to analyse transcriptional variations in organized cDNA libraries" Gene, 208, 103- 115 (1998), die Intensitäten von Sätzen von zwei Wiederholungsarrayelementen nach Normalisierung. Jeder Wiederholungssatz, der eine größere als zweifache Differenz zeigte (oder äquivalent weniger als eine halbfache Differenz) wurde als Ausreißer betrachtet.
In Übereinstimmung mit einem Aspekt der vorliegenden Erfindung ist die vorliegende Erfindung ein Prozess zum Abschätzen des Ausmaßes des zufälligen Fehlers, der in genomischen Wiederholungs- Proben, bestehend aus einer kleinen Anzahl von Daten vorliegt und zum Durchführen eines statistischen Tests, der die Expressionsgrade über die Bedingungen (beispielsweise erkranktes gegen normales Gewebe) vergleicht. Sie ist eine Alternative zum Verfahren beschrieben von Ramm und Nadon in "Process for Evaluating Chemical and Biological Assays", International Application No. PCT/ IB99/ 00734. Als solche kann sie verwendet werden zusätzlich (oder anstelle von) den Prozeduren beschrieben von Ramm und Nadon (ibid).
Nachteile aller Prozeduren des Standes der Technik schließen ein:

1. Der Wert der als Normalisierungsreferenz gewählt wird (z.B. 75. Perzentil, etc.) ist zufällig;
2. Geht man davon aus, dass die Wahl der Normalisierungsreferenz zufällig ist, führt das Dividieren des Referenzwertes zur Überkorrektur einiger Elemente und zur Unterkorrektur anderer;
3. Da die Prozeduren des Standes der Technik einen systematischen Fehler nicht innerhalb des Kontexts eines statistischen Models abschätzen, werden Datentransformationen, die notwendig sind, um korrekte Rückschlüsse zu machen, nicht durchgeführt oder können inkorrekt angewandt werden;
4. Da die Prozeduren des Standes der Technik den systematischen Fehler nicht innerhalb des Kontexts eines statistischen Models abschätzen, kann die Normalisierung die wirkliche Struktur der Daten verändern;
5. Da die Prozedur nach dem Stand der Technik die Ausreißer nicht innerhalb des Kontexts eines statistischen Models detektieren, können wirkliche Ausreißer undetektiert bleiben und nicht- Ausreißer können unkorrekterweise als Ausreißer klassifiziert werden;
6. Die Klassifikation von Werten als Ausreißer ist nicht zufällig und subjektiv;
7. Theoretische Annahmen über Datenstrukturen (beispielsweise dass Reste normal verteilt sind) werden nicht empirisch überprüft.
8. Normalisierungsprozeduren können weitere Messfehler kreieren, die nicht in den originalen nicht- normalisierten Messungen vorliegen.

Die Bezeichnung "Behandlungs- Bedingung" wird sich auf einen Effekt von Interesse beziehen. Solch ein Effekt kann von vornherein existieren (beispielsweise Unterschiede über verschiedene Gewebe oder über die Zeit) oder kann durch eine experimentelle Manipulation induziert werden.
Hybridisierungsarrays erzeugt unter verschiedenen Behandlungszuständen können statistisch abhängig oder unabhängig sein. Die Mikroarray- Technologie, in welcher zwei verschiedene Target- Behandlungs- Proben mit verschiedenen Fluoreszenzfarbstoffen gelabelt werden und dann auf jedes Element des Arrays cohybridisiert werden, repräsentieren ein Beispiel von statistischer Abhängigkeit. Typischerweise werden die Expressionsverhältnisse der Roh- Signale erzeugt von den beiden Fluoreszenzfarbstoffen hinsichtlich des Nachweises von Unterschieden über die Behandlungsbedingungen untersucht.
Chen, Dougherty & Bittner "Ratio- based decisions and the quantitative analysis of cDNA microarray immages", Journal of Biomedical Optics, 2, 364- 374 (1997) haben einen analystischen mathematischen Ansatz vorgestellt, welcher die Verteilung von nichtwiederholten differenziellen Verhältnissen unter der Null- Hypothese abschätzt. Dieser Ansatz ist ähnlich zur vorliegenden Erfindung dahingehend, dass er ein Verfahren ableitet zum Erhalten von Vertrauensbereichen und Wahrscheinlichkeitsabschätzungen für Unterschiede in Probenintensität über verschiedene Bedingungen. Er unterscheidet sich von der vorliegenden Erfindung dahingehend, wie er diese Abschätzungen erhält. Anders als in der vorliegenden Erfindung erhält der Chen et al. Ansatz keine Messfehlerabschätzungen von Wiederholungsproben- Werten. Statt dessen wird der Messfehler assoziiert mit Verhältnissen von Probenintensitäten zwischen Bedingungen über mathematische Ableitung der Null- Hypothese Verteilung von Verhältnissen erhalten. D.H. Chen et al. leiten ab, wie die Verteilung der Verhältnisse sein würde, falls keine der Proben Unterschiede in gemessenen Werten über Bedingungen zeigen würde, die größer wären als sie durch "Chance" zu erwarten würden. Basierend auf dieser Ableitung etablieren sie Schranken für statistisch verlässliche Verhältnisse von Probenintensitäten über zwei Bedingungen. Das Verfahren wie abgeleitet, wird nur anwendbar für Unterschiede über zwei Bedingungen. Darüber hinaus schätzt es ab, dass der Messfehler assoziiert mit Probenintensitäten normal verteilt ist. Das Verfahren wie abgeleitet, kann nicht andere Messfehlermodelle anpassen (beispielsweise "lognormal"). Es nimmt auch die gemessene Werte als erwartungstreu und als verlässliche Abschätzungen der "wirklichen" Probenintensität an. D.h. es wird abgeschätzt, dass keine der Proben- Intensitäten "Ausreißer"- Werte darstellen, die von der Analyse ausgeschlossen werden würden. Tatsächlich ist eine Ausreißer-Detektion mit dem Ansatz beschrieben von Chen et al. nicht möglich.
Die vorliegende Erfindung wendet die Prozesse beschrieben von Ramm und Nadon in "Process for Evaluating Chemical and Biological Assays", International Application No. PCT/ IB99/ 00734 und von Ramm, Nadon und Shi in "Process for Removing Systematic Error and Outlier Data and for Estimating Error in Chemical and Biological Assays", Provisional Application No. 60/ 139,639 (1999) auf zwei oder mehr statistisch abhängig genomische Proben an.
Die vorliegende Erfindung unterscheidet sich vom Stand der Technik dahingehend, dass:

1. sie verschiedene Mess- Fehler- Modelle (z.B. Lognormal) anpassen kann;
2. sie Ausreißer innerhalb des Kontexts eines statistischen Models detektieren kann;
3. sie verwendet werden kann, um theoretische Annahmen über Datenstrukturen zu untersuchen (z.B. dass Reste normal verteilt sind).

Detaillierte Beschreibung der bevorzugten Ausführungsform
Angenommen sei beispielsweise, dass Expressionsgrade für einen speziellen Datensatz proportionale systematische und proportionale zufällige Fehler über Wiederholungsarrays aufweisen. Dieses Szenario wird symbolisch repräsentiert in Gleichung 1
für g = 1,..., G, j = 1,..., m und i = 1,..., n, wobei μ_gi; den assoziierten wirklichen Intensitätswert des Arrayelements i repräsentiert (welches unbekannt und fixiert ist), v_gj die unbekannten systematischen Verschiebungen oder Beiträge über Wiederholungen repräsentiert und ε_gij die beobachteten zufälligen Fehler in einer gegebenen Bedingung g für Spot i und Wiederholung j repräsentiert. Das Interesse liegt im Erhalt einer erwartungstreuen Abschätzung eines "wirklichen" Wertes (μ_gi) eines Elements.
Setzt man die Bedingung g voraus (z.B. normale Zellen oder erkranke Widerparte), das Arrayelement i und die Wiederholung j so wird der assoziierte Intensitätswert als X_gij bezeichnet.
Alternativ würde ein Model mit einem additiven Beitrag und einem additiven zufälligen Fehler symbolisiert werden durch
für g = 1,..., G, J = 1,..., m und i = 1,..., n wobei u_gi den assoziierten wirklichen Intensitätswert des Arrayelements i (welches unbekannt und fixiert ist) repräsentiert, V_gi die unbekannten systematischen Verschiebungen oder Beiträge über Wiederholungen repräsentiert und ε_gij die beobachteten zufälligen Fehler in einer gegebenen Bedingung g für Element i und Wiederholung j repräsentiert. Das Interesse liegt im Erhalt einer erwartungstreuen Abschätzung eines "wahren" Wertes (u_gi) eines Elements.
Das Model dargestellt in Gleichung 1 wird als bevorzugte Ausführungsform präsentiert. Anwendungen eines Prozesses verwendend das Model gezeigt in Gleichung 2, wären jedoch für den Fachmann auf dem Gebiet offensichtlich. Anwendungen unter Verwendung weiterer Modelle (z.B. proportionaler Beiträge und additiver zufälliger Fehler) wären auch offensichtlich für den Fachmann auf dem Gebiet.
Um die Parameter v_gj(V_gj) identifizierbar in dem Model zu machen, wird die Bedingung an die Gleichung
verlangt.
Diese Parameter können als fixiert oder zufällig genommen werden. Wenn die Parameter als zufällig angenommen werden, nehmen wir des weiteren an, dass sie unabhängig von den zufälligen Fehlern sind.
Unter dem Model gezeigt in Gleichung 1 haben wir beispielsweise die maximale Wahrscheinlichkeitsabschätzung (MLE, maximum likelyhood estimate) von μ_gi und V_gj wie folgt:
und
Das Kombinieren der Gleichung 3 und 4 führt zu Abschätzungen der Reste [log(έ_gij)] dargestellt in Gleichung 5.
Dafür gegebenes g und i
j = 1,..., m unabhängig und identisch verteilt als Normalverteilung sind, mit Mittelwert log(μ_gi) und Varianz σ²gi, stellt Gleichung 6 erwartungstreue Abschätzungen von wirklichen Werten von Arrayelementen bereit. D.h. Gleichung 6 liefert die abgeschätzten Werte, wobei die systematischen Fehler entfernt sind.
Man nimmt an, dass, falls das Modell korrekt ist, die Reste normal verteilt sein sollten. Diese Annahme kann empirisch durch Untersuchen der Schiefe und der Kurtosis der Verteilung der Reste wie gemäß Gleichung 5 berechnet überprüft werden (Schiefe und Kurtosis Messwerte sind standardisierte statistische Indices; siehe Stuart & Ord "Distribution theory (6th ed.)(Kendall's advanced theory of statistics Vol. 1)", New York, Halsted Press (1994). Schiefe ist ein Maß der Symmetrie einer Verteilung. Kurtosis ist ein Maß der "Überhöhung" einer Verteilung. Unter der Normalitäts- Annahme sollten sowohl die Schiefe als auch die Kurtosis der Reste- Verteilung etwa Null sein.)
Selbst wenn das Modell für die meisten der Daten korrekt ist, können Ausreißer verursachen, dass die Verteilung des gesamten Datensatzes von der Normalität abweicht. Ausreißer können detektiert und entfernt werden, über eine der folgenden Optimierungsprozeduren:

1. Ausreißer können definiert werden über eine Schranke (beispielsweise ± 2 Standardfehler entfernt vom Mittelwert der Reste). In einer bevorzugten Ausführungsform würde jeglicher Rest, dessen absoluter Wert die Schranke überschreitet, von weiteren statistischen Test gelöscht.
2. Ein automatisierter iterativer Prozess, welcher die Schiefe und Kurtosis untersucht, kann auch verwendet werden. In diese Prozedur werden die Schiefe und Kurtosis für eine Mittel- Proportion an Treffern (z.B. die mittleren 80%) berechnet. Die Schiefe und Kurtosis werden wiederholt kalkuliert, wenn die Proportion der Treffer in den nachfolgenden Schritten vergrößert wird. Die Proportion der Treffer, welche optimale Schiefe und Kurtosis- Werte erzeugen (am nächsten bei Null), wird als die optimale Verteilung von Resten gewählt. Treffer, die außerhalb der gewählten mittleren Proportion an Werten fallen, werden als Ausreißer abgeschätzt. In einer bevorzugten Ausführungsform werden diese Treffer von der weiteren Analyse gelöscht.

Statistische Indices (z.B. Vertrauensbereiche) und statistische Tests (z.B. t- Tests, Analyse der Varianz) wie von Ramm und Nadon in "Process for Evaluating Chemical and Biological Assays", International Application No. PCT/ IB99/ 00734 beschrieben, können auf die Array- Elemente- Daten angewandt werden, deren Reste- Treffer nicht Ausreißer darstellen.
Zusätzlich dazu oder alternativ können die statistischen Tests, beschrieben in Gleichungen 7 und 8 auf diese Daten angewandt werden.
wobei σ2 für jede Bedingung berechnet wird als:
wobei x_i = alle Reste für alle wiederholten Array- Elemente innerhalb einer Bedingung und c ein Normalisierungsfaktor zum Abschätzen des Standardfehlers für die Reste ist, wenn sie normal verteilt sind. Vorzugsweise gilt c = 1,0532, jedoch können andere Werte von c eingesetzt werden.
Der z* Wert von Gleichung 7 wird relativ zu einer Standardnormalverteilung (z- Tabelle) untersucht, um den Grad der statistischen Signifikanz zu bewerten. Die Gleichungen 7 und 8 verallgemeinern sich für drei oder mehr Bedingungen in einer Weise, die für den Fachmann auf dem Gebiet offensichtlich ist.
Die vorliegende Erfindung schließt nicht die Verwendung von Normalisierungsprozeduren aus dem Stand der Technik aus, die auf die Daten vor der Anwendung des vorliegenden Prozesses angewendet werden. Dies kann notwendig sein, beispielsweise wenn Daten unter verschiedenen Bedingungen und an verschiedenen Tagen erhalten werden müssen. Unter diesen Umständen können Daten innerhalb von Zuständen auf eine Referenz (z.B. haushaltende Gene) normalisiert werden müssen, vor der Anwendung des vorliegenden Prozesses.
Appendix
Man betrachte einen Fall, in welchem die Expressionsdaten von drei Wiederholungsarrays gesammelt wurden, welche 1280 verschiedene Elemente enthielten. Der systematische Fehler über Wiederholungsarrays wird als proportional angenommen und es sei auch angenommen, dass zufällige Fehler über Wiederholungsarrays proportional sind. Dieses Modell ist in Gleichung 1 gezeigt und im hauptsächlichen Teil des Textes.
Normalisierungsverfahren
Ein Ansatz ist zu versuchen, die proportionalen systematischen Fehler durch Dividieren eines jeden Elementes innerhalb eines Arrays durch einen Referenzwert (z.B. 75. Perzentil- Wert aller Elemente innerhalb des Arrays) zu entfernen. Falls der systematische Fehler durch die Normalisierungsprozedur entfernt wird, wird die Gleichung 1 zu:
Reste werden dann gemäß Gleichung 5 mit der Bezeichnung für den systematischen Fehler entfernt:
1 repräsentiert die Verteilung der Reste mit optimierter Schiefe und Kurtosis (d.h. Null am nächsten kommend) und den gelöschten Ausreißern. Von 1280 Resten wurden 40 als Ausreißer detektiert und gelöscht. Die Schiefe und Kurtosis- Werte waren – 0,27, z = 3,88; p < 0,001 und 0,0006, z = 0,04 und p = 0,49. Der Schiefe Wert weicht signifikant von Null ab, was darauf hindeutet, dass die Reste nicht normal verteilt sind. Dieses Ergebnis liegt nahe, dass im Gegensatz zur Annahme des Models die Normalisierung nicht adäquat die Komponente des systematischen Fehlers von den gemessenen Expressionswerten entfernt hat.
Verfahren der vorliegenden Erfindung
In einer bevorzugten Ausführungsform würde die vorliegende Erfindung wie folgt vorgehen:

1. Abschätzen des Messwertmodels, dargestellt in Gleichung 1.
2. Berechnen des Durchschnittes für jede Elementstelle über Wiederholungsarrays (Gleichung 3).
3. Abschätzen des systematischen Fehlers für jedes Array (Gleichung 4).
4. Berechnen der Reste für jede Arrayelementstelle (Gleichung 5).

2 repräsentiert die Verteilung der Reste in optimierter Schiefe und Kurtosis (d.h. Null am nächsten kommend) mit gelöschten Ausreißern. Unter 1280 Resten wurden 65 als Ausreißer detektiert und gelöscht. Schiefe und Kurtosis Werte waren 0,073, z = 1,04; p = 0,15 bzw. 0,039, z = 0,28, p = 0,39. Die Schiefe und Kurtosis Werte waren nicht signifikant verschieden von Null, was darauf hindeutet, dass die Reste annähernd normal verteilt waren. Dieses Ergebnis legt nahe, dass der statistische Modellierungsprozess adäquat die systematische Fehlerkomponente von den gemessenen Expressionswerten entfernt hat.
Schlussfolgerung
In diesem Beispiel würden die Prozeduren beschrieben von Ramm und Nadon in "Process for Evaluating Chemical and Biological Assays", WO 9 954 724 oder die Prozedur der vorliegenden Erfindung (Gleichung 7 und 8) brauchbare Ergebnisse erzeugen mit dem "Verfahren der vorliegenden Erfindung", jedoch nicht mit dem "Normalisierungsverfahren". Unter anderen Umständen können abhängig vom Messungs- Fehler- Model Normalisierungsprozeduren aus dem Stand der Technik adäquat für diesen Zweck sein (z.B. proportionale systematische Fehler über Arrays mit additiven zufälligen Fehlern). Jedoch ist es wahrscheinlich, dass die Wahl des Referenzwertes für die Normalisierungsprozedur zufällig aus einer statistischen Schlussfolgerungsperspektive erfolgen wird, solange nicht die Prozesse folgen, welche im vorliegenden Dokument beschrieben werden.

Claims

Verfahren zum. Verbessern der Zuverlässigkeit von aus Array-Hybridisierungsstudien erhaltenen physikalischen Messungen, die an einem Array mit einer großen Zahl genomischer Proben durchgeführt wurden, die sich jeweils aus einer kleinen Zahl Replikate zusammensetzen, die nicht ausreicht, um genaue und gültige statistische Schlussfolgerungen zu ziehen, das den Schritt des Abschätzens eines Fehlers in der Messung einer Probe durch Mitteln von beim Messen mindestens einer der großen Zahl von Proben und einer Teilmenge der großen Zahl von Proben erhaltenen Fehlern und die Nutzung des abgeschätzten Probenfehlers als Standard für das Annehmen oder Abweisen der Messung der jeweiligen Probe umfasst.
Verfahren nach Anspruch 1, wobei eine physikalische Messgröße basierend auf der Differenz zwischen statistisch abhängigen Größen bestimmt wird.
Verfahren nach Anspruch 1, wobei eine aus einer gesamten Array-Population bestimmte physikalische Messgröße benutzt wird, um diskrete Vorkommnisse dieser Größe für die kleine Zahl von Replikatproben innerhalb dieser Population abzuschätzen.
Verfahren nach Anspruch 1, wobei die Abschätzungen des Messfehlers benutzt werden, um Array-Hybridisierungsstudien basierend auf (a) der Wahrscheinlichkeit des Erfassens einer echten Differenz eines vorgegebenen Betrags zwischen physikalischen Messungen einer gegebenen Anzahl Replikate oder (b) der Anzahl der für die Erfassung einer echten Differenz eines vorgegebenen Betrags erforderlichen Replikate zu planen, zu handhaben und zu steuern.
Verfahren zum Verbessern der Zuverlässigkeit und Genauigkeit von aus Array-Hybridisierungsstudien erhaltenen physikalischen Messungen, die an einem Array mit einer großen Zahl genomischer Proben durchgeführt wurden, die sich jeweils aus einer kleinen Zahl Replikate zusammensetzen, die nicht ausreicht, um genaue und gültige statistische Schlussfolgerungen zu ziehen, das den Schritt des Erfassens von Ausreißerwerten in der Messung einer Probe durch Kombinieren von Residualwerten von beim Messen einer der großen Zahl von Proben und einer Teilmenge der großen Zahl von Proben erhaltenen Werten umfasst.
Verfahren nach Anspruch 5, wobei Ausreißer basierend auf der Abweichung ihrer Residualwerte vom Mittelwert oder Medianwert oder einer anderen Messung der Residualwerte erfasst werden.
Verfahren nach Anspruch 5, wobei Ausreißer manuell, basierend auf Eigenschaften, einschließlich Schiefe und Kurtosis der Verteilung der Residualwerte erfasst werden.
Verfahren nach Anspruch 5, wobei Ausreißer basierend auf automatisch und iterativ bezüglich der Eigenschaften, einschließlich Schiefe und Kurtosis der Verteilung der Residualwerte erfasst werden.
Verfahren zum Verbessern der Genauigkeit von aus Array-Hybridisierungsstudien erhaltenen physikalischen Messungen, die an einem Array mit einer großen Zahl genomischer Proben durchgeführt wurden, die sich jeweils aus einer kleinen Zahl Replikate zusammensetzen, die. nicht ausreicht, um systematische Fehler über Arrays hinweg abzuschätzen, wobei das Verfahren den Schritt des Mittelns der Differenzen zwischen Einzelproben innerhalb eines Arrays und des Mittelwerts der gewissen Replikate aus anderen Arrays, die dieses eine Array enthalten, umfasst.
Verfahren zum Verbessern der Genauigkeit von aus Array-Hybridisierungsstudien erhaltenen physikalischen Messungen, die an einem Array mit einer großen Zahl genomischer Proben über zwei oder mehr Bedingungen durchgeführt wurden, die sich jeweils aus einer kleinen Zahl Replikate zusammensetzen, die nicht ausreicht, um systematische Fehler über Arrays hinweg abzuschätzen, wobei von gewissen Replikaten erhaltene Messungen über Bedingungen korreliert sind und wobei das Verfahren den Schritt des Mittelns der Differenzen zwischen Einzelproben innerhalb eines Arrays und dem Mittelwert der gewissen Replikate aus anderen Arrays, die dieses eine Array enthalten, umfasst.
Verfahren nach einem der Ansprüche 5–10, wobei eine physikalische Messgröße basierend auf der Differenz zwischen statistisch abhängigen Größen bestimmt wird.
Verfahren nach einem der Ansprüche 5–10, wobei eine physikalische Messgröße, die aus einer gesamten Array-Population bestimmt wurde, benutzt wird, um diskrete Vorkommnisse dieser Größe für die kleine Zahl der Replikatproben innerhalb dieser Population abzuschätzen.
Verfahren nach einem der Ansprüche 5–10; wobei die Abschätzungen des Messfehlers benutzt werden, um Array-Hybridisierungsstudien basierend auf (a) der Wahrscheinlichkeit des Erfassens einer echten Differenz eines vorgegebenen Betrags zwischen physikalischen Messungen einer gegebenen Anzahl Replikate oder (b) der Anzahl der für die Erfassung einer echten Differenz eines vorgegebenen Betrags erforderlichen Replikate zu planen, zu handhaben und zu steuern.
Verfahren nach einem der Ansprüche 1–10, angewandt, um physikalische Messungen auszuwerten, die aus in Substraten oder in Vertiefungen enthaltenden Substraten oder in Reagenzgläsern durchgeführten biologischen und chemischen Untersuchungen erhalten wurden.
Verfahren nach Anspruch 11, angewandt, um physikalische Messungen auszuwerten, die aus in Substraten oder in Substraten enthaltenden Vertiefungen oder in Reagenzgläsern durchgeführten biologischen und chemischen Untersuchungen erhalten wurden.
Verfahren nach Anspruch 12, angewandt, um physikalische Messungen auszuwerten, die aus in Substraten oder in Substraten enthaltenden Vertiefungen oder in Reagenzgläsern durchgeführten biologischen und chemischen Untersuchungen erhalten wurden.
Verfahren nach Anspruch 13, angewandt, um physikalische Messungen auszuwerten, die aus in Substraten oder in Substraten enthaltenden Vertiefungen oder in Reagenzgläsern durchgeführten biologischen und chemischen Untersuchungen erhalten wurden.