DE602005000834T2

DE602005000834T2 - Verfahren zur Feststellung von falschen Signalen in einem DNA-Chip sowie System zur Verwendung derselben

Info

Publication number: DE602005000834T2
Application number: DE602005000834T
Authority: DE
Inventors: Ji-Young Oh
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-02-21
Filing date: 2005-02-18
Publication date: 2007-08-16
Anticipated expiration: 2025-02-19
Also published as: JP4113189B2; US20050186670A1; DE602005000834D1; EP1569155B1; KR100590542B1; EP1569155A1; JP2005249782A; KR20050083245A

Description

HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Die vorliegende Erfindung betrifft ein Verfahren zum Nachweis von Fehler-Signalen (error spots) und ein System unter Verwendung des Verfahrens und genauer gesagt ein Verfahren zum Nachweis eines fehlerhaften Signals durch Quantifizieren von DNA-Chips sowie ein System, welches dieses Verfahren einsetzt.
2. Beschreibung von verwandtem Stand der Technik
DNA-Chips wurden hergestellt unter Verwendung von molekularbiologischen Technologien und neu entwickelten mechanischen und elektronischen Ingenieur-Technologien. DNA-Chips sind Chips, in welchen mehrere Hundert bis hin zu mehrere Hunderttausend an DNAs auf einem sehr kleinen Raum unter Verwendung einer mechanischen Automation und elektronischen Steuertechnologien integriert werden. Das heißt, DNA-Chips sind Chips, an welche viele Typen von DNAs mit hoher Dichte zum Nachweis von Genen angebunden werden. DNA-Chips können die konventionellen genetischen Ingenieurs-Technologien, wie z.B. Southern Blotting und Northern Blotting, Mutantennachweis und DNA-Sequenzierung ersetzen.
DNA-Chips werden in vier Gruppen klassifiziert, abhängend von Herstell-Verfahren; Pin-Microarray-Chips, hergestellt durch Micro Dotting (Oberflächenkontakt) unter Verwendung eines Pins, Inkjet-Chips, hergestellt durch Mikroabscheidng unter Verwendung einer Tintenstrahltechnologie, fotolitographische Chips sowie Elektronik-Array-Chips.
1 ist ein Flussdiagramm, welches ein konventionelles Verfahren zum Analysieren von Genen illustriert unter Verwendung eines DNA-Chips.
Unter Bezugnahme auf 1 wird eine Probenpräparation durchgeführt zum Nehmen einer Probe, d.h. eines Gens, welches analysiert werden soll (Operation (S100)). In der Proben-Präparation werden reine Gene, welche analysiert werden sollen, aus einer biologischen Probe extrahiert, beispielsweise aus Blut.
Als nächstes werden Gene extrahiert über Probenpräparation auf eine analysierbare Ebene amplifiziert (Operation (S110)). Die Amplifikations-Operation wird im Allgemeinen durchgeführt durch eine Polymerasekettenreaktion (PCR).
Als nächstes werden die amplifizierten Gene, welche Target-Proben sind, in dem DNA-Chip hybridisiert (Operation (S120)). In der Hybridisierungs-Operation wird die Target-Probe, welche getestet werden soll, mit Oligo-Sonden zur Reaktion gebracht, welche Information an Genen aufweisen, und auf dem Chip immobilisiert. Folglich wird die Target-Probe mit einer Oligo-Sonden hybridisiert, welche eine komplementäre Sequenz aufweist.
Als nächstes wird eine nicht hybridisierte Target-Probe, welche auf dem Chip verbleibt, abgewaschen (Operation (S130)). Als nächstes wird das Bild des Chips durch einen Scanner eingescannt, um den Grad der Hybridisierung der Target-Probe mit der Oligo-Sonde nachzuweisen (Operation S140)). Als nächstes wird das gescannte Bild für eine statistische Analyse quantifiziert (Operation (S150)).
Nach Quantifizieren des Bildes des DNA-Chips wird eine statistische Analyse durchgeführt unter Verwendung verschiedener Algorithmen und der quantifizierte Wert eines jeden Signals (spots) auf dem Chip wird analysiert, um zu unterscheiden, ob die Target-Probe von einer kranken Person oder einer normalen Person stammt (Operation (S160)).
Wie in 1 illustriert ist, umfasst das konventionelle Verfahren zum Analysieren von Genen eine Serie von sieben zusammenhängenden Operationen. Während den Experimenten zwischen der ersten Operation und der fünften Operation (Operation (S100 bis S140)) werden verschiedene Fehlerfaktoren und folglich verschiedene Typen an Fehler-Signalen (spots) erzeugt. Falls die Quantifikations-Operation durchgeführt wird, basierend auf falscher Information aufgrund der Fehler und die statistische Analyse durchgeführt wird unter Verwendung dieser quantifizierten falschen Daten, können die falschen Signal-Daten die Verlässlichkeit der Analyse reduzieren und die Möglichkeit, eine kranke Person zu identifizieren, limitieren.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung stellt ein Verfahren zur Verfügung des Nachweisens eines fehlerhaften Signals, welches die Verlässlichkeit in einer statistischen Analyse erhöht durch Nachweis des fehlerhaften Signals in einem DNA-Chip und Ausschluss des nachgewiesenen fehlerhaften Signals in der statistischen Analyse sowie ein System unter Verwendung dieses Verfahrens.
Die vorliegende Erfindung stellt auch ein computerlesbares Aufzeichnungs-Medium zur Verfügung, welches darin aufgezeichnet ein Computerprogramm aufweist zum Durchführen eines Verfahrens zum Nachweis eines fehlerhaften Signals in einem Computer, wobei das Verfahren die Verlässlichkeit einer statistischen Analyse erhöht durch Nachweis des fehlerhaften Signals in einem DNA-Chip und Ausschließen des nachgewiesenen fehlerhaften Signals in der statistischen Analyse.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren bereitgestellt zum Nachweis eines fehlerhaften Signals, umfassend die Operationen von: Analysieren eines Unterschiedes in den Varianzen für eine Hintergrund-Intensität und einer Vordergrund-Intensität für jedes Signal in einem DNA-Chip; Verifizieren, falls ein Mittelwert des Hintergrund-Signals und ein Mittelwert des Vordergrund-Signals signifikant voneinander unterschiedlich sind, basierend auf Unterschieden in den Varianzen; und Bewerten eines fehlerhaften Signals basierend auf den Ergebnissen der verifizierenden Operation.
Gemäß eines weiteren Aspekts der vorliegenden Erfindung wird ein System bereitgestellt zum Nachweis eines fehlerhaften Signals, umfassend: einen Varianz-Analyse-Teil zum Analysieren eines Unterschiedes in den Varianzen für die Hintergrund-Intensität und die Vordergrund-Intensität für jedes Signal in einem DNA-Chip; einen Mittelwert verifizierenden Teil zum Verifizieren, ob ein Mittelwert der Hintergrund-Intensität und ein Mittelwert der Vordergrund-Intensität signifikant unterschiedlich voneinander sind, basierend auf den Unterschieden in den Varianzen; und einen bewertenden Teil, welcher ein fehlerhaftes Signal bewertet zum Bewerten eines fehlerhaften Signals, basierend auf den Ergebnissen der verifizierenden Operation.
Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird ein computerlesbares Aufzeichnungsmedium bereitgestellt, auf welchem ein Computerprogramm gespei chert ist, zum Durchführen eines Verfahrens zum Nachweis eines fehlerhaften Signals in einem Computer, wobei das Verfahren die folgenden Operationen umfasst: Analysieren eines Unterschiedes in den Varianzen für eine Hintergrund-Intensität und eine Vordergrund-Intensität für jedes Signal in einem DNA-Chip; Verifizieren, ob ein Mittelwert der Hintergrund-Intensität und ein Mittelwert der Vordergrund-Intensität signifikant voneinander unterschiedlich sind, basierend auf dem Unterschied in den Varianzen; und Auswerten eines fehlerhaften Signals, basierend auf den Ergebnissen der verifizierenden Operation.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die dargelegten und weitere Merkmale und Vorteile der vorliegenden Erfindung werden mehr offensichtlich werden durch detaillierte Beschreibung von exemplarischen Ausführungsformen davon unter Verweis auf die beigefügten Abbildungen, in welchen:
1 ein Flussdiagramm ist, welches ein konventionelles Verfahren illustriert zum Analysieren von Genen unter Verwendung eines DNA-Chips;
2 ein Flussdiagramm ist, welches eine bildverarbeitende Prozedur für einen DNA-Chip illustriert;
3 ein Diagramm ist, welches das Bildscannen eines DNA-Chips illustriert;
4 ein Diagramm ist, welches Fehler illustriert, erzeugt während der Analyse eines DNA-Chips und Typen an Scan-Fehlern, korrespondierend mit den Fehlern erzeugt während der Analyse des DNA-Chips;
5 ein Diagramm ist, welches die Ergebnisse illustriert, erzeugt aus den Typen an Scan-Fehlern in 4;
6A eine grafische Darstellung ist, welche die Beziehung illustriert zwischen einer Signalgröße und einer Signalintensität;
6B ein Graph ist, der das Verhältnis zwischen einer Signalintensität und einer Standardabweichung illustriert;
7A und 7B Diagramme sind, welche die Eingabendaten illustrieren, verwendet in einem Verfahren zum Nachweis eines fehlerhaften Signals gemäß einer Ausführungsform der vorliegenden Erfindung;
8 ein Flussdiagramm ist, welches ein Verfahren illustriert zum Nachweis eines fehlerhaften Signals gemäß einer Ausführungsform der vorliegenden Erfindung;
9 ein Blockdiagramm ist, welches ein System illustriert zum Nachweis eines fehlerhaften Signals gemäß einer weiteren Ausführungsform der vorliegenden Erfindung;
10 und 11 Diagramme sind, illustrierend das Verhältnis und den Typ an Fehler-Punkten, nachgewiesen in jedem DNA-Chip; und
12 ein Diagramm ist, illustrierend eine Veränderung von Robust M, verursacht durch Ausschluss von fehlerhaften Signalen.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
2 ist ein Flussdiagramm, illustrierend eine bildverarbeitende Prozedur eines DNA-Chips und 3 ist ein Diagramm, illustrierend ein Bild-Scannen eines DNA-Chips.
Im Allgemeinen schließt die bildverarbeitende Prozedur eines DNA-Chips eine Scan-Operation und eine Quantifizierungs-Operation ein. Die Scan-Operation und die Quantifizierungs-Operation sind eng miteinander verwandt. Werte, erhalten aus der Quantifizierungs-Operation verändern sich, abhängend von einem Scan-Verfahren.
Unter Verweis auf 2 und 3 wird das Adressieren einer Stelle und einer Form in jedem Signal in dem DNA-Chips durchgeführt, sowie das Abtasten einer Region, welche gelesen werden soll (Operation (S200)).
Als nächstes wird eine Segmentation durchgeführt (Operation (210)), in welcher Pixel, welche zu einer Hintergrund-Region gehören (310), sowie Pixel, welche zu einer Vorder grund-Region gehören (320) in den adressierten Signalen segmentiert werden. Verschiedene Verfahren wurden vorgeschlagen, um den Vordergrund (320) und den Hintergrund (310) zu segmentieren. Repräsentative Verfahren schließen die fixierte Kreis-Annahme und die adaptierte Kreis-Annahme ein.
Das fixierte Kreis-Annahme-Verfahren segmentiert einen Hintergrund und einen Vordergrund durch Auftragen identischer Kreise für jedes Signal unter der Annahme, dass alle Punktsignale die gleiche Größe und Form aufweisen. Die adaptierte Kreis-Annahme trägt eine Form eines Signals durch Verknüpfen von Pixeln auf mit einer Intensität, welche merklich von benachbarten Pixeln unterschiedlich ist, durch Berücksichtigung, dass ein jedes Signal eine unterschiedliche Form und eine unterschiedliche Größe aufweisen kann.
Nach Segmentieren des Hintergrundes und des Vordergrundes (Operation (S210)), wird ein Mittelwert der Intensität für jedes Pixel in dem Hintergrund bzw. dem Vordergrund ausgelesen und die Mittelwerte werden summiert und dann durch die Anzahl von Pixeln dividiert, um einen Mittelwert der Intensität für den Hintergrund bzw. den Vordergrund zu erhalten. Darüber hinaus wird eine Standardabweichung für den Hintergrund bzw. den Vordergrund erhalten, basierend auf den Mittelwerten der Intensität für ein jedes Pixel.
Auch werden verschiedene Verfahren des Quantifizierens einer Intensität durch Scannen des Signals offenbart. Repräsentative quantifizierende Verfahren schließen ein Verfahren unter Verwendung einer Standardabweichung eines Hintergrundes, ein Verfahren unter Verwendung einer gerasterten Fläche und ein Verfahren unter Verwendung eines Zentrums-Punktes ein.
Das Verfahren unter Verwendung einer Standardabweichung eines Hintergrundes wird durchgeführt, basierend auf der Prozentzahl an Pixeln in einem Vordergrund, einer mittleren Intensität für jedes Pixel, welche größer ist als eine mittlere Intensität für einen Hintergrund, und zu der ein oder zweimal dessen Standard-Abweichung zugezählt wird. Dieses Verfahren ist sensitiv für die Standard-Abweichung der Intensität. Jedoch ist es schwierig, einen kritischen Wert des Prozentsatzes zu bestimmen, und einen Fehler beim Abgleich sowie eine Signal-Form zu diskriminieren.
Das Verfahren unter Verwendung von Signal-Intensitäts-Flächen diskriminiert ein fehlerhaftes Signal durch Vergleich der Fläche eines Vordergrundes mit der Fläche der abgerasterten Region in dem Signal.
Signalform QC-Trefferzahl = (Signalfläche = pR²/2pR)/(Signalumgebung = R/2)
Falls die QC-Trefferzahl ≤ R/2, wird das Signal als ein fehlerhaftes Signal betrachtet
Das heißt, als ein Ergebnis des oben dargestellten Vergleichs von Flächen wird, falls die Fläche des Vordergrundes weniger als R/2 ist, das Signal als ein fehlerhaftes Signal betrachtet. Jedoch kann dieses Verfahren nicht Fehler unterscheiden, wie z.B. Intensitätsfehler, Signal-Verbreiterung, Uneinheitlichkeit eines Hintergrundes und dergleichen.
Das Verfahren unter Verwendung des Zentrums-Punktes eines Signals umfasst den Vergleich der Unterschiede zwischen dem Zentrums-Punkt eines Signals, welches in einem immobilisierten Zustand abgetastet wurde und dem Zentrums-Punkt eines Signals, welches in einem flexiblen Zustand abgetastet wurde, und das Klassifizieren von Signalen mit einem merklichen Unterschied als fehlerhafte Signale. Jedoch kann dieses Verfahren nicht die Fehler unterscheiden, wie z.B. Intensitäts-Fehler, Signal-Verbreiterung und dergleichen.
4 ist ein Diagramm, welches Fehler illustriert, erzeugt während der Analyse eines DNA-Chips und die Typen an Scan-Fehlern, korrespodierend zu den Fehlern, erzeugt während des Analysierens des DNA-Chips.
Bezieht man sich auf 4, so schließen die Fehler (400), erzeugt während der Analyse eines DNA-Chips folgendes ein: (1) geringe DNA-Menge in dem Signal, (2) Reinheit an DNA, (3) Anbindung an Glas, (4) unpassende Hybridisierung, (5) suboptimales Labeln, (6) sekundäre Target-Strukturen, (7) Array-Oberflächen, (8) dreckige Pins, (9) das Flüssigkeitsvolumen von Abscheidungen, (10) zerkratzte Oberflächen, (11) ungleichmäßiges Coaten, (12) Ausbluten und dergleichen.
Die Typen der korrespondierenden Intensitäts-Fehler, erzeugt aus den Fehlern (400) schließen ein (1) Signalintensität, (2) Signalgröße, (3) Signalmorphologie, (4) Abgleichfehler, (5) Ausbluten, (6) Hintergrundintensität, (7) Hintergrundrauschen und dergleichen.
5 ist ein Diagramm, welches die Ergebnisse illustriert, resultierend aus den Typen an Scan-Fehlern wie in 4 illustriert.
Bezieht man sich auf 5, so rührt die Intensitätsvariation aus den Fehlern der Intensitätsgröße, Intensitätsmorphologie, aus Abgleichfehlern, Ausbluten und Hintergrundrauschen her. Geringe Intensität resultiert aus den Fehlern der Signalgröße, der Signalmorphologie, aus Abgleichfehlern und Ausbluten. Darüber hinaus resultiert gesättigte Intensität aus den Fehlern der Signalgröße, der Signalmorphologie und Ausbluten.
Folglich werden als ein Ergebnis des Analysierens der Beziehung zwischen den Fehlertypen in dem DNA-Chips und den Ergebnissen davon, die Fehlertypen als Signale klassifiziert, welche (1) geringe Intensität zeigen, (2) Intensitätsvariation im Vordergrund und im Hintergrund zeigen oder (3) gesättigte Intensität zeigen.
6A ist ein Graph, welcher die Beziehung zwischen einer Signalgröße und einer Signalintensität zeigt, und 6B ist ein Graph, welcher die Beziehung zwischen einer Intensität eines Signals und dessen Standardabweichung zeigt.
Bezieht man sich auf 6B, ist das statistische Ergebnis, dass, wenn die Abweichung der Intensität höher ist, die Wahrscheinlichkeit, dass die Intensität gering ist, höher ist.
7A und 7B sind Diagramme, welche Beispiele zeigen von Eingabe-Daten, verwendet in einem Verfahren des Nachweises eines fehlerhaften Lichtsignals gemäß einer Ausführungsform der vorliegenden Erfindung.
Bezieht man sich auf 7A und 7B werden die Signale (700) in den Vordergrund (720) und in den Hintergrund (710) segmentiert. Anschließend wird ein im Vordergrund-Mittelwert (770) erhalten durch Dividieren eines Mittelwerts der Intensität eines jeden Pixels, umfassend den Vordergrund (720) durch die Vordergrundpixelanzahl (780). Außerdem wird eine Vordergrund-Standardabweichung (775) aus dem Vordergrund-Mittelwert (770) erhalten. Auch ein Hintergrund-Mittelwert (775) wird erhalten durch Dividieren eines Mittelwertes der Intensität eines jeden Pixels, umfassend den Hintergrund (710) durch die Anzahl der Pixel des Hintergrundes (765). Und eine Hintergrund-Standardabweichung (760) wird aus dem Hintergrund-Mittelwert (775) erhalten.
Folglich bestehen die Eingabedaten (750), verwendet in einem Verfahren zum Nachweis eines fehlerhaften Signals gemäß einer Ausführungsform der vorliegenden Erfindung aus dem Mittelwert (770) und der Standardabweichung (775) für die Vordergrund-Intensität und die Vordergrund-Pixel-Anzahl (780) sowie dem Mittelwert (755) und der Standardabweichung (760) für die Hintergrund-Intensität und die Hintergrund-Pixel-Anzahl (765).
Es gibt viele Programme zum Quantifizieren der Signalintensität des DNA-Chips, wobei jedes Programm einen Mittelwert, eine Standardabweichung und die Pixelzahl für den Hintergrund bzw. den Vordergrund als ein Ergebnis der Quantifizierung zeigt. Folglich können, falls die Quantifizierung unter Verwendung eines konventionellen Programmes möglich ist, Variablen, notwendig zum Durchführen einer Ausführungsform der vorliegenden Erfindung aus der Daten-Ausgabe als ein Ergebnis der Quantifizierung extrahiert werden. Im Allgemeinen gibt das Quantifizierungs-Programm Dateien mit einer GPR-Datei-Extension aus.
8 ist ein Flussdiagramm, welches ein Verfahren zum Nachweis eines fehlerhaften Signals gemäß einer Ausführungsform der vorliegenden Erfindung illustriert.
Bezieht man sich auf 8, so erzeugt das Quantifizierungs-Programm eine Ausgabedatei, einschließend einen entsprechenden Mittelwert, eine Standardabweichung sowie die Pixelzahl für die Vordergrund-Intensität und die Hintergrund-Intensität des Signals. Ein konventionelles Quantifizierungs-Programm kann in dieser Ausführungsform der vorliegenden Erfindung verwendet werden.
Das Ausgabe-File wird einem Durchforsten unterzogen, um die Eingabedaten, bestehend aus dem entsprechenden Mittelwert der Standardabweichung sowie der Pixelzahl für die Vordergrund-Intensität und die Hintergrund-Intensität des Signals zu extrahieren, welche notwendig sind für die vorliegende Erfindung aus der Ausgabe-Datei.
Anschließend wird der Unterschied in den Varianzen analysiert unter Verwendung der Standardabweichung für jede Vordergrund-Intensität bzw. jede Hintergrund-Intensität (Operation (S805)). Der f-Test wird verwendet zum Analysieren des Unterschiedes in den Varianzen. Der f-Test wird verwendet, um zu verifizieren, ob Varianzen von zwei Gruppen signifikant voneinander unterschiedlich sind.
Nach Vervollständigung der Analyse (Operation (S805)) wird eine Verifizierungs-Operation durchgeführt, um zu etablieren, ob der Mittelwert der Hintergrund-Intensität und der Mittelwert der Vordergrund-Intensität signifikant voneinander unterschiedlich sind, basierend auf dem Unterschied in den Varianzen (Operationen (S810–S815)). Falls die Ergebnisse der Unterschiede in den Varianzen, erhalten durch den f-Test, signifikant sind, wird ein gepoolter t-Test durchgeführt zum Verifizieren der Mittelwerte. Im Gegensatz dazu wird, falls die Ergebnisse des Unterschiedes in den Varianzen, erhalten aus dem f-Test, nicht signifikant sind, ein nicht-gepoolter t-Test durchgeführt zum Verifizieren der Mittelwerte. Beispielsweise wird der resultierende Wert von zumindest 0,05 in dem f-Test als signifikant ausgewertet und der resultierende Wert von nicht mehr als 0,05 in dem f-Test wird als nicht signifikant ausgewertet. Der Wert von 0,05, welcher als ein Kriterium zum Etablieren der Signifikanz verwendet wird, kann in gewisser Weise verändert werden, abhängend von den Ergebnissen der statistischen Resultate.
Der t-Test wird eingesetzt, um zu verifizieren, ob Mittelwerte von zwei Gruppen signifikant unterschiedlich sind oder nicht.
In Gleichung 1 repräsentiert t einen Unterschied zwischen den Mittelwerten (μ_γ1, μ_γ2) der beiden Gruppen in einem gepoolten t-Test, welcher verwendet wird, wenn die beiden Gruppen einen ähnlichen Typ der Abweichung aufweisen.
Gleichung 2
Gleichung 3
In Gleichung 2 repräsentiert t einen signifikanten Unterschied zwischen dem Mittelwert der beiden Gruppen in einem nicht gepoolten t-Test und in Gleichung 3 repräsentiert df den Freiheitsgrad. Falls eine Varianz zwischen den beiden Gruppen hoch ist, ist der Freiheitsgrad erhöht und dann wird der Unterschied zwischen den Mittelwerten analysiert. Folglich ist ein signifikanter Unterschied zwischen den Mittelwerten durch die Differenz in den Varianzen beeinflusst.
Nach Durchführen des gepoolten t-Tests oder des nicht gepoolten t-Tests, abhängend vom Unterschied in den Varianzen wird ein p-Wert berechnet, basierend auf dem Ergebnis des gepoolten oder nicht gepoolten t-Tests (Operation (S825)). Falls der p-Wert bei einem signifikanten Niveau liegt, wird ein gemessenes Signal als ein fehlerhaftes Signal beurteilt (Operation (S835)). Beispielsweise wird, falls der p-Wert zumindest 0,05 ist, der p-Wert als auf einem signifikant unterschiedlichen Niveau beurteilt und das nachgewiesene Signal wird als fehlerhaftes Signal klassifiziert. Der Wert von 0,05, welcher als ein Kriterium für die Beurteilung des signifikanten Niveaus eingesetzt wird, kann in gewisser Weise verändert werden, abhängend von den Ergebnissen der statistischen experimentellen Resultate.
9 ist ein Blockdiagramm, illustrierend ein System zum Nachweis eines fehlerhaften Signals gemäß einer Ausführungsform der vorliegenden Erfindung.
Bezieht man sich auf 9, so besteht das System zum Nachweis eines fehlerhaften Signals aus einem Daten-Eingabeteil (900), einen Varianz-Analyse-Teil (910), einem Mittelwert verifizierenden Teil (920) und einem das fehlerhafte Signal beurteilenden Teil (930). Der den Mittelwert verifizierende Teil (920) besteht aus einem gepoolten t-Test-Teil (922) und einem nicht gepoolten t-Test Teil (924), welche korrespondierend mit dem Unterschied in den Varianzen arbeiten.
Der Dateneingabe-Teil (900) empfängt eine Datei, einschließend die Ergebnisse der Quantifizierungs-Operation. Darüber hinaus extrahiert der Dateneingabe-Teil (900) Eingabedaten, welche notwendig sind, um ein fehlerhaftes Signal aus der Datei nachzuweisen. In einer Ausführungsform der vorliegenden Erfindung werden, da das Analysieren von Varianzen und das Verifizieren von Mittelwerten durchgeführt wird, um das fehlerhafte Signal nachzuweisen, der entsprechende Mittelwert, die Standardabweichung und die Pixelzahl für die Hintergrund-Intensität wie auch die Vordergrund-Intensität extrahiert, um die Eingabe Daten aus der Datei zu erhalten.
In dem Varianz-Analyseteil (910) wird die Analyse des Unterschiedes in den Varianzen für die Hintergrund-Intensität und die Vordergrund-Intensität durchgeführt, basierend auf einer Standardabweichung der Eingabedaten, extrahiert in dem Dateneingabe-Teil (900). Die Analyse der Varianz wird durchgeführt unter Verwendung des f-Tests.
In dem den Mittelwert verifizierenden Teil (920) wird das Verifizieren durchgeführt, ob der Mittelwert der Hintergrund-Intensität und der Mittelwert der Vordergrund-Intensität signifikant voneinander unterschiedlich sind, basierend auf dem Unterschied in den Varianzen in dem Varianz-Analyse-Teil (910). Die Verifikation wird durchgeführt unter Verwendung des t-Tests. Der Varianz-Analyse-Teil (920) kann den gepoolten t-Test in einem gepoolten t-Test-Teil (922) durchführen, oder den nicht gepoolten t-Test in einem nicht gepoolten t-Test-Teil (924), abhängend vom Unterschied in den Varianzen.
Beispielsweise wird, falls der resultierende Wert in dem f-Test zumindest 0,05 beträgt, der Unterschied in den Varianzen als eine Signifikanz aufweisend beurteilt, und der nicht gepoolte t-Test wird durchgeführt. Falls der resultierende Wert in dem f-Test nicht mehr als 0,05 beträgt, wird der gepoolte t-Test durchgeführt.
In dem das fehlerhafte Signal beurteilenden Teil (930) wird der p-Wert berechnet, basierend auf den Ergebnissen in dem den Mittelwert verifizierenden Abschnitt (920) und eine Beurteilung für ein fehlerhaftes Signal wird durchgeführt, basierend auf dem p-Wert. Bei spielsweise, falls der p-Wert zumindest 0,05 ist, wird das nachgewiesene Signal als ein fehlerhaftes Signal klassifiziert.
10 und 11 sind Diagramme, welche das Verhältnis und den Typ der fehlerhaften Signale, nachgewiesen in jedem DNA-Chip illustrieren.
Bezieht man sich auf 10, so werden 0,7 bis 8,23% der Signale als fehlerhafte Signale nachgewiesen. Als ein Ergebnis des Analysierens der Daten, nachgewiesen als fehlerhafte Signale, können, während in den meisten fehlerhaften Signalen die Standardabweichung der Vordergrund-Intensität (fsd, foreground intensity) und die Standardabweichung der Hintergrund-Intensität (bsd, background intensity) hoch sind und die Vordergrund-Intensität (fmd, foreground intensity) und die Hintergrund-Intensität (bmd, background intensity) niedrig sind, einige Signale mit einer hohen Standardabweichung der Intensität nachgewiesen werden als fehlerhafte Signale, sogar obwohl ihre Intensitäten größer als 10000 sind.
12 ist ein Diagramm, welches eine Veränderung von Robust M, verursacht durch Ausschluss der fehlerhaften Signale, illustriert.
Bezieht man sich auf 12, so ist mit Blick auf die Veränderung von Robust M, die Differenz nicht größer als ungefähr 2,5. Dies ist eine große Differenz, berücksichtigt man, dass, falls die Differenz zumindest 1 in der Analyse ist, die Kernel-Diskriminierung der Differenz sich großartig verändert. Folglich kann die Verlässlichkeit der Ergebnisse erhöht werden.
Die Erfindung kann auch durchgeführt werden in Form von computerlesbaren Codes auf einem computerlesbaren Aufzeichnungsmedium. Das computerlesbare Aufzeichnungsmedium ist irgendein Datenträger, der Daten speichern kann, welche danach durch ein Computersystem gelesen werden kann. Beispiel von computerlesbaren Aufzeichnungsmedium schließen Read-Only Memory (ROM), Random-Access Memory (RAM), CD-ROMS, Magnetbänder, Disketten, optischen Datenträger und Trägerwellen (beispielsweise Datenübertragung durch das Internet ein. Das computerlesbare Aufzeichnungsmedium kann auch über ein Netzwerk verteilt werden, gekoppelt an Computersysteme, so dass der computerlesbare Code gespeichert und durchgeführt werden kann in einer vernetzten Art und Weise.
Gemäß einer Ausführungsform der vorliegenden Erfindung werden Signale mit hoher Differenz in der Varianz für die Vordergrund-Intensität und die Hintergrund-Intensität als fehlerhafte Signale nachgewiesen (beispielsweise Signale mit geringer Intensität resultierend von kleiner Signal-Größe oder inkorrektem Abgleich oder Signale mit teilweise gesättigter Intensität) und ausgeschlossen und folglich können in der nachfolgenden statistischen Analyse Fehler beim Diskriminieren einer Probe von einer normalen Person und einer Probe von einem Patienten vermindert werden. Mit anderen Worten kann die Verlässlichkeit in der statistischen Analyse erhöht werden.

Claims

Ein Verfahren zum Nachweis eines fehlerhaften Signals umfassend die Operationen von: Analysieren eines Unterschieds in den Varianzen für eine Hintergrund-Intensität und eine Vordergrund-Intensität für jedes Signal in einem DNA-Chip; Verifizieren, ob ein Mittelwert der Hintergrund-Intensität und ein Mittelwert der Vordergrund-Intensität signifikant voneinander unterschiedlich sind, basierend auf dem Unterschied in den Varianzen; und Beurteilen eines fehlerhaften Signals basierend auf den Ergebnissen der verifizierenden Operation.
Das Verfahren gemäß Anspruch 1, wobei die Operation des Analysierens des Unterschiedes in den Varianzen das Durchführen eines f-Tests basierend auf jeder Standardabweichung der Hintergrund-Intensität und der Vordergrund-Intensität umfasst.
Das Verfahren gemäß Anspruch 1, wobei die Operation des Verifizierens der Mittelwerte das Durchführen eines gepoolten t-Tests oder eines nicht-gepoolten t-Tests umfasst, basierend auf dem Unterschied in den Varianzen.
Das Verfahren gemäß Anspruch 1 oder 3, wobei die Operation des Verifizierens der Mittelwerte das Erhöhen der Freiheitsgrade umfasst, falls der Unterschied in den Varianzen hoch ist.
Das Verfahren gemäß Anspruch 1, wobei die Operation des Beurteilens eines fehlerhaften Signals auf einem p-Wert basiert, berechnet aus den Ergebnissen der Operation des Verifizierens des signifikanten Unterschiedes der Mittelwerte.
Das Verfahren gemäß Anspruch 5, wobei in der Operation des Beurteilens des fehlerhaften Signals ein Signal als das fehlerhafte Signal bewertet wird, falls der p-Wert zumindest 0,05 ist.
Das Verfahren gemäß Anspruch 1, desweiteren umfassend die Operation des Empfangens von Resultaten-Dateien, erzeugt aus einem Quantifizierungs-Prozess und das Analysieren der resultierenden Dateien, um Eingabedaten zu extrahieren, welche notwendig sind, in den Operationen des Analysierens des Unterschiedes in den Varianzen sowie beim Verifizieren der Mittelwerte.
Das Verfahren gemäß Anspruch 7, wobei die Eingabedaten einen ersten Mittelwert und eine erste Standardabweichung der Hintergrund-Intensität einschließen, die Anzahl der Pixel in dem Hintergrund, einen zweiten Mittelwert und eine zweite Standardabweichung der Vordergrund-Intensität sowie die Anzahl der Pixel in dem Vordergrund.
Ein System zum Nachweis eines fehlerhaften Signals umfassend: einen Varianz-Analyse-Teil zum Analysieren eines Unterschiedes in den Varianzen für eine Hintergrund-Intensität und eine Vordergrund-Intensität für jedes Signal in einem DNA-Chip; einen Mittelwert verifizierenden Teil zum Verifizieren, ob ein Mittelwert der Hintergrund-Intensität und ein Mittelwert der Vordergrund-Intensität signifikant voneinander unterschiedlich sind, basierend auf dem Unterschied in den Varianzen; und einen das fehlerhafte Signal beurteilenden Teil zum Auswerten eines fehlerhaften Signals basierend auf den Ergebnissen der verifizierenden Operation.
Das System gemäß Anspruch 9, desweiteren umfassend einen Daten-Eingabe-Teil zum Entgegennehmen von resultierenden Dateien, erzeugt aus einem Quantifizierungs-Prozess und Analysieren der resultierenden Dateien, um Eingabedaten zu extrahieren, welche notwendig sind, in den Operationen des Analysierens des Unterschiedes in den Varianzen und des Verifizierens der Mittelwerte.
Das System gemäß Anspruch 10, wobei die Eingabedaten einen ersten Mittelwert und eine erste Standardabweichung der Hintergrund-Intensität einschließen, die Anzahl der Pixel in dem Hintergrund, einen zweiten Mittelwert und eine zweite Standardabweichung der Vordergrund-Intensität und die Anzahl der Pixel in dem Vordergrund.
Das System gemäß Anspruch 9, wobei der Varianz-Analyse-Teil den Unterschied in den Varianzen analysiert durch Durchführen eines f-Tests, basierend auf jeder Standardabweichung der Hintergrund-Intensität und der Vordergrund-Intensität.
Das System gemäß Anspruch 9, wobei der Mittelwert verifizierende Teil den signifikanten Unterschied der Mittelwerte verifiziert durch Durchführen eines gepoolten t-Tests oder eines nicht gepoolten t-Tests, basierend auf den Unterschieden in Varianzen.
Das System gemäß Anspruch 9, wobei der das fehlerhafte Signal beurteilende Teil das fehlerhafte Signal beurteilt, basierend auf einem p-Wert, berechnet aus den Ergebnissen in dem Mittelwert verifizierenden Teil.
Ein computerlesbares Aufzeichnungsmedium, welches darauf aufgezeichnet ein Computerprogramm aufweist zum Durchführen eines Verfahrens des Nachweisens eines fehlerhaften Signals in einem Computer, wobei das Verfahren die folgenden Operationen umfasst: Analysieren eines Unterschieds in den Varianzen für eine Hintergrund-Intensität und eine Vordergrund-Intensität für jedes Signal in einem DNA-Chip; Verifizieren, ob ein Mittelwert der Hintergrund-Intensität und ein Mittelwert der Vordergrund-Intensität signifikant voneinander unterschiedlich sind, basierend auf dem Unterschied in den Varianzen; und Beurteilen eines fehlerhaften Signals, basierend auf den Ergebnissen der verifizierenden Operation.