DE60024029T2

DE60024029T2 - Verfahren und Vorrichtung zur Darstellung von Gen-Expressionsmustern

Info

Publication number: DE60024029T2
Application number: DE60024029T
Authority: DE
Inventors: Yasuyuki Naka-ku Nozaki; Ryo Naka-ku Nakashige; Tsunehiko Naka-ku Watanabe; Takuro Naka-ku Tamura
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 1999-09-30
Filing date: 2000-09-28
Publication date: 2006-08-03
Anticipated expiration: 2020-09-29
Also published as: EP1089211B1; DE60024029D1; EP1089211A3; US7031847B1; EP1089211A2

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Darstellen von Genexpressionsmustern, die aus Hybridisierung mit einem spezifischen Gen zu bestimmten Zeitpunkten resultierten, in einem Anzeigeformat (oder einem Ausgabeformat), das die Muster in einer visuell begreifbaren Weise anzeigt, so daß die Funktionen und Rollen der Gene in leichter Weise studiert werden können.
HINTERGRUND DER ERFINDUNG
Mit der Zunahme der Anzahl an Spezies, die im Hinblick auf ihre Genomsequenzen bestimmt worden sind, ist ein sogenannter Genomvergleich in großem Umfang durchgeführt worden. Ein Genomvergleich zielt auf das Finden von etwas ab, das auf einem Genunterschied zwischen Spezies beruht; z.B. auf das Auffinden von Genen, die an der Evolution beteiligt sind, auf das Auffinden einer Sammlung von Genen, die als für alle Spezies gemeinsam angesehen werden, oder, umgekehrt, auf das Studieren der für spezifische Spezies einzigartigen Natur.
Die jüngste Entwicklung von Infrastrukturen, wie etwa DNA-Chips und DNA-Mikroarrays, hat das Interesse auf dem Gebiet der Molekularbiologie von Information zwischen verschiedenen Spezies zur Information innerhalb einer Spezies verschoben, nämlich eine Koexpressions-Analyse, und hat die Untersuchungen ausgeweitet, die von der Extraktion von Information bis zur Korrelation von Information, einschließlich des herkömmlichen Vergleichs zwischen Spezies, reichen.
Zum Beispiel kann, wenn ein unbekanntes Gen ein Expressionsmuster hat, das mit dem eines bekannten Gens identisch ist, angenommen werden, daß das unbekannte Gen eine ähnliche Funktion wie die des bekannten Gens hat. Solche funktionellen Bedeutungen von Genen und Proteinen werden als Funktionseinheiten oder Funktionsgruppen untersucht. Die Wechselwirkungen zwischen den Funktionseinheiten oder Funktionsgruppen werden ebenso analysiert durch Korrelieren mit bekannten enzymatischen Reaktionsdaten oder Stoffwechseldaten, oder, direkter, durch Ausschalten oder Überreagieren eines spezifischen Gens, um die Expres sion des Gens zu eliminieren oder zu beschleunigen, um die direkten und indirekten Einflüsse auf die Genexpressionsmuster der gesamten Sammlung von Genen zu untersuchen.
Ein erfolgreicher Fall auf diesem Gebiet ist die Expressionsanalyse von Hefe durch die Gruppe von P. Brown von der Universität Stanford (Michel B. Eisen et al., Clustering analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. (1998), Dec 8; 95 (25): 14863–8). Sie hybridisierten Gene mit einem Gen, das aus einer Zelle extrahiert wurde, in zeitlicher Abfolge, unter Verwendung eines DNA-Microarray und bezifferten die Expressionsniveaus davon (d.h. sie bezifferten die Helligkeit der hybridisierten Fluoreszenzsignale). Durch Umwandeln der Werte in Farben kann das Expressionsmuster eines jeden Gens auf eine visuell begreifbare Weise angezeigt werden. In diesem Punkt werden Gene, die ein ähnliches Expressionsmuster während ihrer Genzyklen haben (Gene mit ähnlicheren Expressionsniveaus an demselben Punkt), in einem Cluster zusammengefaßt.
24 ist ein Diagramm, das ein Beispiel des Darstellens eines Expressionsstatus 2400 von Genen gemäß dem oben beschriebenen Verfahren zeigt, wobei die horizontale bzw. vertikale Achse die Zeit bzw. Gene anzeigen. In dieser Darstellung können Gene, die zu einem gemeinsamen Cluster gehören, dahingehend betrachtet werden, daß sie gemeinsame funktionelle Eigenschaften haben. In 24 stellt jeder der Blöcke 2401 einen Expressionsstatus eines Gens zu einem Zeitpunkt dar. In der Figur ist der Expressionsstatus schematisch in einem Grauschattierungsformat dargestellt.
25 ist ein Diagramm, das ein Beispiel für eine Darstellung eines Expressionsstatus 2500 von Genen gemäß dem oben beschriebenen Verfahren zeigt, wobei die horizontale und vertikale Achse die verschiedenen Experimente bzw. Gene anzeigt. Ein Dendrogramm, das auf der linken Seite gezeigt wird, wird durch schrittweise Verbindung von den jeweils zwei ähnlichsten Clustern zusammen erstellt. Die Länge eines jeden Zweigs entspricht der Distanz zwischen den beiden verbundenen Clustern. In 25 stellt jeder der Blöcke 2501 einen Expressionsstatus eines Gens zu einem Zeitpunkt dar. In der Figur wird der Expressionsstatus schematisch in einem Grauschattierungsformat dargestellt.
Das oben beschriebene Darstellungsverfahren erlaubt die Annahme, daß Gene, die zu demselben Cluster gehören, möglicherweise gemeinsame funktionelle Eigenschaften teilen.
Mit den Genexpressionsmustern ist es jedoch nicht so einfach, daß man die Beziehung unter allen Genen in einer Zelle aufklären kann, indem man einige Gengruppen mit ähnlichen Expressionsmustern für den gesamten Zellzyklus findet.
Zum Beispiel können verschiedenen Gene ähnliche Expression deswegen aufweisen, weil sie eine ähnliche Funktion zu einem bestimmten Zeitpunkt haben. Jedoch haben sie möglicherweise unterschiedliche Rollen zu einem anderen Zeitpunkt, an dem natürlich die Expressionen ebenfalls unterschiedlich sind. Gemäß dem herkömmlichen Verfahren, bei dem ähnliche Expressionsmuster in Clustern über den gesamten Zellzyklus zusammengefaßt werden, werden diese Gene in verschiedene Cluster klassifiziert. Deshalb ist es schwierig, die oben erwähnten Eigenschaften aufzufinden.
In einer tatsächlichen Analyse von Genexpressionsmustern werden enorme Datenmengen einem Clustering unterzogen, wie in 25 gezeigt. Die Anzahl an Genen ist mehrere tausend bis Zehntausende oder mehr als Hunderttausende maximal. Die Einzelexperimente (Daten), die verwendet werden, können eine beliebige Zahl, z.B. in der Größenordnung von ungefähr zehn bis mehreren zehn oder Hunderten sein. Daher wird das Dendrogramm, das in 25 gezeigt wird, sein kompliziert sein, da es eine große Vielzahl von kleinen Zweigen enthält.
26 zeigt einen solchen komplizierten Fall. Der linke Teil der 26 zeigt die gesamten Ergebnisse der Cluster-Bildung und zielt auf große Mengen an Daten („mass data") von Genexpressionsmustern. Der rechte Teil von 26, umgeben von einer gepunkteten Linie 2601, zeigt die Ergebnisse in einer besonderen Region, die in einem Fenster eingeschlossen ist, das von einem Benutzer bestimmt wird, um tatsächlich einen engeren Teil der gesamten Ergebnisse in größerem Detail zu sehen.
Das so erhaltene Dendrogramm 2602 stellt den genauen Verlauf der Verbindung der ähnlichsten Cluster dar. Es ist jedoch für den Benutzer schwierig, herauszufinden, wie viele Cluster kurz klassifiziert worden sind, indem er auf diese Anzeige schaut, um die Gruppierungen der Gene zu beurteilen und zu erraten.
Die vorliegende Erfindung hat die Aufgabe, solche Probleme, wie sie im Stand der Technik auftreten, zu lösen, indem ein Verfahren und eine Vorrichtung zur wirksamen Darstellung von Genexpressionsmustern bereitgestellt wird, indem verschiedene Gene aufgefunden werden, die ähnliche Expressionen aufweisen, weil sie dieselbe Funktion zu einem Zeitpunkt haben, aber unterschiedliche Rollen zu einem anderen Zeitpunkt haben.
KURZER ABRISS DER ERFINDUNG
Um die oben beschriebenen Aufgaben zu lösen, stellt die vorliegende Erfindung ein Verfahren zum Darstellen von Genexpressionsmustern bereit zum visuellen Anzeigen zeitlich sequentieller Expressionsmuster von mehreren Genen, deren Expression sich je nach Einzelexperiment verändert, wobei eine erste Achse die Gene darstellt, und eine zweite Achse die experimentellen Fälle darstellt, wobei das Verfahren die Schritte umfaßt: Bezeichnen eines Segments entlang der zweiten Achse in den Expressionsmusterdaten der mehreren Gene; und Clustering der Expressionsmusterdaten innerhalb des bezeichneten Segments entlang der zweiten Achse, basierend auf einem vorbestimmten Referenzwert, Wiederholen des Clustering innerhalb desselben Cluster in einer Richtung vorwärts oder rückwärts entlang der zweiten Achse und gleichzeitig Verändern des Referenzwerts und Darstellen der Ergebnisse entsprechend einem vorbestimmten Darstellungsformat.
Der Referenzwert bezieht sich auf einen Wert zum Bestimmen, ob Expressionsmuster verschiedener Gene dieselben oder unterschiedlich sind.
Darüberhinaus stellt die vorliegende Erfindung zwei oder mehrere verschiedene Gene gemäß dem vorherbestimmten Anzeigeformat dar, wobei sie dasselbe Expressionsmuster am Anfang haben, sich aber innerhalb des Segments entlang der zweiten Achse dahingehend verändern, daß sie unterschiedliche Expressionsmuster haben.
Die vorliegende Erfindung stellt ebenso zwei oder mehrere verschiedene Gene gemäß dem vorherbestimmten Anzeigeformat dar, wobei sie am Anfang unterschiedliche Expressionsmuster haben, sich aber innerhalb des Segments entlang der zweiten Achse dahingehend verändern, daß sie dasselbe Expressionsmuster haben.
Die experimentellen Fälle können zeitlich aufeinanderfolgende Experimente sein, Zustände eines Gewebes eines Individuums, Spezies von Individuen, Stellen eines Individuums, oder die Anwesenheit und Abwesenheit eines künstlichen Zustands. Alternativ können die experimentellen Fälle Kombinationen von einigen aus der Gruppe sein, bestehend aus zeitlich auf einanderfolgenden Experimenten, Zuständen eines Gewebes eines Individuums, Spezies von Individuen, Stellen von Individuen und die Anwesenheit und Abwesenheit eines künstlichen Zustands.
Die vorliegende Erfindung ist ebenso eine Vorrichtung zum Analysieren von Genexpressionsmustern, die aus einer Datenbank Expressionsmusterdaten von mehreren Genen erhält, deren Expressionen sich in Entsprechung zu experimentellen Fällen verändern, und die die Expressionsmuster visuell auf einem Bildschirm einer Darstellungsvorrichtung darstellt, wobei eine erste Achse die Gene repräsentiert und eine zweite Achse die experimentellen Fälle repräsentiert, wobei die Vorrichtung umfaßt:
Eingabemittel zum Bezeichnen eines Segments entlang der zweiten Achse in den Expressionsmusterdaten der mehreren Gene, die aus der Datenbank erhalten werden; und
eine arithmetische Einheit zum Clustering der Expressionsmusterdaten innerhalb des bezeichneten Segments entlang der zweiten Achse, basierend auf einem vorbestimmten Referenzwert, Wiederholen des Clustering innerhalb desselben Cluster in einer Richtung vorwärts oder rückwärts entlang der zweiten Achse und gleichzeitig Verändern des Referenzwerts und Darstellen der Ergebnisse entsprechend einem vorbestimmten Darstellungsformats.
Die Erfindung wird ausgeführt, indem die Verfahrensschritte nach Anspruch 1, wie angehängt, durchgeführt werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist eine schematische Ansicht, die eine Ausführungsform einer Analysevorrichtung gemäß der vorliegenden Erfindung zeigt.
2 ist eine schematische Ansicht, die ein Beispiel eines Genexpressionsmusters zeigt, in dem eine enge Region einem Clustering in einem kleinen Bereich unterzogen worden ist (in vorwärtsgerichteter zeitlicher Richtung).
3 ist eine schematische Ansicht, die ein weiteres Beispiel eines Genexpressionsmusters zeigt, bei dem eine enge Region einem Clustering in einem kleinen Bereich unterzogen worden ist (in umgekehrter Zeitrichtung).
4 ist ein Flußdiagramm, das ein Schema des Clustering-Prozesses zeigt.
5 ist ein Diagramm zum Illustrieren der Beziehung zwischen den Variablen, die für das Clustering und die tatsächlichen Daten verwendet werden.
6 ist ein Flußdiagramm, das einen Algorithmus im Hinblick auf den Prozeß der Einstellung der anfänglichen Parameter zeigt.
7 ist ein Flußdiagramm, das einen Algorithmus des Prozesses zum Bestimmen des Anzeigegebiets zeigt.
8 ist ein Flußdiagramm, das einen Algorithmus zum Clustering zeigt.
9 ist ein Flußdiagramm, das den Prozeß zeigt, der dem in 8 gezeigten Prozeß folgt.
10 ist ein Flußdiagramm, das einen allgemeinen Algorithmus zum Darstellen zeigt.
11 ist ein Diagramm zum Veranschaulichen einer beispielhaften Anzeige von Genexpressionsmustern, die aus dem Clustering resultieren, das durchgeführt wird, indem ein Schlitz vom Beginn der dem Clustering unterzogenen Region in einer Vorwärtsrichtung entlang der Zeitachse verschoben wird.
12 ist ein Diagramm zum Veranschaulichen einer beispielhaften Anzeige von Genexpressionsmustern, die aus einem Clustering resultieren, das durchgeführt wird, indem ein Schlitz vom Ende der dem Clustering unterzogenen Region in einer umgekehrten Richting entlang der Zeitachse verschoben wird.
13 ist eine schematische Ansicht, die eine beispielhafte Anzeige der Ergebnisse einer Clustering-Analyse von Genexpressionsmustern gemäß der vorliegenden Erfindung zeigt.
14 ist ein schematisches Diagramm, das eine beispielhafte Struktur von Genexpressionsmusterdaten zeigt.
15 ist ein schematisches Diagramm, das eine beispielhafte Struktur eines Cluster zeigt.
16 ist ein schematisches Diagramm, das ein Beispiel der Erzeugung einer Baumstruktur von Clustern zeigt.
17 ist ein Diagramm, das ein Beispiel von Anzeigedaten zeigt.
18 ist ein Flußdiagramm, das einen allgemeinen Prozeß zum Darstellen von Genexpressionsmustern gemäß der Erfindung zeigt.
19 ist ein Flußdiagramm zum Veranschaulichen einer Clustering-Analyse im Hinblick auf den Prozeß der Erzeugung eines Clusterbaums.
20 ist ein Flußdiagramm zum Veranschaulichen der Clustering-Analyse im Hinblick auf den Prozeß des Einstellen des Cluster-Niveaus.
21 ist ein Flußdiagramm zum Veranschaulichen der Clustering-Analyse im Hinblick auf den Prozeß zum Erzeugen von Darstellungsdaten.
22 ist ein Flußdiagramm, das Prozeß A (in 21) der Darstellungsdatenerzeugung im Detail zeigt.
23 ist eine Ansicht, die ein Beispiel der Kombination und Clustering von kanzerösen und normalen Zellen zeigt.
24 ist ein Diagramm zum Veranschaulichen einer beispielhaften Darstellung von Genexpressionsmustern, erhalten durch Clustering von ähnlichen Expressionsmustern zusammen über den gesamten Zellprozeß.
25 ist ein Diagramm, das eine beispielhafte Darstellung der Ergebnisse einer Standard-Clustering-Analyse von Genexpressionsmustern zeigt.
26 ist ein schematisches Diagramm, das eine beispielhafte Darstellung der gesamten Ergebnisse einer Clustering-Analyse und eine entsprechende Darstellung des angestrebten Cluster-Baums zeigt.
BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUNGSFORMEN
Hiernach wird die vorliegende Erfindung in größeren Einzelheiten unter Bezugnahme auf die begleitenden Zeichnungen beschrieben werden. Im folgenden Beispiel werden zeitlich aufeinanderfolgende Experimente als typische experimentelle Fälle beispielhaft veranschaulicht.
1 ist eine schematische Ansicht, die eine Systemstruktur einer Ausführungsform einer Vorrichtung zum Analysieren von Genexpressionsmustern zeigt, die ein Verfahren der Erfindung zum Darstellen von Genexpressionsmustern verwendet. Die Analysevorrichtung dieser Ausführungsform ist mit einem Speichermedium (oder Datenbank) 101 zum Speichern von Daten von Genexpressionsmustern versehen, erhalten durch Beziffern der Niveaus der Genexpressionen, erhalten während einer Reihe von Zellprozessen, eine Anzeige 102 zum Visualisieren und Darstellen der Daten von Expressionsmustern, einer Tastatur 103 und einer Maus 104 zum Eingeben von Werten in das System oder zum Auswählen, und einen Clustering-Prozessor 105 zum Clustering der Expressionsmusterdaten entlang des Verlaufs der Genexpressionen. Der Clustering-Prozessor 105 ist in einem Computer und einem Programm dafür ausgeführt.
Eine alternative Ausführungsform ist so ausgelegt, daß die Daten der Genexpressionsmuster von einer Datenbank anstelle des Speichermediums 101 erhalten werden, die von einem entfernt bereitgestellten Server-Computer über ein Netzwerk oder Ähnliches überwacht wird.
Gemäß dieser Ausführungsform wird ein Zeitsegment im Zellzyklus bestimmt, um das Clustering innerhalb dieses Zeitsegments in einem kleinen Bereich durchzuführen.
Insbesondere werden Gene, die zu demselben Cluster gehören, zusammengefaßt, und eine Trennungslinie wird zwischen unterschiedlichen Clustern gezogen. Clustering wird weiterhin für die Gene durchgeführt, die zu demselben Cluster gehören. Wie in 2 gezeigt, kann, wenn das Clustering wiederholt in einem kleinen Bereich vom Beginn der dem Clustering unterzogenen Region in einer vorwärtsgerichteten Richtung entlang der Zeitachse durchge führt wird, der Verlauf der Genexpressionen als eine Baumstruktur ausgedrückt werden. In 2 wird das bezeichnete Zeitsegment als eine dem Clustering unterzogene Region 201 gezeigt.
In anderen Worten sind die Expressionsmuster innerhalb der einem Clustering unterzogenen Regionen so angeordnet, daß sie dieselben Expressionsniveaus am Beginn haben, aber zu einem Punkt im Zeitsegment unterschiedlich werden. Wenn eine solche Darstellung erhalten wird, kann angenommen werden, daß verschiedene Gene eine ähnliche Expression am Anfang aufwiesen, da sie dieselbe Funktion haben, sich aber dahingehend veränderten, daß sie unterschiedliche Expressionen an einem Zeitpunkt ergaben, weil sie unterschiedliche Rollen hatten.
In ähnlicher Weise können, wenn ein Clustering im kleinen Bereich vom Ende der dem Clustering unterzogenen Region in einer umgekehrten Zeitrichtung durchgeführt wird, die Genexpressionsmuster in einer umgekehrten Baumstruktur angeordnet werden, wie in 3 gezeigt.
Diese Anzeige deutet auf Expressionsmuster hin, die am Beginn der Region unterschiedlich sind, sich aber dahingehend veränderten, daß sie an einem Punkt im Zeitsegment dieselben geworden sind. Es kann angenommen werden, daß in diesem Fall verschiedene Gene verschiedene Funktionen am Beginn haben, sich aber zu einem bestimmten Zeitpunkt dahingehend veränderten, daß sie ähnliche Rollen haben.
4 ist ein Flußdiagramm, das ein Schema eines Algorithmus zeigt, der bei dem Clustering-Prozessor 105 zum Clustering und Anzeigen von Genexpressionsmusterdaten verwendet wird.
Als erstes werden anfängliche Parameter eingestellt (Schritt 401), und ein Darstellungsgebiet wird bestimmt (Schritt 402). Die anfänglichen Parameter werden später in größeren Einzelheiten beschrieben werden. Dann wird ein Darstellungsprozeß durchgeführt (Schritt 403), wodurch die ganze Verarbeitung beendet wird. Der vorliegende Algorithmus dient dem Darstellen von Expressionsmustern von verschiedenen Genen, die am Anfang dieselben sind, aber an einem Zeitpunkt unterschiedlich werden (2).
5 ist eine Veranschaulichung, die die Beziehung zwischen den bei dem vorliegenden Algorithmus verwendeten Variablen und den tatsächlichen Daten zeigt.
6 ist ein Flußdiagramm, das Einzelheiten des Algorithmus im Hinblick auf den Prozeß der Einstellung der anfänglichen Parameter zeigt (Schritt 401 in 4).
Als erstes werden Daten von Genexpressionsmustern aus dem Speichermedium 101 ausgelesen. Wie in 5 gezeigt, enthalten die Daten der Genexpressionsmuster Expressionsmusterdaten einer Anzahl m + 1 an Probengenen g₀, g₁, ... g_m, erhalten durch Experimente zu dem Zeitpunkt T₀, T₁, ... T_n. Der beobachtete Expressionswert von Gen g_i zum Zeitpunkt T_j wird als g[j][i] angezeigt (Schritt 601).
Dann werden die Tastatur 103 und die Maus 104 verwendet, um eine dem Clustering unterzogene Region einzugeben (Startzeit T_start und Schlußzeit T_end), positive Werte (K_start, K_start+1, ... K_end) als Bezugswerte zum Unterscheiden von Clustern, einer ganzen Zahl (S), die einen Clustering-Bereich anzeigt, und die Verfahren des Clustering (Schritt 602).
Die durchgezogenen Linien 201 in 2 und 3 zeigen die einem Clustering unterzogenen Regionen an, nämlich ein Zeitsegment innerhalb des Zellzyklus, das für weiteres detailliertes Clustering bezeichnet wird. Zum Beispiel kann, wenn eine Zelle ein bestmmtes Expressionsmuster zu einem Zeitpunkt während des Zellzyklus aufzeigt, die dem Clustering unterzogene Region dahingehend bezeichnet werden, daß sie diesen Zeitpunkt enthält, um in größeren Einzelheiten den Expressionsstatus eines jeden Gens zu überwachen. Die vorliegende Erfindung unterscheidet sich von dem herkömmlichen Clustering fundamental dahingehend, daß sie nicht Gene mit ähnlichem Expressionsstatus über den gesamten Zellzyklus clustert, wie in 24 gezeigt, sondern die Genmuster so anordnet, daß verschiedene Gene am Beginn der Region dieselben Expressionsmuster haben, sich aber dahingehend verändern, daß sie verschiedene Expressionsmuster innerhalb der Region haben, wie in 2 gezeigt.
Der Bezugswert zum Unterscheiden zwischen verschiedenen Clustern ist ein Minimalwert, nämlich Schwelle K, der Unähnlichkeit zwischen den Clustern. Da Schwellen in variabler Weise als K_start, K_start+1, ... K_n, eingestellt werden können, kann das Niveau des Clustering dahingehend reguliert werden, daß es entlang der Zeitachse kurz oder detailliert ist.
Das vorliegende System zielt nicht auf die gesamten Expressionsdaten ab, die zum Zeitpunkt T₀, T₁, ... T_n zum Berechnen der Unähnlichkeit für das Clustering erhalten werden, sondern wählt ein bestimmtes Zeitsegment aus, um auf Daten innerhalb dieses Zeitsegments zu zielen zum Berechnen einer Unähnlichkeit. Wie in 5 gezeigt, wird dieses Zeitsegment als Schlitz 501 bezeichnet, und die Länge S (eine Breite entlang der Zeitachse) dieses Schlitzes 501 wird als Clustering-Bereich bezeichnet. Gemäß dem vorliegenden Algorithmus wird der Beginn des Schlitzes 501 auf T_start zum Clustering von Daten innerhalb eines Bereiches von T_start bis T_start+S gesetzt. Dann wird der Schlitz 501 entlang der Zeitachse vorwärts verschoben, um jeden der gruppierten Cluster innerhalb eines Bereiches T_start+1 bis T_start+S+1 zu clustern. Diese Prozedur wird wiederholt, bis das Ende des Schlitzes T_end erreicht. Je kleiner der Clustering-Bereich ist (d.h. je kürzer die Breite des Zeitsegments ist), desto detailliertere Unterschiede zwischen den Genexpressionen werden erhalten werden.
Im Clustering-Prozeß werden die Ähnlichkeit oder Unähnlichkeit, die eine Korrelation zwischen den Genen beim Clustern andeutet (Pearson-Korrelationskoeffizient, quadratischer Euklidischer Abstand, normierter quadratischer Euklidischer Abstand, Mahalanobis-Abstand, Minkowsky-Abstand, etc.) und ein Algorithmus zum Verbinden der Cluster (Verfahren nächster Nachbarn, Verfahren übernächster Nachbarn, Gruppenmittlungsverfahren, Schwerpunktverfahren, Meridianverfahren, Ward-Verfahren, flexibles Verfahren, etc.) bezeichnet. Der vorliegende Algorithmus verwendet eine Unähnlichkeit. Wenn eine Ähnlichkeit zum Clustern gewählt wird, kann eine Minus-Zeichen vor der berechneten Ähnlichkeit angebracht werden, um eine umgekehrte Zahl zu ergeben im Verhältnis zur Umwandlung aufgrund von Unähnlichkeit.
Wenn diese Werte eingestellt sind, wird jeder Gegenstand überprüft, ob er richtig ist oder nicht. Die Punkte sind (i) ob die einem Clustering unterzogenen Region T_start bis T_end in der Region T₀ bis T_n enthalten ist (Schritt 603), (ii) ob der Clustering-Bereich S innerhalb der Breite der einem Clustering unterzogenen Region (S ≦ End-Start) (Schritt 604) ist, und (iii) ob die Ähnlichkeit oder Unähnlichkeit mit dem Algorithmus des ausgewählten Clustering-Verfahrens übereinstimmt (z.B. wenn das Schwerpunktverfahren, das Meridianverfahren oder Ward-Verfahren als Algorithmus verwendet wird, sollte der quadratische Euklidische Abstand gewählt werden) (Schritt 606). Wenn irgendeiner dieser Werte nicht richtig ist, wird eine Fehlersignal auf die Anzeigevorrichtung 102 ausgegeben, um eine erneute Eingabe zu fordern (Schritt 607).
Wenn alle der eingestellten Gegenstände als richtig bestätigt werden, wird eine durchschnittliches Niveau G_i = (g[0][i] + g[1][i] + ... g[n][i])/n) der Expression eins Gens g_i (wobei i = 1, 2, ... m) berechnet (Schritt 608).
Um die Darstellungsinformation eines jeden Gens zu speichern, wird ein Array l[I] (I = 0, 1, ... m) 502 (5) und eine ganzzahlige Variable lmax vorbereitet. Jeder l[I] ist ein Strukturdatum, daß aus einem Teil besteht, das auf ein Index eines Gens hinweist (Index), und aus einem Teil, das auf die Lage der Trennungslinie zwischen unterschiedlichen Clustern hinweist (linepos), wie in 5 gezeigt. Die Teile der Struktur können eingestellt oder als l[I].index oder l[I].linepos bezeichnet werden. Für alle „I" wird der Wert von l[I].linepos als T_end begonnen (Schritt 609), und der Wert von lmax wird auf „0" (Schritt 610) eingestellt. Dann wird der Wert von „Start" auf die Variable t eingestellt (Schritt 611).
Der vorliegende Algorithmus verwendet einen abstrakten Datentyp, bezeichnet als „cluster", der eine Menge an ganzen Zahlen anzeigt. Ein Cluster hat eine Schnittstelle zur Registrierung und Deletion einer ganzen Zahl und zur Bezugnahme auf die registrierten Daten.
Schließlich wird Cluster-B erzeugt, auf den {0, 1, 2, ... m} registriert ist (Schritt 612), wodurch der gesamte Prozeß beendet wird.
Nach der oben beschriebenen Initialisierung wird die einem Clustering unterzogene Region 201 verarbeitet. Insbesondere wird das Anzeigengebiet bestimmt, indem die oben eingestellten t und B als Argumente verwendet werden (Prozeß A in Schritt 402 aus 4).
7 ist ein Flußdiagramm, das in Einzelheiten den Prozeß der Bestimmung des Darstellungsgebiets (Prozeß A) in 4 zeigt. Die Darstellungsinformation wird in dem Array l während diese Prozesses A registriert.
Als erstes läßt man den gegebenen Cluster und Zeit B bzw. t als Argumente sein (Schritt 701). Dann wird B einem Clustering (Prozeß B) unterzogen, wobei t und B als Argumente angegeben werden. Als ein Resultat von Prozeß B werden die Gesamtzahl der Cluster und der Clustering-Ergebnisse auf cmax bzw. A[J] (J = 1, 2, ..., cmax) eingestellt (Schritt 702). Details des Prozesses B werden später beschrieben werden.
Dann wird beurteilt, ob „t + S" „end" gleicht (Schritt 703). Wenn sie gleich sind, bedeutet dies, daß das Ende des Schlitzes 501 das Ende der einem Clustering unterzogenen Region 201 erreicht hat, wodurch der Clustering-Prozeß beendet wird. Der folgende Prozeß wird für jeden Cluster ausgeführt, bis J cmax überschreitet (ausgehend von J = 1) (Schritte 704 und 705). Wenn die Elemente von Cluster A[J] {i₁, ..., i_k} sind, werden diese Elemente aneinander ausgerichtet und nach bestimmten Regeln angezeigt. Hier werden der Durchschnitt der Expressionsniveaus G_i1 ... G_ik, entsprechend den Elementen, in einer absteigenden Reihenfolge ausgerichtet, um als G_j1, ... G_jk angeordnet zu werden (Schritt 706).
Dann wird der Wert für Array l eingegeben. Insbsondere wird „l[].index", das die positionelle Information der Expressionsmusterdaten anzeigt, als l[lmax].index = j₁, l[lmax + 1].index = j₂, ..., l[lmax + k – 1].index = j_k, so daß sie in absteigender Reihenfolge gemäß ihrer durchschnittlichen Helligkeit angeordnet werden (Schritt 707). Der Wert „t" wird in „l[lmax + k – 1].linepos eingegeben, das auf die Linie zum Trennen von unterschiedlichen Clustern hinweist (eine durchgezogenen Linie 202, die sich in horizontaler Richtung erstreckt, wird veranschaulichend in 2 gezeigt) von Zeit „t" bis „t + S (= T_end)" (Schritt 708).
Als nächstes wird k zu lmax zum Anzeigen der maximalen Anzahl der bereits eingegebenen Daten von Array l hinzugefügt (Schritt 709). Dann wird J inkrementiert, um das nächste Clustering durchzuführen (Schritt 710).
Andererseits wird, wenn „t + S" nicht gleich „end" ist (d.h. wenn das Ende des Schlitzes 501 nicht das Ende der einem Clustering unterzogenen Region 201 erreicht) in Schritt 703, t inkrementiert und J wird auf „l" (Schritt 711). Die folgende Prozedur wird für jeden Cluster durchgeführt, bis J cmax überschreitet (Schritt 712). Insbesondere wird A[J] für B ausgetauscht (Schritt 713) und das Darstellungsgebiet wird unter Verwendung von Zeit t und Cluster B als Argumente bestimmt (Prozeß A) (Schritt 714). Dann wird der Wert „t" in „l[lmax – 1].linepos" eingegeben, der eine Linie zum Trennen von unterschiedlichen Clustern von Zeit „t" bis „T_end" anzeigt (Schritt 715). Dann wird J inkrementiert, um das nächste Clustering durchzuführen (Schritt 716). Wenn die Prozedur für alle Cluster A[J] (J = 1, ..., cmax) beendet ist, ist der Prozeß beendet.
8 und 9 sind Flussdiagramme, die Algorithmen des Clustering-Prozesses (Prozeß B) zeigen.
Als erstes werden der eingegebene Cluster und die Zeit als Argumente B bzw. t verwendet (Schritt 801). Dann wird, wenn die Elemente des Cluster B i₁, ... i_k sind, eine Ähnlichkeit oder Unähnlichkeit d_ij (i < j und i, j ∈ {i₁, i₂ ..., i_k}) zwischen Genen, entsprechend i₁, ..., i_k von Zeit t bis Zeit t + S berechnet (Schritt 802).
Die Ähnlichkeit (Unähnlichkeit) von Genexpressionsdaten {g[0][i], g[1][i] ..., g[n][i]} von Genen g_i, g_j ist ein Wert, der z.B. durch die folgende Berechnung erhalten wird (Schritt 802).

(1) Wenn ein Pearson-Korrelationskoeffizient als Ähnlichkeit bezeichnet wird,
wobei
Da der vorliegende Algorithmus auf Unähnlichkeit abzielt, muß die erhaltene Ähnlichkeit in Unähnlichkeit umgewandelt werden, indem ein Minus-Zeichen verwendet wird, um eine inverse Zahl zu ergeben.
(2) Wenn der quadratische Euklidische Abstand als Unähnlichkeit bezeichnet wird,
(3) Wem ein normierter quadratischer Euklidischer Abstand bezeichnet wird,
Wobei s² _k eine Varianz der Variablen g[k][0], ..., g[k][n]
(4) Wenn ein Mahalanobis-Abstand bezeichnet wird, di,j = t(g[i] – g[j])S–1(g[i] – g[j]) (4)Wobei g[1] = ^t(g[t][1], ..., g[t + S][1]), und S eine Kovarianz-Matrix von g[i], g[j] ist,
(5) Wenn ein Minkowsky-Abstand bezeichnet wird,

Dann werden Cluster C[l], ..., C[k] erzeugt, die als C[l] ← {i₁}, ..., C[k] ← {i₂} registriert werden (Schritt 803). Die Variable ccnt, die auf die Anzahl der erzeugten Cluster hinweist, wird durch k ersetzt (Schritt 804). Dann wird eine Null-Menge von Cluster D erzeugt (Schritt 805).
Dann wird der Minimalwert d_p,q der berechneten Unähnlichkeit d_i,j (i, j ∈ {1, 2, ..., ccnt} – D) erhalten, um zu beurteilen, ob er weniger als der vorher eingestellte Schwellenwert K_t ist (Schritte 806 und 807). Wenn d_p,q weniger als K_t ist, findet die folgende Prozedur statt. Cluster C[ccnt + 1] wird neu erzeugt. Eine Summenmenge der Elemente, enthalten in den Clustern C[p] und C[q] wird in Cluster C[ccnt + 1] registriert (Schritt 808), und die Elemente werden deletiert (Schritt 809). Da C[p] und C[q] nicht länger notwendig sind, werden p, q in D registriert (Schritt 810). Dann wird eine Unähnlichkeit d_h,ccnt+1 zwischen Cluster C[h] (h ∈ {1, 2, ..., ccnt} – D) und Cluster C[ccnt + 1] von Zeit t bis Zeit t + S erhalten (Schritt 811). d_h,ccnt+1 kann durch die folgende Berechnung erhalten werden, wobei, wenn n(k) die Anzahl der Elemente im Cluster C[k] ist und: dh,ccnt+1 = αdh,p + βdh,q + γdp,q + δ|dh,p – dh,q| (6)

(1) wenn das Clustering-Verfahren das Verfahren des nächsten Nachbarn ist, α = 0,5, β = 0,5, γ = 0 und δ = –0,5;
(2) wenn das Clustering-Verfahren das Verfahren des übernächsten Nachbarn ist, α = 0,5, β = 0,5, γ = 0 und δ = 0,5;
(3) wenn das Clustering-Verfahren das Gruppenmittlingsverfahren ist, α = n(p)/n(ccnt + 1), β = n(q)/n(ccnt + 1), γ = 0 und δ = 0;
(4) wenn das Clustering-Verfahren das Schwerpunktverfahren ist, α = n(p)/n(ccnt + 1), β = n(q)/n(ccnt + 1), γ = –n(p)n(q)/n(ccnt + 1)² und δ = 0;
(5) wenn das Clustering-Verfahren das Meridianverfahren ist, α = 0,5, β = 0,5, γ = –0,25 und δ = 0; oder
(6) wenn das Clustering-Verfahren das Ward-Verfahren ist, α = {n(h) + n(p)}/{n(h) + n(ccnt + 1)}, β = {n(h) + n(q)}/{n(h) + n(ccnt + 1)}, γ = –n(h)/{n(h) + n(ccnt + 1)} und δ = 0;

Dann wird „1" zu der Variablen ccnt addiert, die die Anzahl der erzeugten Cluster anzeigt (Schritt 812). Die oben beschriebene Prozedur wird wiederholt, bis der Minimalwert der aktualisierten d_i,j (i, j, ∈ {1, 2, ... ccnt} – D) K_t überschreitet.
Wenn der Minimalwert d_p,q von d_i,j K_t in Schritt 807 überschreitet, ist das Clustering beendet, und die Ergebnisse werden ausgegeben. Als erstes werden Cluster, die keine Null-Menge enthalten, beurteilt und aus den Clustern C[1] bis C[ccnt] bestimmt, und die Gesamtzahl davon wird als cmax eingegeben (Schritt 813). Dann wird die Anzahl cmax der Cluster A[1], ..., A[cmax] erzeugt (Schritt 814). Die durchschnittlichen Expressionsniveaus der Gene, enthalten in den Clustern ohne eine Null-Menge, werden berechnet, d.h., um G'_p = (G_i1 + ... + G_ik)/k für Cluster C[p] = {i₁, ..., i_k} zu erhalten. Wenn die erhaltenen Werte, die in absteigender Reihenfolge aufeinanderfolgend angeordnet sind, aus G'_p1, ... G'_pcmax' sind, werden A[1], ... A[cmax] als C[p₁], ... C[p_cmax] registriert (Schritt 815). Schließlich werden die Gesamtclu steranzahl cmax und die Cluster A[1], ..., A[cmax] ausgegeben (Schritt 816), wodurch der ganze Prozeß beendet wird.
10 ist eine Flußdiagramm, das einen detaillierten Algorithmus des Anzeigeprozesses, gezeigt in 4 zeigt. Dieser Algorithmus liest Array l[I] aus und zeigt Expressionsdaten eines entsprechenden Gens an.
Als erstes lasse man den Wert i „0" sein (Schritt 1000) und wiederhole die folgende Prozedur für jedes Genexpressionsdatum, bis der Wert i lmax gleicht (Schritt 1001). Dann werden die Werte der Expressionsdaten g[k][x] (k = 0, 1, ..., n), entsprechend einer einzelnen Reihe eines Gens, angedeutet durch x = l[i].index in die entsprechende Anzeigefarben umgewandelt, um als eine i-te(„i^th")-Zeile angezeigt zu werden (Schritt 1002). Die Trennungslinie zwischen den Clustern wird unmittelbar unterhalb der gerade angezeigten i-ten(„i^th")-Zeile von Zeit l[i].linepos bis T_end gezeichnet (Schritt 1003).
Wenn l[i].linepos der anfängliche Wert T_end ist, gibt es keinen Bedarf zum Ziehen einer Trennungslinie zwischen den Clustern. i wird um 1 inkrementiert (Schritt 1004), und die gesamte Prozedur wird beendet, wenn i lmax in Schritt 1001 wird.
Anhand des oben beschriebenen Prozesses können Expressionsmuster von verschiedenen Genen in effektiver Weise angezeigt werden, so daß die Muster so angeordnet sind, daß sie dieselben zu Anfang der einem Clustering unterzogenen Region sind, und unterschiedlich werden zu einem bestimmten Zeitpunkt in der Region, wie in 2 gezeigt.
Andererseits können Genexpressionsmuster verschiedener Gene effektiv angezeigt werden, so daß die Muster so angeordnet sind, daß sie am Beginn einer einem Clustering unterzogenen Region unterschiedlich sind und dieselben werden zu einem bestimmten Zeipunkt in der Region, wie in 3 gezeigt. Eine solche Darstellung kann durch Einstellen von l[i].linepos auf T_start im Schritt 609 realisiert werden (6), indem man t so einstellt, daß es im Schritt 611 endet, indem man die Beurteilungsbedingungen t + S = end auf t – S = start in Schritt 703 setzt (7), indem man t ← t – 1 für t ← t + 1 in Schritt 711 austauscht und eine Trennungslinie zwischen den Clustern innerhalb eines Bereiches von T_start bis l[i].linepos zieht. Dies bedeutet, daß das Ende eines Schlitzes auf T_end am Anfang eingestellt wird, und dann ein Clustering-Schritt durchgeführt wird, während der Schlitz in einer umgekehrten Richtung entlang der Zeitachse verschoben wird.
Hiernach wird eine beispielhafte Anwendung eines solchen Clusteringverfahrens beschrieben werden, wobei das Clustering durchgeführt, indem der Schlitz vom Beginn der einem Clustering unterzogenen Region in einer Vorwärtsrichtung entlang der Zeitachse verschoben wird, um eine Darstellung zu ergeben, die in 11 gezeigt ist. Wenn Expressionsmuster, die einander ähneln (umschlossen von gepunkteten Linien 1101 und 1102 in 11), erhalten werden, werden diese Gene markiert (1103), und Clustering wird für sie vom Ende der einem Clustering unterzogenen Region 201 in der umgekehrten Richtung entlang der Zeitachse durchgeführt. Wenn die markierten Gene (1103) in nahe beieinander liegenden Orten liegen, wie in 12 gezeigt (z.B. (1) und (4), (3) und (6)), sollten diese Gene unterschiedliche Expressionsmuster am Anfang haben und sich dahingehend verändern, daß sie die selben Expressionsmuster an einem bestimmten Punkt haben. Ein solches bidirektionales Clustering erlaubt eine leichtes Erraten des Expressionsstatus eines jeden Gens.
Darüberhinaus kann, wenn T_start, T_end und die Schlitzbreite S auf T₀, T_n bzw. n eingestellt werden, dieselbe Darstellung wie die aus dem Ergebnis von P. Brown et al. erhalten werden, das im Abschnitt über den Hintergrund der Erfindung erwähnt worden ist.
Das vorliegende Beispiel ist nicht auf die obige Beschreibung beschränkt, und Einzelheiten können bei der Ausübung modifiziert werden. Zum Beispiel kann die Grenze, an der sich das Expressionsmuster verändert, mit einer Kombination von bekannten Darstellungsformaten angezeigt werden, wie etwa eine Flicker-Anzeige, eine Leuchtanzeige und eine Farbumkehranzeige.
Die Verarbeitung durch den Clustering-Prozessor 105 kann als Programm in einem Speichermedium gespeichert werden (z.B. CD-ROM), das einem Benutzer eines Computers zur Verfügung gestellt wird.
Die Gendaten sind nicht auf zeitlich aufeinanderfolgende Expressionsdaten beschränkt, und die in 2 und 3 angezeigte horizontale Achse (Zeitachse) kann eine andere Grundlage zeigen. Zum Beispiel können Expressionsmuster von kanzerösen und normalen Zelle aus demselben menschlichen Gewebe kombiniert und zeitgleich in einem Cluster zusammengefaßt werden, um Gene, die spezifisch bei Krebs funktionieren, Gene, die spezifisch in normalen Zellen funktionieren, und Gene, die spezifisch in beiden Typen vo Zellen funktionieren, zu finden.
23 ist eine Ansicht, die ein Beispiel der Kombination und Zusammenfassung in einem Cluster von kanzerösen und normalen Zellen gemäß der vorliegenden Ausführungsform zeigt. Unter Bezugnahme auf eine Gengruppe 1 (2301) in 23 werden die Gene insgesamt in den kanzerösen Zellen stark exprimiert, während einige der Gene in den normalen Zellen exprimiert werden, aber einige nicht. Unter Bezugnahme auf eine andere Gengruppe 2 (2302) werden einige der Gene in den normalen Zellen exprimiert, aber einige nicht, während schwach exprimierte Gene in den kanzerösen Zellen auftreten. Durch simultane Clusterbildung von zwei Typen von Zellen, wie oben beschrieben, können die Verhaltensmuster von Genen generell im Detail verstanden werden.
Außer einem Vergleich von Unterschieden zwischen Zuständen zu verschiedenen Zeitpunkten oder zwischen Zuständen von Geweben können auch Vergleiche angestellt werden im Hinblick auf Unterschiede zwischen Spezies, wie etwa Mensch und Hefe, Unterschiede zwischen Teilen eines Individuums („sites of individual"), wie etwa Magen, Dickdarm und Herz, Unterschiede von Expressionsmustern, erhalten nach einem elektrischen Schock, einem Schock durch hohe Temperatur oder einem Schock durch niedrige Temperatur, Unterschiede zwischen der Anwesenheit und der Abwesenheit eines künstlichen Zustands, z.B. Expressionsmuster vor und nach Arzneiverabreichung, oder Unterschiede hinsichtlich einer Kombination davon.
Gemäß der vorliegenden Erfindung kann die Expression eines Teils eines Zellzyklus vorgesehen sein, um eine Clusterbildung in dieser Region in einem kleinen Bereich durchzuführen. Basierend auf den angezeigten Ergebnissen kann der Benutzer den Verlauf eines Expressionsstatus von Genen in größeren Einzelheiten beobachten, um die biologischen Funktionen der Gene anhand seines Expressionsstatus in effizienter Weise zu studieren.

Claims

Verfahren zum Darstellen von Genexpressionsmustern von mehreren Genen, deren Expressionen sich in Entsprechung zu experimentellen Fällen verändern, wobei eine erste Achse die Gene darstellt und eine zweite Achse die experimentellen Fälle darstellt, wobei das Verfahren die Schritte umfaßt: Bezeichnen eines Segments entlang der zweiten Achse in den Expressionsmusterdaten der mehreren Gene; und Clustering der Expressionsmusterdaten innerhalb des bezeichneten Segments entlang der zweiten Achse, basierend auf einem vorbestimmten Referenzwert, Wiederholen des Clustering innerhalb desselben Cluster in einer Richtung vorwärts oder rückwärts entlang der zweiten Achse und gleichzeitig Verändern des Referenzwerts und Darstellen der Ergebnisse entsprechend einem vorbestimmten Darstellungsformat.
Verfahren zum Darstellen von Genexpressionsmustern nach Anspruch 1, wobei der Referenzwert bestimmt, ob zwei Expressionsmuster verschiedener Gene identisch sind oder nicht.
Verfahren zum Darstellen von Genexpressionsmustern nach Anspruch 1 oder 2, wobei zwei oder mehrere unterschiedliche Gene entsprechend dem vorbestimmten Darstellungsformat dargestellt sind, wobei sie dasselbe Expressionsmuster zu Anfang haben, sich aber innerhalb des Segments entlang der zweiten Achse dahingehend verändern, daß sie unterschiedliche Expressionsmuster haben.
Verfahren zum Darstellen von Genexpressionsmustern nach Anspruch 1 oder 2, wobei zwei oder mehrere unterschiedliche Gene entsprechend einem vorbestimmten Darstellungsformat dargestellt sind, wobei sie unterschiedliche Expressionsmuster zu Anfang haben, sich aber innerhalb des Segments entlang der zweiten Achse dahingehend verändern, daß sie dasselbe Expressionsmuster haben.
Verfahren zum Darstellen von Genexpressionsmustern nach Anspruch 1, wobei die experimentellen Fälle in zeitlicher Abfolge durchgeführt werden.
Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 5, wobei die experimentellen Fälle Zustände eines Gewebes eines Individuums sind.
Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 5, wobei die experimentellen Fälle Spezies von Individuen sind.
Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 7, wobei die experimentellen Fälle Stellen eines Individuums sind.
Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 8, wobei die experimentellen Fälle die Anwesenheit und Abwesenheit eines künstlichen Zustands sind.
Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 5, wobei die experimentellen Fälle eine Kombination von zeitlich aufeinanderfolgenden Experimenten, Zuständen eines Gewebes eines Individuums, Spezies von Individuen, Stellen von Individuen und die Anwesenheit und Abwesenheit eines künstlichen Zustands sind.
Vorrichtung zum Analysieren von Genexpressionsmustern, die aus einer Datenbank Expressionsmusterdaten von mehreren Genen erhält, deren Expressionen sich in Entsprechung zu experimentellen Fällen verändern, und die die Expressionsmuster visuell auf einem Bildschirm einer Darstellungsvorrichtung darstellt, wobei eine erste Achse die Gene repräsentiert und eine zweite Achse die experimentellen Fälle repräsentiert, wobei die Vorrichtung umfaßt: Eingabemittel zum Bezeichnen eines Segments entlang der zweiten Achse in den Expressionsmusterdaten der mehreren Gene, die aus der Datenbank erhalten werden; und eine arithmetische Einheit zum Clustering der Expressionsmusterdaten innerhalb des bezeichneten Segments entlang der zweiten Achse, basierend auf einem vorbestimmten Referenzwert, Wiederholen des Clustering innerhalb desselben Cluster in einer Richtung vorwärts oder rückwärts entlang der zweiten Achse und gleichzeitig Verändern des Referenzwerts und Darstellen der Ergebnisse entsprechend einem vorbestimmten Darstellungsformat.