DE60024029T2 - Verfahren und Vorrichtung zur Darstellung von Gen-Expressionsmustern - Google Patents

Verfahren und Vorrichtung zur Darstellung von Gen-Expressionsmustern Download PDF

Info

Publication number
DE60024029T2
DE60024029T2 DE60024029T DE60024029T DE60024029T2 DE 60024029 T2 DE60024029 T2 DE 60024029T2 DE 60024029 T DE60024029 T DE 60024029T DE 60024029 T DE60024029 T DE 60024029T DE 60024029 T2 DE60024029 T2 DE 60024029T2
Authority
DE
Germany
Prior art keywords
expression patterns
axis
genes
gene expression
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60024029T
Other languages
English (en)
Other versions
DE60024029D1 (de
Inventor
Yasuyuki Naka-ku Nozaki
Ryo Naka-ku Nakashige
Tsunehiko Naka-ku Watanabe
Takuro Naka-ku Tamura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP27791899A external-priority patent/JP3628005B2/ja
Priority claimed from JP2000088695A external-priority patent/JP3773092B2/ja
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Publication of DE60024029D1 publication Critical patent/DE60024029D1/de
Application granted granted Critical
Publication of DE60024029T2 publication Critical patent/DE60024029T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/04Recognition of patterns in DNA microarrays
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Darstellen von Genexpressionsmustern, die aus Hybridisierung mit einem spezifischen Gen zu bestimmten Zeitpunkten resultierten, in einem Anzeigeformat (oder einem Ausgabeformat), das die Muster in einer visuell begreifbaren Weise anzeigt, so daß die Funktionen und Rollen der Gene in leichter Weise studiert werden können.
  • HINTERGRUND DER ERFINDUNG
  • Mit der Zunahme der Anzahl an Spezies, die im Hinblick auf ihre Genomsequenzen bestimmt worden sind, ist ein sogenannter Genomvergleich in großem Umfang durchgeführt worden. Ein Genomvergleich zielt auf das Finden von etwas ab, das auf einem Genunterschied zwischen Spezies beruht; z.B. auf das Auffinden von Genen, die an der Evolution beteiligt sind, auf das Auffinden einer Sammlung von Genen, die als für alle Spezies gemeinsam angesehen werden, oder, umgekehrt, auf das Studieren der für spezifische Spezies einzigartigen Natur.
  • Die jüngste Entwicklung von Infrastrukturen, wie etwa DNA-Chips und DNA-Mikroarrays, hat das Interesse auf dem Gebiet der Molekularbiologie von Information zwischen verschiedenen Spezies zur Information innerhalb einer Spezies verschoben, nämlich eine Koexpressions-Analyse, und hat die Untersuchungen ausgeweitet, die von der Extraktion von Information bis zur Korrelation von Information, einschließlich des herkömmlichen Vergleichs zwischen Spezies, reichen.
  • Zum Beispiel kann, wenn ein unbekanntes Gen ein Expressionsmuster hat, das mit dem eines bekannten Gens identisch ist, angenommen werden, daß das unbekannte Gen eine ähnliche Funktion wie die des bekannten Gens hat. Solche funktionellen Bedeutungen von Genen und Proteinen werden als Funktionseinheiten oder Funktionsgruppen untersucht. Die Wechselwirkungen zwischen den Funktionseinheiten oder Funktionsgruppen werden ebenso analysiert durch Korrelieren mit bekannten enzymatischen Reaktionsdaten oder Stoffwechseldaten, oder, direkter, durch Ausschalten oder Überreagieren eines spezifischen Gens, um die Expres sion des Gens zu eliminieren oder zu beschleunigen, um die direkten und indirekten Einflüsse auf die Genexpressionsmuster der gesamten Sammlung von Genen zu untersuchen.
  • Ein erfolgreicher Fall auf diesem Gebiet ist die Expressionsanalyse von Hefe durch die Gruppe von P. Brown von der Universität Stanford (Michel B. Eisen et al., Clustering analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. (1998), Dec 8; 95 (25): 14863–8). Sie hybridisierten Gene mit einem Gen, das aus einer Zelle extrahiert wurde, in zeitlicher Abfolge, unter Verwendung eines DNA-Microarray und bezifferten die Expressionsniveaus davon (d.h. sie bezifferten die Helligkeit der hybridisierten Fluoreszenzsignale). Durch Umwandeln der Werte in Farben kann das Expressionsmuster eines jeden Gens auf eine visuell begreifbare Weise angezeigt werden. In diesem Punkt werden Gene, die ein ähnliches Expressionsmuster während ihrer Genzyklen haben (Gene mit ähnlicheren Expressionsniveaus an demselben Punkt), in einem Cluster zusammengefaßt.
  • 24 ist ein Diagramm, das ein Beispiel des Darstellens eines Expressionsstatus 2400 von Genen gemäß dem oben beschriebenen Verfahren zeigt, wobei die horizontale bzw. vertikale Achse die Zeit bzw. Gene anzeigen. In dieser Darstellung können Gene, die zu einem gemeinsamen Cluster gehören, dahingehend betrachtet werden, daß sie gemeinsame funktionelle Eigenschaften haben. In 24 stellt jeder der Blöcke 2401 einen Expressionsstatus eines Gens zu einem Zeitpunkt dar. In der Figur ist der Expressionsstatus schematisch in einem Grauschattierungsformat dargestellt.
  • 25 ist ein Diagramm, das ein Beispiel für eine Darstellung eines Expressionsstatus 2500 von Genen gemäß dem oben beschriebenen Verfahren zeigt, wobei die horizontale und vertikale Achse die verschiedenen Experimente bzw. Gene anzeigt. Ein Dendrogramm, das auf der linken Seite gezeigt wird, wird durch schrittweise Verbindung von den jeweils zwei ähnlichsten Clustern zusammen erstellt. Die Länge eines jeden Zweigs entspricht der Distanz zwischen den beiden verbundenen Clustern. In 25 stellt jeder der Blöcke 2501 einen Expressionsstatus eines Gens zu einem Zeitpunkt dar. In der Figur wird der Expressionsstatus schematisch in einem Grauschattierungsformat dargestellt.
  • Das oben beschriebene Darstellungsverfahren erlaubt die Annahme, daß Gene, die zu demselben Cluster gehören, möglicherweise gemeinsame funktionelle Eigenschaften teilen.
  • Mit den Genexpressionsmustern ist es jedoch nicht so einfach, daß man die Beziehung unter allen Genen in einer Zelle aufklären kann, indem man einige Gengruppen mit ähnlichen Expressionsmustern für den gesamten Zellzyklus findet.
  • Zum Beispiel können verschiedenen Gene ähnliche Expression deswegen aufweisen, weil sie eine ähnliche Funktion zu einem bestimmten Zeitpunkt haben. Jedoch haben sie möglicherweise unterschiedliche Rollen zu einem anderen Zeitpunkt, an dem natürlich die Expressionen ebenfalls unterschiedlich sind. Gemäß dem herkömmlichen Verfahren, bei dem ähnliche Expressionsmuster in Clustern über den gesamten Zellzyklus zusammengefaßt werden, werden diese Gene in verschiedene Cluster klassifiziert. Deshalb ist es schwierig, die oben erwähnten Eigenschaften aufzufinden.
  • In einer tatsächlichen Analyse von Genexpressionsmustern werden enorme Datenmengen einem Clustering unterzogen, wie in 25 gezeigt. Die Anzahl an Genen ist mehrere tausend bis Zehntausende oder mehr als Hunderttausende maximal. Die Einzelexperimente (Daten), die verwendet werden, können eine beliebige Zahl, z.B. in der Größenordnung von ungefähr zehn bis mehreren zehn oder Hunderten sein. Daher wird das Dendrogramm, das in 25 gezeigt wird, sein kompliziert sein, da es eine große Vielzahl von kleinen Zweigen enthält.
  • 26 zeigt einen solchen komplizierten Fall. Der linke Teil der 26 zeigt die gesamten Ergebnisse der Cluster-Bildung und zielt auf große Mengen an Daten („mass data") von Genexpressionsmustern. Der rechte Teil von 26, umgeben von einer gepunkteten Linie 2601, zeigt die Ergebnisse in einer besonderen Region, die in einem Fenster eingeschlossen ist, das von einem Benutzer bestimmt wird, um tatsächlich einen engeren Teil der gesamten Ergebnisse in größerem Detail zu sehen.
  • Das so erhaltene Dendrogramm 2602 stellt den genauen Verlauf der Verbindung der ähnlichsten Cluster dar. Es ist jedoch für den Benutzer schwierig, herauszufinden, wie viele Cluster kurz klassifiziert worden sind, indem er auf diese Anzeige schaut, um die Gruppierungen der Gene zu beurteilen und zu erraten.
  • Die vorliegende Erfindung hat die Aufgabe, solche Probleme, wie sie im Stand der Technik auftreten, zu lösen, indem ein Verfahren und eine Vorrichtung zur wirksamen Darstellung von Genexpressionsmustern bereitgestellt wird, indem verschiedene Gene aufgefunden werden, die ähnliche Expressionen aufweisen, weil sie dieselbe Funktion zu einem Zeitpunkt haben, aber unterschiedliche Rollen zu einem anderen Zeitpunkt haben.
  • KURZER ABRISS DER ERFINDUNG
  • Um die oben beschriebenen Aufgaben zu lösen, stellt die vorliegende Erfindung ein Verfahren zum Darstellen von Genexpressionsmustern bereit zum visuellen Anzeigen zeitlich sequentieller Expressionsmuster von mehreren Genen, deren Expression sich je nach Einzelexperiment verändert, wobei eine erste Achse die Gene darstellt, und eine zweite Achse die experimentellen Fälle darstellt, wobei das Verfahren die Schritte umfaßt: Bezeichnen eines Segments entlang der zweiten Achse in den Expressionsmusterdaten der mehreren Gene; und Clustering der Expressionsmusterdaten innerhalb des bezeichneten Segments entlang der zweiten Achse, basierend auf einem vorbestimmten Referenzwert, Wiederholen des Clustering innerhalb desselben Cluster in einer Richtung vorwärts oder rückwärts entlang der zweiten Achse und gleichzeitig Verändern des Referenzwerts und Darstellen der Ergebnisse entsprechend einem vorbestimmten Darstellungsformat.
  • Der Referenzwert bezieht sich auf einen Wert zum Bestimmen, ob Expressionsmuster verschiedener Gene dieselben oder unterschiedlich sind.
  • Darüberhinaus stellt die vorliegende Erfindung zwei oder mehrere verschiedene Gene gemäß dem vorherbestimmten Anzeigeformat dar, wobei sie dasselbe Expressionsmuster am Anfang haben, sich aber innerhalb des Segments entlang der zweiten Achse dahingehend verändern, daß sie unterschiedliche Expressionsmuster haben.
  • Die vorliegende Erfindung stellt ebenso zwei oder mehrere verschiedene Gene gemäß dem vorherbestimmten Anzeigeformat dar, wobei sie am Anfang unterschiedliche Expressionsmuster haben, sich aber innerhalb des Segments entlang der zweiten Achse dahingehend verändern, daß sie dasselbe Expressionsmuster haben.
  • Die experimentellen Fälle können zeitlich aufeinanderfolgende Experimente sein, Zustände eines Gewebes eines Individuums, Spezies von Individuen, Stellen eines Individuums, oder die Anwesenheit und Abwesenheit eines künstlichen Zustands. Alternativ können die experimentellen Fälle Kombinationen von einigen aus der Gruppe sein, bestehend aus zeitlich auf einanderfolgenden Experimenten, Zuständen eines Gewebes eines Individuums, Spezies von Individuen, Stellen von Individuen und die Anwesenheit und Abwesenheit eines künstlichen Zustands.
  • Die vorliegende Erfindung ist ebenso eine Vorrichtung zum Analysieren von Genexpressionsmustern, die aus einer Datenbank Expressionsmusterdaten von mehreren Genen erhält, deren Expressionen sich in Entsprechung zu experimentellen Fällen verändern, und die die Expressionsmuster visuell auf einem Bildschirm einer Darstellungsvorrichtung darstellt, wobei eine erste Achse die Gene repräsentiert und eine zweite Achse die experimentellen Fälle repräsentiert, wobei die Vorrichtung umfaßt:
    Eingabemittel zum Bezeichnen eines Segments entlang der zweiten Achse in den Expressionsmusterdaten der mehreren Gene, die aus der Datenbank erhalten werden; und
    eine arithmetische Einheit zum Clustering der Expressionsmusterdaten innerhalb des bezeichneten Segments entlang der zweiten Achse, basierend auf einem vorbestimmten Referenzwert, Wiederholen des Clustering innerhalb desselben Cluster in einer Richtung vorwärts oder rückwärts entlang der zweiten Achse und gleichzeitig Verändern des Referenzwerts und Darstellen der Ergebnisse entsprechend einem vorbestimmten Darstellungsformats.
  • Die Erfindung wird ausgeführt, indem die Verfahrensschritte nach Anspruch 1, wie angehängt, durchgeführt werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist eine schematische Ansicht, die eine Ausführungsform einer Analysevorrichtung gemäß der vorliegenden Erfindung zeigt.
  • 2 ist eine schematische Ansicht, die ein Beispiel eines Genexpressionsmusters zeigt, in dem eine enge Region einem Clustering in einem kleinen Bereich unterzogen worden ist (in vorwärtsgerichteter zeitlicher Richtung).
  • 3 ist eine schematische Ansicht, die ein weiteres Beispiel eines Genexpressionsmusters zeigt, bei dem eine enge Region einem Clustering in einem kleinen Bereich unterzogen worden ist (in umgekehrter Zeitrichtung).
  • 4 ist ein Flußdiagramm, das ein Schema des Clustering-Prozesses zeigt.
  • 5 ist ein Diagramm zum Illustrieren der Beziehung zwischen den Variablen, die für das Clustering und die tatsächlichen Daten verwendet werden.
  • 6 ist ein Flußdiagramm, das einen Algorithmus im Hinblick auf den Prozeß der Einstellung der anfänglichen Parameter zeigt.
  • 7 ist ein Flußdiagramm, das einen Algorithmus des Prozesses zum Bestimmen des Anzeigegebiets zeigt.
  • 8 ist ein Flußdiagramm, das einen Algorithmus zum Clustering zeigt.
  • 9 ist ein Flußdiagramm, das den Prozeß zeigt, der dem in 8 gezeigten Prozeß folgt.
  • 10 ist ein Flußdiagramm, das einen allgemeinen Algorithmus zum Darstellen zeigt.
  • 11 ist ein Diagramm zum Veranschaulichen einer beispielhaften Anzeige von Genexpressionsmustern, die aus dem Clustering resultieren, das durchgeführt wird, indem ein Schlitz vom Beginn der dem Clustering unterzogenen Region in einer Vorwärtsrichtung entlang der Zeitachse verschoben wird.
  • 12 ist ein Diagramm zum Veranschaulichen einer beispielhaften Anzeige von Genexpressionsmustern, die aus einem Clustering resultieren, das durchgeführt wird, indem ein Schlitz vom Ende der dem Clustering unterzogenen Region in einer umgekehrten Richting entlang der Zeitachse verschoben wird.
  • 13 ist eine schematische Ansicht, die eine beispielhafte Anzeige der Ergebnisse einer Clustering-Analyse von Genexpressionsmustern gemäß der vorliegenden Erfindung zeigt.
  • 14 ist ein schematisches Diagramm, das eine beispielhafte Struktur von Genexpressionsmusterdaten zeigt.
  • 15 ist ein schematisches Diagramm, das eine beispielhafte Struktur eines Cluster zeigt.
  • 16 ist ein schematisches Diagramm, das ein Beispiel der Erzeugung einer Baumstruktur von Clustern zeigt.
  • 17 ist ein Diagramm, das ein Beispiel von Anzeigedaten zeigt.
  • 18 ist ein Flußdiagramm, das einen allgemeinen Prozeß zum Darstellen von Genexpressionsmustern gemäß der Erfindung zeigt.
  • 19 ist ein Flußdiagramm zum Veranschaulichen einer Clustering-Analyse im Hinblick auf den Prozeß der Erzeugung eines Clusterbaums.
  • 20 ist ein Flußdiagramm zum Veranschaulichen der Clustering-Analyse im Hinblick auf den Prozeß des Einstellen des Cluster-Niveaus.
  • 21 ist ein Flußdiagramm zum Veranschaulichen der Clustering-Analyse im Hinblick auf den Prozeß zum Erzeugen von Darstellungsdaten.
  • 22 ist ein Flußdiagramm, das Prozeß A (in 21) der Darstellungsdatenerzeugung im Detail zeigt.
  • 23 ist eine Ansicht, die ein Beispiel der Kombination und Clustering von kanzerösen und normalen Zellen zeigt.
  • 24 ist ein Diagramm zum Veranschaulichen einer beispielhaften Darstellung von Genexpressionsmustern, erhalten durch Clustering von ähnlichen Expressionsmustern zusammen über den gesamten Zellprozeß.
  • 25 ist ein Diagramm, das eine beispielhafte Darstellung der Ergebnisse einer Standard-Clustering-Analyse von Genexpressionsmustern zeigt.
  • 26 ist ein schematisches Diagramm, das eine beispielhafte Darstellung der gesamten Ergebnisse einer Clustering-Analyse und eine entsprechende Darstellung des angestrebten Cluster-Baums zeigt.
  • BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Hiernach wird die vorliegende Erfindung in größeren Einzelheiten unter Bezugnahme auf die begleitenden Zeichnungen beschrieben werden. Im folgenden Beispiel werden zeitlich aufeinanderfolgende Experimente als typische experimentelle Fälle beispielhaft veranschaulicht.
  • 1 ist eine schematische Ansicht, die eine Systemstruktur einer Ausführungsform einer Vorrichtung zum Analysieren von Genexpressionsmustern zeigt, die ein Verfahren der Erfindung zum Darstellen von Genexpressionsmustern verwendet. Die Analysevorrichtung dieser Ausführungsform ist mit einem Speichermedium (oder Datenbank) 101 zum Speichern von Daten von Genexpressionsmustern versehen, erhalten durch Beziffern der Niveaus der Genexpressionen, erhalten während einer Reihe von Zellprozessen, eine Anzeige 102 zum Visualisieren und Darstellen der Daten von Expressionsmustern, einer Tastatur 103 und einer Maus 104 zum Eingeben von Werten in das System oder zum Auswählen, und einen Clustering-Prozessor 105 zum Clustering der Expressionsmusterdaten entlang des Verlaufs der Genexpressionen. Der Clustering-Prozessor 105 ist in einem Computer und einem Programm dafür ausgeführt.
  • Eine alternative Ausführungsform ist so ausgelegt, daß die Daten der Genexpressionsmuster von einer Datenbank anstelle des Speichermediums 101 erhalten werden, die von einem entfernt bereitgestellten Server-Computer über ein Netzwerk oder Ähnliches überwacht wird.
  • Gemäß dieser Ausführungsform wird ein Zeitsegment im Zellzyklus bestimmt, um das Clustering innerhalb dieses Zeitsegments in einem kleinen Bereich durchzuführen.
  • Insbesondere werden Gene, die zu demselben Cluster gehören, zusammengefaßt, und eine Trennungslinie wird zwischen unterschiedlichen Clustern gezogen. Clustering wird weiterhin für die Gene durchgeführt, die zu demselben Cluster gehören. Wie in 2 gezeigt, kann, wenn das Clustering wiederholt in einem kleinen Bereich vom Beginn der dem Clustering unterzogenen Region in einer vorwärtsgerichteten Richtung entlang der Zeitachse durchge führt wird, der Verlauf der Genexpressionen als eine Baumstruktur ausgedrückt werden. In 2 wird das bezeichnete Zeitsegment als eine dem Clustering unterzogene Region 201 gezeigt.
  • In anderen Worten sind die Expressionsmuster innerhalb der einem Clustering unterzogenen Regionen so angeordnet, daß sie dieselben Expressionsniveaus am Beginn haben, aber zu einem Punkt im Zeitsegment unterschiedlich werden. Wenn eine solche Darstellung erhalten wird, kann angenommen werden, daß verschiedene Gene eine ähnliche Expression am Anfang aufwiesen, da sie dieselbe Funktion haben, sich aber dahingehend veränderten, daß sie unterschiedliche Expressionen an einem Zeitpunkt ergaben, weil sie unterschiedliche Rollen hatten.
  • In ähnlicher Weise können, wenn ein Clustering im kleinen Bereich vom Ende der dem Clustering unterzogenen Region in einer umgekehrten Zeitrichtung durchgeführt wird, die Genexpressionsmuster in einer umgekehrten Baumstruktur angeordnet werden, wie in 3 gezeigt.
  • Diese Anzeige deutet auf Expressionsmuster hin, die am Beginn der Region unterschiedlich sind, sich aber dahingehend veränderten, daß sie an einem Punkt im Zeitsegment dieselben geworden sind. Es kann angenommen werden, daß in diesem Fall verschiedene Gene verschiedene Funktionen am Beginn haben, sich aber zu einem bestimmten Zeitpunkt dahingehend veränderten, daß sie ähnliche Rollen haben.
  • 4 ist ein Flußdiagramm, das ein Schema eines Algorithmus zeigt, der bei dem Clustering-Prozessor 105 zum Clustering und Anzeigen von Genexpressionsmusterdaten verwendet wird.
  • Als erstes werden anfängliche Parameter eingestellt (Schritt 401), und ein Darstellungsgebiet wird bestimmt (Schritt 402). Die anfänglichen Parameter werden später in größeren Einzelheiten beschrieben werden. Dann wird ein Darstellungsprozeß durchgeführt (Schritt 403), wodurch die ganze Verarbeitung beendet wird. Der vorliegende Algorithmus dient dem Darstellen von Expressionsmustern von verschiedenen Genen, die am Anfang dieselben sind, aber an einem Zeitpunkt unterschiedlich werden (2).
  • 5 ist eine Veranschaulichung, die die Beziehung zwischen den bei dem vorliegenden Algorithmus verwendeten Variablen und den tatsächlichen Daten zeigt.
  • 6 ist ein Flußdiagramm, das Einzelheiten des Algorithmus im Hinblick auf den Prozeß der Einstellung der anfänglichen Parameter zeigt (Schritt 401 in 4).
  • Als erstes werden Daten von Genexpressionsmustern aus dem Speichermedium 101 ausgelesen. Wie in 5 gezeigt, enthalten die Daten der Genexpressionsmuster Expressionsmusterdaten einer Anzahl m + 1 an Probengenen g0, g1, ... gm, erhalten durch Experimente zu dem Zeitpunkt T0, T1, ... Tn. Der beobachtete Expressionswert von Gen gi zum Zeitpunkt Tj wird als g[j][i] angezeigt (Schritt 601).
  • Dann werden die Tastatur 103 und die Maus 104 verwendet, um eine dem Clustering unterzogene Region einzugeben (Startzeit Tstart und Schlußzeit Tend), positive Werte (Kstart, Kstart+1, ... Kend) als Bezugswerte zum Unterscheiden von Clustern, einer ganzen Zahl (S), die einen Clustering-Bereich anzeigt, und die Verfahren des Clustering (Schritt 602).
  • Die durchgezogenen Linien 201 in 2 und 3 zeigen die einem Clustering unterzogenen Regionen an, nämlich ein Zeitsegment innerhalb des Zellzyklus, das für weiteres detailliertes Clustering bezeichnet wird. Zum Beispiel kann, wenn eine Zelle ein bestmmtes Expressionsmuster zu einem Zeitpunkt während des Zellzyklus aufzeigt, die dem Clustering unterzogene Region dahingehend bezeichnet werden, daß sie diesen Zeitpunkt enthält, um in größeren Einzelheiten den Expressionsstatus eines jeden Gens zu überwachen. Die vorliegende Erfindung unterscheidet sich von dem herkömmlichen Clustering fundamental dahingehend, daß sie nicht Gene mit ähnlichem Expressionsstatus über den gesamten Zellzyklus clustert, wie in 24 gezeigt, sondern die Genmuster so anordnet, daß verschiedene Gene am Beginn der Region dieselben Expressionsmuster haben, sich aber dahingehend verändern, daß sie verschiedene Expressionsmuster innerhalb der Region haben, wie in 2 gezeigt.
  • Der Bezugswert zum Unterscheiden zwischen verschiedenen Clustern ist ein Minimalwert, nämlich Schwelle K, der Unähnlichkeit zwischen den Clustern. Da Schwellen in variabler Weise als Kstart, Kstart+1, ... Kn, eingestellt werden können, kann das Niveau des Clustering dahingehend reguliert werden, daß es entlang der Zeitachse kurz oder detailliert ist.
  • Das vorliegende System zielt nicht auf die gesamten Expressionsdaten ab, die zum Zeitpunkt T0, T1, ... Tn zum Berechnen der Unähnlichkeit für das Clustering erhalten werden, sondern wählt ein bestimmtes Zeitsegment aus, um auf Daten innerhalb dieses Zeitsegments zu zielen zum Berechnen einer Unähnlichkeit. Wie in 5 gezeigt, wird dieses Zeitsegment als Schlitz 501 bezeichnet, und die Länge S (eine Breite entlang der Zeitachse) dieses Schlitzes 501 wird als Clustering-Bereich bezeichnet. Gemäß dem vorliegenden Algorithmus wird der Beginn des Schlitzes 501 auf Tstart zum Clustering von Daten innerhalb eines Bereiches von Tstart bis Tstart+S gesetzt. Dann wird der Schlitz 501 entlang der Zeitachse vorwärts verschoben, um jeden der gruppierten Cluster innerhalb eines Bereiches Tstart+1 bis Tstart+S+1 zu clustern. Diese Prozedur wird wiederholt, bis das Ende des Schlitzes Tend erreicht. Je kleiner der Clustering-Bereich ist (d.h. je kürzer die Breite des Zeitsegments ist), desto detailliertere Unterschiede zwischen den Genexpressionen werden erhalten werden.
  • Im Clustering-Prozeß werden die Ähnlichkeit oder Unähnlichkeit, die eine Korrelation zwischen den Genen beim Clustern andeutet (Pearson-Korrelationskoeffizient, quadratischer Euklidischer Abstand, normierter quadratischer Euklidischer Abstand, Mahalanobis-Abstand, Minkowsky-Abstand, etc.) und ein Algorithmus zum Verbinden der Cluster (Verfahren nächster Nachbarn, Verfahren übernächster Nachbarn, Gruppenmittlungsverfahren, Schwerpunktverfahren, Meridianverfahren, Ward-Verfahren, flexibles Verfahren, etc.) bezeichnet. Der vorliegende Algorithmus verwendet eine Unähnlichkeit. Wenn eine Ähnlichkeit zum Clustern gewählt wird, kann eine Minus-Zeichen vor der berechneten Ähnlichkeit angebracht werden, um eine umgekehrte Zahl zu ergeben im Verhältnis zur Umwandlung aufgrund von Unähnlichkeit.
  • Wenn diese Werte eingestellt sind, wird jeder Gegenstand überprüft, ob er richtig ist oder nicht. Die Punkte sind (i) ob die einem Clustering unterzogenen Region Tstart bis Tend in der Region T0 bis Tn enthalten ist (Schritt 603), (ii) ob der Clustering-Bereich S innerhalb der Breite der einem Clustering unterzogenen Region (S ≦ End-Start) (Schritt 604) ist, und (iii) ob die Ähnlichkeit oder Unähnlichkeit mit dem Algorithmus des ausgewählten Clustering-Verfahrens übereinstimmt (z.B. wenn das Schwerpunktverfahren, das Meridianverfahren oder Ward-Verfahren als Algorithmus verwendet wird, sollte der quadratische Euklidische Abstand gewählt werden) (Schritt 606). Wenn irgendeiner dieser Werte nicht richtig ist, wird eine Fehlersignal auf die Anzeigevorrichtung 102 ausgegeben, um eine erneute Eingabe zu fordern (Schritt 607).
  • Wenn alle der eingestellten Gegenstände als richtig bestätigt werden, wird eine durchschnittliches Niveau Gi = (g[0][i] + g[1][i] + ... g[n][i])/n) der Expression eins Gens gi (wobei i = 1, 2, ... m) berechnet (Schritt 608).
  • Um die Darstellungsinformation eines jeden Gens zu speichern, wird ein Array l[I] (I = 0, 1, ... m) 502 (5) und eine ganzzahlige Variable lmax vorbereitet. Jeder l[I] ist ein Strukturdatum, daß aus einem Teil besteht, das auf ein Index eines Gens hinweist (Index), und aus einem Teil, das auf die Lage der Trennungslinie zwischen unterschiedlichen Clustern hinweist (linepos), wie in 5 gezeigt. Die Teile der Struktur können eingestellt oder als l[I].index oder l[I].linepos bezeichnet werden. Für alle „I" wird der Wert von l[I].linepos als Tend begonnen (Schritt 609), und der Wert von lmax wird auf „0" (Schritt 610) eingestellt. Dann wird der Wert von „Start" auf die Variable t eingestellt (Schritt 611).
  • Der vorliegende Algorithmus verwendet einen abstrakten Datentyp, bezeichnet als „cluster", der eine Menge an ganzen Zahlen anzeigt. Ein Cluster hat eine Schnittstelle zur Registrierung und Deletion einer ganzen Zahl und zur Bezugnahme auf die registrierten Daten.
  • Schließlich wird Cluster-B erzeugt, auf den {0, 1, 2, ... m} registriert ist (Schritt 612), wodurch der gesamte Prozeß beendet wird.
  • Nach der oben beschriebenen Initialisierung wird die einem Clustering unterzogene Region 201 verarbeitet. Insbesondere wird das Anzeigengebiet bestimmt, indem die oben eingestellten t und B als Argumente verwendet werden (Prozeß A in Schritt 402 aus 4).
  • 7 ist ein Flußdiagramm, das in Einzelheiten den Prozeß der Bestimmung des Darstellungsgebiets (Prozeß A) in 4 zeigt. Die Darstellungsinformation wird in dem Array l während diese Prozesses A registriert.
  • Als erstes läßt man den gegebenen Cluster und Zeit B bzw. t als Argumente sein (Schritt 701). Dann wird B einem Clustering (Prozeß B) unterzogen, wobei t und B als Argumente angegeben werden. Als ein Resultat von Prozeß B werden die Gesamtzahl der Cluster und der Clustering-Ergebnisse auf cmax bzw. A[J] (J = 1, 2, ..., cmax) eingestellt (Schritt 702). Details des Prozesses B werden später beschrieben werden.
  • Dann wird beurteilt, ob „t + S" „end" gleicht (Schritt 703). Wenn sie gleich sind, bedeutet dies, daß das Ende des Schlitzes 501 das Ende der einem Clustering unterzogenen Region 201 erreicht hat, wodurch der Clustering-Prozeß beendet wird. Der folgende Prozeß wird für jeden Cluster ausgeführt, bis J cmax überschreitet (ausgehend von J = 1) (Schritte 704 und 705). Wenn die Elemente von Cluster A[J] {i1, ..., ik} sind, werden diese Elemente aneinander ausgerichtet und nach bestimmten Regeln angezeigt. Hier werden der Durchschnitt der Expressionsniveaus Gi1 ... Gik, entsprechend den Elementen, in einer absteigenden Reihenfolge ausgerichtet, um als Gj1, ... Gjk angeordnet zu werden (Schritt 706).
  • Dann wird der Wert für Array l eingegeben. Insbsondere wird „l[].index", das die positionelle Information der Expressionsmusterdaten anzeigt, als l[lmax].index = j1, l[lmax + 1].index = j2, ..., l[lmax + k – 1].index = jk, so daß sie in absteigender Reihenfolge gemäß ihrer durchschnittlichen Helligkeit angeordnet werden (Schritt 707). Der Wert „t" wird in „l[lmax + k – 1].linepos eingegeben, das auf die Linie zum Trennen von unterschiedlichen Clustern hinweist (eine durchgezogenen Linie 202, die sich in horizontaler Richtung erstreckt, wird veranschaulichend in 2 gezeigt) von Zeit „t" bis „t + S (= Tend)" (Schritt 708).
  • Als nächstes wird k zu lmax zum Anzeigen der maximalen Anzahl der bereits eingegebenen Daten von Array l hinzugefügt (Schritt 709). Dann wird J inkrementiert, um das nächste Clustering durchzuführen (Schritt 710).
  • Andererseits wird, wenn „t + S" nicht gleich „end" ist (d.h. wenn das Ende des Schlitzes 501 nicht das Ende der einem Clustering unterzogenen Region 201 erreicht) in Schritt 703, t inkrementiert und J wird auf „l" (Schritt 711). Die folgende Prozedur wird für jeden Cluster durchgeführt, bis J cmax überschreitet (Schritt 712). Insbesondere wird A[J] für B ausgetauscht (Schritt 713) und das Darstellungsgebiet wird unter Verwendung von Zeit t und Cluster B als Argumente bestimmt (Prozeß A) (Schritt 714). Dann wird der Wert „t" in „l[lmax – 1].linepos" eingegeben, der eine Linie zum Trennen von unterschiedlichen Clustern von Zeit „t" bis „Tend" anzeigt (Schritt 715). Dann wird J inkrementiert, um das nächste Clustering durchzuführen (Schritt 716). Wenn die Prozedur für alle Cluster A[J] (J = 1, ..., cmax) beendet ist, ist der Prozeß beendet.
  • 8 und 9 sind Flussdiagramme, die Algorithmen des Clustering-Prozesses (Prozeß B) zeigen.
  • Als erstes werden der eingegebene Cluster und die Zeit als Argumente B bzw. t verwendet (Schritt 801). Dann wird, wenn die Elemente des Cluster B i1, ... ik sind, eine Ähnlichkeit oder Unähnlichkeit dij (i < j und i, j ∈ {i1, i2 ..., ik}) zwischen Genen, entsprechend i1, ..., ik von Zeit t bis Zeit t + S berechnet (Schritt 802).
  • Die Ähnlichkeit (Unähnlichkeit) von Genexpressionsdaten {g[0][i], g[1][i] ..., g[n][i]} von Genen gi, gj ist ein Wert, der z.B. durch die folgende Berechnung erhalten wird (Schritt 802).
    • (1) Wenn ein Pearson-Korrelationskoeffizient als Ähnlichkeit bezeichnet wird,
      Figure 00140001
      wobei
      Figure 00140002
      Da der vorliegende Algorithmus auf Unähnlichkeit abzielt, muß die erhaltene Ähnlichkeit in Unähnlichkeit umgewandelt werden, indem ein Minus-Zeichen verwendet wird, um eine inverse Zahl zu ergeben.
    • (2) Wenn der quadratische Euklidische Abstand als Unähnlichkeit bezeichnet wird,
      Figure 00140003
    • (3) Wem ein normierter quadratischer Euklidischer Abstand bezeichnet wird,
      Figure 00150001
      Wobei s2 k eine Varianz der Variablen g[k][0], ..., g[k][n]
    • (4) Wenn ein Mahalanobis-Abstand bezeichnet wird, di,j = t(g[i] – g[j])S–1(g[i] – g[j]) (4)Wobei g[1] = t(g[t][1], ..., g[t + S][1]), und S eine Kovarianz-Matrix von g[i], g[j] ist,
    • (5) Wenn ein Minkowsky-Abstand bezeichnet wird,
      Figure 00150002
  • Dann werden Cluster C[l], ..., C[k] erzeugt, die als C[l] ← {i1}, ..., C[k] ← {i2} registriert werden (Schritt 803). Die Variable ccnt, die auf die Anzahl der erzeugten Cluster hinweist, wird durch k ersetzt (Schritt 804). Dann wird eine Null-Menge von Cluster D erzeugt (Schritt 805).
  • Dann wird der Minimalwert dp,q der berechneten Unähnlichkeit di,j (i, j ∈ {1, 2, ..., ccnt} – D) erhalten, um zu beurteilen, ob er weniger als der vorher eingestellte Schwellenwert Kt ist (Schritte 806 und 807). Wenn dp,q weniger als Kt ist, findet die folgende Prozedur statt. Cluster C[ccnt + 1] wird neu erzeugt. Eine Summenmenge der Elemente, enthalten in den Clustern C[p] und C[q] wird in Cluster C[ccnt + 1] registriert (Schritt 808), und die Elemente werden deletiert (Schritt 809). Da C[p] und C[q] nicht länger notwendig sind, werden p, q in D registriert (Schritt 810). Dann wird eine Unähnlichkeit dh,ccnt+1 zwischen Cluster C[h] (h ∈ {1, 2, ..., ccnt} – D) und Cluster C[ccnt + 1] von Zeit t bis Zeit t + S erhalten (Schritt 811). dh,ccnt+1 kann durch die folgende Berechnung erhalten werden, wobei, wenn n(k) die Anzahl der Elemente im Cluster C[k] ist und: dh,ccnt+1 = αdh,p + βdh,q + γdp,q + δ|dh,p – dh,q| (6)
    • (1) wenn das Clustering-Verfahren das Verfahren des nächsten Nachbarn ist, α = 0,5, β = 0,5, γ = 0 und δ = –0,5;
    • (2) wenn das Clustering-Verfahren das Verfahren des übernächsten Nachbarn ist, α = 0,5, β = 0,5, γ = 0 und δ = 0,5;
    • (3) wenn das Clustering-Verfahren das Gruppenmittlingsverfahren ist, α = n(p)/n(ccnt + 1), β = n(q)/n(ccnt + 1), γ = 0 und δ = 0;
    • (4) wenn das Clustering-Verfahren das Schwerpunktverfahren ist, α = n(p)/n(ccnt + 1), β = n(q)/n(ccnt + 1), γ = –n(p)n(q)/n(ccnt + 1)2 und δ = 0;
    • (5) wenn das Clustering-Verfahren das Meridianverfahren ist, α = 0,5, β = 0,5, γ = –0,25 und δ = 0; oder
    • (6) wenn das Clustering-Verfahren das Ward-Verfahren ist, α = {n(h) + n(p)}/{n(h) + n(ccnt + 1)}, β = {n(h) + n(q)}/{n(h) + n(ccnt + 1)}, γ = –n(h)/{n(h) + n(ccnt + 1)} und δ = 0;
  • Dann wird „1" zu der Variablen ccnt addiert, die die Anzahl der erzeugten Cluster anzeigt (Schritt 812). Die oben beschriebene Prozedur wird wiederholt, bis der Minimalwert der aktualisierten di,j (i, j, ∈ {1, 2, ... ccnt} – D) Kt überschreitet.
  • Wenn der Minimalwert dp,q von di,j Kt in Schritt 807 überschreitet, ist das Clustering beendet, und die Ergebnisse werden ausgegeben. Als erstes werden Cluster, die keine Null-Menge enthalten, beurteilt und aus den Clustern C[1] bis C[ccnt] bestimmt, und die Gesamtzahl davon wird als cmax eingegeben (Schritt 813). Dann wird die Anzahl cmax der Cluster A[1], ..., A[cmax] erzeugt (Schritt 814). Die durchschnittlichen Expressionsniveaus der Gene, enthalten in den Clustern ohne eine Null-Menge, werden berechnet, d.h., um G'p = (Gi1 + ... + Gik)/k für Cluster C[p] = {i1, ..., ik} zu erhalten. Wenn die erhaltenen Werte, die in absteigender Reihenfolge aufeinanderfolgend angeordnet sind, aus G'p1, ... G'pcmax' sind, werden A[1], ... A[cmax] als C[p1], ... C[pcmax] registriert (Schritt 815). Schließlich werden die Gesamtclu steranzahl cmax und die Cluster A[1], ..., A[cmax] ausgegeben (Schritt 816), wodurch der ganze Prozeß beendet wird.
  • 10 ist eine Flußdiagramm, das einen detaillierten Algorithmus des Anzeigeprozesses, gezeigt in 4 zeigt. Dieser Algorithmus liest Array l[I] aus und zeigt Expressionsdaten eines entsprechenden Gens an.
  • Als erstes lasse man den Wert i „0" sein (Schritt 1000) und wiederhole die folgende Prozedur für jedes Genexpressionsdatum, bis der Wert i lmax gleicht (Schritt 1001). Dann werden die Werte der Expressionsdaten g[k][x] (k = 0, 1, ..., n), entsprechend einer einzelnen Reihe eines Gens, angedeutet durch x = l[i].index in die entsprechende Anzeigefarben umgewandelt, um als eine i-te(„ith")-Zeile angezeigt zu werden (Schritt 1002). Die Trennungslinie zwischen den Clustern wird unmittelbar unterhalb der gerade angezeigten i-ten(„ith")-Zeile von Zeit l[i].linepos bis Tend gezeichnet (Schritt 1003).
  • Wenn l[i].linepos der anfängliche Wert Tend ist, gibt es keinen Bedarf zum Ziehen einer Trennungslinie zwischen den Clustern. i wird um 1 inkrementiert (Schritt 1004), und die gesamte Prozedur wird beendet, wenn i lmax in Schritt 1001 wird.
  • Anhand des oben beschriebenen Prozesses können Expressionsmuster von verschiedenen Genen in effektiver Weise angezeigt werden, so daß die Muster so angeordnet sind, daß sie dieselben zu Anfang der einem Clustering unterzogenen Region sind, und unterschiedlich werden zu einem bestimmten Zeitpunkt in der Region, wie in 2 gezeigt.
  • Andererseits können Genexpressionsmuster verschiedener Gene effektiv angezeigt werden, so daß die Muster so angeordnet sind, daß sie am Beginn einer einem Clustering unterzogenen Region unterschiedlich sind und dieselben werden zu einem bestimmten Zeipunkt in der Region, wie in 3 gezeigt. Eine solche Darstellung kann durch Einstellen von l[i].linepos auf Tstart im Schritt 609 realisiert werden (6), indem man t so einstellt, daß es im Schritt 611 endet, indem man die Beurteilungsbedingungen t + S = end auf t – S = start in Schritt 703 setzt (7), indem man t ← t – 1 für t ← t + 1 in Schritt 711 austauscht und eine Trennungslinie zwischen den Clustern innerhalb eines Bereiches von Tstart bis l[i].linepos zieht. Dies bedeutet, daß das Ende eines Schlitzes auf Tend am Anfang eingestellt wird, und dann ein Clustering-Schritt durchgeführt wird, während der Schlitz in einer umgekehrten Richtung entlang der Zeitachse verschoben wird.
  • Hiernach wird eine beispielhafte Anwendung eines solchen Clusteringverfahrens beschrieben werden, wobei das Clustering durchgeführt, indem der Schlitz vom Beginn der einem Clustering unterzogenen Region in einer Vorwärtsrichtung entlang der Zeitachse verschoben wird, um eine Darstellung zu ergeben, die in 11 gezeigt ist. Wenn Expressionsmuster, die einander ähneln (umschlossen von gepunkteten Linien 1101 und 1102 in 11), erhalten werden, werden diese Gene markiert (1103), und Clustering wird für sie vom Ende der einem Clustering unterzogenen Region 201 in der umgekehrten Richtung entlang der Zeitachse durchgeführt. Wenn die markierten Gene (1103) in nahe beieinander liegenden Orten liegen, wie in 12 gezeigt (z.B. (1) und (4), (3) und (6)), sollten diese Gene unterschiedliche Expressionsmuster am Anfang haben und sich dahingehend verändern, daß sie die selben Expressionsmuster an einem bestimmten Punkt haben. Ein solches bidirektionales Clustering erlaubt eine leichtes Erraten des Expressionsstatus eines jeden Gens.
  • Darüberhinaus kann, wenn Tstart, Tend und die Schlitzbreite S auf T0, Tn bzw. n eingestellt werden, dieselbe Darstellung wie die aus dem Ergebnis von P. Brown et al. erhalten werden, das im Abschnitt über den Hintergrund der Erfindung erwähnt worden ist.
  • Das vorliegende Beispiel ist nicht auf die obige Beschreibung beschränkt, und Einzelheiten können bei der Ausübung modifiziert werden. Zum Beispiel kann die Grenze, an der sich das Expressionsmuster verändert, mit einer Kombination von bekannten Darstellungsformaten angezeigt werden, wie etwa eine Flicker-Anzeige, eine Leuchtanzeige und eine Farbumkehranzeige.
  • Die Verarbeitung durch den Clustering-Prozessor 105 kann als Programm in einem Speichermedium gespeichert werden (z.B. CD-ROM), das einem Benutzer eines Computers zur Verfügung gestellt wird.
  • Die Gendaten sind nicht auf zeitlich aufeinanderfolgende Expressionsdaten beschränkt, und die in 2 und 3 angezeigte horizontale Achse (Zeitachse) kann eine andere Grundlage zeigen. Zum Beispiel können Expressionsmuster von kanzerösen und normalen Zelle aus demselben menschlichen Gewebe kombiniert und zeitgleich in einem Cluster zusammengefaßt werden, um Gene, die spezifisch bei Krebs funktionieren, Gene, die spezifisch in normalen Zellen funktionieren, und Gene, die spezifisch in beiden Typen vo Zellen funktionieren, zu finden.
  • 23 ist eine Ansicht, die ein Beispiel der Kombination und Zusammenfassung in einem Cluster von kanzerösen und normalen Zellen gemäß der vorliegenden Ausführungsform zeigt. Unter Bezugnahme auf eine Gengruppe 1 (2301) in 23 werden die Gene insgesamt in den kanzerösen Zellen stark exprimiert, während einige der Gene in den normalen Zellen exprimiert werden, aber einige nicht. Unter Bezugnahme auf eine andere Gengruppe 2 (2302) werden einige der Gene in den normalen Zellen exprimiert, aber einige nicht, während schwach exprimierte Gene in den kanzerösen Zellen auftreten. Durch simultane Clusterbildung von zwei Typen von Zellen, wie oben beschrieben, können die Verhaltensmuster von Genen generell im Detail verstanden werden.
  • Außer einem Vergleich von Unterschieden zwischen Zuständen zu verschiedenen Zeitpunkten oder zwischen Zuständen von Geweben können auch Vergleiche angestellt werden im Hinblick auf Unterschiede zwischen Spezies, wie etwa Mensch und Hefe, Unterschiede zwischen Teilen eines Individuums („sites of individual"), wie etwa Magen, Dickdarm und Herz, Unterschiede von Expressionsmustern, erhalten nach einem elektrischen Schock, einem Schock durch hohe Temperatur oder einem Schock durch niedrige Temperatur, Unterschiede zwischen der Anwesenheit und der Abwesenheit eines künstlichen Zustands, z.B. Expressionsmuster vor und nach Arzneiverabreichung, oder Unterschiede hinsichtlich einer Kombination davon.
  • Gemäß der vorliegenden Erfindung kann die Expression eines Teils eines Zellzyklus vorgesehen sein, um eine Clusterbildung in dieser Region in einem kleinen Bereich durchzuführen. Basierend auf den angezeigten Ergebnissen kann der Benutzer den Verlauf eines Expressionsstatus von Genen in größeren Einzelheiten beobachten, um die biologischen Funktionen der Gene anhand seines Expressionsstatus in effizienter Weise zu studieren.

Claims (11)

  1. Verfahren zum Darstellen von Genexpressionsmustern von mehreren Genen, deren Expressionen sich in Entsprechung zu experimentellen Fällen verändern, wobei eine erste Achse die Gene darstellt und eine zweite Achse die experimentellen Fälle darstellt, wobei das Verfahren die Schritte umfaßt: Bezeichnen eines Segments entlang der zweiten Achse in den Expressionsmusterdaten der mehreren Gene; und Clustering der Expressionsmusterdaten innerhalb des bezeichneten Segments entlang der zweiten Achse, basierend auf einem vorbestimmten Referenzwert, Wiederholen des Clustering innerhalb desselben Cluster in einer Richtung vorwärts oder rückwärts entlang der zweiten Achse und gleichzeitig Verändern des Referenzwerts und Darstellen der Ergebnisse entsprechend einem vorbestimmten Darstellungsformat.
  2. Verfahren zum Darstellen von Genexpressionsmustern nach Anspruch 1, wobei der Referenzwert bestimmt, ob zwei Expressionsmuster verschiedener Gene identisch sind oder nicht.
  3. Verfahren zum Darstellen von Genexpressionsmustern nach Anspruch 1 oder 2, wobei zwei oder mehrere unterschiedliche Gene entsprechend dem vorbestimmten Darstellungsformat dargestellt sind, wobei sie dasselbe Expressionsmuster zu Anfang haben, sich aber innerhalb des Segments entlang der zweiten Achse dahingehend verändern, daß sie unterschiedliche Expressionsmuster haben.
  4. Verfahren zum Darstellen von Genexpressionsmustern nach Anspruch 1 oder 2, wobei zwei oder mehrere unterschiedliche Gene entsprechend einem vorbestimmten Darstellungsformat dargestellt sind, wobei sie unterschiedliche Expressionsmuster zu Anfang haben, sich aber innerhalb des Segments entlang der zweiten Achse dahingehend verändern, daß sie dasselbe Expressionsmuster haben.
  5. Verfahren zum Darstellen von Genexpressionsmustern nach Anspruch 1, wobei die experimentellen Fälle in zeitlicher Abfolge durchgeführt werden.
  6. Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 5, wobei die experimentellen Fälle Zustände eines Gewebes eines Individuums sind.
  7. Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 5, wobei die experimentellen Fälle Spezies von Individuen sind.
  8. Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 7, wobei die experimentellen Fälle Stellen eines Individuums sind.
  9. Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 8, wobei die experimentellen Fälle die Anwesenheit und Abwesenheit eines künstlichen Zustands sind.
  10. Verfahren zum Darstellen von Genexpressionsmustern nach einem der Ansprüche 1 bis 5, wobei die experimentellen Fälle eine Kombination von zeitlich aufeinanderfolgenden Experimenten, Zuständen eines Gewebes eines Individuums, Spezies von Individuen, Stellen von Individuen und die Anwesenheit und Abwesenheit eines künstlichen Zustands sind.
  11. Vorrichtung zum Analysieren von Genexpressionsmustern, die aus einer Datenbank Expressionsmusterdaten von mehreren Genen erhält, deren Expressionen sich in Entsprechung zu experimentellen Fällen verändern, und die die Expressionsmuster visuell auf einem Bildschirm einer Darstellungsvorrichtung darstellt, wobei eine erste Achse die Gene repräsentiert und eine zweite Achse die experimentellen Fälle repräsentiert, wobei die Vorrichtung umfaßt: Eingabemittel zum Bezeichnen eines Segments entlang der zweiten Achse in den Expressionsmusterdaten der mehreren Gene, die aus der Datenbank erhalten werden; und eine arithmetische Einheit zum Clustering der Expressionsmusterdaten innerhalb des bezeichneten Segments entlang der zweiten Achse, basierend auf einem vorbestimmten Referenzwert, Wiederholen des Clustering innerhalb desselben Cluster in einer Richtung vorwärts oder rückwärts entlang der zweiten Achse und gleichzeitig Verändern des Referenzwerts und Darstellen der Ergebnisse entsprechend einem vorbestimmten Darstellungsformat.
DE60024029T 1999-09-30 2000-09-28 Verfahren und Vorrichtung zur Darstellung von Gen-Expressionsmustern Expired - Lifetime DE60024029T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP27791899A JP3628005B2 (ja) 1999-09-30 1999-09-30 遺伝子発現パターン表示方法および装置
JP27791899 1999-09-30
JP2000088695 2000-03-28
JP2000088695A JP3773092B2 (ja) 2000-03-28 2000-03-28 遺伝子発現パターン表示方法および装置並びに記録媒体

Publications (2)

Publication Number Publication Date
DE60024029D1 DE60024029D1 (de) 2005-12-22
DE60024029T2 true DE60024029T2 (de) 2006-08-03

Family

ID=26552634

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60024029T Expired - Lifetime DE60024029T2 (de) 1999-09-30 2000-09-28 Verfahren und Vorrichtung zur Darstellung von Gen-Expressionsmustern

Country Status (3)

Country Link
US (1) US7031847B1 (de)
EP (1) EP1089211B1 (de)
DE (1) DE60024029T2 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020178150A1 (en) * 2001-05-12 2002-11-28 X-Mine Analysis mechanism for genetic data
JP3917625B2 (ja) 2003-02-14 2007-05-23 富士通株式会社 データ解析装置
US20050240357A1 (en) * 2004-04-26 2005-10-27 Minor James M Methods and systems for differential clustering
AU2007341981A1 (en) * 2006-12-29 2008-07-10 The Salk Institute For Biological Studies Methods for enhancing exercise performance
JP5111902B2 (ja) * 2007-03-14 2013-01-09 シスメックス株式会社 癌の診断支援装置
US20110078194A1 (en) * 2009-09-28 2011-03-31 Oracle International Corporation Sequential information retrieval
US10552710B2 (en) * 2009-09-28 2020-02-04 Oracle International Corporation Hierarchical sequential clustering
US10013641B2 (en) * 2009-09-28 2018-07-03 Oracle International Corporation Interactive dendrogram controls
CA2740334C (en) 2010-05-14 2015-12-08 National Research Council Order-preserving clustering data analysis system and method
US20150293162A1 (en) * 2012-10-24 2015-10-15 Nec Corporation Electromagnetic field feature classification and presentation device
CN116110500A (zh) * 2023-04-07 2023-05-12 深圳人体密码基因科技有限公司 基于高通量测序数据的多疾病基因差异可视化方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5889523A (en) * 1997-11-25 1999-03-30 Fuji Xerox Co., Ltd. Method and apparatus for dynamically grouping a plurality of graphic objects
US6263287B1 (en) * 1998-11-12 2001-07-17 Scios Inc. Systems for the analysis of gene expression data

Also Published As

Publication number Publication date
EP1089211B1 (de) 2005-11-16
DE60024029D1 (de) 2005-12-22
EP1089211A3 (de) 2003-09-03
US7031847B1 (en) 2006-04-18
EP1089211A2 (de) 2001-04-04

Similar Documents

Publication Publication Date Title
DE69031774T2 (de) Adaptiver Gruppierer
Bundesen et al. Recent developments in a computational theory of visual attention (TVA)
DE69904435T2 (de) Verfahren und vorrichtung zur detektion von homologen sequenzen
DE60024029T2 (de) Verfahren und Vorrichtung zur Darstellung von Gen-Expressionsmustern
DE112015000964T5 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und Bildverarbeitungsprogramm
DE60015074T2 (de) Verfahren und vorrichtung zur beobachtung der therapieeffektivität
EP3341891A1 (de) Aktives maschinelles lernen zum trainieren eines ereignisklassifikators
DE60310267T2 (de) Messung der mitoseaktivität
DE112020002954T5 (de) Merkmalsgrößen-Extraktionsvorrichtung, Merkmalsgrößen-Extraktionsverfahren, Identifikationsvorrichtung, Identifikationsverfahren und Programm
DE112017005640T5 (de) Informationsverarbeitungsvorrichtung und Informationsverarbeitungsverfahren
CN111000553A (zh) 一种基于投票集成学习的心电数据智能分类方法
EP1797533A1 (de) Verfahren und vorrichtung zur segmentierung einer digitalen abbildung von zellen
DE60217748T2 (de) Verfahren und Gerät zur Anzeige eines Bildraumes
DE102018215770A1 (de) Bildbearbeitungsvorrichtung, Zell-Erkennungsvorrichtung, Zell-Erkennungsverfahren und Zell-Erkennungsprogramm
DE102005049017B4 (de) Verfahren zur Segmentierung in einem n-dimensionalen Merkmalsraum und Verfahren zur Klassifikation auf Grundlage von geometrischen Eigenschaften segmentierter Objekte in einem n-dimensionalen Datenraum
DE10017551A1 (de) Verfahren zur zyklischen, interaktiven Bildanalyse sowie Computersystem und Computerprogramm zur Ausführung des Verfahrens
DE60026732T2 (de) Zellenreihen-extraktionsverfahren
DE102005015000A1 (de) Verfahren und System zur Analyse von arraybasierten Komparativhybridisierungsdaten
DE102008024282B4 (de) Verfahren zur Vorhersage der Sekundärstruktur einer Nucleinsäuresequenz, Vorhersagevorrichtung für die Sekundärstruktur einer Nucleinsäuresequenz und Vorhersageprogramm zum Vorhersagen der Sekundärstruktur einer Nucleinsäuresequenz
DE69619154T2 (de) Verfahren und Vorrichtung zur Mustererkennung
DE60023496T2 (de) Mathematische analyse für die schätzung von veränderungen des niveaus der gen-expression
DE69432316T2 (de) Automatische erbgut bestimmung
DE112021003912T5 (de) Vorrichtung zum prognostizieren einer mutation eines virus, verfahren zum prognostizieren einer mutation eines virus, und programm
DE69011917T2 (de) Vorrichtung für die automatische Gültigkeitsanalyse von medizinischen Prüfdaten.
Jelinek et al. MicroMod—an L-systems approach to neuron modelling

Legal Events

Date Code Title Description
8364 No opposition during term of opposition