DE102005012665A1

DE102005012665A1 - Verfahren und Vorrichtung zum Ermitteln von Clustern aus einer Mehrzahl von in Aufträgen geordneten Daten

Info

Publication number: DE102005012665A1
Application number: DE102005012665A
Authority: DE
Inventors: Clemens Dr. Otte; Rudolf Dr. Sollacher; Volker Dr. Tresp
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2005-03-18
Filing date: 2005-03-18
Publication date: 2006-09-21
Also published as: US20060224549A1; US7949620B2

Abstract

Bei einem Verfahren zum Ermitteln von Clustern aus in Aufträgen angeordneten Daten in einem Rechner werden in einem ersten Schritt anfängliche Cluster mit nur einer Komponente gebildet. Es wird eine bedingte Wahrscheinlichkeit DOLLAR I1 dass der Cluster Ci in einem Auftrag enthalten ist, unter der Bedingung, dass der Cluster C'k in dem Auftrag enthalten ist, bestimmt. Überschreitet DOLLAR I2 einen ersten Schwellwert S1, wird ein neuer Cluster Cn mit allen Komponenten der Cluster Ci, C'k gebildet und es werden die bisherigen Schritte wiederholt, bis keine neuen Cluster gebildet werden.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Ermitteln von Clustern aus Daten, insbesondere von Daten, die komplexe Produkte oder Dienstleistungen geordnet in Aufträge beschreiben. Solche Daten zeichnen sich dadurch aus, dass sie in Aufträgen geordnet werden können, die teilweise gleiche Daten enthalten. Beispielsweise können gleiche Komponenten oder Teildienstleistungen mehrfach vorkommen, wenn in einem Unternehmen dasselbe Produkt mehrfach verkauft wird, oder gleiche Bauteile bei verschiedenen Produkten vorkommen, oder wenn in komplex zu organisierenden Aufträgen im Medizinbereich einzelne Vorgänge, wie Patientenbezogenen Untersuchungen oder Behandlungen sowie Pflegemaßnahmen in einem Krankenhaus, mehrfach enthalten sind. Für eine effiziente Organisation ist es dann notwendig, korrelierte Daten aus den in Aufträgen geordneten Daten zu ermitteln.

Insbesondere tritt dieses Problem bei der rechnergestützten Steuerung eines Krankenhausbetriebs auf, wenn im Bereich des Krankenhaus- und Patientenmanagements solche Leistungen organisiert, geplant und gesteuert werden müssen, wie die genannten Untersuchungen, allgemeinen Pflegemaßnahmen oder auch speziellen Rehabilitationsmaßnahmen

Vergleichbare Probleme treten auch allgemein im Bereich der rechnergestützten Produktion und Auftragsabwicklung in Unternehmen auf.

Um solche korrelierten Gruppen innerhalb der Daten zu finden, ist die „Independent Component Analysis" [Aapo Hyvärinen, Juha Karhunen, Erkki Oja. Independent Component Analysis, Wiley-Interscience, 2001, S. 1–71] bekannt, bei der unabhängige Komponenten der beobachteten Daten gesucht werden. Dabei kann es sich unter anderem um beobachtete Daten wie ökonomische Indikatoren handeln. Da das Verfahren ursprünglich aus der Signaltheorie stammt kann es auf binäre Datenreihen nicht ohne weiteres angewandt werden. Da im vorliegenden Fall aber gerade korrelierte Daten gesucht werden, bei denen bestimmte Komponenten oder Dienstleistungen vorkommen, oder nicht, und dies gerade binär dargestellt wird, sind die Independent Component Analysis-Verfahren vorliegend nicht besonders günstig.

Weiter ist hierarchisches Clustern bekannt, das disjunkte Cluster erzeugt, die keine gemeinsamen Komponenten haben. Dabei muss eine Hierarchieebene gewählt werden, auf der die Cluster definiert werden.

Nachteilig daran ist, dass gerade Cluster gesucht werden, die zum Teil gleiche Daten enthalten und dieses Verfahren daher nicht die gewünschten Cluster ermittelt und eine notwendige Hierarchieebene nicht einfach bestimmbar ist.

Ebenfalls bekannt ist ein Verfahren bezeichnet als „Frequent Item Sets", das insoweit Probleme bereitet, als es zu viele hoch korrelierte Gruppen liefert, vor allem, wenn auch weniger häufig vorkommende Gruppen berücksichtigt werden.

Bei der „Probabilistic Latent Semantic Analysis" wird nach statistisch unabhängigen Quelldaten gesucht, die Verteilungen über einzelne Komponenten erzeugen. Aus diesen Verteilungen kann über eine Schwelle eine Gruppe definiert werden, wobei die Schwelle nicht einfach zu bestimmen ist und die Anzahl der Quelldaten festgelegt werden muss.

Es ist daher Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Verfügung zu stellen, die es ermöglichen, Cluster aus Gruppen von Daten zu ermitteln, insbesondere von Daten, die Aufträge, wie Leistungen und Produkte des Krankenhaus- und Patientenmanagements beschreiben und die zumindest zum Teil korreliert sind.

Die Lösung dieser Aufgaben ergibt sich erfindungsgemäß durch ein Verfahren gemäß den Merkmalen des Anspruchs 1 sowie durch eine Steuervorrichtung nach Anspruch 8.

Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen angegeben.

Durch das erfindungsgemäße Verfahren werden Cluster automatisch aus vorhandenen Daten identifiziert. Vor allem können dadurch bestimmte Cluster aus Aufträgen gefunden werden, die korreliert sind, so dass eine Standardisierung der Vorgänge erreicht werden kann.

Vorteilhaft werden nach dem Schritt des Bildens neuer Cluster Cn und vor dem jeweiligen Wiederholen des Bestimmens einer bedingten Wahrscheinlichkeit P(Ci|C'k), alle Cluster entfernt, die in einem anderen Cluster enthalten sind und in einem Auftrag nur gleichzeitig mit diesem Cluster enthalten sind.

Dadurch wird die Anzahl der Cluster um diejenigen reduziert, die nicht getrennt beachtet werden müssen, da sie nur als Teil eines anderen, zuvor neu gebildeten Cluster auftreten.

In einer günstigen Ausführungsform werden nach dem Schritt des Bildens neuer Cluster Cn und vor dem jeweiligen Wiederholen des Bestimmens einer bedingten Wahrscheinlichkeit P(Ci|C'k), alle Cluster Cl entfernt, die in einem anderen Cluster Cg enthalten sind, wenn die bedingte Wahrscheinlichkeit P(Cl|Cg) größer als ein festgelegter zweiter Schwellwert S2 ist.

Es werden Cluster Cl nicht mehr getrennt berücksichtigt, wenn die Wahrscheinlichkeit, dass sie zusammen mit einem anderen Cluster auftreten über einem Schwellwert liegt. Dadurch werden weniger relevante Cluster aussortiert.

In einer günstigen Ausführungsform werden nach dem Schritt des Bildens neuer Cluster Cn und vor dem jeweiligen Wiederho len des Bestimmens einer bedingten Wahrscheinlichkeit P(Ci|C'k), alle Cluster Cl entfernt, die weniger häufig als ein dritter Schwellwert S3 in den Aufträgen vorkommen.

Dadurch werden Cluster, die insgesamt zahlenmäßig nur sehr wenig auftreten, unabhängig von den bedingten Wahrscheinlichkeiten bzw. den Korrelationen entfernt.

Die Cluster können nach der Häufigkeit ihres Auftretens in den Aufträgen sortiert werden.

Dies ermöglicht es, besonders relevante Korrelationen zu finden.

Die Aufträge können Behandlungen und Untersuchungen sowie Pflegemaßnahmen eines rechnergestützten Krankenhaus- und Patientenmanagements, oder solche über Produkte im Mobilfunkbereich sein.

Im Krankenhaus- und Patientenmanagement ist es erforderlich, eine durchgängige, möglichst personenunabhängige Qualität der Behandlungen zu gewährleisten. Dazu wird eine Standardisierung der Behandlungen angestrebt. Das hier beschriebene Verfahren ermöglicht es Experten, Cluster, bestehend aus Behandlungen, automatisch aus vorhandenen Daten zu identifizieren. Das Verfahren kann daher beispielsweise nach Einführung eines neuen Medikaments durchgeführt werden, wobei anhand der gefundenen Cluster Behandlungen und Maßnahmen bei bestimmten Krankheiten optimiert werden können.

Nachfolgend wird ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens zum Ermitteln von Clustern aus in Aufträgen geordneten Daten in einem Rechner durch die beigefügten Zeichnungen näher erläutert. Dabei zeigt
1 schematisch den Ablauf eines erfindungsgemäßen Verfahrens und
2 das erfindungsgemäße Verfahren in einem Flussdiagramm,
1 zeigt schematisch den grundsätzlichen Ablauf eines erfindungsgemäßen Verfahrens. Aus einer Datenbank 1 mit in Aufträgen geordneten Daten, hier Leistungen und Produkte des Krankenhaus- und Patientenmanagements beschreibende Daten, werden die Aufträge in einer Umsetzeinheit 2 in ein binäres Format umgesetzt. Sodann werden in einer Clustereinheit 3 das erfindungsgemäße Verfahren durchgeführt und die gefundenen Cluster auf einem Bildschirm 4 dargestellt.
2 zeigt das erfindungsgemäße Verfahren in einem Flussdiagramm. In einer ersten Operation 1 werden erste Cluster gebildet. Wenn für die weitere Beschreibung des Verfahrens die folgenden Bezeichnungen vereinbart werden:

A1, A2, ...: Auf träge

K1, K2, ...: Daten, die Leistungen und Produkte des Krankenhausund Patientenmanagements beschreiben (Komponenten)

Ci, C'k: Cluster i, bzw. k

können als Beispiel die folgenden 10 Aufträge A1–A10 mit Komponenten K1–K4 in Tabellenform zusammengestellt werden:
Dabei stehen die Komponenten K1–K4 beispielsweise für Medikamentierungen, Behandlungen oder Pflegemaßnahmen. Dann werden in der ersten Operation 1 die folgenden vier ersten Cluster gebildet:
Von diesen ersten Clustern C1–C4 enthält jeder nur eine Komponente. In einer zweiten Operation 6 wird die bedingte Wahrscheinlichkeit P(Ci|C'k) für alle i, k berechnet. Für die Werte i = 1, k = 2 ergibt sich, dass Cluster C2 in den Aufträgen A2 und A4 vorkommt. Dabei erscheint C1 nur in A2. Damit ist P(C1|C'2) = 0.5, also die Wahrscheinlichkeit, dass C1 unter der Nebenbedingung auftritt, dass auch C2 auftritt. Für alle möglichen Werte von i, k zwischen 1 und 4 ergibt sich:
In einer nun folgenden ersten Verzweigung 7 wird abgefragt, ob eine der bedingten Wahrscheinlichkeiten P(Ci|C'k) > S1, wobei S1 eine festgelegte Schwelle, hier beispielsweise 0.8 ist. Dies ist für P(C1|C'4) der Fall und in einer dritten Operation 8 wird aus C4 und C1 ein neuer Cluster C5 gebildet, der die Komponenten von C1 und C4 enthält. Es ergibt sich somit eine neue Clustertabelle:
In einer vierten Operation 9 werden alle Cluster beseitigt, die identisch in einem anderen Cluster enthalten sind und immer nur zusammen mit diesem Cluster vorkommen. C1 und C4 sind identisch in C5 enthalten. C1 kommt in den Aufträgen A1, A2, A7, A8 vor. C4 kommt in den Aufträgen A1, A8 vor; C5 kommt in den Aufträgen A1 und A8 vor. C4 kommt also zusammen mit C5 vor und wird gelöscht. Es ergeben sich somit die folgenden aktuellen Cluster C1, C2, C3, C5:
In einer fünften Operation 10 werden alle Cluster entfernt, die identisch in einem anderen Cluster enthalten sind und deren bedingte Wahrscheinlichkeit für ein Auftreten zusammen mit diesem Cluster größer als ein zweiter Schwellwert S2 ist. Dies ist beim vorliegenden Beispiel bei keinem Cluster der Fall.
In einer sechsten Operation 11 werden alle Cluster entfernt, deren zahlenmäßige Häufigkeit des Auftretens in den Aufträgen unter einem Schwellwert S3 liegt. Davon ist im vorliegenden Beispiel kein Cluster betroffen.
In der zweiten Verzweigung 12 wird abgefragt, ob neue Cluster gebildet wurden. Dies ist mit dem Cluster C5 der Fall. Das Verfahren kehrt daher zurück zu der zweiten Operation 6 und berechnet wiederum bedingte Wahrscheinlichkeiten P(Ci|C'k). Beispielsweise ergibt sich für i = 3, k = 5, dass der Cluster C5 in den Aufträgen A1 und A8 vorkommt. Davon kommt C3 nur in A8 vor. Damit ist P(C3|C'5) = 0.5. Für alle Werte von i, k ergibt sich die folgende Tabelle:
In der ersten Verzweigung 7 folgt somit, dass P(C1|C'5) > 0.8 und es würde ein neuer Cluster C6 in der dritten Operation 8 gebildet, der aber identisch ist mit C5. Damit werden keine neuen Cluster mehr gebildet und in der zweiten Verzeigung 12 gelangt das Verfahren zum Ende. Die resultierenden Cluster sind:
Das hier beschriebene Verfahren kann auch dazu verwendet werden, in anderen Produkten wie z.B. Basisstationen für Mobilfunknetze, die aus vielen tausend Komponenten bestehen, standardisierte Plattformen zu identifizieren. Dabei erfüllen viele verschiedene Komponenten im Wesentlichen die gleiche Funktion. Vertrieb und Entwicklung versuchen daher, möglichst Gleichkomponenten zu verwenden, um die Vielfalt der Komponenten und damit den Vertriebs-, Instandhaltungs- und Entwicklungsaufwand zu reduzieren.

Claims

Verfahren zum Ermitteln von Clustern aus in Aufträgen geordneten Daten in einem Rechner, wobei die Aufträge zumindest zum Teil so korreliert sind, dass sie Komponenten wie Dienstleistungen und Produkte enthalten, die zumindest zum Teil mehrfach vorkommen, mit den Schritten: – Bilden von anfänglichen Clustern, die jeweils nur eine, zu allen anderen Komponenten unterschiedliche, Komponente enthalten, – Bestimmen einer bedingten Wahrscheinlichkeit P(Ci|C'k), dass der Cluster Ci in einem Auftrag enthalten ist unter der Bedingung, dass der Cluster C'k in dem Auftrag enthalten ist, über alle i und für alle k, wobei i, k alle vorhandenen Cluster durchlaufen, – Bilden neuer Cluster Cn, die alle Komponenten der Cluster Ci, C'k enthalten, deren bedingte Wahrscheinlichkeit P(Ci|C'k) einen ersten Schwellwert S1 überschreitet, und – Wiederholen des Bestimmens einer bedingten Wahrscheinlichkeit P(Ci|C'k), dass der Cluster Ci in einem Auftrag enthalten ist unter der Bedingung, dass der Cluster C'k in dem Auftrag enthalten ist, über alle i und für alle k und des Bildens neuer Cluster Cn, bis keine neuen Cluster gebildet werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass nach dem Schritt des Bildens neuer Cluster Cn und vor dem jeweiligen Wiederholen des Bestimmens einer bedingten Wahrscheinlichkeit P(Ci|C'k), alle Cluster entfernt werden, die in einem anderen Cluster enthalten sind und in einem Auftrag nur gleichzeitig mit diesem Cluster enthalten sind.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass nach dem Schritt des Bildens neuer Cluster Cn und vor dem jeweiligen Wiederholen des Bestimmens einer bedingten Wahrscheinlichkeit P(Ci|C'k), alle Cluster Cl entfernt werden, die in einem anderen Cluster Cg enthalten sind, wenn die bedingte Wahrscheinlichkeit P(Cl|Cg) größer als ein festgelegter zweiter Schwellwert S2 ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass nach dem Schritt des Bildens neuer Cluster Cn und vor dem jeweiligen Wiederholen des Bestimmens einer bedingten Wahrscheinlichkeit P(Ci|C'k), alle Cluster Cl entfernt werden, die weniger häufig als ein dritter Schwellwert S3 in den Aufträgen vorkommen.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Cluster nach der Häufigkeit ihres Auftretens in den Aufträgen sortiert werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Aufträge Behandlungen und Untersuchungen sowie Pflegemaßnahmen eines rechnergestützten Krankenhaus- und Patientenmanagements sind.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Aufträge solche über Produkte im Mobilfunkbereich sind.
Steuervorrichtung zur Planung und Steuerung der Behandlungen, Untersuchungen und Pflegemaßnahmen in einem Krankenhaus, bestehend aus einem Rechnernetzwerk mit Benutzerschnittstellen, auf dem ein Verfahren nach einem der Ansprüche 1 bis 6 abläuft.
Computerprogrammprodukt, das in den Speicher eines Computers geladen, wenn es als Programm abläuft, ein Verfahren nach einem der Ansprüche 1 bis 7 durchführt.
Speichermedium auf dem ein Computerprogrammprodukt nach Anspruch 9 gespeichert ist.