DE102014116177A1

DE102014116177A1 - Patientenrisiko-Stratifizierung durch Verknüpfen von wissengesteuerten und datengesteuerten Erkenntnissen

Info

Publication number: DE102014116177A1
Application number: DE102014116177.7A
Authority: DE
Inventors: c/o IBM Corporation Hu Jianying; c/o IBM Corporation Qian Buyue; c/o IBM Corporation Wang Fei; c/o IBM Corporation Wang Jun; c/o IBM Corporation Wang Xiang
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-12-05
Filing date: 2014-11-06
Publication date: 2015-06-11
Also published as: US10978208B2; CN104699939A; US20150161346A1

Abstract

Ein System und ein Verfahren zum Stratifizieren von Patienten enthalten ein Ermitteln einer ersten Menge von Patientengruppen aus Patienten in einem Patienten-Ähnlichkeitsgraphen auf der Grundlage einer Ähnlichkeitsstruktur des Patienten-Ähnlichkeitsgraphen. Eine zweite Menge von Patientengruppen wird auf der Grundlage von Experten-Fachwissen identifiziert, das hinsichtlich der Patienten relevant ist. Patienten in der ersten Menge und in der zweiten Menge werden unter Verwendung eines Prozessors abgeglichen, um Patienten zu stratifizieren.

Description

HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf Identifizieren von Risikogruppen und insbesondere auf Verknüpfen von wissengesteuerten Erkenntnissen und datengesteuerten Erkenntnissen zum Identifizieren von Risikogruppen aus einem Patienten-Ähnlichkeitsnetzwerk.
Beschreibung des Standes der Technik
Personalisierte Vorsorge ist einer der Haupttrends in der modernen medizinischen Informatik, wobei ein wesentlicher Schritt darin besteht, die Patientenkohorte in homogene Gruppen zu segmentieren, so dass für jede Gruppe ein individuell angepasster Behandlungsplan gebildet werden kann. Patientenrisiko-Stratifizierung kann als eine spezielle Art der Segmentierung einer Patientenkohorte betrachtet werden, so dass Patienten in jeder Gruppe ähnliche Risiken teilen, nachteilige Auswirkungen zu erleiden, z. B. der Ausbruch von kongestiver Herzinsuffizienz (CHF).
Ein Hauptproblem bei der Risiko-Stratifizierung ist die Heterogenität der klinischen Bedingungen von Patienten. CHF-Patienten weisen beispielsweise unterschiedliche Komorbiditäten auf wie z. B. Diabetes, Nierenleiden, Lungenerkrankungen usw. In verschiedenen Komorbiditätsgruppen sind die medizinischen Merkmale, die zum Risiko beitragen, oder Risikofaktoren unterschiedlich. Selbst bei üblichen Risikofaktoren über unterschiedliche Patientengruppen könnten ihre Beiträge zu der Risikobewertungszahl beträchtlich variieren. Bei Asthma handelt es sich um einen bekannten Risikofaktor für Herzerkrankungen, es wird jedoch stärker zum Herzerkrankungsrisiko bei Patienten mit anderen vorhandenen Lungenerkrankungen beitragen als bei Patienten mit Diabetes. Deswegen ist ein Bilden eines universellen Risikovorhersagemodells unter Verwendung einer gemeinsamen Gruppe von Risikofaktoren möglicherweise nicht der beste Ansatz zur Risiko-Stratifizierung. Es ist vielmehr sinnvoll, die Patientenkohorte zuerst in Risikogruppen mit konsistenten klinischen Bedingungen zu segmentieren und anschließend das Vorhersagemodell unter Verwendung von individuell angepassten Risikofaktoren aus jeder Gruppe zu bilden.
Um die Patientenkohorte genau zu segmentieren, sollten Vorkenntnisse von Fachexperten (z. B. Ärzten) eingebracht werden. Einerseits ist es sehr wichtig, dieses Fachwissen (häufig in Form von bekannten Risikofaktoren) einzubringen, da es maßgebliche medizinische Erkenntnisse widerspiegelt. Andererseits ist dieses Fachwissen meistens unvollständig, da Fachexperten lediglich eine Beratung in ihren Fachbereichen geben können, die wahrscheinlich nicht alle relevanten medizinischen Aspekte einer vorgegebenen Patientenkohorte abdeckt.
KURZDARSTELLUNG
Ein Verfahren zur Risiko-Stratifizierung beinhaltet Ermitteln einer ersten Menge von Patientengruppen aus Patienten in einem Patienten-Ähnlichkeitsgraphen auf der Grundlage einer Ähnlichkeitsstruktur des Patienten-Ähnlichkeitsgraphen. Eine zweite Menge von Patientengruppen wird auf der Grundlage von Experten-Fachwissen identifiziert, das hinsichtlich der Patienten relevant ist. Patienten in der ersten Menge und in der zweiten Menge werden unter Verwendung eines Prozessors abgeglichen, um Patienten zu stratifizieren.
Ein System zur Patienten-Stratifizierung enthält ein datengesteuertes Identifizierungsmodul, das so eingerichtet ist, dass es eine erste Menge von Patientengruppen aus Patienten in einem Patienten-Ähnlichkeitsgraphen auf der Grundlage einer Ähnlichkeitsstruktur des Patienten-Ähnlichkeitsgraphen ermittelt. Ein wissengesteuertes Identifizierungsmodul ist so eingerichtet, dass es eine zweite Menge von Patientengruppen auf der Grundlage von Experten-Fachwissen identifiziert, das hinsichtlich der Patienten relevant ist. Ein Abgleichmodul ist so eingerichtet, dass es Patienten in der ersten Menge und in der zweiten Menge unter Verwendung eines Prozessors abgleicht, um Patienten zu stratifizieren.
Diese sowie weitere Merkmale und Vorteile werden aus der nachfolgenden genauen Beschreibung von deren veranschaulichenden Ausführungsformen deutlich, die im Zusammenhang mit den beigefügten Zeichnungen gelesen werden sollte.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Die Offenbarung stellt Einzelheiten in der folgenden Beschreibung von bevorzugten Ausführungsformen unter Bezugnahme auf die folgenden Figuren bereit, in denen:
1 ein Übersichts-Blockschaubild/Ablaufplan ist, das/der ein System zum Stratifizieren von Patientenrisiko gemäß einer veranschaulichenden Ausführungsform zeigt;
2 ein Blockschaubild/Ablaufplan ist, das/der ein System zum Stratifizieren von Patientenrisiko gemäß einer veranschaulichenden Ausführungsform zeigt;
3 einen Graphen eines beispielhaften Patienten-Ähnlichkeitsnetzwerks gemäß einer veranschaulichenden Ausführungsform zeigt;
4 einen Graphen eines beispielhaften Patienten-Ähnlichkeitsnetzwerks mit Risikogruppen zeigt, die lediglich aus datengesteuerten Erkenntnissen identifiziert werden, gemäß einer veranschaulichenden Ausführungsform;
5 einen Graphen eines beispielhaften Patienten-Ähnlichkeitsnetzwerks mit wissengesteuerten Erkenntnissen zeigt, die darin eingefügt sind, gemäß einer veranschaulichenden Ausführungsform;
6 einen Graphen eines beispielhaften Patienten-Ähnlichkeitsnetzwerks mit Risikogruppen sowohl aus datengesteuerten Erkenntnissen als auch von wissengesteuerten Erkenntnissen gemäß einer veranschaulichenden Ausführungsform zeigt; und
7 ein Ablaufplan in Blockform ist, der ein Verfahren zum Stratifizieren von Patientenrisiko gemäß einer veranschaulichenden Ausführungsform zeigt.
GENAUE BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUNGSFORMEN
Gemäß den vorliegenden Grundgedanken werden Systeme und Verfahren zum Stratifizieren von Patientenrisiko durch Verknüpfen von wissengesteuerten und datengesteuerten Erkenntnissen bereitgestellt. Die vorliegenden Grundgedanken formulieren eine Zielfunktion, die als Eingabe einen Patienten-Ähnlichkeitsgraphen und Experten-Fachwissen (z. B. bekannte Risikofaktoren) empfängt und eine Menge von Patienten-Risikogruppen ausgibt, die mit den bekannten Risikofaktoren abgeglichen werden. Die Zielfunktion wird formuliert, um eine erste Menge von Patienten-Risikogruppen aus Patienten in einem Patienten-Ähnlichkeitsgraphen auf der Grundlage einer Ähnlichkeitsstruktur des Patienten-Ähnlichkeitsgraphen zu ermitteln. Eine zweite Menge von Patienten-Risikogruppen wird auf der Grundlage von Experten-Fachwissen identifiziert, das hinsichtlich der Patienten relevant ist. Patienten in der ersten Menge und der zweiten Menge werden zum Stratifizieren von Patienten abgeglichen. Die vorliegenden Grundgedanken können datengesteuerte Risikogruppen entdecken, die nicht durch die wissengesteuerten Risikofaktoren abgedeckt sind. Eine wirksame Lösung wird auf der Grundlage einer Funktion Block Coordinate Descent vorgeschlagen, um die Zielfunktion zu lösen.
Die vorliegenden Grundgedanken beruhen in vorteilhafter Weise auf einem Graphen und können deswegen Risikogruppen aus einem Patienten-Ähnlichkeitsnetzwerk ohne Zugreifen auf die ursprünglichen klinischen Merkmale identifizieren. Die vorliegenden Grundgedanken können außerdem unvollständiges und sehr dürftiges Fachwissen beinhalten.
Einem Fachmann ist klar, dass Aspekte der vorliegenden Erfindung als System, Verfahren oder Computerprogrammprodukt verkörpert werden können. Dementsprechend können Aspekte der vorliegenden Erfindung die Form einer reinen Hardware-Ausführungsform, einer reinen Software-Ausführungsform (darunter Firmware, residente Software, Mikrocode usw.) oder einer Ausführungsform, die Software- und Hardware-Aspekte kombiniert, annehmen, die hier alle allgemein als ”Schaltung”, ”Modul” oder ”System” bezeichnet werden können. Des Weiteren können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien verkörpert wird, die computerlesbaren Programmcode aufweisen, der darin ausgeführt wird.
Jede Kombination aus einem oder mehreren computerlesbaren Medien kann genutzt werden. Bei dem computerlesbaren Medium kann es sich um ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium handeln. Ein computerlesbares Speichermedium kann z. B. ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, -vorrichtung oder -einheit oder jede geeignete Kombination des Vorhergehenden sein, ist jedoch nicht darauf beschränkt. Zu spezifischeren Beispielen (eine nicht erschöpfende Liste) des computerlesbaren Speichermediums würde Folgendes gehören: eine elektrische Verbindung mit einer oder mehreren Leitungen, eine tragbare Computerdiskette, ein Festplattenlaufwerk, ein Direktzugriffsspeicher (RAM), ein Festwertspeicher (ROM), ein löschbarer programmierbarer Festwertspeicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer Compactdisk-Festwertspeicher (CD-ROM), eine optische Speichereinheit, eine magnetische Speichereinheit oder jede geeignete Kombination des Vorhergehenden. Im Kontext dieses Dokuments kann ein computerlesbares Speichermedium jedes materielle Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Befehlsausführung enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein sich ausbreitendes Datensignal mit computerlesbarem Programmcode enthalten, der darin z. B. im Basisband oder als Teil einer Trägerwelle verkörpert wird. Ein derartiges sich ausbreitendes Signal kann jede von einer Vielfalt von Formen annehmen, zu denen elektromagnetische, optische Formen oder jede geeignete Kombination hiervon gehören, jedoch nicht darauf beschränkt sind. Ein computerlesbares Signalmedium kann jedes computerlesbare Medium sein, das kein computerlesbares Speichermedium ist und ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Befehlsausführung übertragen, verbreiten oder transportieren kann.
Programmcode, der auf einem computerlesbaren Medium verkörpert ist, kann unter Verwendung jedes geeigneten Mediums übertragen werden, darunter drahtlose, leitungsgestützte, Lichtwellenleiterkabel-, Hochfrequenz-(HF-)Medien usw. oder jede geeignete Kombination aus dem Vorhergehenden, ohne darauf beschränkt zu sein. Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in jeder Kombination aus einer oder mehreren Programmiersprachen geschrieben sein, darunter eine objektorientierte Programmiersprache wie Java, Smalltalk, C++ oder dergleichen und herkömmliche prozedurale Programmiersprachen wie etwa die Programmiersprache ”C” oder ähnliche Programmiersprachen. Der Programmcode kann nur auf dem Computer eines Benutzers, teilweise auf dem Computer eines Benutzers, als ein eigenständiges Software-Paket, teilweise auf dem Computer eines Benutzers und teilweise auf einem fernen Computer oder nur auf dem fernen Computer oder Server ausgeführt werden. In dem zuletzt genannten Szenario kann der ferne Computer mit dem Computer des Benutzers durch jeden Netzwerktyp verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann zu einem externen Computer (z. B. über das Internet unter Verwendung eines Internet-Dienstanbieters) hergestellt werden.
Aspekte der vorliegenden Erfindung werden hier unter Bezugnahme auf Ablaufplan-Darstellungen und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es ist klar, dass jeder Block der Ablaufplan-Darstellungen und/oder Blockschaubilder und Kombinationen von Blöcken in den Ablaufplan-Darstellungen und/oder Blockschaubildern durch Computerprogrammbefehle umgesetzt werden können. Diese Computerprogrammbefehle können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu bilden, so dass Befehle, die über den Prozessor des Computers oder der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, Mittel zum Umsetzen der Funktionen/Wirkungen, die in dem Block oder den Blöcken des Ablaufplans und/oder Blockschaltbilds spezifiziert sind, erzeugen.
Diese Computerprogrammbefehle können außerdem in einem computerlesbaren Medium gespeichert sein, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anweisen kann, in einer bestimmten Weise zu funktionieren, so dass die in dem computerlesbaren Medium gespeicherten Befehle einen Herstellungsgegenstand produzieren, der Befehle enthält, die die Funktion/Wirkung umsetzen, die in dem Block/den Blöcken des Ablaufplans und/oder Blockschaltbilds spezifiziert sind. Die Computerprogrammbefehle können außerdem in einen Computer, andere programmierbare Datenverarbeitungsvorrichtungen oder andere Einheiten geladen werden, um eine Reihe von Operationsschritten zu bewirken, die auf dem Computer, der anderen programmierbaren Datenverarbeitungsvorrichtung oder anderen Einheiten ausgeführt werden sollen, um einen durch einen Computer umgesetzten Prozess zu erzeugen, so dass die Befehle, die auf dem Computer oder der anderen programmierbaren Vorrichtung ausgeführt werden, Prozesse zum Umsetzen der Funktionen/Wirkungen, die in dem Block oder Blöcken des Ablaufplans und/oder Blockschaltbilds spezifiziert sind, bereitstellen.
Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, Funktionalität und Operation von möglichen Umsetzungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedener Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in dem Ablaufplan oder in Blockschaubildern ein Modul, Segment oder Abschnitt von Code repräsentieren, der einen oder mehrere ausführbare Befehle zum Umsetzen der spezifizierten logischen Funktion(en) aufweist. Es sollte außerdem angemerkt werden, dass bei einigen alternativen Umsetzungen die in dem Block angegebenen Funktionen möglicherweise nicht in der in den Figuren angegebenen Reihenfolge auftreten. Zum Beispiel können zwei Blöcke, die nacheinander gezeigt sind, tatsächlich im Wesentlichen gleichzeitig ausgeführt werden oder die Blöcke können gelegentlich in Abhängigkeit von der beteiligten Funktionalität in der umgekehrten Reihenfolge ausgeführt werden. Es wird außerdem angemerkt, dass jeder Block in den Blockschaubildern und/oder Ablaufplan-Darstellungen und Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplan-Darstellung durch Systeme, die auf spezieller Hardware beruhen, die die spezifizierten Funktionen oder Wirkungen ausführen, oder Kombinationen aus spezieller Hardware und Computerbefehlen umgesetzt werden können.
Die Bezugnahme in der Beschreibung auf „eine Ausführungsform” („one embodiment” bzw. „an embodiment”) sowie weitere Variationen hiervon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, ein bestimmtes Kennzeichen usw., das bzw. die in Verbindung mit der Ausführungsform beschrieben wird, in wenigstens einer Ausführungsform der vorliegenden Grundgedanken enthalten ist. Daher bezieht sich das Auftreten des Ausdrucks „in einer Ausführungsform” („in one embodiment” oder „in an embodiment”) sowie aller anderen Variationen, die in der gesamten Beschreibung an verschiedenen Stellen vorkommen, nicht notwendigerweise auf dieselbe Ausführungsform.
Es ist klar, bei der Verwendung von einem der folgenden Ausdrücke „/”, „und/oder” und „wenigstens eines von” z. B. in den Fällen von „A/B”, „A und/oder B” und „wenigstens A oder B” ist vorgesehen, dass die Auswahl lediglich die erste aufgeführte Option (A) oder die Auswahl lediglich die zweite Option (B) oder die Auswahl beide Optionen (A und B) umfasst. Als weiteres Beispiel ist in den Fällen von „A, B und/oder C” und „wenigstens eines von A, B und C” bei der Verwendung von diesen Ausdrücken vorgesehen, dass die Auswahl lediglich die erste aufgeführte Option (A) oder lediglich die zweite aufgeführte Option (B) oder lediglich die dritte aufgeführte Option (C) oder lediglich die erste und die zweite aufgeführte Option (A und B) oder lediglich die erste und die dritte aufgeführte Option (A und C) oder lediglich die zweite und die dritte aufgeführte Option (B und C) oder alle drei Optionen (A und B und C) umfasst. Wie für einen Fachmann auf diesem und verwandten Gebieten leicht ersichtlich kann das auf beliebig viele aufgeführte Elemente erweitert werden.
In den Zeichnungen, bei denen gleiche Nummerierungen gleiche oder ähnliche Elemente angeben, und zunächst in 1 ist ein Blockschaubild/Ablaufplan, das/der eine Gesamtübersicht eines Systems 100 zur Patientenrisiko-Stratifizierung zeigt, gemäß einer Ausführungsform veranschaulichend dargestellt. Das System 100 zur Patientenrisiko-Stratifizierung enthält ein neuartiges semi-überwachtes Lernsystem für die Untersuchung von daten- und wissengesteuerten Patienten-Risikogruppen.
Eine Datenbank 102 mit elektronischen medizinischen Datensätzen (EMR) enthält Angaben über medizinische Ereignisse für Kohorten von Patienten. Die Kohorte von Patienten kann auf der Grundlage einer Bedingung, die von Interesse ist, ausgewählt werden (z. B. Erkrankung, Anatomie usw.). Eine EMR-Datenbank 102 wird verwendet, um ein Patienten-Ähnlichkeitsnetzwerk 104 zu erzeugen. Das Patienten-Ähnlichkeitsnetzwerk 104 enthält einen Graphen mit Knoten als Patienten und Kanten als Patienten-Ähnlichkeiten. Zu Fachexperten 106 können Ärzte oder andere Experten gehören. Fachexperten 106 stellen vorzugsweise eine Menge von bekannten Risikofaktoren 108 bereit.
Das System 100 zur Patientenrisiko-Stratifizierung 110 empfängt das Patienten-Ähnlichkeitsnetzwerk 104 und bekannte Risikofaktoren 108 als Eingaben. Eine Risikogruppen-Identifizierung 112 wird ausgeführt, die eine Menge von Patienten-Risikogruppen 114 zu Folge hat, die mit den bereitgestellten Risikofaktoren 108 abgeglichen werden. Risikofaktoren 116 werden aus den Risikogruppen 114 extrahiert, und Risikobewertungszahlen 118 werden für jeden Risikofaktor geschätzt. Die Risikofaktoren 116 und zugehörige Risikobewertungszahlen 118 können z. B. für Lernprozesse der Patienten-Ähnlichkeit, geführte Risiko-Stratifizierung, klinische Signalweguntersuchungen, Visualisierung usw. in einem System 120 zur Förderung der personalisierten Gesundheitsvorsorge verwendet werden.
Zwar wird die vorliegende Erfindung in Bezug auf Patienten und medizinische Bedingungen für eine Anwendung auf medizinischem Gebiet erläutert, es sollte jedoch klar sein, dass die vorliegende Erfindung nicht auf diese Weise beschränkt ist. Die vorliegende Erfindung kann beispielsweise angewendet werden, um aus beliebigen Angaben mit unvollständigen Erkenntnissen Gruppen zu ermitteln. In Kontext der vorliegenden Grundgedanken sind weitere Anwendungsmöglichkeiten vorgesehen.
In 2 ist ein Blockschaubild/Ablaufplan, das/der ein System 200 zur Patientenrisiko-Stratifizierung zeigt, gemäß einer Ausführungsform veranschaulichend dargestellt. Das System 200 zur Patientenrisiko-Stratifizierung ermöglicht die Einbeziehung von Experten-Fachwissen in den Prozess der Risikogruppenfindung, um sicherzustellen, dass identifizierte Gruppen klinisch sinnvoll und kohärent sind.
Das System 200 kann ein System oder eine Arbeitsstation 202 zur Patientenrisiko-Stratifizierung enthalten. Das System 202 enthält vorzugsweise einen oder mehrere Prozessoren 208 und einen Speicher 210 zum Speichern von Anwendungen, Modulen und weiteren Daten. Das System 202 kann außerdem eine oder mehrere Anzeigen 204 zum Betrachten enthalten. Die Anzeigen 204 können ermöglichen, dass ein Benutzer mit dem System 202 und seinen Komponenten und Funktionen interagiert. Das kann des Weiteren durch eine Benutzerschnittstelle 206 ermöglicht werden, zu der eine Maus, ein Joystick oder jede andere periphere Vorrichtung oder Steuervorrichtung gehören kann, die eine Benutzerwechselwirkung mit dem System 202 und/oder ihren Einheiten ermöglicht. Es sollte klar sein, dass die Komponenten und Funktionen des Systems 202 als ein oder mehrere diskrete Systeme oder Arbeitsstationen dargestellt werden können oder als Teil eines größeren Systems oder einer größeren Arbeitsstation integriert sein können, wie z. B. ein System zur Förderung der personalisierten Gesundheitsvorsorge.
Das System 202 kann Eingaben 212 empfangen, zu denen ein Patienten-Ähnlichkeitsnetzwerk 214 und Fachwissen 216 gehören können. Das Patienten-Ähnlichkeitsnetzwerk 214 kann einen Graphen enthalten, bei dem Knoten Patienten darstellen und Kanten Ähnlichkeiten zwischen Patienten (z. B. ähnliche medizinische Bedingungen) darstellen. Das Patienten-Ähnlichkeitsnetzwerk 214 wird vorzugsweise aus datengesteuerten Erkenntnissen gebildet, z. B. aus Patientendaten von einer EMR-Datenbank. Zu dem Fachwissen 216 gehören vorzugsweise bekannte Risikofaktoren von Experten (z. B. Ärzten) über einen oder mehrere (jedoch vorzugsweise nicht alle) Patienten. Das Fachwissen 216 kann jedoch außerdem weitere Informationen enthalten wie z. B. Behandlungen, die bestimmte Patienten erhalten (Arzneimittel, Prozeduren usw.), klinische Abläufe (temporäre Analysen) oder andere Informationen von alternativen Quellen.
In 3 ist ein beispielhafter Graph 300 eines Patienten-Ähnlichkeitsnetzwerks gemäß einer Ausführungsform veranschaulichend dargestellt. Der Graph des Patienten-Ähnlichkeitsnetzwerks enthält beispielhafte Knoten 302 und Kanten 304. Die Knoten 302 stellen Patienten dar. Die Kanten 304 stellen eine Ähnlichkeit zwischen zwei Knoten 302 dar wie z. B. einen ähnlichen medizinischen Zustand.
Eine Kohorte aus n Patienten mit ihrer Ähnlichkeitsmatrix W ∊ R^n×n wird angenommen, deren Einträge (i, j) die klinische Ähnlichkeit zwischen dem Patienten i und dem Patienten j codiert. W ist symmetrisch. Δ soll der entsprechende normierte Laplace'sche Graph sein. Vorausgesetzt, es gibt c wissengesteuerte Risikofaktoren 216, und Y = [y₁, ..., y_c] ∊ {0, 1}^n×c codiert ihre Zuordnung zu den Patienten, d. h., y_ij = 1 bedeutet, dass der Patient i den Risikofaktor j aufweist (so dass der Patient i zur Risikogruppe j gehört; es wird angemerkt, dass derartige Gruppenzuordnungen überlappen können, d. h., ein Patient kann auf der Grundlage der Risikofaktoren, die er aufweist, zu mehreren Gruppen gehören), andernfalls ist y_ij = 0.
soll die Indexmenge von markierten Patienten sein und c' soll die Gesamtzahl von Risikogruppen sein. Es sei c' ≻ c, d. h., einige Risikogruppen sind unbesehen mit unbekannten Risikofaktoren. F = [f₁, ..., f_c] ∊ {0, 1}^n×c soll die Patientenzuordnungsmatrix zu den wissengesteuerten Risikogruppen sein, und G = [g₁, ...‚ g_c'] ∊ {0, 1}^n×c' soll die Patientenzuordnungsmatrix zu allen möglichen Risikogruppen sein.
Das folgende Ziel wird in Gleichung 1 formuliert:
wobei es sich bei α, β, γ, μ ≻ 0 sämtlich um Gewichtungsparameter handelt. Das Ziel besteht darin,
minimal zu machen. Die Bedeutung jedes Terms in
wird im folgenden Abschnitt erläutert.
Das datengesteuerte Identifizierungsmodul 218 ist so eingerichtet, dass es Risikogruppen identifiziert, wobei lediglich datengesteuerte Erkenntnisse (d. h. das Patienten-Ähnlichkeitsnetzwerk 214) auf der Grundlage von nicht überwachtem Lernen verwendet werden. Datengesteuerte Erkenntnisse werden aus einer EMR-Datenbank oder anderen Quellen medizinischer Daten extrahiert, um den Graphen 300 des Patienten-Ähnlichkeitsnetzwerks so zu bilden, dass Patienten in derselben Risikogruppe gemäß ihren medizinischen Bedingungen untereinander ähnlich sind. Risikogruppen können durch Bedingungen, die von Interesse sind, bezeichnet werden (z. B. Krankheit, Anatomie usw.). Patienten einer Risikogruppe können Risikofaktoren zugeordnet sein, wie z. B. Diabetes, Herzrhythmusstörungen, Glaukom usw. Risikogruppen, die lediglich mit datengesteuerten Erkenntnissen identifiziert werden, können jedoch unvollständig sein, d. h., sie weisen unbesehene Klassen (d. h. unbekannte Risikogruppen), fehlende Risikofaktoren usw. auf.
Das datengesteuerte Identifizierungsmodul 218 formuliert den Gruppenausdruck in Gleichung 1:
Es wird angemerkt, dass G die Zuordnung von Patienten zu allen c' potentiellen Risikogruppen darstellt. Dieser Gruppierungsterm repräsentiert die datengesteuerte Untersuchung der Graphenstruktur Δ. γ legt fest, wie sehr G in Richtung zu dem normierten Wert Min-Cut des Graphen vorbelastet wird.
In 4 ist ein Graph 400 eines beispielhaften Patienten-Ähnlichkeitsnetzwerks gemäß einer Ausführungsform veranschaulichend dargestellt. Der Graph 400 des Patienten-Ähnlichkeitsnetzwerks ist so gezeigt, dass er Risikogruppen 402, 404, 406, 408 aufweist, die lediglich unter Verwendung von datengesteuerten Erkenntnissen identifiziert werden. Bei Risikogruppen handelt es sich um Klassen, die im Graphen 400 des Patienten-Ähnlichkeitsnetzwerks durch den medizinischen Zustand bezeichnet werden. Die Risikogruppe 402 kann beispielsweise als „Hauterkrankung” bezeichnet werden, da sie Risikofaktoren wie z. B. Dermatose, bösartiger Hauttumor usw. aufweist, die Risikogruppe 404 kann als „Herzerkrankung” bezeichnet werden, da sie Risikofaktoren wie z. B. Herzrhythmusstörungen, chronische ischämische Herzerkrankung usw. aufweist, die Risikogruppe 406 kann eine unbekannte Bezeichnung bei Risikofaktoren wie etwa Diabetes, chronische Niereninsuffizienz usw. aufweisen, und die Risikogruppe 408 kann als „Augenkrankheit” bezeichnet werden, das sie Risikofaktoren wie z. B. Glaukom, Katarakt usw. aufweist. Wie bei der Risikogruppe 406 erkannt werden kann, können Risikogruppen, die lediglich mit datengesteuerten Erkenntnissen identifiziert werden, unvollständig sein (z. B. ungesehene Klassen, fehlende Risikofaktoren usw.).
In 1 ist ein wissengesteuertes Identifizierungsmodul 220 so eingerichtet, dass es Risikogruppen unter Verwendung von Fachexperten 216, vorzugsweise in der Form von bekannten Risikofaktoren bei Verwendung von semi-überwachtem Lernen identifiziert. Das datengesteuerte Identifizierungsmodul 218 und das wissengesteuerte Identifizierungsmodul 220 können entweder dasselbe Patienten-Ähnlichkeitsnetzwerk oder unterschiedliche Patienten-Ähnlichkeitsnetzwerke verwenden. Das ermöglicht das Verknüpfen von wissengesteuerten Erkenntnissen, die aus einem Fachgebiet abgeleitet werden, und datengesteuerten Erkenntnissen, die aus einem anderen Fachgebiet abgeleitet werden. Das wissengesteuerte Identifizierungsmodul 220 formuliert den Anpassungsterm und den Glättungsterm in Gleichung 1.
Das wissengesteuerte Identifizierungsmodul 220 formuliert den Anpassungsterm in Gleichung 1:
Es wird angemerkt, dass F die Zuordnung von Patienten zu den c wissengesteuerten Risikogruppen darstellt. Dieser Term legt fest, wie gut F an das eingegebene Wissen angepasst sein muss. Der Index
bedeutet, dass die Anpassung nur für bezeichnete Patienten gilt. α entscheidet, wie stark F von Y abweichen darf. Wenn α → ∞, dürfen die bekannten Bezeichnungen nicht verändert werden.
Das wissengesteuerte Identifizierungsmodul 220 formuliert außerdem den Glättungsterm in Gleichung 1:
Dieser Term erzwingt die nachbarschaftliche Annahme des semi-überwachten Lernens, d. h., wenn zwei Patienten in dem Graphen sehr ähnlich sind, gehören sie wahrscheinlich zur selben Risikogruppe. Größere Werte von β beeinflussen F stärker in Richtung der Graphenstruktur, die durch Δ codiert ist.
Das Abgleichmodul 222 ist so eingerichtet, dass es die Risikogruppen abgleicht, die durch datengesteuerte Erkenntnisse und wissengesteuerte Erkenntnisse in Bezug auf paarweise Beziehungen identifiziert werden. Das Abgleichmodul 222 formuliert den Abgleichterm in Gleichung 1:
Dieser Term macht die Übereinstimmung zwischen der Zuweisung F und der Zuweisung G in Bezug auf paarweise Beziehungen maximal (beachte das Minuszeichen von μ). Der Wert von
ist die Gesamtzahl von Patientenpaaren, deren Beziehungen F und G übereinstimmen. μ entscheidet, wie ähnlich G und F zueinander sein müssen.
Das Lösungsmodul 224 ist zum Lösen der Zielfunktion der Gleichung 1 eingerichtet, um eine Menge von Risikogruppen in Übereinstimmung mit dem eingegebenen Fachwissen 216 zu identifizieren und/oder zusätzliche Risikogruppen zu identifizieren, die nicht dem eingegebenen Fachwissen 216 zugehörig sind. Das hat identifizierte Risikogruppen 228 als Ausgabe 226 zur Folge.
Wenn F und G als zwei Gruppen von Variablen behandelt werden, kann ein Ansatz des Typs Block Coordinate Descent (BCD) zum Lösen der Gleichung 1 angepasst werden. Bei diesem Ansatz handelt es sich um ein iteratives Verfahren, wobei bei jeder Iteration F oder G feststehend ist und
in Bezug auf die anderen Größen minimal gemacht wird. In diesem Fall führt ein feststehender Wert G zum Lösen von F zu einer Transduktion des Graphen, während ein feststehender Wert F zum Lösen von G zu einem normierten Wert min0cut führt. Leider ist das Lösen aller Schritte des alternativen Minimierungsprozesses in ihrer ursprünglichen Form NP-lastig (NP hard). Nachfolgend wird gezeigt, wie das Ziel entspannt werden kann, um eine effiziente Lösung zu ermöglichen.
Um eine entspannte Version der Gleichung 1 zu lösen, werden zuerst F und G von einer binären Zuweisung zu einer weichen Zuweisung entspannt. Das entspannte Ziel wird zur Gleichung 2.
Bei I_c' handelt es sich um eine c'×c'-Einheitsmatrix. Die Orthogonalitätsbeschränkung von G verhindert triviale Lösungen. Es wird angemerkt, dass es nicht erforderlich ist, dieselbe Beschränkung F aufzuerlegen, da F bereits durch den Anpassungsterm zur Annäherung an Y beschränkt ist.
Nach der Entspannung wird F bei einem feststehenden Wert G gelöst zu:
Das Ziel von Gleichung 3 kann in geschlossener Form gelöst werden: F = (1 – ρ)(I_n – ρ(S + μ / βGG^T))^–1Y, (4) wobei ρ = α/(α + β) und S = I_n – Δ.
Bei einem feststehenden Wert F wird G gelöst zu:
Die Gleichung 5 ist gleichwertig mit:
Da es sich bei FF^T um einen Kern handelt, bleibt S + μ / γFF^T ein positiver semi-definierter Kern. Bei Gleichung 6 handelt es sich um ein min-cut-Ziel eines Standardgraphen mit Nicht-Negativ-Beschränkung und es kann durch die Regel multiplikative Aktualisierung gelöst werden:
Bei
handelt es sich um das Hadamard-Produkt. G kann durch die Cluster-Zuweisung initialisiert werden, indem eine spektrale Clusterbildung an S ausgeführt wird.
Der alternative Minimierungsprozess ist garantiert konvergent, da das Ziel in Gleichung (2) schwächer eingeschränkt ist. Der Prozess zum Lösen von Gleichung 1 wird nachfolgend im Pseudocode 1 zusammengefasst.
Pseudocode 1: Risikogruppenanalyse

Eingabe: Ähnlichkeitsgraph W, Eingabelabels Y ∊ {0, 1}^n×c, Parameter c', β, γ, μ = 1, ρ;
Ausgabe: Gruppenindikatormatrix G ∊ R^n×c';
Normiere den Graphenkern: S ← D^–1/2WD^–1/2, wobei D der Grad der Matrix von W ist; Berechne den normierten Laplace'schen-Wert: Δ ← I_n – S;
Führe c'-fache spektrale Clusterbildung an S aus und initialisiere G ∊ {0, 1}^n×c' als entsprechende Gruppenzuweisungsmatrix; Wiederhole:

Die Umsetzung von Pseudocode 1 wird nun erläutert.
Einstellen von β, γ, μ: Da die Verhältnisse μ/β und μ/γ das einzige Problem darstellen, kann μ ohne Verlust der Allgemeingültigkeit auf 1 festgelegt werden. 1/γ ≻ 0 legt den Einfluss von FF^T auf S in Gleichung 6 fest. Ein kleinerer Wert von γ bewirkt, dass G stärker in Richtung F als in Richtung S voreingestellt wird. Um den Einfluss der beiden Kerne (S und FF^T) auszugleichen, ist zu beachten, dass der signifikanteste Einschnitt von S von seinem zweitgrößten singulären Vektor stammt (sein größter singulärer Vektor ist ein konstanter Vektor) und der signifikanteste Einschnitt von FF^T von seinem größten singulären Vektor stammt. SVD(X, k) soll die Funktion bezeichnen, die den k-größten singulären Wert von X zurückgibt, γ kann eingestellt werden auf: γ = SVD(FF^T, 1)/SVD(S, 2) (8)
Das skaliert den Einfluss von FF^T auf dieselbe Ebene des normierten Werts min-cut von S. In ähnlicher Weise steuert das Verhältnis 1/β den Einfluss von FF^T auf S in Gleichung 4. Da bei dieser Umsetzung die vorgegebenen Labels in Y beibehalten werden sollten, wird β auf eine große Zahl eingestellt, so dass 1/β klein ist (z. B. 0,1).
Einstellen von ρ: ρ ∊ (0, 1) ist ein Kompromiss-Faktor zwischen der Graphenstruktur und den Eingabelabels. Ein größerer Wert von ρ bewirkt, dass F stärker in Richtung des normierten Werts min-cut von S + μ / β GG^T voreingestellt wird. Bei dieser Umsetzung wird eine einfache Heuristik zum Einstellen von ρ verwendet:
Gleichung 9 beschränkt den Wert von ρ auf einen Wert zwischen α₁ und α₂, wobei der Wert von ρ kleiner wird, wenn die Anzahl der bezeichneten Knoten zunimmt (daher muss F in stärkerem Maße Y folgen).
Einstellen von c': Im Idealfall ist c' ≻ c die tatsächliche Anzahl von Risikogruppen in der Patientenkohorte. c' wird vorzugsweise durch Fachexperten eingestellt. Wenn ein ausreichendes Fachwissen fehlt, könnte c' auf zwei unterschiedliche Arten eingestellt werden. Eine Art besteht darin, c' = c + 1 einzustellen, wodurch alle Risikogruppen im Wesentlichen in einer Meta-Gruppe zusammengefasst werden. Die andere Art besteht darin, c' mittels eines Regularizer zu schätzen.
Komplexität: Bei jeder Iteration wird die Komplexität des vorliegenden Ansatzes durch die des Lernens bei lokaler und globaler Konsistenz (LLGC, Gleichung 4) und des nichtnegativen Werts min-cut (Gleichung 6) dominiert. Die Komplexität von LLGC wird durch ein Berechnen der Pseudoinversen einer n×n-Matrix dominiert, die im ungünstigsten Fall O(n³) ist. Die Komplexität des nichtnegativen Werts min-cut beträgt O(n²k), wobei k die Anzahl von Iterationen ist, die zum Konvergieren erforderlich sind. Eine zusätzliche Zeit O(n²c') wird zum Initialisieren von G unter Verwendung einer c'-fachen spektralen Clusterbildung benötigt.
In 5 ist ein Graph 500 eines beispielhaften Patienten-Ähnlichkeitsnetzwerks gemäß einer Ausführungsform veranschaulichend dargestellt. Der Graph 500 des Patienten-Ähnlichkeitsnetzwerks zeigt ein Einspeisen von wissengesteuerten Erkenntnissen. Bei wissengesteuerten Erkenntnissen handelt es sich um Daten von Fachexperten (z. B. Ärzten). Die vorliegende Erfindung ermöglicht ein Einbringen von wissengesteuerten Erkenntnissen in den Graphen 500 des Patienten-Ähnlichkeitsnetzwerks in der Form von bekannten Risikofaktoren und anderen Daten von Fachexperten. Fachexperten können beispielsweise feststellen, dass ein Patientenknoten 502 mit dem Risikofaktor einer schweren chronischen Nierenerkrankung verbunden ist, was zum Identifizieren der Risikogruppe verwendet werden kann, die zu diesem Risikofaktor gehört. Die vorliegende Erfindung bringt das Wissen zur Geltung, indem versucht wird, die identifizierten Risikogruppen mit vorgegebenen Risikofaktoren abzugleichen.
In 6 ist ein Graph 600 eines beispielhaften Patienten-Ähnlichkeitsnetzwerks gemäß einer Ausführungsform veranschaulichend dargestellt. Der Graph 600 des Patienten-Ähnlichkeitsnetzwerks enthält Risikogruppen 602, 604, 606, 608, die sowohl unter Verwendung von datengesteuerten als auch wissengesteuerten Erkenntnissen identifiziert werden. Die Risikogruppe 602 kann beispielsweise mit „Hauterkrankung” bezeichnet sein, da sie Risikofaktoren wie z. B. Dermatose, bösartige Hauttumore usw. aufweist, die Risikogruppe 604 kann mit „Herzerkrankung” bezeichnet sein, da sie Risikofaktoren wie z. B. Herzrhythmusstörung, chronische ischämische Herzkrankheit usw. aufweist, die Risikogruppe 606 kann mit „Nierenerkrankung” bezeichnet sein, da sie Risikofaktoren wie z. B. chronisches Nierenversagen, akutes Nierenversagen usw. aufweist, und die Risikogruppe 608 kann mit „Augenerkrankung” bezeichnet sein, da sie Risikofaktoren wie Glaukom, grauer Star usw. aufweist. Risikogruppen, die sowohl mit datengesteuerten als auch wissengesteuerten Erkenntnissen identifiziert werden, können besser interpretiert werden, da sie mit Fachwissen abgeglichen werden und Mehrdeutigkeiten aus dem zugrundeliegenden Netzwerk gelöst werden. Die identifizierten Risikogruppen können verwendet werden, um zusätzliche Risikofaktoren und Risikobewertungszahlen zu extrahieren, die beispielsweise in einem System zur Förderung der personalisierten Gesundheitsvorsorge verwendet werden können.
Die vorliegende Erfindung integriert sowohl wissengesteuerte Erkenntnisse als auch datengesteuerte Erkenntnisse. Die vorliegende Erfindung beruht vorteilhafterweise auf Graphen und kann deswegen Risikogruppen aus einem Patientenähnlichkeitsnetzwerk identifizieren, ohne auf ursprüngliche klinische Merkmale zuzugreifen. Die vorliegende Erfindung kann außerdem unvollständiges und sehr spärliches Fachwissen integrieren.
In 7 ist ein Blockschaubild/Ablaufplan, das/der ein Verfahren 700 zur Patienten-Stratifizierung zeigt, gemäß einer Ausführungsform veranschaulichend dargestellt. Im Block 702 wird eine Zielfunktion formuliert. Im Block 704 kann die Zielfunktion eine erste Menge von Patientengruppen aus Patienten in einem Patientenähnlichkeitsgraphen auf der Grundlage einer Ähnlichkeitsstruktur des Patientenähnlichkeitsgraphen ermitteln. Der Patientenähnlichkeitsgraph kann aus Patientendaten, z. B. einer EMR-Datenbank gebildet werden. Im Block 706 enthält der Patientenähnlichkeitsgraph Knoten, die Patienten darstellen, und Kanten, die Ähnlichkeiten zwischen Patienten darstellen. Der Patientenähnlichkeitsgraph hat einen begrenzten Zugriff auf ursprüngliche Merkmale der Patienten.
Im Block 708 kann die Zielfunktion eine zweite Menge von Patientengruppen auf der Grundlage von Experten-Fachwissen identifizieren, das hinsichtlich der Patienten relevant ist. Die zweite Menge von Patientengruppen enthält vorzugsweise unvollständige Informationen (z. B. unbesehene Klassen). Im Block 710 enthält das Experten-Fachwissen bekannte Risikogruppen mit zugehörigen Risikofaktoren und/oder bekannten Risikofaktoren. Im Block 712 kann die Zielfunktion ein Abgleichen von Patienten in der ersten Menge und der Menge enthalten, um Patienten zu stratifizieren. Im Block 714 kann ein Abgleichen von Patienten ein Identifizieren von zusätzlichen Risikogruppen enthalten, die nicht zu dem Experten-Fachwissen gehören. Im Block 716 kann ein Abgleichen von Patienten ein Maximieren einer Übereinstimmung zwischen Patienten, die zu der ersten Menge gehören, und Patienten, die zu der zweiten Menge gehören, enthalten.
Im Block 718 wird die Zielfunktion iterativ minimiert, bis Konvergenz erreicht wird. Das kann ein Anwenden einer Funktion Block Coordinate Descent beinhalten.
Nachdem bevorzugte Ausführungsformen eines Systems und eines Verfahrens zur Patientenrisiko-Stratifizierung durch Verknüpfen von wissengesteuerten und datengesteuerten Erkenntnissen beschrieben wurden (die veranschaulichend und nicht einschränkend sein sollen), wird angemerkt, dass Modifikationen und Variationen durch Fachleute unter Berücksichtigung der oben genannten Lehren ausgeführt werden können. Es ist daher klar, dass Änderungen an den speziellen Ausführungsformen, die offenbart wurden, im Umfang der Erfindung liegen, der durch die angefügten Ansprüche hervorgehoben wird. Nachdem auf diese Weise Aspekte der Erfindung mit den durch die Patentgesetze geforderten Einzelheiten und Besonderheiten beschrieben wurden, wird in den angefügten Ansprüchen dargestellt, was durch die Patentschrift beansprucht und verlangt wird.

Claims

Verfahren zur Patienten-Stratifizierung, das aufweist: Ermitteln einer ersten Menge von Patientengruppen aus Patienten in einem Patienten-Ähnlichkeitsgraphen auf der Grundlage einer Ähnlichkeitsstruktur des Patienten-Ähnlichkeitsgraphen; Identifizieren einer zweiten Menge von Patientengruppen auf der Grundlage von Experten-Fachwissen, das hinsichtlich der Patienten relevant ist; und Abgleichen von Patienten in der ersten Menge und in der zweiten Menge unter Verwendung eines Prozessors zum Stratifizieren von Patienten.
Verfahren nach Anspruch 1, wobei das Abgleichen von Patienten ein Identifizieren zusätzlicher Risikogruppen beinhaltet, die nicht dem Experten-Fachwissen zugehörig sind.
Verfahren nach Anspruch 1, wobei das Abgleichen von Patienten ein Maximieren einer Übereinstimmung zwischen Patienten, die zu der ersten Menge gehören, und Patienten, die zu der zweiten Menge gehören, beinhaltet.
Verfahren nach Anspruch 1, wobei das Experten-Fachwissen bekannte Risikofaktoren enthält, die hinsichtlich der Patienten relevant sind.
Verfahren nach Anspruch 1, wobei die zweite Menge von Patientengruppen unvollständig ist.
Verfahren nach Anspruch 5, wobei die zweite Menge von Patientengruppen unbesehene Klassen enthält.
Verfahren nach Anspruch 1, wobei der Patienten-Ähnlichkeitsgraph Knoten, die Patienten darstellen, und Kanten, die eine Ähnlichkeit zwischen Patienten darstellen, enthält.
Verfahren nach Anspruch 1, wobei das Ermitteln, Identifizieren und Abgleichen ein Formulieren einer Zielfunktion und ein iteratives Minimieren der Zielfunktion beinhaltet, bis Konvergenz auftritt.
Verfahren nach Anspruch 1, wobei die Patientengruppen Patienten-Risikogruppen in Bezug auf eine medizinische Bedingung enthalten.
Computerlesbares Speichermedium, das ein computerlesbares Programm zur Patienten-Stratifizierung aufweist, wobei das computerlesbare Programm beim Ausführen auf einem Computer bewirkt, dass der Computer die folgenden Schritte ausführt: Ermitteln einer ersten Menge von Patientengruppen aus Patienten in einem Patienten-Ähnlichkeitsgraphen auf der Grundlage einer Ähnlichkeitsstruktur des Patienten-Ähnlichkeitsgraphen; Identifizieren einer zweiten Menge von Patientengruppen auf der Grundlage von Experten-Fachwissen, das hinsichtlich der Patienten relevant ist; und Abgleichen von Patienten in der ersten Menge und in der zweiten Menge zum Stratifizieren von Patienten.
System zur Patienten-Stratifizierung, das aufweist: ein datengesteuertes Identifizierungsmodul, das so eingerichtet ist, dass es eine erste Menge von Patientengruppen aus Patienten in einem Patienten-Ähnlichkeitsgraphen auf der Grundlage einer Ähnlichkeitsstruktur des Patienten-Ähnlichkeitsgraphen ermittelt; ein wissengesteuertes Identifizierungsmodul, das so eingerichtet ist, dass es eine zweite Menge von Patientengruppen auf der Grundlage von Experten-Fachwissen identifiziert, das hinsichtlich der Patienten relevant ist; und ein Anpassungsmodul, das so eingerichtet ist, dass es Patienten in der ersten Menge und in der zweiten Menge unter Verwendung eines Prozessors abgleicht, um Patienten zu stratifizieren.