DE112021004559T5

DE112021004559T5 - System zur robusten vorhersage bei unregelmässigen zeitreihen in dialysepatientenakten

Info

Publication number: DE112021004559T5
Application number: DE112021004559.8T
Authority: DE
Inventors: Jingchao Ni; Bo Zong; Wei Cheng; Haifeng Chen; Yinjun Wu
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2020-08-31
Filing date: 2021-08-24
Publication date: 2023-08-10
Also published as: WO2022046734A1; JP7471471B2; JP2023538188A; US20220068445A1

Abstract

Es wird ein Verfahren zum Managen von Daten von Dialysepatienten durch Verwenden eines Modells einer tiefen dynamischen Gaußschen Mischung (DDGM (= Deep Dynamic Gaussian Mixture)), um medizinische Zeitreihendaten vorherzusagen, präsentiert. Das Verfahren enthält ein Auffüllen (1001) fehlender Werte in einer multivariaten Eingabezeitreihe durch Modellparameter über eine Präimputationskomponente durch Verwenden einer zeitlichen Intensitätsfunktion basierend auf Gaußkerneln und einer mehrdimensionalen Korrelation basierend auf zu erlernenden Korrelationsparametern; und ein Speichern (1003), über eine Vorhersagekomponente, von Parametern, die Cluster-Schwerpunkte bzw. -Zentroide darstellen, die von der DDGM verwendet werden, um Zeitreihen zum Erfassen von Korrelationen zwischen verschiedenen Zeitreihenabtastungen bzw. -proben zu clustern.

Description

INFORMATION ÜBER VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität der am 31. August 2020 eingereichten vorläufigen Anmeldung Nr. 63/072,325 und der am 23. August 2021 eingereichten US-Patentanmeldung Nr. 17/408,769 , die hierin jeweils in ihrer Gesamtheit durch Bezugnahme enthalten sind.
HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung betrifft eine multivariate Zeitreihenanalyse und insbesondere ein System zur robusten Vorhersage bei unregelmäßigen Zeitreihen in Dialysepatientenakten.
Beschreibung des zugehörigen Standes der Technik
Ein Vorhersagen bei spärlichen multivariaten Zeitreihen (MTS (= Multivariate Time Series) zielt darauf ab, die Prädiktoren zukünftiger Werte von Zeitreihen angesichts ihrer unvollständigen Vergangenheit zu modellieren, was für viele auftauchende Anwendungen von Vorteil ist. Die meisten vorhandenen Verfahren verarbeiten MTS jedoch einzeln und nutzen nicht die dynamischen Verteilungen, die den MTS zugrunde liegen, was zu suboptimalen Ergebnissen führt, wenn die Spärlichkeit bzw. Seltenheit hoch ist.
ZUSAMMENFASSUNG
Es wird ein Verfahren zum Managen von Daten von Dialysepatienten durch Verwenden eines Modells einer tiefen dynamischen Gauß-Mischung (DDGM (= Deep Dynamic Gaussian Mixture)) zur Vorhersage medizinischer Zeitreihendaten präsentiert. Das Verfahren enthält ein Füllen fehlender Werte in einer multivariaten Eingabezeitreihe durch Modellparameter über eine Präimputationskomponente durch Verwenden einer zeitlichen Intensitätsfunktion basierend auf Gaußkerneln und einer mehrdimensionalen Korrelation basierend auf zu erlernenden Korrelationsparametern und ein Speichern, über eine Vorhersagekomponente, von Parametern, die von der DDGM verwendete Cluster-Schwerpunkte bzw. -Zentroide darstellen, um Zeitreihen zum Erfassen von Korrelationen zwischen verschiedenen Zeitreihenabtastungen zu clustern.
Es wird ein nichtflüchtiges Speichermedium präsentiert, das ein computerlesbares Programm zum Managen von Daten von Dialysepatienten durch Verwenden eines Modells einer tiefen dynamischen Gauß-Mischung (DDGM (= Deep Dynamic Gaussian Mixture)) zur Vorhersage medizinischer Zeitreihendaten umfasst. Das computerlesbare Programm veranlasst dann, wenn es auf einem Computer ausgeführt wird, dass der Computer die folgenden Schritte durchführt: Füllen fehlender Werte in einer multivariaten Eingabezeitreihe durch Modellparameter über eine Präimputationskomponente durch Verwenden einer zeitlichen Intensitätsfunktion basierend auf Gaußkerneln und einer mehrdimensionalen Korrelation basierend auf zu erlernenden Korrelationsparametern und Speichern, über eine Vorhersagekomponente, von Parametern, die von der DDGM verwendete Cluster-Schwerpunkte bzw. -Zentroide darstellen, um Zeitreihen zum Erfassen von Korrelationen zwischen verschiedenen Zeitreihenabtastungen zu clustern.
Es wird ein System zum Managen von Daten von Dialysepatienten durch Verwenden eines Modells einer tiefen dynamischen Gauß-Mischung (DDGM (= Deep Dynamic Gaussian Mixture)) zur Vorhersage medizinischer Zeitreihendaten präsentiert. Das System enthält eine Präimputationskomponente zum Auffüllen fehlender Werte in einer multivariaten Eingabezeitreihe durch Modellparameter durch Verwenden einer zeitlichen Intensitätsfunktion basierend auf Gaußkernen und einer mehrdimensionalen Korrelation basierend auf zu erlernenden Korrelationsparametern und eine Vorhersagekomponente zum Speichern von Parametern, die von der DDGM verwendete Cluster-Schwerpunkte bzw. -Zentroide darstellen, um Zeitreihen zum Erfassen von Korrelationen zwischen verschiedenen Zeitreihenabtastungen zu clustern.
Diese und andere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung illustrativer Ausführungsformen davon offensichtlich werden, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
Figurenliste
Die Offenbarung wird Details in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren bereitstellen, wobei:

1 ein Block-/Flussdiagramm einer beispielhaften Tabelle ist, die fehlende Werte in medizinischen Zeitreihen gemäß Ausführungsformen der vorliegenden Erfindung darstellt;
2 ein Block-/Flussdiagramm einer beispielhaften Architektur einer tiefen dynamischen Gauß-Mischung (DDGM (= Deep Dynamic Gaussian Mixture)) gemäß Ausführungsformen der vorliegenden Erfindung ist;
3 ein Block-/Flussdiagramm der Präimputationskomponente und der Vorhersagekomponente der DDGM gemäß Ausführungsformen der vorliegenden Erfindung ist;
4 ein Block-/Flussdiagramm eines beispielhaften Inferenznetzwerks der Vorhersagekomponente der DDGM gemäß Ausführungsformen der vorliegenden Erfindung ist;
5 ein Block-/Flussdiagramm eines beispielhaften generativen Netzwerks der Vorhersagekomponente der DDGM gemäß Ausführungsformen der vorliegenden Erfindung ist;
6 ein Block-/Flussdiagramm eines beispielhaften inversen Abstandsgewichtungsmechanismus gemäß Ausführungsformen der vorliegenden Erfindung ist;
7 ein Block-/Flussdiagramm des Prozesses zum Verwenden der Präimputationskomponente und der Vorhersagekomponente der DDGM gemäß Ausführungsformen der vorliegenden Erfindung ist;
8 eine beispielhafte praktische Anwendung für die DDGM gemäß Ausführungsformen der vorliegenden Erfindung ist;
9 ein beispielhaftes Verarbeitungssystem für die DDGM gemäß Ausführungsformen der vorliegenden Erfindung ist; und
10 ein Block-/Flussdiagramm eines beispielhaften Verfahrens zum Ausführen der DDGM gemäß Ausführungsformen der vorliegenden Erfindung ist.

DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Es wird ein generatives Modell eingeführt, das den Übergang von latenten Clustern anstelle von isolierten Merkmalsdarstellungen verfolgt, um ein robustes Modellieren zu erreichen. Das generative Modell zeichnet sich durch eine dynamische Gaußsche Mischungsverteilung aus, die die Dynamik von Clustering-Strukturen erfasst und zur Bereitstellung von Zeitreihen verwendet wird. Das generative Modell wird durch neuronale Netze parametrisiert. Ein strukturiertes Inferenznetzwerk wird zum Ermöglichen einer induktiven Analyse ebenfalls implementiert. Ein Gating-Mechanismus wird weiterhin eingeführt, um die Gauß-Mischungsverteilungen dynamisch abzustimmen.
Die Analyse von multivariaten Zeitreihen (MTS) wird bei einer Vielzahl von Anwendungen verwendet, wie beispielsweise zur Überwachung cyber-physischer Systeme, zur Finanzprognose, zur Verkehrsanalyse und zur klinischen Diagnose. Die jüngsten Fortschritte im Bereich Deep Learning haben viele innovative Modelle für maschinelles Lernen an bzw. auf MTS-Daten hervorgebracht, die bemerkenswerte Ergebnisse bei einer Reihe grundlegender Aufgaben, einschließlich Prognose, Ereignisvorhersage und Anomalieerkennung, gezeigt haben. Trotz dieser Erfolge behandeln die meisten existierenden Modelle die Eingabe-MTS als homogen und mit vollständigen Sequenzen. Bei vielen neuen Anwendungen werden MTS-Signale jedoch aus heterogenen Quellen integriert und sind sehr spärlich.
Zum Beispiel können für Dialysepatienten gesammelte MTS-Signale mehrere fehlende Werte aufweisen. Dialyse ist eine wichtige Nierenaustauschtherapie zur Reinigung des Blutes von Patienten, deren Nieren nicht normal arbeiten. Dialysepatienten haben Routinen von Dialyse, Bluttests, Thorax-Röntgenaufnahmen etc., die Daten wie beispielsweise Venendruck, Glukosespiegel und Herz-Thorax-Verhältnis (CTR) aufzeichnen. Diese Signalquellen können unterschiedliche Frequenzen haben. Zum Beispiel werden Bluttests und CTR oft seltener ausgewertet als Dialyse. Verschiedene Quellen werden möglicherweise nicht rechtzeitig ausgerichtet, und was die Dinge noch schlimmer macht, ist, dass einige Quellen möglicherweise unregelmäßig beprobt werden und fehlende Einträge vorhanden sein können. Trotz solcher Diskrepanzen geben verschiedene Signale komplementäre Ansichten über den körperlichen Zustand eines Patienten und sind daher alle wichtig für die diagnostische Analyse. Jedoch führt ein einfaches Kombinieren der Signale zu sehr spärlichen MTS-Daten. Ähnliche Szenarien finden sich auch in anderen Bereichen, z.B. im Finanzwesen werden Zeitreihen aus Finanznachrichten, Aktienmärkten und Investmentbanken in asynchronen Zeitschritten gesammelt, sind aber stark korreliert. In großflächigen komplexen Überwachungssystemen können Sensoren mehrerer Teilkomponenten unterschiedliche Betriebsumgebungen haben, wodurch kontinuierlich asynchrone Zeitreihen erzeugt werden, die noch miteinander in Beziehung stehen können.
Die geringe Dichte von MTS-Signalen stellt dann, wenn sie aus heterogenen Quellen integriert werden, mehrere Herausforderungen dar. Insbesondere erschwert es zeitliche Abhängigkeiten und verhindert, dass gängige Modelle wie rekurrente neuronale Netze (RNNs) direkt verwendet werden. Das gebräuchlichste Verfahren zum Umgang mit Spärlichkeit besteht darin, zuerst fehlende Werte zu imputieren und dann Vorhersagen für die imputierte MTS zu treffen. Dieser zweistufige Ansatz berücksichtigt jedoch nicht die Beziehung zwischen fehlenden Mustern und Vorhersageaufgaben, was zu suboptimalen Ergebnissen führt, wenn die Spärlichkeit schwerwiegend ist.
In jüngster Zeit wurden einige End-to-End-Modelle vorgeschlagen. Ein Ansatz betrachtet fehlende Zeitschritte als Intervalle und entwirft RNNs mit kontinuierlicher Dynamik über funktionale Zerfälle zwischen beobachteten Zeitschritten. Ein anderer Ansatz besteht darin, alle verpassten Einträge zu parametrisieren und die Parameter gemeinsam mit Vorhersagemodellen zu trainieren, so dass die fehlenden Muster für nachgelagerte Aufgaben gelernt werden. Diese Methoden bzw. Verfahren haben jedoch den Nachteil, dass MTS-Proben bzw. Abtastungen einzeln bewertet werden. Latente relationale Strukturen, die von verschiedenen MTS-Stichproben gemeinsam genutzt werden, werden selten für eine robuste Modellierung untersucht.
Bei vielen Anwendungen sind MTS nicht unabhängig, sondern durch versteckte Strukturen miteinander verbunden. In einem Fall kann jeder Patient während des Behandlungsverlaufs von zwei Dialysepatienten unterschiedliche latente Zustände wie Nierenerkrankungen und Anämie erfahren, die durch Zeitreihen wie Glukose-, Albumin- und Thrombozytenspiegel externalisiert werden. Wenn zwei Patienten ähnliche pathologische Zustände haben, können einige ihrer Daten aus ähnlichen Zustandsmustern generiert bzw. erzeugt werden und Clusterstrukturen bilden. Daher sind die Rückleitung latenter Zustände und die Modellierung ihrer Dynamik vielversprechend, um die komplementären Informationen in Clustern zu nutzen, was das Problem der Spärlichkeit lindern kann. Dieses Konzept ist nicht auf den medizinischen Bereich beschränkt. In der Meteorologie können beispielsweise nahe gelegene Beobachtungsstationen, die das Klima überwachen, ähnliche Wetterbedingungen (latente Zustände) erfahren, die die Erstellung von Metriken wie Temperatur und Niederschlag im Laufe der Zeit bestimmen. Obwohl es vielversprechend ist, ist die Ableitung der latenten Clusterstrukturen bei gleichzeitiger Modellierung der Dynamik, die spärlichen MTS-Daten zugrunde liegt, ein herausforderndes Thema.
Um dieses Problem anzugehen, führen die beispielhaften Ausführungsformen ein auf einer dynamischen Gauß-Mischung basierendes tiefes generatives Modell (DGM²) ein. DGM² hat ein Zustandsraummodell unter einem nichtlinearen Übergangsemissionsrahmen bzw. -framework. Für jede MTS modelliert DGM² den Übergang latenter Clustervariablen anstelle von isolierten Merkmalsdarstellungen, bei denen alle Übergangsverteilungen durch neuronale Netze parametrisiert werden. DGM² zeichnet sich durch seinen Emissionsschritt aus, bei dem eine dynamische Gauß-Mischungsverteilung vorgeschlagen wird, um die Dynamik von Clusterstrukturen zu erfassen. Für eine induktive Analyse greifen die beispielhaften Ausführungsformen auf Variations-Inferenzen zurück und implementieren strukturierte Inferenznetzwerke, um Posterior-Verteilungen anzunähern. Um zuverlässige Inferenzen zu gewährleisten, übernehmen die beispielhaften Ausführungsformen auch das Paradigma einer parametrischen Präimputation und verknüpfen eine Präimputationsschicht vor den Inferenznetzwerken. Das DGM²-Modell ist für diskrete Variablen ausgelegt und so konstruiert, dass es durchgängig bzw. End-to-End trainierbar ist.
Daher untersuchen die beispielhaften Ausführungsformen das Problem der Vorhersage mit spärlichen MTS durch Modellierung der latenten dynamischen Clustering-Strukturen. Die beispielhaften Ausführungsformen stellen DGM² vor, ein tiefes generatives Modell, das den Übergang latenter Cluster und die Emission aus einer dynamischen Gaußmischung für robuste Prognosen nutzt.
Wie es vom gemeinsamen Imputation-Vorhersage-Framework vorgeschlagen ist, kann eine Abtastung von spärlichen MTS mit fehlenden Einträgen gegen einen Satz bzw. eine Gruppe gleichmäßig verteilter Referenzzeitpunkte t = 1, ..., w dargestellt werden.
Lässt man x_1:w = (x₁, ... , x_w) ∈ ℝ^dxw eine MTS der Länge-w sein, aufgezeichnet von den Zeitschritten 1 bis w, wobei $x_{t} = {(x_{t}^{1}, \dots x_{t}^{d})}^{T} \in ℝ^{d}$
ein zeitlicher Merkmalsvektor beim t-ten Zeitschritt ist, ist $x_{t}^{i}$
die i-te Variable von x_t und ist d die Gesamtanzahl von Variablen. Um Beobachtungszeiten zu markieren, verwenden die beispielhaften Ausführungsformen eine binäre Maske m_1:w = (m₁, m₂, ..., m_w) ∈ {0, 1}^dxw, wobei $m_{t}^{i} = 1$
= 1 anzeigt, dass $x_{t}^{i}$
ein beobachteter Eintrag ist, sonst gilt $m_{t}^{i} = 0$

mit einem entsprechenden Platzhalter $x_{t}^{i} = NaN .$
Die beispielhaften Ausführungsformen konzentrieren sich auf ein Vorhersageproblem für spärliche MTS, das die wahrscheinlichste Sequenz einer Länge r in der Zukunft angesichts der unvollständigen Beobachtungen in vergangenen w Zeitschritten schätzt, z.B. zielen die beispielhaften Ausführungsformen darauf ab, folgendes zu erhalten: ${\tilde{x}}_{w + 1 \cdot w + r} = \underset{x_{w + 1 \cdot w + r}}{arg max} p (x_{w + 1 \cdot w + r} | x_{1 : w}, m_{1 : w})$
wobei ${\tilde{x}}_{w + 1 \cdot w + r} = ({\tilde{x}}_{w + 1}, \dots, {\tilde{x}}_{w + r})$
vorhergesagte Schätzungen sind und $p (\cdot | \cdot)$
eine zu erlernende Vorhersage- bzw. Prognosefunktion ist.
Die bespielhaften Ausführungsformen führen das DGM²-Modell wie folgt ein. Inspiriert vom erfolgreichen Paradigma von gemeinsamer Imputation und Vorhersage entwerfen die beispielhaften Ausführungsformen DGM² so, dass es eine Präimputationsschicht zum Erfassen der zeitlichen Intensität und der mehrdimensionalen Korrelationen in jeder MTS hat, um fehlende Einträge zu parametrisieren. Die parametrisierte MTS wird einer Prognose- bzw. Vorhersagekomponente zugeführt, die über ein tiefes generatives Modell verfügt, das die latenten dynamischen Verteilungen für robuste Prognosen bzw. Vorhersagen schätzt.
In Bezug auf die Präimputationsschicht zielt diese Schicht darauf ab, die fehlenden Einträge zu schätzen, indem die glatten Trends und zeitlichen Intensitäten der beobachteten Teile genutzt werden, was dazu beitragen kann, die Auswirkungen von Spärlichkeit in den nachgelagerten Vorhersageaufgaben zu mildern.
Für die i-te Variable am t∗-ten Referenzzeitpunkt verwenden die beispielhaften Ausführungsformen einen Gaußkernel k(t*, t; α_i) = e^-αi(t*-t)2, um den zeitlichen Einfluss eines beliebigen Zeitschritts t (1 ≤ t ≤ w) auf t* zu bewerten, wobei α_i ein zu lernender Parameter ist. Basierend auf dem Kernel verwenden die beispielhaften Ausführungsformen dann eine gewichtete Aggregation zum Schätzen von $x_{t}^{i},$
durch: ${\tilde{x}}_{t *}^{i} = \frac{1}{λ (t *, m^{i}; a^{i})} \sum_{i = 1}^{w} κ (t *, t; a_{i}) m_{t}^{i} x_{t}^{i}$
wobei $m^{i} = {(m_{1}^{i}, \dots, m_{w}^{i})}^{T} \in ℝ^{w}$
die Maske der i-ten Variablen ist und $λ (t* {,m}^{i} {;a}_{i}) = \sum_{t = 1}^{w} m_{t}^{i} κ (t *, t; a_{i})$
eine Intensitätsfunktion ist, die die Beobachtungsdichte bei t* auswertet, wobei $m_{t}^{i}$
verwendet wird, um unbeobachtete Zeitschritte auf Null zusetzen.
Um die Korrelationen verschiedener Variablen zu berücksichtigen, führen die beispielhaften Ausführungsformen auch die Informationen über d Variable hinweg zusammen, indem sie erlernbare Korrelationskoeffizienten ρ_ij für i, j = 1, ... , d einführen und eine parametrisierte Ausgabe formulieren, wenn $x_{t *}^{i}$
nicht beobachtet wird, so dass: ${\hat{x}}_{t *}^{i} = [\sum_{j = 1}^{d} ρ_{i j} λ (t *, m^{i}; a_{j}) {\bar{x}}_{t *}^{i}] / \sum_{j' = 1}^{d} λ (t *, m^{i}; a_{j'})$
wobei ρ_ij als 1 für i = j gesetzt ist und λ(t*; mⁱ; α_j) eingeführt ist, um die Zuverlässigkeit von ${\bar{x}}_{t *}^{i}$
anzuzeigen, da ein größeres λ(t*; mⁱ; α_j) mehr Beobachtungen in der Nähe von ${\tilde{x}}_{t *}^{i}$
impliziert.
In dieser Schicht gilt für den Satz bzw. die Gruppe von Parametern α = [α₁, ... , α_d] und p = $ρ = {[ρ_{i j}]}_{i, j = 1}^{d} .$
DGM² trainiert sie gemeinsam mit seinem generativen Modell, um fehlende Muster mit den Vorhersage- bzw. Prognoseaufgaben auszurichten bzw. in Einklang zu bringen.
In Bezug auf die Vorhersagekomponente implementieren die beispielhaften Ausführungsformen ein generatives Modell, das die latenten dynamischen Clustering-Strukturen für robuste Vorhersagen erfasst. Es soll angenommen werden, dass es k latente Cluster gibt, die allen zeitlichen Merkmalen x_t in einem Batch von MTS-Abtastungen zugrunde liegen. Für jeden Zeitschritt t assoziieren die beispielhaften Ausführungsformen x_t mit einer latenten Clustervariablen z_t, um anzuzeigen, zu welchem Cluster x_t gehört. Anstelle des Übergangs von x_t → x_t+1 modellieren die beispielhaften Ausführungsformen den Übergang der Clustervariablen z_t → Z_t+1. Da die Cluster die komplementären Informationen ähnlicher Merkmale in MTS-Abtastungen zu verschiedenen Zeitpunkten integrieren, ist ihre Nutzung robuster als die Verwendung einzelner spärlicher Merkmale x_t.
In Bezug auf das generative Modell folgt der generative Prozess von DGM² dem Übergangs- und Emissionsrahmen bzw. -framework von Zustandsraummodellen.
Erstens verwendet der Übergangsprozess von DGM² eine wiederkehrende Struktur aufgrund seiner Effektivität bei einer Modellierung langfristiger zeitlicher Abhängigkeiten sequentieller Variablen. Jedes Mal wird die Wahrscheinlichkeit eines neuen Zustands z_t+1 auf seine vorherigen Zustände z_1:t = (z₁, .... ,z_t) aktualisiert. Die beispielhaften Ausführungsformen verwenden eine erlernbare Funktion, um die Übergangswahrscheinlichkeit zu definieren, z.B. p(z_t+1|z_1:t) = ƒ_θ(z_1;t), wobei die Funktion ƒ_θ(·) durch θ parametrisiert wird, was Varianten von RNNs sein kann, um nichtlineare Dynamik zu codieren, die zwischen den latenten Variablen hergestellt werden kann.
Für den Emissionsprozess implementieren die beispielhaften Ausführungsformen eine dynamische Gaußsche Mischungsverteilung, die durch dynamisches Abstimmen einer statischen Basismischungsverteilung definiert wird. Man lässt µ_i (i = 1, ..., k) den Mittelwert der i-ten Mischungskomponente der Basisverteilung sein, und p(µ_i) die entsprechende Mischungswahrscheinlichkeit. Die Emission (oder Prognose bzw. Vorhersage) eines neuen Merkmals x_t+1 im Zeitschritt t + 1 enthält die folgenden Schritte, das heißt ein Ziehen einer latenten Clustervariablen z_t+1 aus einer kategorialen Verteilung auf alle Mischungskomponenten und ein Ziehen von x_t+1 aus der Gaußverteilung $N (μ_{z_{t + 1}}, σ^{- 1} I),$
wobei σ ein Hyperparameter ist und I ist eine Identitätsmatrix. Die beispielhaften Ausführungsformen verwenden isotropen Gauß wegen seiner Effizienz und Effektivität.
Im ersten Schritt wird die kategoriale Verteilung üblicherweise auf p(µ) = [p(µ₁), ... , p(µ_k)] ∈ ℝ^k definiert, z.B. die statischen Mischungswahrscheinlichkeiten, die die Dynamik in MTS nicht widerspiegeln können. Vor diesem Hintergrund und unter Berücksichtigung der Tatsache, dass ein Übergangswahrscheinlichkeit p(z_t+1|z_1:t) angibt, zu welchem Cluster x_t+1 gehört, passen die beispielhaften Ausführungsformen die Mischungswahrscheinlichkeit bei jedem Zeitschritt unter Verwendung von p(z_t+1|z_1:t) dynamisch an durch: $ψ_{t + 1} = \underset{dynamic adjustment}{\underset{︸}{(1 - γ) p (z_{t + 1} | z_{1 : t})}} + \underset{basis mixture}{\underset{︸}{γ p (μ)}}$
(Dynamische Einstellung) (Basismischung)
wobei ψ_t+1 die dynamische Mischungsverteilung im Zeitschritt t + 1 ist und γ ein Hyperparameter innerhalb von [0, 1] ist, der den relativen Änderungsgrad steuert, der von der Basismischungsverteilung abweicht.
Der dynamische Einstellungs- bzw. Anpassungsprozess von ψ_t+1 an einer Gaußmischung mit zwei Komponenten kann gezeigt werden, wobei p(z_t+1|z_1:t) die Mischung in Richtung zu der Komponente (z.B. Cluster) einstellt, zu der x_t+1 gehört. Es ist bemerkenswert, dass ein Hinzufügen bzw. eine Zugabe der Basismischung in ψ_t+1, vorteilhaft ist, da es die Beziehungen zwischen verschiedenen Komponenten bestimmt, was das Erlernen der Mittel µ = [µ₁, ..., µ_k] während eines Modelltrainings regelt.
Daher kann der generative Prozess für jede MTS-Abtastung zusammengefasst werden:

(a) Ziehen von z₁ ~ Einheitlich(k)
(b) für einen Zeitschritt t = 1, ... ,w:

i. Berechnen der Übergangswahrscheinlichkeit durch: p(z_t+1|z_1:t) = ƒ_θ(z_{1; t})
ii. Ziehen von z_t+1 ~ Kategoriales p(z_t+1|z_1:t) für den Übergang.
iii. Ziehen von z̃_t+1 ~ Kategoriales ψ_t+1 unter Verwendung von ψ_t+1 zur Emission
iv. Ziehen eines Merkmalsvektors ${\bar{x}}_{t +1} \sim N (μ_{z_{t + 1}}, σ^{- 1} I)$

_t+1

Im obigen Prozess werden die Parameter in µ_i von Abtastungen im selben Cluster gemeinsam genutzt, wodurch komplementäre Informationen für robuste Prognosen konsolidiert werden.
Hinsichtlich der Parametrisierung des generativen Modells ist die parametrische Funktion im generativen Prozess fe(-), für die die beispielhaften Ausführungsformen eine rekurrente neuronale Netzarchitektur wählen als: $p (z_{t + 1} | z_{1 : t}) = s o f t m a x (M L P (h_{t}))$

wobei h_t = RNN(z_t, h_t-1)
und h_t ist der t-te verborgene Zustand ist, MLP ein mehrschichtiges Perzeptron darstellt, RNN entweder durch ein langes Kurzzeitgedächtnis (LSTM) oder ein torgesteuertes rekurrentes Netzwerk (GRU) instanziiert werden kann. Um den Anwendungen gerecht zu werden, bei denen die Referenzzeitschritte von MTS ungleichmäßig verteilt sein könnten, können die beispielhaften Ausführungsformen auch die auf neuronalen gewöhnlichen Differentialgleichungen (ODE) basierenden RNNs enthalten, um die Zeitintervalle zu behandeln.
Zusammenfassend ist die Gruppe von trainierbaren Parameter des generativen Modells ϑ = {θ, µ}. Angesichts dessen zielen die beispielhaften Ausführungsformen darauf ab, die logarithmische Grenzwahrscheinlichkeit der Beobachtung jeder MTS-Abtastung bzw. Probe zu maximieren, z.B. $L (ϑ) = log (\sum_{z_{1 : w}} p ϑ (x_{1: w}, z_{1: w}))$

wobei die gemeinsame Wahrscheinlichkeit in
in Bezug auf die dynamische Mischungsverteilung in ψ_t+1, faktorisiert werden kann, nachdem die Jensen-Ungleichung auf
angewendet ist durch: $\begin{array}{l} L (ϑ) = \sum_{i = 0}^{w - 1} \sum_{z_{1:t+1}} [log (p ϑ (x_{t +1} | z_{t +1})) p_{θ} (z_{1:t}) \\ [(1 - γ) p_{θ} (z_{t +1} | z_{1: t}) + γ p (μ_{z_{t + 1}})]] \end{array}$

wobei die obige untere Grenze als das zu maximierende Ziel dienen wird.
Um die Parameter ϑ zu schätzen, ist das Ziel, die obige Gleichung zu maximieren. Eine Summierung von z_1:t+1 über alle möglichen Sequenzen ist jedoch rechnerisch schwierig. Daher ist eine Bewertung der wahren Posterior-Dichte p(z|x_1:w) schwer zu bewältigen. Um dieses Problem zu umgehen und gleichzeitig eine induktive Analyse zu ermöglichen, greifen die beispielhaften Ausführungsformen auf Variationsinferenz zurück und führen ein Inferenznetzwerk ein.
In Bezug auf das Inferenznetzwerk führen die beispielhaften Ausführungsformen ein angenähertes Posterior q_ϕ(z|x_1:w) ein, das durch neuronale Netze mit einem Parameter ϕ parametrisiert wird. Die beispielhaften Ausführungsformen entwerfen das Inferenznetzwerk strukturell und verwenden tiefe Markov-Prozesse, um die zeitlichen Abhängigkeiten zwischen latenten Variablen aufrechtzuerhalten, was zur folgenden Faktorisierung führt: $q_{ϕ} (z | x_{1: w}) = q_{ϕ} (z_{1} | x_{1}) \prod_{t = 1}^{w - 1} q_{ϕ} (z_{t +1} | x_{1 : t + 1}, z_{t})$
Mit der Einführung von q_ϕ(z|x_1:w), anstatt die logarithmische Grenzwahrscheinlichkeit
zu maximieren, sind die beispielhaften Ausführungsformen daran interessiert, die Variationsnachweisuntergrenze (ELBO) $l (ϑ, φ) \leq L (ϑ)$
in Bezug auf sowohl ϑ als auch ϕ zu maximieren.
Durch Einarbeiten des begrenzenden Schritts in
können die beispielhaften Ausführungsformen die EBLO des Problems ableiten, die geschrieben ist durch: $\begin{array}{l} l (ϑ, ϕ) = (1 - γ) \sum_{t - 1} E_{q_{ϕ} (z_{t} | x_{1: t})} [log (p ϑ (x_{t} | z_{t}))] \\ - \sum_{t = 1}^{w - 1} E_{q_{ϕ} (z_{t} | x_{1: t})} [D_{K L} (q_{ϕ} (z_{t +1} | x_{1 : t + 1}, z_{t}) ‖ p ϑ (z_{t +1} |, z_{1 : t}))] \\ - D_{K L} (q_{ϕ} (z_{1} {| x}_{1}) ‖ p ϑ (z_{1})) + γ \sum_{i = 1}^{w} \sum_{z_{t} = 1}^{k} p ϑ (μ_{z_{t}}) log (p ϑ (x_{t} | z_{t})) \end{array}$

wobei $D_{K L} (\cdot | \cdot)$
die KL-Divergenz ist und p_ϑ (z₁) ein einheitlicher Prior ist, wie es beim generativen Prozess beschrieben ist. Ähnlich zu einem Variations-Autoencoder (VAE) hilft er, eine Überanpassung zu verhindern und die Generalisierungsfähigkeit des Modells zu verbessern.
Die ℓ(ϑ, φ)-Gleichung gibt auch Aufschluss darüber, wie die dynamische Mischungsverteilung in ψ_t+1 funktioniert. Zum Beispiel kapseln die ersten drei Terme bzw. Begriffe die Lernkriterien für dynamische Einstellungen bzw. Anpassungen ein und regelt der letzte Term nach γ die Beziehungen zwischen verschiedenen Basismischungskomponenten.
In der Architektur des Inferenznetzwerks q_ϕ(z_t+1|x_1:t+1, z_t) ist eine wiederkehrende bzw. rekurrente Struktur:
$q_{ϕ} (z_{t +1} | x_{1 : t + 1}, z_{t}) = s o f t m a x [M L P ({\tilde{h}}_{t +1})]$

wobei h̃_t+1 = RNN(x_t, h̃_t)
h̃_t der t-te latente Zustand der RNNs ist und z₀ auf 0 gesetzt ist, so dass er keine Auswirkungen auf die Iteration hat.
Da eine Abtastung einer diskreten Variablen z_t aus den kategorialen Verteilungen nicht differenzierbar ist, ist es schwierig, die Modellparameter zu optimieren. Um es loszuwerden, verwenden die beispielhaften Ausführungsformen den Gumbel-Softmax-Reparametrisierungstrick, um differenzierbare diskrete Proben bzw. Abtastungen zu erzeugen. Auf diese Weise ist das Modell DGM² durchgängig trainierbar.
In Bezug auf torgesteuerte dynamische Verteilungen in ψ_t+1 wird die Dynamik der Gaußschen Mischungsverteilung durch einen Hyperparameter γ abgestimmt, was möglicherweise einige Abstimmungsbemühungen für Validierungsdatensätze erfordert. Um dies zu umgehen, führen die beispielhaften Ausführungsformen eine Gate-Funktion y(h̃_t) = sigmoid (MLP(h̃_t)) ein, die die vom Inferenznetzwerk extrahierten Informationen verwendet, um γ in ψ_t+1, zu ersetzen. Als solches wird ψ_t es zu einer torgesteuerten Verteilung, die bei jedem Zeitschritt dynamisch abgestimmt werden kann.
In Bezug auf das Modelltraining lernen die beispielhaften Ausführungsformen gemeinsam die Parameter ${α, ϱ, ϑ, ϕ}$
der Präimputationsschicht, des generativen Netzwerks p_ϑ und des Inferenznetzwerks q_ϕ, indem sie die ELBO in der Gleichung für ℓ(ϑ, φ) maximieren.
Die größte Herausforderung bei einer Bewertung ℓ(ϑ, φ) besteht darin, die Gradienten aller Terme unter der Erwartung $E_{q_{ϕ}}$
zu erhalten. Da z_t kategorisch ist, kann der erste Term analytisch mit der Wahrscheinlichkeit q_ϕ(z_t|x_1:t) berechnet werden. Jedoch ist q_ϕ(z_t|x_1:t) keine Ausgabe des Inferenznetzwerks, so dass die beispielhaften Ausführungsformen eine Unterroutine ableiten, um q_ϕ(z_t|x_1:t) aus q_ϕ(z_t|x_1:t, z_t-1) zu berechnen. Im zweiten Term verwenden, da die KL-Divergenz sequentiell ausgewertet wird, die beispielhaften Ausführungsformen angestammte Abtasttechniken, um z_t von Zeitschritt 1 bis w abzutasten, um die Verteilung q_ϕ anzunähern. Bemerkenswert ist auch, dass in ℓ(ϑ, φ) die beispielhaften Ausführungsformen beobachtete Werte nur in x_t auswerten, indem sie Masken m_t verwenden, um die unbeobachteten Teile auszublenden.
Als solches ist das gesamte DGM² differenzierbar, und die beispielhaften Ausführungsformen verwenden stochastische Gradientenabstiege zur Optimierung von ℓ(ϑ, φ). Im letzten Term der Gleichung für ℓ(ϑ, φ) müssen die beispielhaften Ausführungsformen auch eine Dichteschätzung der Basismischungsverteilung durchführen, z.B. p(µ) schätzen.
Angesichts eines Batchs von MTS-Abtastungen können bei einer Annahme, dass es n zeitliche Merkmale x_t in diesem Batch gibt und ihre Sammlung durch eine Gruppe bzw. einen Satz X bezeichnet ist, die beispielhaften Ausführungsformen dann die Mischungswahrscheinlichkeit abschätzen durch: $p (μ_{i}) = \sum_{x_{i} \in X} q_{ϕ} (z_{t} = i | x_{1:t}, z_{t - 1}) / n, for i =, \dots, k$

wobei q_Φ(z_t = i|x_1:t,z_t-1) die abgeleitete Zugehörigkeitswahrscheinlichkeit von x_t zum i-ten latenten Cluster durch q_ϕ(z_t+1|x_1:t+1, z_t) = softmax(MLP(h̃_t+1)) ist.
Wendet man sich wieder der Zeitreihenvorhersage im medizinischen Bereich zu, hat der enorme Einsatz digitaler Systeme in Krankenhäusern und vielen medizinischen Einrichtungen eine große Menge an Gesundheitsdaten von Patienten hervorgebracht. Die Big Data bzw. riesigen Datenmengen sind von erheblichem Wert, wodurch künstliche Intelligenz (KI) genutzt werden kann, um eine klinische Beurteilung in der Medizin zu unterstützen. Als eines der kritischen Themen in der modernen Medizin hat die Zahl der Patienten mit Nierenerkrankungen weltweit soziale, medizinische und sozioökonomische Fragen aufgeworfen. Hämodialyse, oder einfach Dialyse, ist ein Prozess zur Reinigung des Blutes eines Patienten, dessen Nieren nicht normal arbeiten, und ist eine der wichtigsten Nierenersatztherapien (RRT). Dialysepatienten mit hohem Risiko für Herz-Kreislauf- und andere Erkrankungen benötigen jedoch ein intensives Management von Blutdruck, Anämie, Mineralstoffwechsel usw. Andernfalls können Patienten während der Dialyse auf kritische Ereignisse wie niedrigen Blutdruck, Wadenkrämpfe und sogar Mortalität stoßen. Daher muss sich das medizinische Personal unter verschiedenen Gesichtspunkten für den Beginn der Dialyse entscheiden.
Angesichts der Verfügbarkeit großer medizinischer Daten ist es wichtig, KI-Systeme zu entwickeln, um prognostische Vorhersagen einiger kritischer medizinischer Indikatoren wie Blutdruck, Dehydrierungsausmaß, hydraulischer Druck usw. während der Vordialysephase zu treffen. Dies ist ein Zeitreihenprognoseproblem im medizinischen Bereich. Die größte Herausforderung dieses Problems ist die große Anzahl fehlender Werte in Krankenakten, die 50% ~ 80% Einträge in den Daten ausmachen können. Dies liegt vor allem an den unregelmäßigen Terminen bei verschiedenen Tests für jeden Patienten.
Dialysemessprotokolle haben eine Häufigkeit von 3 mal / Woche (z.B. Blutdruck, Gewicht, Venendruck, etc.), Bluttestmessungen haben eine Häufigkeit von 2 mal / Monat (z.B. Albumin, Glukose, Thrombozytenzahl usw.) und Kardio-Thorax-Verhältnis (CTR) hat eine Häufigkeit von 1 mal / Monat. Die drei Teile sind dynamisch und ändern sich im Laufe der Zeit, so dass sie durch Zeitreihen modelliert werden können, aber mit unterschiedlichen Frequenzen bzw. Häufigkeiten.
Wenn diese verschiedenen Datenteile miteinander kombiniert werden, fehlen bei niederfrequenten Zeitreihen (z.B. Bluttestmessungen) viele Einträge zu den Daten, bei denen nur hochfrequente Zeitreihen aufgezeichnet werden (z.B. Dialysemessungen), wie es in der Tabelle 100 in 1 aufgezeigt ist.
Außerdem könnte es bei jedem Testtermin aufgrund von Unwissen, Zeitbeschränkungen und Kosten fehlende Elemente geben. Daher ist eine präzise Zeitreihenprognose mit einem Vorhandensein von fehlenden Werten wichtig, um die Entscheidungsprozesse des medizinischen Personals zu unterstützen, und ist daher vorteilhaft, um das Risiko von Ereignissen während einer Dialyse zu reduzieren.
Die beispielhaften Ausführungsformen versuchen, das Potential der Managementdaten von Dialysepatienten zu nutzen, um automatische und qualitativ hochwertige Prognosen von medizinischen Zeitreihen bereitzustellen. Die vorliegende Erfindung ist ein künstliches intelligentes System. Ihr Haupt- bzw. Kernberechnungssystem verwendet ein Modell für eine tiefe dynamische Gaußsche Mischung (DDGM (= Deep Dynamic Gaussian Mixture)), das eine gemeinsame Imputation und Prognose medizinischer Zeitreihen mit fehlenden Werten ermöglicht. Daher kann das System als DDGM-System bezeichnet werden. Die Architektur des DDGM-Systems 200 ist in 2 dargestellt.
Es ist auch erwähnenswert, dass das DDGM-System 200 allgemein ist und auf andere Krankenaktendaten mit ähnlichem Format angewendet werden kann, wie es in 1 dargestellt ist.
Das DDGM-System 200 kann von Krankenhäusern 202 erhaltene Patienten- bzw. Krankenakten 204 enthalten, wobei die Krankenakten 204 über Clouds 206 einer Datenbank 208 zur Verfügung gestellt sind. Ein Datenverarbeitungssystem 210 verarbeitet Daten aus der Datenbank 208, um medizinische Zeitreihen 212 zu erhalten, die dem DDGM-Computersystem 214 zur Verfügung gestellt werden. Ein Datenspeicher 216 kann ebenfalls vorgesehen sein.
Das DDGM-Computing-System 214 kann eine Vorberechnungskomponente (bzw. Präimputationskomponente) 220 und eine Vorhersagekomponente 230 enthalten.
3 zeigt die Gesamtarchitektur des DDGM-Systems 200.
In Bezug auf die Präimputationskomponente 220 besteht das Ziel der Präimputationskomponente 220 darin, fehlende Werte in der Eingabezeitreihe durch einige parametrisierte Funktionen zu füllen, so dass die Parameter gemeinsam mit den Vorhersageaufgaben trainiert werden können. Nachdem diese Parameter gut trainiert sind, werden durch Übergeben neuer Eingabezeitreihen durch die Komponente 220 die fehlenden Werte der Zeitreihe automatisch von den Funktionen gefüllt. Die gefüllten Werte nähern sich den tatsächlichen Messungen an, und die fertige Ausgabe wird der Vorhersagekomponente 230 zugeführt, was eine zuverlässige Verarbeitung erleichtert.
Die Vorberechnungskomponente 220 enthält eine zeitliche Intensitätsfunktion 224 und eine mehrdimensionale Korrelation 226.
In Bezug auf die zeitliche Intensitätsfunktion 224 ist diese Funktion dazu entworfen, die zeitliche Beziehung zwischen Zeitschritten zu modellieren. Fehlende Werte können von allen vorhandenen Beobachtungen abhängen, die interpoliert werden können, indem die beobachteten Werte mit unterschiedlichen Gewichtungen summiert werden. Intuitiv wird der Zeitschritt, in dem der fehlende Wert erscheint, hauptsächlich von seinen nächsten Zeitschritten beeinflusst. Um diese Tatsache widerzuspiegeln, entwerfen die beispielhaften Ausführungsformen die zeitliche Intensitätsfunktion 224 basierend auf einem inversen Abstands- bzw. Entfernungsgewichtungsmechanismus, z.B. erhalten nahe gelegene Zeitschritte höhere Gewichtungen als weit entfernte Zeitschritte, wie es in 6 dargestellt ist.
Angenommen, der fehlende Wert tritt im Zeitschritt t* für die i-te Dimension der multivariaten Eingabezeitreihe auf, dann entwerfen die beispielhaften Ausführungsformen die Intensitätsfunktion basierend auf einem Gaußschen Kernel wie folgt:
$ƒ = \sum_{t = 1}^{T} e^{- α {(t - t *)}^{2}}$

wobei T die Länge der Zeitreihe ist und α ein Parameter, um zu lernen, ist. Die Beziehung 600 zwischen der Ausgabe dieser Funktion und Zeitschritten ist in 6 dargestellt.
In Bezug auf eine mehrdimensionale Korrelation ist ein Modul 226 so entworfen, dass es die Korrelation zwischen verschiedenen Dimensionen der multivariaten Eingabezeitreihe erfasst. Angenommen, die Zeitreihen haben insgesamt D Dimensionen, dann initialisiert das Modul 226 einen Matrixparameter ρ ∈ ℝ^D×D, der eine kontinuierliche D-mal-D-Matrix ist. Jeder Eintrag ρ_ij stellt die Korrelation zwischen einer Dimension i und j dar. Diese Parametermatrix wird auch mit anderen Teilen des Modells an den Trainingsdaten trainiert.
Durch Hineinstopfen bzw. Einstecken dieses Parameters in die zeitliche Intensitätsfunktion 224 können die beispielhaften Ausführungsformen die Funktion, die innerhalb der Präimputationskomponente 220 läuft, erhalten als:
${\hat{x}}_{i t *} - \sum_{j = 1}^{D} \sum_{t = 1}^{T} e^{- α {(t - t *)}^{2}} ρ_{i j} x_{j t}$

wobei x̂_it* den imputierten Wert der i-ten Dimension im t*-ten Zeitschritt darstellt. x_jt ist die Beobachtung der j-ten Dimension im t-ten Zeitschritt. Der ausgegebene x̂_it* Wert wird verwendet werden, um fehlende Werte in der Eingabezeitreihe aufzufüllen, und wird zur Verarbeitung zur nächsten Vorhersagekomponente gesendet werden.
In Bezug auf die Vorhersagekomponente 230 verbindet diese Komponente die Ausgabe 228 der Komponente 220 mit der nachgelagerten Vorhersageaufgabe. Das Ziel der Komponente 230 ist es, einige Cluster-Zentroide über ein Modell einer dynamischen Gauß-Mischung zu lernen, um die Robustheit von Vorhersageergebnissen weiter zu verbessern. Die Komponente 230 hat die Fähigkeit, Werte für zukünftige Zeitschritte zum Zwecke einer Zeitreihenvorhersage zu erzeugen.
Es gibt z.B. drei Module oder Elemente innerhalb der Komponente 230.
In Bezug auf das Inferenznetzwerk 232 ist die Eingabe zu diesem Modul die Ausgabe 228 der Komponente 220, d.h. Zeitreihen mit aufgefüllten fehlenden Werten.
Wie es in 4 gezeigt ist, wird unter der Annahme, dass die Zeitreihen x₁, x₂, ...,x_T sind , jede von ihnen iterativ von einer LSTM-Einheit verarbeitet und gibt latente Merkmalsvektoren h₁, h₂, h_T aufeinanderfolgend aus, so dass h_t = LSTM(x_t, h_t-1).
Jedes Mal, wenn ein h_t erzeugt wird, wird es zu einem Untermodul mit drei Schichten gesendet, d.h. MLP, softmax und Gumbel softmax. Die Ausgabe dieses Untermoduls ist eine Folge von spärlichen Vektoren z₁, z₂, ...,z_T, die die abgeleitete Clustervariable für jeden Zeitschritt darstellen. Wenn es zum Beispiel k mögliche Cluster in den Daten gibt, dann ist z_t ein Länge-k-Vektor, wobei der höchste Wert die Clustermitgliedschaft des Merkmalsvektors x_t angibt, so dass:
$z_{t} = G_{S o f t m a x (S o f t m a x (M L P (h_{t})))}$
Der Entwurf des Inferenznetzwerks folgt dem Variationsinferenzprozess des statistischen Modells. Die Ausgabevektoren z₁, z₂, ..., z_T sind latente Variablen, die vom generativen Netzwerk 234 zur Erzeugung bzw. Generierung/Vorhersage bzw. Prognose neuer Werte verwendet werden.
In Bezug auf das generative Netzwerk 234 und parametrisierte Cluster-Zentroide 236 ist die Eingabe zum Modul 234 die Ausgabe des Inferenznetzwerks 232, z.B. latente Variablen z₁, z₂, ..., z_T. Wie es in 5 dargestellt ist, werden diese Variablen iterativ von einer LSTM-Einheit verarbeitet, und neue latente Merkmalsvektoren h₁, h₂, ..., h_T werden aufeinanderfolgend ausgegeben, wie beispielsweise h_t = LSTM(z_t, h_t-1).
Jedes Mal, wenn ein h_t erzeugt wird, wird er zu einem anderen Untermodul mit drei Schichten gesendet, nämlich MLP, softmax und Gumbel softmax. Die Ausgabe dieses Untermoduls wird eine neue Folge von spärlichen Vektoren ẑ₁, ẑ₂..., ẑ_T sein, die die generative Clustervariable für jeden Zeitschritt darstellen.
Die Variablen unterscheiden sich von denen in der Ausgabe des Inferenznetzwerks 232. Dies liegt daran, dass die Ausgabe des Inferenznetzwerks 232 nur bis zum Zeitschritt T sein kann. Im Gegensatz dazu kann die Ausgabe des generativen Netzwerks 234 bis zu einem beliebigen Zeitschritt nach T für Vorhersagezwecke sein.
Dann wird ẑ₁, ẑ₂,... , ẑ_T zum Cluster-Zentroidmodul 236 gesendet, um einen Mittelwertvektor ϕ_ẑt für t = 1, ... T zu erzeugen. Auch kann t größer als T sein.
Jeder Mittelwertvektor ϕ_ẑt wird verwendet, um eine bestimmte Messung im Zeitschritt t zu erzeugen, indem aus einem Gaußschen Mischungsmodell gezogen wird.
Das heißt: ẑ_t~Categorical(Pr(ẑ_t)) ,
wobei x̂_t~N(ϕ_ẑt, σ^-1I).
„Kategorial“ stellt eine kategoriale Verteilung dar, N stellt eine Gaußverteilung σ dar, stellt Varianz dar und I stellt eine Identitätsmatrix dar.
Auf diese Weise können die beispielhaften Ausführungsformen iterativ x̂_t+1, x̂_t+2, ..., x̂_t+w zur Vorhersage zukünftiger Messungen für w Zeitschritte ziehen.
In Bezug auf ein Modelltraining, um das Modell zu trainieren, maximieren die beispielhaften Ausführungsformen die Wahrscheinlichkeit an bzw. auf den beobachteten Trainingsdaten.
Die zu maximierende Zielfunktion ist gegeben als: $\begin{array}{l} L (x | ϕ, θ, Ω) = \sum_{t = 2}^{T} E_{q (z_{t} | x_{1 : T})} (log p (x_{t} | z_{t}; ϕ)) \\ - \sum_{t = 2}^{T} E_{q (z_{1 : t - 1} | x_{1 : T})} (D_{K L} (q (z_{t} | z_{t - 1}, x_{1 : T}, Ω) ‖ p (z_{t} |, z_{1 : t - 1}, θ))) \\ - D_{K L} (q (z_{1} {| z_{0}, x}_{1 : T}; Ω) ‖ p (z_{1})) \end{array}$

wobei
eine Erwartung darstellt und D_KL eine KL-Divergenzfunktion darstellt. Die Eingabe zu dieser Funktion enthält z₁, z₂, ..., z_T, ẑ₁, ẑ₂, ..., ẑ_T, x₁, x₂, ..., x_T und x̂₁, x̂₂, ..., x̂_T und die Ausgabe ist ein Wert, der die Wahrscheinlichkeit darstellt, die Trainingsdaten angesichts der durch DDGM 200 durchgeführten Wahrscheinlichkeitsberechnungen zu beobachten. Durch Maximieren dieser Wahrscheinlichkeit durch einen Gradientenabstiegsalgorithmus werden die Modellparameter trainiert. Nachdem das Modell gut trainiert ist, kann es verwendet werden, um Vorhersagen für neu eingegebene Zeitreihen durchzuführen.
Daher können die Verfahren der Ausführungsbeispiele implementiert werden durch:
Eingeben der Zeitreihe (mit fehlenden Werten) zur Präimputationskomponente 220.
Die Präimputationskomponente 220 verwendet Intensitätsfunktionen und Korrelationsparameter, um fehlende Werte aufzufüllen.
Die Ausgabe der Präimputationskomponente 220 wird zum Eingangstor der Vorhersagekomponente 230 gesendet.
Die Eingabe der Komponente 230 wird zuerst durch das Inferenznetzwerk 232 laufen, um latente Variablen für die Zeitschritte 1, ..., T abzuleiten.
Die abgeleiteten latenten Variablen werden zum generativen Netzwerk 234 gesendet werden, um eine weitere Kopie von Clustervariablen für die Zeitschritte 1, ..., T zu erzeugen.
Nach dem Zeitschritt T kann das generative Netzwerk 234 seine erzeugten Clustervariablen als eigene Eingabe verwenden, um iterativ neue Clustervariablen für Zeitschritte nach T zu erzeugen.
Für die Ausgabe der vorherigen Schritte, z.B. der erzeugten Clustervariablen, werden sie zur Parametrisierung von Cluster-Zentroiden 236 gesendet, um Mittelwertvektoren zu erzeugen.
Aus der Gaußschen Mischungsverteilung, erfolgt unter Verwendung der erzeugten Mittelwertvektoren, eine Ziehen vorhergesagter Messwerte für jeden vorhergesagten Zeitschritt.
Nur für die Trainingsphase erfolgt ein Senden der erzeugten Werte und der Beobachtungen (für t = 1, ..., T) in den Trainingsdaten zur Zielfunktion für ein Modelltraining.
Zusammenfassend bieten die beispielhaften Ausführungsformen eine systematische und Big-Data-betriebene Lösung für das Problem einer dialysemedizinischen Zeitreihenprognose. Die neuen Aspekte des DDGM-Systems liegen in seinem Computing- bzw. Rechen- bzw. Computersystem, das entworfen ist, um das Problem von fehlenden Werten in dialysemedizinischen Zeitreihendaten zu behandeln. Es wird eine Präimputationskomponente präsentiert, die fehlende Werte durch parametrisierte Funktionen auffüllt (Parameter werden gemeinsam mit Vorhersageaufgaben gelernt). Die Vor- bzw. Präimputationskomponente hat eine zeitliche Intensitätsfunktion, die die zeitliche Abhängigkeit zwischen Zeitstempeln erfasst, und eine mehrdimensionale Korrelation, die eine Korrelation zwischen mehreren Dimensionen erfasst. Eine clusterbasierte Vorhersagekomponente erfasst die Korrelation zwischen verschiedenen Zeitreihenabtastungen, um die imputierten Werte weiter zu verfeinern.
Die Vorteile des DDGM-Systems bieten wenigstens eine Perspektive auf drei Ebenen für eine robuste Imputation, einschließlich zeitlicher Abhängigkeit, dimensionsübergreifender Korrelation und abtastübergreifender Korrelation (über Clustering). Im Hinblick auf die Imputation und Vorhersage ist es von Vorteil, die Abhängigkeit zwischen fehlenden Mustern und Vorhersageaufgaben zu unterscheiden. Somit ist das DDGM-System ein speziell entwickeltes intelligentes System, das den Stand der Technik durch die oben genannten Vorteile, d.h. dreistufige robuste Imputation und gemeinsame Imputation und Vorhersage, voranbringt.
Die erfinderischen Merkmale enthalten wenigstens die Präimputationskomponente zum Auffüllen fehlender Werte durch Modellparameter unter Verwendung von zwei Arten von Funktionen, nämlich einer zeitlichen Intensitätsfunktion auf der Grundlage von Gaußkerneln und einer mehrdimensionalen Korrelation basierend auf zu erlernenden Korrelationsparametern.
Die Vorhersagekomponente ist ein generatives Modell, das auf der Gaußschen Mischungsverteilung für Speicherparameter basiert, die Clusterzentren darstellen, die vom Modell verwendet werden, um Zeitreihen zur Erfassung der Korrelationen zwischen Abtastungen bzw. Proben zu clustern. Zusätzlich wird ein gemeinsamer Imputations- und Vorhersagetrainingsalgorithmus eingeführt, um das Erlernen imputierter Werte zu erleichtern, die gut auf die Vorhersageaufgaben abgestimmt sind.
7 ist ein Block-/Flussdiagramm des Verfahrens zur Verwendung der Präimputationskomponente und der Vorhersagekomponente von DDGM gemäß Ausführungsformen der vorliegenden Erfindung.
Bei einem Block 710 enthält das DDGM-Computing-System eine Präimputationskomponente und eine Vorhersagekomponente. Die Vorhersagekomponente hat ein Haupt- bzw. Kernsystem für eine Clusterbildung über ein neu entworfenes Modell für eine tiefe dynamische Gauß-Mischung.
Bei einem Block 712 modelliert die Präimputationskomponente zwei Arten von Informationen in multivariaten Zeitreihen für eine hohe Imputationsqualität, d.h. zeitliche Abhängigkeit zwischen fehlenden Werten und Beobachtungen und mehrdimensionale Korrelationen zwischen fehlenden Werten und Beobachtungen.
Bei einem Block 714 ist die Vorhersagekomponente ein statistisch generatives Modell, das zeitliche Beziehungen von Clustervariablen in verschiedenen Zeitschritten modelliert, neue Zeitreihen basierend auf einem Modell einer dynamischen Gaußschen Mischung und Clustervariablen vorhersagt und durch tiefe neuronale Netze einschließlich LSTM-Einheiten, MLP und Softmax-Schichten realisiert wird.
Bei einem Block 716 werden in Bezug auf das gemeinsame Trainingsparadigma die Parameter in den beiden Komponenten des Systems gemeinsam trainiert, so dass sowohl die Imputations- als auch die Vorhersagekomponente für die Vorhersageaufgabe optimiert werden.
8 ist ein Block-/ Flussdiagramm 800 einer praktischen Anwendung von DDGM gemäß Ausführungsformen der vorliegenden Erfindung.
Bei einem praktischen Beispiel muss ein Patient 802 das Medikament 806 (Dialyse) für eine Krankheit 804 (Nierenerkrankung) erhalten. Es werden Optionen berechnet, um unterschiedliche Dosierungen des Medikaments 806 (oder unterschiedliche Tests) anzugeben. Die beispielhaften Verfahren verwenden das DDGM-Modell 970 über eine Präimputationskomponente 220 und eine Vorhersagekomponente 230. In einem Fall kann DDGM 970 die Option niedriger Dosierung (oder eine Testoption) für den Patienten 802 wählen. Die Ergebnisse 810 (z.B. Dosierung oder Testoptionen) können auf einer Benutzeroberfläche 812 bereitgestellt oder angezeigt werden, die von einem Benutzer 814 gehandhabt wird.
9 ist ein beispielhaftes Verarbeitungssystem für die DDGM gemäß Ausführungsformen der vorliegenden Erfindung.
Das Verarbeitungssystem enthält wenigstens einen Prozessor (CPU) 904, der über einen Systembus 902 operativ mit anderen Komponenten gekoppelt ist. Eine GPU 905, ein Cache 906, ein Nurlesespeicher (ROM) 908, ein Direktzugriffsspeicher (RAM) 910, ein Eingabe/Ausgabe-(I/O-)Adapter 920, ein Netzwerkadapter 930, ein Benutzerschnittstellenadapter 940 und ein Anzeigeadapter 950 sind operativ mit dem Systembus 902 gekoppelt. Zusätzlich kann DDGM 970 verwendet werden, um eine Präimputationskomponente 220 und eine Vorhersagekomponente 230 auszuführen.
Eine Speichervorrichtung 922 ist durch den I/O-Adapter 920 operativ mit dem Systembus 902 gekoppelt. Die Speichervorrichtung 922 kann eine beliebige Plattenspeichervorrichtung (z.B. eine magnetische oder optische Plattenspeichervorrichtung), eine magnetische Festkörpervorrichtung und so weiter sein.
Ein Transceiver 932 ist durch den Netzwerkadapter 930 operativ mit dem Systembus 902 gekoppelt.
Benutzereingabevorrichtungen 942 sind durch den Benutzerschnittstellenadapter 940 operativ mit dem Systembus 902 gekoppelt. Die Benutzereingabevorrichtungen 942 können irgendetwas von einer Tastatur, einer Maus, einem Keypad bzw. einer Kleintastatur, einer Bilderfassungsvorrichtung, einer Bewegungserfassungsvorrichtung, einem Mikrofon, einer Vorrichtung, die die Funktionalität von wenigstens zwei der vorhergehenden Vorrichtungen enthält, und so weiter sein. Natürlich können auch andere Typen von Eingabevorrichtungen verwendet werden, während der Sinngehalt der vorliegenden Erfindung erhalten bleibt. Die Benutzereingabevorrichtungen 942 können derselbe Typ von Benutzereingabevorrichtung oder unterschiedliche Typen von Benutzereingabevorrichtungen sein. Die Benutzereingabevorrichtungen 942 werden verwendet, um Informationen zum Verarbeitungssystem einzugeben und von diesem auszugeben.
Eine Anzeigevorrichtung 952 ist durch den Anzeigeadapter 950 operativ mit dem Systembus 902 gekoppelt.
Das Verarbeitungssystem kann natürlich auch andere Elemente (nicht gezeigt) enthalten, wie es von einem Fachmann auf dem Gebiet leicht in Betracht gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen im System enthalten sein, abhängig von der besonderen Implementierung derselben, wie es von einem gewöhnlichen Fachmann auf dem Gebiet leicht verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder verdrahteten bzw. kabelgebundenen Ein- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können auch zusätzliche Prozessoren, Steuerungen bzw. Controller, Speicher und so weiter in verschiedenen Konfigurationen verwendet werden, wie es von einem gewöhnlichen Fachmann auf dem Gebiet leicht eingesehen wird. Diese und andere Variationen des Verarbeitungssystems werden von einem gewöhnlichen Fachmann auf dem Gebiet angesichts der hierin bereitgestellten Lehren der vorliegenden Erfindung leicht in Betracht gezogen.
10 ist ein Block-/Flussdiagramm eines beispielhaften Verfahrens zum Ausführen von MILD gemäß Ausführungsformen der vorliegenden Erfindung.
Bei einem Block 1001 erfolgt ein Auffüllen fehlender Werte in einer multivariaten Eingabezeitreihe durch Modellparameter über eine Präimputationskomponente unter Verwendung einer zeitlichen Intensitätsfunktion basierend auf Gaußkerneln und einer mehrdimensionalen Korrelation basierend auf zu erlernenden Korrelationsparametern.
Bei einem Block 1003 erfolgt, über eine Vorhersagekomponente, ein Speichern von Parametern, die Cluster-Schwerpunkte bzw. -Zentroide darstellen, die von der DDGM verwendet werden, um Zeitreihen zum Erfassen von Korrelationen zwischen verschiedenen Zeitreihenabtastungen bzw. -proben zu clustern.
Wie sie hierin verwendet sind, können die Ausdrücke „Daten“, „Inhalt“, „Information“ und ähnliche Ausdrücke austauschbar verwendet werden, um sich auf Daten zu beziehen, die gemäß verschiedenen beispielhaften Ausführungsformen aufgenommen, gesendet, empfangen, angezeigt und/oder gespeichert werden können. Somit sollte die Verwendung von irgendwelchen solchen Ausdrücken nicht dafür genommen werden, den Sinngehalt und Schutzumfang der Offenbarung zu beschränken. Weiterhin können dort, wo hierin eine Computervorrichtung beschrieben ist, um Daten von einer anderen Computervorrichtung zu empfangen, die Daten direkt von einer anderen Computervorrichtung empfangen werden oder sie können indirekt von über eine oder mehrere dazwischenliegende bzw. vermittelnde Computervorrichtungen empfangen werden, wie zum Beispiel einen oder mehrere Server, Relais, Router, Netzwerk-Zugangspunkten, Basisstationen und/oder ähnliches. Gleichermaßen können dort, wo hierin eine Computervorrichtung beschrieben ist, um Daten zu einer anderen Computervorrichtung zu senden, die Daten direkt zu der anderen Computervorrichtung gesendet werden oder sie können indirekt über eine oder mehrere dazwischenliegende bzw. vermittelnde Computervorrichtungen gesendet werden, wie zum Beispiel einen oder mehrere Server, Relais, Router, Netzwerk-Zugangspunkten, Basisstationen und/oder ähnliches.
Wie es von einem Fachmann auf dem Gebiet eingesehen werden wird, können Aspekte der vorliegenden Erfindung als ein System, ein Verfahren oder ein Computerprogrammprodukt ausgeführt werden. Demgemäß können Aspekte der vorliegenden Erfindung die Form einer Ausführungsform gänzlich in Hardware, einer Ausführungsform gänzlich in Software (einschließlich Firmware, residenter Software, Mikrocode, etc.) oder einer Ausführungsform, die Software- und Hardware-Aspekte kombiniert, annehmen, auf die alle hierin allgemein als „Schaltung“, „Modul“, „Recheneinheit“, „Vorrichtung“ oder „System“ Bezug genommen werden kann. Weiterhin können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien mit darauf verkörpertem computerlesbaren Programmcode verkörpert ist.
Irgendeine Kombination von einem oder mehreren computerlesbaren Medien kann verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann, ist aber nicht darauf beschränkt, zum Beispiel ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine Vorrichtung oder ein Gerät sein, oder irgendeine Kombination aus den voranstehenden. Mehr spezifische Beispiele (eine nicht erschöpfende Liste) des computerlesbaren Speichermediums würden das Folgende enthalten: eine elektrische Verbindung mit einem oder mehreren Drähten, eine portierbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Nurlesespeicher (ROM), einen löschbaren programmierbaren Nurlesespeicher (EPROM oder USB-Stick), eine optische Faser bzw. Glasfaser, einen Nurlesespeicher einer portierbaren Computerdiskette (CD-ROM), eine optische Datenspeichervorrichtung, eine magnetische Datenspeichervorrichtung oder irgendeine geeignete Kombination des voranstehenden. In Zusammenhang mit diesem Dokument kann ein computerlesbares Speichermedium irgendein konkretes Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einem Gerät zur Anweisungsausführung enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein ausgebreitetes Datensignal mit einem darin verkörperten computerlesbaren Programmcode enthalten, wie zum Beispiel im Basisband oder als Teil einer Trägerwelle. Ein solches ausgebreitetes Signal kann irgendeine Vielfalt von Formen annehmen, einschließlich, aber nicht darauf beschränkt, elektromagnetisch, optisch oder irgendeine geeignete Kombination davon. Ein computerlesbares Signalmedium kann irgendein computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einem Gerät zur Anweisungsausführung kommunizieren, ausbreiten oder transportieren kann.
Ein auf einem computerlesbaren Medium verkörperter Programmcode kann unter Verwendung von irgendeinem geeigneten Medium übertragen werden, einschließlich, aber nicht darauf beschränkt, drahtlos, drahtgebunden, Glasfaserkabel, RF, etc., oder irgendeiner geeigneten Kombination des voranstehenden.
Ein Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in irgendeiner Kombination von einer oder mehreren Programmiersprachen geschrieben sein, einschließlich einer objektorientierten Programmiersprache, wie beispielsweise Java, Smalltalk, C++ oder ähnlichem, und herkömmlicher verfahrensorientierter Programmiersprachen, wie beispielsweise der C++-Programmiersprache oder ähnlichen Programmiersprachen. Der Programmcode kann gänzlich auf dem Computer eines Anwenders, teilweise auf dem Computer eines Anwenders, als ein alleinstehendes Software-Paket, teilweise auf dem Computer eines Anwenders und teilweise auf einem entfernten Computer oder gänzlich auf dem entfernten Computer oder Server ausführen. Beim letzteren Szenario kann der entfernte Computer mit dem Computer eines Anwenders durch irgendeinen Typ von Netzwerk verbunden sein, einschließlich eines lokalen Netzes (LAN) oder eines Weitverkehrsnetzes (WAN), oder die Verbindung kann zu einem externen Computer (zum Beispiel durch das Internet unter Verwendung eines Internet-Dienstanbieters) ausgeführt werden.
Aspekte der vorliegenden Erfindung werden nachstehend unter Bezugnahme auf Ablaufdiagrammdarstellungen und/oder Blockdiagramme von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der vorliegenden Erfindung beschrieben. Es wird verstanden werden, dass jeder Block der Ablaufdiagrammdarstellungen und/oder der Blockdiagramme und Kombinationen von Blöcken in den Ablaufdiagrammdarstellungen und/oder den Blockdiagrammen durch Computerprogrammanweisungen implementiert werden können. Diese Computerprogrammanweisungen können einem Prozessor eines allgemeinen Computers, eines Computers für spezielle Zwecke oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Anweisungen, die über den Prozessor des Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung ausführen, Mittel zum Implementieren der Funktionen/Handlungen erzeugen, die in dem Ablaufdiagramm und/oder den Blockdiagrammblöcken oder Blöcken oder Modulen spezifiziert sind.
Diese Computerprogrammanweisungen können auch in einem computerlesbaren Medium gespeichert werden, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Vorrichtungen bzw. Geräte anleiten kann, auf eine bestimmte Weise zu funktionieren, so dass die im dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsgegenstand bzw. ein Erzeugnis erzeugen bzw. produzieren, einschließlich Anweisungen, die die Funktion/Handlung implementieren, die im Ablaufdiagramm und/oder Blockdiagrammblock oder Blöcken oder Modulen spezifiziert ist.
Die Computerprogrammanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Vorrichtungen bzw. Geräte geladen werden, um zu veranlassen, dass eine Reihe von Operationsschritten auf dem Computer, einer anderen programmierbaren Vorrichtung oder anderen Vorrichtungen bzw. Geräten durchgeführt wird, um einen computerimplementierten Prozess zu erzeugen bzw. zu produzieren, so dass die Anweisungen, die auf dem Computer oder einer anderen programmierbaren Vorrichtung ausführen, Prozesse zum Implementieren des Funktionen/Handlungen bereitstellen, die in dem Ablaufdiagramm und/oder dem Blockdiagrammblock oder den Blöcken oder Modulen spezifiziert sind.
Es ist einzusehen, dass beabsichtigt ist, das der Ausdruck „Prozessor“, wie er hierin verwendet wird, irgendeine Verarbeitungsvorrichtung enthält, wie zum Beispiel eine, welche eine CPU (zentrale Verarbeitungseinheit) und/oder eine andere Verarbeitungsschaltung enthält. Es ist auch zu verstehen, dass sich der Ausdruck „Prozessor“ auf mehr als eine Verarbeitungsvorrichtung beziehen kann und dass verschiedene Elemente, die mit einer Verarbeitungsvorrichtung assoziiert sind, durch andere Verarbeitungsvorrichtungen gemeinsam genutzt werden können.
Es ist beabsichtigt, dass der Ausdruck „Speicher“, wie er hierin verwendet ist, einen Speicher enthält, der mit einem Prozessor oder einer CPU assoziiert ist, wie zum Beispiel einen RAM, einen ROM, eine feste Speichervorrichtung (z.B. eine Festplatte), eine entfernbare Speichervorrichtung (z.B. eine Diskette), einen USB-Stick, etc.. Ein solcher Speicher kann als ein computerlesbares Speichermedium angesehen werden.
Zusätzlich ist beabsichtigt, dass die Formulierung „Eingabe/AusgabeVorrichtungen“ oder „I/O-Vorrichtungen“, wie sie hierin verwendet ist, zum Beispiel eine oder mehrere Eingabevorrichtungen (z.B. Tastatur, Maus, Scanner, etc.) zum Eingeben von Daten zur Verarbeitungseinheit und/oder eine oder mehrere Ausgabevorrichtungen (z.B. Lautsprecher, Anzeige, Drucker etc.) zum Präsentieren von Ergebnissen, assoziiert mit der Verarbeitungseinheit, enthält.
Das Voranstehende ist in jederlei Hinsicht als illustrativ und beispielhaft, aber nicht als beschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern eher aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch das Patentrecht zugelassen ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die Prinzipien der vorliegenden Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Sind somit die Aspekte der Erfindung mit den Details und der Besonderheit, die durch das Patentrecht erforderlich sind, beschrieben worden, ist das, was beansprucht ist und durch das Patent geschützt erwünscht ist, in den beigefügten Ansprüchen dargelegt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 17408769 [0001]

Claims

Verfahren zum Managen von Daten von Dialysepatienten durch Verwenden eines Modells einer tiefen dynamischen Gaußschen Mischung (DDGM (= Deep Dynamic Gaussian Mixture)), um medizinische Zeitreihendaten vorherzusagen, wobei das Verfahren folgendes umfasst: Auffüllen (1001) fehlender Werte in einer multivariaten Eingabezeitreihe durch Modellparameter über eine Präimputationskomponente durch Verwenden einer zeitlichen Intensitätsfunktion basierend auf Gaußkerneln und einer mehrdimensionalen Korrelation basierend auf zu erlernenden Korrelationsparametern; und Speichern (1003), über eine Vorhersagekomponente, von Parametern, die Cluster-Schwerpunkte bzw. -Zentroide darstellen, die von der DDGM verwendet werden, um Zeitreihen zum Erfassen von Korrelationen zwischen verschiedenen Zeitreihenabtastungen bzw. -proben zu clustern.
Verfahren nach Anspruch 1, wobei die zeitliche Intensitätsfunktion zeitliche Beziehungen zwischen Zeitschritten modelliert.
Verfahren nach Anspruch 2, wobei die zeitliche Intensitätsfunktion auf einem inversen Abstandsgewichtungsmechanismus basiert.
Verfahren nach Anspruch 1, wobei die mehrdimensionale Korrelation Korrelationen zwischen verschiedenen Dimensionen der eingegebenen multivariaten Zeitreihe erfasst.
Verfahren nach Anspruch 4, wobei die mehrdimensionale Korrelation einen Matrixparameter ρ ∈ ℝ^D×D initialisiert, der eine kontinuierliche DxD-Matrix ist und wobei jeder Eintrag ρ_ij die Korrelation zwischen Dimension i und j darstellt.
Verfahren nach Anspruch 1, wobei die Vorhersagekomponente ein Inferenznetzwerk und ein generatives Netzwerk enthält.
Verfahren nach Anspruch 6, wobei das Inferenznetzwerk latente Variablen ableitet.
Verfahren nach Anspruch 7, wobei die abgeleiteten latenten Variablen dem generativen Netzwerk zur Verfügung gestellt werden, um eine weitere Kopie von Clustervariablen zu erzeugen.
Verfahren nach Anspruch 8, wobei das generative Netzwerk nach einer Zeit T die erzeugten Clustervariablen als seine eigene Eingabe verwendet, um iterativ neue Clustervariablen für Zeitschritte nach T zu erzeugen.
Nichtflüchtiges computerlesbares Speichermedium, das ein computerlesbares Programm zum Managen von Daten von Dialysepatienten durch Verwenden eines Modells einer tiefen dynamischen Gaußschen Mischung (DDGM (= Deep Dynamic Gaussian Mixture)), um medizinische Zeitreihendaten vorherzusagen, umfasst, wobei das computerlesbare Programm dann, wenn es auf einem Computer ausgeführt wird, veranlasst, dass der Computer die folgenden Schritte durchführt: Auffüllen (1001) fehlender Werte in einer multivariaten Eingabezeitreihe durch Modellparameter über eine Präimputationskomponente durch Verwenden einer zeitlichen Intensitätsfunktion basierend auf Gaußkerneln und einer mehrdimensionalen Korrelation basierend auf zu erlernenden Korrelationsparametern; und Speichern (1003), über eine Vorhersagekomponente, von Parametern, die Cluster-Schwerpunkte bzw. -Zentroide darstellen, die von der DDGM verwendet werden, um Zeitreihen zum Erfassen von Korrelationen zwischen verschiedenen Zeitreihenabtastungen bzw. -proben zu clustern.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 10, wobei die zeitliche Intensitätsfunktion zeitliche Beziehungen zwischen Zeitschritten modelliert.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 11, wobei die zeitliche Intensitätsfunktion auf einem inversen Abstandsgewichtungsmechanismus basiert.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 10, wobei die mehrdimensionale Korrelation Korrelationen zwischen verschiedenen Dimensionen der eingegebenen multivariaten Zeitreihe erfasst.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 13, wobei die mehrdimensionale Korrelation einen Matrixparameter ρ ∈ ℝ^D×D initialisiert, der eine kontinuierliche DxD-Matrix ist und wobei jeder Eintrag ρ_ij die Korrelation zwischen Dimension i und j darstellt.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 10, wobei die Vorhersagekomponente ein Inferenznetzwerk und ein generatives Netzwerk enthält.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 15, wobei das Inferenznetzwerk latente Variablen ableitet.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 16, wobei die abgeleiteten latenten Variablen dem generativen Netzwerk zur Verfügung gestellt werden, um eine weitere Kopie von Clustervariablen zu erzeugen.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 17, wobei das generative Netzwerk nach einer Zeit T die erzeugten Clustervariablen als seine eigene Eingabe verwendet, um iterativ neue Clustervariablen für Zeitschritte nach T zu erzeugen,
System zum Managen von Daten von Dialysepatienten durch Verwenden eines Modells einer tiefen dynamischen Gaußschen Mischung (DDGM (= Deep Dynamic Gaussian Mixture)), um medizinische Zeitreihendaten vorherzusagen, wobei das System folgendes umfasst: eine Präimputationskomponente (220) zum Auffüllen fehlender Werte in einer multivariaten Eingangszeitreihe durch Modellparameter durch Verwenden einer zeitlichen Intensitätsfunktion basierend auf Gaußkerneln und einer mehrdimensionalen Korrelation basierend auf zu erlernenden Korrelationsparametern; und eine Vorhersagekomponente (230) zum Speichern von Parametern, die Cluster-Schwerpunkte bzw. -Zentroide darstellen, die von der DDGM verwendet werden, um Zeitreihen zum Erfassen von Korrelationen zwischen verschiedenen Zeitreihenabtastungen bzw. -proben zu clustern.
System nach Anspruch 19, wobei die Vorhersagekomponente ein Inferenznetzwerk und ein generatives Netzwerk enthält, wobei das Inferenznetzwerk latente Variablen ableitet, wobei die abgeleiteten latenten Variablen dem generativen Netzwerk zur Verfügung gestellt werden, um eine weitere Kopie von Clustervariablen zu erzeugen.