DE102015201688A1 - Verfahren und systeme zur analyse von gesundheitsdaten - Google Patents

Verfahren und systeme zur analyse von gesundheitsdaten Download PDF

Info

Publication number
DE102015201688A1
DE102015201688A1 DE102015201688.9A DE102015201688A DE102015201688A1 DE 102015201688 A1 DE102015201688 A1 DE 102015201688A1 DE 102015201688 A DE102015201688 A DE 102015201688A DE 102015201688 A1 DE102015201688 A1 DE 102015201688A1
Authority
DE
Germany
Prior art keywords
parameters
cluster
model
cumulative distribution
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102015201688.9A
Other languages
English (en)
Inventor
Sakyajit Bhattacharya
Vaibhav Rajan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Symplr Software LLC
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of DE102015201688A1 publication Critical patent/DE102015201688A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)

Abstract

Es werden Ausführungsformen zum Erzeugen eines Modells offenbart, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Eine Eingabe, die einem Bereich von Zahlen angehört, wird erhalten. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Für ein Cluster werden einer oder mehrere erste Parameter einer Verteilung, die mit dem Cluster verknüpft sind, geschätzt. Danach wird ein Schwellenwert basierend auf dem einen oder den mehreren ersten Parametern bestimmt. Eine inverse kumulative Verteilung jeder der einen oder mehreren n-dimensionalen Variabeln in dem Gesundheitsdatensatz wird bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter basierend auf der geschätzten inversen kumulativen Verteilung aktualisiert. Ein Modell wird für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten Parametern erzeugt.

Description

  • HINTERGRUND
  • Die Gesundheitsbranche ist eine Branche, welche die Datenpflege verschiedener Aufzeichnungen von der Geburtsurkunde bis zur Sterbeurkunde einer Person betrifft. Diese Aufzeichnungen können medizinische Diagnoseberichte, Krankenversicherungsberichte, Krankenhausdaten, usw. beinhalten, sind aber nicht darauf beschränkt. Diese Aufzeichnungsdaten können genutzt werden, um ein mathematisches Modell zu erzeugen, das Informationen identifizieren/vorhersehen kann, wie z. B. einen gesundheitlichen Zustand eines Patienten und Krankenkassenbetrug, aber nicht darauf beschränkt. Zum Erzeugen des mathematischen Modells müssen eines oder mehrere Muster in den Aufzeichnungsdaten identifiziert werden.
  • Durch Datengewinnungstechniken können eines oder mehrere Muster in den Aufzeichnungsdaten bestimmt werden. Solche Muster können zum Bestimmen von Clustern in den Aufzeichnungsdaten verwendet werden. Unter Clustering versteht man das Gruppieren eines Satzes von Aufzeichnungen in den Aufzeichnungsdaten, die auf vordefinierten Merkmalen, die mit dem Aufzeichnungssatz verknüpft sind, basieren. Einige der gemeinhin bekannten Clusteralgorithmen schließen k-means Cluster, dichtebasierte Cluster, schwerpunktbasierte Cluster, Gauß'sche Mischmodelle, usw. ein.
  • Ein Gauß'sches Mischmodell ist eine Clustertechnik, die voraussetzt, dass die Aufzeichnungsdaten eine oder mehrere Komponenten oder Cluster enthalten und dass die Daten normalerweise in jedem Cluster verteilt sind (z. B. Gauß'sche Verteilung). Zum Schulen des Gauß'schen Mischmodells wird eine einer Clusterzahl zugehörige Eingabe, die in den Aufzeichnungsdaten vorliegt, von einem Benutzer empfangen. Wie oben beschrieben, sind die Daten in jedem Cluster normalerweise verteilt. Parameter wie gemittelte oder kovariante Verteilung jedes Clusters können mithilfe des Erwartungsmaximierungsalgorithmus geschätzt werden. In einer Ausführungsform beinhaltet der Erwartungsmaximierungsalgorithmus das Bestimmen einer Wahrscheinlichkeit, dass ein Datenpunkt oder eine Aufzeichnung einem Cluster entspricht. Die Wahrscheinlichkeit wird maximiert und die Parameter der Verteilung, die zu der maximierten Wahrscheinlichkeit führen, ausgewählt. Die ausgewählten Parameter werden zum Erzeugen des Gauß'schen Mischmodells benutzt.
  • Da vorausgesetzt wird, dass die Daten in den Clustern normalerweise verteilt sind, können die Gauß'schen Mischmodelle nicht auf Szenarien angewandt werden, bei denen Daten normalerweise nicht verteilt sind.
  • KURZDARSTELLUNG
  • Gemäß den hierin dargestellten Ausführungsformen wird ein Verfahren zum Erzeugen eines Modells bereitgestellt, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Das Verfahren umfasst das Empfangen einer einem Zahlenbereich angehörigen Eingabe durch einen oder mehrere Prozessoren. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Für einen Cluster in der Clusterzahl werden einer oder mehrere erste Parameter einer mit dem Cluster verknüpften Verteilung geschätzt. Eine inverse kumulative Verteilung jeder von einer oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz wird basierend auf einem Schwellenwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter aktualisiert, die auf der geschätzten inversen kumulativen Verteilung basieren, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird. Abschließend wird das Modell für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten mit jedem Cluster in der Clusterzahl verknüpften Parametern erzeugt.
  • Gemäß der hierin dargestellten Ausführungsform wird ein System zum Erzeugen eines Modells bereitgestellt, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Das System, das einen oder mehrere Prozessoren umfasst, ist zum Empfangen einer einem Zahlenbereich zugehörigen Eingabe konfiguriert. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Weiterhin sind einer oder mehrere Prozessoren zum Schätzen eines oder mehrerer erster Parameter einer mit einem Cluster aus einer Clusterzahl verknüpften Verteilung konfiguriert. Der eine oder die mehreren Prozessoren sind weiterhin zum Bestimmen eines Schwellenwerts basierend auf dem einen oder den mehreren ersten Parametern konfiguriert. Eine inverse kumulative Verteilung jeder der einen oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz wird basierend auf dem Schwellwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen durch einen oder mehrere Prozessoren geschätzt. Der eine oder die mehreren Prozessoren sind zum Aktualisieren des einen oder der mehreren ersten Parameter zum Erzeugen eines oder mehrerer zweiter Parameter, die auf der geschätzten inversen kumulativen Verteilung basieren, konfiguriert, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird. Der eine oder die mehreren Prozessoren sind zum Erzeugen des Modells für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten mit jedem Cluster in der Clusterzahl verknüpften Parametern konfiguriert.
  • Gemäß der hierin dargestellten Ausführungsform wird ein Computerprogrammprodukt für die Verwendung mit einer Computervorrichtung bereitgestellt. Das Computerprogrammprodukt umfasst ein nicht transitorisches computerlesbares Medium. Das nicht transitorische computerlesbare Medium speichert einen Computerprogrammcode zum Erzeugen eines Modells, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Der Computerprogrammcode kann von einem oder mehreren Prozessoren in der Computervorrichtung ausgeführt werden, um eine einem Zahlenbereich zugehörige Eingabe zu empfangen. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Für einen Cluster in der Clusterzahl kann der Computerprogrammcode zum Schätzen eines oder mehrerer erster Parameter einer mit dem Cluster verknüpften Verteilung ausgeführt werden. Danach wird ein Schwellenwert basierend auf dem einen oder den mehreren ersten Parametern bestimmt. Eine inverse kumulative Verteilung jeder von einer oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz wird basierend auf einem Schwellenwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter aktualisiert, die auf der geschätzten inversen kumulativen Verteilung basieren, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird. Abschließend wird das Modell für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten mit jedem Cluster in der Clusterzahl verknüpften Parametern erzeugt.
  • Gemäß den hierin dargestellten Ausführungsformen wird ein Verfahren zum Stratifizieren eines oder mehrerer Patienten in eine oder mehrere Kategorien basierend auf mit jedem des einen oder mehreren Patienten verknüpften medizinischen Aufzeichnungsdaten bereitgestellt. Die medizinischen Aufzeichnungsdaten beinhalten eine Messung eines oder mehrerer physiologischer Marker jedes des einen oder der mehreren Patienten. Das Verfahren umfasst das Empfangen einer einem Zahlenbereich angehörigen Eingabe durch einen oder mehrere Prozessoren. Jede Zahl entspricht einer Kategorienzahl in den medizinischen Aufzeichnungsdaten. Jede Kategorie entspricht einem medizinischen Zustand, der mit jedem des einen oder der mehreren Patienten verknüpft ist. Für eine Kategorie in der Kategorienzahl werden einer oder mehrere erste Parameter einer mit der Kategorie verknüpften Verteilung geschätzt. Eine inverse kumulative Verteilung der einen oder mehreren physiologischen Marker wird basierend auf einem Schwellwert und einer kumulativen Verteilung jedes des einen oder der mehreren physiologischen Marker bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter basierend auf der geschätzten inversen kumulativen Verteilung aktualisiert. Die Aktualisierung wird mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt. Für jede Zahl in dem Zahlenbereich, der auf einem oder mehreren zweiten mit jeder Kategorie der Kategorienzahl verknüpften Parametern basiert, wird ein Modell erzeugt. Ein bestes Modell wird aus dem für jede Zahl in dem Zahlenbereich erzeugten Modell mithilfe des Bayes-Informationskriteriums ausgewählt. Das beste Modell ist deterministisch für die Kategorienzahl in den medizinischen Aufzeichnungsdaten. Das beste Modell stratifiziert jeden des einen oder der mehreren Patienten, die in den medizinischen Aufzeichnungsdaten aufgelistet sind, in eine oder mehrere Kategorien.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Die angefügten Zeichnungen zeigen verschiedene Ausführungsformen von Systemen, Verfahren und anderen Aspekten der Offenbarung. Jeder Durchschnittsfachmann wird zu schätzen wissen, dass die dargestellten Elementgrenzen (z. B. Felder, Feldgruppen oder andere Formen) in den Figuren ein Beispiel der Grenzen repräsentieren. In einigen Beispielen kann ein Element als mehrere Elemente ausgestaltet sein oder mehrere Elemente können als ein Element ausgestaltet sein. In einigen Beispielen kann ein Element, das als eine interne Komponente eines Elements dargestellt ist, als eine externe Komponente in einem anderen implementiert sein und umgekehrt. Des Weiteren sind die Elemente nicht unbedingt maßstabsgetreu.
  • Verschiedene Ausführungsformen werden im Folgenden gemäß den angefügten Zeichnungen beschrieben, die zum Darstellen und nicht Einschränken des Umfangs auf irgendeine Weise bereitgestellt werden, wobei ähnliche Bezugszeichen für ähnliche Elemente stehen. Es zeigen:
  • 1 ein Flussdiagramm, das ein Verfahren zum Erzeugen eines Modells darstellt, das einen oder mehrere Cluster in einem multivariaten Datensatz identifizieren kann;
  • 2 ein Flussdiagramm, das die Erzeugung des Modells gemäß mindestens einer Ausführungsform darstellt;
  • 3 ein Blockdiagramm einer Computervorrichtung, die das Modell gemäß mindestens einer Ausführungsform erzeugen kann; und
  • 4 ein Flussdiagramm, das ein Verfahren zum Stratifizieren eines oder mehrerer Patienten basierend auf medizinischen mit dem einen oder den mehreren Patienten verknüpften Aufzeichnungsdaten gemäß mindestens einer Ausführungsform darstellt.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die vorliegende Offenbarung kann am besten mit Bezug auf die detaillierten Figuren und hierin vorgestellten Beschreibungen verstanden werden. Verschiedene Ausführungsformen werden unten mit Bezug auf die Figuren besprochen. Ein Fachmann wird jedoch zu schätzen wissen, dass die hierin vorgestellten detaillierten Beschreibungen mit Bezug auf die Figuren rein beispielhaft sind, weil die Verfahren und Systeme sich über die beschriebenen Ausführungsformen hinaus erstrecken können. Zum Beispiel können die vorgestellten Lehren und die Anforderungen einer bestimmten Anwendung mehrere alternative und geeignete Ansätze zum Implementieren der Funktionsweise jedes hierin beschriebenen beliebigen Details ergeben. Daher kann sich jeder Ansatz über die bestimmten Implementierungswahlen der folgenden hierin beschriebenen und dargestellten Ausführungsformen hinaus erstrecken.
  • Bezugnahmen auf „eine Ausführungsform”, „mindestens eine Ausführungsform”, „ein Beispiel”, „zum Beispiel” usw. zeigen an, dass die Ausführungsform(en) oder das bzw. die Beispiele, die so beschrieben werden, ein bestimmtes Merkmal, Struktur, Charakteristik, Eigenschaft, Element oder Einschränkung aufweisen kann/können, dass aber nicht jede Ausführungsform oder jedes Beispiel unbedingt dieses besondere Merkmal, Struktur, Charakteristik, Eigenschaft, Element oder Einschränkung besitzt. Des Weiteren bezieht sich die wiederholte Verwendung von „in einer Ausführungsform” nicht unbedingt auf ein und dieselbe Ausführungsform.
  • Definitionen: Die folgenden Ausdrücke sollen zum Zwecke dieser Anmeldung die zugehörigen, unten aufgeführten Bedeutungen besitzen.
  • „Multivariater Datensatz” bezieht sich auf einen Datensatz, der Beobachtungen über eine p-dimensionale Variabel enthält. Zum Beispiel können „n” Ausführungen der p-dimensionalen Variabel einen multivariaten Datensatz bilden. Zum Beispiel können medizinische Aufzeichnungsdaten eine Messung eines oder mehrerer physiologischer Parameter eines oder mehrerer Patienten enthalten. Solche medizinischen Aufzeichnungsdaten sind ein Beispiel für einen multivariaten Datensatz.
  • „Gesundheitsdatensatz” bezieht sich auf einen multivariaten Datensatz, der aus der Gesundheitsbranche erhaltene Daten enthält. In einer Ausführungsform kann der Gesundheitsdatensatz Patientendaten, Krankenhausdaten, Krankenversicherungsdaten, Diagnosedaten usw. entsprechen. In einem Szenarium, bei dem die Gesundheitsdaten den Patientendaten entsprechen, entsprechen der eine oder die mehreren physiologischen Parameter der p-dimensionalen Variabel und die Aufzeichnungszahl in den Gesundheitsdaten entspricht den Ausführungen.
  • „Gauß'sches Mischmodell (GMM)” bezieht sich auf ein mathematisches Modell, das einen oder mehrere Cluster in dem multivariaten Datensatz identifizieren kann. In einer Ausführungsform sind die Datenwerte in jedem des einen oder der mehreren Cluster normalerweise verteilt (z. B. Gauß'sche Verteilung).
  • „Gauß'sches Copula-Mischmodell (GCMM)” bezieht sich auf ein mathematisches Modell, das einen oder mehrere Cluster in dem multivariaten Datensatz identifizieren kann, wobei die Datenwerte in jedem des einen oder der mehreren Cluster gemäß einer Gauß'schen Kopula-Verteilung verteilt sind.
  • „Kumulative Verteilung” bezieht sich auf eine Verteilungsfunktion, welche die Wahrscheinlichkeit, dass eine reelwertige zufällige Variabel X mit einer vorgegebenen Wahrscheinlichkeitsverteilung bei einem Wert von kleiner gleich oder gleich x gefunden wird.
  • „Inverse kumulative Verteilung” bezieht sich auf eine inverse Funktion der kumulativen Verteilung der zufälligen Variabel X.
  • „Clustermischanteil” bezieht sich auf eine Wahrscheinlichkeit, dass ein Datenwert in dem multivariaten Datensatz zu unterschiedlichen Clustern gehört. Der multivariate Datensatz enthält zum Beispiel zwei Cluster. Eine Wahrscheinlichkeit, dass ein Datenwert in dem multivariaten Datensatz zum ersten Cluster gehört, beträgt 0,6. Daher beträgt die Wahrscheinlichkeit, dass der Datenwert zum zweiten Cluster gehört, 0,4. In einer Ausführungsform beträgt die Summe der Datenwertwahrscheinlichkeit in jedem des einen oder der mehreren Cluster in dem Datensatz eins.
  • „Latente Variabel” bezieht sich auf eine Zwischenvariabel, die nicht aus dem multivariaten Datensatz erhalten wird. In einer Ausführungsform wird die latente Variabel basierend auf dem einen oder den mehreren Parametern bestimmt.
  • „Wahrscheinlichkeit” ist umfassend zu verstehen und enthält jede Wahrscheinlichkeitsberechnung; Wahrscheinlichkeitsannäherung unter Verwendung jedes Typs von Eingabedaten, ungeachtet der Präzision oder mangelnden Präzision; jede Zahl, egal ob berechnet oder vorbestimmt, die eine Wahrscheinlichkeit simuliert; oder jeden Verfahrensschritt, der eine Auswirkung auf die Verwendung oder des Auffindens einiger Daten mit einer Beziehung auf eine Wahrscheinlichkeit besitzen.
  • Wie beschrieben, werden die Gauß'schen Mischmodelle zum Bestimmen eines oder mehrerer Cluster in einem Datensatz benutzt. Zum Bestimmen der Cluster setzen die Gauß'schen Mischmodelle voraus, dass Datenpunkte in einem Cluster normalerweise verteilt sind. In einer Ausführungsform können in den meisten der Anwendungen die Datenpunkte normalerweise nicht verteilt sein. Daher sind die Gauß'schen Mischmodelle ggf. nicht in der Lage, die Cluster in dem Datensatz präzise vorherzusagen.
  • In einer Ausführungsform ist ein Gauß'sches Copula-Mischmodell (GCMM) ein anderes mathematisches Modell, das zum Identifizieren eines oder mehrerer Cluster in einem multivariaten Datensatz benutzt wird. In einer Ausführungsform kann der multivariate Datensatz Datenwerte einer oder mehrerer p-dimensionaler Variabeln enthalten. Jeder Datenwert jeder der einen oder mehreren p-dimensionalen Variabeln kann Teil eines Clusters in einem multivariaten Datensatz sein. In einer Ausführungsform setzt das GCMM voraus, dass die Datenwerte in dem Cluster aus einer Gauß'schen Kopula-Verteilung abgeleitet sind. In einer Ausführungsform entspricht Kopula einer multivariaten Wahrscheinlichkeitsverteilung, für die eine Randwahrscheinlichkeit jeder Variabel gleichförmig verteilt ist. In einer Ausführungsform werden die Kopula zum Beschreiben der Abhängigkeit zwischen einer oder mehreren p-dimensionalen Variabeln in dem Datensatz verwendet. Ein typisches Gauß'sches Copula-Mischmodell (GCMM) wird durch die folgende Gleichung repräsentiert:
    Figure DE102015201688A1_0002
    worin
  • yi:
    die inverse kumulative Verteilung der p-dimensionalen Zufallsvariabel x ist;
    p:
    die Dimensionenzahl der zufälligen Variabel ist;
    πg:
    der Clustermischanteil g in Bezug auf andere Cluster in dem multivariaten Datensatz ist;
    ψj(yi,j):
    die Randdichte von GMM entlang der Dimension jth ist;
    G:
    die Clusterzahl in dem multivariaten Datensatz ist;
    μg:
    der Mittelwert der Gauß'schen Copula-Mischkomponente g ist;
    Σg:
    die Kovarianzmatrix der p-dimensionalen Variabel x (die eine Kovarianz zwischen dem einen oder den mehreren Clustern darstellt) ist; und
    ϕ(yig, Σg):
    eine multivariate Gauß'sche Verteilung der Datenwerte in einem Cluster g mit dem Mittelwert μg und der Varianz Σg ist.
  • Zum Bestimmen der Clusterzahl in dem multivariaten Datensatz und zum Klassifizieren jedes Datenwertes der einen oder mehreren p-dimensionalen Variabeln wird ein GCMM erzeugt. Die Erzeugung eines GCMM wurde in einer Ausführungsform der Offenbarung in Zusammenhang mit 1 beschrieben. 1.
  • 1 ist ein Flussdiagramm 100, das ein Verfahren zum Erzeugen eines Modells darstellt, das einen oder mehrere Cluster in einem multivariaten Datensatz identifizieren kann. In einer Ausführungsform ist das Modell ein Gauß'sches Copula-Mischmodell (GCMM).
  • Bei Schritt 102 wird eine Eingabe von einem Benutzer erhalten. In einer Ausführungsform entspricht die Eingabe einem Zahlenbereich. In einer Ausführungsform entspricht der Zahlenbereich einer zu erzeugenden GCM-Modellzahl. Außerdem entspricht in einer Ausführungsform jede Zahl in dem Zahlenbereich einer wahrscheinlichen Clusterzahl, die in dem multivariaten Datensatz vorhanden sein kann. Wenn der Benutzer zum Beispiel den Bereich als 1 bis 3 eingibt, werden drei GCM-Modelle für jede Zahl in dem Bereich erzeugt (d. h. 1, 2 und 3). Weiterhin repräsentiert jede Zahl (d. h. 1, 2 und 3) die Clusterzahl in dem multivariaten Datensatz. Zum Beispiel kann für die Zahl 3 im Zahlenbereich der multivariate Datensatz drei Cluster enthalten. In einer Ausführungsform können die GCM-Modelle, die für eine bestimmte Zahl in dem Zahlenbereich erzeugt werden, diese bestimmte Clusterzahl in dem multivariaten Datensatz identifizieren. Zum Beispiel kann das GCM-Modell, das für die Zahl 3 in dem Zahlenbereich erzeugt wurde, drei Cluster in dem multivariaten Datensatz identifizieren.
  • Außerdem wird der multivariate Datensatz von dem Benutzer erhalten. Der multivariate Datensatz enthält Datenwerte, die einer p-dimensionalen Variabel in dem multivariaten Datensatz angehören. Im Folgenden wird der Ausdruck Datenwert synonym mit Ausführung verwendet. Zum Zwecke der laufenden Beschreibung sind n Ausführungen der p-dimensionalen Variabel in dem multivariaten Datensatz vorhanden.
  • Bei Schritt 104 werden einer oder mehrere mit einem Cluster aus einem oder mehreren Clustern verknüpften Parameter geschätzt. Vor dem Bestimmen des einen oder der mehreren Parameter wird eine Zahl sequentiell aus dem Zahlenbereich ausgewählt. In einer Ausführungsform entspricht die Zahl der Clusterzahl in dem einen oder den mehreren Clustern. Für jeden Cluster in dem einen oder den mehreren Clustern werden der eine oder die mehreren Parameter bestimmt. In einer Ausführungsform können der eine oder die mehreren Parameter einen Mischanteil eines oder mehrerer Cluster, einen Mittelwert der Verteilung des Clusters (d. h. Gauß'sche Kopulamischung), eine Kovarianz zwischen dem einen oder den mehreren Clustern enthalten, sind aber nicht darauf beschränkt. In einer Ausführungsform werden der eine oder die mehreren Parameter zufällig bestimmt. In einer alternativen Ausführungsform werden der eine oder die mehreren Parameter mithilfe des k-means Clusteralgorithmus bestimmt. In einer Ausführungsform schätzt der k-means Clusteralgorithmus den einen oder die mehreren Parameter basierend auf den folgenden Einschränkungen: πg > 0 (2) Σ G / g=1πg = 1 (3) Σg positiv und definit ist (4) δi = Ming,j|y (0) / i,j – 2κ(0)([[Σ (0) / g + I]–1Σ (0) / gI)j| (5) worin
  • πg:
    die Mischanteile des einen oder der mehreren Cluster ist;
    Σg:
    die Kovarianz zwischen dem einen oder den mehreren Clustern ist;
    G:
    die Clusterzahl in dem multivariaten Datensatz ist;
    y (0) / i,j:
    die inverse kumulative Verteilung der p-dimensionalen Variabel entlang der Dimension jth ist; und
    κ(0):
    Max(μg,j), worin μg,j dem Mittelwert der Clusterverteilung g entlang der Dimension jth entspricht.
  • Ein Durchschnittsfachmann wird verstehen, dass der Umfang der Offenbarung nicht auf das Schätzen des einen oder der mehreren Parameter mithilfe des k-means Clusteralgorithmus beschränkt ist. In einer Ausführungsform kann jede andere Technik wie ein Entscheidungsbaum und Gauß'sches Mischmodell zum Schätzen des einen oder der mehreren Parameter verwendet werden.
  • Bei Schritt 106 wird ein Schwellenwert basierend auf dem einen oder den mehreren Parametern bestimmt. In einer Ausführungsform wird die folgende Gleichung zum Bestimmen des Schwellenwerts benutzt:
    Figure DE102015201688A1_0003
    worin
  • Γ:
    der Schwellenwert ist;
    S(t) = Σ G / g=1z (t-1) / igΣ (t) / g (7) worin
    zig:
    einer latenten Variabel entspricht; und
    m(t):
    die Summe aller Elemente von S(t) ist.
  • In einer Ausführungsform entspricht die latente Variabel einer Zwischenvariabel, die nicht aus dem multivariaten Datensatz erhalten wird. In einer Ausführungsform wird die latente Variabel basierend auf dem einen oder den mehreren Parametern bestimmt. Die Bestimmung der latenten Variabel wird in einer Ausführungsform der Offenbarung später beschrieben.
  • Bei Schritt 108 werden eine inverse kumulative Verteilung der p-dimensionalen Variabel basierend auf dem Schwellenwert (der bei Schritt 106 bestimmt wurde) und die kumulative Verteilung der p-dimensionalen Variabel bestimmt. In einer Ausführungsform werden die folgenden Gleichungen zum Bestimmen der inversen kumulativen Verteilung benutzt:
    Figure DE102015201688A1_0004
    yij = Max(yij, Γ) (9) worin
  • yij:
    die inverse kumulative Verteilung der p-dimensionalen Variabel entlang der Dimension jth ist; und
    σ (t) / g,jj:
    jth das diagonale Element der Kovarianzmatrix des g-ten Clusters ist.
  • In einer Ausführungsform ist der Schwellenwert Γ ein niedriger Grenzwert für die inverse kumulative Verteilung der p-dimensionalen Variabel. Wenn z. B. der bestimmte Wert der inversen kumulativen Verteilung yij kleiner als der Schwellenwert Γ ist, wird der Schwellenwert Γ als der Wert der inversen kumulativen Verteilung yij ausgewählt.
  • Ein Durchschnittsfachmann wird verstehen, dass anfangs, wenn der eine oder die mehreren Parameter mithilfe des k-means Algorithmus geschätzt werden, die inverse kumulative Verteilung basierend auf dem bzw. den anfänglichen einen oder mehreren Parametern bestimmt wird. Außerdem wird basierend auf der anfänglichen Schätzung der inversen kumulativen Verteilung eine anfängliche Wahrscheinlichkeit bestimmt. In einer Ausführungsform entspricht die anfängliche Wahrscheinlichkeit einer Wahrscheinlichkeit, dass der anfängliche eine oder die mehreren Parameter deterministisch für das GCM-Modell sind. In einer Ausführungsform wird die anfängliche Wahrscheinlichkeit mithilfe der folgenden Gleichung bestimmt:
    Figure DE102015201688A1_0005
  • Bei Schritt 110 wird die latente Variabel basierend auf dem einen oder den mehreren Parametern und der inversen kumulativen Verteilung der p-dimensionalen Variabel (die bei Schritt 108 bestimmt wird) bestimmt. In einer Ausführungsform wird die latente Variabel mithilfe der folgenden Gleichung bestimmt:
    Figure DE102015201688A1_0006
  • Bei Schritt 112 werden der eine oder die mehreren Parameter basierend auf der bestimmten latenten Variabel aktualisiert. In einer Ausführungsform werden der eine oder die mehreren Parameter mithilfe der folgenden Gleichungen bestimmt:
    Figure DE102015201688A1_0007
  • Bei Schritt 114 wird eine aktualisierte Wahrscheinlichkeit basierend auf den aktualisierten einen oder mehreren Parametern bestimmt. In einer Ausführungsform wird die aktualisierte Wahrscheinlichkeit mithilfe der folgenden Gleichung bestimmt:
    Figure DE102015201688A1_0008
  • Bei Schritt 116 wird eine Prüfung zum Bestimmen durchgeführt, ob eine Differenz zwischen der aktualisierten Wahrscheinlichkeit und der vorherigen Wahrscheinlichkeit kleiner als ein vorbestimmter Schwellenwert ist. In einer Ausführungsform entspricht die vorherige Wahrscheinlichkeit einer Wahrscheinlichkeit, die in der vorherigen Iteration bestimmt wurde. Zum Beispiel wird während der ersten Iteration des Verfahrens die Wahrscheinlichkeit für die erste Iteration (t = 1) mit der anfänglichen Wahrscheinlichkeit verglichen, die mithilfe der Gleichung 10 bestimmt wurde. Auf ähnliche Weise wird in jeder Iteration die Wahrscheinlichkeit durch Verwenden des aktualisierten einen oder mehreren Parametern für diese Iteration mit der Wahrscheinlichkeit verglichen, die in der vorherigen Iteration bestimmt wurde. In einer Ausführungsform wird die folgende Gleichung zum Durchführen der Prüfung verwendet: L(t+1) – L(t) < ∊ (16) worin
  • L(t+1):
    die aktualisierte Wahrscheinlichkeit ist, die durch Verwenden des einen oder der mehreren aktualisierten Parameter bestimmt wurde;
    L(t):
    die Wahrscheinlichkeit ist, die in der vorherigen Iteration bestimmt wurde; und
    ∊:
    der vordefinierte Schwellenwert ist.
  • Wenn bei Schritt 116 bestimmt wird, dass die Differenz größer als der vorbestimmte Schwellenwert ist, werden die Schritte 106 bis 116 wiederholt. Wenn jedoch bei Schritt 116 bestimmt wird, dass die Differenz kleiner als der vorbestimmte Schwellenwert ist, werden der bzw. die aktualisierten eine oder mehreren Parameter als die Modellparameter angesehen.
  • Bei Schritt 118 wird ein Modell basierend auf dem bzw. den aktualisierten einen oder mehreren Parametern erzeugt. In einer Ausführungsform repräsentiert die folgende Gleichung das Modell: GCM – Modell = Π n / i=1Σ G / g=1πgΠ n / i=1[C((ui1, ..., uip)|υ)Π p / j=1fJ(xij)] (17) worin
  • uip:
    die kumulative Verteilung der p-dimensionalen Variabel ist;
    C:
    die Kopulafunktion (von Gleichung 1 repräsentiert) der p-dimensionalen Variabel ist;
    fJ(xij):
    die gemeinsame Verteilung der p-dimensionalen Variabel ist;
    υ:
    der Vektor des einen oder der mehreren Parameter ist.
  • In einer Ausführungsform werden die Schritte 104 bis 118 für jede Zahl im Zahlenbereich wiederholt, um das Modell für jede Zahl im Zahlenbereich zu erzeugen. Daher entspricht die Zahl der erzeugten Modelle dem Zahlenbereich.
  • Bei Schritt 120 wird ein bestes Modell aus dem für jede Zahl im Zahlenbereich erzeugten Modell ausgewählt. In einer Ausführungsform wird das beste Modell mithilfe des Bayes-Informationskriteriums (BIC) ausgewählt. Zum Bestimmen des besten Modells wird eine Punktzahl für jedes Modell bestimmt, das für die Zahlen in dem Zahlenbereich erzeugt wurde. In einer Ausführungsform wird die folgende Gleichung zum Bestimmen der Punktzahl verwendet: BIC – Punktzahl = 2logL(v ^|(ui1, ..., uip)) – ρlogn (18) worin
  • v ^:
    der eine oder die mehreren aktualisierten Parameter ist, die zum Erzeugen des Modells in Schritt 118 verwendet werden;
    L:
    die Wahrscheinlichkeit ist (mithilfe der Gleichung 15), die für den einen oder die mehreren aktualisierten Parameter, die zum Erzeugen des Modells in Schritt 118 verwendet werden, geschätzt wird;
    ρ:
    die Zahl der freien Parameter ist; und
    n:
    die Zahl der Datenwerte oder Ausführungen ist.
  • In einer Ausführungsform entsprechen die freien Parameter Parametern, die nicht von dem einen oder den mehreren Parametern oder dem multivariaten Datensatz abhängig sind. Die freien Parameter werden unabhängig bestimmt. In einer Ausführungsform wird die Zahl der freien Parameter für p-dimensionale Daten und G-Cluster mithilfe der folgenden Gleichung bestimmt: ρ = (G – 1) + Gp + Gp(p + 1)/2 (19)
  • In einer Ausführungsform wird das Modell mit der besten BIC-Punktzahl als das beste Modell ausgewählt. Weiterhin entspricht in einer Ausführungsform die Zahl (aus dem Zahlenbereich), für die das beste Modell erzeugt wird, der Clusterzahl, die in dem multivariaten Datensatz vorliegt. Wenn der Zahlenbereich z. B. 1 bis 3 ist, werden drei Modelle erzeugt, eines für jede Zahl, d. h. 1, 2 und 3. Wenn weiterhin das Modell, das für die Zahl 2 erzeugt wurde, die maximale BIC-Punktzahl besitzt, wird das zweite Modell, das der Zahl 2 entspricht, ausgewählt. Außerdem beträgt in diesem Fall die Clusterzahl, die in dem multivariaten Datensatz vorliegt, zwei.
  • Ein Durchschnittsfachmann wird verstehen, dass die in Schritt 120 bestimmte Clusterzahl eine Schätzung der Clusterzahl, die in dem multivariaten Datensatz vorliegt, ist. In einer Ausführungsform kann der multivariate Datensatz mehr als die geschätzte Zahl von Clustern enthalten.
  • In einer Ausführungsform sind die Modelle, die für jede Zahl in dem Zahlenbereich erzeugt werden, Mischmodelle. In einer Ausführungsform entspricht das Mischmodell einem probalistischen Modell, das einen oder mehrere Cluster in dem multivariaten Datensatz identifizieren kann. Nach der Auswahl des besten Modells wird das beste Modell zum Kategorisieren jedes Datenpunktes (Ausführung der p-dimensionalen Variabel) in dem multivariaten Datensatz in dem einen oder den mehreren Clustern verwendet.
  • In einer Ausführungsform entspricht das in dem Flussdiagramm 100 beschriebene Verfahren einem Erwartungsmaximierungsalgorithmus (EM). Jede Iteration des EM-Algorithmus wechselt zwischen der Durchführung eines Satzes von Erwartungsschritten (E), die eine Abhängigkeit für die Erwartung der geschätzten Log-Wahrscheinlichkeit erzeugen, die mithilfe der derzeitigen Schätzung für die Parameter (Bestimmung der latenten Variabel) und eines Satzes von Maximierungsschritten (M) durchführen, welche die Parameter, welche die erwartete Log-Wahrscheinlichkeit der E-Schritte maximieren, berechnen. In einer Ausführungsform entsprechen die Schritte 106, 108 und 110 den E-Schritten des EM-Algorithmus, während die Schritte 112, 114 und 116 den M-Schritten des EM-Algorithmus entsprechen.
  • 2 ist ein Flussdiagramm 200, das die Erzeugung des Modells gemäß mindestens einer Ausführungsform darstellt. Das Flussdiagramm 200 wurde in Zusammenhang mit 1 beschrieben. 1.
  • Der multivariate Datensatz (durch 202 dargestellt) wird von dem Benutzer erhalten. Außerdem wird der Zahlenbereich (durch 204 dargestellt) von dem Benutzer erhalten. Zum Beispiel enthält der Zahlenbereich (1 (durch 204a dargestellt), 2 (durch 204b dargestellt) und 3 (durch 204c dargestellt)). Wie oben beschrieben, entspricht jede Zahl einer möglichen Clusterzahl, die in dem multivariaten Datensatz 202 enthalten ist. Zum Beispiel wird für die Zahl 1 (durch 204a dargestellt) vorausgesetzt, dass der multivariate Datensatz 202 nur einen Cluster (d. h. Cluster-1 (durch 206 dargestellt)) enthält. Auf die gleiche Weise wird für die Zahl 2 (durch 204a dargestellt) vorausgesetzt, dass der multivariate Datensatz 202 zwei Cluster (d. h. Cluster-1 (durch 206 dargestellt) und Cluster-2 (durch 208 dargestellt) enthält. Des Weiteren wird für die Zahl 3 (durch 204c dargestellt) in dem Zahlenbereich (durch 204 dargestellt) vorausgesetzt, dass der multivariate Datensatz 202 einen dritten Cluster (Cluster-3 (durch 210 dargestellt)) zusätzlich zu den Clustern 206 und 208 enthält. Für jede Zahl in dem Zahlenbereich wird der EM-Algorithmus ausgeführt. In einer Ausführungsform schätzt der EM-Algorithmus den einen oder die mehreren Parameter eines Mischmodells, das die Datenpunkte in dem einen oder mehreren Clustern bündeln kann, wobei die Clusterzahl basierend auf der Zahl in dem Zahlenbereich bestimmt wird. Zum Beispiel erzeugt der EM-Algorithmus, der für Cluster-1 (durch 206 dargestellt) ausgeführt wird, das Mischmodell-1 212, das die Datenwerte in dem multivariaten Datensatz 202 im Cluster-1 (durch 206 dargestellt) bündeln kann. Auf ähnliche Weise wird das Mischmodell-2 (durch 214 dargestellt) für die Zahl 2 (durch 204b dargestellt) erzeugt. Das Mischmodell-2 (durch 214 dargestellt) kann die Datenwerte in den zwei Clustern (d. h. Cluster-1 (durch 206 dargestellt) und Cluster-2 (durch 208 dargestellt)) bündeln.
  • Nach der Erzeugung der Mischmodelle für jede Zahl in dem Zahlenbereich wird eine BIC-Punktzahl mithilfe der Gleichung 18 (durch 218 dargestellt) für jedes Mischmodell bestimmt. Wenn das Mischmodell-2 (durch 214 dargestellt) beispielsweise die maximale BIC-Punktzahl besitzt, wird das Mischmodell-2 (durch 214 dargestellt) ausgewählt. Weiterhin und weil das Mischmodell-2 (durch 214 dargestellt) für die Zahl 2 (durch 204b dargestellt) im Zahlenbereich (durch 204 dargestellt) erhalten wurde, beträgt die Zahl der wahrscheinlichen Cluster in dem multivariaten Datensatz 202 zwei. Nach der Auswahl des Mischmodells-2 (durch 214 dargestellt) wird das Mischmodell-2 (durch 214 dargestellt) zum Bündeln (durch 220 dargestellt) des multivariaten Datensatzes 202 verwendet.
  • 3 ist ein Blockdiagramm einer Computervorrichtung 300, die das Modell gemäß mindestens einer Ausführungsform erzeugen kann. Die Computervorrichtung 300 weist einen Prozessor 302, einen Sender-Empfänger 304 und einen Speicher 306 auf. Der Prozessor 302 ist mit dem Sender-Empfänger 304 und dem Speicher 306 gekoppelt.
  • Der Prozessor 302 weist eine geeignete Logik, Schaltkreise und Schnittstellen auf und ist zum Ausführen einer oder mehrerer Anweisungen, die in dem Speicher 306 zum Durchführen vorbestimmter Betriebsabläufe auf der Computervorrichtung 300 gespeichert sind, konfiguriert. Der Speicher 306 kann zum Speichern der einen oder der mehreren Anweisungen konfiguriert sein. Der Prozessor 302 kann mithilfe einer oder mehrerer Prozessortechnologien, die aus dem Stand der Technik bekannt sind, implementiert werden. Beispiele des Prozessors 302 schließen einen X86-Prozessor, einen RISC-Prozessor, einen ASIC-Prozessor, einen CISC-Prozessor und jeden anderen Prozessor ein, sind aber nicht darauf beschränkt.
  • Der Sender-Empfänger 304 sendet und empfängt Nachrichten und Daten. Weiterhin kann der Sender-Empfänger den multivariaten Datensatz und den Zahlenbereich von dem Benutzer empfangen. Beispiele für Sender-Empfänger 304 können eine Antenne, ein Ethernet-Anschluss, ein USB-Anschluss oder jeder andere Anschluss, der zum Empfangen und Senden von Daten konfiguriert werden kann, sein, sind aber nicht darauf beschränkt. Der Sender-Empfänger 304 sendet und empfängt Daten und Nachrichten gemäß den verschiedenen Kommunikationsprotokollen wie TCP/IP, UDP und 2G-, 3G-, oder 4G-Kommunikationsprotokollen.
  • Der Speicher 306 speichert einen Satz von Anweisungen und Daten. Einige herkömmlich bekannte Speicherimplementierungen schließen RAM, Nurlese-Speicher (ROM), Festplattenlaufwerk (HDD) und SD-Karte ein, sind aber nicht darauf beschränkt. Weiterhin enthält der Speicher 306 eine oder mehrere Anweisungen, die von dem Prozessor 302 zum Durchführen spezifischer Betriebsabläufe ausführbar sind. Für einen Fachmann ist es offensichtlich, dass eine oder mehrere Anweisungen, die in dem Speicher 306 gespeichert sind, der Hardware einer Computervorrichtung 300 ermöglichen, die vorbestimmten Betriebsabläufe durchzuführen. In einer Ausführungsform ist die Computervorrichtung 300 zum Ausführen des Flussdiagramms 100 zum Erzeugen des Modells konfiguriert, das den einen oder die mehreren Cluster in dem multivariaten Datensatz identifizieren kann.
  • In einer Ausführungsform kann das in dem Flussdiagramm 100 beschriebene Verfahren zum Analysieren von Daten aus der Gesundheitsbranche angewandt werden. Zum Beispiel können die Patienten durch Entdeckungsmuster in Erkrankungsgefahrprofilen und Behandlungsreaktionen stratifiziert werden. Das Verfahren kann ferner auf unterschiedlichen Ebenen der Gesundheitsbranche angewandt werden, wie z. B. auf Einzelpatienten-Ebene durch Analyse der elektronischen Patientenakte (EMR) oder auf Krankenhausebene (z. B. durch Identifizieren einer Gruppe von Patienten, bei denen die Gefahr besteht, dass sie einen Krankenversicherungsbetrug begehen könnten).
  • 4 ist ein Flussdiagramm 400, das ein Verfahren zum Stratifizieren eines oder mehrerer Patienten basierend auf medizinischen Aufzeichnungsdaten, die mit dem einen oder den mehreren Patienten verknüpft sind, gemäß mindestens einer Ausführungsform darstellt.
  • Bei Schritt 402 werden medizinische Aufzeichnungsdaten von dem Benutzer erhalten. In einer Ausführungsform erhält der Prozessor 302 die medizinischen Aufzeichnungsdaten. In einer Ausführungsform beinhalten die medizinischen Aufzeichnungsdaten Messungen verschiedener physiologischer Marker eines oder mehrerer Patienten wie Alter, Blutdruck, Serumcholesterinspiegel, Herzschlagfrequenz und ST-Senkung, sind aber nicht darauf beschränkt. In einer Ausführungsform entspricht der physiologische Marker der p-dimensionalen Variabel mit Alter, Blutdruck, Serumcholesterinspiegel, Herzschlagfrequenz und ST-Senkung als unterschiedliche Dimensionen.
  • Ein Durchschnittsfachmann wird verstehen, dass der Umfang der Offenbarung nicht auf die genannten physiologischen Marker beschränkt ist. In einer Ausführungsform können verschiedene andere physiologische Marker verwendet werden.
  • Bei Schritt 404 wird eine Eingabe von dem Benutzer empfangen, die einem Zahlenbereich angehört. In einer Ausführungsform erhält der Prozessor 302 die Eingabe über den Sender-Empfänger 304. In einer Ausführungsform entspricht der Zahlenbereich einer wahrscheinlichen mit den Patienten verknüpften Kategoriezahl, die in den medizinischen Aufzeichnungsdaten vorliegen kann. In einer Ausführungsform können die Kategorien in den medizinischen Aufzeichnungsdaten einem Gesundheitszustand eines oder mehrerer Patienten entsprechen. Zum Beispiel können der eine oder die mehreren Patienten in zwei Kategorien stratifiziert werden, z. B. mit Herzerkrankung und ohne Herzerkrankung.
  • Bei Schritt 406 werden einer oder mehrere Parameter, die mit einer Kategorie der einen oder mehreren Kategorien verknüpft sind, geschätzt. In einer Ausführungsform schätzt der Prozessor 302 den einen oder die mehreren Parameter auf ähnliche wie in Schritt 104 beschriebene Weise.
  • Bei Schritt 408 wird eine inverse kumulative Verteilung der physiologischen Marker geschätzt. In einer Ausführungsform schätzt der Prozessor 302 die inverse kumulative Verteilung. Vor dem Schätzen der inversen kumulativen Verteilung bestimmt der Prozessor 302 den Schwellenwert, der eine untere Grenze für die inverse kumulative Verteilung der physiologischen Marker ist. In einer Ausführungsform können der Schwellenwert und die inverse kumulative Verteilung wie in den Schritten 106 bzw. 108 beschrieben bestimmt werden.
  • Basierend auf der inversen kumulativen Verteilung der physiologischen Parameter kann eine anfängliche Wahrscheinlichkeit durch Verwenden von Gleichung 10 bestimmt werden.
  • Bei Schritt 410 wird eine latente Variabel basierend auf der inversen kumulativen Verteilung der physiologischen Marker bestimmt. In einer Ausführungsform bestimmt der Prozessor 302 die latente Variabel. In einer Ausführungsform führt der Prozessor 302 den Schritt 110 zum Bestimmen der latenten Variabel durch.
  • Bei Schritt 112 werden der eine oder die mehreren Parameter basierend auf der latenten Variabel aktualisiert. In einer Ausführungsform ist der Prozessor 302 zum Aktualisieren des einen oder der mehreren Parameter konfiguriert. Bei Schritt 114 wird eine aktualisierte Wahrscheinlichkeit basierend auf den aktualisierten einen oder mehreren Parametern bestimmt. In einer Ausführungsform bestimmt der Prozessor 302 die aktualisierte Wahrscheinlichkeit. Bei Schritt 116 wird eine Prüfung zum Bestimmen durchgeführt, ob eine Differenz zwischen der aktualisierten Wahrscheinlichkeit und der vorherigen Wahrscheinlichkeit kleiner als ein vorbestimmter Schwellenwert ist. Wenn bei Schritt 116 bestimmt wird, dass die Differenz größer als der vorbestimmte Schwellenwert ist, werden 408 bis 116 wiederholt. Wenn jedoch bei Schritt 116 bestimmt wird, dass die Differenz kleiner als der vorbestimmte Schwellenwert ist, werden der bzw. die aktualisierten eine oder mehreren Parameter als die Modellparameter angesehen. Bei Schritt 118 wird weiterhin ein Modell basierend auf dem einen bzw. den mehreren aktualisierten Parametern erzeugt.
  • In einer Ausführungsform werden die vorgenannten Schritte für jede Zahl in dem Zahlenbereich wiederholt. In einer Ausführungsform ist die Zahl der erzeugten Modelle gleich der Gesamtzahl, die in dem Zahlenbereich vorliegt. Weiterhin wird bei Schritt 120 ein bestes Modell aus den Modellen, die für die Zahlen in dem Zahlenbereich erzeugt wurden, ausgewählt. In einer Ausführungsform repräsentiert die Zahl aus dem Zahlenbereich, für die das beste Modell ausgewählt wird, die Kategorienzahl in den medizinischen Aufzeichnungsdaten. Wenn z. B. das beste Modell für die Zahl 2 erzeugt wird, kann das Modell die medizinischen Aufzeichnungsdaten in zwei Kategorien kategorisieren (z. B. Patienten mit Herzerkrankung und Patienten ohne Herzerkrankung).
  • Nach dem Erzeugen der Modelle und der Auswahl des besten Modells, wird das ausgewählte Modell zum Stratifizieren des einen oder der mehreren Patienten in zwei Kategorien verwendet, d. h. in Patienten mit Herzerkrankung und Patienten ohne Herzerkrankung. In einer Ausführungsform kategorisiert das beste Modell die medizinischen Aufzeichnungsdaten in die zwei Kategorien basierend auf den physiologischen Parametern, die in den medizinischen Aufzeichnungsdaten aufgelistet sind.
  • Ein Durchschnittsfachmann wird verstehen, dass in einem Szenarium, bei dem neue Daten von dem Benutzer eingegeben werden, das ausgewählte Modell die Daten in entsprechende Cluster basierend auf dem Wert der p-dimensionalen Variabel kategorisieren kann. Wenn z. B. physiologische Parameter neuer Patienten in das System eingegeben werden, kategorisiert das Modell die neuen Patienten in eine der zwei Kategorien (z. B. mit einer Herzerkrankung oder ohne Herzerkrankung).
  • Ein Durchschnittsfachmann wird verstehen, dass der Umfang der Offenbarung nicht auf das Stratifizieren des einen oder der mehreren Patienten und auf die eine oder die mehreren Kategorien beschränkt ist. In einer Ausführungsform können ähnliche medizinische Daten analysiert werden, um unterschiedliche Rückschlüsse zu ziehen. Zum Beispiel können Versicherungsdaten in Bezug auf das Gesundheitswesen analysiert werden, um Krankenversicherungsbeträge zu bestimmen.
  • Wenn die Gesundheitsdaten Krankenversicherungsdaten entsprechen, kann die p-dimensionale Variabel in den Krankenversicherungsdaten einem oder mehreren versicherungsbezogenen Parametern wie Alter der versicherten Person, einem oder mehreren physiologischen Parametern der versicherten Person wie Versicherungsprämie, die von der versicherten Person gezahlt wird, Versicherungshöhe und Deckungshöhe entsprechen. Der in dem Flussdiagramm 100 und 400 beschriebene Prozess kann zum Bestimmen von Versicherungsbeträgen, empfohlenen Versicherungsbeiträgen usw. verwendet werden. Auf die gleiche Weise können Krankenhausdaten analysiert werden, um Ärzten beim Treffen von Entscheidungen und Diagnosen behilflich zu sein.
  • Die offenbarten Ausführungsformen umfassen zahlreiche Vorteile. Die Schätzung der inversen kumulativen Verteilung der p-dimensionalen Variabel ermöglicht die Verwendung des Erwartungsmaximierungsalgorithmus zum Erzeugen des GCMM. Des Weiteren wird auch die in dem multivariaten Datensatz vorhandene Clusterzahl geschätzt. Auf diese Weise wird das System dynamischer und anpassungsfähiger. Angenommen, das System empfängt einen unbekannten multivariaten Datensatz. Der Benutzer kann einen Zahlenbereich eingeben, von dem er/sie denkt, dass dies die Clusterzahl in dem multivariaten Datensatz sein sollte. Das System erzeugt ein Modell für jede Zahl und aus den so erzeugten Modellen wird ein bestes Modell ausgewählt. Die Zahl aus dem Zahlenbereich, die dem ausgewählten besten Modell entspricht, ist repräsentativ für die Clusterzahl im multivariaten Datensatz. Diese Fähigkeit der Schätzung der Clusterzahl macht das System anpassungsfähig. Weiterhin kann dieses anpassungsfähige System zum Identifizieren von Clustern in jedem multivariaten Datensatz wie gesundheitsbezogenen Daten verwendet werden.
  • Die offenbarten Verfahren und Systeme, wie in der vorstehenden Beschreibung dargestellt, oder jede beliebige der Komponenten können in Form eines Computersystems ausgeführt werden. Typische Beispiele eines Computersystems schließen einen Allgemeinzweckcomputer, einen programmierten Mikroprozessor, eine Mikrosteuerung, ein peripheres, integriertes Schaltungselement und andere Vorrichtungen und Anordnungen von Vorrichtungen ein, welche die Schritte, die das Verfahren der Offenbarung bilden, implementieren können.
  • Das Computersystem umfasst einen Computer, eine Eingabevorrichtung, eine Anzeigeeinheit und Internet. Der Computer umfasst ferner einen Mikroprozessor. Der Mikroprozessor ist mit dem Kommunikationsbus verbunden. Der Computer weist auch einen Speicher auf. Der Speicher kann ein Zufallszugriffspeicher (RAM) oder ein Nurlese-Speicher (ROM) sein. Das Computersystem umfasst ferner eine Speichervorrichtung, die ein Festplattenlaufwerk oder ein entfernbares Laufwerk wie ein Floppy-Disk-Laufwerk, optisches Plattenlaufwerk und dergleichen sein kann. Die Speichervorrichtung kann auch ein Mittel zum Laden von Computerprogrammen oder anderen Anweisungen in ein Computersystem sein. Das Computersystem weist auch eine Kommunikationseinheit auf. Die Kommunikationseinheit ermöglicht dem Computer, sich mit anderen Datenbanken zu verbinden und über eine Eingangs-/Ausgangsschnittstelle (I/O) mit dem Internet, wodurch der Transfer sowie der Erhalt von Daten aus anderen Quellen möglich ist. Die Kommunikationseinheit kann ein Modem, eine Ethernetkarte oder andere ähnliche Vorrichtungen einschließen, welche dem Computersystem ermöglichen, sich mit den Datenbanken und Netzwerken wie LAN, MAN, WAN und Internet zu verbinden. Das Computersystem erleichtert die Eingabe von einem Benutzer über die Eingabevorrichtungen, die dem System über eine I/O-Schnittstelle zugänglich sind.
  • Zum Verarbeiten der Eingabedaten führt das Computersystem einen Satz von Anweisungen aus, die in einem oder mehreren Speicherelementen gespeichert sind. Die Speicherelemente können auch Daten oder andere Informationen halten, wenn gewünscht. Das Speicherelement kann in Form einer Informationsquelle oder eines physischen Speicherelements vorliegen, das in der Verarbeitungsmaschine vorhanden ist.
  • Die programmierbaren oder computerlesbaren Anweisungen können verschiedene Befehle einschließen, welche die Verarbeitungsmaschine zum Durchführen spezifischer Aufgaben anweisen, wie die Schritte, die das Verfahren der Offenbarung bilden. Die beschriebenen Systeme und Verfahren können auch unter Verwendung von nur Softwareprogrammierung oder durch Verwenden nur von Hardware oder durch eine variierende Kombination der zwei Techniken implementiert werden. Die Offenbarung ist von der Programmiersprache und dem Betriebssystem abhängig, die von den Computern verwendet werden. Die Anweisungen der Offenbarung können in allen Programmiersprachen geschrieben sein, einschließlich 'C', '++', 'Visual ++' und 'Visual Basic', aber nicht darauf beschränkt. Weiterhin kann die Software in Form einer Sammlung separater Programme, eines Programmmoduls, das ein größeres Programm oder einen Abschnitt eines Programmmoduls enthält, wie in der vorstehenden Beschreibung besprochen, vorliegen. Die Software kann auch eine modulare Programmierung in Form von objektorientierter Programmierung einschließen. Die Verarbeitung von Eingabedaten durch die Verarbeitungsmaschine kann als Reaktion auf Benutzerbefehle, Ergebnisse einer vorherigen Verarbeitung oder aus einer Anfrage, die von einer anderen Verarbeitungsmaschine erzeugt wird, erfolgen. Die Offenbarung kann auch in verschiedenen Betriebssystemen und Plattformen implementiert werden, einschließlich 'Unix', 'DOS', 'Android', 'Symbian' und 'Linux', aber nicht darauf beschränkt.
  • Die programmierbaren Anweisungen können gespeichert und auf ein computerlesbares Medium übertragen werden. Die Offenbarung kann auch als ein Computerprogrammprodukt, umfassend ein computerlesbares Medium, ausgeführt werden, oder mit jedem Produkt, das die obigen Verfahren und Systeme oder die zahlreichen verschiedenen Variationen davon implementieren kann.
  • Verschiedene Ausführungsformen von Verfahren und Systemen zum Analysieren von Gesundheitsdaten wurden offenbart. Einem Fachmann ist jedoch offensichtlich, dass Änderungen zusätzlich zu den beschriebenen möglich sind, ohne die erfinderischen Konzepte hierin zu verlassen. Die Ausführungsformen sind daher nicht restriktiv, außer im Geist der Offenbarung. Des Weiteren sind beim Auslegen der Offenbarung sämtliche Begriffe im weitesten möglichen Sinne in Bezug auf den Kontext zu verstehen. Insbesondere die Ausdrücke „umfassen” und „umfassend” sind als sich auf Elemente, Komponenten oder Schritte in nicht ausschließlicher Weise beziehend zu verstehen, die anzeigen, dass die bezüglichen Elemente, Komponenten oder Schritte mit anderen Elementen, Komponenten oder Schritten vorliegen oder benutzt oder kombiniert werden können, die nicht ausdrücklich beschrieben sind.
  • Ein Durchschnittsfachmann wird zu schätzen wissen, dass das System, die Module und Untermodule dargestellt und erklärt wurden, um als Beispiele zu dienen, und diese nicht als in irgendeiner Weise einschränkend auszulegen sind. Man wird ferner zu schätzen wissen, dass die Varianten der oben offenbarten Systemelemente oder Module sowie andere Merkmale und Funktionen oder Alternativen davon zu vielen anderen unterschiedlichen Systemen oder Anwendungen kombiniert werden können.
  • Ein Fachmann wird zu schätzen wissen, dass jeder/s der vorgenannten Schritte und/oder Systemmodule ersetzt, neu geordnet oder entfernt werden können und dass zusätzliche Schritte und/oder Systemmodule aufgenommen werden können, je nach den Anforderungen einer bestimmten Anwendung. Außerdem können die Systeme der vorgenannten Ausführungsformen unter Verwendung eines breiten Bereichs geeigneter Verfahren und Systemmodule implementiert werden und sind nicht auf eine bestimmte Computerhardware, -software, -middleware, -firmware, Mikrocode und dergleichen beschränkt.
  • Die Ansprüche können Ausführungsformen für Hardware, Software oder einer Kombination daraus umfassen.

Claims (10)

  1. System zum Erzeugen eines Modells, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann, wobei das System umfasst: einen oder mehrere Prozessoren, die zum: Empfangen einer Eingabe, die einem Zahlenbereich angehört, wobei jede Zahl in dem Zahlenbereich eine Clusterzahl in dem Gesundheitsdatensatz repräsentiert, durch einen oder mehrere Prozessoren; für einen Cluster in der Clusterzahl zum: Schätzen eines oder mehrerer erster Parameter einer mit dem Cluster verknüpften Verteilung; Bestimmen eines Schwellenwerts basierend auf dem einen oder den mehreren ersten Parametern; Schätzen einer inversen kumulativen Verteilung jedes der einen oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz basierend auf dem Schwellwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen; Aktualisieren des einen oder der mehreren ersten Parameter zum Erzeugen eines oder mehrerer zweiter Parameter, die auf der geschätzten inversen kumulativen Verteilung basieren, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird; und zum Erzeugen des Modells für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten Parametern, die mit jedem Cluster in der Clusterzahl verknüpft sind, konfiguriert sind.
  2. System nach Anspruch 1, wobei die kumulative Verteilung jeder der einen oder mehreren n-dimensionalen Variablen aus dem Gesundheitsdatensatz bestimmt wird.
  3. System nach Anspruch 1, wobei die Verteilung, die mit dem Cluster verknüpft ist, einer Gauß'schen Kopula-Verteilung entspricht.
  4. System nach Anspruch 1, wobei der Erwartungsmaximierungsalgorithmus ferner das Bestimmen einer latenten Variabel für den Cluster basierend auf dem einen oder den mehreren ersten Parametern und der inversen kumulativen Verteilung der einen oder mehreren n-dimensionalen Variablen umfasst, und wobei der eine oder die mehreren ersten Parameter basierend auf mindestens der latenten Variablen aktualisiert werden.
  5. System nach Anspruch 1, wobei der Erwartungsmaximierungsalgorithmus ferner das Bestimmen einer ersten Wahrscheinlichkeit, dass der eine oder die mehreren ersten Parameter deterministisch für das Modell sind, umfasst.
  6. System nach Anspruch 5, wobei der Erwartungsmaximierungsalgorithmus ferner das Bestimmen einer zweiten Wahrscheinlichkeit, dass der eine oder die mehreren zweiten Parameter deterministisch für das Modell sind, umfasst.
  7. System nach Anspruch 6, wobei der eine oder die mehreren Prozessoren ferner zum Vergleichen der ersten Wahrscheinlichkeit und der zweiten Wahrscheinlichkeit konfiguriert sind.
  8. System nach Anspruch 7, wobei das Modell unter Verwendung des einen oder der mehreren zweiten Parameter basierend auf dem Vergleich erzeugt wird.
  9. System nach Anspruch 7, wobei der Schwellenwert und die inverse kumulative Verteilung unter Verwendung des einen oder der mehreren zweiten Parameter basierend auf dem Vergleich aktualisiert werden; und wobei der eine oder die mehreren zweiten Parameter unter Verwendung des aktualisierten Schwellenwerts und der aktualisierten inversen kumulativen Verteilung basierend auf dem Vergleich aktualisiert werden, wobei die zweite Wahrscheinlichkeit basierend auf den aktualisierten einen oder mehreren zweiten Parametern aktualisiert wird.
  10. System nach Anspruch 1, wobei der eine oder die mehreren Prozessoren ferner zum Auswählen eines besten Modells aus dem Modell, das für jede Zahl im Zahlenbereich mithilfe des Bayes-Informationskriteriums erzeugt wurde, konfiguriert sind, wobei das beste Modell deterministisch für die Kategorienzahl in den Gesundheitsdaten ist.
DE102015201688.9A 2014-02-13 2015-01-30 Verfahren und systeme zur analyse von gesundheitsdaten Pending DE102015201688A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/179,752 US10380497B2 (en) 2014-02-13 2014-02-13 Methods and systems for analyzing healthcare data
US14/179,752 2014-02-13

Publications (1)

Publication Number Publication Date
DE102015201688A1 true DE102015201688A1 (de) 2015-08-13

Family

ID=52746276

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015201688.9A Pending DE102015201688A1 (de) 2014-02-13 2015-01-30 Verfahren und systeme zur analyse von gesundheitsdaten

Country Status (3)

Country Link
US (1) US10380497B2 (de)
DE (1) DE102015201688A1 (de)
GB (1) GB2524639A (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10770184B1 (en) * 2014-12-04 2020-09-08 Cerner Innovation, Inc. Determining patient condition from unstructured text data
US20160196394A1 (en) 2015-01-07 2016-07-07 Amino, Inc. Entity cohort discovery and entity profiling
US11955236B2 (en) 2015-04-20 2024-04-09 Murj, Inc. Systems and methods for managing patient medical devices
US10268989B2 (en) * 2015-04-20 2019-04-23 Murj, Inc. Medical device data platform
US10460074B2 (en) * 2016-04-05 2019-10-29 Conduent Business Services, Llc Methods and systems for predicting a health condition of a human subject
US10468136B2 (en) * 2016-08-29 2019-11-05 Conduent Business Services, Llc Method and system for data processing to predict health condition of a human subject
US11081215B2 (en) * 2017-06-01 2021-08-03 International Business Machines Corporation Medical record problem list generation
CN111383754B (zh) * 2018-12-28 2023-08-08 医渡云(北京)技术有限公司 医疗决策方法、医疗决策装置、电子设备及存储介质
WO2023128779A1 (en) * 2021-12-28 2023-07-06 Harman International Industries, Incorporated Method and system for calibrating a human state sensor
US11456072B1 (en) 2022-03-15 2022-09-27 Murj, Inc. Systems and methods to distribute cardiac device advisory data
CN116052887B (zh) * 2023-03-01 2023-06-27 联仁健康医疗大数据科技股份有限公司 一种过度检查的检测方法、装置、电子设备及存储介质
CN116705337B (zh) * 2023-08-07 2023-10-27 山东第一医科大学第一附属医院(山东省千佛山医院) 一种健康数据采集及智能分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013012990A1 (en) * 2011-07-20 2013-01-24 Siemens Corporation Multi-task learning for bayesian matrix factorization

Also Published As

Publication number Publication date
GB2524639A (en) 2015-09-30
US20150227691A1 (en) 2015-08-13
GB201502033D0 (en) 2015-03-25
US10380497B2 (en) 2019-08-13

Similar Documents

Publication Publication Date Title
DE102015201688A1 (de) Verfahren und systeme zur analyse von gesundheitsdaten
DE102015201690A1 (de) Verfahren und systeme zur analyse eines finanzdatensatzes
DE112018002822T5 (de) Klassifizieren neuronaler netze
DE202016004628U1 (de) Durchqueren einer Umgebungsstatusstruktur unter Verwendung neuronaler Netze
DE112021000189T5 (de) Mikrodienst-Aufspaltungsstrategie von monolithischen Anwendungen
DE202017106532U1 (de) Suche nach einer neuronalen Architektur
DE102018128080A1 (de) Verfahren und Vorrichtung zur Quantisierung eines künstlichen neuronalen Netzwerkes
DE102014116177A1 (de) Patientenrisiko-Stratifizierung durch Verknüpfen von wissengesteuerten und datengesteuerten Erkenntnissen
DE202016004627U1 (de) Training eines neuronalen Wertnetzwerks
DE102013202457A1 (de) Vorhersage der Zuverlässigkeit von Klassifizierungen
DE112005000569T5 (de) System und Verfahren zur Patientenidentifikation für klinische Untersuchungen unter Verwendung von inhaltsbasiertem Erlangen und Lernen
DE102006001780A1 (de) System und Verfahren zur automatischen molekularen Diagnose von ALS basierend auf einer Boosting-Klassifikation
EP3719811A1 (de) Konsistenz von datenkennzeichnungen bei der medizinischen bildverarbeitung zur zellklassifizierung
DE112021004559T5 (de) System zur robusten vorhersage bei unregelmässigen zeitreihen in dialysepatientenakten
DE102017215829A1 (de) Verfahren und Datenverarbeitungseinheit zum Ermitteln von Klassifikationsdaten für eine Adaption eines Untersuchungsprotokolls
DE202021004196U1 (de) Vorrichtungen zur automatischen Erkennung von Covid-19 in CT- Bildern des Brustkorbs
EP4016543A1 (de) Verfahren und vorrichtung zur bereitstellung einer medizinischen information
DE102017203315A1 (de) Verfahren und Datenverarbeitungseinheit zur Auswahl eines Protokolls für eine medizinische Bildgebungsuntersuchung
DE102021124445A1 (de) Metamerkmal-trainingsmodelle für maschinenlernalgorithmen
DE102021124256A1 (de) Mobile ki
DE112018005891T5 (de) Bibliotheks-Screening auf Krebswahrscheinlichkeit
DE102020211849A1 (de) Trainieren eines maschinellen lernmodells unter verwendung eines batch-basierten aktiven lernansatzes
Nevo et al. Accounting for measurement error in biomarker data and misclassification of subtypes in the analysis of tumor data
DE112022001973T5 (de) Vorhersage von medizinischen ereignissen mit hilfe eines personalisierten zweikanal-kombinator-netzwerks
DE112022000915T5 (de) Erstellen eines statistischen modells und auswerten der modellleistung

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE

R081 Change of applicant/patentee

Owner name: CONDUENT BUSINESS SERVICES, LLC, FLORHAM PARK, US

Free format text: FORMER OWNER: XEROX CORPORATION, NORWALK, CONN., US

Owner name: CONDUENT BUSINESS SERVICES, LLC (N.D.GES.D. ST, US

Free format text: FORMER OWNER: XEROX CORPORATION, NORWALK, CONN., US

R082 Change of representative

Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE

R012 Request for examination validly filed
R081 Change of applicant/patentee

Owner name: SYMPLR SOFTWARE LLC, HOUSTON, US

Free format text: FORMER OWNER: CONDUENT BUSINESS SERVICES, LLC (N.D.GES.D. STAATES DELAWARE), DALLAS, TEX., US

Owner name: CONDUENT BUSINESS SERVICES, LLC, FLORHAM PARK, US

Free format text: FORMER OWNER: CONDUENT BUSINESS SERVICES, LLC (N.D.GES.D. STAATES DELAWARE), DALLAS, TEX., US

R082 Change of representative

Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE

R081 Change of applicant/patentee

Owner name: SYMPLR SOFTWARE LLC, HOUSTON, US

Free format text: FORMER OWNER: CONDUENT BUSINESS SERVICES, LLC, FLORHAM PARK, NJ, US