DE102015201688A1

DE102015201688A1 - METHOD AND SYSTEMS FOR ANALYSIS OF HEALTH DATA

Info

Publication number: DE102015201688A1
Application number: DE102015201688.9A
Authority: DE
Inventors: Sakyajit Bhattacharya; Vaibhav Rajan
Original assignee: Xerox Corp
Current assignee: Symplr Software LLC
Priority date: 2014-02-13
Filing date: 2015-01-30
Publication date: 2015-08-13
Also published as: US20150227691A1; GB201502033D0; GB2524639A; US10380497B2

Abstract

Es werden Ausführungsformen zum Erzeugen eines Modells offenbart, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Eine Eingabe, die einem Bereich von Zahlen angehört, wird erhalten. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Für ein Cluster werden einer oder mehrere erste Parameter einer Verteilung, die mit dem Cluster verknüpft sind, geschätzt. Danach wird ein Schwellenwert basierend auf dem einen oder den mehreren ersten Parametern bestimmt. Eine inverse kumulative Verteilung jeder der einen oder mehreren n-dimensionalen Variabeln in dem Gesundheitsdatensatz wird bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter basierend auf der geschätzten inversen kumulativen Verteilung aktualisiert. Ein Modell wird für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten Parametern erzeugt.Embodiments for generating a model that can identify one or more clusters in a health record are disclosed. An input belonging to a range of numbers is obtained. Each number in the range of numbers is representative of a cluster number in the health record. For a cluster, one or more first parameters of a distribution associated with the cluster are estimated. Thereafter, a threshold is determined based on the one or more first parameters. An inverse cumulative distribution of each of the one or more n-dimensional variables in the health record is determined. The one or more first parameters are updated to generate one or more second parameters based on the estimated inverse cumulative distribution. A model is generated for each number in the range of numbers based on one or more second parameters.

Description

HINTERGRUNDBACKGROUND

Die Gesundheitsbranche ist eine Branche, welche die Datenpflege verschiedener Aufzeichnungen von der Geburtsurkunde bis zur Sterbeurkunde einer Person betrifft. Diese Aufzeichnungen können medizinische Diagnoseberichte, Krankenversicherungsberichte, Krankenhausdaten, usw. beinhalten, sind aber nicht darauf beschränkt. Diese Aufzeichnungsdaten können genutzt werden, um ein mathematisches Modell zu erzeugen, das Informationen identifizieren/vorhersehen kann, wie z. B. einen gesundheitlichen Zustand eines Patienten und Krankenkassenbetrug, aber nicht darauf beschränkt. Zum Erzeugen des mathematischen Modells müssen eines oder mehrere Muster in den Aufzeichnungsdaten identifiziert werden.The healthcare industry is an industry that handles the maintenance of various records from a birth certificate to a person's death certificate. These records may include, but are not limited to, medical diagnostic reports, health insurance reports, hospital records, etc. This record data can be used to generate a mathematical model that can identify / anticipate information, such as: A health condition of a patient and health insurance fraud, but not limited thereto. To generate the mathematical model, one or more patterns in the record data must be identified.

Durch Datengewinnungstechniken können eines oder mehrere Muster in den Aufzeichnungsdaten bestimmt werden. Solche Muster können zum Bestimmen von Clustern in den Aufzeichnungsdaten verwendet werden. Unter Clustering versteht man das Gruppieren eines Satzes von Aufzeichnungen in den Aufzeichnungsdaten, die auf vordefinierten Merkmalen, die mit dem Aufzeichnungssatz verknüpft sind, basieren. Einige der gemeinhin bekannten Clusteralgorithmen schließen k-means Cluster, dichtebasierte Cluster, schwerpunktbasierte Cluster, Gauß'sche Mischmodelle, usw. ein.Data collection techniques may determine one or more patterns in the record data. Such patterns can be used to determine clusters in the record data. Clustering is the grouping of a set of records in the record data based on predefined features associated with the record set. Some of the commonly known clustering algorithms include k-means clusters, density-based clusters, centroid-based clusters, Gaussian merge models, and so on.

Ein Gauß'sches Mischmodell ist eine Clustertechnik, die voraussetzt, dass die Aufzeichnungsdaten eine oder mehrere Komponenten oder Cluster enthalten und dass die Daten normalerweise in jedem Cluster verteilt sind (z. B. Gauß'sche Verteilung). Zum Schulen des Gauß'schen Mischmodells wird eine einer Clusterzahl zugehörige Eingabe, die in den Aufzeichnungsdaten vorliegt, von einem Benutzer empfangen. Wie oben beschrieben, sind die Daten in jedem Cluster normalerweise verteilt. Parameter wie gemittelte oder kovariante Verteilung jedes Clusters können mithilfe des Erwartungsmaximierungsalgorithmus geschätzt werden. In einer Ausführungsform beinhaltet der Erwartungsmaximierungsalgorithmus das Bestimmen einer Wahrscheinlichkeit, dass ein Datenpunkt oder eine Aufzeichnung einem Cluster entspricht. Die Wahrscheinlichkeit wird maximiert und die Parameter der Verteilung, die zu der maximierten Wahrscheinlichkeit führen, ausgewählt. Die ausgewählten Parameter werden zum Erzeugen des Gauß'schen Mischmodells benutzt.A Gaussian mixed model is a clustering technique which requires that the record data contain one or more components or clusters and that the data is normally distributed in each cluster (eg, Gaussian distribution). To train the Gaussian mixed model, an input associated with a cluster number present in the record data is received from a user. As described above, the data in each cluster is normally distributed. Parameters such as averaged or covariant distribution of each cluster can be estimated using the expectation maximization algorithm. In one embodiment, the expectation maximization algorithm includes determining a probability that a data point or record corresponds to a cluster. The probability is maximized and the parameters of the distribution leading to the maximized probability are selected. The selected parameters are used to generate the Gaussian mixed model.

Da vorausgesetzt wird, dass die Daten in den Clustern normalerweise verteilt sind, können die Gauß'schen Mischmodelle nicht auf Szenarien angewandt werden, bei denen Daten normalerweise nicht verteilt sind.Since it is assumed that the data in the clusters are normally distributed, the Gaussian mixed models can not be applied to scenarios where data is not normally distributed.

KURZDARSTELLUNGSUMMARY

Gemäß den hierin dargestellten Ausführungsformen wird ein Verfahren zum Erzeugen eines Modells bereitgestellt, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Das Verfahren umfasst das Empfangen einer einem Zahlenbereich angehörigen Eingabe durch einen oder mehrere Prozessoren. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Für einen Cluster in der Clusterzahl werden einer oder mehrere erste Parameter einer mit dem Cluster verknüpften Verteilung geschätzt. Eine inverse kumulative Verteilung jeder von einer oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz wird basierend auf einem Schwellenwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter aktualisiert, die auf der geschätzten inversen kumulativen Verteilung basieren, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird. Abschließend wird das Modell für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten mit jedem Cluster in der Clusterzahl verknüpften Parametern erzeugt.In accordance with the embodiments presented herein, a method for generating a model that can identify one or more clusters in a health record is provided. The method includes receiving a numerical range input by one or more processors. Each number in the range of numbers is representative of a cluster number in the health record. For a cluster in the cluster count, one or more first parameters of a distribution associated with the cluster are estimated. An inverse cumulative distribution of each of one or more n-dimensional variables in the health record is determined based on a threshold and a cumulative distribution of each of the one or more n-dimensional variables. The one or more first parameters are updated to generate one or more second parameters based on the estimated inverse cumulative distribution, wherein the update is performed using an expectation maximization algorithm. Finally, the model is generated for each number in the range of numbers based on one or more second parameters associated with each cluster in the cluster number.

Gemäß der hierin dargestellten Ausführungsform wird ein System zum Erzeugen eines Modells bereitgestellt, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Das System, das einen oder mehrere Prozessoren umfasst, ist zum Empfangen einer einem Zahlenbereich zugehörigen Eingabe konfiguriert. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Weiterhin sind einer oder mehrere Prozessoren zum Schätzen eines oder mehrerer erster Parameter einer mit einem Cluster aus einer Clusterzahl verknüpften Verteilung konfiguriert. Der eine oder die mehreren Prozessoren sind weiterhin zum Bestimmen eines Schwellenwerts basierend auf dem einen oder den mehreren ersten Parametern konfiguriert. Eine inverse kumulative Verteilung jeder der einen oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz wird basierend auf dem Schwellwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen durch einen oder mehrere Prozessoren geschätzt. Der eine oder die mehreren Prozessoren sind zum Aktualisieren des einen oder der mehreren ersten Parameter zum Erzeugen eines oder mehrerer zweiter Parameter, die auf der geschätzten inversen kumulativen Verteilung basieren, konfiguriert, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird. Der eine oder die mehreren Prozessoren sind zum Erzeugen des Modells für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten mit jedem Cluster in der Clusterzahl verknüpften Parametern konfiguriert.In accordance with the embodiment presented herein, a system is provided for generating a model that can identify one or more clusters in a health record. The system, which includes one or more processors, is configured to receive input associated with a range of numbers. Each number in the range of numbers is representative of a cluster number in the health record. Furthermore, one or more processors are configured to estimate one or more first parameters of a distribution associated with a cluster of a cluster number. The one or more processors are further configured to determine a threshold based on the one or more first parameters. An inverse cumulative distribution of each of the one or more n-dimensional variables in the health record is estimated based on the threshold and cumulative distribution of each of the one or more n-dimensional variables by one or more processors. The one or more processors are for updating the one or more first parameters configured to generate one or more second parameters based on the estimated inverse cumulative distribution, wherein the update is performed using an expectation maximization algorithm. The one or more processors are configured to generate the model for each number in the range of numbers based on one or more second parameters associated with each cluster in the cluster number.

Gemäß der hierin dargestellten Ausführungsform wird ein Computerprogrammprodukt für die Verwendung mit einer Computervorrichtung bereitgestellt. Das Computerprogrammprodukt umfasst ein nicht transitorisches computerlesbares Medium. Das nicht transitorische computerlesbare Medium speichert einen Computerprogrammcode zum Erzeugen eines Modells, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Der Computerprogrammcode kann von einem oder mehreren Prozessoren in der Computervorrichtung ausgeführt werden, um eine einem Zahlenbereich zugehörige Eingabe zu empfangen. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Für einen Cluster in der Clusterzahl kann der Computerprogrammcode zum Schätzen eines oder mehrerer erster Parameter einer mit dem Cluster verknüpften Verteilung ausgeführt werden. Danach wird ein Schwellenwert basierend auf dem einen oder den mehreren ersten Parametern bestimmt. Eine inverse kumulative Verteilung jeder von einer oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz wird basierend auf einem Schwellenwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter aktualisiert, die auf der geschätzten inversen kumulativen Verteilung basieren, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird. Abschließend wird das Modell für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten mit jedem Cluster in der Clusterzahl verknüpften Parametern erzeugt.In accordance with the embodiment illustrated herein, a computer program product is provided for use with a computing device. The computer program product includes a non-transitory computer-readable medium. The non-transitory computer-readable medium stores computer program code for generating a model that can identify one or more clusters in a health record. The computer program code may be executed by one or more processors in the computing device to receive an input associated with a range of numbers. Each number in the range of numbers is representative of a cluster number in the health record. For a cluster in the cluster count, the computer program code may be executed to estimate one or more first parameters of a distribution associated with the cluster. Thereafter, a threshold is determined based on the one or more first parameters. An inverse cumulative distribution of each of one or more n-dimensional variables in the health record is determined based on a threshold and a cumulative distribution of each of the one or more n-dimensional variables. The one or more first parameters are updated to generate one or more second parameters based on the estimated inverse cumulative distribution, wherein the update is performed using an expectation maximization algorithm. Finally, the model is generated for each number in the range of numbers based on one or more second parameters associated with each cluster in the cluster number.

Gemäß den hierin dargestellten Ausführungsformen wird ein Verfahren zum Stratifizieren eines oder mehrerer Patienten in eine oder mehrere Kategorien basierend auf mit jedem des einen oder mehreren Patienten verknüpften medizinischen Aufzeichnungsdaten bereitgestellt. Die medizinischen Aufzeichnungsdaten beinhalten eine Messung eines oder mehrerer physiologischer Marker jedes des einen oder der mehreren Patienten. Das Verfahren umfasst das Empfangen einer einem Zahlenbereich angehörigen Eingabe durch einen oder mehrere Prozessoren. Jede Zahl entspricht einer Kategorienzahl in den medizinischen Aufzeichnungsdaten. Jede Kategorie entspricht einem medizinischen Zustand, der mit jedem des einen oder der mehreren Patienten verknüpft ist. Für eine Kategorie in der Kategorienzahl werden einer oder mehrere erste Parameter einer mit der Kategorie verknüpften Verteilung geschätzt. Eine inverse kumulative Verteilung der einen oder mehreren physiologischen Marker wird basierend auf einem Schwellwert und einer kumulativen Verteilung jedes des einen oder der mehreren physiologischen Marker bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter basierend auf der geschätzten inversen kumulativen Verteilung aktualisiert. Die Aktualisierung wird mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt. Für jede Zahl in dem Zahlenbereich, der auf einem oder mehreren zweiten mit jeder Kategorie der Kategorienzahl verknüpften Parametern basiert, wird ein Modell erzeugt. Ein bestes Modell wird aus dem für jede Zahl in dem Zahlenbereich erzeugten Modell mithilfe des Bayes-Informationskriteriums ausgewählt. Das beste Modell ist deterministisch für die Kategorienzahl in den medizinischen Aufzeichnungsdaten. Das beste Modell stratifiziert jeden des einen oder der mehreren Patienten, die in den medizinischen Aufzeichnungsdaten aufgelistet sind, in eine oder mehrere Kategorien.In accordance with the embodiments presented herein, a method is provided for stratifying one or more patients into one or more categories based on medical record data associated with each of the one or more patients. The medical record data includes a measurement of one or more physiological markers of each of the one or more patients. The method includes receiving a numerical range input by one or more processors. Each number corresponds to a category number in the medical record data. Each category corresponds to a medical condition associated with each of the one or more patients. For a category in the category number, one or more first parameters of a distribution associated with the category are estimated. An inverse cumulative distribution of the one or more physiological markers is determined based on a threshold and a cumulative distribution of each of the one or more physiological markers. The one or more first parameters are updated to generate one or more second parameters based on the estimated inverse cumulative distribution. The update is performed using an expectation maximization algorithm. For each number in the range of numbers based on one or more second parameters associated with each category of the category number, a model is generated. A best model is selected from the model generated for each number in the range of numbers using the Bayes information criterion. The best model is deterministic of the number of categories in the medical record data. The best model stratifies each of the one or more patients listed in the medical record data into one or more categories.

KURZBESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS

Die angefügten Zeichnungen zeigen verschiedene Ausführungsformen von Systemen, Verfahren und anderen Aspekten der Offenbarung. Jeder Durchschnittsfachmann wird zu schätzen wissen, dass die dargestellten Elementgrenzen (z. B. Felder, Feldgruppen oder andere Formen) in den Figuren ein Beispiel der Grenzen repräsentieren. In einigen Beispielen kann ein Element als mehrere Elemente ausgestaltet sein oder mehrere Elemente können als ein Element ausgestaltet sein. In einigen Beispielen kann ein Element, das als eine interne Komponente eines Elements dargestellt ist, als eine externe Komponente in einem anderen implementiert sein und umgekehrt. Des Weiteren sind die Elemente nicht unbedingt maßstabsgetreu.The attached drawings illustrate various embodiments of systems, methods, and other aspects of the disclosure. Any one of ordinary skill in the art will appreciate that the illustrated element boundaries (eg, fields, arrays, or other shapes) in the figures represent an example of the boundaries. In some examples, one element may be configured as multiple elements or multiple elements may be configured as one element. In some examples, an element represented as an internal component of one element may be implemented as an external component in another and vice versa. Furthermore, the elements are not necessarily to scale.

Verschiedene Ausführungsformen werden im Folgenden gemäß den angefügten Zeichnungen beschrieben, die zum Darstellen und nicht Einschränken des Umfangs auf irgendeine Weise bereitgestellt werden, wobei ähnliche Bezugszeichen für ähnliche Elemente stehen. Es zeigen:Various embodiments will be described below with reference to the accompanying drawings, which are provided for illustration and not limitation of scope in any way, wherein like reference numerals represent like elements. Show it:

1 ein Flussdiagramm, das ein Verfahren zum Erzeugen eines Modells darstellt, das einen oder mehrere Cluster in einem multivariaten Datensatz identifizieren kann; 1 a flowchart illustrating a method for generating a model that can identify one or more clusters in a multivariate dataset;

2 ein Flussdiagramm, das die Erzeugung des Modells gemäß mindestens einer Ausführungsform darstellt; 2 a flowchart illustrating the generation of the model according to at least one embodiment;

3 ein Blockdiagramm einer Computervorrichtung, die das Modell gemäß mindestens einer Ausführungsform erzeugen kann; und 3 a block diagram of a computing device that may generate the model according to at least one embodiment; and

4 ein Flussdiagramm, das ein Verfahren zum Stratifizieren eines oder mehrerer Patienten basierend auf medizinischen mit dem einen oder den mehreren Patienten verknüpften Aufzeichnungsdaten gemäß mindestens einer Ausführungsform darstellt. 4 5 is a flowchart illustrating a method of stratifying one or more patients based on medical record data associated with the one or more patients according to at least one embodiment.

AUSFÜHRLICHE BESCHREIBUNGDETAILED DESCRIPTION

Die vorliegende Offenbarung kann am besten mit Bezug auf die detaillierten Figuren und hierin vorgestellten Beschreibungen verstanden werden. Verschiedene Ausführungsformen werden unten mit Bezug auf die Figuren besprochen. Ein Fachmann wird jedoch zu schätzen wissen, dass die hierin vorgestellten detaillierten Beschreibungen mit Bezug auf die Figuren rein beispielhaft sind, weil die Verfahren und Systeme sich über die beschriebenen Ausführungsformen hinaus erstrecken können. Zum Beispiel können die vorgestellten Lehren und die Anforderungen einer bestimmten Anwendung mehrere alternative und geeignete Ansätze zum Implementieren der Funktionsweise jedes hierin beschriebenen beliebigen Details ergeben. Daher kann sich jeder Ansatz über die bestimmten Implementierungswahlen der folgenden hierin beschriebenen und dargestellten Ausführungsformen hinaus erstrecken.The present disclosure may best be understood by reference to the detailed figures and descriptions presented herein. Various embodiments are discussed below with reference to the figures. One skilled in the art will appreciate, however, that the detailed descriptions presented herein are merely exemplary with reference to the figures, as the methods and systems may extend beyond the described embodiments. For example, the teachings and requirements of a particular application may provide several alternative and appropriate approaches for implementing the operation of any of the details described herein. Therefore, any approach may extend beyond the particular implementation choices of the following embodiments described and illustrated herein.

Bezugnahmen auf „eine Ausführungsform”, „mindestens eine Ausführungsform”, „ein Beispiel”, „zum Beispiel” usw. zeigen an, dass die Ausführungsform(en) oder das bzw. die Beispiele, die so beschrieben werden, ein bestimmtes Merkmal, Struktur, Charakteristik, Eigenschaft, Element oder Einschränkung aufweisen kann/können, dass aber nicht jede Ausführungsform oder jedes Beispiel unbedingt dieses besondere Merkmal, Struktur, Charakteristik, Eigenschaft, Element oder Einschränkung besitzt. Des Weiteren bezieht sich die wiederholte Verwendung von „in einer Ausführungsform” nicht unbedingt auf ein und dieselbe Ausführungsform.References to "one embodiment," "at least one embodiment," "an example," "for example," etc., indicate that the embodiment (s) or example (s) so described have a particular feature, structure , Characteristic, property, element, or constraint, but not every embodiment or example necessarily has that particular feature, structure, characteristic, property, element, or constraint. Furthermore, the repeated use of "in one embodiment" does not necessarily refer to one and the same embodiment.

Definitionen: Die folgenden Ausdrücke sollen zum Zwecke dieser Anmeldung die zugehörigen, unten aufgeführten Bedeutungen besitzen.Definitions: For purposes of this application, the following terms are intended to have the same meanings as listed below.

„Multivariater Datensatz” bezieht sich auf einen Datensatz, der Beobachtungen über eine p-dimensionale Variabel enthält. Zum Beispiel können „n” Ausführungen der p-dimensionalen Variabel einen multivariaten Datensatz bilden. Zum Beispiel können medizinische Aufzeichnungsdaten eine Messung eines oder mehrerer physiologischer Parameter eines oder mehrerer Patienten enthalten. Solche medizinischen Aufzeichnungsdaten sind ein Beispiel für einen multivariaten Datensatz."Multivariate dataset" refers to a dataset that contains observations about a p-dimensional variable. For example, "n" executions of the p-dimensional variable may constitute a multivariate dataset. For example, medical record data may include a measurement of one or more physiological parameters of one or more patients. Such medical record data is an example of a multivariate record.

„Gesundheitsdatensatz” bezieht sich auf einen multivariaten Datensatz, der aus der Gesundheitsbranche erhaltene Daten enthält. In einer Ausführungsform kann der Gesundheitsdatensatz Patientendaten, Krankenhausdaten, Krankenversicherungsdaten, Diagnosedaten usw. entsprechen. In einem Szenarium, bei dem die Gesundheitsdaten den Patientendaten entsprechen, entsprechen der eine oder die mehreren physiologischen Parameter der p-dimensionalen Variabel und die Aufzeichnungszahl in den Gesundheitsdaten entspricht den Ausführungen."Health record" refers to a multivariate dataset containing data obtained from the healthcare industry. In one embodiment, the health record may correspond to patient data, hospital data, health insurance data, diagnostic data, and so on. In a scenario in which the health data corresponds to the patient data, the one or more physiological parameters correspond to the p-dimensional variable, and the recording number in the health data corresponds to the explanations.

„Gauß'sches Mischmodell (GMM)” bezieht sich auf ein mathematisches Modell, das einen oder mehrere Cluster in dem multivariaten Datensatz identifizieren kann. In einer Ausführungsform sind die Datenwerte in jedem des einen oder der mehreren Cluster normalerweise verteilt (z. B. Gauß'sche Verteilung)."Gaussian Mixed Model (GMM)" refers to a mathematical model that can identify one or more clusters in the multivariate dataset. In one embodiment, the data values in each of the one or more clusters are normally distributed (eg, Gaussian distribution).

„Gauß'sches Copula-Mischmodell (GCMM)” bezieht sich auf ein mathematisches Modell, das einen oder mehrere Cluster in dem multivariaten Datensatz identifizieren kann, wobei die Datenwerte in jedem des einen oder der mehreren Cluster gemäß einer Gauß'schen Kopula-Verteilung verteilt sind."Gaussian Copula Mixed Model (GCMM)" refers to a mathematical model that can identify one or more clusters in the multivariate dataset, with the data values in each of the one or more clusters distributed according to a Gaussian copula distribution are.

„Kumulative Verteilung” bezieht sich auf eine Verteilungsfunktion, welche die Wahrscheinlichkeit, dass eine reelwertige zufällige Variabel X mit einer vorgegebenen Wahrscheinlichkeitsverteilung bei einem Wert von kleiner gleich oder gleich x gefunden wird."Cumulative distribution" refers to a distribution function that determines the probability that a real valued random variable X with a given probability distribution will be found at a value less than or equal to x.

„Inverse kumulative Verteilung” bezieht sich auf eine inverse Funktion der kumulativen Verteilung der zufälligen Variabel X."Inverse cumulative distribution" refers to an inverse function of the cumulative distribution of the random variable X.

„Clustermischanteil” bezieht sich auf eine Wahrscheinlichkeit, dass ein Datenwert in dem multivariaten Datensatz zu unterschiedlichen Clustern gehört. Der multivariate Datensatz enthält zum Beispiel zwei Cluster. Eine Wahrscheinlichkeit, dass ein Datenwert in dem multivariaten Datensatz zum ersten Cluster gehört, beträgt 0,6. Daher beträgt die Wahrscheinlichkeit, dass der Datenwert zum zweiten Cluster gehört, 0,4. In einer Ausführungsform beträgt die Summe der Datenwertwahrscheinlichkeit in jedem des einen oder der mehreren Cluster in dem Datensatz eins. Cluster Mixing refers to a probability that a data value in the multivariate record belongs to different clusters. For example, the multivariate dataset contains two clusters. A probability that a data value in the multivariate record belongs to the first cluster is 0.6. Therefore, the probability that the data value belongs to the second cluster is 0.4. In one embodiment, the sum of the data value probability in each of the one or more clusters in the data set is one.

„Latente Variabel” bezieht sich auf eine Zwischenvariabel, die nicht aus dem multivariaten Datensatz erhalten wird. In einer Ausführungsform wird die latente Variabel basierend auf dem einen oder den mehreren Parametern bestimmt."Deferred variable" refers to an intermediate variable that is not obtained from the multivariate dataset. In one embodiment, the latent variable is determined based on the one or more parameters.

„Wahrscheinlichkeit” ist umfassend zu verstehen und enthält jede Wahrscheinlichkeitsberechnung; Wahrscheinlichkeitsannäherung unter Verwendung jedes Typs von Eingabedaten, ungeachtet der Präzision oder mangelnden Präzision; jede Zahl, egal ob berechnet oder vorbestimmt, die eine Wahrscheinlichkeit simuliert; oder jeden Verfahrensschritt, der eine Auswirkung auf die Verwendung oder des Auffindens einiger Daten mit einer Beziehung auf eine Wahrscheinlichkeit besitzen."Probability" is to be understood comprehensively and contains every probability calculation; Probability approximation using any type of input data, regardless of precision or lack of precision; any number, whether calculated or predetermined, that simulates a probability; or any process step that has an impact on the use or finding of some data with a probability relationship.

Wie beschrieben, werden die Gauß'schen Mischmodelle zum Bestimmen eines oder mehrerer Cluster in einem Datensatz benutzt. Zum Bestimmen der Cluster setzen die Gauß'schen Mischmodelle voraus, dass Datenpunkte in einem Cluster normalerweise verteilt sind. In einer Ausführungsform können in den meisten der Anwendungen die Datenpunkte normalerweise nicht verteilt sein. Daher sind die Gauß'schen Mischmodelle ggf. nicht in der Lage, die Cluster in dem Datensatz präzise vorherzusagen.As described, the Gaussian merge models are used to determine one or more clusters in a data set. To determine the clusters, the Gaussian mixed models assume that data points in a cluster are normally distributed. In one embodiment, in most of the applications, the data points may not normally be distributed. Therefore, the Gaussian blended models may not be able to accurately predict the clusters in the data set.

In einer Ausführungsform ist ein Gauß'sches Copula-Mischmodell (GCMM) ein anderes mathematisches Modell, das zum Identifizieren eines oder mehrerer Cluster in einem multivariaten Datensatz benutzt wird. In einer Ausführungsform kann der multivariate Datensatz Datenwerte einer oder mehrerer p-dimensionaler Variabeln enthalten. Jeder Datenwert jeder der einen oder mehreren p-dimensionalen Variabeln kann Teil eines Clusters in einem multivariaten Datensatz sein. In einer Ausführungsform setzt das GCMM voraus, dass die Datenwerte in dem Cluster aus einer Gauß'schen Kopula-Verteilung abgeleitet sind. In einer Ausführungsform entspricht Kopula einer multivariaten Wahrscheinlichkeitsverteilung, für die eine Randwahrscheinlichkeit jeder Variabel gleichförmig verteilt ist. In einer Ausführungsform werden die Kopula zum Beschreiben der Abhängigkeit zwischen einer oder mehreren p-dimensionalen Variabeln in dem Datensatz verwendet. Ein typisches Gauß'sches Copula-Mischmodell (GCMM) wird durch die folgende Gleichung repräsentiert:

worin

y_i:: die inverse kumulative Verteilung der p-dimensionalen Zufallsvariabel x ist;
p:: die Dimensionenzahl der zufälligen Variabel ist;
π_g:: der Clustermischanteil g in Bezug auf andere Cluster in dem multivariaten Datensatz ist;
ψ_j(y_i,j):: die Randdichte von GMM entlang der Dimension j^th ist;
G:: die Clusterzahl in dem multivariaten Datensatz ist;
μ_g:: der Mittelwert der Gauß'schen Copula-Mischkomponente g ist;
Σ_g:: die Kovarianzmatrix der p-dimensionalen Variabel x (die eine Kovarianz zwischen dem einen oder den mehreren Clustern darstellt) ist; und
ϕ(y_i|μ_g, Σ_g):: eine multivariate Gauß'sche Verteilung der Datenwerte in einem Cluster g mit dem Mittelwert μ_g und der Varianz Σ_g ist.

In one embodiment, a Gaussian Copula Mixed Model (GCMM) is another mathematical model used to identify one or more clusters in a multivariate dataset. In one embodiment, the multivariate dataset may include data values of one or more p-dimensional variables. Each data value of each of the one or more p-dimensional variables may be part of a cluster in a multivariate data set. In one embodiment, the GCMM assumes that the data values in the cluster are derived from a Gaussian copula distribution. In one embodiment, copula corresponds to a multivariate probability distribution for which an edge probability of each variable is uniformly distributed. In one embodiment, the copula is used to describe the dependency between one or more p-dimensional variables in the data set. A typical Gaussian copula mixing model (GCMM) is represented by the following equation:

wherein

y _i :: is the inverse cumulative distribution of the p-dimensional random variable x;
p:: the dimension number of the random variable is;
π _g :: the cluster mix fraction g is relative to other clusters in the multivariate dataset;
ψ _j (y _{i, j):}: the edge density of GMM is along the dimension j ^th ;
G:: is the cluster number in the multivariate dataset;
μ _g :: the mean value of the Gaussian copula mixing component is g;
Σ _g:: the covariance matrix of the p-dimensional variable x (representing a covariance between the one or more clusters); and
φ (y _i | μ _g , Σ _g ):: is a multivariate Gaussian distribution of the data values in a cluster g with the mean μ _g and the variance Σ _g .

Zum Bestimmen der Clusterzahl in dem multivariaten Datensatz und zum Klassifizieren jedes Datenwertes der einen oder mehreren p-dimensionalen Variabeln wird ein GCMM erzeugt. Die Erzeugung eines GCMM wurde in einer Ausführungsform der Offenbarung in Zusammenhang mit 1 beschrieben. 1.To determine the cluster number in the multivariate data set and to classify each data value of the one or more p-dimensional variables, a GCMM is generated. Generation of a GCMM in an embodiment of the disclosure has been described in connection with 1 described. 1.

1 ist ein Flussdiagramm 100, das ein Verfahren zum Erzeugen eines Modells darstellt, das einen oder mehrere Cluster in einem multivariaten Datensatz identifizieren kann. In einer Ausführungsform ist das Modell ein Gauß'sches Copula-Mischmodell (GCMM). 1 is a flowchart 100 , which is a method of creating a model that can identify one or more clusters in a multivariate dataset. In one embodiment, the model is a Gaussian Copula Mixed Model (GCMM).

Bei Schritt 102 wird eine Eingabe von einem Benutzer erhalten. In einer Ausführungsform entspricht die Eingabe einem Zahlenbereich. In einer Ausführungsform entspricht der Zahlenbereich einer zu erzeugenden GCM-Modellzahl. Außerdem entspricht in einer Ausführungsform jede Zahl in dem Zahlenbereich einer wahrscheinlichen Clusterzahl, die in dem multivariaten Datensatz vorhanden sein kann. Wenn der Benutzer zum Beispiel den Bereich als 1 bis 3 eingibt, werden drei GCM-Modelle für jede Zahl in dem Bereich erzeugt (d. h. 1, 2 und 3). Weiterhin repräsentiert jede Zahl (d. h. 1, 2 und 3) die Clusterzahl in dem multivariaten Datensatz. Zum Beispiel kann für die Zahl 3 im Zahlenbereich der multivariate Datensatz drei Cluster enthalten. In einer Ausführungsform können die GCM-Modelle, die für eine bestimmte Zahl in dem Zahlenbereich erzeugt werden, diese bestimmte Clusterzahl in dem multivariaten Datensatz identifizieren. Zum Beispiel kann das GCM-Modell, das für die Zahl 3 in dem Zahlenbereich erzeugt wurde, drei Cluster in dem multivariaten Datensatz identifizieren. At step 102 an input is received from a user. In one embodiment, the input corresponds to a range of numbers. In one embodiment, the number range corresponds to a GCM model number to be generated. In addition, in one embodiment, each number in the range of numbers corresponds to a probable cluster number that may be present in the multivariate dataset. For example, if the user inputs the range as 1 to 3, three GCM models are generated for each number in the range (ie, 1, 2, and 3). Furthermore, each number (ie, 1, 2, and 3) represents the cluster number in the multivariate dataset. For example, for the number 3 in the range of numbers, the multivariate dataset may contain three clusters. In one embodiment, the GCM models generated for a particular number in the range of numbers may identify that particular cluster number in the multivariate dataset. For example, the GCM model generated for the number 3 in the range of numbers may identify three clusters in the multivariate dataset.

Außerdem wird der multivariate Datensatz von dem Benutzer erhalten. Der multivariate Datensatz enthält Datenwerte, die einer p-dimensionalen Variabel in dem multivariaten Datensatz angehören. Im Folgenden wird der Ausdruck Datenwert synonym mit Ausführung verwendet. Zum Zwecke der laufenden Beschreibung sind n Ausführungen der p-dimensionalen Variabel in dem multivariaten Datensatz vorhanden.In addition, the multivariate record is obtained from the user. The multivariate dataset contains data values belonging to a p-dimensional variable in the multivariate dataset. In the following, the term data value is used synonymously with execution. For purposes of the present description, there are n executions of the p-dimensional variable in the multivariate dataset.

Bei Schritt 104 werden einer oder mehrere mit einem Cluster aus einem oder mehreren Clustern verknüpften Parameter geschätzt. Vor dem Bestimmen des einen oder der mehreren Parameter wird eine Zahl sequentiell aus dem Zahlenbereich ausgewählt. In einer Ausführungsform entspricht die Zahl der Clusterzahl in dem einen oder den mehreren Clustern. Für jeden Cluster in dem einen oder den mehreren Clustern werden der eine oder die mehreren Parameter bestimmt. In einer Ausführungsform können der eine oder die mehreren Parameter einen Mischanteil eines oder mehrerer Cluster, einen Mittelwert der Verteilung des Clusters (d. h. Gauß'sche Kopulamischung), eine Kovarianz zwischen dem einen oder den mehreren Clustern enthalten, sind aber nicht darauf beschränkt. In einer Ausführungsform werden der eine oder die mehreren Parameter zufällig bestimmt. In einer alternativen Ausführungsform werden der eine oder die mehreren Parameter mithilfe des k-means Clusteralgorithmus bestimmt. In einer Ausführungsform schätzt der k-means Clusteralgorithmus den einen oder die mehreren Parameter basierend auf den folgenden Einschränkungen: π_g > 0 (2) Σ G / g=1π_g = 1 (3) Σ_g positiv und definit ist (4) δ_i = Min_g,j|y (0) / i,j – 2κ⁽⁰⁾([[Σ (0) / g + I]^–1Σ (0) / gI)_j| (5) worin

π_g:: die Mischanteile des einen oder der mehreren Cluster ist;
Σ_g:: die Kovarianz zwischen dem einen oder den mehreren Clustern ist;
G:: die Clusterzahl in dem multivariaten Datensatz ist;
y (0) / i,j:: die inverse kumulative Verteilung der p-dimensionalen Variabel entlang der Dimension j^th ist; und
κ⁽⁰⁾:: Max(μ_g,j), worin μ_g,j dem Mittelwert der Clusterverteilung g entlang der Dimension j^th entspricht.

At step 104 one or more parameters associated with a cluster of one or more clusters are estimated. Before determining the one or more parameters, a number is sequentially selected from the range of numbers. In one embodiment, the number of cluster numbers in the one or more clusters. For each cluster in the one or more clusters, the one or more parameters are determined. In one embodiment, the one or more parameters may include, but are not limited to, a merge portion of one or more clusters, an average of the distribution of the cluster (ie, Gaussian copula blend), a covariance between the one or more clusters. In one embodiment, the one or more parameters are determined randomly. In an alternative embodiment, the one or more parameters are determined using the k-means clustering algorithm. In one embodiment, the k-means clustering algorithm estimates the one or more parameters based on the following constraints:

π _g > 0 (2)

Σ G / g = 1π _g = 1 (3)

Σ _{g is} positive and definite (4)

δ _i = Min _{g, j} | y (0) / i, j - 2κ ⁽⁰⁾ ([[Σ (0) / g + I] ^-1 Σ (0) / gI) _j | (5)

wherein

π _g :: the blend portions of the one or more clusters;
Σ _g:: the covariance between the one or more clusters is;
G:: is the cluster number in the multivariate dataset;
y (0) / i, j:: is the inverse cumulative distribution of the p-dimensional variable along the dimension j ^th ; and
κ ⁽⁰⁾ :: Max (μ _{g, j} ), where μ _{g, j} corresponds to the mean value of the cluster distribution g along the dimension j ^th .

Ein Durchschnittsfachmann wird verstehen, dass der Umfang der Offenbarung nicht auf das Schätzen des einen oder der mehreren Parameter mithilfe des k-means Clusteralgorithmus beschränkt ist. In einer Ausführungsform kann jede andere Technik wie ein Entscheidungsbaum und Gauß'sches Mischmodell zum Schätzen des einen oder der mehreren Parameter verwendet werden.One of ordinary skill in the art will understand that the scope of the disclosure is not limited to estimating the one or more parameters using the k-means clustering algorithm. In one embodiment, any other technique such as a decision tree and Gaussian mixed model may be used to estimate the one or more parameters.

Bei Schritt 106 wird ein Schwellenwert basierend auf dem einen oder den mehreren Parametern bestimmt. In einer Ausführungsform wird die folgende Gleichung zum Bestimmen des Schwellenwerts benutzt:

worin

Γ:: der Schwellenwert ist;

S^(t) = Σ G / g=1z (t-1) / igΣ (t) / g (7)

worin

z_ig:: einer latenten Variabel entspricht; und
m^(t):: die Summe aller Elemente von S^(t) ist.

At step 106 a threshold is determined based on the one or more parameters. In one embodiment, the following equation is used to determine the threshold:

wherein

Γ:: the threshold is;

S ^(t) = ΣG / g = 1z (t-1) / igΣ (t) / g (7)

wherein

_Zig :: corresponds to a latent variable; and
m ^(t) :: is the sum of all elements of S ^(t) .

In einer Ausführungsform entspricht die latente Variabel einer Zwischenvariabel, die nicht aus dem multivariaten Datensatz erhalten wird. In einer Ausführungsform wird die latente Variabel basierend auf dem einen oder den mehreren Parametern bestimmt. Die Bestimmung der latenten Variabel wird in einer Ausführungsform der Offenbarung später beschrieben.In one embodiment, the latent variable corresponds to an intermediate variable that is not obtained from the multivariate dataset. In one embodiment, the latent variable is determined based on the one or more parameters. The determination of the latent variable will be described later in an embodiment of the disclosure.

Bei Schritt 108 werden eine inverse kumulative Verteilung der p-dimensionalen Variabel basierend auf dem Schwellenwert (der bei Schritt 106 bestimmt wurde) und die kumulative Verteilung der p-dimensionalen Variabel bestimmt. In einer Ausführungsform werden die folgenden Gleichungen zum Bestimmen der inversen kumulativen Verteilung benutzt:

y_ij = Max(y_ij, Γ) (9)

worin

y_ij:: die inverse kumulative Verteilung der p-dimensionalen Variabel entlang der Dimension j^th ist; und
σ (t) / g,jj:: j^th das diagonale Element der Kovarianzmatrix des g-ten Clusters ist.

At step 108 are an inverse cumulative distribution of the p-dimensional variable based on the threshold (which is used in step 106 was determined) and the cumulative distribution of the p-dimensional variable. In one embodiment, the following equations are used to determine the inverse cumulative distribution:

y _ij = Max (y _ij , Γ) (9)

wherein

y _ij :: is the inverse cumulative distribution of the p-dimensional variable along the dimension j ^th ; and
σ (t) / g, jj:: j ^{th is} the diagonal element of the covariance matrix of the gth cluster.

In einer Ausführungsform ist der Schwellenwert Γ ein niedriger Grenzwert für die inverse kumulative Verteilung der p-dimensionalen Variabel. Wenn z. B. der bestimmte Wert der inversen kumulativen Verteilung y_ij kleiner als der Schwellenwert Γ ist, wird der Schwellenwert Γ als der Wert der inversen kumulativen Verteilung y_ij ausgewählt.In one embodiment, threshold Γ is a low limit on the inverse cumulative distribution of the p-dimensional variable. If z. For example, if the particular value of the inverse cumulative distribution y _{ij is} smaller than the threshold Γ, the threshold Γ is selected as the value of the inverse cumulative distribution y _ij .

Ein Durchschnittsfachmann wird verstehen, dass anfangs, wenn der eine oder die mehreren Parameter mithilfe des k-means Algorithmus geschätzt werden, die inverse kumulative Verteilung basierend auf dem bzw. den anfänglichen einen oder mehreren Parametern bestimmt wird. Außerdem wird basierend auf der anfänglichen Schätzung der inversen kumulativen Verteilung eine anfängliche Wahrscheinlichkeit bestimmt. In einer Ausführungsform entspricht die anfängliche Wahrscheinlichkeit einer Wahrscheinlichkeit, dass der anfängliche eine oder die mehreren Parameter deterministisch für das GCM-Modell sind. In einer Ausführungsform wird die anfängliche Wahrscheinlichkeit mithilfe der folgenden Gleichung bestimmt:

One of ordinary skill in the art will understand that initially, when the one or more parameters are estimated using the k-means algorithm, the inverse cumulative distribution is determined based on the initial one or more parameters. In addition, based on the initial estimate of the inverse cumulative distribution, an initial probability is determined. In one embodiment, the initial probability of a probability corresponds to the initial one or more parameters being deterministic for the GCM model. In one embodiment, the initial probability is determined using the following equation:

Bei Schritt 110 wird die latente Variabel basierend auf dem einen oder den mehreren Parametern und der inversen kumulativen Verteilung der p-dimensionalen Variabel (die bei Schritt 108 bestimmt wird) bestimmt. In einer Ausführungsform wird die latente Variabel mithilfe der folgenden Gleichung bestimmt:

At step 110 the latent variable is calculated based on the one or more parameters and the inverse cumulative distribution of the p-dimensional variable (which in step 108 determined). In one embodiment, the latent variable is determined using the following equation:

Bei Schritt 112 werden der eine oder die mehreren Parameter basierend auf der bestimmten latenten Variabel aktualisiert. In einer Ausführungsform werden der eine oder die mehreren Parameter mithilfe der folgenden Gleichungen bestimmt:

At step 112 the one or more parameters are updated based on the determined latent variable. In one embodiment, the one or more parameters are determined using the following equations:

Bei Schritt 114 wird eine aktualisierte Wahrscheinlichkeit basierend auf den aktualisierten einen oder mehreren Parametern bestimmt. In einer Ausführungsform wird die aktualisierte Wahrscheinlichkeit mithilfe der folgenden Gleichung bestimmt:

At step 114 An updated probability is determined based on the updated one or more parameters. In one embodiment, the updated probability is determined using the following equation:

Bei Schritt 116 wird eine Prüfung zum Bestimmen durchgeführt, ob eine Differenz zwischen der aktualisierten Wahrscheinlichkeit und der vorherigen Wahrscheinlichkeit kleiner als ein vorbestimmter Schwellenwert ist. In einer Ausführungsform entspricht die vorherige Wahrscheinlichkeit einer Wahrscheinlichkeit, die in der vorherigen Iteration bestimmt wurde. Zum Beispiel wird während der ersten Iteration des Verfahrens die Wahrscheinlichkeit für die erste Iteration (t = 1) mit der anfänglichen Wahrscheinlichkeit verglichen, die mithilfe der Gleichung 10 bestimmt wurde. Auf ähnliche Weise wird in jeder Iteration die Wahrscheinlichkeit durch Verwenden des aktualisierten einen oder mehreren Parametern für diese Iteration mit der Wahrscheinlichkeit verglichen, die in der vorherigen Iteration bestimmt wurde. In einer Ausführungsform wird die folgende Gleichung zum Durchführen der Prüfung verwendet: L^(t+1) – L^(t) < ∊ (16) worin

L^(t+1):: die aktualisierte Wahrscheinlichkeit ist, die durch Verwenden des einen oder der mehreren aktualisierten Parameter bestimmt wurde;
L^(t):: die Wahrscheinlichkeit ist, die in der vorherigen Iteration bestimmt wurde; und
∊:: der vordefinierte Schwellenwert ist.

At step 116 a check is made to determine if a difference between the updated probability and the previous probability is less than a predetermined threshold. In one embodiment, the previous probability corresponds to a probability determined in the previous iteration. For example, during the first iteration of the method, the probability for the first iteration (t = 1) is compared to the initial probability determined using Equation 10. Similarly, in each iteration, the probability is compared by using the updated one or more parameters for that iteration with the probability determined in the previous iteration. In one embodiment, the following equation is used to perform the test:

L ^{(t + 1)} - L ^(t) <ε (16)

wherein

L ^{(t + 1)} :: is the updated probability determined by using the one or more updated parameters;
L ^(t) :: the probability that was determined in the previous iteration; and
ε:: is the predefined threshold.

Wenn bei Schritt 116 bestimmt wird, dass die Differenz größer als der vorbestimmte Schwellenwert ist, werden die Schritte 106 bis 116 wiederholt. Wenn jedoch bei Schritt 116 bestimmt wird, dass die Differenz kleiner als der vorbestimmte Schwellenwert ist, werden der bzw. die aktualisierten eine oder mehreren Parameter als die Modellparameter angesehen.If at step 116 it is determined that the difference is greater than the predetermined threshold, the steps 106 to 116 repeated. If, however, at step 116 it is determined that the difference is less than the predetermined threshold, the updated one or more parameters are considered to be the model parameters.

Bei Schritt 118 wird ein Modell basierend auf dem bzw. den aktualisierten einen oder mehreren Parametern erzeugt. In einer Ausführungsform repräsentiert die folgende Gleichung das Modell: GCM – Modell = Π n / i=1Σ G / g=1π_gΠ n / i=1[C((u_i1, ..., u_ip)|υ)Π p / j=1f_J(x_ij)] (17) worin

u_ip:: die kumulative Verteilung der p-dimensionalen Variabel ist;
C:: die Kopulafunktion (von Gleichung 1 repräsentiert) der p-dimensionalen Variabel ist;
f_J(x_ij):: die gemeinsame Verteilung der p-dimensionalen Variabel ist;
υ:: der Vektor des einen oder der mehreren Parameter ist.

At step 118 a model is generated based on the updated one or more parameters. In one embodiment, the following equation represents the model:

GCM - Model = Π n / i = 1Σ G / g = 1π _g Π n / i = 1 [C ((u _i1 , ..., u _ip ) | υ) Π p / j = 1 f _J (x _ij ) ] (17)

wherein

u _ip :: is the cumulative distribution of the p-dimensional variable;
C:: the copula function (represented by Equation 1) is the p-dimensional variable;
f _J (x _ij ):: the common distribution of the p-dimensional variable is;
υ:: is the vector of the one or more parameters.

In einer Ausführungsform werden die Schritte 104 bis 118 für jede Zahl im Zahlenbereich wiederholt, um das Modell für jede Zahl im Zahlenbereich zu erzeugen. Daher entspricht die Zahl der erzeugten Modelle dem Zahlenbereich.In one embodiment, the steps become 104 to 118 for each number in the number range repeated to generate the model for each number in the number range. Therefore, the number of models generated corresponds to the number range.

Bei Schritt 120 wird ein bestes Modell aus dem für jede Zahl im Zahlenbereich erzeugten Modell ausgewählt. In einer Ausführungsform wird das beste Modell mithilfe des Bayes-Informationskriteriums (BIC) ausgewählt. Zum Bestimmen des besten Modells wird eine Punktzahl für jedes Modell bestimmt, das für die Zahlen in dem Zahlenbereich erzeugt wurde. In einer Ausführungsform wird die folgende Gleichung zum Bestimmen der Punktzahl verwendet: BIC – Punktzahl = 2logL(v ^|(u_i1, ..., u_ip)) – ρlogn (18) worin

v ^:: der eine oder die mehreren aktualisierten Parameter ist, die zum Erzeugen des Modells in Schritt 118 verwendet werden;
L:: die Wahrscheinlichkeit ist (mithilfe der Gleichung 15), die für den einen oder die mehreren aktualisierten Parameter, die zum Erzeugen des Modells in Schritt 118 verwendet werden, geschätzt wird;
ρ:: die Zahl der freien Parameter ist; und
n:: die Zahl der Datenwerte oder Ausführungen ist.

At step 120 a best model is selected from the model generated for each number in the range of numbers. In one embodiment, the best model is selected using the Bayes Information Criterion (BIC). To determine the best model, a score is determined for each model generated for the numbers in the range of numbers. In one embodiment, the following equation is used to determine the score:

BIC - score = 2logL (v ^ | (u _i1 , ..., u _ip )) - ρlogn (18)

wherein

v ^:: is the one or more updated parameters that are used to generate the model in step 118 be used;
L:: the probability is (using Equation 15) that the one or more updated parameters used to generate the model in Step 118 be used is estimated;
ρ:: the number of free parameters is; and
n:: the number of data values or executions is.

In einer Ausführungsform entsprechen die freien Parameter Parametern, die nicht von dem einen oder den mehreren Parametern oder dem multivariaten Datensatz abhängig sind. Die freien Parameter werden unabhängig bestimmt. In einer Ausführungsform wird die Zahl der freien Parameter für p-dimensionale Daten und G-Cluster mithilfe der folgenden Gleichung bestimmt: ρ = (G – 1) + Gp + Gp(p + 1)/2 (19) In one embodiment, the free parameters correspond to parameters that are not dependent on the one or more parameters or the multivariate data set. The free parameters are determined independently. In one embodiment, the number of free parameters for p-dimensional data and G-clusters is determined using the following equation: ρ = (G-1) + Gp + Gp (p + 1) / 2 (19)

In einer Ausführungsform wird das Modell mit der besten BIC-Punktzahl als das beste Modell ausgewählt. Weiterhin entspricht in einer Ausführungsform die Zahl (aus dem Zahlenbereich), für die das beste Modell erzeugt wird, der Clusterzahl, die in dem multivariaten Datensatz vorliegt. Wenn der Zahlenbereich z. B. 1 bis 3 ist, werden drei Modelle erzeugt, eines für jede Zahl, d. h. 1, 2 und 3. Wenn weiterhin das Modell, das für die Zahl 2 erzeugt wurde, die maximale BIC-Punktzahl besitzt, wird das zweite Modell, das der Zahl 2 entspricht, ausgewählt. Außerdem beträgt in diesem Fall die Clusterzahl, die in dem multivariaten Datensatz vorliegt, zwei.In one embodiment, the model with the best BIC score is selected as the best model. Further, in one embodiment, the number (from the range of numbers) for which the best model is generated corresponds to the cluster number present in the multivariate dataset. If the number range z. 1 to 3, three models are generated, one for each number, i. H. 1, 2, and 3. Also, if the model generated for the number 2 has the maximum BIC score, the second model corresponding to the number 2 is selected. In addition, in this case, the cluster number present in the multivariate dataset is two.

Ein Durchschnittsfachmann wird verstehen, dass die in Schritt 120 bestimmte Clusterzahl eine Schätzung der Clusterzahl, die in dem multivariaten Datensatz vorliegt, ist. In einer Ausführungsform kann der multivariate Datensatz mehr als die geschätzte Zahl von Clustern enthalten.One of ordinary skill in the art will understand that in step 120 certain cluster number is an estimate of the cluster number present in the multivariate dataset. In one embodiment, the multivariate dataset may include more than the estimated number of clusters.

In einer Ausführungsform sind die Modelle, die für jede Zahl in dem Zahlenbereich erzeugt werden, Mischmodelle. In einer Ausführungsform entspricht das Mischmodell einem probalistischen Modell, das einen oder mehrere Cluster in dem multivariaten Datensatz identifizieren kann. Nach der Auswahl des besten Modells wird das beste Modell zum Kategorisieren jedes Datenpunktes (Ausführung der p-dimensionalen Variabel) in dem multivariaten Datensatz in dem einen oder den mehreren Clustern verwendet.In one embodiment, the models generated for each number in the number range are mixed models. In one embodiment, the hybrid model corresponds to a probabilistic model that can identify one or more clusters in the multivariate dataset. After selecting the best model, the best model is used to categorize each data point (execution of the p-dimensional variable) in the multivariate record in the one or more clusters.

In einer Ausführungsform entspricht das in dem Flussdiagramm 100 beschriebene Verfahren einem Erwartungsmaximierungsalgorithmus (EM). Jede Iteration des EM-Algorithmus wechselt zwischen der Durchführung eines Satzes von Erwartungsschritten (E), die eine Abhängigkeit für die Erwartung der geschätzten Log-Wahrscheinlichkeit erzeugen, die mithilfe der derzeitigen Schätzung für die Parameter (Bestimmung der latenten Variabel) und eines Satzes von Maximierungsschritten (M) durchführen, welche die Parameter, welche die erwartete Log-Wahrscheinlichkeit der E-Schritte maximieren, berechnen. In einer Ausführungsform entsprechen die Schritte 106, 108 und 110 den E-Schritten des EM-Algorithmus, während die Schritte 112, 114 und 116 den M-Schritten des EM-Algorithmus entsprechen.In one embodiment, this corresponds to the flowchart 100 described method an expectation maximization algorithm (EM). Each iteration of the EM algorithm alternates between performing a set of expectation steps (E) that produce a dependency on the expectation of the estimated log likelihood, using the current estimate for the parameters (determination of the latent variables) and a set of maximization steps (M), which calculate the parameters that maximize the expected log likelihood of the E-steps. In one embodiment, the steps correspond 106 . 108 and 110 the E-steps of the EM algorithm during the steps 112 . 114 and 116 correspond to the M-steps of the EM algorithm.

2 ist ein Flussdiagramm 200, das die Erzeugung des Modells gemäß mindestens einer Ausführungsform darstellt. Das Flussdiagramm 200 wurde in Zusammenhang mit 1 beschrieben. 1. 2 is a flowchart 200 depicting the generation of the model according to at least one embodiment. The flowchart 200 was related to 1 described. 1.

Der multivariate Datensatz (durch 202 dargestellt) wird von dem Benutzer erhalten. Außerdem wird der Zahlenbereich (durch 204 dargestellt) von dem Benutzer erhalten. Zum Beispiel enthält der Zahlenbereich (1 (durch 204a dargestellt), 2 (durch 204b dargestellt) und 3 (durch 204c dargestellt)). Wie oben beschrieben, entspricht jede Zahl einer möglichen Clusterzahl, die in dem multivariaten Datensatz 202 enthalten ist. Zum Beispiel wird für die Zahl 1 (durch 204a dargestellt) vorausgesetzt, dass der multivariate Datensatz 202 nur einen Cluster (d. h. Cluster-1 (durch 206 dargestellt)) enthält. Auf die gleiche Weise wird für die Zahl 2 (durch 204a dargestellt) vorausgesetzt, dass der multivariate Datensatz 202 zwei Cluster (d. h. Cluster-1 (durch 206 dargestellt) und Cluster-2 (durch 208 dargestellt) enthält. Des Weiteren wird für die Zahl 3 (durch 204c dargestellt) in dem Zahlenbereich (durch 204 dargestellt) vorausgesetzt, dass der multivariate Datensatz 202 einen dritten Cluster (Cluster-3 (durch 210 dargestellt)) zusätzlich zu den Clustern 206 und 208 enthält. Für jede Zahl in dem Zahlenbereich wird der EM-Algorithmus ausgeführt. In einer Ausführungsform schätzt der EM-Algorithmus den einen oder die mehreren Parameter eines Mischmodells, das die Datenpunkte in dem einen oder mehreren Clustern bündeln kann, wobei die Clusterzahl basierend auf der Zahl in dem Zahlenbereich bestimmt wird. Zum Beispiel erzeugt der EM-Algorithmus, der für Cluster-1 (durch 206 dargestellt) ausgeführt wird, das Mischmodell-1 212, das die Datenwerte in dem multivariaten Datensatz 202 im Cluster-1 (durch 206 dargestellt) bündeln kann. Auf ähnliche Weise wird das Mischmodell-2 (durch 214 dargestellt) für die Zahl 2 (durch 204b dargestellt) erzeugt. Das Mischmodell-2 (durch 214 dargestellt) kann die Datenwerte in den zwei Clustern (d. h. Cluster-1 (durch 206 dargestellt) und Cluster-2 (durch 208 dargestellt)) bündeln.The multivariate dataset (by 202 shown) is obtained from the user. In addition, the number range (by 204 shown) received from the user. For example, the number range contains (1 (by 204a shown), 2 (by 204b shown) and 3 (by 204c shown)). As described above, each number corresponds to a possible cluster number in the multivariate dataset 202 is included. For example, for the number 1 (by 204a provided) provided that the multivariate dataset 202 only one cluster (ie cluster-1 (by 206 shown)) contains. In the same way, for the number 2 (by 204a provided) provided that the multivariate dataset 202 two clusters (ie cluster-1 (by 206 shown) and cluster 2 (by 208 shown). Furthermore, for the number 3 (by 204c shown) in the number range (by 204 provided) provided that the multivariate dataset 202 a third cluster (cluster 3 (by 210 shown)) in addition to the clusters 206 and 208 contains. For each number in the range of numbers, the EM algorithm is executed. In one embodiment, the EM algorithm estimates the one or more parameters of a blending model that can bundle the data points in the one or more clusters, where the cluster number is determined based on the number in the range of numbers. For example, the EM algorithm generated for cluster 1 (by 206 shown), the mixed model-1 212 containing the data values in the multivariate record 202 in cluster 1 (by 206 shown) can bundle. Similarly, the mixed model-2 (by 214 represented) for the number 2 (by 204b shown). The mixed model 2 (by 214 shown), the data values in the two clusters (ie cluster-1 (by 206 shown) and cluster 2 (by 208 shown)).

Nach der Erzeugung der Mischmodelle für jede Zahl in dem Zahlenbereich wird eine BIC-Punktzahl mithilfe der Gleichung 18 (durch 218 dargestellt) für jedes Mischmodell bestimmt. Wenn das Mischmodell-2 (durch 214 dargestellt) beispielsweise die maximale BIC-Punktzahl besitzt, wird das Mischmodell-2 (durch 214 dargestellt) ausgewählt. Weiterhin und weil das Mischmodell-2 (durch 214 dargestellt) für die Zahl 2 (durch 204b dargestellt) im Zahlenbereich (durch 204 dargestellt) erhalten wurde, beträgt die Zahl der wahrscheinlichen Cluster in dem multivariaten Datensatz 202 zwei. Nach der Auswahl des Mischmodells-2 (durch 214 dargestellt) wird das Mischmodell-2 (durch 214 dargestellt) zum Bündeln (durch 220 dargestellt) des multivariaten Datensatzes 202 verwendet.After generating the blended models for each number in the number range, a BIC score is calculated using Equation 18 (by 218 shown) for each mixed model. If the mixed model 2 (by 214 shown), for example, has the maximum BIC score, the mixed model-2 (by 214 shown) selected. Furthermore, and because the mixed model 2 (by 214 represented) for the number 2 (by 204b shown) in the number range (by 204 shown), the number of probable clusters in the multivariate dataset is 202 two. After selecting the mixed model-2 (by 214 shown) is the mixed model-2 (by 214 shown) for bundling (by 220 shown) of the multivariate dataset 202 used.

3 ist ein Blockdiagramm einer Computervorrichtung 300, die das Modell gemäß mindestens einer Ausführungsform erzeugen kann. Die Computervorrichtung 300 weist einen Prozessor 302, einen Sender-Empfänger 304 und einen Speicher 306 auf. Der Prozessor 302 ist mit dem Sender-Empfänger 304 und dem Speicher 306 gekoppelt. 3 is a block diagram of a computing device 300 that can produce the model according to at least one embodiment. The computer device 300 has a processor 302 , a transceiver 304 and a memory 306 on. The processor 302 is with the transceiver 304 and the memory 306 coupled.

Der Prozessor 302 weist eine geeignete Logik, Schaltkreise und Schnittstellen auf und ist zum Ausführen einer oder mehrerer Anweisungen, die in dem Speicher 306 zum Durchführen vorbestimmter Betriebsabläufe auf der Computervorrichtung 300 gespeichert sind, konfiguriert. Der Speicher 306 kann zum Speichern der einen oder der mehreren Anweisungen konfiguriert sein. Der Prozessor 302 kann mithilfe einer oder mehrerer Prozessortechnologien, die aus dem Stand der Technik bekannt sind, implementiert werden. Beispiele des Prozessors 302 schließen einen X86-Prozessor, einen RISC-Prozessor, einen ASIC-Prozessor, einen CISC-Prozessor und jeden anderen Prozessor ein, sind aber nicht darauf beschränkt.The processor 302 has appropriate logic, circuitry and interfaces and is capable of executing one or more instructions stored in the memory 306 for performing predetermined operations on the computing device 300 are stored, configured. The memory 306 may be configured to store the one or more instructions. The processor 302 can be implemented using one or more processor technologies known in the art. Examples of the processor 302 include, but are not limited to, an X86 processor, a RISC processor, an ASIC processor, a CISC processor, and any other processor.

Der Sender-Empfänger 304 sendet und empfängt Nachrichten und Daten. Weiterhin kann der Sender-Empfänger den multivariaten Datensatz und den Zahlenbereich von dem Benutzer empfangen. Beispiele für Sender-Empfänger 304 können eine Antenne, ein Ethernet-Anschluss, ein USB-Anschluss oder jeder andere Anschluss, der zum Empfangen und Senden von Daten konfiguriert werden kann, sein, sind aber nicht darauf beschränkt. Der Sender-Empfänger 304 sendet und empfängt Daten und Nachrichten gemäß den verschiedenen Kommunikationsprotokollen wie TCP/IP, UDP und 2G-, 3G-, oder 4G-Kommunikationsprotokollen.The transmitter-receiver 304 sends and receives messages and data. Furthermore, the transceiver may receive the multivariate data set and the range of numbers from the user. Examples of transceivers 304 For example, but not limited to, an antenna, an Ethernet port, a USB port, or any other port that can be configured to receive and send data. The transmitter-receiver 304 sends and receives data and messages according to various communication protocols such as TCP / IP, UDP, and 2G, 3G, or 4G communication protocols.

Der Speicher 306 speichert einen Satz von Anweisungen und Daten. Einige herkömmlich bekannte Speicherimplementierungen schließen RAM, Nurlese-Speicher (ROM), Festplattenlaufwerk (HDD) und SD-Karte ein, sind aber nicht darauf beschränkt. Weiterhin enthält der Speicher 306 eine oder mehrere Anweisungen, die von dem Prozessor 302 zum Durchführen spezifischer Betriebsabläufe ausführbar sind. Für einen Fachmann ist es offensichtlich, dass eine oder mehrere Anweisungen, die in dem Speicher 306 gespeichert sind, der Hardware einer Computervorrichtung 300 ermöglichen, die vorbestimmten Betriebsabläufe durchzuführen. In einer Ausführungsform ist die Computervorrichtung 300 zum Ausführen des Flussdiagramms 100 zum Erzeugen des Modells konfiguriert, das den einen oder die mehreren Cluster in dem multivariaten Datensatz identifizieren kann.The memory 306 stores a set of instructions and data. Some conventionally known memory implementations include, but are not limited to, RAM, read only memory (ROM), hard disk drive (HDD), and SD card. Furthermore, the memory contains 306 one or more instructions issued by the processor 302 to perform specific operations are executable. For a person skilled in the art it is obvious that one or more instructions are stored in memory 306 stored, the hardware of a computer device 300 allow to perform the predetermined operations. In one embodiment, the computing device is 300 to execute the flowchart 100 configured to generate the model that can identify the one or more clusters in the multivariate dataset.

In einer Ausführungsform kann das in dem Flussdiagramm 100 beschriebene Verfahren zum Analysieren von Daten aus der Gesundheitsbranche angewandt werden. Zum Beispiel können die Patienten durch Entdeckungsmuster in Erkrankungsgefahrprofilen und Behandlungsreaktionen stratifiziert werden. Das Verfahren kann ferner auf unterschiedlichen Ebenen der Gesundheitsbranche angewandt werden, wie z. B. auf Einzelpatienten-Ebene durch Analyse der elektronischen Patientenakte (EMR) oder auf Krankenhausebene (z. B. durch Identifizieren einer Gruppe von Patienten, bei denen die Gefahr besteht, dass sie einen Krankenversicherungsbetrug begehen könnten).In one embodiment, this can be done in the flowchart 100 described method for analyzing data from the healthcare industry. For example, patients can be stratified by disease detection patterns into disease risk profiles and treatment responses. The method may also be applied at different levels in the healthcare industry, such as: At individual patient level through analysis of the electronic health record (EMR) or at the hospital level (eg by identifying a group of patients at risk of being able to commit to health insurance fraud).

4 ist ein Flussdiagramm 400, das ein Verfahren zum Stratifizieren eines oder mehrerer Patienten basierend auf medizinischen Aufzeichnungsdaten, die mit dem einen oder den mehreren Patienten verknüpft sind, gemäß mindestens einer Ausführungsform darstellt. 4 is a flowchart 400 10, which illustrates a method for stratifying one or more patients based on medical record data associated with the one or more patients, according to at least one embodiment.

Bei Schritt 402 werden medizinische Aufzeichnungsdaten von dem Benutzer erhalten. In einer Ausführungsform erhält der Prozessor 302 die medizinischen Aufzeichnungsdaten. In einer Ausführungsform beinhalten die medizinischen Aufzeichnungsdaten Messungen verschiedener physiologischer Marker eines oder mehrerer Patienten wie Alter, Blutdruck, Serumcholesterinspiegel, Herzschlagfrequenz und ST-Senkung, sind aber nicht darauf beschränkt. In einer Ausführungsform entspricht der physiologische Marker der p-dimensionalen Variabel mit Alter, Blutdruck, Serumcholesterinspiegel, Herzschlagfrequenz und ST-Senkung als unterschiedliche Dimensionen.At step 402 Medical records are obtained from the user. In one embodiment, the processor receives 302 the medical record data. In one embodiment, the medical record data includes, but is not limited to, measurements of various physiological markers of one or more patients, such as, but not limited to, age, blood pressure, serum cholesterol level, heart rate, and ST depression. In one embodiment, the physiological marker corresponds to the p-dimensional variable with age, blood pressure, serum cholesterol level, heart rate, and ST depression as different dimensions.

Ein Durchschnittsfachmann wird verstehen, dass der Umfang der Offenbarung nicht auf die genannten physiologischen Marker beschränkt ist. In einer Ausführungsform können verschiedene andere physiologische Marker verwendet werden.One of ordinary skill in the art will understand that the scope of the disclosure is not limited to the noted physiological markers. In one embodiment, various other physiological markers may be used.

Bei Schritt 404 wird eine Eingabe von dem Benutzer empfangen, die einem Zahlenbereich angehört. In einer Ausführungsform erhält der Prozessor 302 die Eingabe über den Sender-Empfänger 304. In einer Ausführungsform entspricht der Zahlenbereich einer wahrscheinlichen mit den Patienten verknüpften Kategoriezahl, die in den medizinischen Aufzeichnungsdaten vorliegen kann. In einer Ausführungsform können die Kategorien in den medizinischen Aufzeichnungsdaten einem Gesundheitszustand eines oder mehrerer Patienten entsprechen. Zum Beispiel können der eine oder die mehreren Patienten in zwei Kategorien stratifiziert werden, z. B. mit Herzerkrankung und ohne Herzerkrankung.At step 404 An input is received from the user who belongs to a range of numbers. In one embodiment, the processor receives 302 the input via the transmitter-receiver 304 , In one embodiment, the number range corresponds to a probable number of patients associated with the patient, which may be present in the medical record data. In one embodiment, the categories in the medical record data may correspond to a health status of one or more patients. For example, the one or more patients may be stratified into two categories, e.g. B. with heart disease and without heart disease.

Bei Schritt 406 werden einer oder mehrere Parameter, die mit einer Kategorie der einen oder mehreren Kategorien verknüpft sind, geschätzt. In einer Ausführungsform schätzt der Prozessor 302 den einen oder die mehreren Parameter auf ähnliche wie in Schritt 104 beschriebene Weise.At step 406 One or more parameters associated with a category of one or more categories are estimated. In one embodiment, the processor estimates 302 the one or more parameters similar to those in step 104 described way.

Bei Schritt 408 wird eine inverse kumulative Verteilung der physiologischen Marker geschätzt. In einer Ausführungsform schätzt der Prozessor 302 die inverse kumulative Verteilung. Vor dem Schätzen der inversen kumulativen Verteilung bestimmt der Prozessor 302 den Schwellenwert, der eine untere Grenze für die inverse kumulative Verteilung der physiologischen Marker ist. In einer Ausführungsform können der Schwellenwert und die inverse kumulative Verteilung wie in den Schritten 106 bzw. 108 beschrieben bestimmt werden.At step 408 an inverse cumulative distribution of the physiological markers is estimated. In one embodiment, the processor estimates 302 the inverse cumulative distribution. Before estimating the inverse cumulative distribution, the processor determines 302 the threshold, which is a lower bound on the inverse cumulative distribution of the physiological markers. In one embodiment, the threshold and inverse cumulative distribution may be as in the steps 106 respectively. 108 be determined described.

Basierend auf der inversen kumulativen Verteilung der physiologischen Parameter kann eine anfängliche Wahrscheinlichkeit durch Verwenden von Gleichung 10 bestimmt werden.Based on the inverse cumulative distribution of the physiological parameters, an initial probability can be determined by using Equation 10.

Bei Schritt 410 wird eine latente Variabel basierend auf der inversen kumulativen Verteilung der physiologischen Marker bestimmt. In einer Ausführungsform bestimmt der Prozessor 302 die latente Variabel. In einer Ausführungsform führt der Prozessor 302 den Schritt 110 zum Bestimmen der latenten Variabel durch.At step 410 a latent variable is determined based on the inverse cumulative distribution of the physiological markers. In one embodiment, the processor determines 302 the latent variable. In one embodiment, the processor performs 302 the step 110 for determining the latent variable.

Bei Schritt 112 werden der eine oder die mehreren Parameter basierend auf der latenten Variabel aktualisiert. In einer Ausführungsform ist der Prozessor 302 zum Aktualisieren des einen oder der mehreren Parameter konfiguriert. Bei Schritt 114 wird eine aktualisierte Wahrscheinlichkeit basierend auf den aktualisierten einen oder mehreren Parametern bestimmt. In einer Ausführungsform bestimmt der Prozessor 302 die aktualisierte Wahrscheinlichkeit. Bei Schritt 116 wird eine Prüfung zum Bestimmen durchgeführt, ob eine Differenz zwischen der aktualisierten Wahrscheinlichkeit und der vorherigen Wahrscheinlichkeit kleiner als ein vorbestimmter Schwellenwert ist. Wenn bei Schritt 116 bestimmt wird, dass die Differenz größer als der vorbestimmte Schwellenwert ist, werden 408 bis 116 wiederholt. Wenn jedoch bei Schritt 116 bestimmt wird, dass die Differenz kleiner als der vorbestimmte Schwellenwert ist, werden der bzw. die aktualisierten eine oder mehreren Parameter als die Modellparameter angesehen. Bei Schritt 118 wird weiterhin ein Modell basierend auf dem einen bzw. den mehreren aktualisierten Parametern erzeugt.At step 112 the one or more parameters are updated based on the latent variable. In one embodiment, the processor is 302 configured to update the one or more parameters. At step 114 An updated probability is determined based on the updated one or more parameters. In one embodiment, the processor determines 302 the updated probability. At step 116 a check is made to determine if a difference between the updated probability and the previous probability is less than a predetermined threshold. If at step 116 determining that the difference is greater than the predetermined threshold 408 to 116 repeated. If, however, at step 116 it is determined that the difference is less than the predetermined threshold, the updated one or more parameters are considered to be the model parameters. At step 118 Furthermore, a model is generated based on the one or more updated parameters.

In einer Ausführungsform werden die vorgenannten Schritte für jede Zahl in dem Zahlenbereich wiederholt. In einer Ausführungsform ist die Zahl der erzeugten Modelle gleich der Gesamtzahl, die in dem Zahlenbereich vorliegt. Weiterhin wird bei Schritt 120 ein bestes Modell aus den Modellen, die für die Zahlen in dem Zahlenbereich erzeugt wurden, ausgewählt. In einer Ausführungsform repräsentiert die Zahl aus dem Zahlenbereich, für die das beste Modell ausgewählt wird, die Kategorienzahl in den medizinischen Aufzeichnungsdaten. Wenn z. B. das beste Modell für die Zahl 2 erzeugt wird, kann das Modell die medizinischen Aufzeichnungsdaten in zwei Kategorien kategorisieren (z. B. Patienten mit Herzerkrankung und Patienten ohne Herzerkrankung).In one embodiment, the above steps are repeated for each number in the number range. In one embodiment, the number of generated models is equal to the total number present in the number range. Furthermore, at step 120 selected a best model from the models generated for the numbers in the number range. In one embodiment, the number from the number range for which the best model is selected represents the number of categories in the medical record data. If z. For example, if the best model for the number 2 is generated, the model may be the medical one Categorize recording data into two categories (eg patients with heart disease and patients without heart disease).

Nach dem Erzeugen der Modelle und der Auswahl des besten Modells, wird das ausgewählte Modell zum Stratifizieren des einen oder der mehreren Patienten in zwei Kategorien verwendet, d. h. in Patienten mit Herzerkrankung und Patienten ohne Herzerkrankung. In einer Ausführungsform kategorisiert das beste Modell die medizinischen Aufzeichnungsdaten in die zwei Kategorien basierend auf den physiologischen Parametern, die in den medizinischen Aufzeichnungsdaten aufgelistet sind.After generating the models and selecting the best model, the selected model is used to stratify the one or more patients into two categories, i. H. in patients with heart disease and patients without heart disease. In one embodiment, the best model categorizes the medical record data into the two categories based on the physiological parameters listed in the medical record data.

Ein Durchschnittsfachmann wird verstehen, dass in einem Szenarium, bei dem neue Daten von dem Benutzer eingegeben werden, das ausgewählte Modell die Daten in entsprechende Cluster basierend auf dem Wert der p-dimensionalen Variabel kategorisieren kann. Wenn z. B. physiologische Parameter neuer Patienten in das System eingegeben werden, kategorisiert das Modell die neuen Patienten in eine der zwei Kategorien (z. B. mit einer Herzerkrankung oder ohne Herzerkrankung).One of ordinary skill in the art will understand that in a scenario where new data is input by the user, the selected model may categorize the data into corresponding clusters based on the value of the p-dimensional variable. If z. For example, when physiological parameters of new patients are entered into the system, the model categorizes the new patients into one of two categories (eg, heart disease or no heart disease).

Ein Durchschnittsfachmann wird verstehen, dass der Umfang der Offenbarung nicht auf das Stratifizieren des einen oder der mehreren Patienten und auf die eine oder die mehreren Kategorien beschränkt ist. In einer Ausführungsform können ähnliche medizinische Daten analysiert werden, um unterschiedliche Rückschlüsse zu ziehen. Zum Beispiel können Versicherungsdaten in Bezug auf das Gesundheitswesen analysiert werden, um Krankenversicherungsbeträge zu bestimmen.One of ordinary skill in the art will understand that the scope of the disclosure is not limited to stratifying the one or more patients and to the one or more categories. In one embodiment, similar medical data may be analyzed to make different conclusions. For example, health insurance data may be analyzed to determine health insurance amounts.

Wenn die Gesundheitsdaten Krankenversicherungsdaten entsprechen, kann die p-dimensionale Variabel in den Krankenversicherungsdaten einem oder mehreren versicherungsbezogenen Parametern wie Alter der versicherten Person, einem oder mehreren physiologischen Parametern der versicherten Person wie Versicherungsprämie, die von der versicherten Person gezahlt wird, Versicherungshöhe und Deckungshöhe entsprechen. Der in dem Flussdiagramm 100 und 400 beschriebene Prozess kann zum Bestimmen von Versicherungsbeträgen, empfohlenen Versicherungsbeiträgen usw. verwendet werden. Auf die gleiche Weise können Krankenhausdaten analysiert werden, um Ärzten beim Treffen von Entscheidungen und Diagnosen behilflich zu sein.If the health data corresponds to health insurance data, the p-dimensional variable in the health insurance data may correspond to one or more insurance-related parameters such as the insured person's age, one or more physiological parameters of the insured person such as insurance premium paid by the insured person, amount of insurance and coverage. The one in the flowchart 100 and 400 The process described may be used to determine insurance amounts, recommended insurance contributions, and so on. In the same way, hospital data can be analyzed to help doctors make decisions and diagnoses.

Die offenbarten Ausführungsformen umfassen zahlreiche Vorteile. Die Schätzung der inversen kumulativen Verteilung der p-dimensionalen Variabel ermöglicht die Verwendung des Erwartungsmaximierungsalgorithmus zum Erzeugen des GCMM. Des Weiteren wird auch die in dem multivariaten Datensatz vorhandene Clusterzahl geschätzt. Auf diese Weise wird das System dynamischer und anpassungsfähiger. Angenommen, das System empfängt einen unbekannten multivariaten Datensatz. Der Benutzer kann einen Zahlenbereich eingeben, von dem er/sie denkt, dass dies die Clusterzahl in dem multivariaten Datensatz sein sollte. Das System erzeugt ein Modell für jede Zahl und aus den so erzeugten Modellen wird ein bestes Modell ausgewählt. Die Zahl aus dem Zahlenbereich, die dem ausgewählten besten Modell entspricht, ist repräsentativ für die Clusterzahl im multivariaten Datensatz. Diese Fähigkeit der Schätzung der Clusterzahl macht das System anpassungsfähig. Weiterhin kann dieses anpassungsfähige System zum Identifizieren von Clustern in jedem multivariaten Datensatz wie gesundheitsbezogenen Daten verwendet werden.The disclosed embodiments include numerous advantages. The estimation of the inverse cumulative distribution of the p-dimensional variable allows the use of the expectation maximization algorithm to generate the GCMM. Furthermore, the number of clusters present in the multivariate dataset is also estimated. In this way, the system becomes more dynamic and adaptable. Suppose the system receives an unknown multivariate dataset. The user may enter a range of numbers that he / she thinks should be the cluster number in the multivariate record. The system generates a model for each number and from the models thus generated, a best model is selected. The number from the range of numbers corresponding to the selected best model is representative of the cluster number in the multivariate dataset. This ability to estimate the cluster number makes the system adaptable. Furthermore, this adaptive system can be used to identify clusters in each multivariate dataset, such as health-related data.

Die offenbarten Verfahren und Systeme, wie in der vorstehenden Beschreibung dargestellt, oder jede beliebige der Komponenten können in Form eines Computersystems ausgeführt werden. Typische Beispiele eines Computersystems schließen einen Allgemeinzweckcomputer, einen programmierten Mikroprozessor, eine Mikrosteuerung, ein peripheres, integriertes Schaltungselement und andere Vorrichtungen und Anordnungen von Vorrichtungen ein, welche die Schritte, die das Verfahren der Offenbarung bilden, implementieren können.The disclosed methods and systems as set forth in the foregoing description or any of the components may be implemented in the form of a computer system. Typical examples of a computer system include a general purpose computer, a programmed microprocessor, a microcontroller, a peripheral integrated circuit element, and other devices and arrangements of devices that may implement the steps that make up the method of the disclosure.

Das Computersystem umfasst einen Computer, eine Eingabevorrichtung, eine Anzeigeeinheit und Internet. Der Computer umfasst ferner einen Mikroprozessor. Der Mikroprozessor ist mit dem Kommunikationsbus verbunden. Der Computer weist auch einen Speicher auf. Der Speicher kann ein Zufallszugriffspeicher (RAM) oder ein Nurlese-Speicher (ROM) sein. Das Computersystem umfasst ferner eine Speichervorrichtung, die ein Festplattenlaufwerk oder ein entfernbares Laufwerk wie ein Floppy-Disk-Laufwerk, optisches Plattenlaufwerk und dergleichen sein kann. Die Speichervorrichtung kann auch ein Mittel zum Laden von Computerprogrammen oder anderen Anweisungen in ein Computersystem sein. Das Computersystem weist auch eine Kommunikationseinheit auf. Die Kommunikationseinheit ermöglicht dem Computer, sich mit anderen Datenbanken zu verbinden und über eine Eingangs-/Ausgangsschnittstelle (I/O) mit dem Internet, wodurch der Transfer sowie der Erhalt von Daten aus anderen Quellen möglich ist. Die Kommunikationseinheit kann ein Modem, eine Ethernetkarte oder andere ähnliche Vorrichtungen einschließen, welche dem Computersystem ermöglichen, sich mit den Datenbanken und Netzwerken wie LAN, MAN, WAN und Internet zu verbinden. Das Computersystem erleichtert die Eingabe von einem Benutzer über die Eingabevorrichtungen, die dem System über eine I/O-Schnittstelle zugänglich sind.The computer system includes a computer, an input device, a display unit, and Internet. The computer further includes a microprocessor. The microprocessor is connected to the communication bus. The computer also has a memory. The memory may be Random Access Memory (RAM) or Read Only Memory (ROM). The computer system further includes a storage device that may be a hard disk drive or a removable drive such as a floppy disk drive, optical disk drive, and the like. The storage device may also be a means for loading computer programs or other instructions into a computer system. The computer system also has a communication unit. The communication unit allows the computer to connect to other databases and to the Internet via an input / output interface (I / O), allowing for transfer as well as receiving data from other sources. The communication unit may include a modem, an Ethernet card, or other similar device that allows the computer system to connect to databases and networks such as LAN, MAN, WAN, and the Internet. The computer system facilitates input from a user via the input devices that are accessible to the system via an I / O interface.

Zum Verarbeiten der Eingabedaten führt das Computersystem einen Satz von Anweisungen aus, die in einem oder mehreren Speicherelementen gespeichert sind. Die Speicherelemente können auch Daten oder andere Informationen halten, wenn gewünscht. Das Speicherelement kann in Form einer Informationsquelle oder eines physischen Speicherelements vorliegen, das in der Verarbeitungsmaschine vorhanden ist.To process the input data, the computer system executes a set of instructions stored in one or more memory elements. The storage elements may also hold data or other information if desired. The storage element may be in the form of an information source or a physical storage element that is present in the processing engine.

Die programmierbaren oder computerlesbaren Anweisungen können verschiedene Befehle einschließen, welche die Verarbeitungsmaschine zum Durchführen spezifischer Aufgaben anweisen, wie die Schritte, die das Verfahren der Offenbarung bilden. Die beschriebenen Systeme und Verfahren können auch unter Verwendung von nur Softwareprogrammierung oder durch Verwenden nur von Hardware oder durch eine variierende Kombination der zwei Techniken implementiert werden. Die Offenbarung ist von der Programmiersprache und dem Betriebssystem abhängig, die von den Computern verwendet werden. Die Anweisungen der Offenbarung können in allen Programmiersprachen geschrieben sein, einschließlich 'C', '++', 'Visual ++' und 'Visual Basic', aber nicht darauf beschränkt. Weiterhin kann die Software in Form einer Sammlung separater Programme, eines Programmmoduls, das ein größeres Programm oder einen Abschnitt eines Programmmoduls enthält, wie in der vorstehenden Beschreibung besprochen, vorliegen. Die Software kann auch eine modulare Programmierung in Form von objektorientierter Programmierung einschließen. Die Verarbeitung von Eingabedaten durch die Verarbeitungsmaschine kann als Reaktion auf Benutzerbefehle, Ergebnisse einer vorherigen Verarbeitung oder aus einer Anfrage, die von einer anderen Verarbeitungsmaschine erzeugt wird, erfolgen. Die Offenbarung kann auch in verschiedenen Betriebssystemen und Plattformen implementiert werden, einschließlich 'Unix', 'DOS', 'Android', 'Symbian' und 'Linux', aber nicht darauf beschränkt.The programmable or computer-readable instructions may include various instructions that instruct the processing engine to perform specific tasks, such as the steps that make up the method of the disclosure. The described systems and methods may also be implemented using only software programming or using only hardware or a varying combination of the two techniques. The disclosure depends on the programming language and the operating system used by the computers. The instructions of the disclosure may be written in all programming languages including, but not limited to, 'C', '++', 'Visual ++' and 'Visual Basic'. Furthermore, the software may be in the form of a collection of separate programs, a program module containing a larger program or portion of a program module, as discussed in the foregoing description. The software may also include modular programming in the form of object-oriented programming. The processing of input data by the processing engine may be in response to user commands, results of previous processing, or a request generated by another processing engine. The disclosure may also be implemented in various operating systems and platforms, including, but not limited to, 'Unix', 'DOS', 'Android', 'Symbian', and 'Linux'.

Die programmierbaren Anweisungen können gespeichert und auf ein computerlesbares Medium übertragen werden. Die Offenbarung kann auch als ein Computerprogrammprodukt, umfassend ein computerlesbares Medium, ausgeführt werden, oder mit jedem Produkt, das die obigen Verfahren und Systeme oder die zahlreichen verschiedenen Variationen davon implementieren kann.The programmable instructions can be stored and transferred to a computer-readable medium. The disclosure may also be embodied as a computer program product comprising a computer-readable medium, or any product that can implement the above methods and systems or the numerous different variations thereof.

Verschiedene Ausführungsformen von Verfahren und Systemen zum Analysieren von Gesundheitsdaten wurden offenbart. Einem Fachmann ist jedoch offensichtlich, dass Änderungen zusätzlich zu den beschriebenen möglich sind, ohne die erfinderischen Konzepte hierin zu verlassen. Die Ausführungsformen sind daher nicht restriktiv, außer im Geist der Offenbarung. Des Weiteren sind beim Auslegen der Offenbarung sämtliche Begriffe im weitesten möglichen Sinne in Bezug auf den Kontext zu verstehen. Insbesondere die Ausdrücke „umfassen” und „umfassend” sind als sich auf Elemente, Komponenten oder Schritte in nicht ausschließlicher Weise beziehend zu verstehen, die anzeigen, dass die bezüglichen Elemente, Komponenten oder Schritte mit anderen Elementen, Komponenten oder Schritten vorliegen oder benutzt oder kombiniert werden können, die nicht ausdrücklich beschrieben sind.Various embodiments of methods and systems for analyzing health data have been disclosed. It will be apparent, however, to one skilled in the art that changes may be made in addition to those described without departing from the inventive concepts herein. The embodiments are therefore not restrictive except in the spirit of the disclosure. Furthermore, when interpreting the disclosure, all terms are to be understood in the broadest possible sense in relation to the context. In particular, the terms "comprising" and "comprising" are to be understood as referring non-exhaustively to elements, components or steps that indicate that the related elements, components or steps are present or used or combined with other elements, components or steps which are not expressly described.

Ein Durchschnittsfachmann wird zu schätzen wissen, dass das System, die Module und Untermodule dargestellt und erklärt wurden, um als Beispiele zu dienen, und diese nicht als in irgendeiner Weise einschränkend auszulegen sind. Man wird ferner zu schätzen wissen, dass die Varianten der oben offenbarten Systemelemente oder Module sowie andere Merkmale und Funktionen oder Alternativen davon zu vielen anderen unterschiedlichen Systemen oder Anwendungen kombiniert werden können.One of ordinary skill in the art will appreciate that the system, modules and sub-modules have been illustrated and explained to serve as examples and are not to be construed as limiting in any way. It will also be appreciated that the variations of the above-disclosed system elements or modules, as well as other features and functions or alternatives thereof, may be combined into many other different systems or applications.

Ein Fachmann wird zu schätzen wissen, dass jeder/s der vorgenannten Schritte und/oder Systemmodule ersetzt, neu geordnet oder entfernt werden können und dass zusätzliche Schritte und/oder Systemmodule aufgenommen werden können, je nach den Anforderungen einer bestimmten Anwendung. Außerdem können die Systeme der vorgenannten Ausführungsformen unter Verwendung eines breiten Bereichs geeigneter Verfahren und Systemmodule implementiert werden und sind nicht auf eine bestimmte Computerhardware, -software, -middleware, -firmware, Mikrocode und dergleichen beschränkt.One skilled in the art will appreciate that any of the foregoing steps and / or system modules may be replaced, rearranged, or removed, and that additional steps and / or system modules may be included, depending on the needs of a particular application. In addition, the systems of the foregoing embodiments may be implemented using a wide range of suitable methods and system modules and are not limited to any particular computer hardware, software, middleware, firmware, microcode, and the like.

Die Ansprüche können Ausführungsformen für Hardware, Software oder einer Kombination daraus umfassen.The claims may include embodiments for hardware, software, or a combination thereof.

Claims

A system for generating a model that can identify one or more clusters in a health record, the system comprising: one or more processors for: receiving, by one or more processors, an input associated with a range of numbers, each number in the range of numbers representing a cluster number in the health record; for a cluster in cluster number, for: estimating one or more first parameters of a distribution associated with the cluster; Determining a threshold based on the one or more first parameters; Estimating an inverse cumulative distribution of each of the one or more n-dimensional variables in the health record based on the threshold and a cumulative distribution of each of the one or more n-dimensional variables; Updating the one or more first parameters to generate one or more second parameters based on the estimated inverse cumulative distribution, wherein the update is performed using an expectation maximization algorithm; and for generating the model for each number in the number range based on one or more second parameters associated with each cluster in the cluster number.

The system of claim 1, wherein the cumulative distribution of each of the one or more n-dimensional variables is determined from the health record.

The system of claim 1, wherein the distribution associated with the cluster corresponds to a Gaussian copula distribution.

The system of claim 1, wherein the expectation maximization algorithm further comprises determining a latent variable for the cluster based on the one or more first parameters and the inverse cumulative distribution of the one or more n-dimensional variables, and wherein the one or more first parameters updated based on at least the latent variables.

The system of claim 1, wherein the expectation maximization algorithm further comprises determining a first probability that the one or more first parameters are deterministic for the model.

The system of claim 5, wherein the expectation maximization algorithm further comprises determining a second probability that the one or more second parameters are deterministic for the model.

The system of claim 6, wherein the one or more processors are further configured to compare the first probability and the second probability.

The system of claim 7, wherein the model is generated using the one or more second parameters based on the comparison.

The system of claim 7, wherein the threshold and the inverse cumulative distribution are updated using the one or more second parameters based on the comparison; and wherein the one or more second parameters are updated using the updated threshold and the updated inverse cumulative distribution based on the comparison, wherein the second probability is updated based on the updated one or more second parameters.

The system of claim 1, wherein the one or more processors are further configured to select a best model from the model generated for each number in the range of numbers using the Bayes information criterion, the best model being deterministic of the category number in the health data is.