DE102015201688A1 - METHOD AND SYSTEMS FOR ANALYSIS OF HEALTH DATA - Google Patents
METHOD AND SYSTEMS FOR ANALYSIS OF HEALTH DATA Download PDFInfo
- Publication number
- DE102015201688A1 DE102015201688A1 DE102015201688.9A DE102015201688A DE102015201688A1 DE 102015201688 A1 DE102015201688 A1 DE 102015201688A1 DE 102015201688 A DE102015201688 A DE 102015201688A DE 102015201688 A1 DE102015201688 A1 DE 102015201688A1
- Authority
- DE
- Germany
- Prior art keywords
- parameters
- cluster
- model
- cumulative distribution
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
Abstract
Es werden Ausführungsformen zum Erzeugen eines Modells offenbart, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Eine Eingabe, die einem Bereich von Zahlen angehört, wird erhalten. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Für ein Cluster werden einer oder mehrere erste Parameter einer Verteilung, die mit dem Cluster verknüpft sind, geschätzt. Danach wird ein Schwellenwert basierend auf dem einen oder den mehreren ersten Parametern bestimmt. Eine inverse kumulative Verteilung jeder der einen oder mehreren n-dimensionalen Variabeln in dem Gesundheitsdatensatz wird bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter basierend auf der geschätzten inversen kumulativen Verteilung aktualisiert. Ein Modell wird für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten Parametern erzeugt.Embodiments for generating a model that can identify one or more clusters in a health record are disclosed. An input belonging to a range of numbers is obtained. Each number in the range of numbers is representative of a cluster number in the health record. For a cluster, one or more first parameters of a distribution associated with the cluster are estimated. Thereafter, a threshold is determined based on the one or more first parameters. An inverse cumulative distribution of each of the one or more n-dimensional variables in the health record is determined. The one or more first parameters are updated to generate one or more second parameters based on the estimated inverse cumulative distribution. A model is generated for each number in the range of numbers based on one or more second parameters.
Description
HINTERGRUNDBACKGROUND
Die Gesundheitsbranche ist eine Branche, welche die Datenpflege verschiedener Aufzeichnungen von der Geburtsurkunde bis zur Sterbeurkunde einer Person betrifft. Diese Aufzeichnungen können medizinische Diagnoseberichte, Krankenversicherungsberichte, Krankenhausdaten, usw. beinhalten, sind aber nicht darauf beschränkt. Diese Aufzeichnungsdaten können genutzt werden, um ein mathematisches Modell zu erzeugen, das Informationen identifizieren/vorhersehen kann, wie z. B. einen gesundheitlichen Zustand eines Patienten und Krankenkassenbetrug, aber nicht darauf beschränkt. Zum Erzeugen des mathematischen Modells müssen eines oder mehrere Muster in den Aufzeichnungsdaten identifiziert werden.The healthcare industry is an industry that handles the maintenance of various records from a birth certificate to a person's death certificate. These records may include, but are not limited to, medical diagnostic reports, health insurance reports, hospital records, etc. This record data can be used to generate a mathematical model that can identify / anticipate information, such as: A health condition of a patient and health insurance fraud, but not limited thereto. To generate the mathematical model, one or more patterns in the record data must be identified.
Durch Datengewinnungstechniken können eines oder mehrere Muster in den Aufzeichnungsdaten bestimmt werden. Solche Muster können zum Bestimmen von Clustern in den Aufzeichnungsdaten verwendet werden. Unter Clustering versteht man das Gruppieren eines Satzes von Aufzeichnungen in den Aufzeichnungsdaten, die auf vordefinierten Merkmalen, die mit dem Aufzeichnungssatz verknüpft sind, basieren. Einige der gemeinhin bekannten Clusteralgorithmen schließen k-means Cluster, dichtebasierte Cluster, schwerpunktbasierte Cluster, Gauß'sche Mischmodelle, usw. ein.Data collection techniques may determine one or more patterns in the record data. Such patterns can be used to determine clusters in the record data. Clustering is the grouping of a set of records in the record data based on predefined features associated with the record set. Some of the commonly known clustering algorithms include k-means clusters, density-based clusters, centroid-based clusters, Gaussian merge models, and so on.
Ein Gauß'sches Mischmodell ist eine Clustertechnik, die voraussetzt, dass die Aufzeichnungsdaten eine oder mehrere Komponenten oder Cluster enthalten und dass die Daten normalerweise in jedem Cluster verteilt sind (z. B. Gauß'sche Verteilung). Zum Schulen des Gauß'schen Mischmodells wird eine einer Clusterzahl zugehörige Eingabe, die in den Aufzeichnungsdaten vorliegt, von einem Benutzer empfangen. Wie oben beschrieben, sind die Daten in jedem Cluster normalerweise verteilt. Parameter wie gemittelte oder kovariante Verteilung jedes Clusters können mithilfe des Erwartungsmaximierungsalgorithmus geschätzt werden. In einer Ausführungsform beinhaltet der Erwartungsmaximierungsalgorithmus das Bestimmen einer Wahrscheinlichkeit, dass ein Datenpunkt oder eine Aufzeichnung einem Cluster entspricht. Die Wahrscheinlichkeit wird maximiert und die Parameter der Verteilung, die zu der maximierten Wahrscheinlichkeit führen, ausgewählt. Die ausgewählten Parameter werden zum Erzeugen des Gauß'schen Mischmodells benutzt.A Gaussian mixed model is a clustering technique which requires that the record data contain one or more components or clusters and that the data is normally distributed in each cluster (eg, Gaussian distribution). To train the Gaussian mixed model, an input associated with a cluster number present in the record data is received from a user. As described above, the data in each cluster is normally distributed. Parameters such as averaged or covariant distribution of each cluster can be estimated using the expectation maximization algorithm. In one embodiment, the expectation maximization algorithm includes determining a probability that a data point or record corresponds to a cluster. The probability is maximized and the parameters of the distribution leading to the maximized probability are selected. The selected parameters are used to generate the Gaussian mixed model.
Da vorausgesetzt wird, dass die Daten in den Clustern normalerweise verteilt sind, können die Gauß'schen Mischmodelle nicht auf Szenarien angewandt werden, bei denen Daten normalerweise nicht verteilt sind.Since it is assumed that the data in the clusters are normally distributed, the Gaussian mixed models can not be applied to scenarios where data is not normally distributed.
KURZDARSTELLUNGSUMMARY
Gemäß den hierin dargestellten Ausführungsformen wird ein Verfahren zum Erzeugen eines Modells bereitgestellt, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Das Verfahren umfasst das Empfangen einer einem Zahlenbereich angehörigen Eingabe durch einen oder mehrere Prozessoren. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Für einen Cluster in der Clusterzahl werden einer oder mehrere erste Parameter einer mit dem Cluster verknüpften Verteilung geschätzt. Eine inverse kumulative Verteilung jeder von einer oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz wird basierend auf einem Schwellenwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter aktualisiert, die auf der geschätzten inversen kumulativen Verteilung basieren, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird. Abschließend wird das Modell für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten mit jedem Cluster in der Clusterzahl verknüpften Parametern erzeugt.In accordance with the embodiments presented herein, a method for generating a model that can identify one or more clusters in a health record is provided. The method includes receiving a numerical range input by one or more processors. Each number in the range of numbers is representative of a cluster number in the health record. For a cluster in the cluster count, one or more first parameters of a distribution associated with the cluster are estimated. An inverse cumulative distribution of each of one or more n-dimensional variables in the health record is determined based on a threshold and a cumulative distribution of each of the one or more n-dimensional variables. The one or more first parameters are updated to generate one or more second parameters based on the estimated inverse cumulative distribution, wherein the update is performed using an expectation maximization algorithm. Finally, the model is generated for each number in the range of numbers based on one or more second parameters associated with each cluster in the cluster number.
Gemäß der hierin dargestellten Ausführungsform wird ein System zum Erzeugen eines Modells bereitgestellt, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Das System, das einen oder mehrere Prozessoren umfasst, ist zum Empfangen einer einem Zahlenbereich zugehörigen Eingabe konfiguriert. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Weiterhin sind einer oder mehrere Prozessoren zum Schätzen eines oder mehrerer erster Parameter einer mit einem Cluster aus einer Clusterzahl verknüpften Verteilung konfiguriert. Der eine oder die mehreren Prozessoren sind weiterhin zum Bestimmen eines Schwellenwerts basierend auf dem einen oder den mehreren ersten Parametern konfiguriert. Eine inverse kumulative Verteilung jeder der einen oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz wird basierend auf dem Schwellwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen durch einen oder mehrere Prozessoren geschätzt. Der eine oder die mehreren Prozessoren sind zum Aktualisieren des einen oder der mehreren ersten Parameter zum Erzeugen eines oder mehrerer zweiter Parameter, die auf der geschätzten inversen kumulativen Verteilung basieren, konfiguriert, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird. Der eine oder die mehreren Prozessoren sind zum Erzeugen des Modells für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten mit jedem Cluster in der Clusterzahl verknüpften Parametern konfiguriert.In accordance with the embodiment presented herein, a system is provided for generating a model that can identify one or more clusters in a health record. The system, which includes one or more processors, is configured to receive input associated with a range of numbers. Each number in the range of numbers is representative of a cluster number in the health record. Furthermore, one or more processors are configured to estimate one or more first parameters of a distribution associated with a cluster of a cluster number. The one or more processors are further configured to determine a threshold based on the one or more first parameters. An inverse cumulative distribution of each of the one or more n-dimensional variables in the health record is estimated based on the threshold and cumulative distribution of each of the one or more n-dimensional variables by one or more processors. The one or more processors are for updating the one or more first parameters configured to generate one or more second parameters based on the estimated inverse cumulative distribution, wherein the update is performed using an expectation maximization algorithm. The one or more processors are configured to generate the model for each number in the range of numbers based on one or more second parameters associated with each cluster in the cluster number.
Gemäß der hierin dargestellten Ausführungsform wird ein Computerprogrammprodukt für die Verwendung mit einer Computervorrichtung bereitgestellt. Das Computerprogrammprodukt umfasst ein nicht transitorisches computerlesbares Medium. Das nicht transitorische computerlesbare Medium speichert einen Computerprogrammcode zum Erzeugen eines Modells, das einen oder mehrere Cluster in einem Gesundheitsdatensatz identifizieren kann. Der Computerprogrammcode kann von einem oder mehreren Prozessoren in der Computervorrichtung ausgeführt werden, um eine einem Zahlenbereich zugehörige Eingabe zu empfangen. Jede Zahl in dem Zahlenbereich ist repräsentativ für eine Clusterzahl im Gesundheitsdatensatz. Für einen Cluster in der Clusterzahl kann der Computerprogrammcode zum Schätzen eines oder mehrerer erster Parameter einer mit dem Cluster verknüpften Verteilung ausgeführt werden. Danach wird ein Schwellenwert basierend auf dem einen oder den mehreren ersten Parametern bestimmt. Eine inverse kumulative Verteilung jeder von einer oder mehreren n-dimensionalen Variablen im Gesundheitsdatensatz wird basierend auf einem Schwellenwert und einer kumulativen Verteilung jeder der einen oder mehreren n-dimensionalen Variablen bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter aktualisiert, die auf der geschätzten inversen kumulativen Verteilung basieren, wobei die Aktualisierung mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt wird. Abschließend wird das Modell für jede Zahl in dem Zahlenbereich basierend auf einem oder mehreren zweiten mit jedem Cluster in der Clusterzahl verknüpften Parametern erzeugt.In accordance with the embodiment illustrated herein, a computer program product is provided for use with a computing device. The computer program product includes a non-transitory computer-readable medium. The non-transitory computer-readable medium stores computer program code for generating a model that can identify one or more clusters in a health record. The computer program code may be executed by one or more processors in the computing device to receive an input associated with a range of numbers. Each number in the range of numbers is representative of a cluster number in the health record. For a cluster in the cluster count, the computer program code may be executed to estimate one or more first parameters of a distribution associated with the cluster. Thereafter, a threshold is determined based on the one or more first parameters. An inverse cumulative distribution of each of one or more n-dimensional variables in the health record is determined based on a threshold and a cumulative distribution of each of the one or more n-dimensional variables. The one or more first parameters are updated to generate one or more second parameters based on the estimated inverse cumulative distribution, wherein the update is performed using an expectation maximization algorithm. Finally, the model is generated for each number in the range of numbers based on one or more second parameters associated with each cluster in the cluster number.
Gemäß den hierin dargestellten Ausführungsformen wird ein Verfahren zum Stratifizieren eines oder mehrerer Patienten in eine oder mehrere Kategorien basierend auf mit jedem des einen oder mehreren Patienten verknüpften medizinischen Aufzeichnungsdaten bereitgestellt. Die medizinischen Aufzeichnungsdaten beinhalten eine Messung eines oder mehrerer physiologischer Marker jedes des einen oder der mehreren Patienten. Das Verfahren umfasst das Empfangen einer einem Zahlenbereich angehörigen Eingabe durch einen oder mehrere Prozessoren. Jede Zahl entspricht einer Kategorienzahl in den medizinischen Aufzeichnungsdaten. Jede Kategorie entspricht einem medizinischen Zustand, der mit jedem des einen oder der mehreren Patienten verknüpft ist. Für eine Kategorie in der Kategorienzahl werden einer oder mehrere erste Parameter einer mit der Kategorie verknüpften Verteilung geschätzt. Eine inverse kumulative Verteilung der einen oder mehreren physiologischen Marker wird basierend auf einem Schwellwert und einer kumulativen Verteilung jedes des einen oder der mehreren physiologischen Marker bestimmt. Der eine oder die mehreren ersten Parameter werden zum Erzeugen eines oder mehrerer zweiter Parameter basierend auf der geschätzten inversen kumulativen Verteilung aktualisiert. Die Aktualisierung wird mithilfe eines Erwartungsmaximierungsalgorithmus durchgeführt. Für jede Zahl in dem Zahlenbereich, der auf einem oder mehreren zweiten mit jeder Kategorie der Kategorienzahl verknüpften Parametern basiert, wird ein Modell erzeugt. Ein bestes Modell wird aus dem für jede Zahl in dem Zahlenbereich erzeugten Modell mithilfe des Bayes-Informationskriteriums ausgewählt. Das beste Modell ist deterministisch für die Kategorienzahl in den medizinischen Aufzeichnungsdaten. Das beste Modell stratifiziert jeden des einen oder der mehreren Patienten, die in den medizinischen Aufzeichnungsdaten aufgelistet sind, in eine oder mehrere Kategorien.In accordance with the embodiments presented herein, a method is provided for stratifying one or more patients into one or more categories based on medical record data associated with each of the one or more patients. The medical record data includes a measurement of one or more physiological markers of each of the one or more patients. The method includes receiving a numerical range input by one or more processors. Each number corresponds to a category number in the medical record data. Each category corresponds to a medical condition associated with each of the one or more patients. For a category in the category number, one or more first parameters of a distribution associated with the category are estimated. An inverse cumulative distribution of the one or more physiological markers is determined based on a threshold and a cumulative distribution of each of the one or more physiological markers. The one or more first parameters are updated to generate one or more second parameters based on the estimated inverse cumulative distribution. The update is performed using an expectation maximization algorithm. For each number in the range of numbers based on one or more second parameters associated with each category of the category number, a model is generated. A best model is selected from the model generated for each number in the range of numbers using the Bayes information criterion. The best model is deterministic of the number of categories in the medical record data. The best model stratifies each of the one or more patients listed in the medical record data into one or more categories.
KURZBESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS
Die angefügten Zeichnungen zeigen verschiedene Ausführungsformen von Systemen, Verfahren und anderen Aspekten der Offenbarung. Jeder Durchschnittsfachmann wird zu schätzen wissen, dass die dargestellten Elementgrenzen (z. B. Felder, Feldgruppen oder andere Formen) in den Figuren ein Beispiel der Grenzen repräsentieren. In einigen Beispielen kann ein Element als mehrere Elemente ausgestaltet sein oder mehrere Elemente können als ein Element ausgestaltet sein. In einigen Beispielen kann ein Element, das als eine interne Komponente eines Elements dargestellt ist, als eine externe Komponente in einem anderen implementiert sein und umgekehrt. Des Weiteren sind die Elemente nicht unbedingt maßstabsgetreu.The attached drawings illustrate various embodiments of systems, methods, and other aspects of the disclosure. Any one of ordinary skill in the art will appreciate that the illustrated element boundaries (eg, fields, arrays, or other shapes) in the figures represent an example of the boundaries. In some examples, one element may be configured as multiple elements or multiple elements may be configured as one element. In some examples, an element represented as an internal component of one element may be implemented as an external component in another and vice versa. Furthermore, the elements are not necessarily to scale.
Verschiedene Ausführungsformen werden im Folgenden gemäß den angefügten Zeichnungen beschrieben, die zum Darstellen und nicht Einschränken des Umfangs auf irgendeine Weise bereitgestellt werden, wobei ähnliche Bezugszeichen für ähnliche Elemente stehen. Es zeigen:Various embodiments will be described below with reference to the accompanying drawings, which are provided for illustration and not limitation of scope in any way, wherein like reference numerals represent like elements. Show it:
AUSFÜHRLICHE BESCHREIBUNGDETAILED DESCRIPTION
Die vorliegende Offenbarung kann am besten mit Bezug auf die detaillierten Figuren und hierin vorgestellten Beschreibungen verstanden werden. Verschiedene Ausführungsformen werden unten mit Bezug auf die Figuren besprochen. Ein Fachmann wird jedoch zu schätzen wissen, dass die hierin vorgestellten detaillierten Beschreibungen mit Bezug auf die Figuren rein beispielhaft sind, weil die Verfahren und Systeme sich über die beschriebenen Ausführungsformen hinaus erstrecken können. Zum Beispiel können die vorgestellten Lehren und die Anforderungen einer bestimmten Anwendung mehrere alternative und geeignete Ansätze zum Implementieren der Funktionsweise jedes hierin beschriebenen beliebigen Details ergeben. Daher kann sich jeder Ansatz über die bestimmten Implementierungswahlen der folgenden hierin beschriebenen und dargestellten Ausführungsformen hinaus erstrecken.The present disclosure may best be understood by reference to the detailed figures and descriptions presented herein. Various embodiments are discussed below with reference to the figures. One skilled in the art will appreciate, however, that the detailed descriptions presented herein are merely exemplary with reference to the figures, as the methods and systems may extend beyond the described embodiments. For example, the teachings and requirements of a particular application may provide several alternative and appropriate approaches for implementing the operation of any of the details described herein. Therefore, any approach may extend beyond the particular implementation choices of the following embodiments described and illustrated herein.
Bezugnahmen auf „eine Ausführungsform”, „mindestens eine Ausführungsform”, „ein Beispiel”, „zum Beispiel” usw. zeigen an, dass die Ausführungsform(en) oder das bzw. die Beispiele, die so beschrieben werden, ein bestimmtes Merkmal, Struktur, Charakteristik, Eigenschaft, Element oder Einschränkung aufweisen kann/können, dass aber nicht jede Ausführungsform oder jedes Beispiel unbedingt dieses besondere Merkmal, Struktur, Charakteristik, Eigenschaft, Element oder Einschränkung besitzt. Des Weiteren bezieht sich die wiederholte Verwendung von „in einer Ausführungsform” nicht unbedingt auf ein und dieselbe Ausführungsform.References to "one embodiment," "at least one embodiment," "an example," "for example," etc., indicate that the embodiment (s) or example (s) so described have a particular feature, structure , Characteristic, property, element, or constraint, but not every embodiment or example necessarily has that particular feature, structure, characteristic, property, element, or constraint. Furthermore, the repeated use of "in one embodiment" does not necessarily refer to one and the same embodiment.
Definitionen: Die folgenden Ausdrücke sollen zum Zwecke dieser Anmeldung die zugehörigen, unten aufgeführten Bedeutungen besitzen.Definitions: For purposes of this application, the following terms are intended to have the same meanings as listed below.
„Multivariater Datensatz” bezieht sich auf einen Datensatz, der Beobachtungen über eine p-dimensionale Variabel enthält. Zum Beispiel können „n” Ausführungen der p-dimensionalen Variabel einen multivariaten Datensatz bilden. Zum Beispiel können medizinische Aufzeichnungsdaten eine Messung eines oder mehrerer physiologischer Parameter eines oder mehrerer Patienten enthalten. Solche medizinischen Aufzeichnungsdaten sind ein Beispiel für einen multivariaten Datensatz."Multivariate dataset" refers to a dataset that contains observations about a p-dimensional variable. For example, "n" executions of the p-dimensional variable may constitute a multivariate dataset. For example, medical record data may include a measurement of one or more physiological parameters of one or more patients. Such medical record data is an example of a multivariate record.
„Gesundheitsdatensatz” bezieht sich auf einen multivariaten Datensatz, der aus der Gesundheitsbranche erhaltene Daten enthält. In einer Ausführungsform kann der Gesundheitsdatensatz Patientendaten, Krankenhausdaten, Krankenversicherungsdaten, Diagnosedaten usw. entsprechen. In einem Szenarium, bei dem die Gesundheitsdaten den Patientendaten entsprechen, entsprechen der eine oder die mehreren physiologischen Parameter der p-dimensionalen Variabel und die Aufzeichnungszahl in den Gesundheitsdaten entspricht den Ausführungen."Health record" refers to a multivariate dataset containing data obtained from the healthcare industry. In one embodiment, the health record may correspond to patient data, hospital data, health insurance data, diagnostic data, and so on. In a scenario in which the health data corresponds to the patient data, the one or more physiological parameters correspond to the p-dimensional variable, and the recording number in the health data corresponds to the explanations.
„Gauß'sches Mischmodell (GMM)” bezieht sich auf ein mathematisches Modell, das einen oder mehrere Cluster in dem multivariaten Datensatz identifizieren kann. In einer Ausführungsform sind die Datenwerte in jedem des einen oder der mehreren Cluster normalerweise verteilt (z. B. Gauß'sche Verteilung)."Gaussian Mixed Model (GMM)" refers to a mathematical model that can identify one or more clusters in the multivariate dataset. In one embodiment, the data values in each of the one or more clusters are normally distributed (eg, Gaussian distribution).
„Gauß'sches Copula-Mischmodell (GCMM)” bezieht sich auf ein mathematisches Modell, das einen oder mehrere Cluster in dem multivariaten Datensatz identifizieren kann, wobei die Datenwerte in jedem des einen oder der mehreren Cluster gemäß einer Gauß'schen Kopula-Verteilung verteilt sind."Gaussian Copula Mixed Model (GCMM)" refers to a mathematical model that can identify one or more clusters in the multivariate dataset, with the data values in each of the one or more clusters distributed according to a Gaussian copula distribution are.
„Kumulative Verteilung” bezieht sich auf eine Verteilungsfunktion, welche die Wahrscheinlichkeit, dass eine reelwertige zufällige Variabel X mit einer vorgegebenen Wahrscheinlichkeitsverteilung bei einem Wert von kleiner gleich oder gleich x gefunden wird."Cumulative distribution" refers to a distribution function that determines the probability that a real valued random variable X with a given probability distribution will be found at a value less than or equal to x.
„Inverse kumulative Verteilung” bezieht sich auf eine inverse Funktion der kumulativen Verteilung der zufälligen Variabel X."Inverse cumulative distribution" refers to an inverse function of the cumulative distribution of the random variable X.
„Clustermischanteil” bezieht sich auf eine Wahrscheinlichkeit, dass ein Datenwert in dem multivariaten Datensatz zu unterschiedlichen Clustern gehört. Der multivariate Datensatz enthält zum Beispiel zwei Cluster. Eine Wahrscheinlichkeit, dass ein Datenwert in dem multivariaten Datensatz zum ersten Cluster gehört, beträgt 0,6. Daher beträgt die Wahrscheinlichkeit, dass der Datenwert zum zweiten Cluster gehört, 0,4. In einer Ausführungsform beträgt die Summe der Datenwertwahrscheinlichkeit in jedem des einen oder der mehreren Cluster in dem Datensatz eins. Cluster Mixing refers to a probability that a data value in the multivariate record belongs to different clusters. For example, the multivariate dataset contains two clusters. A probability that a data value in the multivariate record belongs to the first cluster is 0.6. Therefore, the probability that the data value belongs to the second cluster is 0.4. In one embodiment, the sum of the data value probability in each of the one or more clusters in the data set is one.
„Latente Variabel” bezieht sich auf eine Zwischenvariabel, die nicht aus dem multivariaten Datensatz erhalten wird. In einer Ausführungsform wird die latente Variabel basierend auf dem einen oder den mehreren Parametern bestimmt."Deferred variable" refers to an intermediate variable that is not obtained from the multivariate dataset. In one embodiment, the latent variable is determined based on the one or more parameters.
„Wahrscheinlichkeit” ist umfassend zu verstehen und enthält jede Wahrscheinlichkeitsberechnung; Wahrscheinlichkeitsannäherung unter Verwendung jedes Typs von Eingabedaten, ungeachtet der Präzision oder mangelnden Präzision; jede Zahl, egal ob berechnet oder vorbestimmt, die eine Wahrscheinlichkeit simuliert; oder jeden Verfahrensschritt, der eine Auswirkung auf die Verwendung oder des Auffindens einiger Daten mit einer Beziehung auf eine Wahrscheinlichkeit besitzen."Probability" is to be understood comprehensively and contains every probability calculation; Probability approximation using any type of input data, regardless of precision or lack of precision; any number, whether calculated or predetermined, that simulates a probability; or any process step that has an impact on the use or finding of some data with a probability relationship.
Wie beschrieben, werden die Gauß'schen Mischmodelle zum Bestimmen eines oder mehrerer Cluster in einem Datensatz benutzt. Zum Bestimmen der Cluster setzen die Gauß'schen Mischmodelle voraus, dass Datenpunkte in einem Cluster normalerweise verteilt sind. In einer Ausführungsform können in den meisten der Anwendungen die Datenpunkte normalerweise nicht verteilt sein. Daher sind die Gauß'schen Mischmodelle ggf. nicht in der Lage, die Cluster in dem Datensatz präzise vorherzusagen.As described, the Gaussian merge models are used to determine one or more clusters in a data set. To determine the clusters, the Gaussian mixed models assume that data points in a cluster are normally distributed. In one embodiment, in most of the applications, the data points may not normally be distributed. Therefore, the Gaussian blended models may not be able to accurately predict the clusters in the data set.
In einer Ausführungsform ist ein Gauß'sches Copula-Mischmodell (GCMM) ein anderes mathematisches Modell, das zum Identifizieren eines oder mehrerer Cluster in einem multivariaten Datensatz benutzt wird. In einer Ausführungsform kann der multivariate Datensatz Datenwerte einer oder mehrerer p-dimensionaler Variabeln enthalten. Jeder Datenwert jeder der einen oder mehreren p-dimensionalen Variabeln kann Teil eines Clusters in einem multivariaten Datensatz sein. In einer Ausführungsform setzt das GCMM voraus, dass die Datenwerte in dem Cluster aus einer Gauß'schen Kopula-Verteilung abgeleitet sind. In einer Ausführungsform entspricht Kopula einer multivariaten Wahrscheinlichkeitsverteilung, für die eine Randwahrscheinlichkeit jeder Variabel gleichförmig verteilt ist. In einer Ausführungsform werden die Kopula zum Beschreiben der Abhängigkeit zwischen einer oder mehreren p-dimensionalen Variabeln in dem Datensatz verwendet. Ein typisches Gauß'sches Copula-Mischmodell (GCMM) wird durch die folgende Gleichung repräsentiert: worin
- yi:
- die inverse kumulative Verteilung der p-dimensionalen Zufallsvariabel x ist;
- p:
- die Dimensionenzahl der zufälligen Variabel ist;
- πg:
- der Clustermischanteil g in Bezug auf andere Cluster in dem multivariaten Datensatz ist;
- ψj(yi,j):
- die Randdichte von GMM entlang der Dimension jth ist;
- G:
- die Clusterzahl in dem multivariaten Datensatz ist;
- μg:
- der Mittelwert der Gauß'schen Copula-Mischkomponente g ist;
- Σg:
- die Kovarianzmatrix der p-dimensionalen Variabel x (die eine Kovarianz zwischen dem einen oder den mehreren Clustern darstellt) ist; und
- ϕ(yi|μg, Σg):
- eine multivariate Gauß'sche Verteilung der Datenwerte in einem Cluster g mit dem Mittelwert μg und der Varianz Σg ist.
- y i :
- is the inverse cumulative distribution of the p-dimensional random variable x;
- p:
- the dimension number of the random variable is;
- π g :
- the cluster mix fraction g is relative to other clusters in the multivariate dataset;
- ψ j (y i, j):
- the edge density of GMM is along the dimension j th ;
- G:
- is the cluster number in the multivariate dataset;
- μ g :
- the mean value of the Gaussian copula mixing component is g;
- Σ g:
- the covariance matrix of the p-dimensional variable x (representing a covariance between the one or more clusters); and
- φ (y i | μ g , Σ g ):
- is a multivariate Gaussian distribution of the data values in a cluster g with the mean μ g and the variance Σ g .
Zum Bestimmen der Clusterzahl in dem multivariaten Datensatz und zum Klassifizieren jedes Datenwertes der einen oder mehreren p-dimensionalen Variabeln wird ein GCMM erzeugt. Die Erzeugung eines GCMM wurde in einer Ausführungsform der Offenbarung in Zusammenhang mit
Bei Schritt
Außerdem wird der multivariate Datensatz von dem Benutzer erhalten. Der multivariate Datensatz enthält Datenwerte, die einer p-dimensionalen Variabel in dem multivariaten Datensatz angehören. Im Folgenden wird der Ausdruck Datenwert synonym mit Ausführung verwendet. Zum Zwecke der laufenden Beschreibung sind n Ausführungen der p-dimensionalen Variabel in dem multivariaten Datensatz vorhanden.In addition, the multivariate record is obtained from the user. The multivariate dataset contains data values belonging to a p-dimensional variable in the multivariate dataset. In the following, the term data value is used synonymously with execution. For purposes of the present description, there are n executions of the p-dimensional variable in the multivariate dataset.
Bei Schritt
- πg:
- die Mischanteile des einen oder der mehreren Cluster ist;
- Σg:
- die Kovarianz zwischen dem einen oder den mehreren Clustern ist;
- G:
- die Clusterzahl in dem multivariaten Datensatz ist;
- y (0) / i,j:
- die inverse kumulative Verteilung der p-dimensionalen Variabel entlang der Dimension jth ist; und
- κ(0):
- Max(μg,j), worin μg,j dem Mittelwert der Clusterverteilung g entlang der Dimension jth entspricht.
- π g :
- the blend portions of the one or more clusters;
- Σ g:
- the covariance between the one or more clusters is;
- G:
- is the cluster number in the multivariate dataset;
- y (0) / i, j:
- is the inverse cumulative distribution of the p-dimensional variable along the dimension j th ; and
- κ (0) :
- Max (μ g, j ), where μ g, j corresponds to the mean value of the cluster distribution g along the dimension j th .
Ein Durchschnittsfachmann wird verstehen, dass der Umfang der Offenbarung nicht auf das Schätzen des einen oder der mehreren Parameter mithilfe des k-means Clusteralgorithmus beschränkt ist. In einer Ausführungsform kann jede andere Technik wie ein Entscheidungsbaum und Gauß'sches Mischmodell zum Schätzen des einen oder der mehreren Parameter verwendet werden.One of ordinary skill in the art will understand that the scope of the disclosure is not limited to estimating the one or more parameters using the k-means clustering algorithm. In one embodiment, any other technique such as a decision tree and Gaussian mixed model may be used to estimate the one or more parameters.
Bei Schritt
- Γ:
- der Schwellenwert ist;
- zig:
- einer latenten Variabel entspricht; und
- m(t):
- die Summe aller Elemente von S(t) ist.
- Γ:
- the threshold is;
- Zig :
- corresponds to a latent variable; and
- m (t) :
- is the sum of all elements of S (t) .
In einer Ausführungsform entspricht die latente Variabel einer Zwischenvariabel, die nicht aus dem multivariaten Datensatz erhalten wird. In einer Ausführungsform wird die latente Variabel basierend auf dem einen oder den mehreren Parametern bestimmt. Die Bestimmung der latenten Variabel wird in einer Ausführungsform der Offenbarung später beschrieben.In one embodiment, the latent variable corresponds to an intermediate variable that is not obtained from the multivariate dataset. In one embodiment, the latent variable is determined based on the one or more parameters. The determination of the latent variable will be described later in an embodiment of the disclosure.
Bei Schritt
- yij:
- die inverse kumulative Verteilung der p-dimensionalen Variabel entlang der Dimension jth ist; und
- σ (t) / g,jj:
- jth das diagonale Element der Kovarianzmatrix des g-ten Clusters ist.
- y ij :
- is the inverse cumulative distribution of the p-dimensional variable along the dimension j th ; and
- σ (t) / g, jj:
- j th is the diagonal element of the covariance matrix of the gth cluster.
In einer Ausführungsform ist der Schwellenwert Γ ein niedriger Grenzwert für die inverse kumulative Verteilung der p-dimensionalen Variabel. Wenn z. B. der bestimmte Wert der inversen kumulativen Verteilung yij kleiner als der Schwellenwert Γ ist, wird der Schwellenwert Γ als der Wert der inversen kumulativen Verteilung yij ausgewählt.In one embodiment, threshold Γ is a low limit on the inverse cumulative distribution of the p-dimensional variable. If z. For example, if the particular value of the inverse cumulative distribution y ij is smaller than the threshold Γ, the threshold Γ is selected as the value of the inverse cumulative distribution y ij .
Ein Durchschnittsfachmann wird verstehen, dass anfangs, wenn der eine oder die mehreren Parameter mithilfe des k-means Algorithmus geschätzt werden, die inverse kumulative Verteilung basierend auf dem bzw. den anfänglichen einen oder mehreren Parametern bestimmt wird. Außerdem wird basierend auf der anfänglichen Schätzung der inversen kumulativen Verteilung eine anfängliche Wahrscheinlichkeit bestimmt. In einer Ausführungsform entspricht die anfängliche Wahrscheinlichkeit einer Wahrscheinlichkeit, dass der anfängliche eine oder die mehreren Parameter deterministisch für das GCM-Modell sind. In einer Ausführungsform wird die anfängliche Wahrscheinlichkeit mithilfe der folgenden Gleichung bestimmt: One of ordinary skill in the art will understand that initially, when the one or more parameters are estimated using the k-means algorithm, the inverse cumulative distribution is determined based on the initial one or more parameters. In addition, based on the initial estimate of the inverse cumulative distribution, an initial probability is determined. In one embodiment, the initial probability of a probability corresponds to the initial one or more parameters being deterministic for the GCM model. In one embodiment, the initial probability is determined using the following equation:
Bei Schritt
Bei Schritt
Bei Schritt
Bei Schritt
- L(t+1):
- die aktualisierte Wahrscheinlichkeit ist, die durch Verwenden des einen oder der mehreren aktualisierten Parameter bestimmt wurde;
- L(t):
- die Wahrscheinlichkeit ist, die in der vorherigen Iteration bestimmt wurde; und
- ∊:
- der vordefinierte Schwellenwert ist.
- L (t + 1) :
- is the updated probability determined by using the one or more updated parameters;
- L (t) :
- the probability that was determined in the previous iteration; and
- ε:
- is the predefined threshold.
Wenn bei Schritt
Bei Schritt
- uip:
- die kumulative Verteilung der p-dimensionalen Variabel ist;
- C:
- die Kopulafunktion (
von Gleichung 1 repräsentiert) der p-dimensionalen Variabel ist; - fJ(xij):
- die gemeinsame Verteilung der p-dimensionalen Variabel ist;
- υ:
- der Vektor des einen oder der mehreren Parameter ist.
- u ip :
- is the cumulative distribution of the p-dimensional variable;
- C:
- the copula function (represented by Equation 1) is the p-dimensional variable;
- f J (x ij ):
- the common distribution of the p-dimensional variable is;
- υ:
- is the vector of the one or more parameters.
In einer Ausführungsform werden die Schritte
Bei Schritt
- v ^:
- der eine oder die mehreren aktualisierten Parameter ist, die zum Erzeugen des Modells in
Schritt 118 verwendet werden; - L:
- die Wahrscheinlichkeit ist (mithilfe der Gleichung 15), die für den einen oder die mehreren aktualisierten Parameter, die zum Erzeugen des Modells in
Schritt 118 verwendet werden, geschätzt wird; - ρ:
- die Zahl der freien Parameter ist; und
- n:
- die Zahl der Datenwerte oder Ausführungen ist.
- v ^:
- is the one or more updated parameters that are used to generate the model in
step 118 be used; - L:
- the probability is (using Equation 15) that the one or more updated parameters used to generate the model in
Step 118 be used is estimated; - ρ:
- the number of free parameters is; and
- n:
- the number of data values or executions is.
In einer Ausführungsform entsprechen die freien Parameter Parametern, die nicht von dem einen oder den mehreren Parametern oder dem multivariaten Datensatz abhängig sind. Die freien Parameter werden unabhängig bestimmt. In einer Ausführungsform wird die Zahl der freien Parameter für p-dimensionale Daten und G-Cluster mithilfe der folgenden Gleichung bestimmt:
In einer Ausführungsform wird das Modell mit der besten BIC-Punktzahl als das beste Modell ausgewählt. Weiterhin entspricht in einer Ausführungsform die Zahl (aus dem Zahlenbereich), für die das beste Modell erzeugt wird, der Clusterzahl, die in dem multivariaten Datensatz vorliegt. Wenn der Zahlenbereich z. B. 1 bis 3 ist, werden drei Modelle erzeugt, eines für jede Zahl, d. h. 1, 2 und 3. Wenn weiterhin das Modell, das für die Zahl 2 erzeugt wurde, die maximale BIC-Punktzahl besitzt, wird das zweite Modell, das der Zahl 2 entspricht, ausgewählt. Außerdem beträgt in diesem Fall die Clusterzahl, die in dem multivariaten Datensatz vorliegt, zwei.In one embodiment, the model with the best BIC score is selected as the best model. Further, in one embodiment, the number (from the range of numbers) for which the best model is generated corresponds to the cluster number present in the multivariate dataset. If the number range z. 1 to 3, three models are generated, one for each number, i. H. 1, 2, and 3. Also, if the model generated for the
Ein Durchschnittsfachmann wird verstehen, dass die in Schritt
In einer Ausführungsform sind die Modelle, die für jede Zahl in dem Zahlenbereich erzeugt werden, Mischmodelle. In einer Ausführungsform entspricht das Mischmodell einem probalistischen Modell, das einen oder mehrere Cluster in dem multivariaten Datensatz identifizieren kann. Nach der Auswahl des besten Modells wird das beste Modell zum Kategorisieren jedes Datenpunktes (Ausführung der p-dimensionalen Variabel) in dem multivariaten Datensatz in dem einen oder den mehreren Clustern verwendet.In one embodiment, the models generated for each number in the number range are mixed models. In one embodiment, the hybrid model corresponds to a probabilistic model that can identify one or more clusters in the multivariate dataset. After selecting the best model, the best model is used to categorize each data point (execution of the p-dimensional variable) in the multivariate record in the one or more clusters.
In einer Ausführungsform entspricht das in dem Flussdiagramm
Der multivariate Datensatz (durch
Nach der Erzeugung der Mischmodelle für jede Zahl in dem Zahlenbereich wird eine BIC-Punktzahl mithilfe der Gleichung 18 (durch
Der Prozessor
Der Sender-Empfänger
Der Speicher
In einer Ausführungsform kann das in dem Flussdiagramm
Bei Schritt
Ein Durchschnittsfachmann wird verstehen, dass der Umfang der Offenbarung nicht auf die genannten physiologischen Marker beschränkt ist. In einer Ausführungsform können verschiedene andere physiologische Marker verwendet werden.One of ordinary skill in the art will understand that the scope of the disclosure is not limited to the noted physiological markers. In one embodiment, various other physiological markers may be used.
Bei Schritt
Bei Schritt
Bei Schritt
Basierend auf der inversen kumulativen Verteilung der physiologischen Parameter kann eine anfängliche Wahrscheinlichkeit durch Verwenden von Gleichung 10 bestimmt werden.Based on the inverse cumulative distribution of the physiological parameters, an initial probability can be determined by using Equation 10.
Bei Schritt
Bei Schritt
In einer Ausführungsform werden die vorgenannten Schritte für jede Zahl in dem Zahlenbereich wiederholt. In einer Ausführungsform ist die Zahl der erzeugten Modelle gleich der Gesamtzahl, die in dem Zahlenbereich vorliegt. Weiterhin wird bei Schritt
Nach dem Erzeugen der Modelle und der Auswahl des besten Modells, wird das ausgewählte Modell zum Stratifizieren des einen oder der mehreren Patienten in zwei Kategorien verwendet, d. h. in Patienten mit Herzerkrankung und Patienten ohne Herzerkrankung. In einer Ausführungsform kategorisiert das beste Modell die medizinischen Aufzeichnungsdaten in die zwei Kategorien basierend auf den physiologischen Parametern, die in den medizinischen Aufzeichnungsdaten aufgelistet sind.After generating the models and selecting the best model, the selected model is used to stratify the one or more patients into two categories, i. H. in patients with heart disease and patients without heart disease. In one embodiment, the best model categorizes the medical record data into the two categories based on the physiological parameters listed in the medical record data.
Ein Durchschnittsfachmann wird verstehen, dass in einem Szenarium, bei dem neue Daten von dem Benutzer eingegeben werden, das ausgewählte Modell die Daten in entsprechende Cluster basierend auf dem Wert der p-dimensionalen Variabel kategorisieren kann. Wenn z. B. physiologische Parameter neuer Patienten in das System eingegeben werden, kategorisiert das Modell die neuen Patienten in eine der zwei Kategorien (z. B. mit einer Herzerkrankung oder ohne Herzerkrankung).One of ordinary skill in the art will understand that in a scenario where new data is input by the user, the selected model may categorize the data into corresponding clusters based on the value of the p-dimensional variable. If z. For example, when physiological parameters of new patients are entered into the system, the model categorizes the new patients into one of two categories (eg, heart disease or no heart disease).
Ein Durchschnittsfachmann wird verstehen, dass der Umfang der Offenbarung nicht auf das Stratifizieren des einen oder der mehreren Patienten und auf die eine oder die mehreren Kategorien beschränkt ist. In einer Ausführungsform können ähnliche medizinische Daten analysiert werden, um unterschiedliche Rückschlüsse zu ziehen. Zum Beispiel können Versicherungsdaten in Bezug auf das Gesundheitswesen analysiert werden, um Krankenversicherungsbeträge zu bestimmen.One of ordinary skill in the art will understand that the scope of the disclosure is not limited to stratifying the one or more patients and to the one or more categories. In one embodiment, similar medical data may be analyzed to make different conclusions. For example, health insurance data may be analyzed to determine health insurance amounts.
Wenn die Gesundheitsdaten Krankenversicherungsdaten entsprechen, kann die p-dimensionale Variabel in den Krankenversicherungsdaten einem oder mehreren versicherungsbezogenen Parametern wie Alter der versicherten Person, einem oder mehreren physiologischen Parametern der versicherten Person wie Versicherungsprämie, die von der versicherten Person gezahlt wird, Versicherungshöhe und Deckungshöhe entsprechen. Der in dem Flussdiagramm
Die offenbarten Ausführungsformen umfassen zahlreiche Vorteile. Die Schätzung der inversen kumulativen Verteilung der p-dimensionalen Variabel ermöglicht die Verwendung des Erwartungsmaximierungsalgorithmus zum Erzeugen des GCMM. Des Weiteren wird auch die in dem multivariaten Datensatz vorhandene Clusterzahl geschätzt. Auf diese Weise wird das System dynamischer und anpassungsfähiger. Angenommen, das System empfängt einen unbekannten multivariaten Datensatz. Der Benutzer kann einen Zahlenbereich eingeben, von dem er/sie denkt, dass dies die Clusterzahl in dem multivariaten Datensatz sein sollte. Das System erzeugt ein Modell für jede Zahl und aus den so erzeugten Modellen wird ein bestes Modell ausgewählt. Die Zahl aus dem Zahlenbereich, die dem ausgewählten besten Modell entspricht, ist repräsentativ für die Clusterzahl im multivariaten Datensatz. Diese Fähigkeit der Schätzung der Clusterzahl macht das System anpassungsfähig. Weiterhin kann dieses anpassungsfähige System zum Identifizieren von Clustern in jedem multivariaten Datensatz wie gesundheitsbezogenen Daten verwendet werden.The disclosed embodiments include numerous advantages. The estimation of the inverse cumulative distribution of the p-dimensional variable allows the use of the expectation maximization algorithm to generate the GCMM. Furthermore, the number of clusters present in the multivariate dataset is also estimated. In this way, the system becomes more dynamic and adaptable. Suppose the system receives an unknown multivariate dataset. The user may enter a range of numbers that he / she thinks should be the cluster number in the multivariate record. The system generates a model for each number and from the models thus generated, a best model is selected. The number from the range of numbers corresponding to the selected best model is representative of the cluster number in the multivariate dataset. This ability to estimate the cluster number makes the system adaptable. Furthermore, this adaptive system can be used to identify clusters in each multivariate dataset, such as health-related data.
Die offenbarten Verfahren und Systeme, wie in der vorstehenden Beschreibung dargestellt, oder jede beliebige der Komponenten können in Form eines Computersystems ausgeführt werden. Typische Beispiele eines Computersystems schließen einen Allgemeinzweckcomputer, einen programmierten Mikroprozessor, eine Mikrosteuerung, ein peripheres, integriertes Schaltungselement und andere Vorrichtungen und Anordnungen von Vorrichtungen ein, welche die Schritte, die das Verfahren der Offenbarung bilden, implementieren können.The disclosed methods and systems as set forth in the foregoing description or any of the components may be implemented in the form of a computer system. Typical examples of a computer system include a general purpose computer, a programmed microprocessor, a microcontroller, a peripheral integrated circuit element, and other devices and arrangements of devices that may implement the steps that make up the method of the disclosure.
Das Computersystem umfasst einen Computer, eine Eingabevorrichtung, eine Anzeigeeinheit und Internet. Der Computer umfasst ferner einen Mikroprozessor. Der Mikroprozessor ist mit dem Kommunikationsbus verbunden. Der Computer weist auch einen Speicher auf. Der Speicher kann ein Zufallszugriffspeicher (RAM) oder ein Nurlese-Speicher (ROM) sein. Das Computersystem umfasst ferner eine Speichervorrichtung, die ein Festplattenlaufwerk oder ein entfernbares Laufwerk wie ein Floppy-Disk-Laufwerk, optisches Plattenlaufwerk und dergleichen sein kann. Die Speichervorrichtung kann auch ein Mittel zum Laden von Computerprogrammen oder anderen Anweisungen in ein Computersystem sein. Das Computersystem weist auch eine Kommunikationseinheit auf. Die Kommunikationseinheit ermöglicht dem Computer, sich mit anderen Datenbanken zu verbinden und über eine Eingangs-/Ausgangsschnittstelle (I/O) mit dem Internet, wodurch der Transfer sowie der Erhalt von Daten aus anderen Quellen möglich ist. Die Kommunikationseinheit kann ein Modem, eine Ethernetkarte oder andere ähnliche Vorrichtungen einschließen, welche dem Computersystem ermöglichen, sich mit den Datenbanken und Netzwerken wie LAN, MAN, WAN und Internet zu verbinden. Das Computersystem erleichtert die Eingabe von einem Benutzer über die Eingabevorrichtungen, die dem System über eine I/O-Schnittstelle zugänglich sind.The computer system includes a computer, an input device, a display unit, and Internet. The computer further includes a microprocessor. The microprocessor is connected to the communication bus. The computer also has a memory. The memory may be Random Access Memory (RAM) or Read Only Memory (ROM). The computer system further includes a storage device that may be a hard disk drive or a removable drive such as a floppy disk drive, optical disk drive, and the like. The storage device may also be a means for loading computer programs or other instructions into a computer system. The computer system also has a communication unit. The communication unit allows the computer to connect to other databases and to the Internet via an input / output interface (I / O), allowing for transfer as well as receiving data from other sources. The communication unit may include a modem, an Ethernet card, or other similar device that allows the computer system to connect to databases and networks such as LAN, MAN, WAN, and the Internet. The computer system facilitates input from a user via the input devices that are accessible to the system via an I / O interface.
Zum Verarbeiten der Eingabedaten führt das Computersystem einen Satz von Anweisungen aus, die in einem oder mehreren Speicherelementen gespeichert sind. Die Speicherelemente können auch Daten oder andere Informationen halten, wenn gewünscht. Das Speicherelement kann in Form einer Informationsquelle oder eines physischen Speicherelements vorliegen, das in der Verarbeitungsmaschine vorhanden ist.To process the input data, the computer system executes a set of instructions stored in one or more memory elements. The storage elements may also hold data or other information if desired. The storage element may be in the form of an information source or a physical storage element that is present in the processing engine.
Die programmierbaren oder computerlesbaren Anweisungen können verschiedene Befehle einschließen, welche die Verarbeitungsmaschine zum Durchführen spezifischer Aufgaben anweisen, wie die Schritte, die das Verfahren der Offenbarung bilden. Die beschriebenen Systeme und Verfahren können auch unter Verwendung von nur Softwareprogrammierung oder durch Verwenden nur von Hardware oder durch eine variierende Kombination der zwei Techniken implementiert werden. Die Offenbarung ist von der Programmiersprache und dem Betriebssystem abhängig, die von den Computern verwendet werden. Die Anweisungen der Offenbarung können in allen Programmiersprachen geschrieben sein, einschließlich 'C', '++', 'Visual ++' und 'Visual Basic', aber nicht darauf beschränkt. Weiterhin kann die Software in Form einer Sammlung separater Programme, eines Programmmoduls, das ein größeres Programm oder einen Abschnitt eines Programmmoduls enthält, wie in der vorstehenden Beschreibung besprochen, vorliegen. Die Software kann auch eine modulare Programmierung in Form von objektorientierter Programmierung einschließen. Die Verarbeitung von Eingabedaten durch die Verarbeitungsmaschine kann als Reaktion auf Benutzerbefehle, Ergebnisse einer vorherigen Verarbeitung oder aus einer Anfrage, die von einer anderen Verarbeitungsmaschine erzeugt wird, erfolgen. Die Offenbarung kann auch in verschiedenen Betriebssystemen und Plattformen implementiert werden, einschließlich 'Unix', 'DOS', 'Android', 'Symbian' und 'Linux', aber nicht darauf beschränkt.The programmable or computer-readable instructions may include various instructions that instruct the processing engine to perform specific tasks, such as the steps that make up the method of the disclosure. The described systems and methods may also be implemented using only software programming or using only hardware or a varying combination of the two techniques. The disclosure depends on the programming language and the operating system used by the computers. The instructions of the disclosure may be written in all programming languages including, but not limited to, 'C', '++', 'Visual ++' and 'Visual Basic'. Furthermore, the software may be in the form of a collection of separate programs, a program module containing a larger program or portion of a program module, as discussed in the foregoing description. The software may also include modular programming in the form of object-oriented programming. The processing of input data by the processing engine may be in response to user commands, results of previous processing, or a request generated by another processing engine. The disclosure may also be implemented in various operating systems and platforms, including, but not limited to, 'Unix', 'DOS', 'Android', 'Symbian', and 'Linux'.
Die programmierbaren Anweisungen können gespeichert und auf ein computerlesbares Medium übertragen werden. Die Offenbarung kann auch als ein Computerprogrammprodukt, umfassend ein computerlesbares Medium, ausgeführt werden, oder mit jedem Produkt, das die obigen Verfahren und Systeme oder die zahlreichen verschiedenen Variationen davon implementieren kann.The programmable instructions can be stored and transferred to a computer-readable medium. The disclosure may also be embodied as a computer program product comprising a computer-readable medium, or any product that can implement the above methods and systems or the numerous different variations thereof.
Verschiedene Ausführungsformen von Verfahren und Systemen zum Analysieren von Gesundheitsdaten wurden offenbart. Einem Fachmann ist jedoch offensichtlich, dass Änderungen zusätzlich zu den beschriebenen möglich sind, ohne die erfinderischen Konzepte hierin zu verlassen. Die Ausführungsformen sind daher nicht restriktiv, außer im Geist der Offenbarung. Des Weiteren sind beim Auslegen der Offenbarung sämtliche Begriffe im weitesten möglichen Sinne in Bezug auf den Kontext zu verstehen. Insbesondere die Ausdrücke „umfassen” und „umfassend” sind als sich auf Elemente, Komponenten oder Schritte in nicht ausschließlicher Weise beziehend zu verstehen, die anzeigen, dass die bezüglichen Elemente, Komponenten oder Schritte mit anderen Elementen, Komponenten oder Schritten vorliegen oder benutzt oder kombiniert werden können, die nicht ausdrücklich beschrieben sind.Various embodiments of methods and systems for analyzing health data have been disclosed. It will be apparent, however, to one skilled in the art that changes may be made in addition to those described without departing from the inventive concepts herein. The embodiments are therefore not restrictive except in the spirit of the disclosure. Furthermore, when interpreting the disclosure, all terms are to be understood in the broadest possible sense in relation to the context. In particular, the terms "comprising" and "comprising" are to be understood as referring non-exhaustively to elements, components or steps that indicate that the related elements, components or steps are present or used or combined with other elements, components or steps which are not expressly described.
Ein Durchschnittsfachmann wird zu schätzen wissen, dass das System, die Module und Untermodule dargestellt und erklärt wurden, um als Beispiele zu dienen, und diese nicht als in irgendeiner Weise einschränkend auszulegen sind. Man wird ferner zu schätzen wissen, dass die Varianten der oben offenbarten Systemelemente oder Module sowie andere Merkmale und Funktionen oder Alternativen davon zu vielen anderen unterschiedlichen Systemen oder Anwendungen kombiniert werden können.One of ordinary skill in the art will appreciate that the system, modules and sub-modules have been illustrated and explained to serve as examples and are not to be construed as limiting in any way. It will also be appreciated that the variations of the above-disclosed system elements or modules, as well as other features and functions or alternatives thereof, may be combined into many other different systems or applications.
Ein Fachmann wird zu schätzen wissen, dass jeder/s der vorgenannten Schritte und/oder Systemmodule ersetzt, neu geordnet oder entfernt werden können und dass zusätzliche Schritte und/oder Systemmodule aufgenommen werden können, je nach den Anforderungen einer bestimmten Anwendung. Außerdem können die Systeme der vorgenannten Ausführungsformen unter Verwendung eines breiten Bereichs geeigneter Verfahren und Systemmodule implementiert werden und sind nicht auf eine bestimmte Computerhardware, -software, -middleware, -firmware, Mikrocode und dergleichen beschränkt.One skilled in the art will appreciate that any of the foregoing steps and / or system modules may be replaced, rearranged, or removed, and that additional steps and / or system modules may be included, depending on the needs of a particular application. In addition, the systems of the foregoing embodiments may be implemented using a wide range of suitable methods and system modules and are not limited to any particular computer hardware, software, middleware, firmware, microcode, and the like.
Die Ansprüche können Ausführungsformen für Hardware, Software oder einer Kombination daraus umfassen.The claims may include embodiments for hardware, software, or a combination thereof.
Claims (10)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/179,752 US10380497B2 (en) | 2014-02-13 | 2014-02-13 | Methods and systems for analyzing healthcare data |
US14/179,752 | 2014-02-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102015201688A1 true DE102015201688A1 (en) | 2015-08-13 |
Family
ID=52746276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102015201688.9A Pending DE102015201688A1 (en) | 2014-02-13 | 2015-01-30 | METHOD AND SYSTEMS FOR ANALYSIS OF HEALTH DATA |
Country Status (3)
Country | Link |
---|---|
US (1) | US10380497B2 (en) |
DE (1) | DE102015201688A1 (en) |
GB (1) | GB2524639A (en) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10770184B1 (en) * | 2014-12-04 | 2020-09-08 | Cerner Innovation, Inc. | Determining patient condition from unstructured text data |
US20160196394A1 (en) | 2015-01-07 | 2016-07-07 | Amino, Inc. | Entity cohort discovery and entity profiling |
US11955236B2 (en) | 2015-04-20 | 2024-04-09 | Murj, Inc. | Systems and methods for managing patient medical devices |
US10268989B2 (en) * | 2015-04-20 | 2019-04-23 | Murj, Inc. | Medical device data platform |
US10460074B2 (en) * | 2016-04-05 | 2019-10-29 | Conduent Business Services, Llc | Methods and systems for predicting a health condition of a human subject |
US10468136B2 (en) * | 2016-08-29 | 2019-11-05 | Conduent Business Services, Llc | Method and system for data processing to predict health condition of a human subject |
US11081215B2 (en) * | 2017-06-01 | 2021-08-03 | International Business Machines Corporation | Medical record problem list generation |
USD906357S1 (en) | 2018-04-05 | 2020-12-29 | Murj, Inc. | Display screen or portion thereof with graphical user interface for a health management application |
USD905719S1 (en) | 2018-04-05 | 2020-12-22 | Murj, Inc. | Display screen or portion thereof with graphical user interface for a health management application |
CN111383754B (en) * | 2018-12-28 | 2023-08-08 | 医渡云(北京)技术有限公司 | Medical decision method, medical decision device, electronic device, and storage medium |
WO2023128779A1 (en) * | 2021-12-28 | 2023-07-06 | Harman International Industries, Incorporated | Method and system for calibrating a human state sensor |
US11456072B1 (en) | 2022-03-15 | 2022-09-27 | Murj, Inc. | Systems and methods to distribute cardiac device advisory data |
CN116052887B (en) * | 2023-03-01 | 2023-06-27 | 联仁健康医疗大数据科技股份有限公司 | Method and device for detecting excessive inspection, electronic equipment and storage medium |
CN116705337B (en) * | 2023-08-07 | 2023-10-27 | 山东第一医科大学第一附属医院(山东省千佛山医院) | A health data collection and intelligent analysis method |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013012990A1 (en) * | 2011-07-20 | 2013-01-24 | Siemens Corporation | Multi-task learning for bayesian matrix factorization |
-
2014
- 2014-02-13 US US14/179,752 patent/US10380497B2/en active Active
-
2015
- 2015-01-30 DE DE102015201688.9A patent/DE102015201688A1/en active Pending
- 2015-02-06 GB GB1502033.2A patent/GB2524639A/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
US20150227691A1 (en) | 2015-08-13 |
GB201502033D0 (en) | 2015-03-25 |
GB2524639A (en) | 2015-09-30 |
US10380497B2 (en) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102015201688A1 (en) | METHOD AND SYSTEMS FOR ANALYSIS OF HEALTH DATA | |
Guo et al. | A unified framework for group independent component analysis for multi-subject fMRI data | |
DE102015201690A1 (en) | METHOD AND SYSTEMS FOR ANALYZING A FINANCIAL DATA SET | |
Schiratti et al. | A Bayesian mixed-effects model to learn trajectories of changes from repeated manifold-valued observations | |
DE112021000189T5 (en) | Microservice fork strategy from monolithic applications | |
DE112018002822T5 (en) | CLASSIFY NEURONAL NETWORKS | |
DE102018128080A1 (en) | Method and device for quantizing an artificial neural network | |
DE202016004628U1 (en) | Traversing an environment state structure using neural networks | |
DE202017106532U1 (en) | Search for a neural architecture | |
DE202016004627U1 (en) | Training a neural value network | |
DE102013202457A1 (en) | Prediction of the reliability of classifications | |
DE112005000569T5 (en) | System and method for patient identification for clinical examinations using content based acquisition and learning | |
DE102006001780A1 (en) | Method for diagnosis of amylotrophic lateral sclerosis, comprising surface-enhanced desorption-ionisation mass spectrometry of proteins from patients and analysing peak values on an alternating decision tree | |
EP3719811A1 (en) | Consistency of data markings in medical image processing for cell classification | |
DE112021004559T5 (en) | SYSTEM FOR ROBUST PREDICTION OF ERGONOMIC TIME SERIES IN DIALYSIS PATIENT RECORDS | |
DE102021124445A1 (en) | META-FEATURE TRAINING MODELS FOR MACHINE LEARNING ALGORITHMS | |
DE112022000915T5 (en) | CREATE A STATISTICAL MODEL AND EVALUATE MODEL PERFORMANCE | |
DE102020211849A1 (en) | TRAINING A MACHINE LEARNING MODEL USING A BATCH-BASED ACTIVE LEARNING APPROACH | |
DE102017203315A1 (en) | Method and data processing unit for selecting a protocol for a medical imaging examination | |
EP4016543A1 (en) | Method and device for the provision of medical information | |
DE112022001973T5 (en) | PREDICTING MEDICAL EVENTS USING A PERSONALIZED TWO-CHANNEL COMBINATOR NETWORK | |
CN106980753A (en) | A kind of data-driven machine learning method analyzed based on voxel for sacred disease | |
DE112018005891T5 (en) | Library screening for the likelihood of cancer | |
DE102021124256A1 (en) | MOBILE AI | |
DE112021000251T5 (en) | PROCEDURE FOR SELECTING RECORDS TO UPDATE AN ARTIFICIAL INTELLIGENCE MODULE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R082 | Change of representative |
Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE |
|
R081 | Change of applicant/patentee |
Owner name: CONDUENT BUSINESS SERVICES, LLC, FLORHAM PARK, US Free format text: FORMER OWNER: XEROX CORPORATION, NORWALK, CONN., US Owner name: CONDUENT BUSINESS SERVICES, LLC (N.D.GES.D. ST, US Free format text: FORMER OWNER: XEROX CORPORATION, NORWALK, CONN., US |
|
R082 | Change of representative |
Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE |
|
R012 | Request for examination validly filed | ||
R081 | Change of applicant/patentee |
Owner name: SYMPLR SOFTWARE LLC, HOUSTON, US Free format text: FORMER OWNER: CONDUENT BUSINESS SERVICES, LLC (N.D.GES.D. STAATES DELAWARE), DALLAS, TEX., US Owner name: CONDUENT BUSINESS SERVICES, LLC, FLORHAM PARK, US Free format text: FORMER OWNER: CONDUENT BUSINESS SERVICES, LLC (N.D.GES.D. STAATES DELAWARE), DALLAS, TEX., US |
|
R082 | Change of representative |
Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE |
|
R081 | Change of applicant/patentee |
Owner name: SYMPLR SOFTWARE LLC, HOUSTON, US Free format text: FORMER OWNER: CONDUENT BUSINESS SERVICES, LLC, FLORHAM PARK, NJ, US |