DE112018001996T5 - Systeme und verfahren zur modellgestützten kohortenauswahl - Google Patents

Systeme und verfahren zur modellgestützten kohortenauswahl Download PDF

Info

Publication number
DE112018001996T5
DE112018001996T5 DE112018001996.9T DE112018001996T DE112018001996T5 DE 112018001996 T5 DE112018001996 T5 DE 112018001996T5 DE 112018001996 T DE112018001996 T DE 112018001996T DE 112018001996 T5 DE112018001996 T5 DE 112018001996T5
Authority
DE
Germany
Prior art keywords
model
cohort
individual
electronic data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018001996.9T
Other languages
English (en)
Inventor
Benjamin Edward Birnbaum
Joshua Daniel Haimson
Lucy Dao-Ke He
Katharina Nicola Seidl-Rathkopf
Nathan Nussbaum
Monica Nayan Agrawal
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Flatiron Health Inc
Original Assignee
Flatiron Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=62092310&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE112018001996(T5) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Flatiron Health Inc filed Critical Flatiron Health Inc
Publication of DE112018001996T5 publication Critical patent/DE112018001996T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

Es werden Systeme und Verfahren zur Auswahl von Kohorten offenbart. In einer Implementierung beinhaltet ein modellgestütztes Auswahlsystem zur Identifizierung von Kandidaten für die Platzierung in einer Kohorte eine Datenschnittstelle und mindestens eine Verarbeitungsvorrichtung. Die mindestens eine Verarbeitungsvorrichtung ist programmiert, um über die Datenschnittstelle auf eine Datenbank zuzugreifen, aus der Merkmalsvektoren, die einem Individuum aus einer Population von Individuen zugeordnet sind, abgeleitet werden können; für das Individuum einen oder mehrere Merkmalsvektoren aus der Datenbank abzuleiten; einem Modell den einen oder die mehreren Merkmalsvektoren bereitzustellen; eine Ausgabe aus dem Modell zu empfangen; und zu bestimmen, ob das Individuum aus der Population von Individuen ein Kandidat für die Kohorte ist, basierend auf der vom Modell empfangenen Ausgabe.

Description

  • Querverweis auf verwandte Anmeldungen
  • Diese Anmeldung beansprucht die Priorität der am 13. April 2017 eingereichten United States Provisional Application Nr. 62/484,984,984. Die gesamten Inhalte der vorgenannten Anmeldung sind hierin durch Verweis in ihrer Gesamtheit enthalten.
  • HINTERGRUND
  • Technischer Bereich
  • Die vorliegende Offenbarung bezieht sich auf die Auswahl von Kohorten und, genauer gesagt, auf die Verwendung eines oder mehrerer Modelle, um automatisch Kohorten auszuwählen.
  • Hintergrundinformationen
  • Die Auswahl von Kohorten kann zeitaufwändig und teuer sein. In einigen Fällen können Kohorten im medizinischen Bereich zusammengestellt werden, indem die medizinischen Dateien und Aufzeichnungen, die mit verschiedenen Patienten verbunden sind (z.B. medizinische Aufzeichnungen), durch einen so genannten Abstraktionsprozess überprüft werden, um festzustellen, welcher der Patienten ein geeigneter Kandidat für eine bestimmte Kohorte ist. Die Entwicklung einer Kohorte mit einer sinnvollen Anzahl von Individuen kann jedoch eine Überprüfung der Krankenaktenvon Hunderten oder Tausenden (oder mehr) von Patienten erfordern, wobei die Geschichte jedes Patienten Hunderte oder Tausende von Seiten Kliniknotizen, Radiologieberichten, Pathologieberichten, Arzt- oder Krankenschwesterbeobachtungen, strukturierte und unstrukturierte Daten und jede andere Art von Informationen, die in die Krankenakte eines Patienten aufgenommen werden können (z.B. eine elektronische Krankenakte (EMR) oder andere verfügbare Datenquellen (z.B. Anspruchsdaten, patientenbezogene Daten)) umfassen kann. Ein solcher Abstraktionsprozess kann nicht nur erhebliche Zeit in Anspruch nehmen, sondern erfordert derzeit auch oft hochqualifizierte Individuen, die in der Lage sind, in der Anamnese eines Patienten diejenigen Merkmale zu identifizieren, die eine Einordnung eines Individuums in eine bestimmte Kohorte rechtfertigen können. Daher ist es notwendig, nicht nur den Zeitaufwand für die Kohortenauswahl zu reduzieren, sondern auch die mit der Kohortenauswahl verbundenen Kosten zu senken, indem die Abhängigkeit von manueller Abstraktion reduziert wird.
  • ZUSAMMENFASSUNG
  • Ausführungsformen, die mit der vorliegenden Offenbarung übereinstimmen, enthalten Systeme und Verfahren zur Auswahl einer Kohorte mit Hilfe eines oder mehrerer Modelle. Ausführungsformen der vorliegenden Offenbarung können einen oder mehrere Aspekte bestehender Techniken zur Kohortenauswahl überwinden, indem sie regelbasierte, automatisierte Techniken zur Kohortenauswahl bereitstellen. So können die Regeln beispielsweise explizite Regeln umfassen, die Merkmale einer Patientenakte mit einer Wahrscheinlichkeit der Brauchbarkeit für eine bestimmte Kohorte in Beziehung setzen, oder einen Teil eines maschinellen Lernmodells, das die Merkmale in die Wahrscheinlichkeit umwandelt. Die Verwendung von Regeln gemäß den Ausführungsformen der vorliegenden Offenbarung ermöglicht somit eine schnellere und effizientere Auswahl der Kandidaten für eine Kohorte als die Verwendung bestehender Techniken. Darüber hinaus kann die Verwendung von Regeln in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung genauer sein als bestehende Techniken.
  • In einer Ausführungsform beinhaltet ein modellgestütztes Auswahlsystem zur Identifizierung von Kandidaten für die Platzierung in einer Kohorte eine Datenschnittstelle und mindestens eine Verarbeitungsvorrichtung. Die mindestens eine Verarbeitungsvorrichtung kann programmiert werden, um über die Datenschnittstelle auf eine Datenbank zuzugreifen, aus der Merkmalsvektoren, die einem Individuum aus einer Population von Individuen zugeordnet sind, abgeleitet werden können; für das Individuum einen oder mehrere Merkmalsvektoren aus der Datenbank abzuleiten; einem Modell den einen oder die mehreren Merkmalsvektoren bereitzustellen; eine Ausgabe aus dem Modell zu empfangen; und zu bestimmen, ob das Individuum aus der Population von Individuen ein Kandidat für die Kohorte ist, basierend auf der vom Modell empfangenen Ausgabe.
  • In einer Ausführungsform wählt ein Verfahren eine Kohorte aus einer Population von Individuen aus. Das Verfahren beinhaltet das Zugreifen über eine Datenschnittstelle auf eine Datenbank, aus der Merkmalsvektoren, die einem Individuum aus einer Population von Individuen zugeordnet sind, abgeleitet werden können; das Ableiten eines oder mehrerer Merkmalsvektoren aus der Datenbank für das Individuum; das Bereitstellen der einen oder mehreren Merkmalsvektoren für ein Modell; das Empfangen einer Ausgabe aus dem Modell; und das Bestimmen, ob das Individuum aus der Population von Individuen ein Kandidat für die Kohorte ist, basierend auf der vom Modell empfangenen Ausgabe.
  • In Übereinstimmung mit anderen offenbarten Ausführungsformen können nichtflüchtige, computerlesbare Speichermedien Programmanweisungen speichern, die von mindestens einer Verarbeitungsvorrichtung ausgeführt werden und eines der hierin beschriebenen Verfahren ausführen.
  • Figurenliste
  • Die beigefügten Zeichnungen, die in dieser Erläuterung aufgenommen sind und Teil dieser Erläuterung sind, veranschaulichen und erläutern zusammen mit der Beschreibung die Prinzipien verschiedener exemplarischer Ausführungsformen. Zu den Zeichnungen:
    • 1 ist ein Blockdiagramm, das einen zweistufigen Kohortenauswahlfilter gemäß der vorliegenden Offenbarung veranschaulicht.
    • 2A ist ein Blockdiagramm, das ein Rahmenwerk für ein Kohortenauswahlmodell im Einklang mit der vorliegenden Offenbarung darstellt.
    • 2B ist ein Blockdiagramm, das eine maschinelle Lernimplementierung des Rahmenwerks aus 2A veranschaulicht.
    • 3A ist ein Blockdiagramm, das eine exemplarische Technik zur Konstruktion eines Modells aus Suchbegriffen im Einklang mit der vorliegenden Offenbarung veranschaulicht.
    • 3B ist ein Blockdiagramm, das ein Beispiel für die Verarbeitung natürlicher Sprache in unstrukturiertem Text im Einklang mit der vorliegenden Offenbarung darstellt.
    • 4 ist ein Blockdiagramm, das eine exemplarische Systemumgebung für die Implementierung von Ausführungsformen im Einklang mit der vorliegenden Offenbarung darstellt.
    • 5 ist ein Flussdiagramm, das eine exemplarische Methode zur Auswahl einer Kohorte aus einer Population von Individuen im Einklang mit der vorliegenden Offenbarung darstellt.
  • DETAILLIERTE BESCHREIBUNG
  • Die folgende detaillierte Beschreibung bezieht sich auf die beiliegenden Zeichnungen. In den Zeichnungen und der folgenden Beschreibung werden nach Möglichkeit die gleichen Referenznummern verwendet, um auf gleiche oder ähnliche Teile zu verweisen. Während hierin mehrere veranschaulichende Ausführungsformen beschrieben sind, sind Modifikationen, Anpassungen und andere Implementierungen möglich. So können beispielsweise Substitutionen, Ergänzungen oder Änderungen an den in den Zeichnungen dargestellten Komponenten vorgenommen werden, und die hierin beschriebenen exemplarischen Verfahren können durch Ersetzen, Neuordnen, Entfernen oder Hinzufügen von Schritten zu den offenbarten Verfahren geändert werden. Dementsprechend beschränkt sich die nachfolgende detaillierte Beschreibung nicht auf die offenbarten Ausführungsformen und Beispiele. Stattdessen wird der richtige Umfang durch die beigefügten Ansprüche definiert.
  • Die hierin enthaltenen Ausführungsformen umfassen computerimplementierte Verfahren, greifbare, nicht vorübergehende, computerlesbare Medien und Systeme. Die computerimplementierten Verfahren können beispielsweise von mindestens einem Prozessor (z.B. einer Verarbeitungsvorrichtung) ausgeführt werden, der Anweisungen von einem nichtflüchtigen, computerlesbaren Speichermedium erhält. Ebenso können Systeme, die mit der vorliegenden Offenbarung übereinstimmen, mindestens einen Prozessor (z.B. eine Verarbeitungsvorrichtung) und Speicher enthalten, und der Speicher kann ein nichtflüchtiges, computerlesbares Speichermedium sein. Wie hierin verwendet, bezieht sich ein nichtflüchtiges, computerlesbares Speichermedium auf jede Art von physikalischem Speicher, auf dem Informationen oder Daten gespeichert werden können, die von mindestens einem Prozessor gelesen werden können. Beispiele sind Arbeitsspeicher (RAM), Nur-Lese-Speicher (ROM), flüchtiger Speicher, nichtflüchtiger Speicher, Festplatten, CD-ROMs, DVDs, Flash-Laufwerke, Festplatten und alle anderen bekannten physikalischen Speichermedien. Einzelne Begriffe wie „Speicher“ und „computerlesbares Speichermedium“ können sich zusätzlich auf mehrere Strukturen, eine solche Vielzahl von Speichern und/oder computerlesbare Speichermedien beziehen. Wie hierin erwähnt, kann ein „Speicher“ jede Art von computerlesbarem Speichermedium umfassen, sofern nicht anders angegeben. Ein computerlesbares Speichermedium kann Anweisungen zur Ausführung durch mindestens einen Prozessor speichern, einschließlich Anweisungen, um den Prozessor zu veranlassen, Schritte oder Stufen auszuführen, die mit einer Ausführungsform hierin übereinstimmen. Zusätzlich können ein oder mehrere computerlesbare Speichermedien bei der Implementierung eines computerimplementierten Verfahrens verwendet werden. Der Begriff „computerlesbares Speichermedium“ sollte so verstanden werden, dass er greifbare Gegenstände umfasst und Trägerwellen und transiente Signale ausschließt.
  • Ausführungsformen der vorliegenden Offenbarung bieten Systeme und Verfahren zur Analyse von Patientendaten und insbesondere zur Auswahl einer oder mehrerer Kohorten. Ein Benutzer der offenbarten Systeme und Verfahren kann jedes Individuum umfassen, die auf die klinische Erfahrung eines Patienten zugreifen und/oder Patientendaten analysieren möchte. Daher können sich während dieser Offenbarung Verweise auf einen „Benutzer“ der offenbarten Systeme und Verfahren auf ein Individuum beziehen, wie etwa einen Arzt, eine Qualitätssicherungsabteilung einer Gesundheitseinrichtung und/oder den Patienten.
  • 1 veranschaulicht einen exemplarischen zweistufigen Kohortenauswahlfilter 100. Wie in 1 dargestellt, kann der Filter 100 eine Vielzahl von Patienten 110 umfassen, von denen ein Teil für die Aufnahme in eine Kohorte geeignet sein kann. So können beispielsweise die Patienten 110 eine Vielzahl von Brustkrebspatientinnen umfassen, von denen ein Teil metastatisch sein kann, wobei der metastatische Status ein für die Kohortenauswahl relevantes Attribut ist.
  • Die Patienten 110 können durch eine Vielzahl von medizinischen Aufzeichnungen dargestellt werden. So kann beispielsweise jeder Patient durch einen oder mehrere Datensätze repräsentiert werden, die von einem oder mehreren Angehörigen der Gesundheitsberufe oder vom Patienten erstellt wurden. In einem solchen Beispiel kann ein mit dem Patienten verbundener Arzt, eine mit dem Patienten verbundene Krankenschwester, ein mit dem Patienten verbundener Physiotherapeut oder dergleichen jeweils eine Krankenakte für den Patienten erstellen. In einigen Ausführungsformen können ein oder mehrere Datensätze zusammengefasst und/oder in derselben Datenbank gespeichert werden. In anderen Ausführungsformen können ein oder mehrere Datensätze über eine Vielzahl von Datenbanken verteilt sein.
  • In einigen Ausführungsformen kann die Datenbank eine Vielzahl von elektronischen Datenrepräsentationen enthalten. So können beispielsweise die Patientenakten als eine oder mehrere elektronische Dateien gespeichert werden, wie z.B. Textdateien, Dateien im portablen Dokumentenformat (PDF), Dateien mit erweiterbarer Auszeichnungssprache (XML) oder dergleichen. Wenn die Dokumente als PDF-Dateien, Bilder oder andere Dateien ohne Text gespeichert werden, können die elektronischen Datenrepräsentationen auch Text enthalten, der mit den Dokumenten verknüpft ist, die aus einem optischen Zeichenerkennungsverfahren abgeleitet wurden.
  • Wie in 1 weiter dargestellt, werden die Patienten 110 zunächst anhand Modell 120 sortiert. So kann beispielsweise das Modell 120 eine oder mehrere Regeln umfassen, die Merkmale von Patienten 110 basierend auf zugehörigen medizinischen Aufzeichnungen identifizieren und diese Merkmale verwenden, um Patienten 110 in die Gruppe 121 („Nicht in der Kohorte“) und die Gruppe 122 („Vielleicht in der Kohorte“) zu sortieren. Beispiele für das Modell 120 können enthalten, sind aber nicht beschränkt auf, ein oder mehrere Modelle des maschinellen Lernens, wie etwa die in Bezug auf 4 näher beschriebenen Regressionen und neuronalen Netze; eine automatisierte Suche nach spezifischen Phrasen in Kombination mit strukturierten Kriterien (z.B. strukturierte Aufzeichnungen von Arzneimittelverabreichungen), um zu bestimmen, welche Patienten ausgewählt werden sollen; Anwendung von Regeln auf den Ausgang der natürlichen Sprachverarbeitung, um zu bestimmen, welche Patienten ausgewählt werden sollen; oder dergleichen.
  • Die in Gruppe 122 eingeordneten Patienten können durch Bestätigung 130 weiterverarbeitet werden. So kann beispielsweise die Bestätigung 130 ein separates Modell umfassen, mit dem die Gruppe 122 in die Untergruppe 131 („In Kohorte“) und die Untergruppe 132 („Nicht in Kohorte“) sortiert wird. Alternativ kann die Bestätigung 130 auch ein manuelles Sortierverfahren umfassen, das von einem medizinischen Experten durchgeführt wird.
  • Wie vorstehend erläutert, ermöglicht die Verwendung des Modells 120 zur Durchführung einer ersten Sortierung eine signifikante Effizienzsteigerung bei der Kohortenauswahl, zumindest weil die Bestätigung 130 in der Regel ein kostspieliger und zeitaufwendiger Prozess ist und das Modell 120 die Anzahl der Patienten, die die Bestätigung 130 eingeben, reduziert. Die Verwendung automatisierter Regeln und/oder Modelle anstelle manueller, subjektiver Techniken führt jedoch zu neuen technischen Problemen. Beispielsweise erreichen automatisierte Regeln oder Modelle, die übergreifend sind, keine signifikanten Effizienzsteigerungen bei der Bestätigung und verursachen gleichzeitig Vorlaufkosten für die Entwicklung der automatisierten Regeln oder Modelle. Als ein weiteres Beispiel können automatisierte Regeln oder Modelle, die nicht vollständig sind, Verzerrungen mildern, die in manuellen, unterworfenen Techniken enthalten sind. Dementsprechend enthalten die Ausführungsformen der vorliegenden Offenbarung Lösungen für diese technischen Probleme der automatisierten ersten Kohortensortierung.
  • 2A veranschaulicht ein Rahmenwerk 200 für ein Kohortenauswahlmodell. So stellt beispielsweise das Rahmenwerk 200 ein Beispiel für eine Implementierung des Modells 120 des Filters 100 aus 1 dar.
  • Wie in 2A dargestellt, kann das Rahmenwerk 200 als Eingabe benannte Datensätze 210 akzeptieren. So können beispielsweise die Datensätze 210 Daten enthalten, die einer Vielzahl von Patienten zugeordnet sind, so dass jeder Patient einer oder mehreren medizinischen Aufzeichnungen zugeordnet ist und einem Etikett zugeordnet ist. In einem solchen Beispiel kann das Etikett von einem medizinischen Fachmann angebracht worden sein. So kann beispielsweise auf dem Etikett angegeben werden, ob der Patient für die Aufnahme in eine Kohorte geeignet ist (z.B. durch eine oder mehrere in der Kohorte gewünschte Eigenschaften, wie z.B. metastasierter Krebs).
  • Wie weiter in 2A dargestellt, kann das Rahmenwerk 200 beschriftete Datensätze 210 in einen Trainings- oder Abstraktionsprozess 220 eingeben. Der Prozess 220 kann ein oder mehrere Merkmale (z.B. Merkmalsvektoren oder dergleichen) aus den markierten Datensätzen 210 extrahieren, um Korrelationen zwischen einem Satz von Merkmalen zu bestimmen, die von Patienten gemeinsam genutzt werden, die als erste Möglichkeit markiert sind, und einem zweiten Satz von Merkmalen, die von Patienten gemeinsam als zweite Möglichkeit markiert sind. Die Korrelationen müssen nicht perfekt sein - das heißt, ein oder mehrere Merkmale im Merkmalssatz können in die Aufzeichnungen eines oder mehrerer der auf die zweite Weise gekennzeichneten Patienten aufgenommen werden und umgekehrt. Darüber hinaus müssen die Funktionssätze nicht vollständig unter den zugehörigen Patienten geteilt werden - z.B. kann ein Funktionssatz ein oder mehrere Funktionen enthalten, die nur von der Mehrheit der Patienten geteilt werden, die auf die erste Weise gekennzeichnet sind. Die Etiketten können beispielsweise angeben, ob der Patient für eine Kohorte lebensfähig ist.
  • Der Prozess 220 kann daher ein oder mehrere Modelle 230 basierend auf den bestimmten Korrelationen erzeugen. Wie vorstehend erläutert, können die Modelle 230 beispielsweise eine oder mehrere Regeln umfassen, die sich auf Merkmale von wahrscheinlichen Kennzeichnungen beziehen, z.B. basierend auf logistischer Regression, und/oder ein oder mehrere maschinell erlernte Modelle, z.B. ein neuronales Netzwerk, das Merkmalsvektoren auf wahrscheinliche Kennzeichnungen mit zugehörigen Wahrscheinlichkeiten bezieht.
  • Sobald die Modelle 230 konstruiert sind, können nicht beschriftete Datensätze 240 in die Modelle 230 eingegeben werden. So können beispielsweise Aufzeichnungen 240, wie Aufzeichnungen 210, Daten enthalten, die einer Vielzahl von Patienten zugeordnet sind, so dass jeder Patient einer oder mehreren Krankenakten zugeordnet ist. Die Modelle 230 können Merkmale aus unmarkierten Datensätzen 240 extrahieren, um Partituren zu erzeugen, die mit den unmarkierten Datensätzen 240 verknüpft sind. Daher kann jeder Patient eine zugehörige Punktzahl (z.B. 5 von 10, 80 % Wahrscheinlichkeit, 0,8 von 1,0, „wahrscheinlich“ auf einer Skala von „nicht wahrscheinlich“ über „etwas wahrscheinlich“ bis „wahrscheinlich“ bis „sehr wahrscheinlich“ oder dergleichen) aufweisen, die auf eine Wahrscheinlichkeit hinweist, dass der Patient ein geeigneter Kandidat für eine Kohorte ist.
  • 2B veranschaulicht eine Implementierung von maschinellem Lernen 200' des Rahmenwerks 200 aus 2A. Wie in 2B dargestellt, können beschriftete Datensätze 210' zur Merkmalsextraktion 221 eingegeben werden. So können beispielsweise mit 210' gekennzeichnete Datensätze in einer oder mehreren Datenbanken gespeichert werden. Ähnlich wie bei den nicht gekennzeichneten Datensätzen 210 können die nicht gekennzeichneten Datensätze 210' Daten enthalten, die einer Vielzahl von Patienten zugeordnet sind, so dass jeder Patient einer oder mehreren Krankenakten zugeordnet ist.
  • Die Merkmalsextraktion 221 kann Merkmale (wie Schlüsselwörter, Schlüsselwörter oder dergleichen) aus den gekennzeichneten Datensätzen 210' extrahieren und diese Merkmale für ein für die Aufnahme in eine Kohorte relevantes Niveau bewerten. Dementsprechend können in einigen Ausführungsformen die Merkmale als Vektoren dargestellt werden.
  • Ein Teil der durch die Merkmalsextraktion 221 extrahierten Merkmale kann mit entsprechenden Bezeichnungen in den Datensätzen 210' zusammengefasst und als Trainingsdaten 223 gespeichert werden. Die gesammelten Daten 223 können dann durch einen Trainingsalgorithmus 225 platziert werden. So kann beispielsweise der Trainingsalgorithmus 225 eine logistische Regression enthalten, die eine oder mehrere Funktionen (oder Regeln) erzeugt, die extrahierte Merkmale mit bestimmten Bezeichnungen in Beziehung setzen. Zusätzlich oder alternativ kann der Trainingsalgorithmus 225 ein oder mehrere neuronale Netzwerke enthalten, die die Gewichte eines oder mehrerer Knoten so anpassen, dass eine Eingangsschicht von Merkmalen durch eine oder mehrere versteckte Schichten und dann durch eine Ausgangsschicht von Etiketten (mit zugehörigen Wahrscheinlichkeiten) geführt wird. Dementsprechend gibt der Trainingsalgorithmus 225 ein oder mehrere Modelle 230 aus.
  • Der andere Teil der durch die Merkmalsextraktion 221 extrahierten Merkmale kann mit entsprechenden Etiketten der Datensätze 210' zusammengeführt und als Testdaten 240' gespeichert werden. Testdaten 240' können verwendet werden, um ein oder mehrere Modelle 230 zu verfeinern, um Verzerrungen durch Untereinbeziehung oder Fehlalarme durch Übereinbeziehung zu erkennen. Die erfassten Daten 240' können dann über ein oder mehrere Modelle 230 platziert werden. Ein oder mehrere Modelle 230 können Vorhersagen (oder Ergebnisse) erzeugen 250' für die Prüfung von Daten 240'. Die Leistungskennzahlen 260 können verwendet werden, um ein oder mehrere Modelle 230 zu verfeinern, z.B. durch Vergleich der Vorhersagen 250' mit den Bezeichnungen der Testdaten 240'. Wie vorstehend erläutert, können beispielsweise ein oder mehrere Modelle 230 neu geschult (z.B. modifiziert) werden, um Abweichungen zwischen den Etiketten und Vorhersagen zu reduzieren 250'. Die Änderungen können auf einer oder mehreren Verlustfunktionen basieren.
  • 3A veranschaulicht eine exemplarische Technik 300 zur Konstruktion eines Modells aus Suchbegriffen. So kann beispielsweise die Technik 300 verwendet werden, um das Modell 120 aus 1 zu entwickeln.
  • Wie in 3A dargestellt, können für den Einsatz im Modellbau relevante Suchbegriffe 310 ausgewählt werden. So können beispielsweise die Suchbegriffe 310 von medizinischem Fachpersonal ausgewählt werden, das für die manuelle, subjektive Auswahl von Kohorten ausgebildet ist. Dementsprechend können Suchbegriffe 310 in die Snippet-Extraktion 320 eingegeben werden. Durch die Bewertung von Ausschnitten, die relevante Begriffe 310 und nicht nur die relevanten Begriffe umgeben, kann das Modell trainiert werden, um „metastasierend“ von „nicht metastasierend“, „Stufe ii“ von „Stufe iv“ oder dergleichen zu unterscheiden.
  • Nach der Extraktion von Snippets 320 können die Phrasenmerkmale 330 basierend auf den extrahierten Snippets bestimmt werden. In einigen Ausführungsformen können strukturierte Daten, die in Krankenakten enthalten sind, aus denen die Ausschnitte extrahiert wurden, auch mit den Ausschnitten bewertet werden. So können beispielsweise die extrahierten Phrasen sowie alle betrachteten strukturierten Daten in einen multidimensionalen Vektor umgewandelt werden, der eine Punktzahl mit den Phrasen und anderen strukturierten Daten korreliert. Die Punktzahl für jede Phrase und/oder jeden Teil der strukturierten Daten kann eine Größe entlang einer Dimension darstellen, die der entsprechenden Phrase und/oder dem entsprechenden Teil zugeordnet ist. In einigen Ausführungsformen kann der Wert binär sein, so dass das Vorhandensein einer Phrase zu einer Größe von 1 entlang der mit der Phrase verbundenen Dimension führt, während das Fehlen einer Phrase zu einer Größe von 0 entlang der mit der Phrase verbundenen Dimension führt. So kann beispielsweise der Vektor eine Komponentengröße von 1 entlang der „nicht metastatischen“ Dimension aufweisen, wenn die extrahierten Snippets die Phrase „nicht metastatisch“ und eine Komponentengröße von 0 entlang der „metastatischen“ Dimension enthalten, wenn die extrahierten Snippets nur die Phrase „nicht metastatisch“ und nicht die Phrase „metastatisch“ außer dem Modifikator „nicht“ enthalten. In anderen Ausführungsformen kann die Punktzahl nicht-binär sein und beispielsweise eine mit der Phrase verbundene Prävalenz anzeigen. So kann beispielsweise der Vektor eine Komponentengröße von 5 entlang der „metastatischen“ Dimension aufweisen, wenn die extrahierten Snippets fünf Instanzen der Phrase „metastatisch“ enthalten und eine Komponentengröße von 2 entlang der „nicht metastatischen“ Dimension, wenn die extrahierten Snippets nur zwei Instanzen der Phrase „nicht metastatisch“. Die Prävalenz kann ein normiertes Maß an Instanzen darstellen, wie z.B. Gesamtinstanzen pro einer bestimmten Anzahl von Zeichen, eine bestimmte Anzahl von Wörtern, eine bestimmte Anzahl von Sätzen, eine bestimmte Anzahl von Absätzen, eine bestimmte Anzahl von Seiten oder dergleichen.
  • Phrasenmerkmale 330 können in die logistische Regression 340 eingegeben werden, um Werte basierend auf den Phrasenmerkmalen 330 zu bestimmen. Die Ergebnisse können mit der Eignung für die Aufnahme in (und/oder den Ausschluss von) der Kohorte korreliert sein oder anderweitig darauf hinweisen. In einer alternativen Ausführungsform können die Phrasenmerkmale 330 in die logistische Regression 340 eingegeben werden, um die wichtigsten Merkmale (nicht dargestellt) zu bestimmen, die mit der Aufnahme in (und/oder dem Ausschluss von) der Kohorte korreliert sind. Die wichtigsten Merkmale können dann zur Entwicklung eines oder mehrerer Modelle verwendet werden, wie vorstehend in Bezug auf die 2A und 2B erläutert.
  • 3B veranschaulicht eine exemplarische Technik 300' der natürlichen Sprachverarbeitung an unstrukturiertem Text. Beispielsweise kann die Technik 300' in der Technik 300 verwendet werden.
  • Wie in 3B dargestellt, kann unstrukturierter Text 360 beispielsweise Notizen enthalten, die in einer oder mehreren Krankenakten enthalten sind, die mit einem oder mehreren Patienten verbunden sind. Wie hierin verwendet, bezieht sich „unstrukturiert“ auf Text, der nicht in ein oder mehrere standardisierte Formate kategorisiert ist (z.B. ein Datumsformat, ein Namensformat oder dergleichen) und nicht in einem serialisierten oder Markup-Format (wie XML, YAML, JSON oder dergleichen) vorliegt.
  • Unstrukturierter Text 360 kann verwendet werden, um Merkmale 370 zu extrahieren. Wie vorstehend in Bezug auf 3A erläutert, können beispielsweise die Merkmale 370 als Vektoren dargestellt werden und ein Maß für die jeweilige Phrase entlang einer oder mehrerer Dimensionen darstellen. Die Merkmale 370 können Komponentenvektoren einer einzelnen mehrdimensionalen Vektoraufnahmefunktion 370 umfassen.
  • 4 veranschaulicht eine exemplarische Systemumgebung 400 zur Implementierung von Ausführungsformen der vorliegenden Offenbarung, wie etwa das nachfolgend beschriebene Verfahren 500 aus 5. Wie in 4 dargestellt, umfasst die Systemumgebung 400 mehrere Komponenten. Aus dieser Offenbarung ist zu entnehmen, dass die Anzahl und Anordnung dieser Komponenten exemplarisch ist und zur Veranschaulichung zur Verfügung gestellt wird. Andere Anordnungen und Anzahlen von Komponenten können verwendet werden, ohne von den Lehren und Ausführungsformen der vorliegenden Offenbarung abzuweichen.
  • Wie in 4 dargestellt, beinhaltet die exemplarische Systemumgebung 400 ein System 405. Das System 405 kann ein oder mehrere Serversysteme, Datenbanken und/oder Computersysteme enthalten, die konfiguriert sind, um Informationen von Einheiten über ein Netzwerk zu empfangen, die Informationen zu verarbeiten, die Informationen zu speichern und die Informationen anzuzeigen/zu übertragen. So kann das Netzwerk in einigen Ausführungsformen die gemeinsame Nutzung, Speicherung und/oder Verarbeitung in der Cloud erleichtern. In einer Ausführungsform kann das System 405 eine Verarbeitungsmaschine 410 und eine oder mehrere Datenbanken 420 enthalten, die in einem Bereich dargestellt sind, der durch eine gestrichelte Linie für das System 405 in 4 begrenzt ist.
  • In einer Ausführungsform kann das System 405 medizinische Patientendaten zu/von verschiedenen anderen Komponenten senden und/oder empfangen, wie etwa einer oder mehreren Datenquellen 430 und Kundengeräten 440. Die medizinischen Daten können in einer oder mehreren Krankenakten gespeichert werden, wobei jede Krankenakte einem Patienten zugeordnet ist. Insbesondere kann das System 405 konfiguriert werden, um die über ein Netzwerk 450 übertragenen Daten (z.B. Internet, Intranet, WAN, LAN, Mobilfunk, etc.) aus verschiedenen Datenquellen, einschließlich Datenquellen 430, zu empfangen und zu speichern, die empfangenen Daten zu verarbeiten und Suchergebnisse basierend auf der Verarbeitung an Kundengeräte 440 zu übertragen.
  • Die verschiedenen Komponenten der Systemumgebung 400 können eine Anordnung von Hardware, Software und/oder Firmware enthalten, einschließlich eines Speichers, einer Zentraleinheit (CPU) und/oder einer Benutzerschnittstelle. Der Speicher kann jede Art von RAM oder ROM enthalten, die in einem physischen Speichermedium enthalten ist, wie z.B. Magnetspeicher einschließlich Diskette, Festplatte oder Magnetband; Halbleiterspeicher wie Solid-State-Disk (SSD) oder Flash-Speicher; optische Plattenspeicher oder magnetooptische Plattenspeicher. Eine CPU kann einen oder mehrere Prozessoren zur Datenverarbeitung gemäß einer Reihe von programmierbaren Anweisungen oder Software enthalten, die im Speicher gespeichert sind. Die Funktionen jedes Prozessors können von einem einzelnen dedizierten Prozessor oder von einer Vielzahl von Prozessoren bereitgestellt werden. Darüber hinaus können Prozessoren ohne Einschränkung Hardware des digitalen Signalprozessors (DSP) oder jede andere Hardware enthalten, die in der Lage ist, Software auszuführen. Eine optionale Benutzeroberfläche kann jede Art oder Kombination von Ein-/Ausgabevorrichtungen enthalten, wie beispielsweise einen Anzeigemonitor, eine Tastatur und/oder eine Maus.
  • Wie vorstehend beschrieben, kann das System 405 konfiguriert werden, um Patientenakten über ein Netzwerk 450 zu empfangen, ein oder mehrere Modelle auf die empfangenen medizinischen Ergebnisse anzuwenden und den Kundengeräten 440 über das Netzwerk 450 Rentabilitätswahrscheinlichkeiten bereitzustellen. So kann beispielsweise das System 405 Patientenakten von Datenquellen 430 oder an anderer Stelle im Netzwerk 450 empfangen. Die Aufzeichnungen, die dem System 405 aus den Datenquellen 430 (oder anderswo) zur Verfügung gestellt werden, können strukturierte Daten enthalten, wie etwa Geschlecht, Geburtsjahr, Rasse, Besuchsdatum, Praxisart, Versicherungsträger und Startdatum, Arztbesuche, Medikamentenbestellungen, Medikamentenverabreichung, Leistungsstatus der Eastern Cooperative Oncology Group (ECOG), ECOG-Wert), Gewicht, Laborergebnisse usw.; unstrukturierte Daten, wie Diagnosedatum, erstes Aktivitätsdatum, Stadium bei der Diagnose, fortgeschrittenes Diagnosedatum, metastasierendes Diagnosedatum (normalerweise für Krebspatienten), Biomarker-Ergebnisse, Tumorprogression und -ansprechen (normalerweise für Krebspatienten), orale Medikamente und Labordetails zu den Labortests usw.; und abgeleitete Daten, wie Todesdatum, Therapielinien und letztes Aktivitätsdatum, Ergebnisse usw. In einer Ausführungsform können die unstrukturierten Daten durch einen Abstraktionsprozess erfasst werden, während die strukturierten Daten vom Arzt eingegeben oder mit Algorithmen berechnet werden können. In einer Ausführungsform können die Datenquellen 430 medizinische Leistungserbringer (z.B. Ärzte, Krankenhäuser), Labors, Versicherungsgesellschaften und jede andere Quelle von Patientendaten enthalten.
  • Das System 405 kann auch mit den Kundengeräten 440 über das Netzwerk 450 kommunizieren. Beispielsweise können Kundengeräte 430 Abfragen für Patientenakten über das Netzwerk 450 an das System 405 übertragen. In einer Ausführungsform kann eine Abfrage der Aufzeichnungen Patientenmerkmale enthalten, wie etwa Patientenkennung (ID), Biomarker-Status, Stadium, Wirkstoff/Linien-Kombination, Therapielinien, Altersbereich bei fortgeschrittener Diagnose, Datum der fortgeschrittenen Diagnose, ein Indikator, aus dem die Testprobe stammt, Details zur tatsächlichen Mutation des Epidermal Growth Factor Receptor (EGFR), einen Indikator, aus dem das Testgewebe entnommen wurde (bei Krebstests), Art des Tests, Belastungsintensität, wenn metastasiert und wenn verbreitet (bei Krebspatienten), etc. Das System 405 kann die Datenbank 420 abfragen, um einen oder mehrere Patienten zu identifizieren, die den Abfrageparametern entsprechen, und die mit dem/den übereinstimmenden Patienten verbundenen medizinischen Aufzeichnungen über das Netzwerk 450 an die Kundengeräte 440 übertragen.
  • In Übereinstimmung mit bestimmten Ausführungsformen kann das System 405 eine oder mehrere Verarbeitungsmaschinen 410 enthalten, die konfiguriert werden können, um medizinische Aufzeichnungen über das Netzwerk 450 zu und von den Datenquellen 430 und den Kundengeräten 440 zu übertragen. In einer Ausführungsform kann jede Verarbeitungsmaschine 410 Datensätze, die von Datenquellen 430 und Kundengeräten 440 empfangen wurden, in einer oder mehreren Datenbanken 420 speichern. Die Datenbanken 420 können jede geeignete Kombination von großformatigen Datenspeichervorrichtungen sein, die optional jede Art oder Kombination von Slave-Datenbanken, Load Balancern, Dummy-Servern, Firewalls, Backup-Datenbanken und/oder anderen gewünschten Datenbankkomponenten enthalten können. Jede Verarbeitungsmaschine 410 kann auch auf die in den Datenbanken 420 gespeicherten Daten zugreifen, um Anfragen von Kundengeräten 440 zu verarbeiten. So kann beispielsweise die Verarbeitungsmaschine 410 auf die von den Datenquellen 430 empfangenen Patientendaten (z.B. Patientenakten) aus den Datenbanken 420 zugreifen und eine Benutzeroberfläche generieren, die die Patientendaten (z.B. auf einer Zeitachse) in einem standardisierten Format visualisiert. Die Verarbeitungsmaschine 410 kann die erzeugte Benutzeroberfläche an das Kundengerät 440 zur Visualisierung einer oder mehrerer Patientendaten übertragen.
  • Wie vorstehend behandelt, kann das System 400 Daten austauschen, und dieser Austausch kann über eine Datenschnittstelle erfolgen. Wie hierin verwendet, kann eine Datenschnittstelle jede Grenze enthalten, über die zwei oder mehr Komponenten des Systems 400 Daten austauschen. So kann beispielsweise das System 400 Daten zwischen Software, Hardware, Datenbanken, Geräten, Menschen oder einer beliebigen Kombination der vorgenannten Verfahren austauschen. Darüber hinaus wird darauf hingewiesen, dass jede geeignete Konfiguration von Software, Prozessoren, Datenspeichern und Netzwerken ausgewählt werden kann, um die Komponenten der Systemumgebung 400 und die Funktionen der zugehörigen Ausführungsformen zu implementieren.
  • In einigen Ausführungsformen kann das System 405 eine oder mehrere Kohorten auswählen. Wie hierin verwendet, kann eine Kohorte jede Gruppierung von Daten (Individuen, Artikel, Objekte usw.) enthalten, die mindestens ein gemeinsames Merkmal aufweisen oder Attribute aufweisen, die einem vordefinierten Satz von Kriterien entsprechen. In einigen Ausführungsformen kann eine Kohorte Individuen enthalten, die aus medizinischer Sicht mindestens ein gemeinsames Merkmal aufweisen (z.B. demografische oder klinische Merkmale). Ein Individuum kann jedes Mitglied einer oder mehrerer Gruppen (z.B. Objekte, Individuen, Gegenstände usw.) umfassen. So können beispielsweise Individuen aus einer Population, bei denen eine bestimmte Art von Krankheit festgestellt wurde, oder insbesondere bestimmte Merkmale, die mit dieser Krankheit verbunden sind (z.B. Brustkrebs im Stadium IV), identifiziert und in eine gemeinsame Kohorte eingebracht werden. Kohorten können für verschiedene Zwecke zusammengestellt werden. In einigen Fällen können Kohorten zu Gruppen zusammengesetzt werden, die dazu dienen, die Eigenschaften bestimmter Krankheiten zu analysieren, wie z.B. ihre Epidemiologie, Behandlungsansätze, wie Ergebnisse wie Mortalität oder Fortschreiten der Erkrankung von bestimmten Variablen oder dergleichen abhängen.
  • Wie vorstehend behandelt, kann die Auswahl der Kohorten aus verschiedenen Gründen zeitaufwendig und teuer sein. So kann beispielsweise ein Abstraktionsprozess zur Auswahl von Kohorten erhebliche Zeit in Anspruch nehmen und erfordert oft hochqualifizierte Individuen, die in der Lage sind, in der Anamnese eines Patienten diejenigen Merkmale zu identifizieren, die eine Einordnung einem Individuum in eine bestimmte Kohorte rechtfertigen können. Darüber hinaus erfordert eine effektive Abstraktion hochqualifizierte Abstraktoren, die ein gutes Urteilsvermögen bei der Kohortenauswahl ausüben können. Dieser subjektive Prozess lässt sich nicht einfach mit einem Universalcomputer automatisieren. Während es wünschenswert sein kann, dass ein System zur automatischen Identifizierung von Individuen für eine Kohorte die gleichen oder fast dieselben Individuen aus einer bestimmten Population als Abstraktor identifizieren würde, hängt die automatische Auswahl von Individuen von speziell entwickelten technischen Fähigkeiten ab, die entwickelt wurden, um dieses Ergebnis zu erzeugen. Andererseits kann die automatische Kohortenauswahl im Vergleich zu einem manuellen Prozess die Qualität der Kohorte in Bezug auf den beabsichtigten Einsatz der Kohorte verbessern, da es weniger Fehlalarme oder Fehlalarme aufgrund menschlicher Fehler geben kann.
  • Während die automatische Kohortenauswahl auf verschiedene Weise durchgeführt werden kann, kann in einigen Ausführungsformen eine solche Kohortenauswahl unter Verwendung eines Modells erfolgen. Wie hierin verwendet, kann sich ein Modell auf ein regelbasiertes Modell (z.B. ein Modell, das auf der Übereinstimmung einer Reihe von Suchbegriffen, regulären Ausdrücken basiert) oder ein trainiertes Modell (z.B. ein überwachtes maschinelles Lernsystem) beziehen).
  • Ein trainiertes Modell (z.B. ein überwachtes maschinelles Lernsystem) kann ein Rahmenwerk verwenden, das auf einem Satz von Datenetiketten basiert, und kann trainiert werden, um Ergebnisse zu erzeugen, die mit diesem Satz von Etiketten übereinstimmen. In einigen Fällen kann das trainierte Modell mit einer Reihe von Eingaben versehen werden (z.B. einem oder mehreren Merkmalsvektoren, die aus Patientenakten abgeleitet sind, die als Teil des Verfahrens zum Trainieren des Modells erzeugt werden können) und als Ausgabe ein Ergebnis oder ein Vertrauensniveau erzeugen, das verwendet werden kann, um zu bestimmen, ob ein bestimmtes Individuum von einer Kohorte ausgeschlossen werden kann oder ob das Individuum ein geeigneter Kandidat für die Kohorte sein kann (z.B. basierend auf einem Vergleich der Ausgabe mit einem vorbestimmten Schwellenwert).
  • Das Auswahlmodell kann beliebige geeignete maschinelle Lernalgorithmen verwenden. In einigen Ausführungsformen kann ein logistisches Regressionsmodell verwendet werden. Es können auch andere Arten von Techniken des maschinellen Lernens verwendet werden, entweder in Kombination mit oder getrennt von der logistischen Regressionstechnik.
  • Wie bereits erwähnt, können die offenbarten Systeme und Verfahren eine oder mehrere Kohorten über ein regelbasiertes Modell auswählen (z.B. ein Modell, das auf einer Übereinstimmung mit einem Satz von Suchbegriffen basiert). So kann beispielsweise ein regelbasiertes Modell Daten empfangen und Ausgaben erzeugen, indem es mindestens einen Teil der empfangenen Daten an einen vordefinierten Satz von Suchbegriffen anpasst.
  • Das Training des Modells kann die Verwendung eines markierten Datensatzes enthalten, für den bereits ein gewünschtes Ergebnis bekannt ist. Diese Daten können als „Referenzstandard“ bezeichnet werden und können beispielsweise durch einen Abstraktionsprozess erzeugt werden, bei dem alle Individuen einer bestimmten Population in Bezug auf eine oder mehrere Kohorten überprüft werden und jedes Individuum einer geeigneten Kohorte zugeordnet wird. Als nächstes kann ein bestimmter Prozentsatz der Referenz-Standarddaten (z.B. 50 %, 60 %, 70 %, etc.) für das Training des Modells verwendet werden. Das heißt, das Trainingssegment kann analysiert werden (z.B. mit Hilfe der natürlichen Sprachverarbeitung), so dass Merkmalsvektoren für jeden Einzelnen im Trainingssegment extrahiert werden. Diese Merkmalsvektoren können dem Modell zusammen mit Informationen über das gewünschte Ergebnis zur Verfügung gestellt werden (z.B. ob ein bestimmtes Individuum für eine bestimmte Kohorte bestimmt werden soll). Durch die Einwirkung vieler solcher Instanzen kann das Modell „lernen“ und Ergebnisse liefern, die identisch oder nahe an den im Abstraktionsprozess getroffenen Selektionen sind.
  • Der Rest der Referenznorm-Daten kann verwendet werden, um das trainierte Modell zu testen und seine Leistung zu bewerten. So können beispielsweise für jedes Individuum im Rest der Referenznorm-Daten Merkmalsvektoren aus den mit diesem Individuum verknüpften Krankenakten extrahiert werden. Diese Merkmalsvektoren können dem Modell zur Verfügung gestellt werden, und die Ausgabe des Modells für dieses Individuum (und in der Tat für jedes Individuum in den verbleibenden Referenznorm-Daten) kann mit dem bekannten Ergebnis für dieses Individuum verglichen werden. Wenn Abweichungen zwischen der Modellausgabe und den bekannten Ergebnissen für ein Individuum festgestellt werden, können die Abweichungen zur Aktualisierung des Modells verwendet werden (z.B. Umschulung des Modells). So können beispielsweise eine oder mehrere Funktionen des Modells hinzugefügt, entfernt oder geändert werden, z.B. kann eine quadratische Funktion in eine kubische Funktion, eine exponentielle Funktion in eine Polynomfunktion oder dergleichen geändert werden. Dementsprechend können die Abweichungen dazu verwendet werden, Entscheidungen zu treffen, um zu ändern, wie die in das Modell eingegebenen Merkmale aufgebaut sind oder welche Art von Modell verwendet wird. Liegt der Abweichungsgrad innerhalb einer gewünschten Grenze (z.B. 10 %, 5 % oder weniger), so kann das Modell als geeignet erachtet werden, mit einem Datensatz zu arbeiten, für den keine früheren Kohortenauswahlen getroffen wurden. Alternativ können in einigen Ausführungsformen eine oder mehrere Gewichte der Regression (oder, wenn das Modell ein neuronales Netzwerk umfasst, eine oder mehrere Gewichte der Knoten) angepasst werden, um die Abweichungen zu reduzieren.
  • Obwohl vorstehend mit Abweichungen beschrieben, können eine oder mehrere Verlustfunktionen verwendet werden, um die Genauigkeit des Modells zu messen. So können beispielsweise eine Quadratverlustfunktion, eine Scharnierverlustfunktion, eine logistische Verlustfunktion, eine Kreuzentropiefunktion oder eine andere Verlustfunktion verwendet werden. In solchen Ausführungsformen können die Aktualisierungen des Modells konfiguriert werden, um die eine oder mehrere Verlustfunktionen zu reduzieren (oder sogar zu minimieren, zumindest lokal).
  • Bei der Analyse eines neuen Datensatzes (z.B. Patientenakten) können verschiedene Techniken verwendet werden, um Merkmalsvektoren für das Modell bereitzustellen (z.B. Techniken der natürlichen Sprachverarbeitung). In einigen Fällen können unstrukturierte Dokumente, die mit der Krankenakte eines Patienten (z.B. einer EMR) oder in anderen verfügbaren Datenquellen (z.B. Schadensfalldaten, patientenbezogene Daten) verknüpft sind, auf das Vorhandensein verschiedener Wörter oder Phrasen analysiert werden, die mit einer bestimmten Kohorte verknüpft sein können. So können beispielsweise einige oder ein Teil der Dokumente der medizinischen Unterlagen eines Patienten elektronisch verfügbar sein. Alternativ kann der in den Aufzeichnungen getippte, handschriftliche oder gedruckte Text in maschinencodierten Text umgewandelt werden (z.B. durch optische Zeichenerkennung (OCR)), und der elektronische Text kann nach bestimmten Schlüsselwörtern oder Phrasen durchsucht werden, die einer bestimmten Kohorte zugeordnet sind. Wenn solche Wörter oder Phrasen (z.B. „Brustkrebs“, „Metastasen“ usw.) in den Aufzeichnungen identifiziert werden, kann ein Textausschnitt in der Nähe des identifizierten Wortes oder Textes getestet werden, um zusätzliche Informationen über den Kontext des Wortes oder der Phrase zu erhalten. So kann beispielsweise „kein Nachweis einer metastatischen Aktivität“ eine wesentlich andere Bedeutung haben als „Stadium IV; metastatisch“. Durch die Analyse des Textausschnitts um Wörter oder interessante Phrasen herum können ein oder mehrere Merkmale extrahiert werden, die einen Merkmalsvektor bilden, der als Input für das trainierte Auswahlmodell bereitgestellt werden kann. Diese Merkmale aus den unstrukturierten Dokumenten können mit Merkmalen aus strukturierten Daten kombiniert werden, die mit der Krankenakte des Patienten oder anderen verfügbaren Datenquellen (z.B. Schadensfalldaten, vom Patienten gemeldete Daten) verknüpft sind.
  • Die Analyse von Textausschnitten kann eine Modellgenerierung ermöglichen, die wesentlich effizienter und zeitsparender ist als die Analyse jedes Wortes/Phrase, das in der Krankengeschichte eines Patienten enthalten ist, zusammen mit dem Kontext der enthaltenen Wörter/Phrasen. Beispielsweise kann die Anzahl der Dimensionen stark reduziert werden, indem Ausschnitte aus relevanten Suchbegriffen verwendet werden, anstatt die Anzahl der Dimensionen so zu erweitern, dass sie alle Wörter, Phrasen und strukturierten Daten innerhalb der Krankengeschichte eines Patienten umfasst. Neben der Effizienzsteigerung kann diese Dimensionalitätsreduktion die Genauigkeit des generierten Modells weiter verbessern, indem sie eine Überanpassung, die tendenziell auftritt, wenn zu viele abhängige Variablen berücksichtigt werden, einfach verhindert. Dementsprechend kann die Analyse von Textausschnitten zu leistungsfähigeren Modellen führen, da solche Analysen eher zu Vorhersagen führen, die zu neuen Datensätzen mit weniger Fehlern führen. Dementsprechend können menschliche Erkenntnisse oder Fachkenntnisse dazu beitragen, den Prozess der Merkmalsextraktion zu leiten, um nützlichere Merkmale zu finden, als wenn der Prozess alle Wörter über alle Datensätze hinweg untersucht.
  • Es kann auch ein System für die automatische Kohortenauswahl entwickelt werden, um potenzielle negative Auswirkungen der Durchführung von Kohortenauswahlen, die entweder unter- oder überinklusiv sind, abzuschwächen. Die Übereinbeziehung von Individuen in eine bestimmte Kohorte kann die Wirksamkeit der Kohorte als analytisches oder qualitatives Bewertungsinstrument verringern, da die Kohorte eine oder mehrere Individuen umfassen kann, die nicht das gewünschte Merkmal oder Merkmal aufweisen, das mit einer bestimmten Kohorte verbunden ist. So können beispielsweise die Analysen eines Endverbrauchers, die darauf abzielen, die Auswirkungen von Behandlungsprotokollen usw. auf die Individuen in der Kohorte zu überwachen, weniger nützlich sein, wenn einigen Mitgliedern der Kohorte die Eigenschaft oder das Merkmal fehlt, auf das das Behandlungsprotokoll ausgerichtet ist. Eine Untereinbeziehung kann dazu führen, dass zu wenige Individuen in der Kohorte eine aussagekräftige Stichprobe bilden. Unterintegration, insbesondere wenn sie auf einem systematischen Ausschluss von Individuen beruht, kann auch Verzerrungen in die Kohorte einbringen, die die Kohorte als analytisches Werkzeug weniger nützlich machen können.
  • Das beschriebene modellgestützte Kohortenauswahlsystem kann ein oder mehrere Werkzeuge enthalten, um die Auswirkungen von Kohortenverzerrungen zu reduzieren oder zu beseitigen. So kann beispielsweise in einigen Fällen das Modell periodisch neu geschult werden, wenn neu verfügbare Referenzdatensätze verfügbar werden. Eine Umschulung kann in jedem geeigneten Zeitintervall (z.B. täglich, wöchentlich, monatlich, etc.) erfolgen. Eine solche Umschulung kann die Flexibilität des Modells erhöhen und das Modell weniger anfällig dafür machen, Individuen aus einer Kohorte auszulassen, der sie ansonsten angehören würden, wenn sich ändert, wie Informationen über das Individuum in einem zugehörigen Datensatz dargestellt werden (z.B. eine Terminologieänderung usw.). In anderen Ausführungsformen kann die Umschulung auf neuen oder aktualisierten Referenznorm-Daten basieren, sobald diese verfügbar werden (z.B. durch den Abstraktionsprozess). Die regelmäßige und maßstabsgetreue Durchführung solcher Aktualisierungen kann dem Modell helfen, sich kontinuierlich an Veränderungen der zugrunde liegenden Daten anzupassen und zu entwickeln.
  • Zusätzlich kann die Leistung des modellgestützten Kohortenauswahlsystems kontinuierlich auf ein gewünschtes Maß an Effektivität und/oder Genauigkeit getestet werden. So kann beispielsweise eine zufällige Menge von Individuen, die aus einer bestimmten Kohorte ausgeschlossen sind, durch Abstraktion verarbeitet werden, um die Genauigkeit der Ausgabe des modellgestützten Systems zu überprüfen. Ein solcher Prozess kann es ermöglichen, zu überwachen, ob Individuen systematisch von einer Kohorte ausgeschlossen werden - etwas, das zu einer unerwünschten Verzerrung der Kohorte führen kann, wie vorstehend erläutert.
  • Das System kann auch ein oder mehrere Werkzeuge enthalten, die dazu bestimmt sind, die Qualität der Kohorte zu quantifizieren, so dass ein Mensch oder eine Maschine Verzerrungen besser erkennen kann, was wiederum die Qualität der Kohorte beeinflusst (z.B. als Analyse- oder Qualitätsbewertungsinstrument). So kann das System beispielsweise ein oder mehrere Kennzahlen der Kohortenqualität an eine grafische Benutzeroberfläche (oder an eine andere geeignete Ausgabeplattform) ausgeben.
  • Das Systemverhalten und die Systemleistung können anhand verschiedener Kennzahlen überwacht werden. In einigen Fällen kann die Empfindlichkeit des trainierten Systems überwacht werden, um festzustellen, ob das System alle oder im Wesentlichen alle Individuen einer bestimmten Population erfasst, die in eine bestimmte Kohorte einbezogen werden sollten. Zusätzlich oder alternativ kann die Effizienz des Systems überwacht werden, um eine erreichte Verringerung (z.B. eine prozentuale Verringerung) der Anzahl der Individuen zu bestimmen, die für einen Entnahmeprozess erforderlich sind. In einigen Ausführungsformen kann das trainierte Modell eine Sensitivitätsstufe von 95 % oder höher aufweisen, was bedeutet, dass weniger als 5 % der Individuen aus einer bestimmten Population, die in eine bestimmte Kohorte aufgenommen werden sollten, nicht in die Kohorte aufgenommen werden. In einigen Fällen kann das trainierte System Wirkungsgrade von 50 % oder mehr aufweisen, was bedeutet, dass die Hälfte oder weniger einer bestimmten Population nach dem Betrieb des modellgestützten Kohortenauswählers eine Abstraktion erfordern würde. Solche Effizienzsteigerungen können realisiert werden, wenn das modellgestützte System ein Konfidenzniveau oder einen hohen Wert erzeugt, der es bestimmten Individuen ermöglicht, zu dem Schluss zu kommen, dass diese Individuen nicht zu einer bestimmten Kohorte gehören. In solchen Fällen ist eine Abstraktion für diese Individuen möglicherweise nicht erforderlich. Für die verbleibenden Individuen in einer Population, die nicht durch den modellgestützten Auwählers ausgeschlossen sind, kann durch Abstraktion überprüft werden, ob die Aufnahme dieser Individuen in die Kohorte angemessen ist.
  • Die Auswahlkriterien des Modells können variiert werden, um die gewünschte Selektivität und/oder den gewünschten Wirkungsgrad zu erreichen. Wenn beispielsweise die Auswahlkriterien weniger streng sind, können durch das modellgestützte System weniger Individuen in einer bestimmten Population von der Kohorte ausgeschlossen und mehr Kohortenkandidaten identifiziert werden. In diesem Fall kann die Sensitivität steigen, da durch die automatische Auswahl weniger Individuen, die in die Kohorte aufgenommen werden sollen, aus der Kohorte verloren gehen würden. In solchen Fällen kann jedoch die Effizienz der Abstraktionsverringerung sinken, da mehr Individuen durch einen Abstraktionsprozess gehen müssen, um ihre Platzierung in der Kohorte zu bestätigen. Andererseits, wenn die Auswahlkriterien verschärft werden, könnten potenziell mehr Individuen als ungeeignet für die Kohorte identifiziert werden. In solchen Fällen kann die Abstraktionseffizienz steigen, da nur wenige Individuen benötigt werden, um einen Abstraktionsprozess durchzuführen. Strengere Auswahlkriterien können jedoch zu einer Verringerung der Sensitivität führen, so dass die Kohorte letztlich unterdurchschnittlich sein kann.
  • 5 veranschaulicht ein exemplarisches Verfahren 500 zur Auswahl einer Kohorte aus einer Population von Individuen. Das Verfahren 500 kann beispielsweise durch die Verarbeitungsmaschine 410 des Systems 400 aus 4 implementiert werden. Die Verarbeitungsmaschine 410 kann mindestens eine Verarbeitungsvorrichtung umfassen, wie etwa einen oder mehrere generische Prozessoren, wie z.B. eine Zentraleinheit (CPU), eine Grafikverarbeitungseinheit (GPU) oder dergleichen und/oder einen oder mehrere spezialisierte Prozessoren, wie z.B. eine anwendungsspezifische integrierte Schaltung (ASIC), eine feldprogrammierbare Gateanordnung (FPGA) oder dergleichen.
  • Bei Schritt 510 kann die mindestens eine Verarbeitungsvorrichtung über eine Datenschnittstelle auf eine Datenbank zugreifen, aus der Merkmalsvektoren abgeleitet werden können, die einem Individuum aus einer Gruppe von Individuen zugeordnet sind. So kann beispielsweise die Datenbank eine Vielzahl von Krankenakten enthalten, wobei jeder Datensatz einem Patienten zugeordnet ist. Die Vielzahl der Patienten kann das Individuum einschließen. Einige Patienten können eine einzelne Aufzeichnung enthalten, während andere viele eine Vielzahl von Aufzeichnungen enthalten.
  • Wie vorstehend in Bezug auf 1 erläutert, kann die Datenbank in einigen Ausführungsformen eine Vielzahl von elektronischen Datenrepräsentationen enthalten. Zum Beispiel eine oder mehrere elektronische Dateien, wie etwa Textdateien, Bilddateien, PDF-Dateien, XLM-Dateien, YAML-Dateien oder dergleichen. In solchen Ausführungsformen kann die mindestens eine Verarbeitungsvorrichtung die Vielzahl der elektronischen Datenrepräsentationen über die Datenschnittstelle hochladen. In einem Beispiel, wie vorstehend erläutert, können die elektronischen Datenrepräsentationen elektronische Repräsentationen von Dokumenten aus einer elektronischen Krankenakte enthalten, die dem Individuum zugeordnet sind. Zusätzlich oder alternativ können die elektronischen Datenrepräsentationen mindestens einen Text enthalten, der zuvor einem optischen Zeichenerkennungsverfahren unterzogen wurde. Die Vielzahl der elektronischen Datenrepräsentationen kann sowohl strukturierte Daten als auch unstrukturierte Daten enthalten. Wie vorstehend erläutert, können „strukturierte Daten“ einem oder mehreren standardisierten Formaten entsprechen (z.B. einem Datumsformat, einem Namensformat oder dergleichen) und/oder in einem serialisierten oder markierten Format gespeichert werden, das Etiketten oder andere Indikatoren enthält, die mit Teilen der Daten verbunden sind.
  • In Ausführungsformen, in denen die Datenbank die Vielzahl der elektronischen Datenrepräsentationen beinhaltet, kann die Vielzahl der elektronischen Datenrepräsentationen aus mindestens einer elektronischen Krankenakte (z.B. aus einem Krankenhaus, einer Arztpraxis, einem Ambulatorium oder dergleichen), einer verfügbaren Datenquelle, Anspruchsdaten (z.B. von einer Versicherungsgesellschaft) oder patientenberichteten Daten, die dem mindestens einen Individuum zugeordnet sind, abgeleitet werden.
  • Bei Schritt 520 kann die mindestens eine Verarbeitungsvorrichtung für die einzelnen Merkmale einen oder mehrere Merkmalsvektoren aus der Datenbank ableiten. Wie vorstehend in Bezug auf die und erläutert, können beispielsweise ein oder mehrere Merkmalsvektoren aus den Krankenakten mit einem oder mehreren relevanten Suchbegriffen extrahiert werden. Die Snippet-Extraktion kann in Kombination mit den entsprechenden Suchbegriffen verwendet werden, um die Merkmalsvektoren zu extrahieren.
  • In Ausführungsformen, in denen die Datenbank eine Vielzahl von elektronischen Datenrepräsentationen beinhaltet, kann die mindestens eine Verarbeitungsvorrichtung unter Verwendung der Vielzahl von elektronischen Datenrepräsentationen die einen oder mehreren Merkmalsvektoren erzeugen. Zusätzlich oder alternativ kann die mindestens eine Verarbeitungsvorrichtung den einen oder die mehreren Merkmalsvektoren erzeugen, indem sie die Vielzahl der elektronischen Datenrepräsentationen nach dem Vorhandensein von mindestens einem Begriff oder einer Phrase durchsucht, die als der Kohorte zugeordnet vorgegeben ist. Nachdem der mindestens eine Begriff oder die Phrase als in der Vielzahl der elektronischen Datenrepräsentationen vorhanden identifiziert wurde, kann die mindestens eine Verarbeitungsvorrichtung eine Textgruppierung aus der Vielzahl der elektronischen Datenrepräsentationen extrahieren. Die Textgruppierung kann ein oder mehrere Wörter enthalten, die sich in der Nähe des identifizierten Begriffs oder der Phrase befinden. Die mindestens eine Verarbeitungsvorrichtung kann die einen oder mehreren Merkmalsvektoren basierend auf der Analyse des identifizierten Begriffs oder der identifizierten Phrase zusammen mit der Analyse der extrahierten Textgruppierung erzeugen.
  • Bei Schritt 530 kann die mindestens eine Verarbeitungsvorrichtung einem Modell einen oder mehrere Merkmalsvektoren bereitstellen. So kann beispielsweise das Modell wie vorstehend beschrieben in Bezug auf die 2A und 2B konstruiert worden sein.
  • In einigen Ausführungsformen kann das Modell ein trainiertes maschinelles Lernmodell enthalten. In solchen Ausführungsformen kann das Modell des maschinellen Lernens auf der Grundlage einer Reihe von strukturierten Informationen trainiert worden sein, die von einer Kombination aus Mensch und Maschine aus unstrukturierten Informationen, einschließlich einer Krankenakte, extrahiert wurden. Das Modell des maschinellen Lernens kann beispielsweise ein neuronales Netzwerk mit einer Vielzahl von trainierten Knoten oder dergleichen umfassen.
  • Zusätzlich oder alternativ kann das Modell ein regelbasiertes Modell enthalten. So kann beispielsweise das Modell eine Vielzahl von Regeln enthalten, die aus der logistischen Regression abgeleitet sind. In solchen Ausführungsformen kann das regelbasierte Modell eine Ausgabe erzeugen, indem es einen vordefinierten Satz von Suchbegriffen abgleicht.
  • Bei Schritt 540 kann die mindestens eine Verarbeitungsvorrichtung eine Ausgabe vom Modell empfangen. So kann beispielsweise die Ausgabe eine Punktzahl umfassen, die eine Möglichkeit darstellt, dass das Individuum für die Aufnahme in die Kohorte geeignet ist. In Ausführungsformen, in denen die Kohorte eine Vielzahl von Unterkohorten beinhaltet, kann die Ausgabe eine Vielzahl von Wahrscheinlichkeiten, Werten, Wahrscheinlichkeiten oder dergleichen zur Einbeziehung in jede Unterkohorte umfassen.
  • In einigen Ausführungsformen kann das Modell die Ausgabe unter Verwendung eines binären Klassifizierungsalgorithmus erzeugedn. So kann beispielsweise die binäre Klassifizierung einen booleschen Indikator dafür umfassen, ob das Individuum für die Kohorte lebensfähig ist. In solchen Ausführungsformen kann der binäre Klassifizierungsalgorithmus, wie vorstehend erläutert, eine logistische Regression enthalten.
  • In einigen Ausführungsformen kann die vom Modell empfangene Ausgabe einen Vertrauenswert vermitteln. Wie vorstehend erläutert, kann beispielsweise der Vertrauenswert eine Wahrscheinlichkeit für die Aufnahme in die Kohorte (oder in eine Unterkohorte davon) anzeigen.
  • Bei Schritt 550 kann die mindestens eine Verarbeitungsvorrichtung bestimmen, ob das Individuum aus der Population von Individuen ein Kandidat für die Kohorte ist, basierend auf der vom Modell erhaltenen Ausgabe. So kann beispielsweise die mindestens eine Verarbeitungsvorrichtung das Individuum auswählen, wenn die Ausgabe anzeigt, dass das Individuum für die Kohorte realisierbar ist.
  • In einigen Ausführungsformen soll die Kohorte Individuen umfassen, die alle mindestens ein medizinisches oder demografisches Merkmal aufweisen. Dementsprechend kann die Ausgabe aus dem Modell auf dem mindestens einen medizinischen oder demographischen Merkmal beruhen. So kann beispielsweise das Modell konfiguriert werden, um die Wahrscheinlichkeit von metastasierendem Krebs basierend auf den Merkmalsvektoren zu schätzen.
  • In Ausführungsformen, in denen die Ausgabe einen Vertrauenswert vermittelt, kann die Bestimmung, ob die mindestens ein Individuum ein Kandidat für die Kohorte ist, auf einem Vergleich des Vertrauenswertes mit einem vorbestimmten Schwellenwert basieren. Der Schwellenwert kann je nach gewünschtem Wirkungsgrad und Leistung eingestellt werden. Wie vorstehend erläutert, kann das Modell beispielsweise basierend auf Testdaten (die Datensätze aus der Datenbank umfassen können, die nicht zur Entwicklung des Modells verwendet werden) neu geschult werden. Zur Einstellung des Schwellenwerts können eine oder mehrere Verlustfunktionen verwendet werden.
  • Das Verfahren 500 kann darüber hinaus zusätzliche Schritte enthalten. So kann beispielsweise das Verfahren 500 auch die Anzeige eines Indikators dafür enthalten, ob das Individuum ein Kandidat ist. Die mindestens eine Verarbeitungsvorrichtung kann über die Datenschnittstelle eine Visualisierung des Indikators zur Anzeige auf einem Bildschirm senden. So kann beispielsweise die Visualisierung eine Benutzeroberfläche mit dem Indikator umfassen. Die Visualisierung kann an ein oder mehrere Computergeräte übertragen werden, die mit einem medizinischen Fachmann verbunden sind. Der Mediziner kann einen medizinischen Test mit Hilfe der Kohorte durchführen.
  • Die vorstehende Beschreibung wurde zur Veranschaulichung vorgelegt. Sie ist nicht abschließend und beschränkt sich nicht auf die genauen Formen oder Ausführungsformen. Änderungen und Anpassungen werden für den Fachmann unter Berücksichtigung der Spezifikation und Praxis der offenbarten Ausführungsformen ersichtlich. Obwohl Aspekte der offenbarten Ausführungsformen als im Speicher gespeichert beschrieben werden, wird ein Fachmann zu schätzen wissen, dass diese Aspekte auch auf anderen Arten von computerlesbaren Medien gespeichert werden können, wie zum Beispiel sekundären Speichermedien, wie zum Beispiel Festplatten oder CD-ROM, oder anderen Formen von RAM oder ROM, USB-Medien, DVD, Blu-ray, 4K Ultra HD Blu-ray oder anderen optischen Laufwerken.
  • Computerprogramme, die auf der schriftlichen Beschreibung und den offenbarten Verfahren basieren, gehören zu den Fähigkeiten eines erfahrenen Entwicklers. Die verschiedenen Programme oder Programmmodule können mit einer der einem Fachmann bekannten Techniken erstellt oder in Verbindung mit vorhandener Software gestaltet werden. Beispielsweise können Programmteile oder Programmmodule in oder mit Hilfe von .Net Framework,.Net Compact Framework (und verwandten Sprachen wie Visual Basic, C, etc.), Java, Python, R, C++, Objective-C, HTML, HTML, HTML/AJAX-Kombinationen, XML oder HTML mit integrierten Java-Applets gestaltet werden.
  • Darüber hinaus wurden hierin zwar illustrative Ausführungsformen beschrieben, aber der Umfang aller Ausführungsformen mit gleichwertigen Elementen, Modifikationen, Auslassungen, Kombinationen (z.B. von Aspekten über verschiedene Ausführungsformen hinweg), Anpassungen und/oder Änderungen, wie sie von Fachleuten auf der Grundlage der vorliegenden Offenbarung geschätzt würden. Die Beschränkungen der Ansprüche sind weitestgehend auf der Grundlage der in den Ansprüchen verwendeten Sprache auszulegen und nicht auf Beispiele beschränkt, die in der vorliegenden Spezifikation oder bei der Verfolgung der Anmeldung beschrieben sind. Die Beispiele sind als nicht abschließend zu verstehen. Darüber hinaus können die Schritte der offenbarten Verfahren in jeder Hinsicht geändert werden, einschließlich durch Neuordnung von Schritten und/oder Einfügen oder Löschen von Schritten. Es ist daher beabsichtigt, dass die Erläuterung und die Beispiele nur zur Veranschaulichung betrachtet werden, wobei ein wahrer Umfang und Geist durch die folgenden Ansprüche und ihren vollen Umfang an Äquivalenten angegeben wird.

Claims (28)

  1. Modellgestütztes Auswahlsystem zur Identifizierung von Kandidaten für die Platzierung in einer Kohorte, wobei das System umfasst: eine Datenschnittstelle; und mindestens eine Verarbeitungsvorrichtung, die programmiert ist auf: Zugreifen auf, über die Datenschnittstelle, eine Datenbank, aus der Merkmalsvektoren abgeleitet werden können, die einem Individuum aus einer Population von Individuen zugeordnet sind; Ableiten, für das Individuum, eines oder mehrerer Merkmalsvektoren aus der Datenbank; Bereitstellen der einen oder mehreren Merkmalsvektoren für ein Modell; Empfangen einer Ausgabe aus dem Modell; und Bestimmen, ob das Individuum aus der Population von Individuen ein Kandidat für die Kohorte ist, basierend auf der aus dem Modell empfangenen Ausgabe.
  2. Modellunterstütztes Kohortenauswahlsystem nach Anspruch 1, wobei die Datenbank eine Vielzahl von elektronischen Datenrepräsentationen enthält und die Verarbeitungsvorrichtung weiter programmiert ist auf: Hochladen der Vielzahl von elektronischen Datenrepräsentationen über die Datenschnittstelle; und Erzeugen der einen oder mehreren Merkmalsvektoren unter Verwendung der Vielzahl von elektronischen Datenrepräsentationen.
  3. Modellgestütztes Kohortenauswahlsystem nach Anspruch 2, wobei die elektronischen Datenrepräsentationen elektronische Repräsentationen von Dokumenten aus einer elektronischen Krankenakte, die dem Individuum zugeordnet ist, enthalten.
  4. Modellgestütztes Kohortenauswahlsystem nach Anspruch 2, wobei die elektronischen Datenrepräsentationen mindestens einen Text enthalten, der zuvor einem optischen Zeichenerkennungsverfahren unterzogen wurde.
  5. Modellunterstütztes Kohortenauswahlsystem nach Anspruch 2, wobei die mindestens eine Verarbeitungsvorrichtung ferner programmiert ist, um die einen oder mehreren Merkmalsvektoren zu erzeugen durch: Durchsuchen der Vielzahl von elektronischen Datenrepräsentationen nach dem Vorhandensein von mindestens einem Begriff oder einer Phrase, die als der Kohorte zugeordnet vorab bestimmt ist; nach dem Identifizieren des mindestens einen Begriffs oder der Phrase, wie sie in der Vielzahl der elektronischen Datenrepräsentationen vorhanden sind, Extrahieren einer Textgruppierung aus der Vielzahl der elektronischen Datenrepräsentationen, wobei die Textgruppierung ein oder mehrere Wörter enthält, die sich in der Nähe des identifizierten Begriffs oder der Phrase befinden; und Erzeugen der einen oder mehreren Merkmalsvektoren basierend auf der Analyse des identifizierten Begriffs oder der Phrase zusammen mit der Analyse der extrahierten Textgruppierung.
  6. Modellunterstütztes Auswahlsystem nach Anspruch 1, wobei das Modell die Ausgabe unter Verwendung eines binären Klassifizierungsalgorithmus erzeugt.
  7. Modellgestütztes Auswahlsystem nach Anspruch 6, wobei der binäre Klassifizierungsalgorithmus eine logistische Regression enthält.
  8. Modellunterstütztes Auswahlsystem nach Anspruch 1, wobei das maschinelle Lernmodell basierend auf einem Satz strukturierter Informationen trainiert wurde, die durch eine Kombination von Menschen und Maschinen aus unstrukturierten Informationen, einschließlich einer Krankenakte, extrahiert wurden.
  9. Modellgestütztes Auswahlsystem nach Anspruch 1, wobei die Vielzahl von elektronischen Datenrepräsentationen von mindestens einem aus einer elektronischen Krankenakte, einer verfügbaren Datenquelle, Anspruchsdaten oder patientenberichteten Daten abgeleitet sind, die dem mindestens einen Individuum zugeordnet sind.
  10. Modellgestütztes Auswahlsystem nach Anspruch 1, wobei die aus dem Modell empfangene Ausgabe einen Vertrauenswert überträgt, und die Bestimmung, ob das mindestens eine Individuum ein Kandidat für die Kohorte ist, auf einem Vergleich des Vertrauenswertes mit einem vorab bestimmten Schwellenwert basiert.
  11. Modellgestütztes Auswahlsystem nach Anspruch 10, wobei der Schwellenwert basierend auf Niveaus von Effizienz und Leistung einstellbar ist.
  12. Modellgestütztes Auswahlsystem nach Anspruch 1, wobei die Kohorte Individuen umfassen soll, die alle mindestens ein medizinisches oder demographisches Merkmal teilen.
  13. Modellgestütztes Auswahlsystem nach Anspruch 1, wobei die Vielzahl der elektronischen Datenrepräsentationen sowohl strukturierte Daten als auch unstrukturierte Daten enthält.
  14. Modellgestütztes Auswahlsystem nach Anspruch 1, wobei das Modell ein trainiertes maschinelles Lernmodell enthält.
  15. Modellgestütztes Auswahlsystem nach Anspruch 1, wobei das Modell ein regelbasiertes Modell enthält.
  16. Modellunterstütztes Auswahlsystem nach Anspruch 1, wobei das regelbasierte Modell eine Ausgabe durch Abgleich mit einem vordefinierten Satz von Suchbegriffen erzeugt.
  17. Verfahren zum Auswählen einer Kohorte aus einer Population von Individuen, wobei das Verfahren umfasst: Zugreifen auf eine Datenbank über eine Datenschnittstelle, aus der Merkmalsvektoren abgeleitet werden können, die einem Individuum aus einer Gruppe von Individuen zugeordnet sind; Ableiten eines oder mehrerer Merkmalsvektoren für das Individuum aus der Datenbank; Bereitstellen der einen oder mehreren Merkmalsvektoren für ein Modell; Empfangen einer Ausgabe aus dem Modell; und Bestimmen, ob das Individuum aus der Population von Individuen ein Kandidat für die Kohorte ist, basierend auf der vom Modell erhaltenen Ausgabe.
  18. Kohortenauswahlverfahren nach Anspruch 17, wobei die Datenbank eine Vielzahl von elektronischen Datenrepräsentationen enthält, und das Verfahren ferner enthält: Hochladen der Vielzahl von elektronischen Datenrepräsentationen über die Datenschnittstelle; und Erzeugen der einen oder mehreren Merkmalsvektoren unter Verwendung der Vielzahl von elektronischen Datenrepräsentationen.
  19. Kohortenauswahlverfahren nach Anspruch 18, wobei die elektronischen Datenrepräsentationen elektronische Repräsentationen von Dokumenten aus einer elektronischen Krankenakte enthalten, die dem Individuum zugeordnet ist.
  20. Kohortenauswahlverfahren nach Anspruch 18, wobei die elektronischen Datenrepräsentationen mindestens einen Text enthalten, der zuvor einem optischen Zeichenerkennungsverfahren unterzogen wurde.
  21. Kohortenauswahlverfahren nach Anspruch 18, ferner umfassend: Erzeugen der einen oder mehreren Merkmalsvektoren durch: Durchsuchen der Vielzahl von elektronischen Datenrepräsentationen nach dem Vorhandensein von mindestens einem Begriff oder einer Phrase, die als der Kohorte zugeordnet vorab bestimmt ist; nach dem Identifizieren des mindestens einen Begriffs oder der Phrase, wie sie in der Vielzahl der elektronischen Datenrepräsentationen vorhanden sind, Extrahieren einer Textgruppierung aus der Vielzahl der elektronischen Datenrepräsentationen, wobei die Textgruppierung ein oder mehrere Wörter enthält, die sich in der Nähe des identifizierten Begriffs oder der Phrase befinden; und Erzeugen der einen oder mehreren Merkmalsvektoren basierend auf der Analyse des identifizierten Begriffs oder der identifizierten Phrase zusammen mit der Analyse der extrahierten Textgruppierung.
  22. Kohortenauswahlverfahren nach Anspruch 17, wobei das maschinelle Lernmodell die Ausgabe unter Verwendung einer logistischen Regressionstechnik erzeugt.
  23. Kohortenauswahlverfahren nach Anspruch 17, wobei das maschinelle Lernmodell basierend auf einem Satz von strukturierten Informationen trainiert wurde, die durch eine Kombination von Menschen und Maschinen aus unstrukturierten Informationen, einschließlich einer Krankenakte, extrahiert wurden.
  24. Kohortenauswahlverfahren nach Anspruch 17, wobei die Vielzahl von elektronischen Datenrepräsentationen von mindestens einer elektronischen Krankenakte, einer verfügbaren Datenquelle, Anspruchsdaten oder patientenberichteten Daten abgeleitet sind, die der mindestens einem Individuum zugeordnet sind.
  25. Kohortenauswahlverfahren nach Anspruch 17, wobei die vom Modell empfangene Ausgabe einen Vertrauenswert übermittelt, und die Bestimmung, ob das mindestens eine Individuum ein Kandidat für die Kohorte ist, auf einem Vergleich des Vertrauenswertes mit einem vorab bestimmten Schwellenwert basiert.
  26. Kohortenauswahlverfahren nach Anspruch 17, wobei die Kohorte Individuen enthalten soll, die alle mindestens ein medizinisches oder demographisches Merkmal teilen.
  27. Kohortenauswahlverfahren nach Anspruch 17, wobei die Vielzahl der elektronischen Datenrepräsentationen sowohl strukturierte Daten als auch unstrukturierte Daten enthält.
  28. Kohortenauswahlverfahren nach Anspruch 17, wobei das Modell ein trainiertes maschinelles Lernmodell oder ein regelbasiertes Modell enthält.
DE112018001996.9T 2017-04-13 2018-04-12 Systeme und verfahren zur modellgestützten kohortenauswahl Pending DE112018001996T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762484984P 2017-04-13 2017-04-13
US62/484,984 2017-04-13
PCT/US2018/027257 WO2018191471A1 (en) 2017-04-13 2018-04-12 Systems and methods for model-assisted cohort selection

Publications (1)

Publication Number Publication Date
DE112018001996T5 true DE112018001996T5 (de) 2020-01-02

Family

ID=62092310

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018001996.9T Pending DE112018001996T5 (de) 2017-04-13 2018-04-12 Systeme und verfahren zur modellgestützten kohortenauswahl

Country Status (5)

Country Link
US (2) US10304000B2 (de)
JP (2) JP7157758B2 (de)
DE (1) DE112018001996T5 (de)
GB (1) GB2575611A (de)
WO (1) WO2018191471A1 (de)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101622622B (zh) 2006-09-26 2012-08-29 拉尔夫·科普曼 个人健康记录系统及装置
US11170879B1 (en) 2006-09-26 2021-11-09 Centrifyhealth, Llc Individual health record system and apparatus
US9858063B2 (en) 2016-02-10 2018-01-02 Vignet Incorporated Publishing customized application modules
US9928230B1 (en) 2016-09-29 2018-03-27 Vignet Incorporated Variable and dynamic adjustments to electronic forms
US20190102710A1 (en) * 2017-09-30 2019-04-04 Microsoft Technology Licensing, Llc Employer ranking for inter-company employee flow
JP6950097B2 (ja) * 2018-01-26 2021-10-13 株式会社日立ハイテクソリューションズ 医療成果を達成するための制御デバイス
US10775974B2 (en) 2018-08-10 2020-09-15 Vignet Incorporated User responsive dynamic architecture
US11200985B2 (en) * 2018-10-23 2021-12-14 International Business Machines Corporation Utilizing unstructured literature and web data to guide study design in healthcare databases
WO2020092316A1 (en) * 2018-10-29 2020-05-07 Flatiron Health, Inc. Generalized biomarker model
US11875903B2 (en) * 2018-12-31 2024-01-16 Tempus Labs, Inc. Method and process for predicting and analyzing patient cohort response, progression, and survival
US11651252B2 (en) * 2019-02-26 2023-05-16 Flatiron Health, Inc. Prognostic score based on health information
US11669514B2 (en) 2019-04-03 2023-06-06 Unitedhealth Group Incorporated Managing data objects for graph-based data structures
WO2021016447A1 (en) * 2019-07-24 2021-01-28 Flatiron Health, Inc. Deep learning architecture for analyzing unstructured data
CN110443321B (zh) * 2019-08-14 2023-06-02 北京百度网讯科技有限公司 模型结构调整方法及装置
US11941706B2 (en) 2019-09-16 2024-03-26 K1X, Inc. Machine learning system for summarizing tax documents with non-structured portions
US11521724B2 (en) * 2019-10-04 2022-12-06 International Business Machines Corporation Personalized patient engagement in care management using explainable behavioral phenotypes
US11942226B2 (en) * 2019-10-22 2024-03-26 International Business Machines Corporation Providing clinical practical guidelines
US11537818B2 (en) * 2020-01-17 2022-12-27 Optum, Inc. Apparatus, computer program product, and method for predictive data labelling using a dual-prediction model system
US11157823B2 (en) 2020-02-04 2021-10-26 Vignet Incorporated Predicting outcomes of digital therapeutics and other interventions in clinical research
US11151462B2 (en) 2020-02-04 2021-10-19 Vignet Incorporated Systems and methods for using machine learning to improve processes for achieving readiness
US11328796B1 (en) * 2020-02-25 2022-05-10 Vignet Incorporated Techniques for selecting cohorts for decentralized clinical trials for pharmaceutical research
US11461216B1 (en) 2020-05-18 2022-10-04 Vignet Incorporated Monitoring and improving data collection using digital health technology
US11605038B1 (en) 2020-05-18 2023-03-14 Vignet Incorporated Selecting digital health technology to achieve data collection compliance in clinical trials
WO2021252853A1 (en) 2020-06-12 2021-12-16 Flatiron Health, Inc. Systems and methods for extracting dates associated with a patient condition
US11763919B1 (en) 2020-10-13 2023-09-19 Vignet Incorporated Platform to increase patient engagement in clinical trials through surveys presented on mobile devices
US11769114B2 (en) 2020-12-03 2023-09-26 Novartis Ag Collaboration platform for enabling collaboration on data analysis across multiple disparate databases
US11657226B2 (en) 2020-12-15 2023-05-23 International Business Machines Corporation Detecting and mitigating bias in natural language processing
US11417418B1 (en) 2021-01-11 2022-08-16 Vignet Incorporated Recruiting for clinical trial cohorts to achieve high participant compliance and retention
US11240329B1 (en) 2021-01-29 2022-02-01 Vignet Incorporated Personalizing selection of digital programs for patients in decentralized clinical trials and other health research
US11361846B1 (en) 2021-02-03 2022-06-14 Vignet Incorporated Systems and methods for customizing monitoring programs involving remote devices
US11296971B1 (en) 2021-02-03 2022-04-05 Vignet Incorporated Managing and adapting monitoring programs
US11789837B1 (en) 2021-02-03 2023-10-17 Vignet Incorporated Adaptive data collection in clinical trials to increase the likelihood of on-time completion of a trial
US11316941B1 (en) 2021-02-03 2022-04-26 Vignet Incorporated Remotely managing and adapting monitoring programs using machine learning predictions
US11521714B1 (en) 2021-02-03 2022-12-06 Vignet Incorporated Increasing diversity of participants in health research using adaptive methods
US11196656B1 (en) 2021-02-03 2021-12-07 Vignet Incorporated Improving diversity in cohorts for health research
US11636500B1 (en) 2021-04-07 2023-04-25 Vignet Incorporated Adaptive server architecture for controlling allocation of programs among networked devices
US11705230B1 (en) 2021-11-30 2023-07-18 Vignet Incorporated Assessing health risks using genetic, epigenetic, and phenotypic data sources
US11901083B1 (en) 2021-11-30 2024-02-13 Vignet Incorporated Using genetic and phenotypic data sets for drug discovery clinical trials
US20230197220A1 (en) * 2021-12-16 2023-06-22 Flatiron Health, Inc. Systems and methods for model-assisted data processing to predict biomarker status and testing dates
US20240046109A1 (en) * 2022-08-04 2024-02-08 nference, inc. Apparatus and methods for expanding clinical cohorts for improved efficacy of supervised learning
US20240047070A1 (en) * 2022-08-04 2024-02-08 Optum, Inc. Machine learning techniques for generating cohorts and predictive modeling based thereof

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917525B2 (en) * 2005-12-06 2011-03-29 Ingenix, Inc. Analyzing administrative healthcare claims data and other data sources
CA2642217C (en) * 2006-02-17 2014-05-06 Lumex As Method and system for verification of uncertainly recognized words in an ocr system
US7809660B2 (en) * 2006-10-03 2010-10-05 International Business Machines Corporation System and method to optimize control cohorts using clustering algorithms
EP2441010A4 (de) * 2009-06-09 2016-12-28 Ebh Entpr Inc Verfahren, vorrichtung und software zur analyse des inhalts von mikroblog-nachrichten
US20120035954A1 (en) * 2010-08-05 2012-02-09 International Business Machines Corporation On-demand clinical trials utilizing emr/ehr systems
US20120065987A1 (en) * 2010-09-09 2012-03-15 Siemens Medical Solutions Usa, Inc. Computer-Based Patient Management for Healthcare
US8751261B2 (en) * 2011-11-15 2014-06-10 Robert Bosch Gmbh Method and system for selection of patients to receive a medical device
WO2013154947A1 (en) * 2012-04-09 2013-10-17 Vivek Ventures, LLC Clustered information processing and searching with structured-unstructured database bridge
US10387793B2 (en) * 2014-11-25 2019-08-20 International Business Machines Corporation Automatic generation of training cases and answer key from historical corpus
US10867703B2 (en) * 2015-02-26 2020-12-15 Conduent Business Services, Llc System and method for predicting health condition of a patient
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
US10650927B2 (en) * 2015-11-13 2020-05-12 Cerner Innovation, Inc. Machine learning clinical decision support system for risk categorization
US11403563B2 (en) * 2016-10-19 2022-08-02 Accertify, Inc. Systems and methods for facilitating recognition of a device and/or an instance of an app invoked on a device

Also Published As

Publication number Publication date
GB2575611A (en) 2020-01-15
GB201916451D0 (en) 2019-12-25
US11734601B2 (en) 2023-08-22
US20180300640A1 (en) 2018-10-18
JP2023011610A (ja) 2023-01-24
WO2018191471A1 (en) 2018-10-18
JP7157758B2 (ja) 2022-10-20
US10304000B2 (en) 2019-05-28
US20190258950A1 (en) 2019-08-22
JP2020516997A (ja) 2020-06-11

Similar Documents

Publication Publication Date Title
DE112018001996T5 (de) Systeme und verfahren zur modellgestützten kohortenauswahl
Kamei et al. Grey literature in software engineering: A critical review
DE112020000227T5 (de) Maschinelles lernen eines computermodells auf grundlage von korrelationenvon trainingsdaten mit leistungstrends
DE102013202365A1 (de) Herausziehen von informationen aus krankenakten
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE112005003157T5 (de) Domainspezifisches Datenelement-Mappingverfahren- und System
DE102021004157A1 (de) Maschinell lernendes Modellieren zum Schutz gegen die Online-Offenlegung empfindlicher Daten
DE112020002129T5 (de) Deep-learning-ansatz für datenverarbeitungsspannen
Barros-Justo et al. Systematic mapping protocol: the impact of using software patterns during requirements engineering activities in real-world settings
JP7482972B2 (ja) ゲノムテストステータスを特定するシステム及び方法
DE102018007024A1 (de) Dokumentdurchsuchen mittels grammatischer einheiten
DE112020002892T5 (de) Aktives lernen für den datenabgleich
EP4016543A1 (de) Verfahren und vorrichtung zur bereitstellung einer medizinischen information
DE102014116117B4 (de) Verfahren und System zum Mining von Mustern in einem Datensatz
DE112022004468T5 (de) Metadaten-gesteuerte Datenaufnahme
Wah et al. Development of a data warehouse for lymphoma cancer diagnosis and treatment decision support
Zhang et al. The contributor roles for randomized controlled trials and the proposal for a novel CRediT-RCT
DE112021003058T5 (de) Verbessertes auflösen von entitäten in stammdaten unter verwendung einer qualifizierten beziehungsbewertung
DE112021001565T5 (de) Sortieren von datenelementen eines bestimmten satzes von datenelementen
DE112020001314T5 (de) System und Verfahren für eine Datenkuration
Liu et al. Construction and optimization of mental health education consultation management system based on decision tree association rule mining
Chen et al. Qsanglyzer: Visual analytics for prismatic analysis of question answering system evaluations
US20230260644A1 (en) Methods, systems, and computer readable media for grading figure drawing visuospatial tests
Karpus et al. Systematic Literature Review—Methods and Hints
Fant Technical Review: Key concepts of health database management for public health workforce development in resource-limited settings

Legal Events

Date Code Title Description
R012 Request for examination validly filed