DE102013202365A1 - Herausziehen von informationen aus krankenakten - Google Patents

Herausziehen von informationen aus krankenakten Download PDF

Info

Publication number
DE102013202365A1
DE102013202365A1 DE102013202365A DE102013202365A DE102013202365A1 DE 102013202365 A1 DE102013202365 A1 DE 102013202365A1 DE 102013202365 A DE102013202365 A DE 102013202365A DE 102013202365 A DE102013202365 A DE 102013202365A DE 102013202365 A1 DE102013202365 A1 DE 102013202365A1
Authority
DE
Germany
Prior art keywords
terms
term
match results
variants
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102013202365A
Other languages
English (en)
Inventor
Tanveer F. Syeda-Mahmood
Laura Chiticariu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE102013202365A1 publication Critical patent/DE102013202365A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Abstract

Ein Verfahren zum Herausziehen von Informationen aus elektronischen Dokumenten, das Folgendes beinhaltet: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben.

Description

  • HINTERGRUND
  • Aus der Verfügbarkeit von integrierten Informationen durch große Patienten-Repositories gehen neuere Entscheidungsunterstützungssysteme hervor, die Ärzte von übereinstimmenden Meinungen anderer Ärzte profitieren lassen, die ähnliche Patienten untersucht haben. Diese beruhen auf Techniken des inhaltsbasierten Abfragens unter Verwendung einer zugrunde liegenden Ähnlichkeit von Patientendiagnosedaten zum Ableiten der Ähnlichkeit deren diagnostizierter Krankheiten. Messprotokolle stellen eine wichtige Quelle von Diagnosedaten dar. Diese Dokumente fassen die Ergebnisse aus vielen Diagnoseeinstellungen zusammen und zeichnen wichtige, von verschiedenen Prüfungen unterzogenen Einheiten stammende Messungen auf. Derartige Protokolle können auch schriftliche Beschreibungen der verschiedenen Strukturen enthalten und konkrete Ergebnisse dokumentieren, die auf Schlussfolgerungen bezüglich der Diagnose hindeuten.
  • Während das vollständige Verstehen der natürlichen Sprache derartiger Protokolle ein schwieriges Problem darstellt, müssen häufig ausreichend klinische Daten aus diesen Protokollen herausgezogen werden, um eine lineare Krankenakte des Patienten zu vervollständigen. Obwohl elektronische Krankenaktensysteme klinische Daten erfassen, liegen die für die Diagnose nützlichen Informationen häufig in anderen Systemen und in einem unstrukturierten Format vor, so dass eine vollständig lineare Krankenakte eines Patienten das Analysieren der unstrukturierten Daten erfordern kann. Die Krankenakten, insbesondere die in Abschriftsystemen, Radiologiesystemen und Kardiologiesystemen vorhandenen, bilden eine wichtige Quelle klinischer Daten wie zum Beispiel demografische Daten (Impfung, Allergien), Familienanamnese (ein Verwandter, der eine Krankheit hatte), diagnostische Untersuchungsmessungen (z. B. Bereich der linken Herzkammer), Medikamente, Eingriffe und andere Behandlungen sowie deren Ergebnisse. Das Herausziehen dieser Arten von Informationen kann auf zwei grundsätzliche Arten von Arbeitsschritten eingeschränkt werden – nämlich das Finden von textlichen Formulierungen, welche die Art der klinischen Daten angeben, die herausgezogen werden, und das Finden von Namen/Wert-Paaren, welche die Paarbildung zwischen Messungen und deren Werten angeben.
  • Ein Beispiel enthält das Ableiten von Diagnosekennungen aus Protokollen, wobei es sich um einen wichtigen Vorverarbeitungsschritt für viele Evidenzerzeugungstätigkeiten (evidence generation activities) im Gesundheitswesen handelt. Die Kenntnis der Diagnosekennung hilft beim Einstufen der Daten und beim Verwenden dieser zum direkten Nachschlagen von Patienten mit konkreten Krankheiten. Sie ermöglicht auch das Gruppieren von Patienten mit ähnlichen Krankheiten zum Unterstützen von Entscheidungen und ermöglicht eine Konsistenzprüfung der aufgezeichneten Diagnose in elektronischen Krankenblattsystemen (EMR, electronic medical record). Sie kann auch Auswirkungen auf die Qualitätskontrolle und das Verwalten der Umsatzrealisierung haben, da fehlende oder falsche Diagnosecodes zu einem Verlust von Umsatz durch unzureichende Abrechnungen sowie zu Verbindlichkeiten und Problemen mit der Qualität der Fürsorge auf Grund von Fehldiagnosen führen können.
  • Das Ableiten von Diagnosekennungen aus Protokollen kann eine ziemliche Herausforderung darstellen, da Doktoren selten dieselbe Formulierung wie die Definition eines Diagnosecodes (ICD9) verwenden. Ein Diagnosecode für Mitralstenose (394.0) kann zum Beispiel aus einer Beschreibung in einem Text wie zum Beispiel ,Es gibt Anzeichen für eine Stenose der Mitralklappe bei dem Patienten' abgeleitet werden.
  • Obwohl Freitext-Suchmaschinen genaue Übereinstimmungen von Wörtern in Formulierungen in derartigen Protokollen finden können, können sie Abwandlungen bei der Bildung einer wie oben aufgeführten Formulierung, welche die Gesamtbedeutung bewahren, nicht ohne Weiteres handhaben. Das Finden von einer gewünschten Information (wie zum Beispiel einer Diagnosekennung) entsprechenden textlichen Formulierungen erfordert (a) Kenntnis der relevanten Wortschatzbegriffe, (b) das Vorkatalogisieren möglicher Abwandlungen deren Vorkommens in medizinischen Texten, (c) das Auffinden zuverlässiger Verneinungen, die eine gegenteilige Bedeutung mit sich bringen, und (d) leistungsfähige Algorithmen zum Finden von übereinstimmenden Formulierungen, welche die Abwandlungen beim Verwenden von Begriffen zulassen.
  • KURZDARSTELLUNG
  • Es werden Ausführungsformen eines Systems beschrieben. In einer Ausführungsform handelt es sich bei dem System um ein Formulierungsabgleichsystem. Das System enthält eine Übungssteuerkomponente (training engine), die so konfiguriert ist, dass sie: Begriffe und Begriffsvarianten aus einem Übungshaupttext (training corpus) lernt, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; und eine Liste von in dem Übungshaupttext gefundenen negativen Indikatoren erzeugt; und eine Abgleichsteuerkomponente (matching engine), die so konfiguriert ist, dass sie: einen Abgleich auf teilweise Übereinstimmung (partial match) der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente durchführt, um anfängliche Übereinstimmungsergebnisse zu erstellen; und für die anfänglichen Übereinstimmungsergebnisse unter Verwendung der negativen Indikatoren eine Verneinungsprüfung und unter Verwendung der Begriffe und der Begriffsvarianten eine Prüfung auf positive Begriffe durchführt, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben. Es werden auch andere Ausführungsformen des Systems beschrieben.
  • Es werden auch Ausführungsformen eines Computerprogrammprodukts beschrieben. In einer Ausführungsform enthält ein Computerprogrammprodukt eine durch einen Computer lesbare Speichereinheit zum Speichern eines durch einen Computer lesbaren Programms, wobei das durch einen Computer lesbare Programm beim Ausführen durch einen Prozessor innerhalb eines Computers den Computer dazu veranlasst, Arbeitsschritte zum Herausziehen von Informationen aus elektronischen Dokumenten durchzuführen. Die Arbeitsschritte enthalten: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben. Es werden auch andere Ausführungsformen der Vorrichtung beschrieben.
  • Es werden auch Ausführungsformen eines Verfahrens beschrieben. In einer Ausführungsform handelt es sich bei dem Verfahren um ein Verfahren zum Herausziehen von Informationen aus elektronischen Dokumenten. Das Verfahren enthält: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben. Es werden auch andere Ausführungsformen des Verfahrens beschrieben.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt ein schematisches Schaubild einer Ausführungsform eines Formulierungsabgleichsystems.
  • 2 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens zum Herausziehen von Informationen aus elektronischen Dokumenten.
  • 3 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens zum Herausziehen von Informationen aus elektronischen Dokumenten.
  • 4 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens zum Herausziehen von Informationen aus elektronischen Dokumenten.
  • In der Beschreibung können gleichartige Bezugszahlen zum Kennzeichnen gleichartiger Elemente verwendet werden.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Man wird ohne Weiteres verstehen, dass die Komponenten der Ausführungsformen, wie hierin allgemein beschrieben und in den beigefügten Figuren veranschaulicht, in einer großen Vielfalt unterschiedlicher Konfigurationen angeordnet und ausgeführt werden könnten. Folglich soll die folgende ausführlichere Beschreibung verschiedener Ausführungsformen wie in den Figuren dargestellt den Umfang der vorliegenden Offenbarung nicht einschränken, sondern sie steht lediglich stellvertretend für verschiedene Ausführungsformen. Obwohl die verschiedenen Aspekte der Ausführungsformen in Zeichnungen dargestellt werden, sind die Zeichnungen nicht unbedingt maßstabsgetreu gezeichnet, soweit nicht konkret angegeben.
  • Die vorliegende Erfindung kann in anderen konkreten Formen ausgeführt werden, ohne von deren Gedanken oder wesentlichen Eigenschaften abzuweichen. Die beschriebenen Ausführungsformen sind in jeder Hinsicht lediglich als veranschaulichend und nicht einschränkend zu sehen. Deshalb wird der Umfang der Erfindung durch die beigefügten Ansprüche angegeben, und nicht durch diese ausführliche Beschreibung. Sämtliche Änderungen, die in Hinblick auf Bedeutung und Bereich den Ansprüchen entsprechen, sind in deren Umfang enthalten.
  • Ein Bezug auf Merkmale, Vorteile oder ähnliche Sprache in dieser Beschreibung bedeutet nicht, dass alle der Merkmale und Vorteile, die mit der vorliegenden Erfindung realisiert werden können, in einer einzelnen Ausführungsform der Erfindung auftauchen (sollten). Stattdessen ist auf die Merkmale und Vorteile verweisende Sprache so zu verstehen, dass sie bedeutet, dass ein konkretes Merkmal, ein konkreter Vorteil oder eine konkrete Eigenschaft, die in Verbindung mit einer Ausführungsform beschrieben werden, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten sind. Somit können Erörterungen der Merkmale und Vorteile und ähnliche Sprache in dieser Beschreibung auf dieselbe Ausführungsform verweisen, müssen dies aber nicht unbedingt tun.
  • Des Weiteren können die beschriebenen Merkmale, Vorteile und Eigenschaften der Erfindung in jeder beliebigen geeigneten Art in einer oder mehreren Ausführungsformen kombiniert werden. Der Fachmann wird angesichts der Beschreibung hierin erkennen, dass die Erfindung ohne eine oder mehrere der konkreten Merkmale oder Eigenschaften einer bestimmten Ausführungsform ausgeführt werden kann. In anderen Fällen können zusätzliche Merkmale und Vorteile in bestimmten Ausführungsformen erkannt werden, die nicht in allen Ausführungsformen der Erfindung vorkommen.
  • Der Bezug auf „eine Ausführungsform” oder ähnliche Sprache in dieser Beschreibung bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder Eigenschaft, die in Verbindung mit der angegebenen Ausführungsform beschrieben werden, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten sind. Somit können die Formulierungen „in einer Ausführungsform” und ähnliche Sprache in dieser Beschreibung alle auf dieselbe Ausführungsform verweisen, müssen dies aber nicht unbedingt tun.
  • Obwohl hierin viele Ausführungsformen beschrieben werden, stellen zumindest einige der beschriebenen Ausführungsformen ein System und ein Verfahren zum Herausziehen von Informationen aus elektronischen Dokumenten auf der Grundlage von Begriffen und Begriffsvarianten entsprechend einem gegebenen Wörterbuch dar. Konkret lernt das System automatisch einen Satz von Begriffen und Varianten der Begriffe aus einem Übungshaupttext von Dokumenten, die sich auf ein Wörterbuch beziehen, bevor es die mit dem Wörterbuch zu vergleichenden elektronischen Dokumente analysiert. In einigen Ausführungsformen können die gelernten Begriffe und Begriffsvarianten manuell organisiert werden, um die beim Vergleichen der elektronischen Dokumente verwendeten Begriffe und Begriffsvarianten zu optimieren. Das System führt einen Abgleich auf teilweise Übereinstimmung mit den elektronischen Dokumenten durch, um den Satz von Dokumenten einzugrenzen. Das System führt dann für die Ergebnisse aus dem Abgleich auf teilweise Übereinstimmung eine Verneinungsprüfung und eine Prüfung auf positive Begriffe durch, um endgültige Übereinstimmungsergebnisse herauszuziehen, indem sämtliche teilweisen Übereinstimmungen entfernt werden, die eine der beiden Prüfungen nicht bestehen. In einer Ausführungsform werden das System und das Verfahren dazu verwendet, aus Krankenakten textliche Diagnosekennungen herauszuziehen, die der internationalen statistischen Klassifikation der Krankheiten und verwandter Gesundheitsprobleme Version 9 (ICD-9) oder einer beliebigen Version der ICD entsprechen.
  • Einige herkömmliche Systeme ziehen aus konkreten Berichten (z. B. Asthmaberichten) die Hauptdiagnose und Begleiterkrankungen unter Verwendung natürlicher Sprachverarbeitungssysteme in Verbindung mit anderen Techniken wie zum Beispiel Wortstammanalyse, Techniken zur grammatischen Zergliederung von Sätzen, auf Wörterbüchern beruhenden Ansätzen, Entfernen von Stoppwörtern, Entdecken von Begriffen, Finden von Verneinungen usw. heraus. Während diese Systeme möglicherweise eine gute Genauigkeit beim Abgleich bereitstellen, kann die Trefferquote (recall) derartiger Systeme niedrig sein. Andere herkömmliche Systeme stellen möglicherweise eine hohe Trefferquote bereit aber eine geringe Genauigkeit beim Abgleich. Ein System und ein Verfahren, das einen anfänglichen Abgleich auf teilweise Übereinstimmung auf der Grundlage von einer längsten gemeinsamen Teilsilbe (subfix) oder einer Teilmenge von Wörtern unter Verwendung von Präfixen der Begriffe und Begriffsvarianten durchführt, wobei die Begriffe und Begriffsvarianten manuell organisiert werden, sorgt für eine hohe Genauigkeit und eine hohe Trefferquote.
  • 1 zeigt ein schematisches Schaubild einer Ausführungsform eines Formulierungsabgleichsystems 100. Das abgebildete Formulierungsabgleichsystem 100 enthält verschiedene nachfolgend ausführlicher beschriebene Komponenten, die in der Lage sind, die hierin beschriebenen Funktionen und Arbeitsschritte durchzuführen. In einer Ausführungsform sind zumindest einige der Komponenten des Formulierungsabgleichsystems 100 in einem Computersystem umgesetzt. Die Funktionalität einer oder mehrerer Komponenten des Formulierungsabgleichsystems 100 können durch Computerprogrammanweisungen umgesetzt werden, die auf einer Computerspeichereinheit 102 gespeichert sind und von einer Verarbeitungseinheit 104 wie zum Beispiel einer CPU ausgeführt werden. Das Formulierungsabgleichsystem 100 kann andere Komponenten enthalten wie zum Beispiel ein Plattenspeicherlaufwerk 108, die Eingabe/Ausgabe-Einheiten 106, eine Übungssteuerkomponente 110 und eine Abgleichsteuerkomponente 112. Einige oder alle der Komponenten des Formulierungsabgleichsystems 100 können auf einer einzelnen Datenverarbeitungseinheit oder in einem Netzwerk von Datenverarbeitungseinheiten gespeichert sein, darunter ein drahtloses Datenübertragungsnetzwerk. Das Formulierungsabgleichsystem 100 kann mehr oder weniger Komponenten oder Teilsysteme als die hierin abgebildeten enthalten. In einigen Ausführungsformen kann das Formulierungsabgleichsystem 100 zum Umsetzen der hierin beschriebenen Verfahren wie in 4 abgebildet verwendet werden.
  • In einer Ausführungsform enthält das Formulierungsabgleichsystem 100 eine Übungssteuerkomponente 110. Die Übungssteuerkomponente 110 ermöglicht dem Formulierungsabgleichsystem 100 das Herausziehen von Daten aus einem Übungshaupttext 114 für eine gegebene Anwendung. Der Übungshaupttext 114 kann sich auf ein spezialisiertes Wörterbuch beziehen, das der gegebenen Anwendung entsprechende Begriffe enthält. Der Übungshaupttext 114 kann eine große Anzahl elektronischer Dokumente oder Berichte enthalten, von denen bekannt ist, dass sie Begriffe aus dem spezialisierten Wörterbuch enthalten. In einer Ausführungsform lernt die Übungssteuerkomponente 110 die Begriffe und Begriffsvarianten 116 von dem Übungshaupttext 114 auf der Grundlage von in dem Übungshaupttext 114 enthaltenen Daten.
  • Die Begriffsvarianten können Synonyme der Begriffe, Wörter, die mit den Begriffen gemeinsame Stämme teilen, und andere Varianten der Begriffe enthalten. In einer Ausführungsform enthalten die Begriffsvarianten ein Präfix 118 für jeden der Begriffe. Bei dem Präfix 118 für jeden Begriff kann es sich um ein eindeutiges Präfix 118 handeln, das lediglich von dem Begriff und von Varianten des Begriffs geteilt wird. In einigen Ausführungsformen kann es sich bei dem eindeutigen Präfix 118 um einen Wortstamm handeln, der von dem Begriff und den Begriffsvarianten geteilt wird. In einigen Ausführungsformen kann es sich bei dem Präfix 118 um eine beliebige Länge des Präfixes 118 für die Begriffe und Begriffsvarianten 116 handeln, so dass das Präfix 118 nach wie vor eindeutig ist.
  • In einer Ausführungsform ist die Übungssteuerkomponente 110 so konfiguriert, dass sie die Attribute 120 für die Begriffe und Begriffsvarianten 116 lernt, darunter Adjektive, die einen Schweregrad, eine Menge, eine Größe usw. der Begriffe und Begriffsvarianten 116 beschreiben, (wie zum Beispiel „mäßig” oder „extrem”) sowie die anderen Attribute 120. In einigen Ausführungsformen kann die Übungssteuerkomponente 110 die Attribute 120 automatisch über den Übungshaupttext 114 lernen. In anderen Ausführungsformen kann die Übungssteuerkomponente 110 die Attribute 120 über eine manuelle Eingabe lernen.
  • Die Übungssteuerkomponente 110 kann auch die in dem Übungshaupttext 114 enthaltenen negativen Indikatoren 122 lernen, die sich auf die Begriffe und Begriffsvarianten 116 beziehen. Zu den negativen Indikatoren 122 können verneinende Wörter oder Formulierungen gehören, die innerhalb einer vorbestimmten Lage der Begriffe oder Begriffsvarianten 116 verwendet werden können, um ein Nichtvorhandensein eines Zustands in Bezug auf die Begriffe oder Begriffsvarianten 116 anzugeben. Wenn eine die Begriffe oder Begriffsvarianten 116 enthaltende Formulierung zum Beispiel sonst ein Vorhandensein eines bestimmten Krankheitszustands oder anderen Zustands angibt, gibt ein negativer Indikator 122 in der Formulierung an, dass der Zustand nicht vorliegt.
  • In einer Ausführungsform enthält das Formulierungsabgleichsystem 100 eine Abgleichsteuerkomponente 112. Die Abgleichsteuerkomponente 112 kann so konfiguriert sein, dass sie die Begriffe und Begriffsvarianten 116 mit einem Satz elektronischer Dokumente abgleicht. Übereinstimmungen in den elektronischen Dokumenten können zum Betrachten durch einen Benutzer auf einer Anzeigeeinheit oder einer anderen Ausgabeeinheit angezeigt werden. In einer Ausführungsform gewinnt die Abgleichsteuerkomponente 112 anfängliche teilweise Übereinstimmungsergebnisse 124 zum Eingrenzen des Materials in den elektronischen Dokumenten. Die anfänglichen Übereinstimmungsergebnisse 124 können auf einer längsten gemeinsamen Teilsilbe (LCS, longest common subfix) von Wörtern in einer ein oder mehrere der Begriffe und Begriffsvarianten 116 enthaltenden Formulierung beruhen. In einigen Ausführungsformen enthält der Satz elektronischer Dokumente möglicherweise nicht die genauen Begriffe und Begriffsvarianten 116, die mit einem zugehörigen Zustand oder einer zugehörigen Formulierung in dem spezialisierten Wörterbuch übereinstimmen. Folglich ist die Abgleichsteuerkomponente 112 durch Verwendung der LCS zum Erstellen der anfänglichen teilweisen Übereinstimmungsergebnisse in der Lage, Übereinstimmungen zu finden, die durch das Suchen nach lediglich der genauen Formulierung nicht gefunden worden wären.
  • Bei der LCS kann es sich um eine Teilmenge von Wörtern handeln, wobei jedes Wort ein Präfix 118 einer der Begriffe oder Begriffsvarianten 116 in derselben Reihenfolge ihres Auftretens sein kann. In einer Ausführungsform handelt es sich bei dem Präfix 118 für jeden der Begriffe und Begriffsvarianten 116 um ein längstes gemeinsames Präfix 118, das von den Wörtern in der Abfrageformulierung geteilt wird. Eine Abfrageformulierung, die zum Beispiel versucht, den Begriff „Mitralklappeninsuffizienz” abzugleichen, kann eine Übereinstimmung einer Teilsilbe in einer Zeichenfolge wie zum Beispiel „Die Mitralklappe des Patienten zeigt Anzeichen einer Insuffizienz” finden. In diesem Beispiel lautet die LCS zwischen der Abfrageformulierung und der gegebenen Zeichenfolge oder dem Satz ”Mitralklappe Insuffizienz”. Wie hierin beschrieben kann die LCS die Präfixe 118 für jeden Begriff oder jede Begriffsvariante enthalten, die Wörtern in der abgeglichenen Zeichenfolge gemein sind.
  • In einer Ausführungsform ist die Abgleichsteuerkomponente 112 so konfiguriert, dass sie für jeden) grammatisch zergliederte(n) Satz oder Formulierung in den elektronischen Dokumenten einen LCS-Wert 126 ermittelt. Der Satz von in Frage kommenden Formulierungen, bei denen die LCS einen Wert über einem vorbestimmten Schwellwert aufweist, kann in den anfänglichen Übereinstimmungsergebnissen 124 als in Frage kommende Übereinstimmungen beibehalten werden. Jede beibehaltene Formulierung kann dann für die endgültigen Übereinstimmungsergebnisse 128 ausführlich nach negativen und positiven Anzeichen für die Abfrageformulierung ausgewertet werden.
  • Zum Suchen nach negativen Anzeichen kann die Abgleichsteuerkomponente 112 einen Bereich um jede Teilsilbe in dem Satz nach in Frage kommenden Verneinungen untersuchen, wie zum Beispiel jegliche von der Übungssteuerkomponente 110 gelernte Verneinungen. Die Verneinungen können durch Untersuchen von gemeinsamen Mustern von in dem Übungshaupttext 114 auftauchenden Sätzen oder Formulierungen und Aufzeichnen jeglicher in den Formulierungen enthaltener Verneinungen gelernt werden. Jede Verneinung kann einen geordneten Satz von Wörtern darstellen, die negative Anzeichen eines Zustands angeben. Der nach negativen Anzeichen um eine Teilsilbe herum durchsuchte Bereich kann die kleinste eingeschlossene Aussage in einem Satz darstellen. Allgemeine Bindewörter wie „und”, „aber” und „mit” können zum Einteilen des Satzes nach derartigen Formulierungsbereichen verwendet werden. Für diese Aufgabe können auch andere Verbesserungen zum Durchführen eines in Algorithmen und Verfahren zum Verarbeiten natürlicher Sprache (NLP, natural language processing) verfügbaren Herausziehens von Formulierungen verwendet werden.
  • Die Abgleichsteuerkomponente 112 kann auch nach positiven Anzeichen von Formulierungen suchen, die in der ICD-9-Code-Kennungsbeschreibung erwartet werden. Diese Begriffe können von der Abgleichsteuerkomponente 112 benötigt werden, um ein positives Ergebnis zu melden, und während einer vorangehenden Übungsstufe mit einem umfangreichen Übungshaupttext 114 unter Verwendung der Übungssteuerkomponente 110 aus den ICD-9-Code-Kennungsbeschreibungen vorgefertigt werden. In einigen Ausführungsformen kann die Übungssteuerkomponente 110 allgemeine Begriffe für positive Anzeichen lernen (z. B. „der Patient hat...”).
  • Die teilweisen Übereinstimmungsergebnisse erhöhen die Robustheit des Erkennens der Begriffe und Begriffsvarianten 116. In einigen Ausführungsformen können die teilweisen Übereinstimmungsergebnisse beruhend auf der LCS einige falsche positive Ergebnisse einfügen, wobei dies durch Durchführen der Verneinungsprüfung und der Prüfung auf positive Begriffe zum Verringern der Anzahl von falschen positiven Ergebnissen sowie der Anzahl von falschen negativen Ergebnissen überwunden werden kann.
  • 2 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens 204 zum Herausziehen von Informationen aus elektronischen Dokumenten. Obwohl das Verfahren 204 in Verbindung mit dem Formulierungsabgleichsystem 100 aus 1 beschrieben wird, können Ausführungsformen des Verfahrens 204 mit anderen Arten des Formulierungsabgleichsystems 100 umgesetzt werden.
  • In einer Ausführungsform empfängt die Übungssteuerkomponente 110 einen Übungshaupttext 114 von zusammengestellten Dokumenten. Der Übungshaupttext 114 entspricht einem spezialisierten Wörterbuch 200, das sich auf jedes der zusammengestellten Dokumente bezieht. Das spezialisierte Wörterbuch 200 kann Wörter oder Formulierungen wie zum Beispiel medizinische Begriffe oder Krankheitskennungen enthalten. In einer Ausführungsform enthält der Satz Dokumente in dem Übungshaupttext 114 verschiedene Wiederholungen eines einzelnen Berichts oder Dokuments. In einigen Ausführungsformen enthält der Übungshaupttext 114 eine Vielfalt von Dokumenttypen, die dem spezialisierten Wörterbuch 200 entsprechen.
  • Die Übungssteuerkomponente 110 kann die Begriffe aus den Formulierungen/Wörtern in dem Übungshaupttext 114 herausziehen, die dem Wörterbuch 200 entsprechen. In einigen Ausführungsformen lernt die Übungssteuerkomponente 110 dann Varianten jedes Begriffs durch Bestimmen von Wortstämmen für die Begriffe und Finden von anderen Wörtern entweder in dem Übungshaupttext 114 oder einem allgemeinen Wörterbuch 200 für Wörter, die dieselben Wortstämme teilen. In anderen Ausführungsformen kann die Übungssteuerkomponente 110 die Begriffsvarianten durch Ermitteln von Synonymen der Begriffe lernen. Es können andere Verfahren zum Lernen der Begriffsvarianten verwendet werden.
  • Wenn die Übungssteuerkomponente 110 die Begriffe und Begriffsvarianten 116 gelernt hat, verwendet die Abgleichsteuerkomponente 112 die Begriffe und Begriffsvarianten 116 dazu, in einem Satz elektronischer Dokumenten 202 Übereinstimmungen zu finden. Bei dem Satz elektronischer Dokumente 202 kann es sich um jeden beliebigen Satz elektronischer Dokumente 202 handeln, der durchsucht, grammatisch zergliedert und mit den Begriffen und Begriffsvarianten 116 abgeglichen werden kann. In einer Ausführungsform verwendet die Abgleichsteuerkomponente 112 die Begriffe und Begriffsvarianten 116, um die teilweisen anfänglichen Übereinstimmungsergebnisse 124 zu finden und behält Dokumente mit einem bestimmten Prozentsatz an Wörtern, die in der ursprünglichen Reihenfolge wie in dem Wörterbuch 200 beschrieben übereinstimmen.
  • Nach dem Gewinnen der anfänglichen Übereinstimmungsergebnisse 124 gewinnt die Abgleichsteuerkomponente 112 dann die endgültigen Übereinstimmungsergebnisse 128 aus den anfänglichen Übereinstimmungsergebnissen 124. In einigen Ausführungsformen gewinnt die Abgleichsteuerkomponente 112 die endgültigen Übereinstimmungsergebnisse 128 durch Durchführen von Verneinungsprüfungen und Prüfungen auf positive Begriffe für die anfänglichen Übereinstimmungsergebnisse 124. Die Verneinungsprüfung kann das Suchen nach den negativen Indikatoren 122 in den anfänglichen Übereinstimmungsergebnissen 124 und das Verwerfen jeglicher Ergebnisse mit den negativen Indikatoren 122 beinhalten. Die Prüfung auf positive Begriffe kann das Suchen nach Schlüsselwörtern oder Formulierungen, die in den anfänglichen Übereinstimmungsergebnissen 124 auftauchen müssen, und das Verwerfen jeglicher Ergebnisse, welche die positiven Begriffe nicht enthalten, beinhalten.
  • 3 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens 300 zum Herausziehen von Informationen aus elektronischen Dokumenten. Obwohl das Verfahren 300 in Verbindung mit dem Formulierungsabgleichsystem 100 aus 1 beschrieben wird, können Ausführungsformen des Verfahrens 300 mit anderen Arten des Formulierungsabgleichsystems 100 umgesetzt werden.
  • In einer Ausführungsform enthält das Formulierungsabgleichsystem 100 einen Übungsprozess 302 zum Erstellen eines organisierten Begriffswörterbuchs 306, das einem spezialisierten Wörterbuch 200 mit medizinischen Begriffen und Formulierungen wie zum Beispiel einem ICD-9-Quellwörterbuch entspricht. Das Wörterbuch 200 kann Diagnosen, Abläufe, Arzneimittel und andere medizinische Fachausdrücke enthalten. Der Übungsprozess 302 kann das Importieren des Wörterbuchs 200 und eines sich auf das Wörterbuch 200 beziehenden Übungshaupttextes 114 in die Übungssteuerkomponente 110 enthalten. Die Übungssteuerkomponente 110 verwendet die Begriffe und Formulierungen in dem Wörterbuch 200, um die in dem Übungshaupttext 114 verwendeten Begriffe und Varianten der Begriffe zu lernen. Die Übungssteuerkomponente 110 kann sämtliche Wörter aus dem Übungshaupttext 114 herausziehen und sie unter Verwendung von Sprachverarbeitungstechniken grammatisch in Sätze zergliedern. In einigen Ausführungsformen können die grammatisch zergliederten Sätze in dem Übungshaupttext 114 die negativen Indikatoren 122 oder positive Begriffe enthalten, die in Verbindung mit den Begriffen und Begriffsvarianten 116 aus dem Wörterbuch 200 verwendet werden. In einigen Ausführungsformen kann die Übungssteuerkomponente 110 die Präfixe 118 für die Begriffe und Begriffsvarianten 116 ermitteln und die Präfixe in einem Präfix-Wörterbuch speichern. Die Übungssteuerkomponente 110 kann auch eine Eingabe von einem allgemeinen Wörterbuch empfangen, um zusätzliche Wörter wie zum Beispiel Bindewörter zu ermitteln, die der Übungssteuerkomponente 110 beim grammatischen Zergliedern und beim Lernen der Begriffe und Begriffsvarianten 116 behilflich sein können.
  • In einer Ausführungsform können, nachdem die Übungssteuerkomponente 110 die Begriffe und Begriffsvarianten 116, die negativen Indikatoren 122 und/oder positive Begriffe gelernt hat, die gelernten Wörter und Formulierungen manuell organisiert 304 oder korrigiert werden. Ein Arzt mit Kenntnis der Begriffe und Begriffsvarianten 116 in dem Wörterbuch 200 kann die Liste der gelernten Wörter und Formulierungen durch Auswählen von durch die Abgleichsteuerkomponente 112 zu verwendenden Schlüsselwörtern und Entfernen anderer, unnötiger Begriffe manuell filtern. Die manuell organisierten Wörter und Formulierungen können in einem organisierten Begriffswörterbuch 306 gespeichert werden, das in Verbindung mit der Abgleichsteuerkomponente 112 zu verwenden ist.
  • In einer Ausführungsform enthält die Abgleichsteuerkomponente 112 einen Begriffsdetektor 308. Der Begriffsdetektor kann ein Formulierungssuchprogramm 310 enthalten, das so konfiguriert ist, dass es Formulierungen in einer Texteingabe aus einem Satz elektronischer Dokumente 202, die mit den Begriffen und Begriffsvarianten 116 in dem organisierten Begriffswörterbuch 306 abzugleichen sind, grammatisch zergliedert. In einigen Ausführungsformen kann der Begriffsdetektor Eingaben aus mehr als einem organisierten Begriffswörterbuch 306 enthalten. Das Formulierungssuchprogramm 310 kann Suchparameter empfangen, die bestimmen, wie die Texteingabe und andere Aspekte der Abgleichsteuerkomponente 112 grammatisch zu zergliedern sind. In einigen Ausführungsformen kann der Begriffsdetektor 310 eine Eingabe enthalten, um den Typ von Wörterbuch 306 anzugeben, das für das Abgleichen mit der Texteingabe verwendet wird. Dies kann besonders in Ausführungsformen hilfreich sein, in denen der Begriffsdetektor 308 für mehrere Anwendungen verwendet werden kann, die getrennte spezialisierte oder die organisierten Wörterbücher 306 verwendet. Das Formulierungssuchprogramm 310 kann so konfiguriert sein, dass es die Texteingabe nach Sätzen oder Formulierungen durchsucht, welche die Begriffe und Begriffsvarianten 116 aus den organisierten Wörterbüchern 306 enthalten, um Übereinstimmungsergebnisse zu erzeugen.
  • 4 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens 400 zum Herausziehen von Informationen aus elektronischen Dokumenten. Obwohl das Verfahren 400 in Verbindung mit dem Formulierungsabgleichsystem 100 aus 1 beschrieben wird, können Ausführungsformen des Verfahrens 400 mit anderen Arten des Formulierungsabgleichsystems 100 umgesetzt werden.
  • In einer Ausführungsform lernt 405 das Formulierungsabgleichsystem 100 die Begriffe und Begriffsvarianten 116 aus einem Übungshaupttext 114. Die Begriffe und Begriffsvarianten 116 können einem spezialisierten Wörterbuch 200 wie zum Beispiel einem ICD-9-Quellwörterbuch entsprechen, das Krankheitskennungs-Codenamen enthält. In einigen Ausführungsformen kann das ICD-9-Quellwörterbuch nach Krankheitskategorie oder irgendeiner anderen Teilmenge des Wörterbuchs 200 in kleinere Wörterbücher unterteilt sein.
  • Das Formulierungsabgleichsystem 100 kann dann eine Liste mit den in dem Übungshaupttext 114 gefundenen negativen Indikatoren 122 erzeugen 410. In einer Ausführungsform erzeugt das Formulierungsabgleichsystem 100 die Liste mit den negativen Indikatoren 122 unter Verwendung eines N-Gramm-Parameters, der eine Höchstzahl von aufeinanderfolgenden Wörtern für jede Formulierung festlegt, in der die negativen Indikatoren 122 gefunden werden. Eine Formulierung, in der ein negativer Indikator 122 gefunden wird, kann einen Teil oder das Ganze eines gegebenen Satzes darstellen.
  • In einer Ausführungsform empfängt das Formulierungsabgleichsystem 100 vor dem Durchführen des Abgleichs auf teilweise Übereinstimmung eine Eingabe zum manuellen Verfeinern 415 der aus dem Übungshaupttext 114 gelernten Begriffe und Begriffsvarianten 116. Die manuelle Verfeinerung kann das Entfernen der Begriffe oder Begriffsvarianten 116 oder das Hinzufügen der Begriffe oder Begriffsvarianten 116 enthalten. Die manuelle Verfeinerung kann auch das Abändern der von dem Formulierungsabgleichsystem 100 verwendeten negativen Indikatoren 122 und positiven Begriffe zum Gewinnen der endgültigen Übereinstimmungsergebnisse 128 enthalten.
  • In einer Ausführungsform führt das Formulierungsabgleichsystem 100 einen Abgleich auf teilweise Übereinstimmung der Begriffe und Begriffsvarianten 116 für einen Satz elektronischer Dokumente 202 durch 420, um die anfänglichen Übereinstimmungsergebnisse 124 zu erstellen. In einer Ausführungsform beinhaltet das Durchführen des Abgleichens auf teilweise Präfixübereinstimmung das Einteilen des Satzes elektronischer Dokumente 202 in Sätze. Nach dem Einteilen des Satzes elektronischer Dokumente 202 kann das Formulierungsabgleichsystem 100 beim Durchführen des Abgleichs auf teilweise Übereinstimmung für jeden Satz einen LCS-Wert 126 ermitteln 425. Der LCS-Wert 126 kann einer maximalen Teilmenge von Übereinstimmungen von Begriffen und Begriffsvarianten für jeden Satz entsprechen. Sätze mit einem LCS-Wert 126 über einem vorbestimmten Schwellwert können erhalten bleiben. Wenn der LCS-Wert 126 unter einem Schwellwert liegt, wird die teilweise Übereinstimmung verworfen 430.
  • In einer Ausführungsform führt das Formulierungsabgleichsystem 100 mit den anfänglichen Übereinstimmungsergebnissen 124 unter Verwendung der aus dem Übungshaupttext 114 gelernten negativen Indikatoren 122 eine Verneinungsprüfung durch 435. In einer Ausführungsform führt das Formulierungsabgleichsystem 100 unter Verwendung der Begriffe und Begriffsvarianten 116 für die anfänglichen Übereinstimmungsergebnisse 124 auch eine Prüfung auf positive Begriffe durch 440. In einer Ausführungsform beinhaltet die Prüfung auf positive Begriffe das Suchen nach Begriffsattributen 120 innerhalb der Höchstzahl von Wörtern gemäß dem N-Gramm-Parameter, welche die Begriffe und Begriffsvarianten 116 abändern. Die Begriffsattribute 120 können Adjektive enthalten, die einen Schweregrad eines Zustands („mäßig”, „ernst” usw.) beschreiben.
  • Das Formulierungsabgleichsystem 100 kann dann teilweise Übereinstimmungen aus den anfänglichen Ergebnissen verwerfen 430, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen. Die teilweisen Übereinstimmungen, welche die Verneinungsprüfung und die Prüfung auf positive Begriffe bestehen, werden für die endgültigen Übereinstimmungsergebnisse 128 beibehalten 445.
  • In einer Ausführungsform beinhaltet das Lernen der Begriffe und Begriffsvarianten 116 das Lernen eines gemeinsamen Präfixes 118 für jeden Begriff und jede Begriffsvariante. Das gemeinsame Präfix 118 kann eindeutig für ein einzelnes Wort sein. Bei den Präfixen 118 kann es sich in einigen Ausführungsformen um einen Wortstamm handeln. In einigen Ausführungsformen kann das gemeinsame Präfix 118 jede beliebige Länge annehmen, um eine Eindeutigkeitsanforderung zu erfüllen. In einer Ausführungsform beinhaltet das Durchführen eines Abgleichs auf teilweise Übereinstimmung das Abgleichen des gemeinsamen Präfixes 118 mit dem Satz elektronischer Dokumente 202 für jeden Begriff und für jede Begriffsvariante. Das Abgleichen des gemeinsamen Präfixes 118 für jeden Begriff kann es dem Formulierungsabgleichsystem 100 ermöglichen, schnell zu ermitteln, ob sich ein konkreter Begriff in jedem Zielsatz oder jeder Zielformulierung befindet. Wenn der zu suchende Begriff mit einem „m” beginnt und der Zielsatz keine mit dem Buchstaben „m” beginnenden Wörter enthält, weiß das Formulierungsabgleichsystem 100, dass der Begriff nicht in dem Zielsatz enthalten ist.
  • Eine Ausführungsform eines von dem Formulierungsabgleichsystem 100 verwendeten Algorithmus ist nachfolgend beschrieben. Das Formulierungsabgleichsystem 100 kann eine Liste mit auf ICD-Codes hinweisenden Diagnoseformulierungen lernen, indem es die Namensvarianten für gebräuchliche medizinische Begriffe (z. B. sind Regurgitation und Insuffizienz Synonyme) und einen Satz von Mindest-Präfixen 118 berücksichtigt, der für ein positives Erkennen dieser Formulierungen benötigt wird, um ein spezialisiertes ICD-9-Wörterbuch zu bilden. Dann werden aus Textberichten unter Verwendung einer beliebigen Standardtechnik zum Trennen von Sätzen in der Literatur Sätze herausgezogen. Unter Verwendung eines neuen Algorithmus, der die längste gemeinsame Teilsilbe in einer Formulierung findet, wird in jedem Satz ein Satz teilweise übereinstimmender Begriffe ausfindig gemacht. Jeder derartige beibehaltene Satz wird dann ausführlich nach negativen und positiven Anzeichen für die Abfrageformulierung ausgewertet.
  • Schließlich sucht der Algorithmus nach positiven Anzeichen von Formulierungen, die in der ICD-9-Code-Kennungsbeschreibung erwartet werden.
  • In einer Ausführungsform analysiert der Algorithmus zunächst automatisch ein ICD-9-Codewörterbuch mit Schlüsselbegriffen, das auch durch einen Arzt organisiert wurde.
    • 1. Herausziehen sämtlicher Wörter aus einem großen Übungshaupttext mit tatsächlichen Berichten und Erstellen eines umgekehrten Wörterbuchs mit sämtlichen durchgehenden Wörtern und all ihren Präfixen. Wenn mehr als ein Wort ein Präfix teilen, wird ein boolesches Flag platziert. Hierdurch wird das Präfix-Wörterbuch gebildet.
    • 2. Ausgehend von einer Liste mit ICD-9-Krankheitskennungs-Codenamen wird jedes durchgehende Wort in der Namensformulierung in dem Präfix-Wörterbuch nachgeschlagen und dessen größtes eindeutiges Präfix (boolesches Flag ist falsch) beibehalten. In einigen Fällen kann das gesamte Wort beibehalten werden.
    • 3. Beibehalten von Schlüsselbegriffen (manuell von Ärzten organisiert) aus der gesammelten Liste mit in Frage kommenden Präfixen. Die Präfixe können sicherstellen, dass die kleinsten Teilzeichenfolgen zum Angeben der Krankheitskennungsformulierung beibehalten werden, um die Trefferquote zu maximieren. Das letztendliche Filtern durch Ärzte kann sicherstellen, dass die beibehaltenen Präfixe von klinisch signifikanten Begriffen stammen. Ein häufig in den ICD-9 Krankheitskennungen auftretendes Wort ist zum Beispiel „unspezifiziert”. In der Präfix-Form kann der daraus gebildete Begriff „unspezif” lauten. Da dies in der eigentlichen Beschreibung der Krankheit selten erwähnt wird und möglicherweise abgeleitet werden muss, kann der Arzt entscheiden, dies als Suchbegriff wegzulassen.
  • Der Algorithmus findet dann eine Liste mit Verneinungsbegriffen durch Auswerten einer großen Sammlung von Berichten. Einige negative Indikatoren 122 wie zum Beispiel „nein” und „nicht gefunden” können leicht erkannt werden. Für unauffälligere negative Indikatoren 122 kann ein erzwungener, sich wiederholender Prozess zum Erzeugen von Kombinationen beruhend auf der Häufigkeit des Auftretens von Teilformulierungen verwendet werden. Die negativen Indikatoren 122 können eine relativ geringe Anzahl von Wörtern in Formulierungen enthalten. Bei einem langen Übungshaupttext 114 können sämtliche N-Gramme aus jedem Satz aus dem Haupttext wie folgt herausgezogen werden:
    • 1. Einteilen von Berichten in Sätze. Dafür können verschiedene Techniken zum Herausziehen von Sätzen verwendet werden.
    • 2. Gruppieren von K aufeinanderfolgenden Wörtern in Formulierungen (einschließlich Stoppwörter), wobei K variiert wird. Es können verschiedene Bereiche für K ausprobiert werden, obwohl beruhend auf der Annahme, dass in einer dieser aufeinanderfolgenden Wortgruppen, genannt Teilformulierung (phraselet), Teile von Verneinungs-N-Grammen gefunden werden können, ein Bereich von 1 bis 10 verwendet werden kann.
    • 3. Grafisches Darstellen der Häufigkeit des Auftretens dieser Teilformulierungen in der Sammlung in geordneter Reihenfolge und manuelles Beibehalten von M Auswahlen beruhend auf deren teilweisen Anzeichen für Verneinungen. Die Formulierung „es gibt keine Anzeichen für” kann eine eindeutige Auswahl sein. Automatisches Sichten kann einem Beobachter den Bereich möglicher Formulierungen angeben, aus denen er wählen kann. In einer Ausführungsform wird die ärztliche Kenntnis von Berichten für das Durchführen der M Auswahlen verwendet.
    • 4. Aus den beibehaltenen Formulierungen bilden M Formulierungen MxM/2 Kombinationen von Formulierungen zum Erweitern der Suche nach Verneinungen. Die Formulierung „es gibt keine Anzeichen für...” und „...wurde aber nicht erkannt” kann in einer Formulierung verknüpft werden – „es gibt keine Anzeichen für <Tab> wurde aber nicht erkannt”.
    • 5. Jede beibehaltene Formulierung kann dann in sämtlichen Sätzen in dem Übungshaupttext gesucht werden, indem ein Teilübereinstimmungsalgorithmus mit längstem gemeinsamen Präfix mit einem Präfix-Höchstgrenzwert von 1,0 verwendet wird – jedes Wort in der Formulierung weist bei Vorliegen eine genaue Übereinstimmung auf. Die Häufigkeit des Auftretens jeder derartigen Formulierung kann aufgezeichnet werden. Der „<Tab>” in der verknüpften Formulierung kann während des Abgleichens von Formulierungen ignoriert werden.
    • 6. Wiederholen der Arbeitsschritte 3 bis 5 mit neu erfassten Teilformulierungen, bis die Häufigkeit des Auftretens des höchsten Begriffs auf einen vorbestimmten Schwellwert (zum Beispiel < 1%) fällt oder die Anzahl von Wörtern in der Formulierung eine Höchstzahl überschreitet.
    • 7. Die Liste der letztendlich beibehaltenen Teilformulierungen bildet die Verneinungs-N-Gramme. Jeder Block aufeinanderfolgender Wörter in dem N-Gramm wird durch „<Tab>” getrennt, um sowohl genaue Übereinstimmungen (für den Block aufeinanderfolgender Wörter) als auch teilweise Übereinstimmungen (zwischen den durch „Tab” getrennten Wörtern zu ermöglichen.
  • Arbeitsschritte zum Lernen der Begriffe und Begriffsvarianten 116 und der negativen Indikatoren 122 können in Polynomialzeit durchgeführt werden, um exponentielle Teilmengenarbeitsschritte zu vermeiden, die sonst möglicherweise benötigt werden. Außerdem können derartige Arbeitsschritte vor dem Abgleichen jeglicher Dokumente durchgeführt werden.
  • Der Algorithmus führt dann beruhend auf der längsten gemeinsamen Teilsilbe einen Teilübereinstimmungsalgorithmus durch. Mit der Liste von Krankheitsnamen aus dem organisierten ICD-9-Wörterbuch und einem neuen Bericht, aus dem die Diagnosecodes abzuleiten sind, läuft der Algorithmus wie folgt:
    • 1. Einteilen des Berichts in Sätze.
    • 2. Für sämtliche Krankheitsnamen aus dem organisierten ICD-9-Wörterbuch wird ein Abgleich auf teilweise Übereinstimmung mit den Sätzen durchgeführt. Diejenigen, deren Wert der längsten gemeinsamen Teilsilbe (LCSx, longest common subfix) über einem Schwellwert liegt, werden beibehalten. Eine andere Wahl des Schwellwerts variiert die Genauigkeit und die Trefferquote und kann beruhend auf der gewünschten Genauigkeit und Trefferquote aus der Kurve zur Grenzwertoptimierung (ROC, Receiver Operating Characteristic) ausgewählt werden. In einer Ausführungsform wird eine Auswahl von 0,6 verwendet. Die längste gemeinsame Teilsilbe wird unter Verwendung von dynamischer Programmierung wie folgt ausfindig gemacht:
    • a. Bei einer Abfrageformulierung S = {s1, s2, ...sK} mit K Wörtern und einem in Frage kommenden Satz T = {t1, t2, ....tN} beträgt die längste gemeinsame Teilsilbe LCSx(S,T) = {c1, c2...cL}, wobei L die größte Teilmenge von Wörtern aus S ist, bei denen in T eine teilweise Übereinstimmung gefunden wurde. Eine teilweise Übereinstimmung eines Wortes si in S stellt ein Wort tj in T mit einem gemeinsamen Präfix über einem Schwellwert dar. Bei einem Schwellwert von 1,0 wird auf den Fall des Findens genauer Übereinstimmungen mit Wörtern aus S beschränkt, obgleich die längste gemeinsame Teilzeichenfolge weiterhin ein teilweises Übereinstimmen einer Zahl von Wörtern in S zulässt. Die längste gemeinsame Teilsilbe kann durch Verwendung von dynamischer Programmierung ausfindig gemacht werden, ähnlich wie eine längste gemeinsame Teilzeichenfolge, aber mit der bedeutenden Änderung, dass die dynamische Programmierung auf Wortebene durchgeführt wird und Präfix-Übereinstimmungen verwendet werden. Dazu wird eine Anordnung C[i,j] dafür verwendet, den Wert der Übereinstimmung eines Teils von S bis zum i-ten Wort und mit einem Teil von T bis zum j-ten Wort wie folgt zu berechnen:
  • Figure 00220001
  • Figure 00230001
  • Der Algorithmus wendet während des Abgleichens von Formulierungen auch Verneinungen auf Begriffe mit positiven Anzeichen an. Sobald der Satz von Sätzen, die den Abgleich von Teilformulierungen bestanden haben, beibehalten wird, werden weitere Anzeichen für einen Diagnosecode innerhalb des Berichts wie folgt erfasst:
    • 1. Für jede Verneinungsteilformulierung aus der gelernten Liste mit Verneinungsformulierungen und einen in Frage kommenden Satz mit teilweiser Übereinstimmung:
    • a. für jede Wortgruppe in einer gewählten Teilformulierung
    • i. wenn für die Wortgruppe keine genaue Übereinstimmung gefunden wird, Annehmen der teilweisen Übereinstimmung für den ICD-Code und Beenden.
    • b. Verwerfen der teilweisen Übereinstimmung des ICD-Codes, wenn sämtliche Wortgruppen in der gewählten Teilformulierung übereinstimmen.
    • 2. Für jeden beibehaltenen in Frage kommenden Satz mit teilweiser Übereinstimmung und die betrachtete ICD-9-Code-Krankheitskennung:
    • c. für jeden unbedingt erforderlichen Schlüsselbegriff aus dem ICD-9-Wörterbuch, welcher der in Frage kommenden Krankheitskennung entspricht
    • ii wenn in dem in Frage kommenden Satz keine genaue Übereinstimmung mit dem Schlüsselbegriff gefunden wird, Verwerfen der Übereinstimmung.
    • 3. Beibehalten sämtlicher übereinstimmender Sätze und deren entsprechender ICD-9-Codes und Krankheitskennungen.
    • 4. Entfernen doppelter ICD-9-Codes und Krankheitskennungen (verschiedene Krankheitskennungen könnten dieselben ICD-9-Codes aufweisen) zwecks Überflüssigkeit. Dies ist die endgültige Liste von aus dem Bericht abgeleiteten Diagnosekennungen.
  • Eine Ausführungsform eines Formulierungsabgleichsystems 100 enthält zumindest einen Prozessor, der über einen Systembus wie zum Beispiel einen Daten-, Adress- und/oder Steuerbus direkt oder indirekt mit Speicherelementen verbunden ist. Zu den Speicherelementen können ein lokaler Speicher, der während der eigentlichen Ausführung des Programmcodes eingesetzt wird, Massenspeicher sowie Cachespeicher gehören, die eine vorübergehende Speicherung von zumindest etwas Programmcode bereitstellen, um die Häufigkeit zu verringern, mit der Code während der Ausführung von dem Massenspeicher abgerufen werden muss.
  • Es sei auch angemerkt, dass zumindest einige der Arbeitsschritte für die Verfahren unter Verwendung von auf einem durch einen Computer verwendbaren Speichermedium gespeicherten Software-Anweisungen zum Ausführen durch einen Computer umgesetzt werden können. Als Beispiel enthält eine Ausführungsform eines Computerprogrammprodukts ein durch einen Computer verwendbares Speichermedium zum Speichern eines durch einen Computer lesbaren Programms, das beim Ausführen auf einem Computer den Computer dazu veranlasst, Arbeitsschritte durchzuführen, darunter einen Arbeitsschritt zum Herausziehen von Informationen aus elektronischen Dokumenten.
  • Obwohl die Arbeitsschritte des/der Verfahren(s) hierin in einer bestimmten Reihenfolge gezeigt und beschrieben werden, kann die Reihenfolge der Arbeitsschritte jedes Verfahrens geändert werden, so dass bestimmte Arbeitsschritte in umgekehrter Reihenfolge durchgeführt werden können, oder dass bestimmte Arbeitsschritte zumindest teilweise gleichzeitig mit anderen Arbeitsschritten durchgeführt werden können. In einer anderen Ausführungsform können Anweisungen oder Teilarbeitsschritte einzelner Arbeitsschritte periodisch und/oder abwechselnd ausgeführt werden.
  • Ausführungsformen der Erfindung können als vollständige Hardware-Ausführungsform, als vollständige Software-Ausführungsform oder als Ausführungsform, die sowohl Hardware- als auch Software-Elemente enthält, ausgeführt werden. In einer Ausführungsform ist die Erfindung als Software realisiert, darunter Firmware, im Speicher befindliche Software, Mikrocode usw., aber nicht darauf beschränkt.
  • Des Weiteren können Ausführungsformen der Erfindung die Form eines Computerprogrammprodukts annehmen, auf das von einem durch einen Computer verwendbaren bzw. durch einen Computer lesbaren Medium zugegriffen werden kann, das Programmcode bereitstellt, das von oder in Verbindung mit einem Computer oder jedem beliebigen Anweisungsausführungssystem verwendet wird. Für diese Beschreibung kann ein auf einem Computer verwendbares bzw. durch einen Computer lesbares Medium jede beliebige Vorrichtung sein, die das Programm, das von oder in Verbindung mit dem Anweisungsausführungssystem, der Vorrichtung oder der Einheit verwendet wird, enthalten, speichern, übertragen, verbreiten bzw. transportieren kann.
  • Bei dem durch einen Computer verwendbaren oder durch einen Computer lesbaren Medium kann es sich um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem (bzw. eine derartige Vorrichtung oder Einheit) oder ein Verbreitungsmedium handeln. Zu Beispielen für ein durch einen Computer lesbares Medium zählen ein Halbleiter- oder Festkörperspeicher, Magnetband, eine auswechselbare Computerdiskette, Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), eine starre Magnetplatte und eine optische Platte. Zu aktuellen Beispielen optischer Platten gehören eine Kompaktdisk mit Nur-Lese-Speicher (CD-ROM), eine Kompaktdisk mit Lesen/Schreiben (CD-R/W) und eine digitale Videoplatte (DVD).
  • Eingabe/Ausgabe- bzw. E/A-Einheiten (einschließlich Tastaturen, Anzeigen, Zeigegeräte usw., ohne darauf beschränkt zu sein) können entweder direkt oder über mitbeteiligte E/A-Steuereinheiten mit dem System verbunden werden. Außerdem können auch Netzwerkadapter mit dem System verbunden werden, um es dem Datenverarbeitungssystem zu ermöglichen, über mitbeteiligte private oder öffentliche Netzwerke mit anderen Datenverarbeitungssystemen oder entfernt angeordneten Druckern oder Speichervorrichtungen verbunden zu werden. Modems, Kabelmodems und Ethernet-Karten sind nur einige wenige der momentan verfügbaren Arten von Netzwerkadaptern.
  • In obiger Beschreibung werden spezifische Einzelheiten verschiedener Ausführungsformen bereitgestellt. Einige Ausführungsformen können jedoch mit weniger als all diesen spezifischen Einzelheiten angewendet werden. In anderen Fällen werden bestimmte Verfahren, Abläufe, Komponenten, Strukturen und/oder Funktionen der Kürze und Klarheit halber nicht ausführlicher beschrieben, als für die Ermöglichung der verschiedenen Ausführungsformen der Erfindung nötig ist.
  • Obwohl konkrete Ausführungsformen der Erfindung beschrieben und veranschaulicht wurden, ist die Erfindung nicht auf die konkreten, derart beschriebenen und veranschaulichten Formen oder Anordnungen von Teilen beschränkt. Der Umfang der Erfindung soll durch die hierzu beigefügten Ansprüche und deren Entsprechungen festgelegt werden.

Claims (10)

  1. Computerprogrammprodukt, aufweisend: ein durch einen Computer lesbares Speichermedium zum Speichern eines durch einen Computer lesbaren Programms, wobei das durch einen Computer lesbare Programm beim Ausführen durch einen Prozessor innerhalb eines Computers den Computer dazu veranlasst, Arbeitsschritte zum Herausziehen von Informationen aus elektronischen Dokumenten durchzuführen, wobei die Arbeitsschritte aufweisen: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben.
  2. Computerprogrammprodukt nach Anspruch 1, wobei das Erzeugen der Liste mit negativen Indikatoren ferner aufweist: Suchen nach den negativen Indikatoren in dem Übungshaupttext unter Verwendung eines N-Gramm-Parameters, wobei der N-Gramm-Parameter eine Höchstzahl von aufeinanderfolgenden Wörtern für jede Formulierung festlegt, in der die negativen Indikatoren gefunden werden.
  3. Computerprogrammprodukt nach Anspruch 2, wobei das Durchführen der Prüfung auf positive Begriffe ferner aufweist: Suchen nach Begriffsattributen innerhalb der Höchstzahl von Wörtern gemäß dem N-Gramm-Parameter, wobei die Begriffsattribute die Begriffe und die Begriffsvarianten abändern.
  4. Computerprogrammprodukt nach Anspruch 1, wobei das Lernen der Begriffe und Begriffsvarianten ferner das Lernen eines gemeinsamen Präfixes für jeden Begriff und jede Begriffsvariante aufweist, wobei jedes gemeinsame Präfix eindeutig für ein einzelnes Wort ist.
  5. Computerprogrammprodukt nach Anspruch 4, wobei das Durchführen des Abgleichs auf teilweise Übereinstimmung ferner das Abgleichen des gemeinsamen Präfixes für jeden Begriff und für jede Begriffsvariante mit dem Satz elektronischer Dokumente aufweist.
  6. Computerprogrammprodukt nach Anspruch 1, wobei das Durchführen des Abgleichens auf teilweise Präfixübereinstimmung ferner aufweist: Einteilen des Satzes elektronischer Dokumente in Sätze; Ermitteln eines Wertes der längsten gemeinsamen Teilsilbe für jeden Satz, wobei der Wert der längsten gemeinsamen Teilsilbe einer maximalen Teilmenge von Übereinstimmungen von Begriffen und Begriffsvarianten für jeden Satz entspricht; und Beibehalten von Sätzen, deren Wert der längsten gemeinsamen Teilsilbe über einem vorbestimmten Schwellwert liegt.
  7. Computerprogrammprodukt nach Anspruch 1, wobei das durch einen Computer lesbare Programm beim Ausführen auf dem Computer den Computer dazu veranlasst, zusätzliche Arbeitsschritte durchzuführen, aufweisend: manuelles Verfeinern der aus dem Übungshaupttext gelernten Begriffe und Begriffsvarianten vor dem Durchführen des Abgleichs auf teilweise Übereinstimmung, wobei elektronische Dokumente Krankenakten aufweisen.
  8. Verfahren zum Herausziehen von Informationen aus elektronischen Dokumenten, aufweisend: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben.
  9. Formulierungsabgleichsystem, aufweisend: eine Übungssteuerkomponente, die so konfiguriert ist, dass sie: Begriffe und Begriffsvarianten aus einem Übungshaupttext lernt, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; und eine Liste von in dem Übungshaupttext gefundenen negativen Indikatoren erzeugt; und eine Abgleichsteuerkomponente, die so konfiguriert ist, dass sie: einen Abgleich auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente durchführt, um anfängliche Übereinstimmungsergebnisse zu erstellen; und eine Verneinungsprüfung unter Verwendung der negativen Indikatoren und eine Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse durchführt, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben.
  10. System nach Anspruch 9, wobei die Übungssteuerkomponente ferner so konfiguriert ist, dass sie: eine Eingabe empfängt, um die aus dem Übungshaupttext gelernten Begriffe und Begriffsvarianten manuell zu verfeinern, wobei elektronische Dokumente Krankenakten aufweisen.
DE102013202365A 2012-02-29 2013-02-14 Herausziehen von informationen aus krankenakten Ceased DE102013202365A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/408,906 US8793199B2 (en) 2012-02-29 2012-02-29 Extraction of information from clinical reports
US13/408,906 2012-02-29

Publications (1)

Publication Number Publication Date
DE102013202365A1 true DE102013202365A1 (de) 2013-08-29

Family

ID=48950960

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013202365A Ceased DE102013202365A1 (de) 2012-02-29 2013-02-14 Herausziehen von informationen aus krankenakten

Country Status (3)

Country Link
US (2) US8793199B2 (de)
CN (1) CN103294764B (de)
DE (1) DE102013202365A1 (de)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793199B2 (en) * 2012-02-29 2014-07-29 International Business Machines Corporation Extraction of information from clinical reports
US10007407B2 (en) 2014-11-03 2018-06-26 Cerner Innovation, Inc. Duplication detection in clinical documentation to update a clinician
US9842390B2 (en) * 2015-02-06 2017-12-12 International Business Machines Corporation Automatic ground truth generation for medical image collections
US20160306925A1 (en) * 2015-04-14 2016-10-20 Synaptive Medical (Barbados) Inc. Method and system for performing quality control testing of medical imaging studies
AU2016250552A1 (en) * 2015-04-21 2017-11-16 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for generating concepts from a document corpus
CN107515851B (zh) * 2016-06-16 2021-09-10 佳能株式会社 用于共指消解、信息提取以及相似文档检索的装置和方法
US20180025121A1 (en) * 2016-07-20 2018-01-25 Baidu Usa Llc Systems and methods for finer-grained medical entity extraction
US11195128B2 (en) 2016-08-02 2021-12-07 Baidu Usa Llc Systems and methods for estimating healthcare resource demand
US10755804B2 (en) 2016-08-10 2020-08-25 Talix, Inc. Health information system for searching, analyzing and annotating patient data
JP6737117B2 (ja) * 2016-10-07 2020-08-05 富士通株式会社 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置
US10599771B2 (en) * 2017-04-10 2020-03-24 International Business Machines Corporation Negation scope analysis for negation detection
CN107145584B (zh) * 2017-05-10 2020-06-19 西南科技大学 一种基于n-gram模型的简历解析方法
CN110019641B (zh) * 2017-07-27 2023-09-08 北大医疗信息技术有限公司 一种医疗否定术语的检出方法及系统
WO2019045759A1 (en) * 2017-08-30 2019-03-07 Google Llc AUTOMATIC LEARNING METHOD FOR GENERATING TAGS FOR FLOUSED RESULTS
US10713306B2 (en) * 2017-09-22 2020-07-14 Microsoft Technology Licensing, Llc Content pattern based automatic document classification
US10679345B2 (en) 2017-12-20 2020-06-09 International Business Machines Corporation Automatic contour annotation of medical images based on correlations with medical reports
US11748566B1 (en) * 2018-09-28 2023-09-05 Change Healthcare Holdings, Llc Methods and apparatuses for utilizing machine learning to improve accuracy of records evaluation
CN109657245B (zh) * 2018-12-18 2022-11-08 浙江大学常州工业技术研究院 一种电子病历的语意识别方法
US10817669B2 (en) * 2019-01-14 2020-10-27 International Business Machines Corporation Automatic classification of adverse event text fragments
US11574713B2 (en) 2019-07-17 2023-02-07 International Business Machines Corporation Detecting discrepancies between clinical notes and administrative records
US11322234B2 (en) 2019-07-25 2022-05-03 International Business Machines Corporation Automated content avoidance based on medical conditions
WO2021026533A1 (en) * 2019-08-08 2021-02-11 Augmedix Operating Corporation Method of labeling and automating information associations for clinical applications
US11532387B2 (en) 2019-08-22 2022-12-20 International Business Machines Corporation Identifying information in plain text narratives EMRs
US20210057063A1 (en) * 2019-08-23 2021-02-25 Regents Of The University Of Minnesota Extracting clinically relevant information from medical records
US11222166B2 (en) * 2019-11-19 2022-01-11 International Business Machines Corporation Iteratively expanding concepts
CN111126018B (zh) * 2019-11-25 2023-08-08 泰康保险集团股份有限公司 表单生成方法及装置、存储介质、电子设备
US11423223B2 (en) * 2019-12-02 2022-08-23 International Business Machines Corporation Dynamic creation/expansion of cognitive model dictionaries based on analysis of natural language content
US11625422B2 (en) 2019-12-02 2023-04-11 Merative Us L.P. Context based surface form generation for cognitive system dictionaries
CN111009296B (zh) * 2019-12-06 2023-05-09 安翰科技(武汉)股份有限公司 胶囊内窥镜检查报告标注方法、设备及介质
CN111243700B (zh) * 2020-01-15 2023-09-29 创业慧康科技股份有限公司 一种电子病历输入方法及装置
US11709877B2 (en) * 2020-01-20 2023-07-25 International Business Machines Corporation Systems and methods for targeted annotation of data
US20210334462A1 (en) * 2020-04-23 2021-10-28 Parkland Center For Clinical Innovation System and Method for Processing Negation Expressions in Natural Language Processing
US11763081B2 (en) 2020-10-02 2023-09-19 Merative Us L.P. Extracting fine grain labels from medical imaging reports
US11244755B1 (en) 2020-10-02 2022-02-08 International Business Machines Corporation Automatic generation of medical imaging reports based on fine grained finding labels
US11586821B2 (en) * 2020-11-25 2023-02-21 Iqvia Inc. Classification code parser
US11928186B2 (en) 2021-11-01 2024-03-12 International Business Machines Corporation Combined deep learning and knowledge driven reasoning for artificial intelligence classification

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537586A (en) 1992-04-30 1996-07-16 Individual, Inc. Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures
NZ248751A (en) 1994-03-23 1997-11-24 Ryan John Kevin Text analysis and coding
US5664109A (en) 1995-06-07 1997-09-02 E-Systems, Inc. Method for extracting pre-defined data items from medical service records generated by health care providers
US6182029B1 (en) 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
US6055494A (en) 1996-10-28 2000-04-25 The Trustees Of Columbia University In The City Of New York System and method for medical language extraction and encoding
US5784635A (en) 1996-12-31 1998-07-21 Integration Concepts, Inc. System and method for the rationalization of physician data
WO1999005621A1 (en) 1997-07-22 1999-02-04 Microsoft Corporation System for processing textual inputs using natural language processing techniques
AU9513198A (en) 1997-09-30 1999-04-23 Ihc Health Services, Inc. Aprobabilistic system for natural language processing
US6915254B1 (en) 1998-07-30 2005-07-05 A-Life Medical, Inc. Automatically assigning medical codes using natural language processing
US6438533B1 (en) 1998-10-30 2002-08-20 College Of American Pathologists System for retrieval of information from data structure of medical records
US20020198739A1 (en) 2001-01-05 2002-12-26 Lau Lee Min Matching and mapping clinical data to a standard
US6694307B2 (en) 2001-03-07 2004-02-17 Netvention System for collecting specific information from several sources of unstructured digitized data
US7809585B1 (en) 2002-06-12 2010-10-05 Anvita, Inc. System and method for patient-specific optimization of medical therapy by simultaneous symbolic reasoning in all clinical dimensions
US7249012B2 (en) 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
WO2004066122A2 (en) 2003-01-16 2004-08-05 Fabricant Christopher J Method and system for facilitating medical diagnostic coding
US7509313B2 (en) 2003-08-21 2009-03-24 Idilia Inc. System and method for processing a query
WO2005103978A2 (en) 2004-04-15 2005-11-03 Artifical Medical Intelligence, Inc. System and method for automatic assignment of medical codes to unformatted data
US7610192B1 (en) 2006-03-22 2009-10-27 Patrick William Jamieson Process and system for high precision coding of free text documents against a standard lexicon
US8676605B2 (en) 2006-12-20 2014-03-18 Artificial Medical Intelligence, Inc. Delphi method for medical coding
US20080228769A1 (en) 2007-03-15 2008-09-18 Siemens Medical Solutions Usa, Inc. Medical Entity Extraction From Patient Data
US7788213B2 (en) 2007-06-08 2010-08-31 International Business Machines Corporation System and method for a multiple disciplinary normalization of source for metadata integration with ETL processing layer of complex data across multiple claim engine sources in support of the creation of universal/enterprise healthcare claims record
US20090083027A1 (en) 2007-08-16 2009-03-26 Hollingsworth William A Automatic text skimming using lexical chains
US7512576B1 (en) * 2008-01-16 2009-03-31 International Business Machines Corporation Automatically generated ontology by combining structured and/or semi-structured knowledge sources
US7783342B2 (en) * 2008-04-21 2010-08-24 International Business Machines Corporation System and method for inferring disease similarity by shape matching of ECG time series
US7836356B2 (en) * 2008-04-28 2010-11-16 International Business Machines Corporation Method for monitoring dependent metric streams for anomalies
US8417709B2 (en) * 2010-05-27 2013-04-09 International Business Machines Corporation Automatic refinement of information extraction rules
US8750375B2 (en) * 2010-06-19 2014-06-10 International Business Machines Corporation Echocardiogram view classification using edge filtered scale-invariant motion features
US8712122B2 (en) * 2011-03-31 2014-04-29 International Business Machines Corporation Shape based similarity of continuous wave doppler images
US9147178B2 (en) * 2012-01-16 2015-09-29 International Business Machines Corporation De-identification in visual media data
US8793199B2 (en) * 2012-02-29 2014-07-29 International Business Machines Corporation Extraction of information from clinical reports
US20130318075A1 (en) * 2012-05-25 2013-11-28 International Business Machines Corporation Dictionary refinement for information extraction
US9092849B2 (en) * 2013-06-28 2015-07-28 International Business Machines Corporation Bidirectional blood vessel segmentation
US9215243B2 (en) * 2013-09-30 2015-12-15 Globalfoundries Inc. Identifying and ranking pirated media content
US9135272B2 (en) * 2013-10-04 2015-09-15 International Business Machines Corporation Finding similar coronary angiograms in a database

Also Published As

Publication number Publication date
US9734297B2 (en) 2017-08-15
US20130226843A1 (en) 2013-08-29
US8793199B2 (en) 2014-07-29
US20130226841A1 (en) 2013-08-29
CN103294764A (zh) 2013-09-11
CN103294764B (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
DE102013202365A1 (de) Herausziehen von informationen aus krankenakten
JP7008772B2 (ja) 電子診療レコードからの医学的状態および事実の自動的特定および抽出
DE112018001996T5 (de) Systeme und verfahren zur modellgestützten kohortenauswahl
DE102014113870A1 (de) Identifizieren und Anzeigen von Beziehungen zwischen Kandidatenantworten
DE112018004376T5 (de) Schützen kognitiver systeme vor auf gradienten beruhenden angriffen durch die verwendung irreführender gradienten
DE112019001136T5 (de) Analyse unerwünschter arzneimittelwirkungen
DE112020003311T5 (de) Verarbeitung natürlicher sprache unter verwendung eines ontologiegestützten modells zur begriffseinbettung
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE112017006151T5 (de) Anpassbare Verarbeitungskomponenten
DE10333530A1 (de) Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche
US20200075135A1 (en) Trial planning support apparatus, trial planning support method, and storage medium
US11468989B2 (en) Machine-aided dialog system and medical condition inquiry apparatus and method
US11538567B2 (en) Expert report editor
DE112019000747T5 (de) Einer erkrankung und/oder behandlung eines patienten zugehörige augmented-reality-vorlage
US11630874B2 (en) Method and system for context-sensitive assessment of clinical findings
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
DE112020002129T5 (de) Deep-learning-ansatz für datenverarbeitungsspannen
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE112017007530T5 (de) Entitätsmodell-erstellung
CN112017744A (zh) 电子病例自动生成方法、装置、设备及存储介质
CN111128388A (zh) 一种值域数据匹配方法、装置及相关产品
DE102018007024A1 (de) Dokumentdurchsuchen mittels grammatischer einheiten
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
CN108319580A (zh) 诊断词归一方法及装置
CN112561714B (zh) 基于nlp技术的核保风险预测方法、装置及相关设备

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final
R003 Refusal decision now final

Effective date: 20150303