DE102013202365A1

DE102013202365A1 - Herausziehen von informationen aus krankenakten

Info

Publication number: DE102013202365A1
Application number: DE102013202365A
Authority: DE
Inventors: Tanveer F. Syeda-Mahmood; Laura Chiticariu
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-02-29
Filing date: 2013-02-14
Publication date: 2013-08-29
Also published as: US9734297B2; US20130226843A1; US8793199B2; US20130226841A1; CN103294764A; CN103294764B

Abstract

Ein Verfahren zum Herausziehen von Informationen aus elektronischen Dokumenten, das Folgendes beinhaltet: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben.

Description

HINTERGRUND
Aus der Verfügbarkeit von integrierten Informationen durch große Patienten-Repositories gehen neuere Entscheidungsunterstützungssysteme hervor, die Ärzte von übereinstimmenden Meinungen anderer Ärzte profitieren lassen, die ähnliche Patienten untersucht haben. Diese beruhen auf Techniken des inhaltsbasierten Abfragens unter Verwendung einer zugrunde liegenden Ähnlichkeit von Patientendiagnosedaten zum Ableiten der Ähnlichkeit deren diagnostizierter Krankheiten. Messprotokolle stellen eine wichtige Quelle von Diagnosedaten dar. Diese Dokumente fassen die Ergebnisse aus vielen Diagnoseeinstellungen zusammen und zeichnen wichtige, von verschiedenen Prüfungen unterzogenen Einheiten stammende Messungen auf. Derartige Protokolle können auch schriftliche Beschreibungen der verschiedenen Strukturen enthalten und konkrete Ergebnisse dokumentieren, die auf Schlussfolgerungen bezüglich der Diagnose hindeuten.
Während das vollständige Verstehen der natürlichen Sprache derartiger Protokolle ein schwieriges Problem darstellt, müssen häufig ausreichend klinische Daten aus diesen Protokollen herausgezogen werden, um eine lineare Krankenakte des Patienten zu vervollständigen. Obwohl elektronische Krankenaktensysteme klinische Daten erfassen, liegen die für die Diagnose nützlichen Informationen häufig in anderen Systemen und in einem unstrukturierten Format vor, so dass eine vollständig lineare Krankenakte eines Patienten das Analysieren der unstrukturierten Daten erfordern kann. Die Krankenakten, insbesondere die in Abschriftsystemen, Radiologiesystemen und Kardiologiesystemen vorhandenen, bilden eine wichtige Quelle klinischer Daten wie zum Beispiel demografische Daten (Impfung, Allergien), Familienanamnese (ein Verwandter, der eine Krankheit hatte), diagnostische Untersuchungsmessungen (z. B. Bereich der linken Herzkammer), Medikamente, Eingriffe und andere Behandlungen sowie deren Ergebnisse. Das Herausziehen dieser Arten von Informationen kann auf zwei grundsätzliche Arten von Arbeitsschritten eingeschränkt werden – nämlich das Finden von textlichen Formulierungen, welche die Art der klinischen Daten angeben, die herausgezogen werden, und das Finden von Namen/Wert-Paaren, welche die Paarbildung zwischen Messungen und deren Werten angeben.
Ein Beispiel enthält das Ableiten von Diagnosekennungen aus Protokollen, wobei es sich um einen wichtigen Vorverarbeitungsschritt für viele Evidenzerzeugungstätigkeiten (evidence generation activities) im Gesundheitswesen handelt. Die Kenntnis der Diagnosekennung hilft beim Einstufen der Daten und beim Verwenden dieser zum direkten Nachschlagen von Patienten mit konkreten Krankheiten. Sie ermöglicht auch das Gruppieren von Patienten mit ähnlichen Krankheiten zum Unterstützen von Entscheidungen und ermöglicht eine Konsistenzprüfung der aufgezeichneten Diagnose in elektronischen Krankenblattsystemen (EMR, electronic medical record). Sie kann auch Auswirkungen auf die Qualitätskontrolle und das Verwalten der Umsatzrealisierung haben, da fehlende oder falsche Diagnosecodes zu einem Verlust von Umsatz durch unzureichende Abrechnungen sowie zu Verbindlichkeiten und Problemen mit der Qualität der Fürsorge auf Grund von Fehldiagnosen führen können.
Das Ableiten von Diagnosekennungen aus Protokollen kann eine ziemliche Herausforderung darstellen, da Doktoren selten dieselbe Formulierung wie die Definition eines Diagnosecodes (ICD9) verwenden. Ein Diagnosecode für Mitralstenose (394.0) kann zum Beispiel aus einer Beschreibung in einem Text wie zum Beispiel ,Es gibt Anzeichen für eine Stenose der Mitralklappe bei dem Patienten' abgeleitet werden.
Obwohl Freitext-Suchmaschinen genaue Übereinstimmungen von Wörtern in Formulierungen in derartigen Protokollen finden können, können sie Abwandlungen bei der Bildung einer wie oben aufgeführten Formulierung, welche die Gesamtbedeutung bewahren, nicht ohne Weiteres handhaben. Das Finden von einer gewünschten Information (wie zum Beispiel einer Diagnosekennung) entsprechenden textlichen Formulierungen erfordert (a) Kenntnis der relevanten Wortschatzbegriffe, (b) das Vorkatalogisieren möglicher Abwandlungen deren Vorkommens in medizinischen Texten, (c) das Auffinden zuverlässiger Verneinungen, die eine gegenteilige Bedeutung mit sich bringen, und (d) leistungsfähige Algorithmen zum Finden von übereinstimmenden Formulierungen, welche die Abwandlungen beim Verwenden von Begriffen zulassen.
KURZDARSTELLUNG
Es werden Ausführungsformen eines Systems beschrieben. In einer Ausführungsform handelt es sich bei dem System um ein Formulierungsabgleichsystem. Das System enthält eine Übungssteuerkomponente (training engine), die so konfiguriert ist, dass sie: Begriffe und Begriffsvarianten aus einem Übungshaupttext (training corpus) lernt, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; und eine Liste von in dem Übungshaupttext gefundenen negativen Indikatoren erzeugt; und eine Abgleichsteuerkomponente (matching engine), die so konfiguriert ist, dass sie: einen Abgleich auf teilweise Übereinstimmung (partial match) der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente durchführt, um anfängliche Übereinstimmungsergebnisse zu erstellen; und für die anfänglichen Übereinstimmungsergebnisse unter Verwendung der negativen Indikatoren eine Verneinungsprüfung und unter Verwendung der Begriffe und der Begriffsvarianten eine Prüfung auf positive Begriffe durchführt, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben. Es werden auch andere Ausführungsformen des Systems beschrieben.
Es werden auch Ausführungsformen eines Computerprogrammprodukts beschrieben. In einer Ausführungsform enthält ein Computerprogrammprodukt eine durch einen Computer lesbare Speichereinheit zum Speichern eines durch einen Computer lesbaren Programms, wobei das durch einen Computer lesbare Programm beim Ausführen durch einen Prozessor innerhalb eines Computers den Computer dazu veranlasst, Arbeitsschritte zum Herausziehen von Informationen aus elektronischen Dokumenten durchzuführen. Die Arbeitsschritte enthalten: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben. Es werden auch andere Ausführungsformen der Vorrichtung beschrieben.
Es werden auch Ausführungsformen eines Verfahrens beschrieben. In einer Ausführungsform handelt es sich bei dem Verfahren um ein Verfahren zum Herausziehen von Informationen aus elektronischen Dokumenten. Das Verfahren enthält: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben. Es werden auch andere Ausführungsformen des Verfahrens beschrieben.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein schematisches Schaubild einer Ausführungsform eines Formulierungsabgleichsystems.
2 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens zum Herausziehen von Informationen aus elektronischen Dokumenten.
3 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens zum Herausziehen von Informationen aus elektronischen Dokumenten.
4 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens zum Herausziehen von Informationen aus elektronischen Dokumenten.
In der Beschreibung können gleichartige Bezugszahlen zum Kennzeichnen gleichartiger Elemente verwendet werden.
AUSFÜHRLICHE BESCHREIBUNG
Man wird ohne Weiteres verstehen, dass die Komponenten der Ausführungsformen, wie hierin allgemein beschrieben und in den beigefügten Figuren veranschaulicht, in einer großen Vielfalt unterschiedlicher Konfigurationen angeordnet und ausgeführt werden könnten. Folglich soll die folgende ausführlichere Beschreibung verschiedener Ausführungsformen wie in den Figuren dargestellt den Umfang der vorliegenden Offenbarung nicht einschränken, sondern sie steht lediglich stellvertretend für verschiedene Ausführungsformen. Obwohl die verschiedenen Aspekte der Ausführungsformen in Zeichnungen dargestellt werden, sind die Zeichnungen nicht unbedingt maßstabsgetreu gezeichnet, soweit nicht konkret angegeben.
Die vorliegende Erfindung kann in anderen konkreten Formen ausgeführt werden, ohne von deren Gedanken oder wesentlichen Eigenschaften abzuweichen. Die beschriebenen Ausführungsformen sind in jeder Hinsicht lediglich als veranschaulichend und nicht einschränkend zu sehen. Deshalb wird der Umfang der Erfindung durch die beigefügten Ansprüche angegeben, und nicht durch diese ausführliche Beschreibung. Sämtliche Änderungen, die in Hinblick auf Bedeutung und Bereich den Ansprüchen entsprechen, sind in deren Umfang enthalten.
Ein Bezug auf Merkmale, Vorteile oder ähnliche Sprache in dieser Beschreibung bedeutet nicht, dass alle der Merkmale und Vorteile, die mit der vorliegenden Erfindung realisiert werden können, in einer einzelnen Ausführungsform der Erfindung auftauchen (sollten). Stattdessen ist auf die Merkmale und Vorteile verweisende Sprache so zu verstehen, dass sie bedeutet, dass ein konkretes Merkmal, ein konkreter Vorteil oder eine konkrete Eigenschaft, die in Verbindung mit einer Ausführungsform beschrieben werden, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten sind. Somit können Erörterungen der Merkmale und Vorteile und ähnliche Sprache in dieser Beschreibung auf dieselbe Ausführungsform verweisen, müssen dies aber nicht unbedingt tun.
Des Weiteren können die beschriebenen Merkmale, Vorteile und Eigenschaften der Erfindung in jeder beliebigen geeigneten Art in einer oder mehreren Ausführungsformen kombiniert werden. Der Fachmann wird angesichts der Beschreibung hierin erkennen, dass die Erfindung ohne eine oder mehrere der konkreten Merkmale oder Eigenschaften einer bestimmten Ausführungsform ausgeführt werden kann. In anderen Fällen können zusätzliche Merkmale und Vorteile in bestimmten Ausführungsformen erkannt werden, die nicht in allen Ausführungsformen der Erfindung vorkommen.
Der Bezug auf „eine Ausführungsform” oder ähnliche Sprache in dieser Beschreibung bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder Eigenschaft, die in Verbindung mit der angegebenen Ausführungsform beschrieben werden, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten sind. Somit können die Formulierungen „in einer Ausführungsform” und ähnliche Sprache in dieser Beschreibung alle auf dieselbe Ausführungsform verweisen, müssen dies aber nicht unbedingt tun.
Obwohl hierin viele Ausführungsformen beschrieben werden, stellen zumindest einige der beschriebenen Ausführungsformen ein System und ein Verfahren zum Herausziehen von Informationen aus elektronischen Dokumenten auf der Grundlage von Begriffen und Begriffsvarianten entsprechend einem gegebenen Wörterbuch dar. Konkret lernt das System automatisch einen Satz von Begriffen und Varianten der Begriffe aus einem Übungshaupttext von Dokumenten, die sich auf ein Wörterbuch beziehen, bevor es die mit dem Wörterbuch zu vergleichenden elektronischen Dokumente analysiert. In einigen Ausführungsformen können die gelernten Begriffe und Begriffsvarianten manuell organisiert werden, um die beim Vergleichen der elektronischen Dokumente verwendeten Begriffe und Begriffsvarianten zu optimieren. Das System führt einen Abgleich auf teilweise Übereinstimmung mit den elektronischen Dokumenten durch, um den Satz von Dokumenten einzugrenzen. Das System führt dann für die Ergebnisse aus dem Abgleich auf teilweise Übereinstimmung eine Verneinungsprüfung und eine Prüfung auf positive Begriffe durch, um endgültige Übereinstimmungsergebnisse herauszuziehen, indem sämtliche teilweisen Übereinstimmungen entfernt werden, die eine der beiden Prüfungen nicht bestehen. In einer Ausführungsform werden das System und das Verfahren dazu verwendet, aus Krankenakten textliche Diagnosekennungen herauszuziehen, die der internationalen statistischen Klassifikation der Krankheiten und verwandter Gesundheitsprobleme Version 9 (ICD-9) oder einer beliebigen Version der ICD entsprechen.
Einige herkömmliche Systeme ziehen aus konkreten Berichten (z. B. Asthmaberichten) die Hauptdiagnose und Begleiterkrankungen unter Verwendung natürlicher Sprachverarbeitungssysteme in Verbindung mit anderen Techniken wie zum Beispiel Wortstammanalyse, Techniken zur grammatischen Zergliederung von Sätzen, auf Wörterbüchern beruhenden Ansätzen, Entfernen von Stoppwörtern, Entdecken von Begriffen, Finden von Verneinungen usw. heraus. Während diese Systeme möglicherweise eine gute Genauigkeit beim Abgleich bereitstellen, kann die Trefferquote (recall) derartiger Systeme niedrig sein. Andere herkömmliche Systeme stellen möglicherweise eine hohe Trefferquote bereit aber eine geringe Genauigkeit beim Abgleich. Ein System und ein Verfahren, das einen anfänglichen Abgleich auf teilweise Übereinstimmung auf der Grundlage von einer längsten gemeinsamen Teilsilbe (subfix) oder einer Teilmenge von Wörtern unter Verwendung von Präfixen der Begriffe und Begriffsvarianten durchführt, wobei die Begriffe und Begriffsvarianten manuell organisiert werden, sorgt für eine hohe Genauigkeit und eine hohe Trefferquote.
1 zeigt ein schematisches Schaubild einer Ausführungsform eines Formulierungsabgleichsystems 100. Das abgebildete Formulierungsabgleichsystem 100 enthält verschiedene nachfolgend ausführlicher beschriebene Komponenten, die in der Lage sind, die hierin beschriebenen Funktionen und Arbeitsschritte durchzuführen. In einer Ausführungsform sind zumindest einige der Komponenten des Formulierungsabgleichsystems 100 in einem Computersystem umgesetzt. Die Funktionalität einer oder mehrerer Komponenten des Formulierungsabgleichsystems 100 können durch Computerprogrammanweisungen umgesetzt werden, die auf einer Computerspeichereinheit 102 gespeichert sind und von einer Verarbeitungseinheit 104 wie zum Beispiel einer CPU ausgeführt werden. Das Formulierungsabgleichsystem 100 kann andere Komponenten enthalten wie zum Beispiel ein Plattenspeicherlaufwerk 108, die Eingabe/Ausgabe-Einheiten 106, eine Übungssteuerkomponente 110 und eine Abgleichsteuerkomponente 112. Einige oder alle der Komponenten des Formulierungsabgleichsystems 100 können auf einer einzelnen Datenverarbeitungseinheit oder in einem Netzwerk von Datenverarbeitungseinheiten gespeichert sein, darunter ein drahtloses Datenübertragungsnetzwerk. Das Formulierungsabgleichsystem 100 kann mehr oder weniger Komponenten oder Teilsysteme als die hierin abgebildeten enthalten. In einigen Ausführungsformen kann das Formulierungsabgleichsystem 100 zum Umsetzen der hierin beschriebenen Verfahren wie in 4 abgebildet verwendet werden.
In einer Ausführungsform enthält das Formulierungsabgleichsystem 100 eine Übungssteuerkomponente 110. Die Übungssteuerkomponente 110 ermöglicht dem Formulierungsabgleichsystem 100 das Herausziehen von Daten aus einem Übungshaupttext 114 für eine gegebene Anwendung. Der Übungshaupttext 114 kann sich auf ein spezialisiertes Wörterbuch beziehen, das der gegebenen Anwendung entsprechende Begriffe enthält. Der Übungshaupttext 114 kann eine große Anzahl elektronischer Dokumente oder Berichte enthalten, von denen bekannt ist, dass sie Begriffe aus dem spezialisierten Wörterbuch enthalten. In einer Ausführungsform lernt die Übungssteuerkomponente 110 die Begriffe und Begriffsvarianten 116 von dem Übungshaupttext 114 auf der Grundlage von in dem Übungshaupttext 114 enthaltenen Daten.
Die Begriffsvarianten können Synonyme der Begriffe, Wörter, die mit den Begriffen gemeinsame Stämme teilen, und andere Varianten der Begriffe enthalten. In einer Ausführungsform enthalten die Begriffsvarianten ein Präfix 118 für jeden der Begriffe. Bei dem Präfix 118 für jeden Begriff kann es sich um ein eindeutiges Präfix 118 handeln, das lediglich von dem Begriff und von Varianten des Begriffs geteilt wird. In einigen Ausführungsformen kann es sich bei dem eindeutigen Präfix 118 um einen Wortstamm handeln, der von dem Begriff und den Begriffsvarianten geteilt wird. In einigen Ausführungsformen kann es sich bei dem Präfix 118 um eine beliebige Länge des Präfixes 118 für die Begriffe und Begriffsvarianten 116 handeln, so dass das Präfix 118 nach wie vor eindeutig ist.
In einer Ausführungsform ist die Übungssteuerkomponente 110 so konfiguriert, dass sie die Attribute 120 für die Begriffe und Begriffsvarianten 116 lernt, darunter Adjektive, die einen Schweregrad, eine Menge, eine Größe usw. der Begriffe und Begriffsvarianten 116 beschreiben, (wie zum Beispiel „mäßig” oder „extrem”) sowie die anderen Attribute 120. In einigen Ausführungsformen kann die Übungssteuerkomponente 110 die Attribute 120 automatisch über den Übungshaupttext 114 lernen. In anderen Ausführungsformen kann die Übungssteuerkomponente 110 die Attribute 120 über eine manuelle Eingabe lernen.
Die Übungssteuerkomponente 110 kann auch die in dem Übungshaupttext 114 enthaltenen negativen Indikatoren 122 lernen, die sich auf die Begriffe und Begriffsvarianten 116 beziehen. Zu den negativen Indikatoren 122 können verneinende Wörter oder Formulierungen gehören, die innerhalb einer vorbestimmten Lage der Begriffe oder Begriffsvarianten 116 verwendet werden können, um ein Nichtvorhandensein eines Zustands in Bezug auf die Begriffe oder Begriffsvarianten 116 anzugeben. Wenn eine die Begriffe oder Begriffsvarianten 116 enthaltende Formulierung zum Beispiel sonst ein Vorhandensein eines bestimmten Krankheitszustands oder anderen Zustands angibt, gibt ein negativer Indikator 122 in der Formulierung an, dass der Zustand nicht vorliegt.
In einer Ausführungsform enthält das Formulierungsabgleichsystem 100 eine Abgleichsteuerkomponente 112. Die Abgleichsteuerkomponente 112 kann so konfiguriert sein, dass sie die Begriffe und Begriffsvarianten 116 mit einem Satz elektronischer Dokumente abgleicht. Übereinstimmungen in den elektronischen Dokumenten können zum Betrachten durch einen Benutzer auf einer Anzeigeeinheit oder einer anderen Ausgabeeinheit angezeigt werden. In einer Ausführungsform gewinnt die Abgleichsteuerkomponente 112 anfängliche teilweise Übereinstimmungsergebnisse 124 zum Eingrenzen des Materials in den elektronischen Dokumenten. Die anfänglichen Übereinstimmungsergebnisse 124 können auf einer längsten gemeinsamen Teilsilbe (LCS, longest common subfix) von Wörtern in einer ein oder mehrere der Begriffe und Begriffsvarianten 116 enthaltenden Formulierung beruhen. In einigen Ausführungsformen enthält der Satz elektronischer Dokumente möglicherweise nicht die genauen Begriffe und Begriffsvarianten 116, die mit einem zugehörigen Zustand oder einer zugehörigen Formulierung in dem spezialisierten Wörterbuch übereinstimmen. Folglich ist die Abgleichsteuerkomponente 112 durch Verwendung der LCS zum Erstellen der anfänglichen teilweisen Übereinstimmungsergebnisse in der Lage, Übereinstimmungen zu finden, die durch das Suchen nach lediglich der genauen Formulierung nicht gefunden worden wären.
Bei der LCS kann es sich um eine Teilmenge von Wörtern handeln, wobei jedes Wort ein Präfix 118 einer der Begriffe oder Begriffsvarianten 116 in derselben Reihenfolge ihres Auftretens sein kann. In einer Ausführungsform handelt es sich bei dem Präfix 118 für jeden der Begriffe und Begriffsvarianten 116 um ein längstes gemeinsames Präfix 118, das von den Wörtern in der Abfrageformulierung geteilt wird. Eine Abfrageformulierung, die zum Beispiel versucht, den Begriff „Mitralklappeninsuffizienz” abzugleichen, kann eine Übereinstimmung einer Teilsilbe in einer Zeichenfolge wie zum Beispiel „Die Mitralklappe des Patienten zeigt Anzeichen einer Insuffizienz” finden. In diesem Beispiel lautet die LCS zwischen der Abfrageformulierung und der gegebenen Zeichenfolge oder dem Satz ”Mitralklappe Insuffizienz”. Wie hierin beschrieben kann die LCS die Präfixe 118 für jeden Begriff oder jede Begriffsvariante enthalten, die Wörtern in der abgeglichenen Zeichenfolge gemein sind.
In einer Ausführungsform ist die Abgleichsteuerkomponente 112 so konfiguriert, dass sie für jeden) grammatisch zergliederte(n) Satz oder Formulierung in den elektronischen Dokumenten einen LCS-Wert 126 ermittelt. Der Satz von in Frage kommenden Formulierungen, bei denen die LCS einen Wert über einem vorbestimmten Schwellwert aufweist, kann in den anfänglichen Übereinstimmungsergebnissen 124 als in Frage kommende Übereinstimmungen beibehalten werden. Jede beibehaltene Formulierung kann dann für die endgültigen Übereinstimmungsergebnisse 128 ausführlich nach negativen und positiven Anzeichen für die Abfrageformulierung ausgewertet werden.
Zum Suchen nach negativen Anzeichen kann die Abgleichsteuerkomponente 112 einen Bereich um jede Teilsilbe in dem Satz nach in Frage kommenden Verneinungen untersuchen, wie zum Beispiel jegliche von der Übungssteuerkomponente 110 gelernte Verneinungen. Die Verneinungen können durch Untersuchen von gemeinsamen Mustern von in dem Übungshaupttext 114 auftauchenden Sätzen oder Formulierungen und Aufzeichnen jeglicher in den Formulierungen enthaltener Verneinungen gelernt werden. Jede Verneinung kann einen geordneten Satz von Wörtern darstellen, die negative Anzeichen eines Zustands angeben. Der nach negativen Anzeichen um eine Teilsilbe herum durchsuchte Bereich kann die kleinste eingeschlossene Aussage in einem Satz darstellen. Allgemeine Bindewörter wie „und”, „aber” und „mit” können zum Einteilen des Satzes nach derartigen Formulierungsbereichen verwendet werden. Für diese Aufgabe können auch andere Verbesserungen zum Durchführen eines in Algorithmen und Verfahren zum Verarbeiten natürlicher Sprache (NLP, natural language processing) verfügbaren Herausziehens von Formulierungen verwendet werden.
Die Abgleichsteuerkomponente 112 kann auch nach positiven Anzeichen von Formulierungen suchen, die in der ICD-9-Code-Kennungsbeschreibung erwartet werden. Diese Begriffe können von der Abgleichsteuerkomponente 112 benötigt werden, um ein positives Ergebnis zu melden, und während einer vorangehenden Übungsstufe mit einem umfangreichen Übungshaupttext 114 unter Verwendung der Übungssteuerkomponente 110 aus den ICD-9-Code-Kennungsbeschreibungen vorgefertigt werden. In einigen Ausführungsformen kann die Übungssteuerkomponente 110 allgemeine Begriffe für positive Anzeichen lernen (z. B. „der Patient hat...”).
Die teilweisen Übereinstimmungsergebnisse erhöhen die Robustheit des Erkennens der Begriffe und Begriffsvarianten 116. In einigen Ausführungsformen können die teilweisen Übereinstimmungsergebnisse beruhend auf der LCS einige falsche positive Ergebnisse einfügen, wobei dies durch Durchführen der Verneinungsprüfung und der Prüfung auf positive Begriffe zum Verringern der Anzahl von falschen positiven Ergebnissen sowie der Anzahl von falschen negativen Ergebnissen überwunden werden kann.
2 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens 204 zum Herausziehen von Informationen aus elektronischen Dokumenten. Obwohl das Verfahren 204 in Verbindung mit dem Formulierungsabgleichsystem 100 aus 1 beschrieben wird, können Ausführungsformen des Verfahrens 204 mit anderen Arten des Formulierungsabgleichsystems 100 umgesetzt werden.
In einer Ausführungsform empfängt die Übungssteuerkomponente 110 einen Übungshaupttext 114 von zusammengestellten Dokumenten. Der Übungshaupttext 114 entspricht einem spezialisierten Wörterbuch 200, das sich auf jedes der zusammengestellten Dokumente bezieht. Das spezialisierte Wörterbuch 200 kann Wörter oder Formulierungen wie zum Beispiel medizinische Begriffe oder Krankheitskennungen enthalten. In einer Ausführungsform enthält der Satz Dokumente in dem Übungshaupttext 114 verschiedene Wiederholungen eines einzelnen Berichts oder Dokuments. In einigen Ausführungsformen enthält der Übungshaupttext 114 eine Vielfalt von Dokumenttypen, die dem spezialisierten Wörterbuch 200 entsprechen.
Die Übungssteuerkomponente 110 kann die Begriffe aus den Formulierungen/Wörtern in dem Übungshaupttext 114 herausziehen, die dem Wörterbuch 200 entsprechen. In einigen Ausführungsformen lernt die Übungssteuerkomponente 110 dann Varianten jedes Begriffs durch Bestimmen von Wortstämmen für die Begriffe und Finden von anderen Wörtern entweder in dem Übungshaupttext 114 oder einem allgemeinen Wörterbuch 200 für Wörter, die dieselben Wortstämme teilen. In anderen Ausführungsformen kann die Übungssteuerkomponente 110 die Begriffsvarianten durch Ermitteln von Synonymen der Begriffe lernen. Es können andere Verfahren zum Lernen der Begriffsvarianten verwendet werden.
Wenn die Übungssteuerkomponente 110 die Begriffe und Begriffsvarianten 116 gelernt hat, verwendet die Abgleichsteuerkomponente 112 die Begriffe und Begriffsvarianten 116 dazu, in einem Satz elektronischer Dokumenten 202 Übereinstimmungen zu finden. Bei dem Satz elektronischer Dokumente 202 kann es sich um jeden beliebigen Satz elektronischer Dokumente 202 handeln, der durchsucht, grammatisch zergliedert und mit den Begriffen und Begriffsvarianten 116 abgeglichen werden kann. In einer Ausführungsform verwendet die Abgleichsteuerkomponente 112 die Begriffe und Begriffsvarianten 116, um die teilweisen anfänglichen Übereinstimmungsergebnisse 124 zu finden und behält Dokumente mit einem bestimmten Prozentsatz an Wörtern, die in der ursprünglichen Reihenfolge wie in dem Wörterbuch 200 beschrieben übereinstimmen.
Nach dem Gewinnen der anfänglichen Übereinstimmungsergebnisse 124 gewinnt die Abgleichsteuerkomponente 112 dann die endgültigen Übereinstimmungsergebnisse 128 aus den anfänglichen Übereinstimmungsergebnissen 124. In einigen Ausführungsformen gewinnt die Abgleichsteuerkomponente 112 die endgültigen Übereinstimmungsergebnisse 128 durch Durchführen von Verneinungsprüfungen und Prüfungen auf positive Begriffe für die anfänglichen Übereinstimmungsergebnisse 124. Die Verneinungsprüfung kann das Suchen nach den negativen Indikatoren 122 in den anfänglichen Übereinstimmungsergebnissen 124 und das Verwerfen jeglicher Ergebnisse mit den negativen Indikatoren 122 beinhalten. Die Prüfung auf positive Begriffe kann das Suchen nach Schlüsselwörtern oder Formulierungen, die in den anfänglichen Übereinstimmungsergebnissen 124 auftauchen müssen, und das Verwerfen jeglicher Ergebnisse, welche die positiven Begriffe nicht enthalten, beinhalten.
3 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens 300 zum Herausziehen von Informationen aus elektronischen Dokumenten. Obwohl das Verfahren 300 in Verbindung mit dem Formulierungsabgleichsystem 100 aus 1 beschrieben wird, können Ausführungsformen des Verfahrens 300 mit anderen Arten des Formulierungsabgleichsystems 100 umgesetzt werden.
In einer Ausführungsform enthält das Formulierungsabgleichsystem 100 einen Übungsprozess 302 zum Erstellen eines organisierten Begriffswörterbuchs 306, das einem spezialisierten Wörterbuch 200 mit medizinischen Begriffen und Formulierungen wie zum Beispiel einem ICD-9-Quellwörterbuch entspricht. Das Wörterbuch 200 kann Diagnosen, Abläufe, Arzneimittel und andere medizinische Fachausdrücke enthalten. Der Übungsprozess 302 kann das Importieren des Wörterbuchs 200 und eines sich auf das Wörterbuch 200 beziehenden Übungshaupttextes 114 in die Übungssteuerkomponente 110 enthalten. Die Übungssteuerkomponente 110 verwendet die Begriffe und Formulierungen in dem Wörterbuch 200, um die in dem Übungshaupttext 114 verwendeten Begriffe und Varianten der Begriffe zu lernen. Die Übungssteuerkomponente 110 kann sämtliche Wörter aus dem Übungshaupttext 114 herausziehen und sie unter Verwendung von Sprachverarbeitungstechniken grammatisch in Sätze zergliedern. In einigen Ausführungsformen können die grammatisch zergliederten Sätze in dem Übungshaupttext 114 die negativen Indikatoren 122 oder positive Begriffe enthalten, die in Verbindung mit den Begriffen und Begriffsvarianten 116 aus dem Wörterbuch 200 verwendet werden. In einigen Ausführungsformen kann die Übungssteuerkomponente 110 die Präfixe 118 für die Begriffe und Begriffsvarianten 116 ermitteln und die Präfixe in einem Präfix-Wörterbuch speichern. Die Übungssteuerkomponente 110 kann auch eine Eingabe von einem allgemeinen Wörterbuch empfangen, um zusätzliche Wörter wie zum Beispiel Bindewörter zu ermitteln, die der Übungssteuerkomponente 110 beim grammatischen Zergliedern und beim Lernen der Begriffe und Begriffsvarianten 116 behilflich sein können.
In einer Ausführungsform können, nachdem die Übungssteuerkomponente 110 die Begriffe und Begriffsvarianten 116, die negativen Indikatoren 122 und/oder positive Begriffe gelernt hat, die gelernten Wörter und Formulierungen manuell organisiert 304 oder korrigiert werden. Ein Arzt mit Kenntnis der Begriffe und Begriffsvarianten 116 in dem Wörterbuch 200 kann die Liste der gelernten Wörter und Formulierungen durch Auswählen von durch die Abgleichsteuerkomponente 112 zu verwendenden Schlüsselwörtern und Entfernen anderer, unnötiger Begriffe manuell filtern. Die manuell organisierten Wörter und Formulierungen können in einem organisierten Begriffswörterbuch 306 gespeichert werden, das in Verbindung mit der Abgleichsteuerkomponente 112 zu verwenden ist.
In einer Ausführungsform enthält die Abgleichsteuerkomponente 112 einen Begriffsdetektor 308. Der Begriffsdetektor kann ein Formulierungssuchprogramm 310 enthalten, das so konfiguriert ist, dass es Formulierungen in einer Texteingabe aus einem Satz elektronischer Dokumente 202, die mit den Begriffen und Begriffsvarianten 116 in dem organisierten Begriffswörterbuch 306 abzugleichen sind, grammatisch zergliedert. In einigen Ausführungsformen kann der Begriffsdetektor Eingaben aus mehr als einem organisierten Begriffswörterbuch 306 enthalten. Das Formulierungssuchprogramm 310 kann Suchparameter empfangen, die bestimmen, wie die Texteingabe und andere Aspekte der Abgleichsteuerkomponente 112 grammatisch zu zergliedern sind. In einigen Ausführungsformen kann der Begriffsdetektor 310 eine Eingabe enthalten, um den Typ von Wörterbuch 306 anzugeben, das für das Abgleichen mit der Texteingabe verwendet wird. Dies kann besonders in Ausführungsformen hilfreich sein, in denen der Begriffsdetektor 308 für mehrere Anwendungen verwendet werden kann, die getrennte spezialisierte oder die organisierten Wörterbücher 306 verwendet. Das Formulierungssuchprogramm 310 kann so konfiguriert sein, dass es die Texteingabe nach Sätzen oder Formulierungen durchsucht, welche die Begriffe und Begriffsvarianten 116 aus den organisierten Wörterbüchern 306 enthalten, um Übereinstimmungsergebnisse zu erzeugen.
4 zeigt einen Ablaufplan einer Ausführungsform eines Verfahrens 400 zum Herausziehen von Informationen aus elektronischen Dokumenten. Obwohl das Verfahren 400 in Verbindung mit dem Formulierungsabgleichsystem 100 aus 1 beschrieben wird, können Ausführungsformen des Verfahrens 400 mit anderen Arten des Formulierungsabgleichsystems 100 umgesetzt werden.
In einer Ausführungsform lernt 405 das Formulierungsabgleichsystem 100 die Begriffe und Begriffsvarianten 116 aus einem Übungshaupttext 114. Die Begriffe und Begriffsvarianten 116 können einem spezialisierten Wörterbuch 200 wie zum Beispiel einem ICD-9-Quellwörterbuch entsprechen, das Krankheitskennungs-Codenamen enthält. In einigen Ausführungsformen kann das ICD-9-Quellwörterbuch nach Krankheitskategorie oder irgendeiner anderen Teilmenge des Wörterbuchs 200 in kleinere Wörterbücher unterteilt sein.
Das Formulierungsabgleichsystem 100 kann dann eine Liste mit den in dem Übungshaupttext 114 gefundenen negativen Indikatoren 122 erzeugen 410. In einer Ausführungsform erzeugt das Formulierungsabgleichsystem 100 die Liste mit den negativen Indikatoren 122 unter Verwendung eines N-Gramm-Parameters, der eine Höchstzahl von aufeinanderfolgenden Wörtern für jede Formulierung festlegt, in der die negativen Indikatoren 122 gefunden werden. Eine Formulierung, in der ein negativer Indikator 122 gefunden wird, kann einen Teil oder das Ganze eines gegebenen Satzes darstellen.
In einer Ausführungsform empfängt das Formulierungsabgleichsystem 100 vor dem Durchführen des Abgleichs auf teilweise Übereinstimmung eine Eingabe zum manuellen Verfeinern 415 der aus dem Übungshaupttext 114 gelernten Begriffe und Begriffsvarianten 116. Die manuelle Verfeinerung kann das Entfernen der Begriffe oder Begriffsvarianten 116 oder das Hinzufügen der Begriffe oder Begriffsvarianten 116 enthalten. Die manuelle Verfeinerung kann auch das Abändern der von dem Formulierungsabgleichsystem 100 verwendeten negativen Indikatoren 122 und positiven Begriffe zum Gewinnen der endgültigen Übereinstimmungsergebnisse 128 enthalten.
In einer Ausführungsform führt das Formulierungsabgleichsystem 100 einen Abgleich auf teilweise Übereinstimmung der Begriffe und Begriffsvarianten 116 für einen Satz elektronischer Dokumente 202 durch 420, um die anfänglichen Übereinstimmungsergebnisse 124 zu erstellen. In einer Ausführungsform beinhaltet das Durchführen des Abgleichens auf teilweise Präfixübereinstimmung das Einteilen des Satzes elektronischer Dokumente 202 in Sätze. Nach dem Einteilen des Satzes elektronischer Dokumente 202 kann das Formulierungsabgleichsystem 100 beim Durchführen des Abgleichs auf teilweise Übereinstimmung für jeden Satz einen LCS-Wert 126 ermitteln 425. Der LCS-Wert 126 kann einer maximalen Teilmenge von Übereinstimmungen von Begriffen und Begriffsvarianten für jeden Satz entsprechen. Sätze mit einem LCS-Wert 126 über einem vorbestimmten Schwellwert können erhalten bleiben. Wenn der LCS-Wert 126 unter einem Schwellwert liegt, wird die teilweise Übereinstimmung verworfen 430.
In einer Ausführungsform führt das Formulierungsabgleichsystem 100 mit den anfänglichen Übereinstimmungsergebnissen 124 unter Verwendung der aus dem Übungshaupttext 114 gelernten negativen Indikatoren 122 eine Verneinungsprüfung durch 435. In einer Ausführungsform führt das Formulierungsabgleichsystem 100 unter Verwendung der Begriffe und Begriffsvarianten 116 für die anfänglichen Übereinstimmungsergebnisse 124 auch eine Prüfung auf positive Begriffe durch 440. In einer Ausführungsform beinhaltet die Prüfung auf positive Begriffe das Suchen nach Begriffsattributen 120 innerhalb der Höchstzahl von Wörtern gemäß dem N-Gramm-Parameter, welche die Begriffe und Begriffsvarianten 116 abändern. Die Begriffsattribute 120 können Adjektive enthalten, die einen Schweregrad eines Zustands („mäßig”, „ernst” usw.) beschreiben.
Das Formulierungsabgleichsystem 100 kann dann teilweise Übereinstimmungen aus den anfänglichen Ergebnissen verwerfen 430, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen. Die teilweisen Übereinstimmungen, welche die Verneinungsprüfung und die Prüfung auf positive Begriffe bestehen, werden für die endgültigen Übereinstimmungsergebnisse 128 beibehalten 445.
In einer Ausführungsform beinhaltet das Lernen der Begriffe und Begriffsvarianten 116 das Lernen eines gemeinsamen Präfixes 118 für jeden Begriff und jede Begriffsvariante. Das gemeinsame Präfix 118 kann eindeutig für ein einzelnes Wort sein. Bei den Präfixen 118 kann es sich in einigen Ausführungsformen um einen Wortstamm handeln. In einigen Ausführungsformen kann das gemeinsame Präfix 118 jede beliebige Länge annehmen, um eine Eindeutigkeitsanforderung zu erfüllen. In einer Ausführungsform beinhaltet das Durchführen eines Abgleichs auf teilweise Übereinstimmung das Abgleichen des gemeinsamen Präfixes 118 mit dem Satz elektronischer Dokumente 202 für jeden Begriff und für jede Begriffsvariante. Das Abgleichen des gemeinsamen Präfixes 118 für jeden Begriff kann es dem Formulierungsabgleichsystem 100 ermöglichen, schnell zu ermitteln, ob sich ein konkreter Begriff in jedem Zielsatz oder jeder Zielformulierung befindet. Wenn der zu suchende Begriff mit einem „m” beginnt und der Zielsatz keine mit dem Buchstaben „m” beginnenden Wörter enthält, weiß das Formulierungsabgleichsystem 100, dass der Begriff nicht in dem Zielsatz enthalten ist.
Eine Ausführungsform eines von dem Formulierungsabgleichsystem 100 verwendeten Algorithmus ist nachfolgend beschrieben. Das Formulierungsabgleichsystem 100 kann eine Liste mit auf ICD-Codes hinweisenden Diagnoseformulierungen lernen, indem es die Namensvarianten für gebräuchliche medizinische Begriffe (z. B. sind Regurgitation und Insuffizienz Synonyme) und einen Satz von Mindest-Präfixen 118 berücksichtigt, der für ein positives Erkennen dieser Formulierungen benötigt wird, um ein spezialisiertes ICD-9-Wörterbuch zu bilden. Dann werden aus Textberichten unter Verwendung einer beliebigen Standardtechnik zum Trennen von Sätzen in der Literatur Sätze herausgezogen. Unter Verwendung eines neuen Algorithmus, der die längste gemeinsame Teilsilbe in einer Formulierung findet, wird in jedem Satz ein Satz teilweise übereinstimmender Begriffe ausfindig gemacht. Jeder derartige beibehaltene Satz wird dann ausführlich nach negativen und positiven Anzeichen für die Abfrageformulierung ausgewertet.
Schließlich sucht der Algorithmus nach positiven Anzeichen von Formulierungen, die in der ICD-9-Code-Kennungsbeschreibung erwartet werden.
In einer Ausführungsform analysiert der Algorithmus zunächst automatisch ein ICD-9-Codewörterbuch mit Schlüsselbegriffen, das auch durch einen Arzt organisiert wurde.

1. Herausziehen sämtlicher Wörter aus einem großen Übungshaupttext mit tatsächlichen Berichten und Erstellen eines umgekehrten Wörterbuchs mit sämtlichen durchgehenden Wörtern und all ihren Präfixen. Wenn mehr als ein Wort ein Präfix teilen, wird ein boolesches Flag platziert. Hierdurch wird das Präfix-Wörterbuch gebildet.
2. Ausgehend von einer Liste mit ICD-9-Krankheitskennungs-Codenamen wird jedes durchgehende Wort in der Namensformulierung in dem Präfix-Wörterbuch nachgeschlagen und dessen größtes eindeutiges Präfix (boolesches Flag ist falsch) beibehalten. In einigen Fällen kann das gesamte Wort beibehalten werden.
3. Beibehalten von Schlüsselbegriffen (manuell von Ärzten organisiert) aus der gesammelten Liste mit in Frage kommenden Präfixen. Die Präfixe können sicherstellen, dass die kleinsten Teilzeichenfolgen zum Angeben der Krankheitskennungsformulierung beibehalten werden, um die Trefferquote zu maximieren. Das letztendliche Filtern durch Ärzte kann sicherstellen, dass die beibehaltenen Präfixe von klinisch signifikanten Begriffen stammen. Ein häufig in den ICD-9 Krankheitskennungen auftretendes Wort ist zum Beispiel „unspezifiziert”. In der Präfix-Form kann der daraus gebildete Begriff „unspezif” lauten. Da dies in der eigentlichen Beschreibung der Krankheit selten erwähnt wird und möglicherweise abgeleitet werden muss, kann der Arzt entscheiden, dies als Suchbegriff wegzulassen.

Der Algorithmus findet dann eine Liste mit Verneinungsbegriffen durch Auswerten einer großen Sammlung von Berichten. Einige negative Indikatoren 122 wie zum Beispiel „nein” und „nicht gefunden” können leicht erkannt werden. Für unauffälligere negative Indikatoren 122 kann ein erzwungener, sich wiederholender Prozess zum Erzeugen von Kombinationen beruhend auf der Häufigkeit des Auftretens von Teilformulierungen verwendet werden. Die negativen Indikatoren 122 können eine relativ geringe Anzahl von Wörtern in Formulierungen enthalten. Bei einem langen Übungshaupttext 114 können sämtliche N-Gramme aus jedem Satz aus dem Haupttext wie folgt herausgezogen werden:

1. Einteilen von Berichten in Sätze. Dafür können verschiedene Techniken zum Herausziehen von Sätzen verwendet werden.
2. Gruppieren von K aufeinanderfolgenden Wörtern in Formulierungen (einschließlich Stoppwörter), wobei K variiert wird. Es können verschiedene Bereiche für K ausprobiert werden, obwohl beruhend auf der Annahme, dass in einer dieser aufeinanderfolgenden Wortgruppen, genannt Teilformulierung (phraselet), Teile von Verneinungs-N-Grammen gefunden werden können, ein Bereich von 1 bis 10 verwendet werden kann.
3. Grafisches Darstellen der Häufigkeit des Auftretens dieser Teilformulierungen in der Sammlung in geordneter Reihenfolge und manuelles Beibehalten von M Auswahlen beruhend auf deren teilweisen Anzeichen für Verneinungen. Die Formulierung „es gibt keine Anzeichen für” kann eine eindeutige Auswahl sein. Automatisches Sichten kann einem Beobachter den Bereich möglicher Formulierungen angeben, aus denen er wählen kann. In einer Ausführungsform wird die ärztliche Kenntnis von Berichten für das Durchführen der M Auswahlen verwendet.
4. Aus den beibehaltenen Formulierungen bilden M Formulierungen MxM/2 Kombinationen von Formulierungen zum Erweitern der Suche nach Verneinungen. Die Formulierung „es gibt keine Anzeichen für...” und „...wurde aber nicht erkannt” kann in einer Formulierung verknüpft werden – „es gibt keine Anzeichen für <Tab> wurde aber nicht erkannt”.
5. Jede beibehaltene Formulierung kann dann in sämtlichen Sätzen in dem Übungshaupttext gesucht werden, indem ein Teilübereinstimmungsalgorithmus mit längstem gemeinsamen Präfix mit einem Präfix-Höchstgrenzwert von 1,0 verwendet wird – jedes Wort in der Formulierung weist bei Vorliegen eine genaue Übereinstimmung auf. Die Häufigkeit des Auftretens jeder derartigen Formulierung kann aufgezeichnet werden. Der „<Tab>” in der verknüpften Formulierung kann während des Abgleichens von Formulierungen ignoriert werden.
6. Wiederholen der Arbeitsschritte 3 bis 5 mit neu erfassten Teilformulierungen, bis die Häufigkeit des Auftretens des höchsten Begriffs auf einen vorbestimmten Schwellwert (zum Beispiel < 1%) fällt oder die Anzahl von Wörtern in der Formulierung eine Höchstzahl überschreitet.
7. Die Liste der letztendlich beibehaltenen Teilformulierungen bildet die Verneinungs-N-Gramme. Jeder Block aufeinanderfolgender Wörter in dem N-Gramm wird durch „<Tab>” getrennt, um sowohl genaue Übereinstimmungen (für den Block aufeinanderfolgender Wörter) als auch teilweise Übereinstimmungen (zwischen den durch „Tab” getrennten Wörtern zu ermöglichen.

Arbeitsschritte zum Lernen der Begriffe und Begriffsvarianten 116 und der negativen Indikatoren 122 können in Polynomialzeit durchgeführt werden, um exponentielle Teilmengenarbeitsschritte zu vermeiden, die sonst möglicherweise benötigt werden. Außerdem können derartige Arbeitsschritte vor dem Abgleichen jeglicher Dokumente durchgeführt werden.
Der Algorithmus führt dann beruhend auf der längsten gemeinsamen Teilsilbe einen Teilübereinstimmungsalgorithmus durch. Mit der Liste von Krankheitsnamen aus dem organisierten ICD-9-Wörterbuch und einem neuen Bericht, aus dem die Diagnosecodes abzuleiten sind, läuft der Algorithmus wie folgt:

1. Einteilen des Berichts in Sätze.
2. Für sämtliche Krankheitsnamen aus dem organisierten ICD-9-Wörterbuch wird ein Abgleich auf teilweise Übereinstimmung mit den Sätzen durchgeführt. Diejenigen, deren Wert der längsten gemeinsamen Teilsilbe (LCSx, longest common subfix) über einem Schwellwert liegt, werden beibehalten. Eine andere Wahl des Schwellwerts variiert die Genauigkeit und die Trefferquote und kann beruhend auf der gewünschten Genauigkeit und Trefferquote aus der Kurve zur Grenzwertoptimierung (ROC, Receiver Operating Characteristic) ausgewählt werden. In einer Ausführungsform wird eine Auswahl von 0,6 verwendet. Die längste gemeinsame Teilsilbe wird unter Verwendung von dynamischer Programmierung wie folgt ausfindig gemacht:
a. Bei einer Abfrageformulierung S = {s1, s2, ...sK} mit K Wörtern und einem in Frage kommenden Satz T = {t1, t2, ....tN} beträgt die längste gemeinsame Teilsilbe LCSx(S,T) = {c1, c2...cL}, wobei L die größte Teilmenge von Wörtern aus S ist, bei denen in T eine teilweise Übereinstimmung gefunden wurde. Eine teilweise Übereinstimmung eines Wortes si in S stellt ein Wort tj in T mit einem gemeinsamen Präfix über einem Schwellwert dar. Bei einem Schwellwert von 1,0 wird auf den Fall des Findens genauer Übereinstimmungen mit Wörtern aus S beschränkt, obgleich die längste gemeinsame Teilzeichenfolge weiterhin ein teilweises Übereinstimmen einer Zahl von Wörtern in S zulässt. Die längste gemeinsame Teilsilbe kann durch Verwendung von dynamischer Programmierung ausfindig gemacht werden, ähnlich wie eine längste gemeinsame Teilzeichenfolge, aber mit der bedeutenden Änderung, dass die dynamische Programmierung auf Wortebene durchgeführt wird und Präfix-Übereinstimmungen verwendet werden. Dazu wird eine Anordnung C[i,j] dafür verwendet, den Wert der Übereinstimmung eines Teils von S bis zum i-ten Wort und mit einem Teil von T bis zum j-ten Wort wie folgt zu berechnen:

Der Algorithmus wendet während des Abgleichens von Formulierungen auch Verneinungen auf Begriffe mit positiven Anzeichen an. Sobald der Satz von Sätzen, die den Abgleich von Teilformulierungen bestanden haben, beibehalten wird, werden weitere Anzeichen für einen Diagnosecode innerhalb des Berichts wie folgt erfasst:

1. Für jede Verneinungsteilformulierung aus der gelernten Liste mit Verneinungsformulierungen und einen in Frage kommenden Satz mit teilweiser Übereinstimmung:
a. für jede Wortgruppe in einer gewählten Teilformulierung
i. wenn für die Wortgruppe keine genaue Übereinstimmung gefunden wird, Annehmen der teilweisen Übereinstimmung für den ICD-Code und Beenden.
b. Verwerfen der teilweisen Übereinstimmung des ICD-Codes, wenn sämtliche Wortgruppen in der gewählten Teilformulierung übereinstimmen.
2. Für jeden beibehaltenen in Frage kommenden Satz mit teilweiser Übereinstimmung und die betrachtete ICD-9-Code-Krankheitskennung:
c. für jeden unbedingt erforderlichen Schlüsselbegriff aus dem ICD-9-Wörterbuch, welcher der in Frage kommenden Krankheitskennung entspricht
ii wenn in dem in Frage kommenden Satz keine genaue Übereinstimmung mit dem Schlüsselbegriff gefunden wird, Verwerfen der Übereinstimmung.
3. Beibehalten sämtlicher übereinstimmender Sätze und deren entsprechender ICD-9-Codes und Krankheitskennungen.
4. Entfernen doppelter ICD-9-Codes und Krankheitskennungen (verschiedene Krankheitskennungen könnten dieselben ICD-9-Codes aufweisen) zwecks Überflüssigkeit. Dies ist die endgültige Liste von aus dem Bericht abgeleiteten Diagnosekennungen.

Eine Ausführungsform eines Formulierungsabgleichsystems 100 enthält zumindest einen Prozessor, der über einen Systembus wie zum Beispiel einen Daten-, Adress- und/oder Steuerbus direkt oder indirekt mit Speicherelementen verbunden ist. Zu den Speicherelementen können ein lokaler Speicher, der während der eigentlichen Ausführung des Programmcodes eingesetzt wird, Massenspeicher sowie Cachespeicher gehören, die eine vorübergehende Speicherung von zumindest etwas Programmcode bereitstellen, um die Häufigkeit zu verringern, mit der Code während der Ausführung von dem Massenspeicher abgerufen werden muss.
Es sei auch angemerkt, dass zumindest einige der Arbeitsschritte für die Verfahren unter Verwendung von auf einem durch einen Computer verwendbaren Speichermedium gespeicherten Software-Anweisungen zum Ausführen durch einen Computer umgesetzt werden können. Als Beispiel enthält eine Ausführungsform eines Computerprogrammprodukts ein durch einen Computer verwendbares Speichermedium zum Speichern eines durch einen Computer lesbaren Programms, das beim Ausführen auf einem Computer den Computer dazu veranlasst, Arbeitsschritte durchzuführen, darunter einen Arbeitsschritt zum Herausziehen von Informationen aus elektronischen Dokumenten.
Obwohl die Arbeitsschritte des/der Verfahren(s) hierin in einer bestimmten Reihenfolge gezeigt und beschrieben werden, kann die Reihenfolge der Arbeitsschritte jedes Verfahrens geändert werden, so dass bestimmte Arbeitsschritte in umgekehrter Reihenfolge durchgeführt werden können, oder dass bestimmte Arbeitsschritte zumindest teilweise gleichzeitig mit anderen Arbeitsschritten durchgeführt werden können. In einer anderen Ausführungsform können Anweisungen oder Teilarbeitsschritte einzelner Arbeitsschritte periodisch und/oder abwechselnd ausgeführt werden.
Ausführungsformen der Erfindung können als vollständige Hardware-Ausführungsform, als vollständige Software-Ausführungsform oder als Ausführungsform, die sowohl Hardware- als auch Software-Elemente enthält, ausgeführt werden. In einer Ausführungsform ist die Erfindung als Software realisiert, darunter Firmware, im Speicher befindliche Software, Mikrocode usw., aber nicht darauf beschränkt.
Des Weiteren können Ausführungsformen der Erfindung die Form eines Computerprogrammprodukts annehmen, auf das von einem durch einen Computer verwendbaren bzw. durch einen Computer lesbaren Medium zugegriffen werden kann, das Programmcode bereitstellt, das von oder in Verbindung mit einem Computer oder jedem beliebigen Anweisungsausführungssystem verwendet wird. Für diese Beschreibung kann ein auf einem Computer verwendbares bzw. durch einen Computer lesbares Medium jede beliebige Vorrichtung sein, die das Programm, das von oder in Verbindung mit dem Anweisungsausführungssystem, der Vorrichtung oder der Einheit verwendet wird, enthalten, speichern, übertragen, verbreiten bzw. transportieren kann.
Bei dem durch einen Computer verwendbaren oder durch einen Computer lesbaren Medium kann es sich um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem (bzw. eine derartige Vorrichtung oder Einheit) oder ein Verbreitungsmedium handeln. Zu Beispielen für ein durch einen Computer lesbares Medium zählen ein Halbleiter- oder Festkörperspeicher, Magnetband, eine auswechselbare Computerdiskette, Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), eine starre Magnetplatte und eine optische Platte. Zu aktuellen Beispielen optischer Platten gehören eine Kompaktdisk mit Nur-Lese-Speicher (CD-ROM), eine Kompaktdisk mit Lesen/Schreiben (CD-R/W) und eine digitale Videoplatte (DVD).
Eingabe/Ausgabe- bzw. E/A-Einheiten (einschließlich Tastaturen, Anzeigen, Zeigegeräte usw., ohne darauf beschränkt zu sein) können entweder direkt oder über mitbeteiligte E/A-Steuereinheiten mit dem System verbunden werden. Außerdem können auch Netzwerkadapter mit dem System verbunden werden, um es dem Datenverarbeitungssystem zu ermöglichen, über mitbeteiligte private oder öffentliche Netzwerke mit anderen Datenverarbeitungssystemen oder entfernt angeordneten Druckern oder Speichervorrichtungen verbunden zu werden. Modems, Kabelmodems und Ethernet-Karten sind nur einige wenige der momentan verfügbaren Arten von Netzwerkadaptern.
In obiger Beschreibung werden spezifische Einzelheiten verschiedener Ausführungsformen bereitgestellt. Einige Ausführungsformen können jedoch mit weniger als all diesen spezifischen Einzelheiten angewendet werden. In anderen Fällen werden bestimmte Verfahren, Abläufe, Komponenten, Strukturen und/oder Funktionen der Kürze und Klarheit halber nicht ausführlicher beschrieben, als für die Ermöglichung der verschiedenen Ausführungsformen der Erfindung nötig ist.
Obwohl konkrete Ausführungsformen der Erfindung beschrieben und veranschaulicht wurden, ist die Erfindung nicht auf die konkreten, derart beschriebenen und veranschaulichten Formen oder Anordnungen von Teilen beschränkt. Der Umfang der Erfindung soll durch die hierzu beigefügten Ansprüche und deren Entsprechungen festgelegt werden.

Claims

Computerprogrammprodukt, aufweisend: ein durch einen Computer lesbares Speichermedium zum Speichern eines durch einen Computer lesbaren Programms, wobei das durch einen Computer lesbare Programm beim Ausführen durch einen Prozessor innerhalb eines Computers den Computer dazu veranlasst, Arbeitsschritte zum Herausziehen von Informationen aus elektronischen Dokumenten durchzuführen, wobei die Arbeitsschritte aufweisen: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben.
Computerprogrammprodukt nach Anspruch 1, wobei das Erzeugen der Liste mit negativen Indikatoren ferner aufweist: Suchen nach den negativen Indikatoren in dem Übungshaupttext unter Verwendung eines N-Gramm-Parameters, wobei der N-Gramm-Parameter eine Höchstzahl von aufeinanderfolgenden Wörtern für jede Formulierung festlegt, in der die negativen Indikatoren gefunden werden.
Computerprogrammprodukt nach Anspruch 2, wobei das Durchführen der Prüfung auf positive Begriffe ferner aufweist: Suchen nach Begriffsattributen innerhalb der Höchstzahl von Wörtern gemäß dem N-Gramm-Parameter, wobei die Begriffsattribute die Begriffe und die Begriffsvarianten abändern.
Computerprogrammprodukt nach Anspruch 1, wobei das Lernen der Begriffe und Begriffsvarianten ferner das Lernen eines gemeinsamen Präfixes für jeden Begriff und jede Begriffsvariante aufweist, wobei jedes gemeinsame Präfix eindeutig für ein einzelnes Wort ist.
Computerprogrammprodukt nach Anspruch 4, wobei das Durchführen des Abgleichs auf teilweise Übereinstimmung ferner das Abgleichen des gemeinsamen Präfixes für jeden Begriff und für jede Begriffsvariante mit dem Satz elektronischer Dokumente aufweist.
Computerprogrammprodukt nach Anspruch 1, wobei das Durchführen des Abgleichens auf teilweise Präfixübereinstimmung ferner aufweist: Einteilen des Satzes elektronischer Dokumente in Sätze; Ermitteln eines Wertes der längsten gemeinsamen Teilsilbe für jeden Satz, wobei der Wert der längsten gemeinsamen Teilsilbe einer maximalen Teilmenge von Übereinstimmungen von Begriffen und Begriffsvarianten für jeden Satz entspricht; und Beibehalten von Sätzen, deren Wert der längsten gemeinsamen Teilsilbe über einem vorbestimmten Schwellwert liegt.
Computerprogrammprodukt nach Anspruch 1, wobei das durch einen Computer lesbare Programm beim Ausführen auf dem Computer den Computer dazu veranlasst, zusätzliche Arbeitsschritte durchzuführen, aufweisend: manuelles Verfeinern der aus dem Übungshaupttext gelernten Begriffe und Begriffsvarianten vor dem Durchführen des Abgleichs auf teilweise Übereinstimmung, wobei elektronische Dokumente Krankenakten aufweisen.
Verfahren zum Herausziehen von Informationen aus elektronischen Dokumenten, aufweisend: Lernen von Begriffen und Begriffsvarianten aus einem Übungshaupttext, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; Erzeugen einer Liste von in dem Übungshaupttext gefundenen negativen Indikatoren; Durchführen eines Abgleichs auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente, um anfängliche Übereinstimmungsergebnisse zu erstellen; und Durchführen einer Verneinungsprüfung unter Verwendung der negativen Indikatoren und einer Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben.
Formulierungsabgleichsystem, aufweisend: eine Übungssteuerkomponente, die so konfiguriert ist, dass sie: Begriffe und Begriffsvarianten aus einem Übungshaupttext lernt, wobei die Begriffe und die Begriffsvarianten einem spezialisierten Wörterbuch entsprechen, das sich auf den Übungshaupttext bezieht; und eine Liste von in dem Übungshaupttext gefundenen negativen Indikatoren erzeugt; und eine Abgleichsteuerkomponente, die so konfiguriert ist, dass sie: einen Abgleich auf teilweise Übereinstimmung der Begriffe und der Begriffsvarianten in einem Satz elektronischer Dokumente durchführt, um anfängliche Übereinstimmungsergebnisse zu erstellen; und eine Verneinungsprüfung unter Verwendung der negativen Indikatoren und eine Prüfung auf positive Begriffe unter Verwendung der Begriffe und der Begriffsvarianten für die anfänglichen Übereinstimmungsergebnisse durchführt, um aus den anfänglichen Übereinstimmungsergebnissen die Übereinstimmungen zu entfernen, die entweder die Verneinungsprüfung oder die Prüfung auf positive Begriffe nicht bestehen, woraus sich endgültige Übereinstimmungsergebnisse ergeben.
System nach Anspruch 9, wobei die Übungssteuerkomponente ferner so konfiguriert ist, dass sie: eine Eingabe empfängt, um die aus dem Übungshaupttext gelernten Begriffe und Begriffsvarianten manuell zu verfeinern, wobei elektronische Dokumente Krankenakten aufweisen.