DE112020003412T5

DE112020003412T5 - Verfahren zum Prüfen medizinischer Daten

Info

Publication number: DE112020003412T5
Application number: DE112020003412.7T
Authority: DE
Inventors: Juanjuan Yao
Original assignee: Shanghai Mingpin Medical Data Tech Co Ltd; Shanghai Mingpin Medical Data Technology Co Ltd
Current assignee: Shanghai Mingpin Medical Data Tech Co Ltd; Shanghai Mingpin Medical Data Technology Co Ltd
Priority date: 2019-07-17
Filing date: 2020-07-17
Publication date: 2022-05-19
Also published as: US11449680B2; JP2022546192A; JP7358612B2; CN110491519B; WO2021008601A1; CN110491519A; US20220207242A1

Abstract

Ein Verfahren zum Prüfen medizinischer Daten ist geschaffen. Jeder medizinische Datensatz enthält eine Vielzahl von Informationseinheiten und eine Vielzahl von Trennzeichen, und das Verfahren umfasst die folgenden Schritte: a. Abgleichen der medizinischen Daten mit einer Standardbibliothek, die eine Vielzahl von Mustern enthält, wobei ein Abgleichsausdruck lautet: [\s\S][Nummer/Sequenz/Beziehung]&[\bl\B] (S101); und b. Bestimmen auf Grundlage eines Abgleichsergebnisses von Schritt a, ob der medizinischen Datensatz qualifiziert ist (S102). Es wird zunächst eine standardisierte Standardbibliothek eingerichtet, ein Abgleichsergebnis wird durch Abgleichen des medizinischen Datensatzes und der Standardbibliothek für eine nicht-initiale Grenze, eine initiale Grenze, eine Informationsmenge, Informationssequenzen, eine Anzahl semantischer Beziehungen, eine Zeichengrenze und eine Nichtzeichengrenze erhalten, und ob der medizinische Datensatz eine Anforderung erfüllt, wird weiterhin gemäß dem Abgleichsergebnis bestimmt.

Description

Hintergrund der vorliegenden Erfindung
Gebiet der Erfindung
Die vorliegende Erfindung betrifft das Gebiet der Verarbeitung großer Datenmengen („Big-Data-Verarbeitung“), insbesondere ein Verfahren zum Kontrollieren der Qualität medizinischer Daten und genauer ein Verfahren zum Prüfen medizinischer Daten.
Beschreibung des Standes der Technik
Mit dem Einzug der Ära großer Datenmengen werden verschiedene Arten von Daten gesammelt und verarbeitet. Als eine der speziellsten Arten von Daten umfassen medizinische Daten verschiedene Variablen einschließlich Patientendaten, Arztdaten, Krankheitsdaten, Symptomdaten, Testdaten, Diagnosedaten, Behandlungsdaten und Medikamentendaten. Medizinische Aktivitäten zeichnen sich besonders dadurch aus, dass medizinische Feststellungen eine klare logische Beziehung untereinander aufweisen, sodass medizinische Daten auch eine klare semantische Beziehung aufweisen. Außerdem werden medizinische Daten in der Regel von einem Arzt oder einem Patienten eingegeben oder erzeugt, und die semantische Beziehung zwischen den Daten kann einen Zusammenhang zwischen den Entscheidungen des Arztes mit entsprechenden Therapien und einer Krankheitsentwicklung widerspiegeln.
Ein medizinischer Dateninteraktionsprozess ist dadurch gekennzeichnet, dass in der Regel eine Vielzahl von Terminals an der Interaktion beteiligt sind und jedes Terminal einen eigenen Bedarf hat, d. h. die Anforderungen der Terminals an die Datenqualität, insbesondere die Anforderungen an die Datenstrukturen, sind jeweils unterschiedlich. Auf der Grundlage konventioneller Dateninteraktionstheorien müssen die Strukturen medizinischer Daten zunächst vereinheitlicht werden, um eine starke Logik bei der Interaktion einer Vielzahl von Terminals zu implementieren.
Bei bestehenden medizinischen Daten für Anwendungen im Bereich der künstlichen Intelligenz wird ein Typ durch Datensuche („Mining“) in Krankenaktendaten eines bestimmten Krankenhausinformationssystems (KIS) erzeugt, was allgemein als Extraktion strukturierter Informationen bezeichnet wird; und ein anderer Typ wird durch getrenntes Modellieren und Wiedereingeben durch medizinisches Personal erzeugt. Mit beiden Methoden können grundlegende Daten gewonnen werden, die den Qualitätsanforderungen des maschinellen Lernens entsprechen, aber beide Methoden sind auch zeitaufwändig und kostenintensiv.
Aus ökonomischer Sicht stammen die beiden vorstehenden grundlegenden Methoden der Datenerfassung von Unternehmen, die im Bereich der künstlichen Intelligenz eine Vorreiterrolle einnehmen, und ein Grund für die Verwendung der beiden Methoden liegt in der Knappheit medizinischer Daten in den Heimatländern dieser Unternehmen. Das Land, aus dem die Erfinder stammen, hat die größte Bevölkerung und verzeichnet die meisten Arztbesuche weltweit; die allgemeine Menge der medizinischen Daten ist riesig, aber die Qualität dieser medizinischen Daten ist uneinheitlich. Wenn also diese medizinischen Daten mit den beiden vorstehenden Methoden verarbeitet werden, entstehen höhere Kosten und der Zeitaufwand kann größer sein.
Daher kann die Entwicklung eines Verfahrens, das riesige medizinische Datenmengen schnell vorfiltern und auf Grundlage vorgefilterter Daten eine weitere Verarbeitung nach brancheneinheitlichen Methoden durchführen kann, eine solide Grundlage für die Entwicklung der Branche der medizinischen künstlichen Intelligenz bilden.
Zusammenfassung der vorliegenden Erfindung
Ein durch die technischen Lösungen der vorliegenden Erfindung zu lösendes technisches Problem besteht darin, medizinische Daten schnell in standardisierter Weise zu prüfen.
Um das vorstehende technische Problem zu lösen, schaffen die technischen Lösungen gemäß der vorliegenden Erfindung ein Verfahren zum Prüfen medizinischer Daten, wobei die medizinischen Daten eine Vielzahl von Informationseinheiten und eine Vielzahl von Trennzeichen enthalten und das Verfahren die folgenden Schritte umfasst:

a. Abgleichen eines medizinischen Datensatzes mit einer Standardbibliothek, die eine Vielzahl von Mustern enthält, wobei ein Abgleichsausdruck lautet: [\s\|S][Nummer/Sequenz/Beziehung]&[\b|\B], wobei [] für ein Abgleichsverfahren steht, \s für eine Ähnlichkeit zwischen einer nicht-initialen Grenze des medizinischen Datensatzes und einer nicht-initialen Grenze der Standardbibliothek steht, \S für eine Ähnlichkeit zwischen einer initialen Grenze des medizinischen Datensatzes und einer initialen Grenze der Standardbibliothek steht, Nummer für eine Ähnlichkeit zwischen einer Anzahl der in dem medizinischen Datensatz enthaltenen Informationseinheiten und einer Anzahl der in der Standardbibliothek enthaltenen Muster steht, Sequenz für eine Ähnlichkeit zwischen einer Sequenz der Vielzahl von Informationseinheiten und einer Sequenz der Vielzahl von Mustern steht, Beziehung für eine Ähnlichkeit zwischen semantischen Beziehungen unter der Vielzahl von Informationseinheiten und semantischen Beziehungen unter der Vielzahl von Mustern steht, & für die Implementierung eines oder mehrerer Abgleichsverfahren steht, \b für eine Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek steht, \B für eine Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek steht, | für disjunktiven Abgleich (oder) steht und / für simultanen Abgleich steht; und
b. Bestimmen auf Grundlage eines Abgleichsergebnisses von Schritt a, ob der medizinische Datensatz qualifiziert ist.

Vorzugsweise weist jede Informationseinheit eine Wertebereichsbeschränkung auf, die Wertebereichsbeschränkung wird entsprechend einer Kategorie der Informationseinheit festgelegt, und wenn der Schritt a durchgeführt wird, wird keine Wortsegmentierung an dem medizinischen Datensatz vorgenommen.
Vorzugsweise ist in dem Abgleichsausdruck von Schritt a \S gegeben durch $\ S = \frac{{\sum_{i = 1}^{n_{1}} (s_{i} - s_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{1}} s_{i}^{2}},$
wobei n₁ für eine Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes steht, s_i für einen größten Abstand zwischen zwei nicht-initialen Grenzen des medizinischen Datensatzes steht und s'_i für einen Abstand von einer nicht-initialen Grenze des medizinischen Datensatzes zu einer nicht-initialen Grenze der Standardbibliothek steht.
Vorzugsweise ist in dem Abgleichsausdruck von Schritt a \S gegeben durch $\ S = \frac{{\sum_{i = 1}^{n_{2}} (s_{i} - s_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{2}} s_{i}^{2}},$
wobei n₂ für eine Anzahl der initialen Grenzen des medizinischen Datensatzes steht, Si für einen größten Abstand zwischen zwei initialen Grenzen des medizinischen Datensatzes steht und S'_i für einen Abstand von einer initialen Grenze des medizinischen Datensatzes zu einer initialen Grenze der Standardbibliothek steht.
Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a $Nummer = {\begin{matrix} 0, & N u m_{a} \neq N u m_{b} \\ 1, & N u m_{a} = N u m_{b} \end{matrix},$
wobei Num_a für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, und Num_b für eine Anzahl der Muster steht, die in der Standardbibliothek enthalten sind.
Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a $Sequenz = \frac{\sum_{i = 1}^{n_{3}} {(S e q_{i} - S e q_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{3}} S e q_{i}^{2}},$
wobei n₃=Num_a-1, Num_a für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, Seqi für einen Abstand zwischen zwei benachbarten Informationseinheiten steht und Seq'_i für einen Abstand zwischen zwei benachbarten Mustern steht.
Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a $Beziehung = {\begin{matrix} 0, & R e l_{a} \neq R e l_{b} \\ 1, & R e l_{a} = R e l_{b} \end{matrix},$
wobei Rel_a für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Informationseinheiten enthalten sind, und Rel_b für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Mustern enthalten sind.
Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a $\ S = \frac{{\sum_{i = 1}^{n_{4}} (b_{i} - b_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{4}} b_{i}^{2}},$
wobei n₄ für eine Anzahl der Zeichengrenzen des medizinischen Datensatzes steht, bi für einen größten Abstand zwischen zwei Zeichengrenzen des medizinischen Datensatzes steht und b'_i für einen Abstand von einer Zeichengrenze des medizinischen Datensatzes zu einer Zeichengrenze der Standardbibliothek steht.
Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a $\ B = \frac{{\sum_{i = 1}^{n_{5}} (B_{i} - B_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{5}} B_{i}^{2}},$
wobei n₅ für eine Anzahl der Nichtzeichengrenzen des medizinischen Datensatzes steht, Bi für einen größten Abstand zwischen zwei Nichtzeichengrenzen des medizinischen Datensatzes steht und B'_i für einen Abstand von einer Nichtzeichengrenze des medizinischen Datensatzes zu einer Nichtzeichengrenze der Standardbibliothek steht.
Vorzugsweise umfasst der Schritt b die folgenden Schritte:

b1: Berechnen einer Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek unter Verwendung der folgenden Formel, wobei C für die Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek steht, c_j für eine Ähnlichkeit jedes Abgleichsverfahrens in Schritt a steht und m für eine Anzahl der Abgleichsverfahren in Schritt a steht: $C = {\begin{array}{l} m i n_{j = 1}^{m} {1 - c_{j}}, & m \neq 0 \\ 0, & m = 0 \end{array};$
und
b2: falls C≤C_min, Bestimmen, dass der medizinische Datensatz qualifiziert ist, wobei Cmin für eine voreingestellte Mindestähnlichkeitsschwelle steht.

In der vorliegenden Erfindung wird zunächst eine standardisierte Standardbibliothek eingerichtet, ein Abgleichsergebnis wird durch Abgleichen des medizinischen Datensatzes mit der Standardbibliothek für eine nicht-initiale Grenze, eine initiale Grenze, eine Informationsmenge, Informationssequenzen, eine Anzahl semantischer Beziehungen, eine Zeichengrenze und eine Nichtzeichengrenze erhalten, und ob der medizinische Datensatz eine Anforderung erfüllt, wird weiterhin gemäß dem Abgleichsergebnis bestimmt.
Figurenliste
Weitere Merkmale, Ziele und Vorteile in Übereinstimmung mit der vorliegenden Erfindung werden durch das Lesen der ausführlichen Beschreibung von nicht-einschränkenden Ausführungsformen, die auf die folgende beigefügte Zeichnung Bezug nimmt, deutlicher:

1 ist ein Ablaufdiagramm, das ein Verfahren zum Prüfen medizinischer Daten gemäß einer konkreten Umsetzung der vorliegenden Erfindung darstellt;
2 ist ein schematisches Diagramm, das eine Vielzahl von verschiedenen Abgleichsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
3 ist ein schematisches Diagramm, das eine Vielzahl von verschiedenen Abgleichsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
4 ist ein schematisches Diagramm, das eine Vielzahl verschiedener Abgleichsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
5 ist ein schematisches Diagramm, das eine Vielzahl verschiedener Abgleichsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
6 ist ein Ablaufdiagramm, das ein Verfahren zum Prüfen medizinischer Daten gemäß einer anderen konkreten Umsetzung der vorliegenden Erfindung darstellt.

Genaue Beschreibung
Um die technischen Lösungen in Übereinstimmung mit der vorliegenden Erfindung deutlicher darzustellen, ist im Folgenden die vorliegende Erfindung unter Bezugnahme auf die beigefügte Zeichnung näher beschrieben.
Ein Fachmann versteht, dass medizinische Daten im Allgemeinen von einem Benutzerterminal stammen, wobei das Benutzerterminal als eine Endvorrichtung verstanden werden kann, die Daten durch manuelle Eingabe oder durch Verbinden mit verschiedenen Erfassungsvorrichtungen sammeln kann. Bei dem Benutzerterminal kann es sich beispielsweise um ein Mobiltelefon oder einen Tablet-Computer handeln, auf dem Daten durch manuelle Eingabe oder durch Fotografieren mit automatischer Erkennung aufgezeichnet werden. In einem anderen Beispiel kann das Benutzerterminal ein Computer sein, der Daten mit einem medizinischen Sensor oder einem medizinischen Detektionsgerät austauscht, um Daten in Echtzeit über offene Ports zu sammeln. Genauer sind medizinische Basisdaten personenbezogene Daten, die aus verschiedenen Blickwinkeln verstanden werden können: In Bezug auf die Erzeugungskanäle medizinischer Daten können die medizinischen Basisdaten hauptsächlich in arztseitige Daten und patientenseitige Daten unterteilt werden, wobei die arztseitigen Daten Ambulanz- und Notfallaufzeichnungen, Krankenhausaufenthaltsaufzeichnungen, Videoaufzeichnungen, Laboraufzeichnungen, Aufzeichnungen über die Verwendung von Medikamenten, Operationsaufzeichnungen und Nachuntersuchungsaufzeichnungen umfassen und die patientenseitigen Daten persönliche Gewohnheiten, ein Lebensumfeld, eine familiäre Vererbung und ein familiäres Umfeld umfassen. Hinsichtlich der Komponenten der medizinischen Basisdaten können die medizinischen Basisdaten unterteilt werden in: (1) durch medizinische Untersuchungen erzeugte Messwerte wie Körpertemperatur, Blutdruck, Sauerstoffsättigung und Laborwerte; (2) Signale, die von Instrumenten aufgezeichnet werden, wie Elektrokardiogramme und Elektroenzephalogramme; (3) Bilder, die durch medizinische Bildgebungsvorrichtungen erzeugt werden, wie beispielsweise Röntgenbilder, CT-Bilder und MRT-Bilder; (4) in Textform dargestellte Berichtsergebnisse, wie Erläuterungen von Messwerten, Signalen und Bildern, die von einem Arzt gemäß seinen medizinischen Kenntnissen verfasst wurden, und eine pathologische Diagnose eines Arztes; (5) narrative Daten (Schilderungen), wie beispielsweise von einem Arzt aufgezeichnete Beschwerden (ein von einem Patienten beschriebener Krankheitszustand) und eine Krankenakte eines Patienten; (6) Metadatentext, wie Wissen über Organe, Medikamente, Krankheiten und Therapien sowie Parameter von medizinischen Vorrichtungen; und (7) soziale Merkmale, wie beispielsweise institutionelle Informationen eines Krankenhauses und persönliche Informationen von Ärzten und Patienten. Obwohl diese verschiedenen Arten medizinischer Basisdaten unterschiedliche Strukturen aufweisen und unterschiedliche Semantiken enthalten, können die Daten sich ergänzen und den Inhalt und die Merkmale medizinischer Informationen aus verschiedenen speziellen Blickwinkeln zum Ausdruck bringen, wodurch sie einen diversifizierten und komplementären Datensatz bilden.
Ferner wird für den Inhalt der medizinischen Daten in der vorliegenden Erfindung keine Kohärenz der Sprachlogik gefordert, und die medizinischen Daten werden durch die Verwendung von Trennzeichen in einer modularisierten Weise erfasst. Das heißt, der Inhalt jedes Moduls entspricht einem Inhalt des jeweiligen Elements der medizinischen Daten, aber eine Vielzahl von Informationseinheiten sollte eine medizinische semantische Beziehung dazwischen aufweisen. Beim derzeitigen Zustand der historischen Krankenakten der Krankenhäuser sind solche Daten in einem Krankenhausinformationssystem (KIS) in der Regel die häufigsten, und ihre Beschaffung ist verhältnismäßig einfach. In den letzten Jahren hat die nationale Gesundheitsverwaltung Chinas im ganzen Land die Einführung standardisierter elektronischer Krankenakten vorangetrieben, und die Daten dieser elektronischen Krankenakten sind daher bereits gut strukturiert und sind nicht die Art von Daten, auf welche die vorliegende Erfindung abzielt. Genauer umfasst ein Prüfobjekt, das heißt medizinische Daten in Übereinstimmung mit der vorliegenden Erfindung, die folgenden Merkmale:

1) Die Daten können in eine Vielzahl von Strukturen (medizinische Daten) unterteilt sein, wobei Funktionen der Strukturen einander unterstützen, und die Strukturen sind diskrete Module mit unabhängigem Inhalt;
2) Jeder medizinische Datensatz umfasst klare semantische Informationen, und dessen Inhalt stellt eine Vielzahl medizinischer Phrasen dar;
3) Jeder medizinische Datensatz ist von anderen medizinischen Daten durch Trennzeichen getrennt, wobei ein gängiges Trennzeichen ein Interpunktionszeichen sein kann; vorzugsweise kann das Trennzeichen ein anderes Zeichen als ein Interpunktionszeichen sein und ist stattdessen ein Zeilenumbruch (Zeilenwechsel), ein Leerzeichen, eine Seriennummernfolge oder ein Sonderzeichen; und
4) Die Inhalte jedes medizinischen Datensatzes unterliegen Wertebereichsbeschränkungen, wobei jede Wertebereichsbeschränkung gemäß einer Kategorie einer entsprechenden Informationseinheit festgelegt ist, das heißt die Inhalte der medizinischen Daten sind abhängige Variablen und die Kategorien der Informationseinheiten sind unabhängige Variablen. Insbesondere können die Kategorien der Informationseinheiten als ein Satz von Kennzeichnungen (Tags) für den medizinischen Datensatz aufgefasst werden. Beispielsweise lauten die Kennzeichnungen des medizinischen Datensatzes „Neurologie“, „Epilepsie“ und „Symptom“, und die Inhalte des medizinischen Datensatzes sind dementsprechend ein Satz medizinischer Symptome, welche die Epilepsieerkrankung in der Neurologie betreffen. Das heißt, die Wertebereiche der Inhalte der medizinischen Daten sind auf den vorstehenden Bereich beschränkt. Ein Fachmann versteht, dass die Beschaffung der Kennzeichnungen der medizinischen Daten sehr einfach ist und eine entsprechende Abteilung und ein entsprechender Arzt gemäß historischen Krankenakten recht einfach ermittelt werden können, ohne dass eine zusätzliche Vorverarbeitung mit Hilfe eines komplexen Algorithmus notwendig wäre. In einem anderen Beispiel lauten die Kennzeichnungen der medizinischen Daten „Neurologie“, „Epilepsie“ und „Medikament“, und die Inhalte der medizinischen Daten sind dementsprechend ein Satz medizinischer Medikamente, welche die Epilepsieerkrankung in der Neurologie betreffen.

In Verbindung mit den vorstehenden Merkmalen muss vor dem Prüfen der medizinischen Daten ferner keine Wortsegmentierung an den medizinischen Daten vorgenommen werden. Konkret umfassen die medizinischen Daten im Allgemeinen zwei Ausdrucksformen, eine Textform und eine Webdokumentform, wobei die Textform eine recht gewöhnliche Form ist und die Webdokumentform durch Aufteilung der medizinischen Daten in Einheiten und Laden der Einheiten ins Web gebildet wird. Bei den bestehenden Technologien müssen vor der Verarbeitung der medizinischen Daten in der Regel entsprechende medizinische Wörterbücher herangezogen werden und eine Wortsegmentierung muss an den medizinischen Daten vorgenommen werden. Eine gängige Methode ist die Erstellung von Textvektoren für die Merkmale unter Verwendung der entsprechenden medizinischen Wörterbücher, wobei eine Menge der auf diese Weise gebildeten Textvektoren riesig und der entsprechende Berechnungsaufwand verhältnismäßig groß ist. Um die Menge der Textvektoren zu reduzieren, müssen in den bestehenden technischen Verbesserungslösungen die Textvektoren mit kleineren medizinischen Wörterbüchern erstellt werden. Infolgedessen muss der Assoziationsgrad unter dem medizinischen Wörterbuch verbessert werden, wofür eine Sortierung anhand der Wichtigkeit eingeführt werden muss, was wiederum einen komplexeren Wortsegmentierungsalgorithmus notwendig macht und zu einer geringeren Genauigkeit führt, obwohl die Effizienz verbessert wird. Bei der vorliegenden Erfindung sind die Inhalte jedes medizinischen Datensatzes kurz und klar und stammen durchweg von klinischen Ärzten, sodass die Inhalte keine redundanten Modifikationskomponenten enthalten. Im Kontext einer konkreten Anwendungssituation kann der Schritt der Wortsegmentierung in den medizinischen Daten zur Verbesserung der Effizienz ganz ausgelassen werden. Eine solche Lösung wurde im Stand der Technik noch nicht angewendet.
1 ist ein Ablaufdiagramm, das ein Verfahren zum Prüfen medizinischer Daten gemäß einer konkreten Umsetzung in Übereinstimmung mit der vorliegenden Erfindung darstellt, und das Verfahren umfasst die folgenden Schritte:
Zunächst wird Schritt S101 zum Abgleichen eines medizinischen Datensatzes mit einer Standardbibliothek, die eine Vielzahl von Mustern umfasst, durchgeführt, wobei ein Abgleichsausdruck für das Abgleichen lautet: [\s|\S][Nummer/Sequenz/Beziehung]&[\b|\B], Genauer steht [] für ein Abgleichsverfahren, \s steht für eine Ähnlichkeit zwischen einer nicht-initialen Grenze des medizinischen Datensatzes und einer nicht-initialen Grenze der Standardbibliothek, \S steht für eine Ähnlichkeit zwischen einer initialen Grenze des medizinischen Datensatzes und einer initialen Grenze der Standardbibliothek, Nummer steht für eine Ähnlichkeit zwischen einer Anzahl der in dem medizinischen Datensatz enthaltenen Informationseinheiten und einer Anzahl der in der Standardbibliothek enthaltenen Muster, Sequenz steht für eine Ähnlichkeit zwischen einer Sequenz der Vielzahl von Informationseinheiten und einer Sequenz der Vielzahl von Mustern, Beziehung steht für eine Ähnlichkeit zwischen semantischen Beziehungen unter der Vielzahl von Informationseinheiten und semantischen Beziehungen unter der Vielzahl von Mustern, & steht für die Implementierung eines oder mehrerer Abgleichsverfahren, \b steht für eine Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek, \B steht für eine Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek, | steht für disjunktiven Abgleich (oder) und / steht für simultanen Abgleich.
Weiterhin steht im Zusammenhang mit dem Abgleichsausdruck [\s|\S] für das Abgleichen einer Ähnlichkeit zwischen einer nicht-initialen Grenze des medizinischen Datensatzes und einer nicht-initialen Grenze der Standardbibliothek oder das Abgleichen einer Ähnlichkeit zwischen einer initialen Grenze des medizinischen Datensatzes und einer initialen Grenze der Standardbibliothek, sofern eines der zwei Abgleichsverfahren durchgeführt wird. [Nummer/Sequenz/Beziehung] steht für: Abgleichen einer Ähnlichkeit einer Anzahl der in dem medizinischen Datensatz enthaltenen Informationseinheiten und einer Anzahl der in der Standardbibliothek enthaltenen Muster, Abgleichen einer Ähnlichkeit zwischen einer Sequenz der Vielzahl von Informationseinheiten und einer Sequenz der Vielzahl von Mustern oder Abgleichen einer Ähnlichkeit zwischen semantischen Beziehungen unter der Vielzahl von Informationseinheiten und semantischen Beziehungen unter der Vielzahl von Mustern, sofern eines der drei Abgleichsverfahren durchgeführt wird. [\b|\B] steht für das Abgleichen einer Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek oder das Abgleichen einer Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek, sofern eines der zwei Abgleichsverfahren durchgeführt wird.
Weiterhin können unter Bezugnahme auf 2 bis 5 [\s|\S], [Nummer/Sequenz/Beziehung] und [\b|\B] sequentiell ausgeführt werden, oder ein beliebiges Verfahren kann zufällig nicht entsprechend der Reihenfolge gestartet werden. Jedes Verfahren muss allerdings ausgeführt werden. Darüber hinaus kann das Abgleichen einer Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek oder das Abgleichen einer Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek eine Vielzahl von Malen durchgeführt werden.
Ein Fachmann versteht, dass die vorliegende Erfindung einen Abgleichsbereich der medizinischen Daten und der Standardbibliothek einschränkt und insbesondere das Abgleichen unter Verwendung eines dualen Abgleichsverfahrens durchführt, bei dem zum einen Strukturen des medizinischen Datensatzes und der Standardbibliothek abgeglichen werden, umfassend eine Anzahl der Informationseinheiten, eine Anzahl der Muster, eine Sequenz der Vielzahl von Informationseinheiten, eine Sequenz der Vielzahl von Mustern, eine Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten und eine Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern, und zum anderen der medizinische Datensatz mit der Standardbibliothek abgeglichen wird.
Insbesondere konzentriert sich das Abgleichen zwischen der Standardbibliothek und dem medizinischen Datensatz auf eine Struktur, d. h. auf eine nicht-initiale Grenze, eine initiale Grenze, eine Zeichengrenze und eine Nichtzeichengrenze, und der Inhalt der Standardbibliothek und der Inhalt der medizinischen Daten sind keine entscheidenden Punkte beim Abgleich. Genauer müssen die Mengen der semantischen Beziehungen abgeglichen werden, sodass eine semantische Erkennung der entsprechenden Phrasen, welche die Zeichengrenzen und Nichtzeichengrenzen des medizinischen Datensatzes und der Standardbibliothek bilden, erforderlich ist.
Dann wird Schritt S102 zum Bestimmen auf Grundlage eines Abgleichsergebnisses von Schritt S101, ob die medizinischen Daten qualifiziert sind, durchgeführt. Ein Fachmann versteht, dass in Schritt S101 eine Ähnlichkeit zwischen den medizinischen Daten und der Standardbibliothek abgeglichen wird. Genauer gibt es eine Vielzahl von Algorithmen zum Berechnen der Ähnlichkeit, wie z. B. eine euklidische Abstandsmethode, bei der die Ähnlichkeit durch die Bestimmung der natürlichen Längen des medizinischen Datensatzes und der Standardbibliothek ermittelt wird, oder eine Korrelationsmethode nach Pearson, bei der die Ähnlichkeit durch Division einer Kovarianz durch eine Standardabweichung des medizinischen Datensatzes und der Standardbibliothek ermittelt wird, oder eine Kosinusabstandsmethode, bei der die Ähnlichkeit durch Berechnung eines Kosinuswerts eines Winkels der medizinischen Daten und der Standardbibliothek ermittelt wird. Das Prinzip zum Bestimmen der Ähnlichkeit zwischen den medizinischen Daten und der Standardbibliothek mit Hilfe der Kosinusabstandsmethode besteht vorzugsweise darin, dass die Kosinusabstandsmethode nicht empfindlich auf Werte reagiert und mehr von der Konsistenz oder dem Richtungsunterschied zwischen dem medizinischen Datensatz und der Standardbibliothek abhängt. Das heißt, das Bestimmen der Ähnlichkeit zwischen den medizinischen Daten und der Standardbibliothek unter Verwendung der Kosinusabstandsmethode wird hauptsächlich auf dem gleichen Gebiet durchgeführt, was für die Bestimmung besser geeignet ist.
Ferner ist das durch Schritt S101 erhaltene Abgleichsergebnis ein absoluter Wert, und die Bestimmung, ob der medizinische Datensatz qualifiziert ist, hängt von einem Standard ab, der in Schritt S102 festgelegt werden muss. Beispielsweise kann ein Schwellenwert eingestellt werden, und das durch Schritt S101 erhaltene Abgleichsergebnis wird mit dem Schwellenwert verglichen, um zu bestimmen, ob der medizinische Datensatz qualifiziert ist. In einem anderen Beispiel kann die Bestimmung weiterhin nach einem Richtig/Falsch-Standard erfolgen, d. h. in den Verfahren des Abgleichsausdrucks von Schritt S101 kann der medizinische Datensatz nur dann als qualifiziert bestimmt werden, wenn der Abgleich konsistent ist. Ein Fachmann versteht, dass das Abgleichen in der vorliegenden Erfindung nicht das Abgleichen konkreter Inhalte beinhaltet, sondern dass jedes Abgleichsverfahren ein absolutes Abgleichsverfahren ist, das sich auf die Tendenz oder die Menge bezieht, was für die letztgenannte Bestimmungsmethode besser geeignet ist.
Ferner kann die Vielzahl der Abgleichsverfahren in Schritt S101 eine Vielzahl von Abgleichsergebnissen erzeugen. Dementsprechend kann in Schritt S102 konfiguriert sein, dass der medizinische Datensatz nur als qualifiziert bestimmt werden kann, nachdem alle Abgleichverfahren erfolgreich waren, und als Abwandlung kann alternativ konfiguriert sein, dass der medizinische Datensatz als qualifiziert bestimmt werden kann, nachdem ein Teil der Abgleichsverfahren erfolgreich war. Als weitere Abwandlung kann alternativ ein umfassender Abgleichswert durch Berechnen der Vielzahl von Abgleichsergebnissen ermittelt werden, um durch Vergleichen des Abgleichswerts mit dem festgelegten Schwellenwert zu bestimmen, ob der medizinische Datensatz qualifiziert ist. Ein Fachmann kann durch Abwandlungen auf dieser Grundlage weitere Ausführungsformen erhalten, die hierin nicht im Einzelnen beschrieben sind.
Zum besseren Verständnis ist im Folgenden eine einfachere Ausführungsform aufgeführt.
Der medizinische Datensatz ist beispielsweise wie folgt ausgedrückt: „20190321∼Gastroenterologie∼Fieber und Bauchschmerzen-Anstieg der weißen Blutkörperchen und Anstieg der neutrophilen Granulozyten-Appendizitis“, und die entsprechenden Definitionen lauten wie folgt: ∼ ist ein Trennzeichen, eine Informationseinheit ist eine Phrase zwischen zwei Trennzeichen und jedes Trennzeichen ist eine nicht-initiale Grenze. Somit beträgt die Anzahl der Informationseinheiten 4, eine initiale Grenze ist „20190321“, und entsprechend ist die Standardbibliothek als „nicht-chinesisches Zeichen“ „Trennzeichen“ „Disziplin-
Standardbibliothek“ „Trennzeichen“ „Symptom-
Standardbibliothek“ „Trennzeichen“, „Indikator-
Standardbibliothek“ „Trennzeichen“ „Krankheits-Standardbibliothek“ definiert. Auf dieser Grundlage sieht eine variable Ausführungsform gemäß dem Abgleichsausdruck von Schritt S101 wie folgt aus:

Beim Abgleichen der initialen Grenzen kann beispielsweise eine Vielzahl von Formen durch Variation gemäß einem Merkmal der initialen Grenze der Standardbibliothek erzeugt werden. Die vorstehende Standardbibliothek dient als ein Beispiel. Wenn die initiale Grenze des medizinischen Datensatzes aus Zahlen besteht, die alle keine chinesischen Zeichen sind, ist der Abgleich erfolgreich; wenn beim Abgleichen der initialen Grenzen in einem anderen Beispiel Disziplininformationen der initialen Grenze der medizinischen Daten folgen, und der Abgleich ist in diesem Fall erfolgreich. Wenn beim Abgleichen der initialen Grenzen in einem anderen Beispiel die ersten Informationen in chinesischen Schriftzeichen nach der initialen Grenze des medizinischen Datensatzes Disziplininformationen sind, ist der Abgleich in diesem Fall erfolgreich. Wenn beim Abgleichen der initialen Grenzen in einem anderen Beispiel das erste Informationselement nach der initialen Grenze des medizinischen Datensatzes mit einem chinesischen Schriftzeichen beginnt, ist der Abgleich in diesem Fall nicht erfolgreich. In einem anderen Beispiel soll eine Ähnlichkeit zwischen dem nicht-chinesischen Zeichen, das in der initialen Grenze der medizinischen Daten enthalten ist, und einem nicht-chinesischen Zeichen, das in einem Muster enthalten ist, abgeglichen werden. Die vorstehende Zeit dient als ein Beispiel. Das „nicht-chinesische Zeichen“ der Standardbibliothek kann unmittelbar als eine konkrete Zeit „20190531“ definiert werden, um medizinische Daten, deren Zeit verhältnismäßig nahe an der konkreten Zeit ist, unmittelbar auszuwählen. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.

Wenn beispielsweise beim Abgleichen der nicht-initialen Grenzen die Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes und die Anzahl der nicht-initialen Grenzen der Standardbibliothek gleich sind, ist der Abgleich erfolgreich. Wenn in einem anderen Beispiel beim Abgleichen der nicht-initialen Grenzen die semantischen Kennzeichnungen der ersten Zeichen vor und nach jeder nicht-initialen Grenze der medizinischen Daten bestimmt werden, Kennzeichnungen der zwei Muster, die mit jeder nicht-initialen Grenze der Standardbibliothek verknüpft sind, bestimmt werden und die Attribute der zwei Sätze von Kennzeichnungen konsistent sind und einander entsprechen, ist der Abgleich erfolgreich. Wenn beim Abgleichen der nicht-initialen Grenzen in einem anderen Beispiel die Anzahl der Zeichen der zwei benachbarten nicht-initialen Grenzen des medizinischen Datensatzes und die Anzahl der Zeichen der zwei benachbarten nicht-initialen Grenzen der Standardbibliothek bestimmt werden, ist der Abgleich erfolgreich, wenn die Zahlen gleich sind. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
Beispielsweise ist beim Abgleichen der Anzahl der Informationseinheiten und der Anzahl der Muster der Abgleich erfolgreich, falls die zwei Zahlen gleich sind. Insbesondere ist ein Schlüsselfaktor, der sich auf das Ergebnis dieses Abgleichsverfahrens auswirkt, wie Informationseinheiten und Muster definiert sind. Der medizinische Datensatz dient als ein Beispiel. Die Definition ist „eine Phrase zwischen zwei Trennzeichen ist eine Informationseinheit“. Wenn die Definition geändert wird und eine Informationseinheit gemäß der Logik der Segmentierung der medizinischen Wörter definiert wird, wird „Fieber und Bauchschmerzen“ per Definition zu zwei Informationseinheiten anstatt einer Informationseinheit. Genauer wird das Definieren der Informationseinheiten der medizinischen Daten proaktiv durchgeführt, die Unterteilung der Informationseinheiten des medizinischen Datensatzes erfolgt reaktiv und die Unterteilung hat entsprechend einer festgelegten Definition der Informationseinheiten zu erfolgen. Demgegenüber wird das Definieren der Muster ebenfalls proaktiv durchgeführt und die Muster können als eine standardisierte Informationsbibliothek verstanden werden, sodass der Schritt der reaktiven Erkennung entfällt, anders als bei der Erkennung der Informationseinheiten, und die Definitionsweisen der variablen Ausführungsformen daher vielfältiger sind. Der Grad der Komplexität der Definition der Muster entscheidet jedoch über eine Erfolgsrate beim Abgleich. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
Beispielsweise wird beim Abgleichen von Sequenzen zunächst bestimmt, ob eine Sequenz von Kennzeichnungstypen, zu denen die Vielzahl von Informationseinheiten gehört, mit einer Sequenz der Vielzahl von Mustern konsistent ist. Der vorstehende medizinische Datensatz dient als ein Beispiel. Die Informationseinheiten sind nacheinander nach Zeit, Abteilung, Symptom, Indikator oder Diagnose sortiert. Eine konkrete Art der Erkennung kann darin bestehen, dass zunächst eine semantische Analyse der Vielzahl von Informationseinheiten durchgeführt wird, um ein grobes Ergebnis zu erhalten, die Vielzahl von Informationseinheiten dann gemäß einem Klassifizierungsstandard der Kennzeichnungsbibliothek gekennzeichnet wird und dann eine Sortierung gemäß den gekennzeichneten Informationseinheiten durchgeführt wird. Die Vielzahl von Mustern steht in einer standardisierten Sequenz, die gemäß dem Kennzeichnungsklassifizierungsstandard erzeugt wird, sodass ein Schritt der semantischen Analyse nicht durchgeführt werden muss. Bei der tatsächlichen Anwendung wird der Sequenzabgleich aufgrund der unterschiedlichen Normen der medizinischen Daten, der größeren Anzahl der Informationseinheiten und der größeren Anzahl der Muster ebenfalls komplex sein. Als eine Abwandlung kann die Ähnlichkeit zwischen der Sequenz der Vielzahl von Informationseinheiten und der Sequenz der Vielzahl von Mustern bewertet werden. Beispielsweise mischen einige medizinische Daten Symptome und Indikatoren. Da der Wortsegmentierungsschritt in der vorliegenden Erfindung entfällt, kann die Sequenz der Informationseinheit als ähnlich der von Symptommuster-Indikatormuster angesehen werden, sofern eine Informationseinheit, die durch die Durchführung einer semantischen Analyse der Informationseinheit erhalten ist, Symptominformationen und Indikatorinformationen mischt, und der Abgleich ist dann erfolgreich. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
Beispielsweise kann für die Informationseinheiten eine semantische Analyse an jeder Informationseinheit durchgeführt werden und gemäß den Ergebnissen der semantischen Analyse kann jeder Sprung als eine semantische Beziehung angesehen werden. Auf diese Weise wird eine Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten erhalten, wobei ein Sprung jedes Mal verzeichnet wird, wenn die Informationseinheit einen Wörterbuchtyp auf Grundlage der semantischen Analyse wechselt. Genauer besteht für die Vielzahl von Mustern eine einfache Methode darin, dass die Anzahl der semantischen Beziehungen gleich der Anzahl der Muster gesetzt wird. Das heißt, die Definition der Anzahl der Muster bezieht sich unmittelbar auf die Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern. Ein Fachmann versteht, dass, wenn die Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten und die Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern abgeglichen werden, der Abgleich als erfolgreich angesehen werden kann, falls die zwei Zahlen gleich oder nahezu gleich sind.
Beim Abgleichen der Zeichengrenzen für den medizinischen Datensatz beispielsweise sind die Zeichengrenzen tatsächlich Positionsidentifikatoren, die das erste Zeichen und das letzte Zeichen jeder Informationseinheit bestimmen, und die entsprechende Definition für die Standardbibliothek ist identisch. Dementsprechend kann durch Abwandlung eine Vielzahl alternativer Definitionen gemäß einem Merkmal der Zeichengrenze der Standardbibliothek erzeugt werden. Die vorstehende Standardbibliothek dient als ein Beispiel. Die letzte Zeichengrenze der ersten Informationseinheit des medizinischen Datensatzes verfügt über ein Trennzeichen und die erste Zeichengrenze verfügt über kein Trennzeichen, und eine Anzahl der chinesischen Schriftzeichen zwischen den zwei Zeichengrenzen beträgt 4. Dementsprechend kann beim Abgleich der ersten Informationseinheit mit dem ersten Muster der Standardbibliothek der Abgleich als erfolgreich angesehen werden, falls eine Position des Trennzeichens der ersten Informationseinheit mit einer Position eines Trennzeichens des ersten Musters übereinstimmt und die Anzahl der chinesischen Schriftzeichen zwischen den zwei Zeichengrenzen der ersten Informationseinheit ebenfalls dem ersten Muster entspricht oder nahezu entspricht. Genauer kann es eine Vielzahl von Abgleichsarten für eine Ähnlichkeit der Anzahl der chinesischen Schriftzeichen zwischen zwei Zeichengrenzen geben. In einem Fall kann der Abgleich als erfolgreich angesehen werden, falls die Anzahl der chinesischen Schriftzeichen der ersten Informationseinheit nicht einen oberen Grenzwert der Anzahl der chinesischen Schriftzeichen, der durch das erste Muster definiert ist, überschreitet; und in einem anderen Fall darf die Anzahl der chinesischen Schriftzeichen der ersten Informationseinheit zwar den oberen Grenzwert überschreiten, aber die aus chinesischen Schriftzeichen bestehenden Informationen der ersten Informationseinheit müssen eine Teilmenge derjenigen des ersten Musters sein. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
Beim Abgleichen von Nichtzeichengrenzen beispielsweise gelten in Bezug auf die Beschreibung des Abgleichs der Zeichengrenzen alle anderen Grenzen als Nichtzeichengrenzen. Bei dieser Ausführungsform sind die Positionsidentifikatoren jedes chinesischen Schriftzeichens allesamt Nichtzeichengrenzen, das heißt ein Satz aus Nichtzeichengrenzen drückt Positionsinformationen aller chinesischen Schriftzeichen, die in dem medizinischen Datensatz enthalten sind, aus, und dementsprechend ist die Definition der Nichtzeichengrenzen der Standardbibliothek identisch. Auf dieser Grundlage beinhaltet der Abgleich der Nichtzeichengrenzen keinen Abgleich einer spezifischen Semantik, sondern es werden Positionsinformationen der einzelnen Zeichen des medizinischen Datensatzes mit Positionsinformationen der einzelnen Zeichen der Standardbibliothek abgeglichen, das heißt die Strukturkonsistenz oder Strukturähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek ist die Grundlage für den Vergleich. Bei einer konkreten Anwendung wird dieses Abgleichsverfahren zum Messen der Vereinfachung des medizinischen Datensatzes und zum Messen der Zugehörigkeit des medizinischen Datensatzes zu einem zu wortreichen Protokolltext verwendet. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
Auf Grundlage der vorstehenden Beschreibungen sind im Folgenden eine Vielzahl konkreter Ausführungsformen für jedes Abgleichsverfahren aufgeführt:
Als eine erste Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt bei dem Verfahren des Abgleichens der nicht-initialen Grenzen $\ S = \frac{{\sum_{i = 1}^{n_{1}} (s_{i} - s_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{1}} s_{i}^{2}},$
wobei n₁ für eine Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes steht, s_i für einen größten Abstand zwischen zwei nicht-initialen Grenzen des medizinischen Datensatzes steht und s'_i für einen Abstand von einer nicht-initialen Grenze des medizinischen Datensatzes zu einer nicht-initialen Grenze der Standardbibliothek steht. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der nicht-initialen Grenzen der Standardbibliothek größer als diejenige des medizinischen Datensatzes ist. Genauer kann in dieser Ausführungsform die Berechnung unter Verwendung der in Schritt S102 beschriebenen Kosinusabstandsmethode durchgeführt werden. Als ein Beispiel ist i=1 gesetzt. s₁ steht für einen Kosinusabstand zwischen einer ersten nicht-initialen Grenze des medizinischen Datensatzes und einer anderen nicht-initialen Grenze mit der geringsten Ähnlichkeit mit der ersten nicht-initialen Grenze des medizinischen Datensatzes und s'₁ steht für eine Ähnlichkeit zwischen der ersten nicht-initialen Grenze des medizinischen Datensatzes und einer ersten nicht-initialen Grenze der Standardbibliothek, wobei die nicht-initiale Grenze tatsächlich eine Vielzahl von Positionsidentifikatoren darstellt. Auf diese Weise wird bei dieser Ausführungsform tatsächlich eine Positionsähnlichkeit zwischen der nicht-initialen Grenze des medizinischen Datensatzes und der nicht-initialen Grenze der Standardbibliothek berechnet.
Als eine zweite Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt bei dem Verfahren des Abgleichens der initialen Grenzen $\ S = \frac{{\sum_{i = 1}^{n_{2}} (s_{i} - s_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{2}} s_{i}^{2}},$
wobei n₂ für eine Anzahl der initialen Grenzen des medizinischen Datensatzes steht, Si für einen größten Abstand zwischen zwei initialen Grenzen des medizinischen Datensatzes steht und S'_i für einen Abstand von einer initialen Grenze des medizinischen Datensatzes zu einer initialen Grenze der Standardbibliothek steht. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der initialen Grenzen des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der initialen Grenzen der Standardbibliothek größer als diejenige des medizinischen Datensatzes ist. Genauer kann in dieser Ausführungsform die Berechnung unter Verwendung der in Schritt S102 beschriebenen Kosinusabstandsmethode durchgeführt werden. Als ein Beispiel ist i=1 gesetzt. S₁ steht für einen Kosinusabstand zwischen einer ersten initialen Grenze des medizinischen Datensatzes und einer anderen initialen Grenze mit der geringsten Ähnlichkeit mit der ersten initialen Grenze des medizinischen Datensatzes. Es wird ein Beispiel verwendet, bei dem die medizinischen Daten als ein Beispiel als „20190321~Gastroenterologie~Fieber und Bauchschmerzen-Anstieg der weißen Blutkörperchen und Anstieg der neutrophilen Granulozyten-Appendizitis“ ausgedrückt sind. 20190321 sind allesamt initiale Grenzen, und die erste initiale Grenze ist ein Positionsidentifikator von „2“, die initiale Grenze mit einem größten Abstand zu der ersten initialen Grenze ist die letzte „1“ und ein Kosinusabstand dazwischen ist S₁. In ähnlicher Weise ist S'₁ eine Ähnlichkeit zwischen der ersten initialen Grenze des medizinischen Datensatzes und einer ersten initialen Grenze der Standardbibliothek, die als ein Kosinusabstand ausgedrückt ist. Ein Fachmann versteht, dass die initiale Grenze tatsächlich ein Positionsidentifikator ist. Auf diese Weise wird bei dieser Ausführungsform tatsächlich eine Positionsähnlichkeit zwischen der initialen Grenze des medizinischen Datensatzes und der initialen Grenze der Standardbibliothek berechnet.
Als eine dritte Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt $Nummer = {\begin{matrix} 0, & N u m_{a} \neq N u m_{b} \\ 1, & N u m_{a} = N u m_{b} \end{matrix},$
wobei Num_a für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, und Num_b für eine Anzahl der Muster steht, die in der Standardbibliothek enthalten sind. Ein Fachmann versteht, dass bei dieser Ausführungsform absolute Zahlen abgeglichen werden und es nur zwei Abgleichsergebnisse gibt: 0 oder 1. Im Hinblick auf den vorstehenden Inhalt ist ein entscheidender Punkt, der das Abgleichsergebnis dieser Ausführungsform beeinflusst, die Definition des Trennzeichens des medizinischen Datensatzes.
Als eine vierte Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt $Sequenz = \frac{\sum_{i = 1}^{n_{3}} {(S e q_{i} - S e q_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{3}} S e q_{i}^{2}},$
wobei n₃=Num_a-1, Num_a für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, Seqi für einen Abstand zwischen zwei benachbarten Informationseinheiten steht und Seq_'i für einen Abstand zwischen zwei benachbarten Mustern steht. Genauer ist der Abstand zwischen zwei Informationseinheiten tatsächlich eine Ähnlichkeit zwischen den zwei Informationseinheiten und der Abstand zwischen zwei Mustern ist tatsächlich eine Ähnlichkeit zwischen den zwei Mustern. Dementsprechend ist bei dem Abgleichsverfahren dieser Ausführungsform immer noch keine konkreten Inhalte der Informationseinheit oder eine semantische Analyse der Inhalte des Musters beteiligt und nur Tendenzen werden bestimmt. Auf diese Weise kann die technische Schwierigkeit reduziert und die Abgleichseffizienz verbessert werden. Vorzugsweise entsprechen Seq_i und Seq'_i einander. Wenn beispielsweise i=1 ist, geben die beiden einen Abstand zwischen einer ersten Informationseinheit und einer zweiten Informationseinheit bzw. einen Abstand zwischen einem ersten entsprechenden Muster und einem zweiten entsprechenden Muster an. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der Informationseinheiten des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der Muster der Standardbibliothek größer als die Anzahl der Informationseinheiten ist.
Als eine fünfte Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt $Beziehung = {\begin{matrix} 0, & R e l_{a} \neq R e l_{b} \\ 1, & R e l_{a} = R e l_{b} \end{matrix},$
wobei Rel_a für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Informationseinheiten enthalten sind, und Rel_b für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Mustern enthalten sind. Genauer ist die Abgleichsweise dieser Ausführungsform ähnlich der Abgleichsweise der dritten Ausführungsform, und ein Unterschied besteht darin, dass in dieser Ausführungsform die Anzahlen der semantischen Beziehungen abgeglichen werden. Wie oben beschrieben, kann eine semantische Analyse an jeder Informationseinheit durchgeführt werden und gemäß den Ergebnissen der semantischen Analyse kann jeder Sprung als eine semantische Beziehung angesehen werden. Auf diese Weise wird eine Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten erhalten, wobei ein Sprung jedes Mal verzeichnet wird, wenn die Informationseinheit einen Wörterbuchtyp auf Grundlage der semantischen Analyse wechselt. Genauer kann für die Vielzahl von Mustern die Anzahl der semantischen Beziehungen auch einfach gleich der Anzahl der Muster gesetzt werden. Das heißt, die Definition der Anzahl der Muster wirkt sich unmittelbar auf die Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern aus.
Als eine sechste Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt $\ S = \frac{{\sum_{i = 1}^{n_{4}} (b_{i} - b_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{4}} b_{i}^{2}},$
wobei n₄ für eine Anzahl der Zeichengrenzen des medizinischen Datensatzes steht, bi für einen größten Abstand zwischen zwei Zeichengrenzen des medizinischen Datensatzes steht und b'_i für einen Abstand von einer Zeichengrenze des medizinischen Datensatzes zu einer Zeichengrenze der Standardbibliothek steht. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der Zeichengrenzen des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der Zeichengrenzen der Standardbibliothek größer als diejenige des medizinischen Datensatzes ist. Genauer kann in dieser Ausführungsform die Berechnung unter Verwendung der in Schritt S102 beschriebenen Kosinusabstandsmethode durchgeführt werden. Als ein Beispiel ist i=1 gesetzt. s₁ steht für einen Kosinusabstand zwischen einer ersten Zeichengrenze des medizinischen Datensatzes und einer anderen Zeichengrenze mit der geringsten Ähnlichkeit mit der ersten Zeichengrenze des medizinischen Datensatzes und s'₁ steht für eine Ähnlichkeit zwischen der ersten Zeichengrenze des medizinischen Datensatzes und einer ersten Zeichengrenze der Standardbibliothek, wobei die Zeichengrenze tatsächlich eine Vielzahl von Positionsidentifikatoren darstellt. Auf diese Weise wird bei dieser Ausführungsform tatsächlich eine Positionsähnlichkeit zwischen den Zeichengrenzen des medizinischen Datensatzes und den Zeichengrenzen der Standardbibliothek berechnet.
Als eine siebte Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt $\ B = \frac{{\sum_{i = 1}^{n_{5}} (B_{i} - B_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{5}} B_{i}^{2}},$
wobei n₅ für eine Anzahl der Nichtzeichengrenzen des medizinischen Datensatzes steht, Bi für einen größten Abstand zwischen zwei Nichtzeichengrenzen des medizinischen Datensatzes steht und B'_i für einen Abstand von einer Nichtzeichengrenze des medizinischen Datensatzes zu einer Nichtzeichengrenze der Standardbibliothek steht. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der Nichtzeichengrenzen des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der Nichtzeichengrenzen der Standardbibliothek größer als diejenige des medizinischen Datensatzes ist. Genauer kann in dieser Ausführungsform die Berechnung unter Verwendung der in Schritt S102 beschriebenen Kosinusabstandsmethode durchgeführt werden. Als ein Beispiel ist i=1 gesetzt. s₁ steht für einen Kosinusabstand zwischen einer ersten Nichtzeichengrenze des medizinischen Datensatzes und einer anderen Nichtzeichengrenze mit der geringsten Ähnlichkeit mit der ersten Nichtzeichengrenze des medizinischen Datensatzes und s'₁ steht für eine Ähnlichkeit zwischen der ersten Nichtzeichengrenze des medizinischen Datensatzes und einer ersten Nichtzeichengrenze der Standardbibliothek, wobei die Nichtzeichengrenze tatsächlich eine Vielzahl von Positionsidentifikatoren darstellt. Auf diese Weise wird bei dieser Ausführungsform tatsächlich eine Positionsähnlichkeit zwischen den Nichtzeichengrenzen des medizinischen Datensatzes und den Nichtzeichengrenzen der Standardbibliothek berechnet.
6 zeigt ein Verfahren zum Prüfen medizinischer Daten gemäß einer anderen konkreten Umsetzung in Übereinstimmung mit der vorliegenden Erfindung, und das Verfahren umfasst die folgenden Schritte:
Zunächst wird Schritt S201 zum Abgleichen eines medizinischen Datensatzes mit einer Standardbibliothek, die eine Vielzahl von Mustern enthält, durchgeführt, wobei ein Abgleichsausdruck lautet: [\s|\S] [Nummer/Sequenz/Beziehung]&[\b|\B], Dieser Schritt kann genauer unter Bezugnahme auf Schritt S101 verstanden werden, und Einzelheiten sind hierin nicht noch einmal beschrieben.
Weiterhin wird Schritt S202 durchgeführt, der das Berechnen einer Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek unter Verwendung der folgenden Formel umfasst, wobei C für die Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek steht, c_j für eine Ähnlichkeit jedes Abgleichsverfahrens in Schritt S201 steht und m für eine Anzahl der Abgleichsverfahren in Schritt S201 steht: $C = {\begin{array}{l} m i n_{j = 1}^{m} {1 - c_{j}}, & m \neq 0 \\ 0, & m = 0 \end{array} .$
In den vorstehenden Ausführungsformen 1 bis 7 sind die einzelnen Abgleichsverfahren in Schritt S201 genau aufgeführt, und ein Fachmann kann diese Verfahren in Verbindung mit dem Abgleichsausdruck in Schritt S201 verstehen. C ist ein endgültiges Berechnungsergebnis des Abgleichsausdrucks in Schritt S201, d. h. in Verbindung mit der in diesem Schritt gezeigten Formel gilt, wenn kein Abgleichsverfahren durchgeführt wird, m=0, und dementsprechend ist das Berechnungsergebnis des Abgleichsausdrucks auch 0, d. h. C=0. In diesem Fall ist die Ähnlichkeit zwischen den medizinischen Daten und der Standardbibliothek 0. Mit dem Fortschreiten der Abgleichsverfahren nimmt m jedoch nacheinander die Werte 1, 2, 3 und 4 an, und das Berechnungsergebnis c_j jedes entsprechenden Abgleichsverfahrens wird als ein spezifischer Wert ausgedrückt, und nachdem alle Abgleichverfahren abgeschlossen sind, wird das Minimum einer Anzahl von c_j (die Anzahl ist m) als Berechnungsergebnis des Abgleichsausdrucks verwendet.
Ferner wird Schritt S203 zum Bestimmen, ob C kleiner oder gleich Cmin ist, durchgeführt, wobei Cmin für eine voreingestellte Mindestähnlichkeitsschwelle steht. Falls C≤C_min, wird Schritt S204 zum Bestimmen, ob der medizinische Datensatz qualifiziert ist, durchgeführt. Wie aus einem Ergebnis von Schritt S202 hervorgeht, wird in Schritt S202 ein Ergebnis des Abgleichsverfahrens mit der geringsten Ähnlichkeit mit der Standardbibliothek ausgewählt, und ein Ziel dieses Schritts ist es zu berechnen, ob das Abgleichsverfahren mit der geringsten Ähnlichkeit noch in einen von einem System festgelegten niedrigsten Schwellenwertbereich fällt, d. h. ob das Ergebnis kleiner oder gleich Cmin ist. Genauer kann der medizinische Datensatz als qualifiziert bestimmt werden, falls das Abgleichsverfahren mit der geringsten Ähnlichkeit noch akzeptabel ist.
Konkrete Ausführungsformen in Übereinstimmung mit der vorliegenden Erfindung sind oben beschrieben. Es versteht sich, dass die vorliegende Erfindung nicht auf die oben beschriebenen konkreten Ausführungsformen beschränkt ist und ein Fachmann verschiedene Änderungen oder Modifikationen innerhalb des Geltungsbereichs der Ansprüche vornehmen kann, ohne vom Geist der vorliegenden Erfindung abzuweichen.

Claims

Verfahren zum Prüfen medizinischer Daten, wobei ein zu prüfender medizinischer Datensatz eine Vielzahl von Informationseinheiten und eine Vielzahl von Trennzeichen enthält und das Verfahren die folgenden Schritte umfasst: a. Abgleichen des medizinischen Datensatzes mit einer Standardbibliothek, die eine Vielzahl von Mustern enthält, wobei ein Abgleichsausdruck lautet: [\s\S][Nummer/Sequenz/Beziehung]&[\b|\B], wobei [ ] für ein Abgleichsverfahren steht, \s für eine Ähnlichkeit zwischen einer nicht-initialen Grenze des medizinischen Datensatzes und einer nicht-initialen Grenze der Standardbibliothek steht, \S für eine Ähnlichkeit zwischen einer initialen Grenze des medizinischen Datensatzes und einer initialen Grenze der Standardbibliothek steht, „Nummer“ für eine Ähnlichkeit zwischen einer Anzahl der in dem medizinischen Datensatz enthaltenen Informationseinheiten und einer Anzahl der in der Standardbibliothek enthaltenen Muster steht, „Sequenz“ für eine Ähnlichkeit zwischen einer Sequenz der Vielzahl von Informationseinheiten und einer Sequenz der Vielzahl von Mustern steht, „Beziehung“ für eine Ähnlichkeit zwischen einer Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten und einer Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern steht, & für die Implementierung eines oder mehrerer Abgleichsverfahren steht, \b für eine Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek steht, \B für eine Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek steht, | für disjunktiven Abgleich (oder) steht und / für simultanen Abgleich steht; und b. Bestimmen auf Grundlage eines Abgleichsergebnisses von Schritt a, ob der medizinische Datensatz qualifiziert ist.
Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei die Informationseinheit eine Wertebereichsbeschränkung aufweist, die Wertebereichsbeschränkung entsprechend einer Kategorie der Informationseinheit festgelegt wird, und wenn der Schritt a durchgeführt wird, keine Wortsegmentierung an den medizinischen Daten durchgeführt wird.
Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a $\ S = \frac{{\sum_{i = 1}^{n_{1}} (s_{i} - s_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{1}} s_{i}^{2}}$
gilt, wobei n₁ für eine Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes steht, s_i für einen größten Abstand zwischen zwei nicht-initialen Grenzen des medizinischen Datensatzes steht und s'_i für einen Abstand von einer nicht-initialen Grenze des medizinischen Datensatzes zu einer nicht-initialen Grenze der Standardbibliothek steht.
Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a $\ S = \frac{{\sum_{i = 1}^{n_{2}} (s_{i} - s_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{2}} s_{i}^{2}}$
gilt, wobei n₂ für eine Anzahl der initialen Grenzen des medizinischen Datensatzes steht, S_i für einen größten Abstand zwischen zwei initialen Grenzen des medizinischen Datensatzes steht und S'_i für einen Abstand von einer initialen Grenze des medizinischen Datensatzes zu einer initialen Grenze der Standardbibliothek steht.
Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a $Nummer = {\begin{matrix} 0, & N u m_{a} \neq N u m_{b} \\ 1, & N u m_{a} = N u m_{b} \end{matrix},$
gilt, wobei Num_a für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, und Num_b für eine Anzahl der Muster steht, die in der Standardbibliothek enthalten sind.
Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a $Sequenz = \frac{\sum_{i = 1}^{n_{3}} {(S e q_{i} - S e q_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{3}} S e q_{i}^{2}}$
gilt, wobei n₃=Num_a-1, Num_a für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, Seqi für einen Abstand zwischen zwei benachbarten Informationseinheiten steht und Seq'_i für einen Abstand zwischen zwei benachbarten Mustern steht.
Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a $Beziehung = {\begin{matrix} 0, & R e l_{a} \neq R e l_{b} \\ 1, & R e l_{a} = R e l_{b} \end{matrix}$
gilt, wobei Rel_a für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Informationseinheiten enthalten sind, und Rel_b für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Mustern enthalten sind.
Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a $\ S = \frac{{\sum_{i = 1}^{n_{4}} (b_{i} - b_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{4}} b_{i}^{2}}$
gilt, wobei n₄ für eine Anzahl der Zeichengrenzen des medizinischen Datensatzes steht, bi für einen größten Abstand zwischen zwei Zeichengrenzen des medizinischen Datensatzes steht und b'_i für einen Abstand von einer Zeichengrenze des medizinischen Datensatzes zu einer Zeichengrenze der Standardbibliothek steht.
Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a $\ B = \frac{{\sum_{i = 1}^{n_{5}} (B_{i} - B_{i}^{'})}^{2}}{\sum_{i = 1}^{n_{5}} B_{i}^{2}}$
gilt, wobei n₅ für eine Anzahl der Nichtzeichengrenzen des medizinischen Datensatzes steht, Bi für einen größten Abstand zwischen zwei Nichtzeichengrenzen des medizinischen Datensatzes steht und B'_i für einen Abstand von einer Nichtzeichengrenze des medizinischen Datensatzes zu einer Nichtzeichengrenze der Standardbibliothek steht.
Verfahren zum Prüfen medizinischer Daten nach einem beliebigen der Ansprüche 1 bis 12, wobei Schritt b ferner die folgenden Schritte umfasst: b1: Berechnen einer Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek unter Verwendung der folgenden Formel, wobei C für die Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek steht, c_j für eine Ähnlichkeit jedes Abgleichsverfahrens in Schritt a steht und m für eine Anzahl der Abgleichsverfahren in Schritt a steht: $C = {\begin{array}{l} m i n_{j = 1}^{m} {1 - c_{j}}, & m \neq 0 \\ 0, & m = 0 \end{array};$
und b2: falls C≤C_min, Bestimmen, dass der medizinischen Datensatz qualifiziert ist, wobei Cmin für eine voreingestellte Mindestähnlichkeitsschwelle steht.