DE112020003412T5 - Verfahren zum Prüfen medizinischer Daten - Google Patents

Verfahren zum Prüfen medizinischer Daten Download PDF

Info

Publication number
DE112020003412T5
DE112020003412T5 DE112020003412.7T DE112020003412T DE112020003412T5 DE 112020003412 T5 DE112020003412 T5 DE 112020003412T5 DE 112020003412 T DE112020003412 T DE 112020003412T DE 112020003412 T5 DE112020003412 T5 DE 112020003412T5
Authority
DE
Germany
Prior art keywords
matching
medical
boundary
medical record
standard library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE112020003412.7T
Other languages
English (en)
Inventor
Juanjuan Yao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mingpin Medical Data Tech Co Ltd
Shanghai Mingpin Medical Data Technology Co Ltd
Original Assignee
Shanghai Mingpin Medical Data Tech Co Ltd
Shanghai Mingpin Medical Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mingpin Medical Data Tech Co Ltd, Shanghai Mingpin Medical Data Technology Co Ltd filed Critical Shanghai Mingpin Medical Data Tech Co Ltd
Publication of DE112020003412T5 publication Critical patent/DE112020003412T5/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

Ein Verfahren zum Prüfen medizinischer Daten ist geschaffen. Jeder medizinische Datensatz enthält eine Vielzahl von Informationseinheiten und eine Vielzahl von Trennzeichen, und das Verfahren umfasst die folgenden Schritte: a. Abgleichen der medizinischen Daten mit einer Standardbibliothek, die eine Vielzahl von Mustern enthält, wobei ein Abgleichsausdruck lautet: [\s\S][Nummer/Sequenz/Beziehung]&[\bl\B] (S101); und b. Bestimmen auf Grundlage eines Abgleichsergebnisses von Schritt a, ob der medizinischen Datensatz qualifiziert ist (S102). Es wird zunächst eine standardisierte Standardbibliothek eingerichtet, ein Abgleichsergebnis wird durch Abgleichen des medizinischen Datensatzes und der Standardbibliothek für eine nicht-initiale Grenze, eine initiale Grenze, eine Informationsmenge, Informationssequenzen, eine Anzahl semantischer Beziehungen, eine Zeichengrenze und eine Nichtzeichengrenze erhalten, und ob der medizinische Datensatz eine Anforderung erfüllt, wird weiterhin gemäß dem Abgleichsergebnis bestimmt.

Description

  • Hintergrund der vorliegenden Erfindung
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft das Gebiet der Verarbeitung großer Datenmengen („Big-Data-Verarbeitung“), insbesondere ein Verfahren zum Kontrollieren der Qualität medizinischer Daten und genauer ein Verfahren zum Prüfen medizinischer Daten.
  • Beschreibung des Standes der Technik
  • Mit dem Einzug der Ära großer Datenmengen werden verschiedene Arten von Daten gesammelt und verarbeitet. Als eine der speziellsten Arten von Daten umfassen medizinische Daten verschiedene Variablen einschließlich Patientendaten, Arztdaten, Krankheitsdaten, Symptomdaten, Testdaten, Diagnosedaten, Behandlungsdaten und Medikamentendaten. Medizinische Aktivitäten zeichnen sich besonders dadurch aus, dass medizinische Feststellungen eine klare logische Beziehung untereinander aufweisen, sodass medizinische Daten auch eine klare semantische Beziehung aufweisen. Außerdem werden medizinische Daten in der Regel von einem Arzt oder einem Patienten eingegeben oder erzeugt, und die semantische Beziehung zwischen den Daten kann einen Zusammenhang zwischen den Entscheidungen des Arztes mit entsprechenden Therapien und einer Krankheitsentwicklung widerspiegeln.
  • Ein medizinischer Dateninteraktionsprozess ist dadurch gekennzeichnet, dass in der Regel eine Vielzahl von Terminals an der Interaktion beteiligt sind und jedes Terminal einen eigenen Bedarf hat, d. h. die Anforderungen der Terminals an die Datenqualität, insbesondere die Anforderungen an die Datenstrukturen, sind jeweils unterschiedlich. Auf der Grundlage konventioneller Dateninteraktionstheorien müssen die Strukturen medizinischer Daten zunächst vereinheitlicht werden, um eine starke Logik bei der Interaktion einer Vielzahl von Terminals zu implementieren.
  • Bei bestehenden medizinischen Daten für Anwendungen im Bereich der künstlichen Intelligenz wird ein Typ durch Datensuche („Mining“) in Krankenaktendaten eines bestimmten Krankenhausinformationssystems (KIS) erzeugt, was allgemein als Extraktion strukturierter Informationen bezeichnet wird; und ein anderer Typ wird durch getrenntes Modellieren und Wiedereingeben durch medizinisches Personal erzeugt. Mit beiden Methoden können grundlegende Daten gewonnen werden, die den Qualitätsanforderungen des maschinellen Lernens entsprechen, aber beide Methoden sind auch zeitaufwändig und kostenintensiv.
  • Aus ökonomischer Sicht stammen die beiden vorstehenden grundlegenden Methoden der Datenerfassung von Unternehmen, die im Bereich der künstlichen Intelligenz eine Vorreiterrolle einnehmen, und ein Grund für die Verwendung der beiden Methoden liegt in der Knappheit medizinischer Daten in den Heimatländern dieser Unternehmen. Das Land, aus dem die Erfinder stammen, hat die größte Bevölkerung und verzeichnet die meisten Arztbesuche weltweit; die allgemeine Menge der medizinischen Daten ist riesig, aber die Qualität dieser medizinischen Daten ist uneinheitlich. Wenn also diese medizinischen Daten mit den beiden vorstehenden Methoden verarbeitet werden, entstehen höhere Kosten und der Zeitaufwand kann größer sein.
  • Daher kann die Entwicklung eines Verfahrens, das riesige medizinische Datenmengen schnell vorfiltern und auf Grundlage vorgefilterter Daten eine weitere Verarbeitung nach brancheneinheitlichen Methoden durchführen kann, eine solide Grundlage für die Entwicklung der Branche der medizinischen künstlichen Intelligenz bilden.
  • Zusammenfassung der vorliegenden Erfindung
  • Ein durch die technischen Lösungen der vorliegenden Erfindung zu lösendes technisches Problem besteht darin, medizinische Daten schnell in standardisierter Weise zu prüfen.
  • Um das vorstehende technische Problem zu lösen, schaffen die technischen Lösungen gemäß der vorliegenden Erfindung ein Verfahren zum Prüfen medizinischer Daten, wobei die medizinischen Daten eine Vielzahl von Informationseinheiten und eine Vielzahl von Trennzeichen enthalten und das Verfahren die folgenden Schritte umfasst:
    1. a. Abgleichen eines medizinischen Datensatzes mit einer Standardbibliothek, die eine Vielzahl von Mustern enthält, wobei ein Abgleichsausdruck lautet: [\s\|S][Nummer/Sequenz/Beziehung]&[\b|\B], wobei [] für ein Abgleichsverfahren steht, \s für eine Ähnlichkeit zwischen einer nicht-initialen Grenze des medizinischen Datensatzes und einer nicht-initialen Grenze der Standardbibliothek steht, \S für eine Ähnlichkeit zwischen einer initialen Grenze des medizinischen Datensatzes und einer initialen Grenze der Standardbibliothek steht, Nummer für eine Ähnlichkeit zwischen einer Anzahl der in dem medizinischen Datensatz enthaltenen Informationseinheiten und einer Anzahl der in der Standardbibliothek enthaltenen Muster steht, Sequenz für eine Ähnlichkeit zwischen einer Sequenz der Vielzahl von Informationseinheiten und einer Sequenz der Vielzahl von Mustern steht, Beziehung für eine Ähnlichkeit zwischen semantischen Beziehungen unter der Vielzahl von Informationseinheiten und semantischen Beziehungen unter der Vielzahl von Mustern steht, & für die Implementierung eines oder mehrerer Abgleichsverfahren steht, \b für eine Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek steht, \B für eine Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek steht, | für disjunktiven Abgleich (oder) steht und / für simultanen Abgleich steht; und
    2. b. Bestimmen auf Grundlage eines Abgleichsergebnisses von Schritt a, ob der medizinische Datensatz qualifiziert ist.
  • Vorzugsweise weist jede Informationseinheit eine Wertebereichsbeschränkung auf, die Wertebereichsbeschränkung wird entsprechend einer Kategorie der Informationseinheit festgelegt, und wenn der Schritt a durchgeführt wird, wird keine Wortsegmentierung an dem medizinischen Datensatz vorgenommen.
  • Vorzugsweise ist in dem Abgleichsausdruck von Schritt a \S gegeben durch \ S = i = 1 n 1 ( s i s i ' ) 2 i = 1 n 1 s i 2 ,
    Figure DE112020003412T5_0001
    wobei n1 für eine Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes steht, si für einen größten Abstand zwischen zwei nicht-initialen Grenzen des medizinischen Datensatzes steht und s'i für einen Abstand von einer nicht-initialen Grenze des medizinischen Datensatzes zu einer nicht-initialen Grenze der Standardbibliothek steht.
  • Vorzugsweise ist in dem Abgleichsausdruck von Schritt a \S gegeben durch \ S = i = 1 n 2 ( s i s i ' ) 2 i = 1 n 2 s i 2 ,
    Figure DE112020003412T5_0002
    wobei n2 für eine Anzahl der initialen Grenzen des medizinischen Datensatzes steht, Si für einen größten Abstand zwischen zwei initialen Grenzen des medizinischen Datensatzes steht und S'i für einen Abstand von einer initialen Grenze des medizinischen Datensatzes zu einer initialen Grenze der Standardbibliothek steht.
  • Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a Nummer = { 0, N u m a N u m b 1, N u m a = N u m b ,
    Figure DE112020003412T5_0003
    wobei Numa für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, und Numb für eine Anzahl der Muster steht, die in der Standardbibliothek enthalten sind.
  • Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a Sequenz = i = 1 n 3 ( S e q i S e q i ' ) 2 i = 1 n 3 S e q i 2 ,
    Figure DE112020003412T5_0004
    wobei n3=Numa-1, Numa für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, Seqi für einen Abstand zwischen zwei benachbarten Informationseinheiten steht und Seq'i für einen Abstand zwischen zwei benachbarten Mustern steht.
  • Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a Beziehung = { 0, R e l a R e l b 1, R e l a = R e l b ,
    Figure DE112020003412T5_0005
    wobei Rela für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Informationseinheiten enthalten sind, und Relb für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Mustern enthalten sind.
  • Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a \ S = i = 1 n 4 ( b i b i ' ) 2 i = 1 n 4 b i 2 ,
    Figure DE112020003412T5_0006
    wobei n4 für eine Anzahl der Zeichengrenzen des medizinischen Datensatzes steht, bi für einen größten Abstand zwischen zwei Zeichengrenzen des medizinischen Datensatzes steht und b'i für einen Abstand von einer Zeichengrenze des medizinischen Datensatzes zu einer Zeichengrenze der Standardbibliothek steht.
  • Vorzugsweise gilt in dem Abgleichsausdruck von Schritt a \ B = i = 1 n 5 ( B i B i ' ) 2 i = 1 n 5 B i 2 ,
    Figure DE112020003412T5_0007
    wobei n5 für eine Anzahl der Nichtzeichengrenzen des medizinischen Datensatzes steht, Bi für einen größten Abstand zwischen zwei Nichtzeichengrenzen des medizinischen Datensatzes steht und B'i für einen Abstand von einer Nichtzeichengrenze des medizinischen Datensatzes zu einer Nichtzeichengrenze der Standardbibliothek steht.
  • Vorzugsweise umfasst der Schritt b die folgenden Schritte:
    • b1: Berechnen einer Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek unter Verwendung der folgenden Formel, wobei C für die Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek steht, cj für eine Ähnlichkeit jedes Abgleichsverfahrens in Schritt a steht und m für eine Anzahl der Abgleichsverfahren in Schritt a steht: C = { m i n j = 1 m { 1 c j } , m 0 0, m = 0 ;
      Figure DE112020003412T5_0008
      und
    • b2: falls C≤Cmin, Bestimmen, dass der medizinische Datensatz qualifiziert ist, wobei Cmin für eine voreingestellte Mindestähnlichkeitsschwelle steht.
  • In der vorliegenden Erfindung wird zunächst eine standardisierte Standardbibliothek eingerichtet, ein Abgleichsergebnis wird durch Abgleichen des medizinischen Datensatzes mit der Standardbibliothek für eine nicht-initiale Grenze, eine initiale Grenze, eine Informationsmenge, Informationssequenzen, eine Anzahl semantischer Beziehungen, eine Zeichengrenze und eine Nichtzeichengrenze erhalten, und ob der medizinische Datensatz eine Anforderung erfüllt, wird weiterhin gemäß dem Abgleichsergebnis bestimmt.
  • Figurenliste
  • Weitere Merkmale, Ziele und Vorteile in Übereinstimmung mit der vorliegenden Erfindung werden durch das Lesen der ausführlichen Beschreibung von nicht-einschränkenden Ausführungsformen, die auf die folgende beigefügte Zeichnung Bezug nimmt, deutlicher:
    • 1 ist ein Ablaufdiagramm, das ein Verfahren zum Prüfen medizinischer Daten gemäß einer konkreten Umsetzung der vorliegenden Erfindung darstellt;
    • 2 ist ein schematisches Diagramm, das eine Vielzahl von verschiedenen Abgleichsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 3 ist ein schematisches Diagramm, das eine Vielzahl von verschiedenen Abgleichsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 4 ist ein schematisches Diagramm, das eine Vielzahl verschiedener Abgleichsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 5 ist ein schematisches Diagramm, das eine Vielzahl verschiedener Abgleichsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 6 ist ein Ablaufdiagramm, das ein Verfahren zum Prüfen medizinischer Daten gemäß einer anderen konkreten Umsetzung der vorliegenden Erfindung darstellt.
  • Genaue Beschreibung
  • Um die technischen Lösungen in Übereinstimmung mit der vorliegenden Erfindung deutlicher darzustellen, ist im Folgenden die vorliegende Erfindung unter Bezugnahme auf die beigefügte Zeichnung näher beschrieben.
  • Ein Fachmann versteht, dass medizinische Daten im Allgemeinen von einem Benutzerterminal stammen, wobei das Benutzerterminal als eine Endvorrichtung verstanden werden kann, die Daten durch manuelle Eingabe oder durch Verbinden mit verschiedenen Erfassungsvorrichtungen sammeln kann. Bei dem Benutzerterminal kann es sich beispielsweise um ein Mobiltelefon oder einen Tablet-Computer handeln, auf dem Daten durch manuelle Eingabe oder durch Fotografieren mit automatischer Erkennung aufgezeichnet werden. In einem anderen Beispiel kann das Benutzerterminal ein Computer sein, der Daten mit einem medizinischen Sensor oder einem medizinischen Detektionsgerät austauscht, um Daten in Echtzeit über offene Ports zu sammeln. Genauer sind medizinische Basisdaten personenbezogene Daten, die aus verschiedenen Blickwinkeln verstanden werden können: In Bezug auf die Erzeugungskanäle medizinischer Daten können die medizinischen Basisdaten hauptsächlich in arztseitige Daten und patientenseitige Daten unterteilt werden, wobei die arztseitigen Daten Ambulanz- und Notfallaufzeichnungen, Krankenhausaufenthaltsaufzeichnungen, Videoaufzeichnungen, Laboraufzeichnungen, Aufzeichnungen über die Verwendung von Medikamenten, Operationsaufzeichnungen und Nachuntersuchungsaufzeichnungen umfassen und die patientenseitigen Daten persönliche Gewohnheiten, ein Lebensumfeld, eine familiäre Vererbung und ein familiäres Umfeld umfassen. Hinsichtlich der Komponenten der medizinischen Basisdaten können die medizinischen Basisdaten unterteilt werden in: (1) durch medizinische Untersuchungen erzeugte Messwerte wie Körpertemperatur, Blutdruck, Sauerstoffsättigung und Laborwerte; (2) Signale, die von Instrumenten aufgezeichnet werden, wie Elektrokardiogramme und Elektroenzephalogramme; (3) Bilder, die durch medizinische Bildgebungsvorrichtungen erzeugt werden, wie beispielsweise Röntgenbilder, CT-Bilder und MRT-Bilder; (4) in Textform dargestellte Berichtsergebnisse, wie Erläuterungen von Messwerten, Signalen und Bildern, die von einem Arzt gemäß seinen medizinischen Kenntnissen verfasst wurden, und eine pathologische Diagnose eines Arztes; (5) narrative Daten (Schilderungen), wie beispielsweise von einem Arzt aufgezeichnete Beschwerden (ein von einem Patienten beschriebener Krankheitszustand) und eine Krankenakte eines Patienten; (6) Metadatentext, wie Wissen über Organe, Medikamente, Krankheiten und Therapien sowie Parameter von medizinischen Vorrichtungen; und (7) soziale Merkmale, wie beispielsweise institutionelle Informationen eines Krankenhauses und persönliche Informationen von Ärzten und Patienten. Obwohl diese verschiedenen Arten medizinischer Basisdaten unterschiedliche Strukturen aufweisen und unterschiedliche Semantiken enthalten, können die Daten sich ergänzen und den Inhalt und die Merkmale medizinischer Informationen aus verschiedenen speziellen Blickwinkeln zum Ausdruck bringen, wodurch sie einen diversifizierten und komplementären Datensatz bilden.
  • Ferner wird für den Inhalt der medizinischen Daten in der vorliegenden Erfindung keine Kohärenz der Sprachlogik gefordert, und die medizinischen Daten werden durch die Verwendung von Trennzeichen in einer modularisierten Weise erfasst. Das heißt, der Inhalt jedes Moduls entspricht einem Inhalt des jeweiligen Elements der medizinischen Daten, aber eine Vielzahl von Informationseinheiten sollte eine medizinische semantische Beziehung dazwischen aufweisen. Beim derzeitigen Zustand der historischen Krankenakten der Krankenhäuser sind solche Daten in einem Krankenhausinformationssystem (KIS) in der Regel die häufigsten, und ihre Beschaffung ist verhältnismäßig einfach. In den letzten Jahren hat die nationale Gesundheitsverwaltung Chinas im ganzen Land die Einführung standardisierter elektronischer Krankenakten vorangetrieben, und die Daten dieser elektronischen Krankenakten sind daher bereits gut strukturiert und sind nicht die Art von Daten, auf welche die vorliegende Erfindung abzielt. Genauer umfasst ein Prüfobjekt, das heißt medizinische Daten in Übereinstimmung mit der vorliegenden Erfindung, die folgenden Merkmale:
    1. 1) Die Daten können in eine Vielzahl von Strukturen (medizinische Daten) unterteilt sein, wobei Funktionen der Strukturen einander unterstützen, und die Strukturen sind diskrete Module mit unabhängigem Inhalt;
    2. 2) Jeder medizinische Datensatz umfasst klare semantische Informationen, und dessen Inhalt stellt eine Vielzahl medizinischer Phrasen dar;
    3. 3) Jeder medizinische Datensatz ist von anderen medizinischen Daten durch Trennzeichen getrennt, wobei ein gängiges Trennzeichen ein Interpunktionszeichen sein kann; vorzugsweise kann das Trennzeichen ein anderes Zeichen als ein Interpunktionszeichen sein und ist stattdessen ein Zeilenumbruch (Zeilenwechsel), ein Leerzeichen, eine Seriennummernfolge oder ein Sonderzeichen; und
    4. 4) Die Inhalte jedes medizinischen Datensatzes unterliegen Wertebereichsbeschränkungen, wobei jede Wertebereichsbeschränkung gemäß einer Kategorie einer entsprechenden Informationseinheit festgelegt ist, das heißt die Inhalte der medizinischen Daten sind abhängige Variablen und die Kategorien der Informationseinheiten sind unabhängige Variablen. Insbesondere können die Kategorien der Informationseinheiten als ein Satz von Kennzeichnungen (Tags) für den medizinischen Datensatz aufgefasst werden. Beispielsweise lauten die Kennzeichnungen des medizinischen Datensatzes „Neurologie“, „Epilepsie“ und „Symptom“, und die Inhalte des medizinischen Datensatzes sind dementsprechend ein Satz medizinischer Symptome, welche die Epilepsieerkrankung in der Neurologie betreffen. Das heißt, die Wertebereiche der Inhalte der medizinischen Daten sind auf den vorstehenden Bereich beschränkt. Ein Fachmann versteht, dass die Beschaffung der Kennzeichnungen der medizinischen Daten sehr einfach ist und eine entsprechende Abteilung und ein entsprechender Arzt gemäß historischen Krankenakten recht einfach ermittelt werden können, ohne dass eine zusätzliche Vorverarbeitung mit Hilfe eines komplexen Algorithmus notwendig wäre. In einem anderen Beispiel lauten die Kennzeichnungen der medizinischen Daten „Neurologie“, „Epilepsie“ und „Medikament“, und die Inhalte der medizinischen Daten sind dementsprechend ein Satz medizinischer Medikamente, welche die Epilepsieerkrankung in der Neurologie betreffen.
  • In Verbindung mit den vorstehenden Merkmalen muss vor dem Prüfen der medizinischen Daten ferner keine Wortsegmentierung an den medizinischen Daten vorgenommen werden. Konkret umfassen die medizinischen Daten im Allgemeinen zwei Ausdrucksformen, eine Textform und eine Webdokumentform, wobei die Textform eine recht gewöhnliche Form ist und die Webdokumentform durch Aufteilung der medizinischen Daten in Einheiten und Laden der Einheiten ins Web gebildet wird. Bei den bestehenden Technologien müssen vor der Verarbeitung der medizinischen Daten in der Regel entsprechende medizinische Wörterbücher herangezogen werden und eine Wortsegmentierung muss an den medizinischen Daten vorgenommen werden. Eine gängige Methode ist die Erstellung von Textvektoren für die Merkmale unter Verwendung der entsprechenden medizinischen Wörterbücher, wobei eine Menge der auf diese Weise gebildeten Textvektoren riesig und der entsprechende Berechnungsaufwand verhältnismäßig groß ist. Um die Menge der Textvektoren zu reduzieren, müssen in den bestehenden technischen Verbesserungslösungen die Textvektoren mit kleineren medizinischen Wörterbüchern erstellt werden. Infolgedessen muss der Assoziationsgrad unter dem medizinischen Wörterbuch verbessert werden, wofür eine Sortierung anhand der Wichtigkeit eingeführt werden muss, was wiederum einen komplexeren Wortsegmentierungsalgorithmus notwendig macht und zu einer geringeren Genauigkeit führt, obwohl die Effizienz verbessert wird. Bei der vorliegenden Erfindung sind die Inhalte jedes medizinischen Datensatzes kurz und klar und stammen durchweg von klinischen Ärzten, sodass die Inhalte keine redundanten Modifikationskomponenten enthalten. Im Kontext einer konkreten Anwendungssituation kann der Schritt der Wortsegmentierung in den medizinischen Daten zur Verbesserung der Effizienz ganz ausgelassen werden. Eine solche Lösung wurde im Stand der Technik noch nicht angewendet.
  • 1 ist ein Ablaufdiagramm, das ein Verfahren zum Prüfen medizinischer Daten gemäß einer konkreten Umsetzung in Übereinstimmung mit der vorliegenden Erfindung darstellt, und das Verfahren umfasst die folgenden Schritte:
  • Zunächst wird Schritt S101 zum Abgleichen eines medizinischen Datensatzes mit einer Standardbibliothek, die eine Vielzahl von Mustern umfasst, durchgeführt, wobei ein Abgleichsausdruck für das Abgleichen lautet: [\s|\S][Nummer/Sequenz/Beziehung]&[\b|\B], Genauer steht [] für ein Abgleichsverfahren, \s steht für eine Ähnlichkeit zwischen einer nicht-initialen Grenze des medizinischen Datensatzes und einer nicht-initialen Grenze der Standardbibliothek, \S steht für eine Ähnlichkeit zwischen einer initialen Grenze des medizinischen Datensatzes und einer initialen Grenze der Standardbibliothek, Nummer steht für eine Ähnlichkeit zwischen einer Anzahl der in dem medizinischen Datensatz enthaltenen Informationseinheiten und einer Anzahl der in der Standardbibliothek enthaltenen Muster, Sequenz steht für eine Ähnlichkeit zwischen einer Sequenz der Vielzahl von Informationseinheiten und einer Sequenz der Vielzahl von Mustern, Beziehung steht für eine Ähnlichkeit zwischen semantischen Beziehungen unter der Vielzahl von Informationseinheiten und semantischen Beziehungen unter der Vielzahl von Mustern, & steht für die Implementierung eines oder mehrerer Abgleichsverfahren, \b steht für eine Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek, \B steht für eine Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek, | steht für disjunktiven Abgleich (oder) und / steht für simultanen Abgleich.
  • Weiterhin steht im Zusammenhang mit dem Abgleichsausdruck [\s|\S] für das Abgleichen einer Ähnlichkeit zwischen einer nicht-initialen Grenze des medizinischen Datensatzes und einer nicht-initialen Grenze der Standardbibliothek oder das Abgleichen einer Ähnlichkeit zwischen einer initialen Grenze des medizinischen Datensatzes und einer initialen Grenze der Standardbibliothek, sofern eines der zwei Abgleichsverfahren durchgeführt wird. [Nummer/Sequenz/Beziehung] steht für: Abgleichen einer Ähnlichkeit einer Anzahl der in dem medizinischen Datensatz enthaltenen Informationseinheiten und einer Anzahl der in der Standardbibliothek enthaltenen Muster, Abgleichen einer Ähnlichkeit zwischen einer Sequenz der Vielzahl von Informationseinheiten und einer Sequenz der Vielzahl von Mustern oder Abgleichen einer Ähnlichkeit zwischen semantischen Beziehungen unter der Vielzahl von Informationseinheiten und semantischen Beziehungen unter der Vielzahl von Mustern, sofern eines der drei Abgleichsverfahren durchgeführt wird. [\b|\B] steht für das Abgleichen einer Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek oder das Abgleichen einer Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek, sofern eines der zwei Abgleichsverfahren durchgeführt wird.
  • Weiterhin können unter Bezugnahme auf 2 bis 5 [\s|\S], [Nummer/Sequenz/Beziehung] und [\b|\B] sequentiell ausgeführt werden, oder ein beliebiges Verfahren kann zufällig nicht entsprechend der Reihenfolge gestartet werden. Jedes Verfahren muss allerdings ausgeführt werden. Darüber hinaus kann das Abgleichen einer Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek oder das Abgleichen einer Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek eine Vielzahl von Malen durchgeführt werden.
  • Ein Fachmann versteht, dass die vorliegende Erfindung einen Abgleichsbereich der medizinischen Daten und der Standardbibliothek einschränkt und insbesondere das Abgleichen unter Verwendung eines dualen Abgleichsverfahrens durchführt, bei dem zum einen Strukturen des medizinischen Datensatzes und der Standardbibliothek abgeglichen werden, umfassend eine Anzahl der Informationseinheiten, eine Anzahl der Muster, eine Sequenz der Vielzahl von Informationseinheiten, eine Sequenz der Vielzahl von Mustern, eine Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten und eine Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern, und zum anderen der medizinische Datensatz mit der Standardbibliothek abgeglichen wird.
  • Insbesondere konzentriert sich das Abgleichen zwischen der Standardbibliothek und dem medizinischen Datensatz auf eine Struktur, d. h. auf eine nicht-initiale Grenze, eine initiale Grenze, eine Zeichengrenze und eine Nichtzeichengrenze, und der Inhalt der Standardbibliothek und der Inhalt der medizinischen Daten sind keine entscheidenden Punkte beim Abgleich. Genauer müssen die Mengen der semantischen Beziehungen abgeglichen werden, sodass eine semantische Erkennung der entsprechenden Phrasen, welche die Zeichengrenzen und Nichtzeichengrenzen des medizinischen Datensatzes und der Standardbibliothek bilden, erforderlich ist.
  • Dann wird Schritt S102 zum Bestimmen auf Grundlage eines Abgleichsergebnisses von Schritt S101, ob die medizinischen Daten qualifiziert sind, durchgeführt. Ein Fachmann versteht, dass in Schritt S101 eine Ähnlichkeit zwischen den medizinischen Daten und der Standardbibliothek abgeglichen wird. Genauer gibt es eine Vielzahl von Algorithmen zum Berechnen der Ähnlichkeit, wie z. B. eine euklidische Abstandsmethode, bei der die Ähnlichkeit durch die Bestimmung der natürlichen Längen des medizinischen Datensatzes und der Standardbibliothek ermittelt wird, oder eine Korrelationsmethode nach Pearson, bei der die Ähnlichkeit durch Division einer Kovarianz durch eine Standardabweichung des medizinischen Datensatzes und der Standardbibliothek ermittelt wird, oder eine Kosinusabstandsmethode, bei der die Ähnlichkeit durch Berechnung eines Kosinuswerts eines Winkels der medizinischen Daten und der Standardbibliothek ermittelt wird. Das Prinzip zum Bestimmen der Ähnlichkeit zwischen den medizinischen Daten und der Standardbibliothek mit Hilfe der Kosinusabstandsmethode besteht vorzugsweise darin, dass die Kosinusabstandsmethode nicht empfindlich auf Werte reagiert und mehr von der Konsistenz oder dem Richtungsunterschied zwischen dem medizinischen Datensatz und der Standardbibliothek abhängt. Das heißt, das Bestimmen der Ähnlichkeit zwischen den medizinischen Daten und der Standardbibliothek unter Verwendung der Kosinusabstandsmethode wird hauptsächlich auf dem gleichen Gebiet durchgeführt, was für die Bestimmung besser geeignet ist.
  • Ferner ist das durch Schritt S101 erhaltene Abgleichsergebnis ein absoluter Wert, und die Bestimmung, ob der medizinische Datensatz qualifiziert ist, hängt von einem Standard ab, der in Schritt S102 festgelegt werden muss. Beispielsweise kann ein Schwellenwert eingestellt werden, und das durch Schritt S101 erhaltene Abgleichsergebnis wird mit dem Schwellenwert verglichen, um zu bestimmen, ob der medizinische Datensatz qualifiziert ist. In einem anderen Beispiel kann die Bestimmung weiterhin nach einem Richtig/Falsch-Standard erfolgen, d. h. in den Verfahren des Abgleichsausdrucks von Schritt S101 kann der medizinische Datensatz nur dann als qualifiziert bestimmt werden, wenn der Abgleich konsistent ist. Ein Fachmann versteht, dass das Abgleichen in der vorliegenden Erfindung nicht das Abgleichen konkreter Inhalte beinhaltet, sondern dass jedes Abgleichsverfahren ein absolutes Abgleichsverfahren ist, das sich auf die Tendenz oder die Menge bezieht, was für die letztgenannte Bestimmungsmethode besser geeignet ist.
  • Ferner kann die Vielzahl der Abgleichsverfahren in Schritt S101 eine Vielzahl von Abgleichsergebnissen erzeugen. Dementsprechend kann in Schritt S102 konfiguriert sein, dass der medizinische Datensatz nur als qualifiziert bestimmt werden kann, nachdem alle Abgleichverfahren erfolgreich waren, und als Abwandlung kann alternativ konfiguriert sein, dass der medizinische Datensatz als qualifiziert bestimmt werden kann, nachdem ein Teil der Abgleichsverfahren erfolgreich war. Als weitere Abwandlung kann alternativ ein umfassender Abgleichswert durch Berechnen der Vielzahl von Abgleichsergebnissen ermittelt werden, um durch Vergleichen des Abgleichswerts mit dem festgelegten Schwellenwert zu bestimmen, ob der medizinische Datensatz qualifiziert ist. Ein Fachmann kann durch Abwandlungen auf dieser Grundlage weitere Ausführungsformen erhalten, die hierin nicht im Einzelnen beschrieben sind.
  • Zum besseren Verständnis ist im Folgenden eine einfachere Ausführungsform aufgeführt.
  • Der medizinische Datensatz ist beispielsweise wie folgt ausgedrückt: „20190321∼Gastroenterologie∼Fieber und Bauchschmerzen-Anstieg der weißen Blutkörperchen und Anstieg der neutrophilen Granulozyten-Appendizitis“, und die entsprechenden Definitionen lauten wie folgt: ∼ ist ein Trennzeichen, eine Informationseinheit ist eine Phrase zwischen zwei Trennzeichen und jedes Trennzeichen ist eine nicht-initiale Grenze. Somit beträgt die Anzahl der Informationseinheiten 4, eine initiale Grenze ist „20190321“, und entsprechend ist die Standardbibliothek als „nicht-chinesisches Zeichen“ „Trennzeichen“ „Disziplin-
    Standardbibliothek“ „Trennzeichen“ „Symptom-
    Standardbibliothek“ „Trennzeichen“, „Indikator-
    Standardbibliothek“ „Trennzeichen“ „Krankheits-Standardbibliothek“ definiert. Auf dieser Grundlage sieht eine variable Ausführungsform gemäß dem Abgleichsausdruck von Schritt S101 wie folgt aus:
    • Beim Abgleichen der initialen Grenzen kann beispielsweise eine Vielzahl von Formen durch Variation gemäß einem Merkmal der initialen Grenze der Standardbibliothek erzeugt werden. Die vorstehende Standardbibliothek dient als ein Beispiel. Wenn die initiale Grenze des medizinischen Datensatzes aus Zahlen besteht, die alle keine chinesischen Zeichen sind, ist der Abgleich erfolgreich; wenn beim Abgleichen der initialen Grenzen in einem anderen Beispiel Disziplininformationen der initialen Grenze der medizinischen Daten folgen, und der Abgleich ist in diesem Fall erfolgreich. Wenn beim Abgleichen der initialen Grenzen in einem anderen Beispiel die ersten Informationen in chinesischen Schriftzeichen nach der initialen Grenze des medizinischen Datensatzes Disziplininformationen sind, ist der Abgleich in diesem Fall erfolgreich. Wenn beim Abgleichen der initialen Grenzen in einem anderen Beispiel das erste Informationselement nach der initialen Grenze des medizinischen Datensatzes mit einem chinesischen Schriftzeichen beginnt, ist der Abgleich in diesem Fall nicht erfolgreich. In einem anderen Beispiel soll eine Ähnlichkeit zwischen dem nicht-chinesischen Zeichen, das in der initialen Grenze der medizinischen Daten enthalten ist, und einem nicht-chinesischen Zeichen, das in einem Muster enthalten ist, abgeglichen werden. Die vorstehende Zeit dient als ein Beispiel. Das „nicht-chinesische Zeichen“ der Standardbibliothek kann unmittelbar als eine konkrete Zeit „20190531“ definiert werden, um medizinische Daten, deren Zeit verhältnismäßig nahe an der konkreten Zeit ist, unmittelbar auszuwählen. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
  • Wenn beispielsweise beim Abgleichen der nicht-initialen Grenzen die Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes und die Anzahl der nicht-initialen Grenzen der Standardbibliothek gleich sind, ist der Abgleich erfolgreich. Wenn in einem anderen Beispiel beim Abgleichen der nicht-initialen Grenzen die semantischen Kennzeichnungen der ersten Zeichen vor und nach jeder nicht-initialen Grenze der medizinischen Daten bestimmt werden, Kennzeichnungen der zwei Muster, die mit jeder nicht-initialen Grenze der Standardbibliothek verknüpft sind, bestimmt werden und die Attribute der zwei Sätze von Kennzeichnungen konsistent sind und einander entsprechen, ist der Abgleich erfolgreich. Wenn beim Abgleichen der nicht-initialen Grenzen in einem anderen Beispiel die Anzahl der Zeichen der zwei benachbarten nicht-initialen Grenzen des medizinischen Datensatzes und die Anzahl der Zeichen der zwei benachbarten nicht-initialen Grenzen der Standardbibliothek bestimmt werden, ist der Abgleich erfolgreich, wenn die Zahlen gleich sind. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
  • Beispielsweise ist beim Abgleichen der Anzahl der Informationseinheiten und der Anzahl der Muster der Abgleich erfolgreich, falls die zwei Zahlen gleich sind. Insbesondere ist ein Schlüsselfaktor, der sich auf das Ergebnis dieses Abgleichsverfahrens auswirkt, wie Informationseinheiten und Muster definiert sind. Der medizinische Datensatz dient als ein Beispiel. Die Definition ist „eine Phrase zwischen zwei Trennzeichen ist eine Informationseinheit“. Wenn die Definition geändert wird und eine Informationseinheit gemäß der Logik der Segmentierung der medizinischen Wörter definiert wird, wird „Fieber und Bauchschmerzen“ per Definition zu zwei Informationseinheiten anstatt einer Informationseinheit. Genauer wird das Definieren der Informationseinheiten der medizinischen Daten proaktiv durchgeführt, die Unterteilung der Informationseinheiten des medizinischen Datensatzes erfolgt reaktiv und die Unterteilung hat entsprechend einer festgelegten Definition der Informationseinheiten zu erfolgen. Demgegenüber wird das Definieren der Muster ebenfalls proaktiv durchgeführt und die Muster können als eine standardisierte Informationsbibliothek verstanden werden, sodass der Schritt der reaktiven Erkennung entfällt, anders als bei der Erkennung der Informationseinheiten, und die Definitionsweisen der variablen Ausführungsformen daher vielfältiger sind. Der Grad der Komplexität der Definition der Muster entscheidet jedoch über eine Erfolgsrate beim Abgleich. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
  • Beispielsweise wird beim Abgleichen von Sequenzen zunächst bestimmt, ob eine Sequenz von Kennzeichnungstypen, zu denen die Vielzahl von Informationseinheiten gehört, mit einer Sequenz der Vielzahl von Mustern konsistent ist. Der vorstehende medizinische Datensatz dient als ein Beispiel. Die Informationseinheiten sind nacheinander nach Zeit, Abteilung, Symptom, Indikator oder Diagnose sortiert. Eine konkrete Art der Erkennung kann darin bestehen, dass zunächst eine semantische Analyse der Vielzahl von Informationseinheiten durchgeführt wird, um ein grobes Ergebnis zu erhalten, die Vielzahl von Informationseinheiten dann gemäß einem Klassifizierungsstandard der Kennzeichnungsbibliothek gekennzeichnet wird und dann eine Sortierung gemäß den gekennzeichneten Informationseinheiten durchgeführt wird. Die Vielzahl von Mustern steht in einer standardisierten Sequenz, die gemäß dem Kennzeichnungsklassifizierungsstandard erzeugt wird, sodass ein Schritt der semantischen Analyse nicht durchgeführt werden muss. Bei der tatsächlichen Anwendung wird der Sequenzabgleich aufgrund der unterschiedlichen Normen der medizinischen Daten, der größeren Anzahl der Informationseinheiten und der größeren Anzahl der Muster ebenfalls komplex sein. Als eine Abwandlung kann die Ähnlichkeit zwischen der Sequenz der Vielzahl von Informationseinheiten und der Sequenz der Vielzahl von Mustern bewertet werden. Beispielsweise mischen einige medizinische Daten Symptome und Indikatoren. Da der Wortsegmentierungsschritt in der vorliegenden Erfindung entfällt, kann die Sequenz der Informationseinheit als ähnlich der von Symptommuster-Indikatormuster angesehen werden, sofern eine Informationseinheit, die durch die Durchführung einer semantischen Analyse der Informationseinheit erhalten ist, Symptominformationen und Indikatorinformationen mischt, und der Abgleich ist dann erfolgreich. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
  • Beispielsweise kann für die Informationseinheiten eine semantische Analyse an jeder Informationseinheit durchgeführt werden und gemäß den Ergebnissen der semantischen Analyse kann jeder Sprung als eine semantische Beziehung angesehen werden. Auf diese Weise wird eine Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten erhalten, wobei ein Sprung jedes Mal verzeichnet wird, wenn die Informationseinheit einen Wörterbuchtyp auf Grundlage der semantischen Analyse wechselt. Genauer besteht für die Vielzahl von Mustern eine einfache Methode darin, dass die Anzahl der semantischen Beziehungen gleich der Anzahl der Muster gesetzt wird. Das heißt, die Definition der Anzahl der Muster bezieht sich unmittelbar auf die Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern. Ein Fachmann versteht, dass, wenn die Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten und die Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern abgeglichen werden, der Abgleich als erfolgreich angesehen werden kann, falls die zwei Zahlen gleich oder nahezu gleich sind.
  • Beim Abgleichen der Zeichengrenzen für den medizinischen Datensatz beispielsweise sind die Zeichengrenzen tatsächlich Positionsidentifikatoren, die das erste Zeichen und das letzte Zeichen jeder Informationseinheit bestimmen, und die entsprechende Definition für die Standardbibliothek ist identisch. Dementsprechend kann durch Abwandlung eine Vielzahl alternativer Definitionen gemäß einem Merkmal der Zeichengrenze der Standardbibliothek erzeugt werden. Die vorstehende Standardbibliothek dient als ein Beispiel. Die letzte Zeichengrenze der ersten Informationseinheit des medizinischen Datensatzes verfügt über ein Trennzeichen und die erste Zeichengrenze verfügt über kein Trennzeichen, und eine Anzahl der chinesischen Schriftzeichen zwischen den zwei Zeichengrenzen beträgt 4. Dementsprechend kann beim Abgleich der ersten Informationseinheit mit dem ersten Muster der Standardbibliothek der Abgleich als erfolgreich angesehen werden, falls eine Position des Trennzeichens der ersten Informationseinheit mit einer Position eines Trennzeichens des ersten Musters übereinstimmt und die Anzahl der chinesischen Schriftzeichen zwischen den zwei Zeichengrenzen der ersten Informationseinheit ebenfalls dem ersten Muster entspricht oder nahezu entspricht. Genauer kann es eine Vielzahl von Abgleichsarten für eine Ähnlichkeit der Anzahl der chinesischen Schriftzeichen zwischen zwei Zeichengrenzen geben. In einem Fall kann der Abgleich als erfolgreich angesehen werden, falls die Anzahl der chinesischen Schriftzeichen der ersten Informationseinheit nicht einen oberen Grenzwert der Anzahl der chinesischen Schriftzeichen, der durch das erste Muster definiert ist, überschreitet; und in einem anderen Fall darf die Anzahl der chinesischen Schriftzeichen der ersten Informationseinheit zwar den oberen Grenzwert überschreiten, aber die aus chinesischen Schriftzeichen bestehenden Informationen der ersten Informationseinheit müssen eine Teilmenge derjenigen des ersten Musters sein. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
  • Beim Abgleichen von Nichtzeichengrenzen beispielsweise gelten in Bezug auf die Beschreibung des Abgleichs der Zeichengrenzen alle anderen Grenzen als Nichtzeichengrenzen. Bei dieser Ausführungsform sind die Positionsidentifikatoren jedes chinesischen Schriftzeichens allesamt Nichtzeichengrenzen, das heißt ein Satz aus Nichtzeichengrenzen drückt Positionsinformationen aller chinesischen Schriftzeichen, die in dem medizinischen Datensatz enthalten sind, aus, und dementsprechend ist die Definition der Nichtzeichengrenzen der Standardbibliothek identisch. Auf dieser Grundlage beinhaltet der Abgleich der Nichtzeichengrenzen keinen Abgleich einer spezifischen Semantik, sondern es werden Positionsinformationen der einzelnen Zeichen des medizinischen Datensatzes mit Positionsinformationen der einzelnen Zeichen der Standardbibliothek abgeglichen, das heißt die Strukturkonsistenz oder Strukturähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek ist die Grundlage für den Vergleich. Bei einer konkreten Anwendung wird dieses Abgleichsverfahren zum Messen der Vereinfachung des medizinischen Datensatzes und zum Messen der Zugehörigkeit des medizinischen Datensatzes zu einem zu wortreichen Protokolltext verwendet. Ein Fachmann versteht, dass eine Vielzahl von Bestimmungsmethoden auf dieser Grundlage definiert werden können, die hierin nicht im Einzelnen beschrieben sind.
  • Auf Grundlage der vorstehenden Beschreibungen sind im Folgenden eine Vielzahl konkreter Ausführungsformen für jedes Abgleichsverfahren aufgeführt:
  • Als eine erste Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt bei dem Verfahren des Abgleichens der nicht-initialen Grenzen \ S = i = 1 n 1 ( s i s i ' ) 2 i = 1 n 1 s i 2 ,
    Figure DE112020003412T5_0009
    wobei n1 für eine Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes steht, si für einen größten Abstand zwischen zwei nicht-initialen Grenzen des medizinischen Datensatzes steht und s'i für einen Abstand von einer nicht-initialen Grenze des medizinischen Datensatzes zu einer nicht-initialen Grenze der Standardbibliothek steht. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der nicht-initialen Grenzen der Standardbibliothek größer als diejenige des medizinischen Datensatzes ist. Genauer kann in dieser Ausführungsform die Berechnung unter Verwendung der in Schritt S102 beschriebenen Kosinusabstandsmethode durchgeführt werden. Als ein Beispiel ist i=1 gesetzt. s1 steht für einen Kosinusabstand zwischen einer ersten nicht-initialen Grenze des medizinischen Datensatzes und einer anderen nicht-initialen Grenze mit der geringsten Ähnlichkeit mit der ersten nicht-initialen Grenze des medizinischen Datensatzes und s'1 steht für eine Ähnlichkeit zwischen der ersten nicht-initialen Grenze des medizinischen Datensatzes und einer ersten nicht-initialen Grenze der Standardbibliothek, wobei die nicht-initiale Grenze tatsächlich eine Vielzahl von Positionsidentifikatoren darstellt. Auf diese Weise wird bei dieser Ausführungsform tatsächlich eine Positionsähnlichkeit zwischen der nicht-initialen Grenze des medizinischen Datensatzes und der nicht-initialen Grenze der Standardbibliothek berechnet.
  • Als eine zweite Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt bei dem Verfahren des Abgleichens der initialen Grenzen \ S = i = 1 n 2 ( s i s i ' ) 2 i = 1 n 2 s i 2 ,
    Figure DE112020003412T5_0010
    wobei n2 für eine Anzahl der initialen Grenzen des medizinischen Datensatzes steht, Si für einen größten Abstand zwischen zwei initialen Grenzen des medizinischen Datensatzes steht und S'i für einen Abstand von einer initialen Grenze des medizinischen Datensatzes zu einer initialen Grenze der Standardbibliothek steht. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der initialen Grenzen des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der initialen Grenzen der Standardbibliothek größer als diejenige des medizinischen Datensatzes ist. Genauer kann in dieser Ausführungsform die Berechnung unter Verwendung der in Schritt S102 beschriebenen Kosinusabstandsmethode durchgeführt werden. Als ein Beispiel ist i=1 gesetzt. S1 steht für einen Kosinusabstand zwischen einer ersten initialen Grenze des medizinischen Datensatzes und einer anderen initialen Grenze mit der geringsten Ähnlichkeit mit der ersten initialen Grenze des medizinischen Datensatzes. Es wird ein Beispiel verwendet, bei dem die medizinischen Daten als ein Beispiel als „20190321~Gastroenterologie~Fieber und Bauchschmerzen-Anstieg der weißen Blutkörperchen und Anstieg der neutrophilen Granulozyten-Appendizitis“ ausgedrückt sind. 20190321 sind allesamt initiale Grenzen, und die erste initiale Grenze ist ein Positionsidentifikator von „2“, die initiale Grenze mit einem größten Abstand zu der ersten initialen Grenze ist die letzte „1“ und ein Kosinusabstand dazwischen ist S1. In ähnlicher Weise ist S'1 eine Ähnlichkeit zwischen der ersten initialen Grenze des medizinischen Datensatzes und einer ersten initialen Grenze der Standardbibliothek, die als ein Kosinusabstand ausgedrückt ist. Ein Fachmann versteht, dass die initiale Grenze tatsächlich ein Positionsidentifikator ist. Auf diese Weise wird bei dieser Ausführungsform tatsächlich eine Positionsähnlichkeit zwischen der initialen Grenze des medizinischen Datensatzes und der initialen Grenze der Standardbibliothek berechnet.
  • Als eine dritte Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt Nummer = { 0, N u m a N u m b 1, N u m a = N u m b ,
    Figure DE112020003412T5_0011
    wobei Numa für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, und Numb für eine Anzahl der Muster steht, die in der Standardbibliothek enthalten sind. Ein Fachmann versteht, dass bei dieser Ausführungsform absolute Zahlen abgeglichen werden und es nur zwei Abgleichsergebnisse gibt: 0 oder 1. Im Hinblick auf den vorstehenden Inhalt ist ein entscheidender Punkt, der das Abgleichsergebnis dieser Ausführungsform beeinflusst, die Definition des Trennzeichens des medizinischen Datensatzes.
  • Als eine vierte Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt Sequenz = i = 1 n 3 ( S e q i S e q i ' ) 2 i = 1 n 3 S e q i 2 ,
    Figure DE112020003412T5_0012
    wobei n3=Numa-1, Numa für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, Seqi für einen Abstand zwischen zwei benachbarten Informationseinheiten steht und Seq'i für einen Abstand zwischen zwei benachbarten Mustern steht. Genauer ist der Abstand zwischen zwei Informationseinheiten tatsächlich eine Ähnlichkeit zwischen den zwei Informationseinheiten und der Abstand zwischen zwei Mustern ist tatsächlich eine Ähnlichkeit zwischen den zwei Mustern. Dementsprechend ist bei dem Abgleichsverfahren dieser Ausführungsform immer noch keine konkreten Inhalte der Informationseinheit oder eine semantische Analyse der Inhalte des Musters beteiligt und nur Tendenzen werden bestimmt. Auf diese Weise kann die technische Schwierigkeit reduziert und die Abgleichseffizienz verbessert werden. Vorzugsweise entsprechen Seqi und Seq'i einander. Wenn beispielsweise i=1 ist, geben die beiden einen Abstand zwischen einer ersten Informationseinheit und einer zweiten Informationseinheit bzw. einen Abstand zwischen einem ersten entsprechenden Muster und einem zweiten entsprechenden Muster an. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der Informationseinheiten des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der Muster der Standardbibliothek größer als die Anzahl der Informationseinheiten ist.
  • Als eine fünfte Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt Beziehung = { 0, R e l a R e l b 1, R e l a = R e l b ,
    Figure DE112020003412T5_0013
    wobei Rela für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Informationseinheiten enthalten sind, und Relb für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Mustern enthalten sind. Genauer ist die Abgleichsweise dieser Ausführungsform ähnlich der Abgleichsweise der dritten Ausführungsform, und ein Unterschied besteht darin, dass in dieser Ausführungsform die Anzahlen der semantischen Beziehungen abgeglichen werden. Wie oben beschrieben, kann eine semantische Analyse an jeder Informationseinheit durchgeführt werden und gemäß den Ergebnissen der semantischen Analyse kann jeder Sprung als eine semantische Beziehung angesehen werden. Auf diese Weise wird eine Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten erhalten, wobei ein Sprung jedes Mal verzeichnet wird, wenn die Informationseinheit einen Wörterbuchtyp auf Grundlage der semantischen Analyse wechselt. Genauer kann für die Vielzahl von Mustern die Anzahl der semantischen Beziehungen auch einfach gleich der Anzahl der Muster gesetzt werden. Das heißt, die Definition der Anzahl der Muster wirkt sich unmittelbar auf die Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern aus.
  • Als eine sechste Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt \ S = i = 1 n 4 ( b i b i ' ) 2 i = 1 n 4 b i 2 ,
    Figure DE112020003412T5_0014
    wobei n4 für eine Anzahl der Zeichengrenzen des medizinischen Datensatzes steht, bi für einen größten Abstand zwischen zwei Zeichengrenzen des medizinischen Datensatzes steht und b'i für einen Abstand von einer Zeichengrenze des medizinischen Datensatzes zu einer Zeichengrenze der Standardbibliothek steht. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der Zeichengrenzen des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der Zeichengrenzen der Standardbibliothek größer als diejenige des medizinischen Datensatzes ist. Genauer kann in dieser Ausführungsform die Berechnung unter Verwendung der in Schritt S102 beschriebenen Kosinusabstandsmethode durchgeführt werden. Als ein Beispiel ist i=1 gesetzt. s1 steht für einen Kosinusabstand zwischen einer ersten Zeichengrenze des medizinischen Datensatzes und einer anderen Zeichengrenze mit der geringsten Ähnlichkeit mit der ersten Zeichengrenze des medizinischen Datensatzes und s'1 steht für eine Ähnlichkeit zwischen der ersten Zeichengrenze des medizinischen Datensatzes und einer ersten Zeichengrenze der Standardbibliothek, wobei die Zeichengrenze tatsächlich eine Vielzahl von Positionsidentifikatoren darstellt. Auf diese Weise wird bei dieser Ausführungsform tatsächlich eine Positionsähnlichkeit zwischen den Zeichengrenzen des medizinischen Datensatzes und den Zeichengrenzen der Standardbibliothek berechnet.
  • Als eine siebte Ausführungsform in Übereinstimmung mit der vorliegenden Erfindung gilt \ B = i = 1 n 5 ( B i B i ' ) 2 i = 1 n 5 B i 2 ,
    Figure DE112020003412T5_0015
    wobei n5 für eine Anzahl der Nichtzeichengrenzen des medizinischen Datensatzes steht, Bi für einen größten Abstand zwischen zwei Nichtzeichengrenzen des medizinischen Datensatzes steht und B'i für einen Abstand von einer Nichtzeichengrenze des medizinischen Datensatzes zu einer Nichtzeichengrenze der Standardbibliothek steht. Genauer wird in dieser Ausführungsform das Abgleichen unter Verwendung der Anzahl der Nichtzeichengrenzen des medizinischen Datensatzes als ein Standard durchgeführt, das heißt, die Umsetzung dieser Ausführungsform wird nicht beeinträchtigt, falls die Anzahl der Nichtzeichengrenzen der Standardbibliothek größer als diejenige des medizinischen Datensatzes ist. Genauer kann in dieser Ausführungsform die Berechnung unter Verwendung der in Schritt S102 beschriebenen Kosinusabstandsmethode durchgeführt werden. Als ein Beispiel ist i=1 gesetzt. s1 steht für einen Kosinusabstand zwischen einer ersten Nichtzeichengrenze des medizinischen Datensatzes und einer anderen Nichtzeichengrenze mit der geringsten Ähnlichkeit mit der ersten Nichtzeichengrenze des medizinischen Datensatzes und s'1 steht für eine Ähnlichkeit zwischen der ersten Nichtzeichengrenze des medizinischen Datensatzes und einer ersten Nichtzeichengrenze der Standardbibliothek, wobei die Nichtzeichengrenze tatsächlich eine Vielzahl von Positionsidentifikatoren darstellt. Auf diese Weise wird bei dieser Ausführungsform tatsächlich eine Positionsähnlichkeit zwischen den Nichtzeichengrenzen des medizinischen Datensatzes und den Nichtzeichengrenzen der Standardbibliothek berechnet.
  • 6 zeigt ein Verfahren zum Prüfen medizinischer Daten gemäß einer anderen konkreten Umsetzung in Übereinstimmung mit der vorliegenden Erfindung, und das Verfahren umfasst die folgenden Schritte:
  • Zunächst wird Schritt S201 zum Abgleichen eines medizinischen Datensatzes mit einer Standardbibliothek, die eine Vielzahl von Mustern enthält, durchgeführt, wobei ein Abgleichsausdruck lautet: [\s|\S] [Nummer/Sequenz/Beziehung]&[\b|\B], Dieser Schritt kann genauer unter Bezugnahme auf Schritt S101 verstanden werden, und Einzelheiten sind hierin nicht noch einmal beschrieben.
  • Weiterhin wird Schritt S202 durchgeführt, der das Berechnen einer Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek unter Verwendung der folgenden Formel umfasst, wobei C für die Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek steht, cj für eine Ähnlichkeit jedes Abgleichsverfahrens in Schritt S201 steht und m für eine Anzahl der Abgleichsverfahren in Schritt S201 steht: C = { m i n j = 1 m { 1 c j } , m 0 0, m = 0 .
    Figure DE112020003412T5_0016
    In den vorstehenden Ausführungsformen 1 bis 7 sind die einzelnen Abgleichsverfahren in Schritt S201 genau aufgeführt, und ein Fachmann kann diese Verfahren in Verbindung mit dem Abgleichsausdruck in Schritt S201 verstehen. C ist ein endgültiges Berechnungsergebnis des Abgleichsausdrucks in Schritt S201, d. h. in Verbindung mit der in diesem Schritt gezeigten Formel gilt, wenn kein Abgleichsverfahren durchgeführt wird, m=0, und dementsprechend ist das Berechnungsergebnis des Abgleichsausdrucks auch 0, d. h. C=0. In diesem Fall ist die Ähnlichkeit zwischen den medizinischen Daten und der Standardbibliothek 0. Mit dem Fortschreiten der Abgleichsverfahren nimmt m jedoch nacheinander die Werte 1, 2, 3 und 4 an, und das Berechnungsergebnis cj jedes entsprechenden Abgleichsverfahrens wird als ein spezifischer Wert ausgedrückt, und nachdem alle Abgleichverfahren abgeschlossen sind, wird das Minimum einer Anzahl von cj (die Anzahl ist m) als Berechnungsergebnis des Abgleichsausdrucks verwendet.
  • Ferner wird Schritt S203 zum Bestimmen, ob C kleiner oder gleich Cmin ist, durchgeführt, wobei Cmin für eine voreingestellte Mindestähnlichkeitsschwelle steht. Falls C≤Cmin, wird Schritt S204 zum Bestimmen, ob der medizinische Datensatz qualifiziert ist, durchgeführt. Wie aus einem Ergebnis von Schritt S202 hervorgeht, wird in Schritt S202 ein Ergebnis des Abgleichsverfahrens mit der geringsten Ähnlichkeit mit der Standardbibliothek ausgewählt, und ein Ziel dieses Schritts ist es zu berechnen, ob das Abgleichsverfahren mit der geringsten Ähnlichkeit noch in einen von einem System festgelegten niedrigsten Schwellenwertbereich fällt, d. h. ob das Ergebnis kleiner oder gleich Cmin ist. Genauer kann der medizinische Datensatz als qualifiziert bestimmt werden, falls das Abgleichsverfahren mit der geringsten Ähnlichkeit noch akzeptabel ist.
  • Konkrete Ausführungsformen in Übereinstimmung mit der vorliegenden Erfindung sind oben beschrieben. Es versteht sich, dass die vorliegende Erfindung nicht auf die oben beschriebenen konkreten Ausführungsformen beschränkt ist und ein Fachmann verschiedene Änderungen oder Modifikationen innerhalb des Geltungsbereichs der Ansprüche vornehmen kann, ohne vom Geist der vorliegenden Erfindung abzuweichen.

Claims (10)

  1. Verfahren zum Prüfen medizinischer Daten, wobei ein zu prüfender medizinischer Datensatz eine Vielzahl von Informationseinheiten und eine Vielzahl von Trennzeichen enthält und das Verfahren die folgenden Schritte umfasst: a. Abgleichen des medizinischen Datensatzes mit einer Standardbibliothek, die eine Vielzahl von Mustern enthält, wobei ein Abgleichsausdruck lautet: [\s\S][Nummer/Sequenz/Beziehung]&[\b|\B], wobei [ ] für ein Abgleichsverfahren steht, \s für eine Ähnlichkeit zwischen einer nicht-initialen Grenze des medizinischen Datensatzes und einer nicht-initialen Grenze der Standardbibliothek steht, \S für eine Ähnlichkeit zwischen einer initialen Grenze des medizinischen Datensatzes und einer initialen Grenze der Standardbibliothek steht, „Nummer“ für eine Ähnlichkeit zwischen einer Anzahl der in dem medizinischen Datensatz enthaltenen Informationseinheiten und einer Anzahl der in der Standardbibliothek enthaltenen Muster steht, „Sequenz“ für eine Ähnlichkeit zwischen einer Sequenz der Vielzahl von Informationseinheiten und einer Sequenz der Vielzahl von Mustern steht, „Beziehung“ für eine Ähnlichkeit zwischen einer Anzahl der semantischen Beziehungen unter der Vielzahl von Informationseinheiten und einer Anzahl der semantischen Beziehungen unter der Vielzahl von Mustern steht, & für die Implementierung eines oder mehrerer Abgleichsverfahren steht, \b für eine Ähnlichkeit zwischen einer Zeichengrenze des medizinischen Datensatzes und einer Zeichengrenze der Standardbibliothek steht, \B für eine Ähnlichkeit zwischen einer Nichtzeichengrenze des medizinischen Datensatzes und einer Nichtzeichengrenze der Standardbibliothek steht, | für disjunktiven Abgleich (oder) steht und / für simultanen Abgleich steht; und b. Bestimmen auf Grundlage eines Abgleichsergebnisses von Schritt a, ob der medizinische Datensatz qualifiziert ist.
  2. Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei die Informationseinheit eine Wertebereichsbeschränkung aufweist, die Wertebereichsbeschränkung entsprechend einer Kategorie der Informationseinheit festgelegt wird, und wenn der Schritt a durchgeführt wird, keine Wortsegmentierung an den medizinischen Daten durchgeführt wird.
  3. Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a \ S = i = 1 n 1 ( s i s i ' ) 2 i = 1 n 1 s i 2
    Figure DE112020003412T5_0017
    gilt, wobei n1 für eine Anzahl der nicht-initialen Grenzen des medizinischen Datensatzes steht, si für einen größten Abstand zwischen zwei nicht-initialen Grenzen des medizinischen Datensatzes steht und s'i für einen Abstand von einer nicht-initialen Grenze des medizinischen Datensatzes zu einer nicht-initialen Grenze der Standardbibliothek steht.
  4. Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a \ S = i = 1 n 2 ( s i s i ' ) 2 i = 1 n 2 s i 2
    Figure DE112020003412T5_0018
    gilt, wobei n2 für eine Anzahl der initialen Grenzen des medizinischen Datensatzes steht, Si für einen größten Abstand zwischen zwei initialen Grenzen des medizinischen Datensatzes steht und S'i für einen Abstand von einer initialen Grenze des medizinischen Datensatzes zu einer initialen Grenze der Standardbibliothek steht.
  5. Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a Nummer = { 0, N u m a N u m b 1, N u m a = N u m b ,
    Figure DE112020003412T5_0019
    gilt, wobei Numa für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, und Numb für eine Anzahl der Muster steht, die in der Standardbibliothek enthalten sind.
  6. Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a Sequenz = i = 1 n 3 ( S e q i S e q i ' ) 2 i = 1 n 3 S e q i 2
    Figure DE112020003412T5_0020
    gilt, wobei n3=Numa-1, Numa für eine Anzahl der Informationseinheiten steht, die in dem medizinischen Datensatz enthalten sind, Seqi für einen Abstand zwischen zwei benachbarten Informationseinheiten steht und Seq'i für einen Abstand zwischen zwei benachbarten Mustern steht.
  7. Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a Beziehung = { 0, R e l a R e l b 1, R e l a = R e l b
    Figure DE112020003412T5_0021
    gilt, wobei Rela für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Informationseinheiten enthalten sind, und Relb für eine Anzahl der semantischen Beziehungen steht, die in der Vielzahl von Mustern enthalten sind.
  8. Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a \ S = i = 1 n 4 ( b i b i ' ) 2 i = 1 n 4 b i 2
    Figure DE112020003412T5_0022
    gilt, wobei n4 für eine Anzahl der Zeichengrenzen des medizinischen Datensatzes steht, bi für einen größten Abstand zwischen zwei Zeichengrenzen des medizinischen Datensatzes steht und b'i für einen Abstand von einer Zeichengrenze des medizinischen Datensatzes zu einer Zeichengrenze der Standardbibliothek steht.
  9. Verfahren zum Prüfen medizinischer Daten nach Anspruch 1, wobei in dem Abgleichsausdruck von Schritt a \ B = i = 1 n 5 ( B i B i ' ) 2 i = 1 n 5 B i 2
    Figure DE112020003412T5_0023
    gilt, wobei n5 für eine Anzahl der Nichtzeichengrenzen des medizinischen Datensatzes steht, Bi für einen größten Abstand zwischen zwei Nichtzeichengrenzen des medizinischen Datensatzes steht und B'i für einen Abstand von einer Nichtzeichengrenze des medizinischen Datensatzes zu einer Nichtzeichengrenze der Standardbibliothek steht.
  10. Verfahren zum Prüfen medizinischer Daten nach einem beliebigen der Ansprüche 1 bis 12, wobei Schritt b ferner die folgenden Schritte umfasst: b1: Berechnen einer Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek unter Verwendung der folgenden Formel, wobei C für die Ähnlichkeit zwischen dem medizinischen Datensatz und der Standardbibliothek steht, cj für eine Ähnlichkeit jedes Abgleichsverfahrens in Schritt a steht und m für eine Anzahl der Abgleichsverfahren in Schritt a steht: C = { m i n j = 1 m { 1 c j } , m 0 0, m = 0 ;
    Figure DE112020003412T5_0024
    und b2: falls C≤Cmin, Bestimmen, dass der medizinischen Datensatz qualifiziert ist, wobei Cmin für eine voreingestellte Mindestähnlichkeitsschwelle steht.
DE112020003412.7T 2019-07-17 2020-07-17 Verfahren zum Prüfen medizinischer Daten Ceased DE112020003412T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910644814.1 2019-07-17
CN201910644814.1A CN110491519B (zh) 2019-07-17 2019-07-17 一种医学数据的检验方法
PCT/CN2020/102624 WO2021008601A1 (zh) 2019-07-17 2020-07-17 一种医学数据的检验方法

Publications (1)

Publication Number Publication Date
DE112020003412T5 true DE112020003412T5 (de) 2022-05-19

Family

ID=68547315

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020003412.7T Ceased DE112020003412T5 (de) 2019-07-17 2020-07-17 Verfahren zum Prüfen medizinischer Daten

Country Status (5)

Country Link
US (1) US11449680B2 (de)
JP (1) JP7358612B2 (de)
CN (1) CN110491519B (de)
DE (1) DE112020003412T5 (de)
WO (1) WO2021008601A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491519B (zh) 2019-07-17 2024-01-02 上海明品医学数据科技有限公司 一种医学数据的检验方法
CN111026282B (zh) * 2019-11-27 2023-05-23 上海明品医学数据科技有限公司 一种在输入过程中判断是否进行医学数据标注的控制方法
CN113254658B (zh) * 2021-07-07 2021-12-21 明品云(北京)数据科技有限公司 文本信息处理方法、系统、介质和设备

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7487150B2 (en) 2005-07-02 2009-02-03 International Business Machines Corporation Method for matching pattern-based data
US20080228769A1 (en) 2007-03-15 2008-09-18 Siemens Medical Solutions Usa, Inc. Medical Entity Extraction From Patient Data
US20090119157A1 (en) * 2007-11-02 2009-05-07 Wise Window Inc. Systems and method of deriving a sentiment relating to a brand
JP2010204985A (ja) 2009-03-04 2010-09-16 Fujitsu Fsas Inc 文書確認処理プログラム、方法及び装置
US8626479B2 (en) * 2009-08-27 2014-01-07 Mircosoft Corporation Client load simulation framework
US10318635B2 (en) * 2012-09-28 2019-06-11 Cerner Innovation, Inc. Automated mapping of service codes in healthcare systems
US10565315B2 (en) * 2012-09-28 2020-02-18 Cerner Innovation, Inc. Automated mapping of service codes in healthcare systems
US9465917B2 (en) * 2014-05-30 2016-10-11 Roche Diabetes Care, Inc. Hazard based assessment patterns
US10468126B1 (en) * 2014-08-19 2019-11-05 Multiscale Health Networks, Llc. Clinical activity network generation
CN109766904A (zh) * 2015-07-27 2019-05-17 蚌埠医学院 医学领域图像语义相似度矩阵的改进算法
CN106227850A (zh) * 2016-07-28 2016-12-14 苏维娜 一种基于移动终端的医学检验监控控制系统及控制方法
US11101037B2 (en) 2016-09-21 2021-08-24 International Business Machines Corporation Disambiguation of ambiguous portions of content for processing by automated systems
EP3516566A1 (de) * 2016-09-22 2019-07-31 nference, inc. Systeme, verfahren und computerlesbare medien zur visualisierung von semantischen informationen und ableitung von zeitlichen signalen zum hinweis auf prägnante zusammenhänge zwischen biowissenschaftsentitäten
CN107958007B (zh) * 2016-10-18 2022-03-29 浙江格林蓝德信息技术有限公司 病例信息检索方法及装置
CN107656952B (zh) 2016-12-30 2019-10-11 青岛中科慧康科技有限公司 平行智能病例推荐模型的建模方法
JP6902745B2 (ja) 2017-05-12 2021-07-14 TXP Medical株式会社 診療情報管理システム
JP2019040467A (ja) 2017-08-25 2019-03-14 キヤノン株式会社 画像処理装置およびその制御方法
CN110019711A (zh) * 2017-11-27 2019-07-16 吴谨准 一种对医学文本数据结构化处理的控制方法及装置
CN108520770A (zh) * 2018-03-28 2018-09-11 深圳中兴网信科技有限公司 医学检验数据共享方法、医学检验数据共享系统
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN108831559B (zh) * 2018-06-20 2021-01-15 清华大学 一种中文电子病历文本分析方法与系统
US10755412B2 (en) * 2018-11-20 2020-08-25 International Business Machines Corporation Automated patient complexity classification for artificial intelligence tools
US10910098B2 (en) * 2018-12-11 2021-02-02 International Business Machines Corporation Automatic summarization of medical imaging studies
CN110021439B (zh) * 2019-03-07 2023-01-24 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110491519B (zh) * 2019-07-17 2024-01-02 上海明品医学数据科技有限公司 一种医学数据的检验方法
US11263534B1 (en) * 2020-12-16 2022-03-01 Ro5 Inc. System and method for molecular reconstruction and probability distributions using a 3D variational-conditioned generative adversarial network

Also Published As

Publication number Publication date
US11449680B2 (en) 2022-09-20
JP2022546192A (ja) 2022-11-04
JP7358612B2 (ja) 2023-10-10
CN110491519B (zh) 2024-01-02
WO2021008601A1 (zh) 2021-01-21
CN110491519A (zh) 2019-11-22
US20220207242A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
DE112020003412T5 (de) Verfahren zum Prüfen medizinischer Daten
DE102013202365A1 (de) Herausziehen von informationen aus krankenakten
DE202019005911U1 (de) Systeme zur Erkennung einer Indikation eines visuellen Befundtyps in einem anatomischen Bild
EP2648122B1 (de) Verfahren zum Laden von medizinischen Bilddaten sowie Vorrichtung zur Durchführung des Verfahrens
CN112070119A (zh) 超声切面图像质量控制方法、装置和计算机设备
DE112010003251T5 (de) Medizinische Diagnoseunterstützungsvorrichtung, Verfahren zur Steuerung einer medizinischen Diagnoseunterstützungsvorrichtung und Programm
DE102009025856A1 (de) Verarbeitungs- und Visualisierungstechnik medizinischer Daten
DE102018108072A1 (de) Einrichtung, Verfahren und Programm zur Klassifizierung medizinischer Bilder
DE112010003796T5 (de) System und Verfahren zur Erzeugung und Verwendung von Iriscodes geringer Länge
CN111180026A (zh) 专科诊疗视图系统及方法
DE112020000014T5 (de) Verfahren für einen Lernprozess und Informationsbereitstellungssystem
CN106447500A (zh) 一种根据疾病和药物的匹配度进行打分的方法及其系统
DE112021000934T5 (de) Unterstützungsvorrichtung für dokumentenerstellung, unterstützungsverfahren für dokumentenerstellung und programm
DE102021201912A1 (de) Verfahren zur Bereitstellung eines Metadaten-Attributs, das mit einem medizinischen Bild assoziiert ist
WO2021110446A1 (de) Unterstützung bei der erkennung von lungenerkrankungen
DE112020001314T5 (de) System und Verfahren für eine Datenkuration
DE202023106483U1 (de) Krankheitsvorhersagesystem basierend auf maschineller Lerntechnik
DE112019005888T5 (de) Ähnlichkeitsbestimmungsvorrichtung, ähnlichkeitsbestimmungsverfahren und ähnlichkeitsbestimmungsprogramm
Eimerl Organized Curiosity: Part II
DE102021119035A1 (de) Computerimplementiertes Verfahren, Diagnoseunterstützungssystem sowie computerlesbares Speichermedium
CN115132314B (zh) 检查印象生成模型训练方法、装置及生成方法
DE202023100326U1 (de) Ein Empfehlungssystem zur optimierten Behandlung von COVID-19 unter Verwendung von konvolutionellem Netzwerk
DE202022103482U1 (de) Aufbereitung von Diagnoseinformationen
DE102023004764A1 (de) Verfahren zum asynchronen Katalogisieren mindestens eines Ausführungsstatus mindestens eines Befehls, der von mindestens einem Microservice ausgeführt wird, durch ein Audit-System, ein Verfahren zum Betreiben einer Suchplattform des Audit-Systems zum Anzeigen mindestens eines Ausführungsstatus eines von mindestens einem Microservice ausgeführten Befehls für ein Kraftfahrzeug, ein Computerprogrammprodukt und ein computerlesbares Speichermedium
DE202023100083U1 (de) System zur Früherkennung der Alzheimer-Krankheit

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final