CN111462913B - 一种病例文书中疾病诊断的自动切分方法及装置 - Google Patents

一种病例文书中疾病诊断的自动切分方法及装置 Download PDF

Info

Publication number
CN111462913B
CN111462913B CN202010165645.6A CN202010165645A CN111462913B CN 111462913 B CN111462913 B CN 111462913B CN 202010165645 A CN202010165645 A CN 202010165645A CN 111462913 B CN111462913 B CN 111462913B
Authority
CN
China
Prior art keywords
data
disease diagnosis
diagnosis
module
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010165645.6A
Other languages
English (en)
Other versions
CN111462913A (zh
Inventor
舒波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010165645.6A priority Critical patent/CN111462913B/zh
Publication of CN111462913A publication Critical patent/CN111462913A/zh
Application granted granted Critical
Publication of CN111462913B publication Critical patent/CN111462913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种病例文书中疾病诊断的自动切分方法及装置,所述方法包括:对病例文书中的疾病诊断进行预处理,以得到标准化的疾病诊断;获取自动标记的数据及人工标记的数据;根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型;将所述标准化的疾病诊断输入至所述目标BERT模型,以得到模型预测的标签;根据所述预测的标签确定所述标准化的疾病诊断的切分结果。通过本发明的技术方案,使得切分的结果更加的准确,避免出现医疗事故。

Description

一种病例文书中疾病诊断的自动切分方法及装置
技术领域
本发明涉及医疗技术领域,特别涉及一种病例文书中疾病诊断的自动切分方法及装置。
背景技术
医疗中的病例文书,比如,入院记录的入院诊断由多个疾病合并在一起,通过一些标记符号(;。)或者数字(识别实际病例诊断的模式,编写规则,比如疾病以“;”连接就以“;”为切分的规则)将疾病切分,得到多个疾病分开的结果。
目前,由于医院医生编写病例的习惯不同,会衍生出很多形式的诊断类型,包括医生编写病例时少写、漏写、错写等等,这给利用简单的模式去匹配诊断会造成误切分的结果。同时,通过模型进行切分时,作为训练数据的病理数据比较少,模型不准确,上述情况在进行切分时,造成的切分结果不准确,进而容易出现医疗事故。
发明内容
本发明提供一种病例文书中疾病诊断的自动切分方法及装置,所述技术方案如下:
根据本发明实施例的第一方面,提供了一种病例文书中疾病诊断的自动切分方法,包括:
对病例文书中的疾病诊断进行预处理,以得到标准化的疾病诊断;
获取自动标记的数据及人工标记的数据;
根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型;
将所述标准化的疾病诊断输入至所述目标BERT模型,以得到模型预测的标签;
根据所述预测的标签确定所述标准化的疾病诊断的切分结果。
在一个实施例中,所述对所述病例文书中的疾病诊断进行预处理,以得到标准化的疾病诊断,包括:
去除所述疾病诊断中符合预设标准的符号,以得到去除符号后的疾病诊断;
对所述去除符号后的疾病诊断进行标准化处理,以得到所述标准化的疾病诊断。
在一个实施例中,所述获取自动标记的数据,包括:
获取具有第一特征的第一诊断数据和具有第二特征的第二诊断数据;
通过第一规则对所述第一诊断数据进行标记,得到标记后的第一诊断数据;
通过第二规则对所述第二诊断数据进行标记,得到标记后的第二诊断数据;
根据所述标记后的第一诊断数据和所述标记后的第二诊断数据确定目标字典;
将所述目标字典中的若干条疾病按照第三规则进行组合,以得到第三诊断数据;
确定所述第三诊断数据为所述自动标记的数据。
在一个实施例中,所述根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型,包括:
获取原始BERT模型;
确定所述自动标记的数据及所述人工标记的数据为训练集;
根据所述训练集对所述原始BERT模型进行训练,以得到所述目标BERT模型。
在一个实施例中,所述根据所述预测的标签确定所述标准化的疾病诊断的切分结果,包括:
将所述标准化的疾病诊断与所述预测的标签进行结合,以得到结合结果;
根据第四规则对所述结合结果进行切分,以得到所述标准化的疾病诊断的切分结果。
根据本发明实施例的第二方面,提供了一种病例文书中疾病诊断的自动切分装置,包括:
预处理模块,用于对病例文书中的疾病诊断进行预处理,以得到标准化的疾病诊断;
获取模块,用于获取自动标记的数据及人工标记的数据;
第一确定模块,用于根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型;
输入模块,用于将所述标准化的疾病诊断输入至所述目标BERT模型,以得到模型预测的标签;
第二确定模块,用于根据所述预测的标签确定所述标准化的疾病诊断的切分结果。
在一个实施例中,所述预处理模块,包括:
去除子模块,用于去除所述疾病诊断中符合预设标准的符号,以得到去除符号后的疾病诊断;
处理子模块,用于对所述去除符号后的疾病诊断进行标准化处理,以得到所述标准化的疾病诊断。
在一个实施例中,所述获取模块,包括:
第一获取子模块,用于获取具有第一特征的第一诊断数据和具有第二特征的第二诊断数据;
第一标记子模块,用于通过第一规则对所述第一诊断数据进行标记,得到标记后的第一诊断数据;
第二标记子模块,用于通过第二规则对所述第二诊断数据进行标记,得到标记后的第二诊断数据;
第一确定子模块,用于根据所述标记后的第一诊断数据和所述标记后的第二诊断数据确定目标字典;
组合子模块,用于将所述目标字典中的若干条疾病按照第三规则进行组合,以得到第三诊断数据;
第二确定子模块,用于确定所述第三诊断数据为所述自动标记的数据。
在一个实施例中,所述第一确定模块,包括:
第二获取子模块,用于获取原始BERT模型;
第三确定子模块,用于确定所述自动标记的数据及所述人工标记的数据为训练集;
训练子模块,用于根据所述训练集对所述原始BERT模型进行训练,以得到所述目标BERT模型。
在一个实施例中,所述第二确定模块,包括:
结合子模块,用于将所述标准化的疾病诊断与所述预测的标签进行结合,以得到结合结果;
切分子模块,用于根据第四规则对所述结合结果进行切分,以得到所述标准化的疾病诊断的切分结果。
本发明的实施例提供的技术方案可以包括以下有益效果:
首先,对病例文书中的疾病诊断进行预处理,能够得到标准化的疾病诊断;之后,获取自动标记的数据及人工标记的数据;进而,根据自动标记的数据及人工标记的数据确定目标BERT模型;然后,将标准化的疾病诊断输入至目标BERT模型,能够得到模型预测的标签;最后,根据预测的标签确定标准化的疾病诊断的切分结果。通过本发明的技术方案,对病例文书中的疾病诊断进行预处理,解决了医生编写病例时衍生的少些、漏写、错写的问题,获取大量的自动标记的数据和人工标记的数据,通过这些大量的数据进行模型训练,能够保证目标BERT模型计算的准确性,进而将标准化的疾病诊断输入至目标BERT模型,得到模型预测的标签,再根据预测的标签确定标准化的疾病诊断的切分结果,使得切分的结果更加的准确,避免出现医疗事故。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例中一种病例文书中疾病诊断的自动切分方法的流程图;
图2为本发明一实施例中另一种病例文书中疾病诊断的自动切分方法的流程图;
图3为本发明一实施例中一种病例文书中疾病诊断的自动切分装置的框图;
图4为本发明一实施例中另一种病例文书中疾病诊断的自动切分装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明一实施例中一种病例文书中疾病诊断的自动切分方法的流程图,如图1所示,该方法可被实施为以下步骤S11-S15:
在步骤S11中,对病例文书中的疾病诊断进行预处理,以得到标准化的疾病诊断;
在步骤S12中,获取自动标记的数据及人工标记的数据;,其中,人工标记数据可以是通过查看病历文书的例子,根据医生编写的习惯,人为标记的一些数据。
在步骤S13中,根据自动标记的数据及人工标记的数据确定目标BERT模型;
在步骤S14中,将标准化的疾病诊断输入至目标BERT模型,以得到模型预测的标签;举例而言,标准化的疾病诊断为:1.高危儿2.先天性心脏病3.高血压,输入到目标BERT模型中得到的模型预测标签为001000010000000100。
在步骤S15中,根据预测的标签确定标准化的疾病诊断的切分结果。其中,标准化疾病诊断及对应的模型预测标签为1.高危儿2.先天性心脏病3.高血压(001000010000000100),根据预设的标签进行切分的结果就是高危儿###先天性心脏病###高血压(###为分隔符)。
首先,对病例文书中的疾病诊断进行预处理,能够得到标准化的疾病诊断;之后,获取自动标记的数据及人工标记的数据;进而,根据自动标记的数据及人工标记的数据确定目标BERT模型;然后,将标准化的疾病诊断输入至目标BERT模型,能够得到模型预测的标签;最后,根据预测的标签确定标准化的疾病诊断的切分结果。通过本发明的技术方案,对病例文书中的疾病诊断进行预处理,解决了医生编写病例时衍生的少些、漏写、错写的问题,获取大量的自动标记的数据和人工标记的数据,通过这些大量的数据进行模型训练,能够保证目标BERT模型计算的准确性,进而将标准化的疾病诊断输入至目标BERT模型,得到模型预测的标签,再根据预测的标签确定标准化的疾病诊断的切分结果,使得切分的结果更加的准确,避免出现医疗事故。
如图2所示,在一个实施例中,上述步骤S11可被实施为以下步骤S111-S112:
在步骤S111中,去除疾病诊断中符合预设标准的符号,以得到去除符号后的疾病诊断;其中,满足预设标准的符号是指类似于\n、\t这种多余的特殊符号。
在步骤S112中,对去除符号后的疾病诊断进行标准化处理,以得到标准化的疾病诊断。其中,标准化处理是指将去除符号后的疾病诊断出现的少写,漏写的情况纠正,或将疾病诊断中的非标准疾病名称标准化,例如肺舌段切除标准化处理后为肺叶节段切除。
通过去除符合预设标准的符号,能够得到去除符号后的疾病诊断,进而对去除符号后的疾病诊断进行标准化处理,能够得到简洁,无干扰信息的标准化的疾病诊断。
在一个实施例中,所述获取自动标记的数据,包括:
获取具有第一特征的第一诊断数据和具有第二特征的第二诊断数据;其中,具有第一特征的第一诊断数据可以是数字连接疾病的诊断数据,例如1.支气管肺炎2.粒细胞减少症,而具有第二特征的第二诊断数据可以是通过特殊符号连接的疾病诊断,例如脊柱关节病、脂肪肝、甲状腺结节。
通过第一规则对所述第一诊断数据进行标记,得到标记后的第一诊断数据;其中,第一规则可以是在数字与特殊符号后面答标记,例如对疾病诊断(1.支气管肺炎2.粒细胞减少症)打标记,是对“支”和“粒”进行标记。
通过第二规则对所述第二诊断数据进行标记,得到标记后的第二诊断数据;其中,第二规则是在第一个文字和特殊符号后面标记,例如对疾病诊断(脊柱关节病、脂肪肝、甲状腺结节)打标记,这个疾病诊断的特殊符号为“、”,是对“脊”、“脂”和“甲”进行标记。
根据所述标记后的第一诊断数据和所述标记后的第二诊断数据确定目标字典;其中,确定目标字典是指把标记后的第一诊断数据和所述标记后的第二诊断数据分开做成一个字典,字典中包括的内容是各种疾病的总和。
将所述目标字典中的若干条疾病按照第三规则进行组合,以得到第三诊断数据;其中,第三规则可以是以特殊符号组合(连接)疾病、以数字组合疾病、以数字与特殊符号一起组合疾病,举例以特殊符号组合疾病,特殊符号为“,”组合后的结果可以是冠心病,高血压病,通风。
确定所述第三诊断数据为所述自动标记的数据。
通过上述方案得到的自动标记的数据种类多,情况全,进行模型训练时效果好。
在一个实施例中,所述根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型,包括:
获取原始BERT模型;
确定所述自动标记的数据及所述人工标记的数据为训练集;其中,人工标记的数据是指专业人士进行标注的诊断数据。
根据所述训练集对所述原始BERT模型进行训练,以得到所述目标BERT模型。
通过大量的自动标记的数据及人工标记的数据作为训练集对原始BERT模型进行训练,能够得到功能强大,输出结果准确的目标BERT模型。
在一个实施例中,所述根据所述预测的标签确定所述标准化的疾病诊断的切分结果,包括:
将所述标准化的疾病诊断与所述预测的标签进行结合,以得到结合结果;举例而言,将标准化的疾病诊断1.高危儿2.先天性心脏病3.高血压和预测的标签(001000010000000100)进行组合,得到的组合结果为:1.高危儿2.先天性心脏病3.高血压(001000010000000100)。
根据第四规则对所述结合结果进行切分,以得到所述标准化的疾病诊断的切分结果。其中,第四规则是指从第一个“1”对应的位置开始切分,然后确定“0”对应的文字数量,舍弃掉“0”对应的不是文字的符号,然后添加分隔符,依次往下进行,完成切分,1.高危儿2.先天性心脏病3.高血压(001000010000000100)的切分结果为高危儿###先天性心脏病###高血压,###为分隔符。
通过第四规则对所述结合结果进行切分,能够准确完成疾病诊断的切分,进而得到标准化的疾病诊断的切分结果。
对本发明实施例提供的上述的一种病例文书中疾病诊断的自动切分方法,本发明实施例还提供了一种病例文书中疾病诊断的自动切分装置,如图3所示,该装置包括:
预处理模块31,用于对病例文书中的疾病诊断进行预处理,以得到标准化的疾病诊断;
获取模块32,用于获取自动标记的数据及人工标记的数据;
第一确定模块33,用于根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型;
输入模块34,用于将所述标准化的疾病诊断输入至所述目标BERT模型,以得到模型预测的标签;
第二确定模块35,用于根据所述预测的标签确定所述标准化的疾病诊断的切分结果。
如图4所示,在一个实施例中,所述预处理模块31,包括:
去除子模块311,用于去除所述疾病诊断中符合预设标准的符号,以得到去除符号后的疾病诊断;
处理子模块312,用于对所述去除符号后的疾病诊断进行标准化处理,以得到所述标准化的疾病诊断。
在一个实施例中,所述获取模块,包括:
第一获取子模块,用于获取具有第一特征的第一诊断数据和具有第二特征的第二诊断数据;
第一标记子模块,用于通过第一规则对所述第一诊断数据进行标记,得到标记后的第一诊断数据;
第二标记子模块,用于通过第二规则对所述第二诊断数据进行标记,得到标记后的第二诊断数据;
第一确定子模块,用于根据所述标记后的第一诊断数据和所述标记后的第二诊断数据确定目标字典;
组合子模块,用于将所述目标字典中的若干条疾病按照第三规则进行组合,以得到第三诊断数据;
第二确定子模块,用于确定所述第三诊断数据为所述自动标记的数据。
在一个实施例中,所述第一确定模块,包括:
第二获取子模块,用于获取原始BERT模型;
第三确定子模块,用于确定所述自动标记的数据及所述人工标记的数据为训练集;
训练子模块,用于根据所述训练集对所述原始BERT模型进行训练,以得到所述目标BERT模型。
在一个实施例中,所述第二确定模块,包括:
结合子模块,用于将所述标准化的疾病诊断与所述预测的标签进行结合,以得到结合结果;
切分子模块,用于根据第四规则对所述结合结果进行切分,以得到所述标准化的疾病诊断的切分结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种病例文书中疾病诊断的自动切分方法,其特征在于,包括:
对病例文书中的疾病诊断进行预处理,以得到标准化的疾病诊断;
获取自动标记的数据及人工标记的数据;
根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型;
将所述标准化的疾病诊断输入至所述目标BERT模型,以得到模型预测的标签;
根据所述预测的标签确定所述标准化的疾病诊断的切分结果;
所述获取自动标记的数据,包括:
获取具有第一特征的第一诊断数据和具有第二特征的第二诊断数据;
通过第一规则对所述第一诊断数据进行标记,得到标记后的第一诊断数据;
其中,第一规则是在数字与特殊符号后面答标记;
通过第二规则对所述第二诊断数据进行标记,得到标记后的第二诊断数据;
其中,第二规则是在第一个文字和特殊符号后面标记;
根据所述标记后的第一诊断数据和所述标记后的第二诊断数据确定目标字典;
将所述目标字典中的若干条疾病按照第三规则进行组合,以得到第三诊断数据;
其中,第三规则是以特殊符号组合疾病、以数字组合疾病、以数字与特殊符号一起组合疾病;
确定所述第三诊断数据为所述自动标记的数据;
所述对病例文书中的疾病诊断进行预处理,以得到标准化的疾病诊断,包括:
去除所述疾病诊断中符合预设标准的符号,以得到去除符号后的疾病诊断;
对所述去除符号后的疾病诊断进行标准化处理,以得到所述标准化的疾病诊断;
所述根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型,包括:
获取原始BERT模型;
确定所述自动标记的数据及所述人工标记的数据为训练集;
根据所述训练集对所述原始BERT模型进行训练,以得到所述目标BERT模型。
2.如权利要求1所述的方法,其特征在于,所述根据所述预测的标签确定所述标准化的疾病诊断的切分结果,包括:
将所述标准化的疾病诊断与所述预测的标签进行结合,以得到结合结果;
根据第四规则对所述结合结果进行切分,以得到所述标准化的疾病诊断的切分结果;
其中,第四规则是指从第一个“1”对应的位置开始切分,然后确定“0”对应的文字数量,舍弃掉“0”对应的不是文字的符号,然后添加分隔符,依次往下进行,完成切分。
3.一种病例文书中疾病诊断的自动切分装置,其特征在于,包括:
预处理模块,用于对病例文书中的疾病诊断进行预处理,以得到标准化的疾病诊断;
获取模块,用于获取自动标记的数据及人工标记的数据;
第一确定模块,用于根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型;
输入模块,用于将所述标准化的疾病诊断输入至所述目标BERT模型,以得到模型预测的标签;
第二确定模块,用于根据所述预测的标签确定所述标准化的疾病诊断的切分结果;
所述获取模块,包括:
第一获取子模块,用于获取具有第一特征的第一诊断数据和具有第二特征的第二诊断数据;
第一标记子模块,用于通过第一规则对所述第一诊断数据进行标记,得到标记后的第一诊断数据;
其中,第一规则是在数字与特殊符号后面答标记;
第二标记子模块,用于通过第二规则对所述第二诊断数据进行标记,得到标记后的第二诊断数据;
其中,第二规则是在第一个文字和特殊符号后面标记;
第一确定子模块,用于根据所述标记后的第一诊断数据和所述标记后的第二诊断数据确定目标字典;
组合子模块,用于将所述目标字典中的若干条疾病按照第三规则进行组合,以得到第三诊断数据;
其中,第三规则是以特殊符号组合疾病、以数字组合疾病、以数字与特殊符号一起组合疾病;
第二确定子模块,用于确定所述第三诊断数据为所述自动标记的数据;
所述预处理模块,包括:
去除子模块,用于去除所述疾病诊断中符合预设标准的符号,以得到去除符号后的疾病诊断;
处理子模块,用于对所述去除符号后的疾病诊断进行标准化处理,以得到所述标准化的疾病诊断;
所述第一确定模块,包括:
第二获取子模块,用于获取原始BERT模型;
第三确定子模块,用于确定所述自动标记的数据及所述人工标记的数据为训练集;
训练子模块,用于根据所述训练集对所述原始BERT模型进行训练,以得到所述目标BERT模型。
4.如权利要求3所述的装置,其特征在于,所述第二确定模块,包括:
结合子模块,用于将所述标准化的疾病诊断与所述预测的标签进行结合,以得到结合结果;
切分子模块,用于根据第四规则对所述结合结果进行切分,以得到所述标准化的疾病诊断的切分结果;
其中,第四规则是指从第一个“1”对应的位置开始切分,然后确定“0”对应的文字数量,舍弃掉“0”对应的不是文字的符号,然后添加分隔符,依次往下进行,完成切分。
CN202010165645.6A 2020-03-11 2020-03-11 一种病例文书中疾病诊断的自动切分方法及装置 Active CN111462913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010165645.6A CN111462913B (zh) 2020-03-11 2020-03-11 一种病例文书中疾病诊断的自动切分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010165645.6A CN111462913B (zh) 2020-03-11 2020-03-11 一种病例文书中疾病诊断的自动切分方法及装置

Publications (2)

Publication Number Publication Date
CN111462913A CN111462913A (zh) 2020-07-28
CN111462913B true CN111462913B (zh) 2023-08-15

Family

ID=71684234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010165645.6A Active CN111462913B (zh) 2020-03-11 2020-03-11 一种病例文书中疾病诊断的自动切分方法及装置

Country Status (1)

Country Link
CN (1) CN111462913B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407183A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 医疗命名实体识别系统生成方法及装置
CN107808124A (zh) * 2017-10-09 2018-03-16 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
CN110534185A (zh) * 2019-08-30 2019-12-03 腾讯科技(深圳)有限公司 标注数据获取方法、分诊方法、装置、存储介质及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11488713B2 (en) * 2017-08-15 2022-11-01 Computer Technology Associates, Inc. Disease specific ontology-guided rule engine and machine learning for enhanced critical care decision support
US20190328335A1 (en) * 2018-04-26 2019-10-31 Vektor Medical, Inc. Bootstrapping a simulation-based electromagnetic output of a different anatomy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407183A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 医疗命名实体识别系统生成方法及装置
CN107808124A (zh) * 2017-10-09 2018-03-16 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
CN110534185A (zh) * 2019-08-30 2019-12-03 腾讯科技(深圳)有限公司 标注数据获取方法、分诊方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN111462913A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111210916B (zh) 病案首页编码方法及系统
CN111026841B (zh) 一种基于检索和深度学习的自动编码方法及装置
AU2024201281A1 (en) Systems and methods for processing images to classify the processed images for digital pathology
US8498878B2 (en) Intelligent medical chart capture system
CN108829815B (zh) 一种医学影像图像筛选方法
US10740940B2 (en) Automatic generation of fundus drawings
CN112257613B (zh) 体检报告信息结构化提取方法、装置及计算机设备
CN114913942A (zh) 患者招募项目智能匹配方法及装置
CN111444718A (zh) 一种保险产品需求文档处理方法、装置及电子设备
CN111180060B (zh) 一种疾病诊断自动编码方法及装置
CN112989990A (zh) 医疗票据识别方法、装置、设备及存储介质
CN111462913B (zh) 一种病例文书中疾病诊断的自动切分方法及装置
CN113626591A (zh) 一种基于文本分类的电子病历数据质量评价方法
CN116721778B (zh) 一种医学术语标准化方法、系统、设备及介质
CN116052848B (zh) 一种医学成像质控的数据编码方法及系统
CN112308048A (zh) 基于少量标注数据的病历完整性判别的方法、装置及系统
CN112599214A (zh) 从电子病历中提取出icd编码的方法及系统
CN115458138A (zh) 一种dip预分组推荐方法、装置、设备和存储介质
CN116580801A (zh) 一种基于大型语言模型的超声检查方法
CN114154514B (zh) 一种中医证型识别方法及系统
CN111967540B (zh) 基于ct数据库的颌面部骨折的识别方法、装置及终端设备
Savriama et al. Testing the accuracy of 3D automatic landmarking via genome-wide association studies
CN110837494B (zh) 一种识别病历首页未特指诊断编码错误的方法及装置
CN112735543A (zh) 医学数据的处理方法、装置及存储介质
CN114550181B (zh) 一种小题识别方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant