CN111462913B

CN111462913B - 一种病例文书中疾病诊断的自动切分方法及装置

Info

Publication number: CN111462913B
Application number: CN202010165645.6A
Authority: CN
Inventors: 舒波
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-08-15
Anticipated expiration: 2040-03-11
Also published as: CN111462913A

Abstract

本发明公开了一种病例文书中疾病诊断的自动切分方法及装置，所述方法包括：对病例文书中的疾病诊断进行预处理，以得到标准化的疾病诊断；获取自动标记的数据及人工标记的数据；根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型；将所述标准化的疾病诊断输入至所述目标BERT模型，以得到模型预测的标签；根据所述预测的标签确定所述标准化的疾病诊断的切分结果。通过本发明的技术方案，使得切分的结果更加的准确，避免出现医疗事故。

Description

一种病例文书中疾病诊断的自动切分方法及装置

技术领域

本发明涉及医疗技术领域，特别涉及一种病例文书中疾病诊断的自动切分方法及装置。

背景技术

医疗中的病例文书，比如，入院记录的入院诊断由多个疾病合并在一起，通过一些标记符号(；。)或者数字(识别实际病例诊断的模式，编写规则，比如疾病以“；”连接就以“；”为切分的规则)将疾病切分，得到多个疾病分开的结果。

目前，由于医院医生编写病例的习惯不同，会衍生出很多形式的诊断类型，包括医生编写病例时少写、漏写、错写等等，这给利用简单的模式去匹配诊断会造成误切分的结果。同时，通过模型进行切分时，作为训练数据的病理数据比较少，模型不准确，上述情况在进行切分时，造成的切分结果不准确，进而容易出现医疗事故。

发明内容

本发明提供一种病例文书中疾病诊断的自动切分方法及装置，所述技术方案如下：

根据本发明实施例的第一方面，提供了一种病例文书中疾病诊断的自动切分方法，包括：

对病例文书中的疾病诊断进行预处理，以得到标准化的疾病诊断；

获取自动标记的数据及人工标记的数据；

根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型；

将所述标准化的疾病诊断输入至所述目标BERT模型，以得到模型预测的标签；

根据所述预测的标签确定所述标准化的疾病诊断的切分结果。

在一个实施例中，所述对所述病例文书中的疾病诊断进行预处理，以得到标准化的疾病诊断，包括：

去除所述疾病诊断中符合预设标准的符号，以得到去除符号后的疾病诊断；

对所述去除符号后的疾病诊断进行标准化处理，以得到所述标准化的疾病诊断。

在一个实施例中，所述获取自动标记的数据，包括：

获取具有第一特征的第一诊断数据和具有第二特征的第二诊断数据；

通过第一规则对所述第一诊断数据进行标记，得到标记后的第一诊断数据；

通过第二规则对所述第二诊断数据进行标记，得到标记后的第二诊断数据；

根据所述标记后的第一诊断数据和所述标记后的第二诊断数据确定目标字典；

将所述目标字典中的若干条疾病按照第三规则进行组合，以得到第三诊断数据；

确定所述第三诊断数据为所述自动标记的数据。

在一个实施例中，所述根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型，包括：

获取原始BERT模型；

确定所述自动标记的数据及所述人工标记的数据为训练集；

根据所述训练集对所述原始BERT模型进行训练，以得到所述目标BERT模型。

在一个实施例中，所述根据所述预测的标签确定所述标准化的疾病诊断的切分结果，包括：

将所述标准化的疾病诊断与所述预测的标签进行结合，以得到结合结果；

根据第四规则对所述结合结果进行切分，以得到所述标准化的疾病诊断的切分结果。

根据本发明实施例的第二方面，提供了一种病例文书中疾病诊断的自动切分装置，包括：

预处理模块，用于对病例文书中的疾病诊断进行预处理，以得到标准化的疾病诊断；

获取模块，用于获取自动标记的数据及人工标记的数据；

第一确定模块，用于根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型；

输入模块，用于将所述标准化的疾病诊断输入至所述目标BERT模型，以得到模型预测的标签；

第二确定模块，用于根据所述预测的标签确定所述标准化的疾病诊断的切分结果。

在一个实施例中，所述预处理模块，包括：

去除子模块，用于去除所述疾病诊断中符合预设标准的符号，以得到去除符号后的疾病诊断；

处理子模块，用于对所述去除符号后的疾病诊断进行标准化处理，以得到所述标准化的疾病诊断。

在一个实施例中，所述获取模块，包括：

第一获取子模块，用于获取具有第一特征的第一诊断数据和具有第二特征的第二诊断数据；

第一标记子模块，用于通过第一规则对所述第一诊断数据进行标记，得到标记后的第一诊断数据；

第二标记子模块，用于通过第二规则对所述第二诊断数据进行标记，得到标记后的第二诊断数据；

第一确定子模块，用于根据所述标记后的第一诊断数据和所述标记后的第二诊断数据确定目标字典；

组合子模块，用于将所述目标字典中的若干条疾病按照第三规则进行组合，以得到第三诊断数据；

第二确定子模块，用于确定所述第三诊断数据为所述自动标记的数据。

在一个实施例中，所述第一确定模块，包括：

第二获取子模块，用于获取原始BERT模型；

第三确定子模块，用于确定所述自动标记的数据及所述人工标记的数据为训练集；

训练子模块，用于根据所述训练集对所述原始BERT模型进行训练，以得到所述目标BERT模型。

在一个实施例中，所述第二确定模块，包括：

结合子模块，用于将所述标准化的疾病诊断与所述预测的标签进行结合，以得到结合结果；

切分子模块，用于根据第四规则对所述结合结果进行切分，以得到所述标准化的疾病诊断的切分结果。

本发明的实施例提供的技术方案可以包括以下有益效果：

首先，对病例文书中的疾病诊断进行预处理，能够得到标准化的疾病诊断；之后，获取自动标记的数据及人工标记的数据；进而，根据自动标记的数据及人工标记的数据确定目标BERT模型；然后，将标准化的疾病诊断输入至目标BERT模型，能够得到模型预测的标签；最后，根据预测的标签确定标准化的疾病诊断的切分结果。通过本发明的技术方案，对病例文书中的疾病诊断进行预处理，解决了医生编写病例时衍生的少些、漏写、错写的问题，获取大量的自动标记的数据和人工标记的数据，通过这些大量的数据进行模型训练，能够保证目标BERT模型计算的准确性，进而将标准化的疾病诊断输入至目标BERT模型，得到模型预测的标签，再根据预测的标签确定标准化的疾病诊断的切分结果，使得切分的结果更加的准确，避免出现医疗事故。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中一种病例文书中疾病诊断的自动切分方法的流程图；

图2为本发明一实施例中另一种病例文书中疾病诊断的自动切分方法的流程图；

图3为本发明一实施例中一种病例文书中疾病诊断的自动切分装置的框图；

图4为本发明一实施例中另一种病例文书中疾病诊断的自动切分装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种病例文书中疾病诊断的自动切分方法的流程图，如图1所示，该方法可被实施为以下步骤S11-S15：

在步骤S11中，对病例文书中的疾病诊断进行预处理，以得到标准化的疾病诊断；

在步骤S12中，获取自动标记的数据及人工标记的数据；，其中，人工标记数据可以是通过查看病历文书的例子，根据医生编写的习惯，人为标记的一些数据。

在步骤S13中，根据自动标记的数据及人工标记的数据确定目标BERT模型；

在步骤S14中，将标准化的疾病诊断输入至目标BERT模型，以得到模型预测的标签；举例而言，标准化的疾病诊断为：1.高危儿2.先天性心脏病3.高血压，输入到目标BERT模型中得到的模型预测标签为001000010000000100。

在步骤S15中，根据预测的标签确定标准化的疾病诊断的切分结果。其中，标准化疾病诊断及对应的模型预测标签为1.高危儿2.先天性心脏病3.高血压(001000010000000100)，根据预设的标签进行切分的结果就是高危儿###先天性心脏病###高血压(###为分隔符)。

如图2所示，在一个实施例中，上述步骤S11可被实施为以下步骤S111-S112：

在步骤S111中，去除疾病诊断中符合预设标准的符号，以得到去除符号后的疾病诊断；其中，满足预设标准的符号是指类似于\n、\t这种多余的特殊符号。

在步骤S112中，对去除符号后的疾病诊断进行标准化处理，以得到标准化的疾病诊断。其中，标准化处理是指将去除符号后的疾病诊断出现的少写，漏写的情况纠正，或将疾病诊断中的非标准疾病名称标准化，例如肺舌段切除标准化处理后为肺叶节段切除。

通过去除符合预设标准的符号，能够得到去除符号后的疾病诊断，进而对去除符号后的疾病诊断进行标准化处理，能够得到简洁，无干扰信息的标准化的疾病诊断。

在一个实施例中，所述获取自动标记的数据，包括：

获取具有第一特征的第一诊断数据和具有第二特征的第二诊断数据；其中，具有第一特征的第一诊断数据可以是数字连接疾病的诊断数据，例如1.支气管肺炎2.粒细胞减少症，而具有第二特征的第二诊断数据可以是通过特殊符号连接的疾病诊断，例如脊柱关节病、脂肪肝、甲状腺结节。

通过第一规则对所述第一诊断数据进行标记，得到标记后的第一诊断数据；其中，第一规则可以是在数字与特殊符号后面答标记，例如对疾病诊断(1.支气管肺炎2.粒细胞减少症)打标记，是对“支”和“粒”进行标记。

通过第二规则对所述第二诊断数据进行标记，得到标记后的第二诊断数据；其中，第二规则是在第一个文字和特殊符号后面标记，例如对疾病诊断(脊柱关节病、脂肪肝、甲状腺结节)打标记，这个疾病诊断的特殊符号为“、”，是对“脊”、“脂”和“甲”进行标记。

根据所述标记后的第一诊断数据和所述标记后的第二诊断数据确定目标字典；其中，确定目标字典是指把标记后的第一诊断数据和所述标记后的第二诊断数据分开做成一个字典，字典中包括的内容是各种疾病的总和。

将所述目标字典中的若干条疾病按照第三规则进行组合，以得到第三诊断数据；其中，第三规则可以是以特殊符号组合(连接)疾病、以数字组合疾病、以数字与特殊符号一起组合疾病，举例以特殊符号组合疾病，特殊符号为“,”组合后的结果可以是冠心病，高血压病，通风。

确定所述第三诊断数据为所述自动标记的数据。

通过上述方案得到的自动标记的数据种类多，情况全，进行模型训练时效果好。

获取原始BERT模型；

确定所述自动标记的数据及所述人工标记的数据为训练集；其中，人工标记的数据是指专业人士进行标注的诊断数据。

通过大量的自动标记的数据及人工标记的数据作为训练集对原始BERT模型进行训练，能够得到功能强大，输出结果准确的目标BERT模型。

将所述标准化的疾病诊断与所述预测的标签进行结合，以得到结合结果；举例而言，将标准化的疾病诊断1.高危儿2.先天性心脏病3.高血压和预测的标签(001000010000000100)进行组合，得到的组合结果为：1.高危儿2.先天性心脏病3.高血压(001000010000000100)。

根据第四规则对所述结合结果进行切分，以得到所述标准化的疾病诊断的切分结果。其中，第四规则是指从第一个“1”对应的位置开始切分，然后确定“0”对应的文字数量，舍弃掉“0”对应的不是文字的符号，然后添加分隔符，依次往下进行，完成切分，1.高危儿2.先天性心脏病3.高血压(001000010000000100)的切分结果为高危儿###先天性心脏病###高血压，###为分隔符。

通过第四规则对所述结合结果进行切分，能够准确完成疾病诊断的切分，进而得到标准化的疾病诊断的切分结果。

对本发明实施例提供的上述的一种病例文书中疾病诊断的自动切分方法，本发明实施例还提供了一种病例文书中疾病诊断的自动切分装置，如图3所示，该装置包括：

预处理模块31，用于对病例文书中的疾病诊断进行预处理，以得到标准化的疾病诊断；

获取模块32，用于获取自动标记的数据及人工标记的数据；

第一确定模块33，用于根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型；

输入模块34，用于将所述标准化的疾病诊断输入至所述目标BERT模型，以得到模型预测的标签；

第二确定模块35，用于根据所述预测的标签确定所述标准化的疾病诊断的切分结果。

如图4所示，在一个实施例中，所述预处理模块31，包括：

去除子模块311，用于去除所述疾病诊断中符合预设标准的符号，以得到去除符号后的疾病诊断；

处理子模块312，用于对所述去除符号后的疾病诊断进行标准化处理，以得到所述标准化的疾病诊断。

在一个实施例中，所述获取模块，包括：

在一个实施例中，所述第一确定模块，包括：

第二获取子模块，用于获取原始BERT模型；

在一个实施例中，所述第二确定模块，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种病例文书中疾病诊断的自动切分方法，其特征在于，包括：

获取自动标记的数据及人工标记的数据；

根据所述预测的标签确定所述标准化的疾病诊断的切分结果；

所述获取自动标记的数据，包括：

其中，第一规则是在数字与特殊符号后面答标记；

其中，第二规则是在第一个文字和特殊符号后面标记；

其中，第三规则是以特殊符号组合疾病、以数字组合疾病、以数字与特殊符号一起组合疾病；

确定所述第三诊断数据为所述自动标记的数据；

所述对病例文书中的疾病诊断进行预处理，以得到标准化的疾病诊断，包括：

对所述去除符号后的疾病诊断进行标准化处理，以得到所述标准化的疾病诊断；

所述根据所述自动标记的数据及所述人工标记的数据确定目标BERT模型，包括：

获取原始BERT模型；

确定所述自动标记的数据及所述人工标记的数据为训练集；

2.如权利要求1所述的方法，其特征在于，所述根据所述预测的标签确定所述标准化的疾病诊断的切分结果，包括：

根据第四规则对所述结合结果进行切分，以得到所述标准化的疾病诊断的切分结果；

其中，第四规则是指从第一个“1”对应的位置开始切分，然后确定“0”对应的文字数量，舍弃掉“0”对应的不是文字的符号，然后添加分隔符，依次往下进行，完成切分。

3.一种病例文书中疾病诊断的自动切分装置，其特征在于，包括：

获取模块，用于获取自动标记的数据及人工标记的数据；

第二确定模块，用于根据所述预测的标签确定所述标准化的疾病诊断的切分结果；

所述获取模块，包括：

其中，第一规则是在数字与特殊符号后面答标记；

其中，第二规则是在第一个文字和特殊符号后面标记；

第二确定子模块，用于确定所述第三诊断数据为所述自动标记的数据；

所述预处理模块，包括：

处理子模块，用于对所述去除符号后的疾病诊断进行标准化处理，以得到所述标准化的疾病诊断；

所述第一确定模块，包括：

第二获取子模块，用于获取原始BERT模型；

4.如权利要求3所述的装置，其特征在于，所述第二确定模块，包括：

切分子模块，用于根据第四规则对所述结合结果进行切分，以得到所述标准化的疾病诊断的切分结果；