CN112860842A

CN112860842A - 病历标注方法、装置及存储介质

Info

Publication number: CN112860842A
Application number: CN202110246154.9A
Authority: CN
Inventors: 莫国龙
Original assignee: Lianren Healthcare Big Data Technology Co Ltd
Current assignee: Lianren Healthcare Big Data Technology Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-05-28

Abstract

本发明实施例公开了一种病历标注方法、装置及存储介质，该方法包括：获取待处理病历数据，确定所述待处理病历数据的至少一个目标标注模块；提取所述待处理病历数据中各目标标注模块对应的文本信息，基于预设标准化规则对所述文本信息进行标准化处理，得到待处理文本；基于预先训练完成的目标一级标注模型对各所述目标标注模块对应的待处理文本中的一级字段进行标注，得到初步标注文本；将所述初步标注文本输入至预先训练完成的目标二级标注模型，对所述初步标注文本标注出的一级字段中二级字段进行标注，得到目标标注文本。通过本发明实施例的技术方案，实现了对病历文本内容进行结构化以及文本标注，提高了病历数据的规范性和可用性的效果。

Description

病历标注方法、装置及存储介质

技术领域

本发明实施例涉及医疗信息技术领域，尤其涉及一种病历标注方法、装置及存储介质。

背景技术

病历是是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程的记录，也是对采集到的资料加以归纳、整理、综合分析并按规定的格式和要求书写的患者医疗健康档案。随着计算机及互联网技术的发展，大部分医院己实现临床病历的电子化，电子病历是利用电子设备来记录、保存、管理、传输和重现数字化的医疗记录，具有安全可靠以及方便记录、存储、共享等优点。

现阶段，可以通过对电子病历进行大数据分析，从电子病历中提取有价值可利用的信息。但是，现有电子病历中记录的信息通常是模块化的语句，难以直接用于精细的大数据分析，建模，统计等处理。并且，医务人员在电子病历中查找自己关注的信息时，也需要浏览全部病历信息，耗费大量时间。

发明内容

本发明实施例提供了一种病历标注方法、装置及存储介质，以实现对病历的文本内容进行结构化以及文本标注的技术效果。

第一方面，本发明实施例提供了一种病历标注方法，该方法包括：

获取待处理病历数据，确定所述待处理病历数据的至少一个目标标注模块；

提取所述待处理病历数据中各目标标注模块对应的文本信息，基于预设标准化规则对所述文本信息进行标准化处理，得到待处理文本；

基于预先训练完成的目标一级标注模型对各所述目标标注模块对应的待处理文本中的一级字段进行标注，得到初步标注文本；

将所述初步标注文本输入至预先训练完成的目标二级标注模型，对所述初步标注文本标注出的一级字段中二级字段进行标注，得到目标标注文本。

第二方面，本发明实施例还提供了一种病历标注装置，该装置包括：

目标标注模块确定模块，用于获取待处理病历数据，确定所述待处理病历数据的至少一个目标标注模块；

待处理文本确定模块，用于提取所述待处理病历数据中各目标标注模块对应的文本信息，基于预设标准化规则对所述文本信息进行标准化处理，得到待处理文本；

初步标注文本确定模块，用于基于预先训练完成的目标一级标注模型对各所述目标标注模块对应的待处理文本中的一级字段进行标注，得到初步标注文本；

目标标注文本确定模块，用于将所述初步标注文本输入至预先训练完成的目标二级标注模型，对所述初步标注文本标注出的一级字段中二级字段进行标注，得到目标标注文本。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例任一所述的病历标注方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例任一所述的病历标注方法。

本发明实施例的技术方案，通过获取待处理病历数据，确定待处理病历数据的至少一个目标标注模块，并提取待处理病历数据中各目标标注模块对应的文本信息，基于预设标准化规则对所述文本信息进行标准化处理，得到待处理文本，以将文本信息进行结构化。基于预先训练完成的目标一级标注模型对各目标标注模块对应的待处理文本中的一级字段进行标注，得到初步标注文本，进而，将初步标注文本输入至预先训练完成的目标二级标注模型，对初步标注文本标注出的一级字段中二级字段进行标注，得到目标标注文本，解决了现有病历数据中的信息繁杂没有规律，需求信息查找效率低并且难以用于大数据分析的问题，实现了对病历的文本内容进行结构化以及文本标注，提高了病历数据的规范性和可用性的技术效果。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。显然，所介绍的附图只是本发明所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。

图1为本发明实施例一所提供的一种病历标注方法的流程示意图；

图2为本发明实施例二所提供的一种病历标注方法的流程示意图；

图3为本发明实施例三所提供的一种病历标注方法的流程示意图；

图4为本发明实施例四所提供的一种病历标注方法的流程示意图；

图5为本发明实施例五所提供的一种病历标注装置的结构示意图；

图6为本发明实施例六所提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一所提供的一种病历标注方法的流程示意图，本实施例可适用于对病历进行文本标注，进而根据文本标注进行分析处理的情况，该方法可以由病历标注装置来执行，该装置可以通过软件和/或硬件的形式实现，该硬件可以是电子设备，可选的，电子设备可以是移动终端等。

如图1所述，本实施例的方法具体包括如下步骤：

S110、获取待处理病历数据，确定待处理病历数据的至少一个目标标注模块。

其中，待处理病历数据可以是包含医生问询记录和诊疗记录的病历数据，可以是电子病历数据，也可以是纸质病历数据。目标标注模块可以是预先设定的用于区分病历数据中不同含义数据的模块，例如可以包括患者主诉模块、现病史模块、家族史模块等。

具体的，可以从医疗机构或医疗书籍等出获取待处理病历数据。待处理病历数据可以是分模块归类过的数据，例如：患者主诉：XXX；过敏史：XXX；家族史：XXX等。待处理病历数据也可以是一段未分模块的医疗诊断。根据待处理病历数据，可以确定至少一个目标标注模块。确定至少一个目标标注模块的过程可以是将预先设置的全部标注模块均作为目标标注模块，还可以是根据待处理病历数据内容确定与其相关的标注模块为目标标注模块。

需要说明的是，若待处理病历数据为电子病历数据，则可以直接对获取到的电子病历数据进行处理；若待处理病历数据为纸质病历数据，则可以对纸质病历数据进行文字识别，将纸质病历数据转化为电子病历数据，用于后续处理使用。

还需要说明的是，在后续使用待处理病历数据时，为了保护患者的隐私信息，可以对患者姓名、年龄、出生地、身份证号等个人隐私信息进行删除处理。

S120、提取待处理病历数据中各目标标注模块对应的文本信息，基于预设标准化规则对文本信息进行标准化处理，得到待处理文本。

其中，标准化规则可以是文本替换规则，例如是包含原始词和标准词的对应关系表等。例如：标准化规则可以是基于国际疾病分类(International Classification ofDiseases，ICD)第十次修订版(ICD10)确定的文本替换规则。标准化处理可以是将文本信息进行文本替换。待处理文本可以是文本信息中标准化处理后的文本。

具体的，根据各目标标注模块可以对待处理病历数据进行拆分，将待处理病历数据拆分为与各目标标注模块相对应的文本信息。例如：将待处理病历数据中与患者主诉相关的文本信息确定为与患者主诉标注模块相对应的文本信息等。进一步，可以对按照目标标注模块划分后的文本信息进行标准化处理，将文本信息中的口语化医疗用语或不标准的医疗用语用统一的医疗用语进行替换。可以是将文本信息中的非标准词替换为ICD10标准词。例如：将“埃尔托霍乱弧菌所致霍乱”、“埃尔托霍乱弧菌相关性霍乱”、“ElTor霍乱弧菌所引起的霍乱”以及“霍乱，由于O1群霍乱弧菌，埃尔托生物所致”等替换为“由霍乱弧菌埃尔托型引起的霍乱”。进而，将统一规范后的文本信息作为待处理文本。需要说明的是，将文本信息标准化处理为待处理文本的好处在于规范文本信息，降低后续各标注模型训练和使用时的计算量，提高病历标注效率。

S130、基于预先训练完成的目标一级标注模型对各目标标注模块对应的待处理文本中的一级字段进行标注，得到初步标注文本。

其中，一级字段可以是用于表征患者相关和/或诊疗相关的字段，例如：一级字段可以包括症状、时长、检查内容、检验内容、接触史、居住环境等。目标一级标注模型是用于对一级字段进行标注的模型。初步标注文本可以包括待处理文本以及与待处理文本相对应的一级字段的标注标签。

具体的，可以将待处理文本输入至目标一级标注模型中，基于目标一级标注模型对待处理文本进行字符向量化处理以及打标签处理等，输出待处理文本中各一级字段所对应的标注标签，以对待处理病历数据进行粗粒度标记。

S140、将初步标注文本输入至预先训练完成的目标二级标注模型，对初步标注文本标注出的一级字段中二级字段进行标注，得到目标标注文本。

其中，二级字段可以是对各一级字段进行细分后确定的字段，例如：是否咳嗽、是否发热、发热时长、白细胞含量、是否接触污染水源、是否居住矿山附近、是否有吸烟史、烟龄等。目标二级标注模型是用于对二级字段进行标注的模型。目标标注文本可以包括一级字段所对应的文本信息以及相对应的二级子段标注标签。

具体的，可以将初步标注文本输入至目标二级标注模型中，基于目标二级标注模型结合各一级字段所对应的标注标签，对初步标注文本进行进一步的打标签处理等，输出各一级字段中各二级字段所对应的标注标签。

需要说明的是，对病历数据进行标注标签的目的在于：医生可以根据标注标签查找到病历数据中自己所关注的信息内容进行分析，节约了大量查找时间，提高了工作效率；在进行医疗信息挖掘时，可以依据标签标注后的病历数据进行统计分析，建模预测等工作，能够统计分析的速度以及准确性，并且能够提升模型构建的质量。

实施例二

图2为本发明实施例二所提供的一种病历标注方法的流程示意图，本实施例在上述各实施例的基础上，针对各目标标注模块对应的文本信息的提取方式，文本信息的标准化方式以及目标一级标注模型和目标二级标注模型的使用方式可参见本实施例的技术方案。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

如图2所示，该方法具体包括以下步骤：

S210、获取待处理病历数据，确定待处理病历数据的至少一个目标标注模块。

S220、提取待处理病历数据中的关键词，基于关键词确定待处理病历数据中的文本信息与各目标标注模块之间的对应关系。

其中，关键词可以是待处理病历数据中的索引词汇，也就表明根据语句中的关键词能够判断该语句所属的目标标注模块。

具体的，基于关键词提取算法提取待处理病历数据中的关键词汇，也就是提取能体现语句核心的词汇。根据关键词确定关键词所属的文本信息所对应的目标标注模块，进而，建立待处理病历数据中的文本信息与各目标标注模块的对应关系。

示例性的，待处理病历数据中的关键词为“血常规”，那么，可以建立该关键词所属的文本信息与检验的目标标注模块的对应关系。

S230、根据对应关系提取待处理病历数据中各目标标注模块对应的文本信息。

具体的，根据文本信息与目标标注模块的对应关系可以将文本信息划分至各目标标注模块中。

S240、基于预设标准化规则确定文本信息中的待替换文本信息以及与待替换文本信息对应的目标文本信息。

其中，自然文本信息可以是非标准文本信息，例如可以是口语化的医疗用语等，结构化文本信息可以是标准文本信息，例如可以是ICD10标准词等。待替换文本信息可以是文本信息中的自然文本信息，目标文本信息可以是与待替换文本信息相对应的结构化文本信息。

确定待替换文本信息以及目标文本信息的过程可以是：基于预先设置的自然文本信息确定文本信息中的待替换文本信息；根据预先构建的自然文本信息与结构化文本信息之间的对应关系确定与待替换文本信息对应的目标文本信息。

具体的，自然文本信息与结构化文本信息的对应关系可以存储在对应关系表中。根据对应关系表中的对应关系可以在文本信息中查找到自然文本信息，并将自然文本信息作为待替换文本信息。进一步，依据对应关系确定待替换文本信息对应的结构化文本信息，并且，可以将结构化文本信息作为目标文本信息。

S250、将文本信息中的待替换文本信息替换为与待替换文本信息对应的目标文本信息，得到待处理文本。

具体的，根据文本信息中确定的待替换文本信息以及与待替换文本信息对应的目标文本信息，可以将文本信息中的待替换文本信息对应的替换为目标文本信息，以使文本信息中的语句标准化。进而，将标准化处理后的文本信息作为待处理文本，以进行病历标注使用。

S260、基于预先训练完成的目标一级标注模型对各所述目标标注模块对应的待处理文本中的一级字段进行标注，得到初步标注文本。

其中，目标一级标注模型可以是用于对待处理文本进行一级字段标注的模型，目标一级标注模型包括目标预训练语言模型、目标双向长短期记忆网络模型以及目标条件随机场模型。

根据预先训练完成的目标一级标注模型对目标标注模块对应的待处理文本中的一级字段进行标注的具体步骤如下：

步骤一、将各目标标注模块对应的待处理文本中的各一级字段输入至目标预训练语言模型中，得到字符向量化后的一级文本。

其中，目标预训练语言模型可以是预先训练完成的预训练语言模型，预训练语言模型可以是BERT模型(Bidirectional Encoder Representations from Transformer，基于Transformer的双向编码器表征)，使用BERT模型的好处在于可以在处理一个单词的时候，考虑上下文的双向编码，提高处理效果。一级文本可以是一级字段中的文本信息进行字符向量化后的文本。

具体的，将各目标标注模块对应的待处理文本中的各一级字段输入至目标预训练语言模型中，结合双向编码对各一级字段对应的待处理文本进行处理，将各一级字段对应的待处理文本进行字符向量化表示。进而，可以将字符向量化后的文本作为一级文本。

步骤二、将一级文本输入至目标双向长短期记忆网络模型中，得到一级文本中的各字符所对应的各标注标签得分。

其中，目标双向长短期记忆网络模型可以是预先训练完成的双向长短期记忆网络模型(Bi-directional Long Short-Term Memory，BiLSTM)，BiLSTM模型是前向的LSTM与后向的LSTM结合成的模型。使用BiLSTM模型的好处在于可以捕捉文本中的双向语义依赖特征。

具体的，将一级文本输入至目标双向长短期记忆网络模型中，可以预测出每一个字符属于不同标注标签的得分。例如：标注标签B-Time_Modify的得分为1.5，B-Symptom的得分为0.8，I-Time_Name的得分为0.1等。

需要说明的是，标注标签是预先设定的标签，可以包括症状、时长、检查内容、检验内容、接触史、居住环境等使用BIEO标签标记法进行标注的标注标签。

步骤三、将各标注标签得分输入至目标条件随机场模型中，得到各字符对应的标注标签。

其中，目标条件随机场模型可以是预先训练完成的条件随机场模型(ConditionalRandom Field，CRF)。CRF模型可以用来考虑各标注标签的关联性，调整字符的各标注标签所对应的概率，进而确定各字符对应的标注标签。

具体的，将各标注标签得分输入至目标条件随机场模型中，可以根据CRF模型中的状态特征函数以及状态转移特征函数，调整当前字符的各标注标签所对应的概率。进一步，可以确定概率最大的标注标签为当前字符所对应的标注标签。

步骤四、将各字符以及与各字符相对应的标注标签作为初步标注文本。

具体的，在确定各字符所对应的标注标签后，可以将各字符以及与各字符相对应的标注标签进行对应标注，并将标注后的文本作为初步标注文本。初步标签文本的形式可以是各字符与各标注标签的对应关系表格的形式，也可以是字符后添加标注标签的形式。

示例性的，待处理文本为“发作性胸闷7余年，加重伴腹泻1天。”，则通过目标一级标注模型标注后，可以确定初步标注文本为：发(B-Time_Modify)作(I-Time_Modify)性(E-Time_Modify)胸(B-Symptom)闷(E-Symptom)7(B-Time_Name)余(I-Time_Name)年(E-Time_Name)，加(B-Level)重(E-Level)伴(O)腹(B-Symptom)泻(E-Symptom)1(B-Time_Name)天(E-Time_Name)。

S270、将初步标注文本输入至预先训练完成的目标二级标注模型，对初步标注文本标注出的一级字段中二级字段进行标注，得到目标标注文本。

具体的，将初步标注文本输入至目标二级标注模型中，综合考量一级字段中当前字符与当前标注标签，以及当前字符的前后字符与前后字符的标注标签，确定二级字段中当前字符的标注标签。进一步，将各字符以及与各字符相对应的标注标签(二级)进行对应标注，并将标注后的文本作为目标标注文本。目标标注文本中可以包含各字符与各标注标签(二级)，也可以包含各字符与各标注标签(一级和二级)。

需要说明的是，通过目标二级标注模型对二级字段进行标注的过程可以参考S260中通过目标一级标注模型对一级字段进行标注的过程。

本发明实施例的技术方案，通过提取待处理病历数据中的关键词，基于关键词确定待处理病历数据中的文本信息与各目标标注模块之间的对应关系，根据对应关系提取待处理病历数据中各目标标注模块对应的文本信息，以将待处理病历数据进行模块划分，基于预设标准化规则确定文本信息中的待替换文本信息以及与待替换文本信息对应的目标文本信息，并将文本信息中的待替换文本信息替换为与待替换文本信息对应的目标文本信息，得到待处理文本，以对文本信息进行标准化处理得到结构化后的待处理文本，解决了现有病历数据中的各种信息夹杂在一起，并且相同信息具有不同表述的问题，实现了病历数据信息模块化和结构化的技术效果，进而提升了病历数据的规范性。

实施例三

图3为本发明实施例三所提供的一种病历标注方法的流程示意图，本实施例在上述各实施例的基础上，针对目标一级标注模型和目标二级标注模型的确定方式可参见本实施例的技术方案。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

S310、确定目标一级标注模型。

具体的，为了使目标一级标注模型对一级字段的标注结果准确，可以对初始一级标注模型进行训练，以避免对各一级字段标注不准确的问题。

可选的，确定目标一级标注模型具体包括如下步骤：

步骤一、获取历史病历数据，确定历史病历数据的至少一个目标标注模块。

其中，历史病历数据可以是医疗数据库中记录和保存的医生诊疗记录的病历数据，可以是电子病历数据，也可以是纸质病历数据。

具体的，可以对获取到的历史病历数据针对各目标标注模块进行模块划分，具体实施方式可以参考S110中确定待处理病历数据的至少一个目标标注模块的方式。

步骤二、提取历史病历数据中各目标标注模块对应的历史文本信息。

其中，历史文本信息可以是将历史病历数据分成各目标标注模块后的分模块文本信息。

具体的，根据各目标标注模块可以对历史病历数据进行拆分，将历史病历数据拆分为与各目标标注模块相对应的历史文本信息。提取历史文本信息的具体实施方式可以参考S120和S220-S230中提取待处理病历数据中各目标标注模块对应的文本信息的方式。

步骤三、基于预设标准化规则对历史文本信息进行标准化处理，得到样本文本。

其中，样本文本可以是将历史文本信息中的非标准词替换为标准词后的文本。

具体的，可以对按照目标标注模块划分后的历史文本信息进行标准化处理，将历史文本信息中的口语化医疗用语或不标准的医疗用语用统一的医疗用语进行替换，也就是将文本信息中的非标准词替换为ICD10标准词。确定样本文本的具体实施方式可以参考S120和S240-S250中确定待处理文本的方式。

步骤四、基于预先构建的一级标注样本数据集对预先建立的初始一级标注模型进行训练，得到目标一级标注模型。

其中，一级标注样本数据集中包括样本文本以及样本文本中各一级字段的标注标签。

具体的，将一级标注样本数据集中的样本文本以及样本文本中各一级字段的标注标签作为训练数据，对预先建立的初始一级标注模型进行训练，并将训练完成的模型作为目标一级标注模型。在模型训练过程中，可以通过构建损失函数计算损失值。若损失值小于预设损失值时，停止训练，并将此时的模型，作为目标一级标注模型。若损失值大于或等于预设损失值，则对模型参数进行调整，继续训练模型，直至损失值小于预设损失值或迭代次数达到预设次数，将此时的模型作为目标一级标注模型。

为了使病历的标注标签符合需求，可以在基于样本文本以及样本文本中各一级字段的标注标签对预先建立的初始一级标注模型进行训练之前基于BIEO标签标记法对所述样本文本中的一级字段进行标注，构建一级标注样本数据集。

其中，BIEO标签标记法中的BIEO指的是Begin(开头)，Intermediate(中间)，End(结尾)和Other(其他)四个单词的首字母。BIEO标签标记法可以标注出各字符属于某个字段的开头、中间或结尾，或不属于任一字段(其他)。

具体的，可以通过人工标注的方式对样本文本中的各一级字段进行BIEO的标签标注，以对样本文本中的一级字段进行BIEO标签转换。进而，将样本文本以及各一级字段的BIEO标签作为一级标注样本数据集，以训练目标一级标注模型时使用。

S320、确定目标二级标注模型。

具体的，为了使目标二级标注模型对二级字段的标注结果准确，可以对初始二级标注模型进行训练，以避免对各二级字段标注不准确的问题。

可选的，确定目标二级标注模型具体包括如下步骤：

步骤一、基于BIEO标签标记法对一级标注样本数据集中的二级字段进行标注，构建二级标注样本数据集。

其中，二级标注样本数据集中包括一级字段对应的样本文本以及样本文本中各二级字段的标注标签。

具体的，可以通过人工标注的方式对样本文本中各一级字段所对应的各二级字段进行BIEO的标签标注，以对一级字段中的二级字段进行BIEO标签转换。进而，将一级字段对应的样本文本以及样本文本中各二级字段的BIEO标签作为二级标注样本数据集，以训练目标二级标注模型时使用。

步骤二、基于二级字段样本数据集对预先建立的初始二级标注模型进行训练，得到目标二级标注模型。

具体的，将二级标注样本数据集中的一级字段对应的样本文本以及样本文本中各二级字段的标注标签作为训练数据，对预先建立的初始二级标注模型进行训练，并将训练完成的模型作为目标二级标注模型。

S330、获取待处理病历数据，确定待处理病历数据的至少一个目标标注模块。

S340、提取待处理病历数据中各目标标注模块对应的文本信息，基于预设标准化规则对文本信息进行标准化处理，得到待处理文本。

S350、基于预先训练完成的目标一级标注模型对各目标标注模块对应的待处理文本中的一级字段进行标注，得到初步标注文本。

S360、将初步标注文本输入至预先训练完成的目标二级标注模型，对初步标注文本标注出的一级字段中二级字段进行标注，得到目标标注文本。

本实施例的技术方案，通过确定目标一级标注模型和确定目标二级标注模型，解决了标注模型标注不准确的问题，达到了提高模型标签标注准确性的技术效果。

实施例四

作为上述各实施例的可选实施方案，图4为本发明实施例四所提供的一种病历标注方法的流程示意图。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

如图4所示，病历标注方法具体如下：

1、获取到去除患者隐私的电子病历数据，去除的内容可以包括患者姓名、年龄、出生地、身份证号、住址等相关信息。

2、提取患者的系统唯一识别标识码以及对应的电子病历相关所有文本信息。文本信息可以包括患者的主诉、现病史、既往史、个人史、婚育史、家族史和体格检查等内容。进而，对文本信息进行模块拆分其中，系统唯一识别码可以是患者标识码，用于区分不同患者的病历数据。

3、根据拆分后的病历数据确定一级结构化名称以及二级结构化名称，例如：主诉、现病史等。

4、对模块拆分后的病历数据进行ICD名称归一，也就是对病历数据中的非标准词进行标准化处理。

5、对标准化后的病历数据中的一级字段进行一级结构化BIEO标注，即对各一级字段通过BIEO标签标记法进行标注。

6、基于病历数据中的一级字段以及一级字段对应的标签，对一级结构化模型(目标一级标注模型)进行训练。

7、对病历数据中一级字段的二级字段进行二级结构化BIEO标注，即对各二级字段通过BIEO标签标记法进行标注。

8、基于病历数据中的二级字段以及二级字段对应的标签，对二级结构化模型(目标二级标注模型)进行训练。

9、基于一级结构化模型和二级结构化模型对新的病历文本数据进行标签预测。

需要说明的是，可以根据BIEO标签标注法的标签信息对一级结构化名称和/或二级结构化名称进行重定义，即调整名称的命名方式。还可以，基于标签预测结果以及标签真实结果对一级结构化模型和/或二级结构化模型的参数进行调整，以获得标注准确的一级结构化模型和/或二级结构化模型。

本实施例的技术方案，通过获取到去除患者隐私的电子病历数据，将病历数据进行模块拆分，并确定一级结构化名称以及二级结构化名称，进而对模块拆分后的病历数据进行ICD名称归一，以对病历数据进行标准化处理。进一步，对各一级字段通过BIEO标签标记法进行标注，并基于标注后的数据对一级结构化模型进行训练，对各二级字段通过BIEO标签标记法进行标注，并基于标注后的数据对二级结构化模型进行训练，以得到一级结构化模型和二级结构化模型。并且，基于一级结构化模型和二级结构化模型对新的病历文本数据进行标签预测，解决了现有病历数据中的信息繁杂没有规律，需求信息查找效率低并且难以用于大数据分析的问题，实现了对病历的文本内容进行结构化以及文本标注，提高了病历数据的规范性和可用性的技术效果。

实施例五

图5为本发明实施例五所提供的一种病历标注装置的结构示意图，该装置包括：目标标注模块确定模块510、待处理文本确定模块520、初步标注文本确定模块530和目标标注文本确定模块540。

其中，目标标注模块确定模块510，用于获取待处理病历数据，确定所述待处理病历数据的至少一个目标标注模块；待处理文本确定模块520，用于提取所述待处理病历数据中各目标标注模块对应的文本信息，基于预设标准化规则对所述文本信息进行标准化处理，得到待处理文本；初步标注文本确定模块530，用于基于预先训练完成的目标一级标注模型对各所述目标标注模块对应的待处理文本中的一级字段进行标注，得到初步标注文本；目标标注文本确定模块540，用于将所述初步标注文本输入至预先训练完成的目标二级标注模型，对所述初步标注文本标注出的一级字段中二级字段进行标注，得到目标标注文本。

可选的，目标一级标注模型包括目标预训练语言模型、目标双向长短期记忆网络模型以及目标条件随机场模型；初步标注文本确定模块530，具体用于将各所述目标标注模块对应的待处理文本中的各一级字段输入至所述目标预训练语言模型中，得到字符向量化后的一级文本；将所述一级文本输入至所述目标双向长短期记忆网络模型中，得到所述一级文本中的各字符所对应的各标注标签得分；将所述各标注标签得分输入至所述目标条件随机场模型中，得到所述各字符对应的标注标签；将所述各字符以及与所述各字符相对应的标注标签作为初步标注文本。

可选的，待处理文本确定模块520，还用于提取所述待处理病历数据中的关键词，基于所述关键词确定所述待处理病历数据中的文本信息与各目标标注模块之间的对应关系；根据所述对应关系提取所述待处理病历数据中各目标标注模块对应的文本信息。

可选的，待处理文本确定模块520，还用于基于预设标准化规则确定所述文本信息中的待替换文本信息以及与所述待替换文本信息对应的目标文本信息；将所述文本信息中的待替换文本信息替换为与所述待替换文本信息对应的目标文本信息，得到待处理文本。

可选的，待处理文本确定模块520，还用于基于预先设置的自然文本信息确定所述文本信息中的待替换文本信息；根据预先构建的自然文本信息与结构化文本信息之间的对应关系确定与所述待替换文本信息对应的目标文本信息。

可选的，所述装置还包括：目标一级标注模型确定模块，用于确定目标一级标注模型；目标一级标注模型确定模块，具体用于获取历史病历数据，确定所述历史病历数据的至少一个目标标注模块；提取所述历史病历数据中各目标标注模块对应的历史文本信息；基于预设标准化规则对所述历史文本信息进行标准化处理，得到样本文本；基于预先构建的一级标注样本数据集对预先建立的初始一级标注模型进行训练，得到目标一级标注模型，其中，所述一级标注样本数据集中包括所述样本文本以及所述样本文本中各一级字段的标注标签。

可选的，所述装置还包括：一级标注样本数据集构建模块，用于基于BIEO标签标记法对所述样本文本中的一级字段进行标注，构建一级标注样本数据集。

可选的，所述装置还包括：目标二级标注模型确定模块，用于确定目标二级标注模型；目标二级标注模型确定模块，具体用于基于所述BIEO标签标记法对所述一级标注样本数据集中的二级字段进行标注，构建二级标注样本数据集；所述二级标注样本数据集中包括所述一级字段对应的样本文本以及所述样本文本中各二级字段的标注标签；基于所述二级字段样本数据集对预先建立的初始二级标注模型进行训练，得到目标二级标注模型。

本发明实施例所提供的病历标注装置可执行本发明任意实施例所提供的病历标注方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述病历标注装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

实施例六

图6为本发明实施例六所提供的一种电子设备的结构示意图。图6示出了适于用来实现本发明实施例实施方式的示例性电子设备60的框图。图6显示的电子设备60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备60以通用计算设备的形式表现。电子设备60的组件可以包括但不限于：一个或者多个处理器或者处理单元601，系统存储器602，连接不同系统组件(包括系统存储器602和处理单元601)的总线603。

总线603表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备60访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器602可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)604和/或高速缓存存储器605。电子设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统606可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线603相连。系统存储器602可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块607的程序/实用工具608，可以存储在例如系统存储器602中，这样的程序模块607包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块607通常执行本发明所描述的实施例中的功能和/或方法。

电子设备60也可以与一个或多个外部设备609(例如键盘、指向设备、显示器610等)通信，还可与一个或者多个使得用户能与该电子设备60交互的设备通信，和/或与使得该电子设备60能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口611进行。并且，电子设备60还可以通过网络适配器612与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器612通过总线603与电子设备60的其它模块通信。应当明白，尽管图6中未示出，可以结合电子设备60使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元601通过运行存储在系统存储器602中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的病历标注方法。

实施例七

本发明实施例七还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种病历标注方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种病历标注方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标一级标注模型包括目标预训练语言模型、目标双向长短期记忆网络模型以及目标条件随机场模型；

所述基于预先训练完成的目标一级标注模型对各所述目标标注模块对应的待处理文本中的一级字段进行标注，得到初步标注文本，包括：

将各所述目标标注模块对应的待处理文本中的各一级字段输入至所述目标预训练语言模型中，得到字符向量化后的一级文本；

将所述一级文本输入至所述目标双向长短期记忆网络模型中，得到所述一级文本中的各字符所对应的各标注标签得分；

将所述各标注标签得分输入至所述目标条件随机场模型中，得到所述各字符对应的标注标签；

将所述各字符以及与所述各字符相对应的标注标签作为初步标注文本。

3.根据权利要求1所述的方法，其特征在于，所述提取所述待处理病历数据中各目标标注模块对应的文本信息，包括：

提取所述待处理病历数据中的关键词，基于所述关键词确定所述待处理病历数据中的文本信息与各目标标注模块之间的对应关系；

根据所述对应关系提取所述待处理病历数据中所述各目标标注模块对应的文本信息。

4.根据权利要求1所述的方法，其特征在于，所述基于预设标准化规则对所述文本信息进行标准化处理，得到待处理文本，包括：

基于预设标准化规则确定所述文本信息中的待替换文本信息以及与所述待替换文本信息对应的目标文本信息；

将所述文本信息中的待替换文本信息替换为与所述待替换文本信息对应的目标文本信息，得到待处理文本。

5.根据权利要求4所述的方法，其特征在于，所述基于预设标准化规则确定所述文本信息中的待替换文本信息以及与所述待替换文本信息对应的目标文本信息，包括：

基于预先设置的自然文本信息确定所述文本信息中的待替换文本信息；

根据预先构建的自然文本信息与结构化文本信息之间的对应关系确定与所述待替换文本信息对应的目标文本信息。

6.根据权利要求1所述的方法，其特征在于，还包括：

确定目标一级标注模型；

所述确定目标一级标注模型，包括：

获取历史病历数据，确定所述历史病历数据的至少一个目标标注模块；

提取所述历史病历数据中各目标标注模块对应的历史文本信息；

基于预设标准化规则对所述历史文本信息进行标准化处理，得到样本文本；

基于预先构建的一级标注样本数据集对预先建立的初始一级标注模型进行训练，得到目标一级标注模型，其中，所述一级标注样本数据集中包括所述样本文本以及所述样本文本中各一级字段的标注标签。

7.根据权利要求6所述的方法，其特征在于，在所述基于预先构建的一级标注样本数据集对预先建立的初始一级标注模型进行训练之前，还包括：

基于BIEO标签标记法对所述样本文本中的一级字段进行标注，构建一级标注样本数据集。

8.根据权利要求7所述的方法，其特征在于，还包括：

确定目标二级标注模型；

所述确定目标二级标注模型，包括：

基于所述BIEO标签标记法对所述一级标注样本数据集中的二级字段进行标注，构建二级标注样本数据集；所述二级标注样本数据集中包括所述一级字段对应的样本文本以及所述样本文本中各二级字段的标注标签；

基于所述二级字段样本数据集对预先建立的初始二级标注模型进行训练，得到目标二级标注模型。

9.一种病历标注装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的病历标注方法。