CN112614559A

CN112614559A - 病历文本处理方法、装置、计算机设备和存储介质

Info

Publication number: CN112614559A
Application number: CN202011601016.XA
Authority: CN
Inventors: 周书勇; 高宇; 陆奇; 梁波
Original assignee: Suzhou Chaoyun Life Intelligence Industry Research Institute Co ltd
Current assignee: Suzhou Chaoyun Life Intelligence Industry Research Institute Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-06

Abstract

本申请涉及一种病历文本处理方法、装置、计算机设备和存储介质，通过获取病历文本，并从所述病历文本中识别出修饰词和医疗实体；对所述病历文本进行分词，得到对应的分词结果；对所述修饰词、所述医疗实体以及所述分词结果进行融合，得到所述病历文本的句子表示；将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型，确定所述修饰词在所述病历文本中的修饰范围；从而根据所述修饰范围包括的若干参考医疗实体对所述句子表示进行结构化处理，得到所述病历文本对应的具有修饰属性的结构化数据。全面识别修饰词所修饰的医疗实体，提升病历信息结构化处理的准确性。

Description

病历文本处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种病历文本处理方法、装置、计算机设备和存储介质。

背景技术

目前，医疗信息电子化在国内外得到了广泛的应用，病历文本的研究对于医疗质量的管理与监督、提高病历的规范性和完整性、提升医务人员工作效率等方面具有十分重要的作用。

相关技术中，对电子病历进行结构化处理，得到结构化的病历信息。由于病历病人主诉部分、诊断结果部分中的文字内容可能没有规范的语法结构，比如存在省略、简写等情况，因此，相关技术中结构化的病历信息影响着后续处理结果的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升结构化的病历信息准确性的病历文本处理方法、装置、计算机设备和存储介质。

一种病历文本处理方法，所述方法包括：

获取病历文本，并从所述病历文本中识别出修饰词和医疗实体；

对所述病历文本进行分词，得到对应的分词结果；

对所述修饰词、所述医疗实体以及所述分词结果进行融合，得到所述病历文本的句子表示；

将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型，确定所述修饰词在所述病历文本中的修饰范围；所述修饰范围包括若干参考医疗实体；

根据所述若干参考医疗实体对所述句子表示进行结构化处理，得到所述病历文本对应的具有修饰属性的结构化数据。

在其中一个实施例中，所述从所述病历文本中识别出修饰词和医疗实体，包括：

通过修饰词识别模型的第一双向语言网络层对所述病历文本中的各字符进行嵌入处理，得到所述病历文本对应的向量；所述修饰词识别模型还包括依次连接的第一双向长短期记忆网络层和第一条件随机场；

通过所述第一双向长短期记忆网络层对所述病历文本对应的向量进行特征提取，得到所述病历文本中各字符的序列标识标签概率；

通过所述第一条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签；

根据各个字符的序列标识标签对各个字符进行筛选，得到所述病历文本中的修饰词以及所述修饰词在病历文本中的位置。

在其中一个实施例中，所述修饰词识别模型的训练方式，包括：

构建第一病历样本集，所述第一病历样本集中的第一病历样本采用序列标注方式对修饰词进行标注得到；

通过所述第一病历样本集对所述修饰词识别模型进行训练，根据所述修饰词识别模型预测的修饰词序列与所述第一病历样本确定模型损失值，并反向传播优化所述修饰词识别模型的参数。

通过医疗实体识别模型的第二双向语言网络层对所述病历文本中的各字符进行嵌入处理，得到所述病历文本对应的向量；所述医疗实体识别模型还包括第二双向长短期记忆网络层和第二条件随机场；

通过所述第二双向长短期记忆网络层对所述病历文本对应的向量进行特征提取，得到所述病历文本中各字符的序列标识标签概率；

通过所述第二条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签；

根据各个字符的序列标识标签对各个字符进行筛选，得到所述病历文本中的医疗实体以及所述医疗实体在病历文本中的位置。

在其中一个实施例中，所述医疗实体的识别模型的训练方式，包括：

构建第二病历样本集，所述第二病历样本集中的第二病历样本采用序列标注方式对医疗实体进行标注得到；

通过所述第二病历样本集对所述医疗实体识别模型进行训练，根据所述医疗实体识别模型预测的医疗实体序列与所述第二病历样本确定模型损失值，并反向传播优化所述医疗实体识别模型的参数。

在其中一个实施例中，所述阅读理解模型的训练语料的问句部分采用动态提问的方式，所述问句部分基于标注的修饰词动态设定。

在其中一个实施例中，所述对所述修饰词、所述医疗实体以及所述分词结果进行融合，得到所述病历文本的句子表示，包括：

根据所述修饰词以及所述医疗实体，对所述分词结果中的重合部分进行剔除，得到所述病历文本的句子表示；所述重合部分包括所述修饰词与所述分词结果相同部分以及所述医疗实体与所述分词结果相同部分。

在其中一个实施例中，所述句子表示中的医疗实体记为待核实医疗实体；所述根据所述若干参考医疗实体对所述句子表示进行结构化处理，得到所述病历文本对应的具有修饰属性的结构化数据，包括：

将所述参考医疗实体与所述待核实医疗实体进行比较；

若所述待核实医疗实体与所述参考医疗实体一致，则确定所述待核实医疗实体属于所述修饰范围，对所述待核实医疗实体进行标记；

根据标记后的待核实医疗实体，得到所述病历文本对应的具有修饰属性的结构化数据。

一种病历文本处理装置，所述装置包括：

文本获取识别模块，用于获取病历文本，并从所述病历文本中识别出修饰词和医疗实体；

文本分词模块，用于对所述病历文本进行分词，得到对应的分词结果；

融合模块，用于对所述修饰词、所述医疗实体以及所述分词结果进行融合，得到所述病历文本的句子表示；

文本理解模块，用于将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型，确定所述修饰词在所述病历文本中的修饰范围；所述修饰范围包括若干参考医疗实体；

结构处理模块，根据所述若干参考医疗实体对所述句子表示进行结构化处理，得到所述病历文本对应的具有修饰属性的结构化数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的方法步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中的方法步骤。

上述病历文本处理方法、装置、计算机设备和存储介质，通过获取病历文本，并从所述病历文本中识别出修饰词和医疗实体；对所述病历文本进行分词，得到对应的分词结果；对所述修饰词、所述医疗实体以及所述分词结果进行融合，得到所述病历文本的句子表示；将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型，确定所述修饰词在所述病历文本中的修饰范围；从而根据所述修饰范围包括的若干参考医疗实体对所述句子表示进行结构化处理，得到所述病历文本对应的具有修饰属性的结构化数据。全面识别修饰词所修饰的医疗实体，提升病历信息结构化处理的准确性。

附图说明

图1为一个实施例中病历文本处理方法的应用环境图；

图2a为一个实施例中病历文本处理方法的流程示意图；

图2b为一个实施例中病历文本的句子标识的示意图；

图2c为一个实施例中阅读理解模型的结构示意图；

图2d为一个实施例中修饰范围问句的示意图；

图2e为一个实施例中具有修饰属性的结构化数据的示意图；

图3a为一个实施例中S210步骤的流程示意图；

图3b为一个实施例中修饰词识别模型的结构示意图；

图3c为一个实施例中修饰词标注的示意图；

图4a为一个实施例中S210步骤的流程示意图；

图4b为一个实施例中医疗实体标注的示意图；

图4c为一个实施例中否定词的否定范围标注的示意图；

图5为一个实施例中S250步骤的流程示意图；

图6为一个实施例中病历文本处理装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的病历文本处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。在服务器104上搭建修饰词识别模型、医疗实体识别模型和阅读理解模型。修饰词识别模型包括第一双向语言网络层、第一双向长短期记忆网络层和第一条件随机场；医疗实体识别模型包括第二双向语言网络层、第二双向长短期记忆网络层和第二条件随机场。

服务器104构建第一病历样本集，第一病历样本集中的第一病历样本采用序列标注方式对修饰词进行标注得到；通过第一病历样本集对修饰词识别模型进行训练，根据修饰词识别模型预测的修饰词序列与第一病历样本确定模型损失值，并反向传播优化修饰词识别模型的参数。

服务器104构建第二病历样本集，第二病历样本集中的第二病历样本采用序列标注方式对医疗实体进行标注得到；通过第二病历样本集对医疗实体识别模型进行训练，根据医疗实体识别模型预测的医疗实体序列与第二病历样本确定模型损失值，并反向传播优化医疗实体识别模型的参数。

当检测模型完成训练时，将修饰词识别模型、医疗实体识别模型和阅读理解模型发布在终端102上。

终端102上部署有完成训练的修饰词识别模型、医疗实体识别模型和阅读理解模型。具体地，终端102获取病历文本通过修饰词识别模型从病历文本中识别出修饰词；通过医疗实体识别模型从病历文本中识别出医疗实体；对病历文本进行分词，得到对应的分词结果；对修饰词、医疗实体以及分词结果进行融合，得到病历文本的句子表示；将基于修饰词构造的修饰范围问句与病历文本输入至阅读理解模型，确定修饰词在病历文本中的修饰范围；修饰范围包括若干参考医疗实体；根据若干参考医疗实体对句子表示进行结构化处理，得到病历文本对应的具有修饰属性的结构化数据。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2a所示，提供了一种病历文本处理方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S210、获取病历文本，并从病历文本中识别出修饰词和医疗实体。

其中，病历文本包括但不限于电子病历、住院记录以及临床记录等。医学实体可以是发热、咳嗽等描述症状词语，医学实体也可以是心脏病、糖尿病等描述疾病的词语。医学实体的类别包括但不限于症状、体征、疾病、药物、手术、检查、检验、过敏史、生活史等。修饰词用于描述医疗实体，可以是否定词、可能性词、条件词、持续时间、程度、频率等。

具体地，可以获取原始电子病历、住院记录或者临床记录等原始病历文本，并可以对原始病历文本进行比如删除停顿词处理，也可以从原始病历文本获取预设字符数量的文本段作为病历文本，预设字符数量根据实际情况而设定，比如可以是128。对原始病历文本处理之后，得到病历文本。基于深度学习方式对病历文本进行识别，识别出病历文本中的修饰词。同样的，基于深度学习方式对病历文本进行识别，识别出病历文本中的医疗实体。

S220、对病历文本进行分词，得到对应的分词结果。

S230、对修饰词、医疗实体以及分词结果进行融合，得到病历文本的句子表示。

其中，分词就是将连续的字符序列按照一定的规范重新组合成词序列的过程。句子表示可以是句子的实体链表的表示形式。具体地，利用分词工具对病历文本进行分词处理，得到病历文本对应的分词结果，分词结果包括多个医疗词以及一些非医疗词，还可得到各个医疗词或者非医疗词的词性和位置。这些医疗词与识别得到的修饰词与医疗实体之间存在重合部分。比如，从病历文本中识别出“糖尿病”为一个整体，整体为医疗实体，而分词结果中包括“糖”、“尿”、“病”三个分离的字符，分离的字符显然与实际不符，利用修饰词、医疗实体对分词结果进行优化。从病历文本识别出修饰词、医疗实体，并且得到医疗实体在病历文本中的位置以及修饰词在病历文本中的位置。将修饰词、医疗实体以及分词结果进行融合，比较病历文本的分词结果以及病历文本的识别结果，将修饰词以及医疗实体与分词结果的重叠部分或者交叉部分进行去除买得到病历文本的句子表示(如图2b所示)。

S240、将基于修饰词构造的修饰范围问句与病历文本输入至阅读理解模型，确定修饰词在病历文本中的修饰范围。

其中，修饰范围包括若干参考医疗实体。如图2c所示，阅读理解模型可以采用BERT(Bidirectional Encoder Representations from Transformers，双向语言模型)模型。其中，Start/End Span用于表示开始/结束的位置；C句表示开始/结束概率。T1表示问句分词1开始/结束的概率；Tn表示问句分词n开始/结束的概率。T[sep]分句表示开始/结束概率；T1表示病历文本分词1开始/结束概率；Tm'表示病历文本分词m开始/结束概率。E[cls]为句表示嵌入；E1表示问句分词1嵌入；En表示问句分词n嵌入。E[sep]为分句表示嵌入；E1'表示病历文本分词1嵌入；Em'表示病历文本分词m嵌入。[cls]为句表示；tok1表示问句分词1；tokn表示问句分词n；[sep]为分句表示，tok1为病历文本分词1，tokm病历文本分词m。

具体地，对病历文本进行识别，得到病历文本中的修饰词，利用识别到的修饰词构造修饰范围问句。如图2d所示，若修饰词为否定词是，构造的修饰范围问句可以是“否定词否认的否定范围是什么”或者“否定词没有的否定范围是什么”。将构造的修饰范围问句与病历文本一起输入至阅读理解模型，通过阅读理解模型对病历文本中修饰词的修饰范文进行识别，从而确定修饰词在病历文本中的修饰范围。修饰范围包括若干个参考医疗实体，这些参考医疗实体是对句子表示中的医疗实体进行结构化处理的参考依据。

S250、根据若干参考医疗实体对句子表示进行结构化处理，得到病历文本对应的具有修饰属性的结构化数据。

具体地，通过融合分词结果、修饰词以及医疗实体得到单个句子的实体链表的表示形式。通过阅读理解模型已经识别出病历文本中修饰词的修饰范围，且修饰词的修饰范围包括若干个参考医疗实体，根据若干个参考医疗实体对病历文本的句子表示中的医疗实体进行是否具有修饰属性的标记，实现对句子表示的结构化处理，得到病历文本对应的带修饰属性的结构化数据。

示例性，如图2e所示，句子表示中包括“高血压”这个医疗实体，且该医疗实体在修饰词(否定词)的修饰范围(否定范围)内，则标记“高血压”具有修饰属性，得到病历文本对应的带修饰属性的结构化数据。

上述病历文本处理方法中，通过获取病历文本，并从病历文本中识别出修饰词和医疗实体；对病历文本进行分词，得到对应的分词结果；对修饰词、医疗实体以及分词结果进行融合，得到病历文本的句子表示；将基于修饰词构造的修饰范围问句与病历文本输入至阅读理解模型，确定修饰词在病历文本中的修饰范围；从而根据修饰范围包括的若干参考医疗实体对句子表示进行结构化处理，得到病历文本对应的具有修饰属性的结构化数据。全面识别修饰词所修饰的医疗实体，提升病历信息结构化处理的准确性。

在一个实施例中，如图3a所示，在步骤S210中，从病历文本中识别出修饰词和医疗实体，包括以下步骤：

S310、通过修饰词识别模型的第一双向语言网络层对病历文本中的各字符进行嵌入处理，得到病历文本对应的向量。

S320、通过第一双向长短期记忆网络层对病历文本对应的向量进行特征提取，得到病历文本中各字符的序列标识标签概率。

S330、通过第一条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签。

S340、根据各个字符的序列标识标签对各个字符进行筛选，得到病历文本中的修饰词。

其中，如图3b所示，修饰词识别模型包括依次连接的第一双向语言网络层(BERT，Bidirectional Encoder Representations from Transformers)、第一双向长短期记忆网络层(BiLSTM，Bi-directional Long Short-Term Memory)和第一条件随机场(CRF，Conditional Random Field)。[cls]为句表示；Tok1表示分词1；TokN表示分词N。E[cls]为句表示嵌入；E1表示分词1嵌入；EN表示分词N嵌入。C为句表示向量输出；T1表示分词1向量输出；TN表示分词N向量输出。Pc为句表示各标签概率；P1表示分词1各标签概率；PN表示分词N各标签概率。TagC为句表示输出标签；Tag1为分词1输出标签；TagN为分词N输出标签。

本实施例中可以通过NER方法从病历文本中识别修饰词，NER又称作专名识别，是自然语言处理中的一项基础任务。具体地，将病历文本输入至修饰词识别模型，通过第一双向语言网络层对病历文本中的各字符进行嵌入(Embedding)处理，第一双向语言网络层输出病历文本对应的向量。第一双向语言网络层的输出作为第一双向长短期记忆网络层的输入，通过第一双向长短期记忆网络层对病历文本对应的向量进行特征提取，第一双向长短期记忆网络层输出病历文本中各字符的序列标识标签概率。第一双向长短期记忆网络层的输出作为第一条件随机场的输入，通过第一条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签。最终，由于各个修饰词对应有序列标识标签，因此根据各个字符的序列标识标签对病历文本的各个字符进行筛选，得到病历文本中的修饰词以及修饰词在病历文本中的位置。

本实施例中，通过依次连接的第一双向语言网络层、第一双向长短期记忆网络层和第一条件随机场从病历文本识别出修饰词，提升了修饰词识别的准确性，为后续对病历文本进行结构化处理打下良好的基础。

在一个实施例中，修饰词识别模型的训练方式，包括：构建第一病历样本集；通过第一病历样本集对修饰词识别模型进行训练，根据修饰词识别模型预测的修饰词序列与第一病历样本确定模型损失值，并反向传播优化修饰词识别模型的参数。

其中，第一病历样本集中的第一病历样本采用序列标注方式对修饰词进行标注得到。具体地，如图3c所示，对训练样本使用序列标注方式(BIO)进行标注。其中，B用于标注修饰词的开头，I用于标注修饰词本身，O用于标注训练样本中与修饰词不相关的信息。将第一病历样本集中任一第一病历样本输入至修饰词识别模型进行预测，得到预测的修饰词序列，根据预测的修饰词序列以及训练标签计算模型损失值(比如交叉熵)，并反向传播优化检测网络的参数。重复以上步骤，利用训练样本集中大量的样本对模型进行迭代训练，直至满足停止训练的条件(比如设置迭代次数以及准确率F值)，得到训练后的修饰词识别模型。其中，将预测修饰词序列与训练标签进行对比，计算得到预测准确的占比即准确率F1值。示例性地，本实施例中标注了14万字符，且性能要求是F1值0.95以上。

在一个实施例中，如图4a所示，在步骤S210中，从病历文本中识别出修饰词和医疗实体，包括以下步骤：

S410、通过医疗实体识别模型的第二双向语言网络层对病历文本中的各字符进行嵌入处理，得到病历文本对应的向量。

S420、通过第二双向长短期记忆网络层对病历文本对应的向量进行特征提取，得到病历文本中各字符的序列标识标签概率。

S430、通过第二条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签。

S440、根据各个字符的序列标识标签对各个字符进行筛选，得到病历文本中的医疗实体。

其中，医疗实体识别模型与修饰词识别模型具有相同的模型架构，如图3b所示，医疗实体识别模型包括依次连接的第二双向语言网络层(BERT，Bidirectional EncoderRepresentations from Transformers)、第二双向长短期记忆网络层(BiLSTM，Bi-directional Long Short-Term Memory)和第二条件随机场(CRF，Conditional RandomField)。本实施例中可以通过NER方法从病历文本中识别医疗实体，NER又称作专名识别，是自然语言处理中的一项基础任务。具体地，将病历文本输入至医疗实体识别模型，通过第二双向语言网络层对病历文本中的各字符进行嵌入(Embedding)处理，第二双向语言网络层输出病历文本对应的向量。第二双向语言网络层的输出作为第二双向长短期记忆网络层的输入，通过第二双向长短期记忆网络层对病历文本对应的向量进行特征提取，第二双向长短期记忆网络层输出病历文本中各字符的序列标识标签概率。第二双向长短期记忆网络层的输出作为第一条件随机场的输入，通过第二条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签。最终，由于各个医疗实体对应有序列标识标签，因此根据各个字符的序列标识标签对病历文本的各个字符进行筛选，得到病历文本中的医疗实体以及医疗实体在病历文本中的位置。

本实施例中，通过依次连接的第二双向语言网络层、第二双向长短期记忆网络层和第二条件随机场从病历文本识别出修饰词，提升了医疗实体识别的准确性，为后续对病历文本进行结构化处理打下良好的基础。

在一个实施例中，医疗实体的识别模型的训练方式，包括：构建第二病历样本集，通过第二病历样本集对医疗实体识别模型进行训练，根据医疗实体识别模型预测的医疗实体序列与第二病历样本确定模型损失值，并反向传播优化医疗实体识别模型的参数。

其中，第二病历样本集中的第二病历样本采用序列标注方式对医疗实体进行标注得到。具体地，如图4b所示，对训练样本使用序列标注方式(BIO)进行标注。其中，B用于标注医疗实体的开头，I用于标注医疗实体本身，O用于标注训练样本中与医疗实体不相关的信息。将第二病历样本集中任一第二病历样本输入至修饰词识别模型进行预测，得到预测的医疗实体序列，根据预测的医疗实体序列以及训练标签计算模型损失值(比如交叉熵)，并反向传播优化医疗实体识别模型的参数。重复以上步骤，利用训练样本集中大量的样本对模型进行迭代训练，直至满足停止训练的条件(比如设置迭代次数以及准确率F值)，得到训练后的医疗实体识别模型。其中，将预测修饰词序列与训练标签进行对比，计算得到预测准确的占比即准确率F1值。示例性地，本实施例中标注了100万字符，且性能要求是F1值为0.9以上。

在一个实施例中，阅读理解模型的训练语料的问句部分采用动态提问的方式，问句部分基于标注的修饰词动态设定。

具体地，如图4c所示，修饰词以否定词为例进行说明，对否定词的否定范围进行标注，标记出否定词否定范围的起、止位置。阅读理解模型采用BERT模型进行训练，示例性的，本实施例中标注6万字符、性能要求F1值大于0.93。如图2d所示，在机器阅读理解的标注语料上，本实施例中采用SQuAD 2.0(Stanford Question Answering Dataset 2.0)的标记方式，对于问题部分采用了动态提问的方式，同样是提问“否定词的否定范围”，第一句针对的是“否认”一词，第二句针对的是“没有”一词。相较于固定提问方式，动态提问的方式可以更大程度的强化BERT的注意机制(attention)作用，在输入端的问句部分中动态嵌入修饰词，这样在语义上可以关联到病历文本中的相关修饰词。如图2d所示的输入层中的token“无”。

在一个实施例中，对修饰词、医疗实体以及分词结果进行融合，得到病历文本的句子表示，包括：根据修饰词以及医疗实体，对分词结果中的重合部分进行剔除，得到病历文本的句子表示。

其中，重合部分包括修饰词与分词结果相同部分以及医疗实体与分词结果相同部分。具体地，利用分词工具对病历文本进行分词处理，得到病历文本对应的分词结果，分词结果包括多个医疗词以及一些非医疗词，还可得到各个医疗词或者非医疗词的词性和位置。从病历文本中识别出修饰词，并得到修饰词在病历文本中的位置。从病历文本中识别出医疗实体，并得到医疗实体在病历文本中的位置。修饰词与分词结果具有相同部分，医疗实体与分词结果具有相同部分。根据修饰词以及医疗实体，对分词结果中的重合部分进行剔除，利用融合结果生成病历文本的句子表示。该句子标识是由识别出的修饰词或识别出的医疗实体构成，修饰词和医疗实体具有各自的标记。

在一个实施例中，句子表示中的医疗实体记为待核实医疗实体。如图5所示，在步骤S250中，根据若干参考医疗实体对句子表示进行结构化处理，得到病历文本对应的具有修饰属性的结构化数据，包括：

S510、将参考医疗实体与待核实医疗实体进行比较。

S520、若待核实医疗实体与参考医疗实体一致，则确定待核实医疗实体属于修饰范围，对待核实医疗实体进行标记。

S530、根据标记后的待核实医疗实体，得到病历文本对应的具有修饰属性的结构化数据。

具体地，通过融合分词结果、修饰词以及医疗实体得到病历文本的句子表示。句子表示中的医疗实体记为待核实医疗实体。通过阅读理解模型已经识别出病历文本中修饰词的修饰范围，且修饰词的修饰范围包括若干个参考医疗实体，将修饰范围内的参考医疗实体与句子表示中的待核实医疗实体进行比较。若待核实医疗实体与参考医疗实体一致，则确定待核实医疗实体属于修饰范围，对待核实医疗实体的修饰属性进行标记。根据标记后的待核实医疗实体，得到病历文本对应的具有修饰属性的结构化数据。

在一个实施例中，提供了一种病历文本处理方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S602、获取病历文本。

S604、通过修饰词识别模型的第一双向语言网络层对病历文本中的各字符进行嵌入处理，得到病历文本对应的向量；修饰词识别模型还包括依次连接的第一双向长短期记忆网络层和第一条件随机场。

S606、通过第一双向长短期记忆网络层对病历文本对应的向量进行特征提取，得到病历文本中各字符的序列标识标签概率。

S608、通过第一条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签。

S610、根据各个字符的序列标识标签对各个字符进行筛选，得到病历文本中的修饰词。

S612、通过医疗实体识别模型的第二双向语言网络层对病历文本中的各字符进行嵌入处理，得到病历文本对应的向量。

其中，医疗实体识别模型还包括第二双向长短期记忆网络层和第二条件随机场。

S614、通过第二双向长短期记忆网络层对病历文本对应的向量进行特征提取，得到病历文本中各字符的序列标识标签概率。

S616、通过第二条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签。

S618、根据各个字符的序列标识标签对各个字符进行筛选，得到病历文本中的医疗实体。

S620、对病历文本进行分词，得到对应的分词结果。

S624、对修饰词、医疗实体以及分词结果进行融合，得到病历文本的句子表示。

其中，句子表示中的医疗实体记为待核实医疗实体。具体地，根据修饰词以及医疗实体，对分词结果中的重合部分进行剔除，得到病历文本的句子表示。其中，重合部分包括修饰词与分词结果相同部分以及医疗实体与分词结果相同部分。

S626、将基于修饰词构造的修饰范围问句与病历文本输入至阅读理解模型，确定修饰词在病历文本中的修饰范围。

其中，修饰范围包括若干参考医疗实体。

S628、将参考医疗实体与待核实医疗实体进行比较。

S630、若待核实医疗实体与参考医疗实体一致，则确定待核实医疗实体属于修饰范围，对待核实医疗实体进行标记。

S632、根据标记后的待核实医疗实体，得到病历文本对应的具有修饰属性的结构化数据。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种病历文本处理装置600，包括：

文本获取识别模块610，用于获取病历文本，并从所述病历文本中识别出修饰词和医疗实体；

文本分词模块620，用于对所述病历文本进行分词，得到对应的分词结果；

融合模块630，用于对所述修饰词、所述医疗实体以及所述分词结果进行融合，得到所述病历文本的句子表示；

文本理解模块640，用于将基于所述修饰词构造的修饰范围问句与所述病历文本输入至阅读理解模型，确定所述修饰词在所述病历文本中的修饰范围；所述修饰范围包括若干参考医疗实体；

结构处理模块650，用于根据所述若干参考医疗实体对所述句子表示进行结构化处理，得到所述病历文本对应的具有修饰属性的结构化数据。

在一个实施例中，文本获取识别模块610，还用于通过修饰词识别模型的第一双向语言网络层对所述病历文本中的各字符进行嵌入处理，得到所述病历文本对应的向量；所述修饰词识别模型还包括依次连接的第一双向长短期记忆网络层和第一条件随机场；通过所述第一双向长短期记忆网络层对所述病历文本对应的向量进行特征提取，得到所述病历文本中各字符的序列标识标签概率；通过所述第一条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签；根据各个字符的序列标识标签对各个字符进行筛选，得到所述病历文本中的修饰词以及所述修饰词在病历文本中的位置。

在一个实施例中，该装置还包括第一模型训练模块，用于构建第一病历样本集，所述第一病历样本集中的第一病历样本采用序列标注方式对修饰词进行标注得到；通过所述第一病历样本集对所述修饰词识别模型进行训练，根据所述修饰词识别模型预测的修饰词序列与所述第一病历样本确定模型损失值，并反向传播优化所述修饰词识别模型的参数。

在一个实施例中，文本获取识别模块610，还用于通过医疗实体识别模型的第二双向语言网络层对所述病历文本中的各字符进行嵌入处理，得到所述病历文本对应的向量；所述医疗实体识别模型还包括第二双向长短期记忆网络层和第二条件随机场；通过所述第二双向长短期记忆网络层对所述病历文本对应的向量进行特征提取，得到所述病历文本中各字符的序列标识标签概率；通过所述第二条件随机场对各字符的序列标识标签概率进行约束计算，得到各个字符的序列标识标签；根据各个字符的序列标识标签对各个字符进行筛选，得到所述病历文本中的医疗实体以及所述医疗实体在病历文本中的位置。

在一个实施例中，该装置还包括第二模型训练模块，用于构建第二病历样本集，所述第二病历样本集中的第二病历样本采用序列标注方式对医疗实体进行标注得到；通过所述第二病历样本集对所述医疗实体识别模型进行训练，根据所述医疗实体识别模型预测的医疗实体序列与所述第二病历样本确定模型损失值，并反向传播优化所述医疗实体识别模型的参数。

在一个实施例中，所述阅读理解模型的训练语料的问句部分采用动态提问的方式，所述问句部分基于标注的修饰词动态设定。

在一个实施例中，融合模块630，还用于根据所述修饰词以及所述医疗实体，对所述分词结果中的重合部分进行剔除，得到所述病历文本的句子表示；所述重合部分包括所述修饰词与所述分词结果相同部分以及所述医疗实体与所述分词结果相同部分。

在一个实施例中，所述句子表示中的医疗实体记为待核实医疗实体；结构处理模块650，还用于将所述参考医疗实体与所述待核实医疗实体进行比较；若所述待核实医疗实体与所述参考医疗实体一致，则确定所述待核实医疗实体属于所述修饰范围，对所述待核实医疗实体进行标记；根据标记后的待核实医疗实体，得到所述病历文本对应的具有修饰属性的结构化数据。

关于病历文本处理装置的具体限定可以参见上文中对于病历文本处理方法的限定，在此不再赘述。上述病历文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种病历文本处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述实施例中的方法步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的方法步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种病历文本处理方法，其特征在于，所述方法包括：

对所述病历文本进行分词，得到对应的分词结果；

2.根据权利要求1所述的方法，其特征在于，所述从所述病历文本中识别出修饰词和医疗实体，包括：

3.根据权利要求2所述的方法，其特征在于，所述修饰词识别模型的训练方式，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述从所述病历文本中识别出修饰词和医疗实体，包括：

5.根据权利要求4所述的方法，其特征在于，所述医疗实体的识别模型的训练方式，包括：

6.根据权利要求5所述的方法，其特征在于，所述阅读理解模型的训练语料的问句部分采用动态提问的方式，所述问句部分基于标注的修饰词动态设定。

7.根据权利要求1所述的方法，其特征在于，所述对所述修饰词、所述医疗实体以及所述分词结果进行融合，得到所述病历文本的句子表示，包括：

8.根据权利要求1所述的方法，其特征在于，所述句子表示中的医疗实体记为待核实医疗实体；所述根据所述若干参考医疗实体对所述句子表示进行结构化处理，得到所述病历文本对应的具有修饰属性的结构化数据，包括：

将所述参考医疗实体与所述待核实医疗实体进行比较；

9.一种病历文本处理装置，其特征在于，所述装置包括：

结构处理模块，用于根据所述若干参考医疗实体对所述句子表示进行结构化处理，得到所述病历文本对应的具有修饰属性的结构化数据。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。