CN114420233A

CN114420233A - 一种中文电子病历后结构化信息的抽取方法

Info

Publication number: CN114420233A
Application number: CN202210052810.6A
Authority: CN
Inventors: 蒋雪晴; 杜金莲; 高红雨; 张潇; 张津丽
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-29

Abstract

本发明公开了一种中文电子病历后结构化信息的抽取方法，首先使用BERT模型对含有不同症状实体修饰成分的句子进行分类，然后利用现有的命名实体识别模型对每类句子中的症状实体做不同类别的标注，达到识别实体修饰成分的目的。提出基于规则的中文电子病历中症状实体属性值的特征化抽取方法。通过总结病历文本症状语义段的行文规则，形成属性值的抽取模板，将抽取到属性值存储到数据库中。本发明基于现有的病历文本抽取技术成果，深入分析病历文本的行文规则，对已经完成分词和标注的症状语义段进行实体修饰识别和特征化的属性值抽取，能为后续的上层应用提供结构化的数据支持。

Description

一种中文电子病历后结构化信息的抽取方法

技术领域

本发明涉及自然语言处理技术领域，涉及一种基于深度学习和规则的中文电子病历后结构化信息抽取方法。

背景技术

近年来，信息技术的迅猛发展推动了医院的信息化建设，越来越多的中文电子病历(Electronic Medical Record,EMR)取代了传统纸质病历。电子病历作为医疗活动过程中产生的重要临床信息资源，包含了海量的与患者健康状况密切相关的医疗知识，如何将这些知识从非结构化的病历文本中抽取出来，是临床医疗信息处理技术的首要任务，也是病历文本信息抽取的主要内容。病历文本结构化信息抽取技术是使用自然语言处理相关技术手段，结合病历文本的独有特征，将文本中的症状、检查、治疗和疾病等实体及其属性抽取出来的一种技术。该技术能够为医疗知识图谱构建、辅助诊断等上层应用提供数据支撑，进而推动我国医疗事业的发展。

目前，针对中文电子病历结构化抽取的研究大多集中在命名实体识别和实体关系抽取以及命名实体修饰识别等方面。命名实体识别的方法主要有基于规则与词典的方法、传统机器学习方法和深度学习方法等，三种方法各有优劣，目前较为主流的方法的是基于深度学习的BiLSTM+CRF序列标注模型，其具有自动提取序列特征和捕捉双向语义信息的强大功能，显著提高了命名实体识别的精度；实体关系抽取的方法主要有共现分析法、传统机器学习方法和深度学习方法等，其中，引入Attention机制的基于RNN的深度学习方法在最近的测评任务中取得了较好的排名。然而，上述两种信息抽取技术仅实现了对医疗实体的标注或对实体间的关系的分类，而无法抽取出实体的各类属性值，例如无法抽取出症状实体的开始时间、持续时间、严重程度、伴随症状、无症状说明等属性。在命名实体修饰识别方面，相对于英文电子病历来说，中文电子病历在此方面的研究较少，Zhang等(Medicalassertion classification in Chinese EMRs using attention enhancedneuralnetwork,2019,Mathematical Biosciences and Engineering,1966-1977)将CNN与GRU进行结合，获取字符级别和句子级别的表征，取得了一定的效果，但仍有较大的优化空间，因此，在命名实体修饰识别方面亟待更多的研究。

可以看出，现有的中文电子病历信息抽取技术更多着眼于命名实体识别和实体关系抽取等文本处理方面，而在实体修饰别和特征化抽取方面存在一定的不足。

发明内容：

针对现有信息抽取技术无法完全实现中文病历文本特征化抽取的问题，本发明深入研究中文电子病历的行文特点和规则，提出一种基于深度学习和规则的中文电子病历后结构化信息抽取方法，对已经完成分词和实体标注的症状语义段进行症状实体修饰成分的识别，并抽取出症状实体的各类属性，实现症状实体的结构化表达。

本发明包括两个部分：

第一项发明内容是提出中文电子病历中症状实体的修饰成分识别方法。首先使用BERT模型对含有不同症状实体修饰成分的句子进行分类，然后利用现有的命名实体识别模型对每类句子中的症状实体做不同类别的标注，达到识别实体修饰成分的目的。

第二项发明内容是提出基于规则的中文电子病历中症状实体属性值的特征化抽取方法。症状实体共六个属性：当前症状、开始时间、持续时间、严重程度、伴随症状和否认症状等，通过总结病历文本症状语义段的行文规则，形成属性值的抽取模板，将抽取到属性值存储到数据库中。

本发明方法的具体步骤如下：

步骤一：对句子分类

使用BERT(Bidirectional EncoderRepresentation from Transformers)模型对句子进行分类，分别得到包含主要症状实体、伴随症状实体和否认症状实体的三类句子。

步骤二：分词和命名实体标注

利用现有的中文电子病历分词系统和命名实体识别系统对病历文本进行分词和实体标注。

步骤三：编写规则修正标注结果

总结症状实体的属性值在病历文本中的位置分布和表达规律，设计规则模板对步骤二的标注结果进行修正，提高属性抽取的精度。

步骤四：命名实体修饰识别

根据步骤一获得的句子分类结果和步骤三获得的实体标注结果，对不同类句子中的症状实体做标签替换，实现症状实体修饰的识别。

步骤五：对每条病历文本以“开始时间”为分割点进行文本分块；

步骤六：抽取属性并存储至数据库。

作为优选，步骤一中BERT是一种预训练语言表示模型，其主要结构是双向Transformer编码器，模型输入由原始序列的词嵌入和位置编码加和后得到，输入序列首先经过多头自注意力(Multi-headed Self-attention)机制层(head数量为12)，使序列中的每个词可以学习到其在当前上下文中的多重语义；然后，注意力机制层的输出经过残差连接和层归一化处理后输入到前馈神经网络中；最后，前馈网络的输出再进行一次残差连接和层归一化得到输出序列，至此，完成了一个Transformer编码器的运行。将12个Transformer编码器逐层堆叠起来构成BERT模型，每个编码器的输入是前一个编码器的输出，最后一个编码器的输出即BERT模型输出的文本特征表达。

作为优选，步骤三设计了一系列的规则模板，以修正病历文本中属性值的标注结果。规则主要分为三类——第一类：合并规则，该类规则主要是为了解决原标注结果中完整的语义片段被过度分词并标注的问题，规则列举如表1。

表1合并规则的内容和举例

第二类：分类规则，该类规则主要是为了解决原标注结果中“开始时间”和“持续时间”的标注标签相同的问题，规则列举如表2。

表2分类规则的内容和举例

规则编号	规则内容
		Regex6	持续.([\u4e00-\u9fa7]U)[0-9]-？[0-9]*[\u4e00-\u9fa7]+P
Regex7	[0-9]-？[0-9][\u4e00-\u9fa7]+P([\u4e00-\u9fa7]+U)*缓解

第三类：否定规则，该类规则主要是为了解决病历文本中“身体部位”与“症状”两类实体被否定词分隔的问题，规则列举如表3。

表3否定规则的内容和举例

作为优选，步骤四根据步骤一获得的句子分类结果和步骤三获得的实体标注结果，分别将句子标签为1、2的句子中的症状实体标签S替换为DS、AS，从而将症状实体分为主要症状、伴随症状、否认症状等三类实体。

作为优选，步骤五对每条病历文本以“开始时间”为分割点进行文本分块，如果病人存在多个出现在不同时间的症状，通过该步操作将得到多个文本块，每个文本块将在下一步骤中被抽取为一条记录，对应一个时间的症状属性。

作为优选，步骤六利用上述步骤得到的标注结果抽取症状实体的各类属性，将抽取结果保存至数据库，数据库表的字段共8个：id、patientId、symptom、startTime、duration、degree、accSymptom和denSymptom，其中id是数据库表的主键，patientId用于识别各条记录是否归属于同一个病人，symptom字段存储病历文本中标注标签为S的语义片段、startTime字段存储病历文本中标注标签为P或TP或SS的语义片段，之后的4个字段分别存储病历文本中标签为DP、HL或LL、AS、DS的语义片段。

本发明基于现有的病历文本抽取技术成果，深入分析病历文本的行文规则，对已经完成分词和标注的症状语义段进行实体修饰识别和特征化的属性值抽取，能为后续的上层应用提供结构化的数据支持。

附图说明

图1为本发明一个实施例的中文电子病历后结构化信息抽取方法的流程图；

图2a为本发明一个实施例BERT的模型结构图；

图2b为本发明一个实施例Transformer编码器的模型结构图。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

鉴于以上所述的现有信息抽取技术无法完全实现病历文本特征化抽取的问题，本发明深入研究中文电子病历的行文特点和规则，提出一种基于深度学习和规则的中文电子病历后结构化信息抽取方法。下面结合图1，说明根据本发明一个实施例的中文电子病历后结构化信息抽取方法示例。

图1示出了根据本发明一个实施例的中文电子病历后结构化信息抽取方法的流程图。如图1所示，根据本发明一个实施例的中文电子病历后结构化信息抽取方法包括文本处理模块、标注结果修正模块、实体修饰识别模块以及属性抽取模块，它们的功能如下：文本处理模块通过BERT模型实现句子分类，并利用现用的中文电子病历分词系统和命名实体识别系统对病历文本进行分词和实体标注，BERT模型及其主体结构Transformer编码器的模型结构图分别如图2a、图2b所示；标注结果修正模块通过三类规则模板对原标注结果进行修正；实体修饰识别模块利用句子分类结果和修正后的标注结果，通过替换症状实体标签的方式得到三类具有不同修饰成分的症状实体；属性抽取模块先按照症状开始时间的不同对病历文本进行分块，然后综合修正后的标注结果和实体修饰识别的结果，进行症状实体的属性抽取。

本发明实施例的一种中文电子病历后结构化信息抽取方法，包括以下步骤：

步骤一：对句子分类

步骤二：分词和命名实体标注

步骤三：编写规则修正标注结果

步骤四：症状实体修饰识别

根据步骤一获得的句子分类结果和步骤三获得的实体标注结果，对不同类句子中的症状实体做标注标签的替换，实现症状实体修饰的识别。

步骤六：抽取属性并存储至数据库。

作为优选，步骤一中BERT是一种预训练语言表示模型，其主要结构是双向Transformer编码器，模型输入由原始序列的词嵌入和位置编码加和后得到，输入序列首先经过多头自注意力(Multi-headed Self-attention)机制层(head数量为12)，使序列中的每个词可以学习到其在当前上下文中的多重语义；然后，注意力机制层的输出经过残差连接和层归一化处理后输入到前馈神经网络中；最后，将前馈网络的输出再进行一次残差连接和层归一化得到输出序列，至此，完成了一个Transformer编码器的运行。将12个Transformer编码器逐层堆叠起来构成BERT模型，每个编码器的输入是前一个编码器的输出，最后一个编码器的输出即BERT模型输出的文本特征表达。

使用BERT模型的句子分类任务通过“预训练一微调(Pre-Training andFine-Tuning)”两个过程来实现。预训练过程利用大规模未标注过的文本语料进行自监督训练，形成预训练模型，预训练过程由谷歌公司完成并发布预训练模型。微调过程使用预训练模型的参数作为模型的初始化参数，输入人工标注好的数据集，对参数进行微调，完成模型的进一步拟合与收敛。该任务中的句子标签有三种：0、1、2，分别表示含主要症状实体的句子、含否认症状实体的句子、含伴随症状实体的句子，例如“右侧大脑中动脉起始段管腔狭窄”的句子标签为0，“双肾未见占位”的句子标签为1，“伴双下肢水肿”的句子标签为2。

步骤二中的命名实体识别系统标注出人体部位、症状、药物、疾病、时间、否定词、严重程度等17种词类别，其中与症状实体相关的词标签类别有9种：症状(S)、人体部位(BP)、时间点(TP)、时间段(P)、具体情景(SS)、否定词(A)、高程度(HL)、低程度(LL)、无具体类别(U)。

步骤三设计了一系列的规则模板，以修正病历文本中属性值的标注结果。规则主要分为三类——第一类：合并规则，规则内容和举例如表4所示。该类规则主要是为了解决原标注结果中完整的语义片段被过度分词并标注的问题，对于规则识别出的语义片段，仅保留最后一个标签，而将片段内的其他标签和空格删除，实现将片段内各个词合并成一个整体的目的。

表4合并规则的内容和举例

第二类：分类规则，规则内容和举例如表5所示。该类规则主要是为了解决原标注结果中“开始时间”和“持续时间”的标注标签相同的问题，由规则识别出的语义片段中的时间均为“持续时间”，将其中的P标签替换为表示持续时间的新标签DP，达到了区分“开始时间”和“持续时间”的目的。

表5分类规则的内容和举例

第三类：否定规则，规则内容和举例如表6所示。该类规则主要是为了解决病历文本中“身体部位”与“症状”两类实体被否定词分隔的问题，对于该规则识别出的语义片段，将否定词前移，并利用Regex5将“身体部位”与“症状”两类实体合并。

表6否定规则的内容和举例

步骤四根据步骤一获得的句子分类结果和步骤三获得的实体标注结果，分别将句子标签为1、2的句子中的症状实体标签S替换为DS、AS，从而将症状实体分为主要症状(S)、伴随症状(DS)、否认症状(AS)等三类实体。例如句子“双肾未见占位”中的症状实体“双肾占位”，其标注标签由S被替换成“DS”，表示否认症状；“伴双下肢水肿”中的症状实体“双下肢水肿”，其标注标签由S被替换成“AS”，表示伴随症状。

步骤五对每条病历文本以“开始时间”为分割点进行文本分块，如果病人存在多个出现在不同时间的症状，通过该步操作将得到多个文本块，每个文本块将在下一步骤中被抽取为一条记录，对应一个时间的症状属性。如针对某段病历文本“患者22年前体检时发现空腹血糖升高，伴有烦渴、多饮、多尿症状。……9年前开始间断出现四肢麻木、发凉、左足疼痛等，……3年前患者反复出现心慌、出汗等低血糖症状……”，以“22年前”、“9年前”、“3年前”为分割点进行文本分块，然后从每块文本中抽取出一条对应该时间的记录。

步骤六利用上述步骤得到的标注结果抽取症状实体的各类属性，将抽取结果保存至数据库，数据库表的字段共8个：id、patientId、symptom、startTime、duration、degree、accSymptom和denSymptom，其中id是数据库表的主键，patientId用于识别各条记录是否归属于同一个病人，symptom字段存储病历文本中标注标签为S的语义片段、startTime字段存储病历文本中标注标签为P或TP或SS的语义片段，之后的4个字段分别存储病历文本中标签为DP、HL或LL、AS、DS的语义片段。

上面已经参考附图对本发明实施例的中文电子病历后结构化信息抽取方法进行了详细描述，如前所述，本发明通过研究中文电子病历的行文特点和规则，利用深度学习和规则模板的方法进行中文电子病历后结构化的信息抽取，解决了现有信息抽取技术无法实现病历文本特征化抽取的问题。

但是，需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种中文电子病历后结构化信息的抽取方法，其特征在于：实现该方法的具体步骤如下：

步骤一：对句子分类；

使用BERT模型对句子进行分类，分别得到包含主要症状实体、伴随症状实体和否认症状实体的三类句子；

步骤二：分词和命名实体标注；

利用现有的中文电子病历分词系统和命名实体识别系统对病历文本进行分词和实体标注；

步骤三：编写规则修正标注结果；

总结症状实体的属性值在病历文本中的位置分布和表达规律，设计规则模板对步骤二的标注结果进行修正，提高属性抽取的精度；

步骤四：命名实体修饰识别；

根据步骤一获得的句子分类结果和步骤三获得的实体标注结果，对不同类句子中的症状实体做标签替换，实现症状实体修饰的识别；

步骤六：抽取属性并存储至数据库。

2.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法，其特征在于：步骤一中BERT是一种预训练语言表示模型，其主要结构是双向Transformer编码器，模型输入由原始序列的词嵌入和位置编码加和后得到，输入序列首先经过多头自注意力机制层，head数量为12，使序列中的每个词可以学习到其在当前上下文中的多重语义；然后，注意力机制层的输出经过残差连接和层归一化处理后输入到前馈神经网络中；最后，前馈网络的输出再进行一次残差连接和层归一化得到输出序列，完成一个Transformer编码器的运行；将12个Transformer编码器逐层堆叠起来构成BERT模型，每个编码器的输入是前一个编码器的输出，最后一个编码器的输出即BERT模型输出的文本特征表达。

3.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法，其特征在于：步骤三设计了一系列的规则模板，以修正病历文本中属性值的标注结果；规则主要分为三类——第一类：合并规则，该类规则主要是为了解决原标注结果中完整的语义片段被过度分词并标注的问题；

第二类：分类规则，该类规则是为了解决原标注结果中“开始时间”和“持续时间”的标注标签相同的问题；

第三类：否定规则，该类规则主要是为了解决病历文本中“身体部位”与“症状”两类实体被否定词分隔的问题。

4.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法，其特征在于：步骤四根据步骤一获得的句子分类结果和步骤三获得的实体标注结果，分别将句子标签为1、2的句子中的症状实体标签S替换为DS、AS，从而将症状实体分为主要症状、伴随症状、否认症状等三类实体。

5.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法，其特征在于：步骤五对每条病历文本以“开始时间”为分割点进行文本分块，如果病人存在多个出现在不同时间的症状，通过该步操作将得到多个文本块，每个文本块将在下一步骤中被抽取为一条记录，对应一个时间的症状属性。

6.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法，其特征在于：步骤六利用上述步骤得到的标注结果抽取症状实体的各类属性，将抽取结果保存至数据库，数据库表的字段共8个：id、patientId、symptom、startTime、duration、degree、accSymptom和denSymptom，其中id是数据库表的主键，patientId用于识别各条记录是否归属于同一个病人，symptom字段存储病历文本中标注标签为S的语义片段、startTime字段存储病历文本中标注标签为P或TP或SS的语义片段，之后的4个字段分别存储病历文本中标签为DP、HL或LL、AS、DS的语义片段。