CN113343680A

CN113343680A - 一种基于多类型病历文本的结构化信息提取方法

Info

Publication number: CN113343680A
Application number: CN202110548210.4A
Authority: CN
Inventors: 彭苏婷; 温涛; 于丹
Original assignee: Dalian Neusoft Education Technology Group Co ltd
Current assignee: Dalian Neusoft Education Technology Group Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-09-03
Anticipated expiration: 2041-05-19
Also published as: CN113343680B

Abstract

本发明公开了一种基于多类型病历文本的结构化信息提取方法，包括：S1:确定病历类型，将获得的文本数据进行预处理以去除冗余信息后，通过文本相似度匹配的方法，判断病历的类型；S2:结构化信息提取，从医疗数据库中获取特定病历类型需要提取的属性列表，根据属性列表设置实体类别，并对文本数据中的实体进行标注构建命名实体识别数据集，通过算法进行训练以获得可能有用的实体，最后设定规则提取实体或其对应的值。S3:审核保存，将提取结果交由医生进行审核。本发明可以将传统的半结构化病历转换成结构化信息，提取并存储其中的重要信息，会更加便于医生快速浏览、阅读和查找病历，同时也便于后续的数据挖掘和深度利用。

Description

一种基于多类型病历文本的结构化信息提取方法

技术领域

本发明涉及结构化信息提取技术领域，尤其涉及一种基于多类型病历文本的结构化信息提取方法。

背景技术

近年来，随着医疗信息化产业的发展，以电子病历为代表的文本数据规模也呈现出了高速增长的趋势。电子病历因其便于共享、传输效率高、使用方便、便于管理、成本不高等各个方面的优点逐渐取代了传统的纸质病历。目前，在各个医院系统中存储的病历多为半结构化的，虽然大多包含了病人的基本信息、疾病诊断、检查结果、治疗状况等内容，但是其描述的复杂程度则是大不相同的，这为医生浏览病历增加了时间、人力成本。因此，如果能够将病历转换成结构化信息，提取并显示、存储其中的重要信息，会更加便于医生快速浏览、阅读和查找病历，同时也便于后续的数据挖掘和深度利用。目前的一些病历结构化信息提取方法多是针对某种特定类型(或疾病)，而在实际应用中，针对于不同部位的相同检查、同一部位不同检查获得的文本描述差异巨大，需要提取的内容也各有不同，现有技术中的病历结构化大多是针对实体间关系提取，例如提取的实体关系包括“某检查发现某种症状”、“某治疗施加于某种疾病”、“某治疗改善某种疾病”等等，而关于重要属性的提取，例如“肿块位置”、“肿块大小”、“乳腺构成”等则是研究较少，医生可能需要花费很多的时间在文本的查找和阅读上，同时也不利于后续的数据挖掘与分析。

发明内容

根据现有技术存在的问题，本发明公开了一种基于多类型病历文本的结构化信息提取方法，具体包括如下步骤：

获取原始病历信息并对其进行预处理，包括去除冗余信息和清洗异常数据、异常值，再将该病历与数据库中的模板病历进行文本相似度匹配，获得该病历与每个模板的相似度从而确定病历类型；

从医疗数据库中获取病历需要提取的属性列表，根据属性列表设置实体类别，并对文本数据中的实体进行标注构建命名实体识别数据集，采用深度学习算法对识别模型进行训练，将命名实体识别数据集输入至完成训练的识别模型以获得有价值的实体，对不同的实体构建相应的提取规则筛选有用实体或提取实体对应的值；

对获得的结构化提取结果进行审核，如果审核通过则直接进行保存，如果审核不通过则手动修改后再继续保存。

进一步的，根据病历类型从医疗数据库中获取相应的需要提取的属性列表；

根据每个类型的病历需要提取的属性，设置实体类别，并以此实体类别作为依据对病历数据进行标注获得带标签的数据集；

将带标签的数据集输入至识别模型进行训练，利用训练好的识别模型对病历数据进行命名实体识别，从而得到有价值的实体；

对不同类别的实体构建相应的提取规则从而筛选有用实体或提取实体对应的值。

由于采用了上述技术方案，本发明提供了一种基于多类型病历文本的结构化信息提取方法，该方法可以将传统的半结构化病历转换成结构化信息，提取并存储其中的重要信息，会更加便于医生快速浏览、阅读和查找病历，大大减少了医生的工作量，同时也便于后续的数据挖掘和深度利用；本发明的重要属性提取与其他发明的关系提取有着很大不同，两者可以互为补充，使得对病历的提取更加充分、完整；本发明的模型能够持续迭代升级，可以通过扩充命名实体识别数据集来使模型的精度不断提高，同时也可不断增加可识别的病历类型。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图；

图2为本发明方法中结构化信息提取过程的流程图；

图3为本发明中具体实施例的示意图；

图4为本发明中BiLSTM-CRF算法示意图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于多类型病历文本的结构化信息提取方法，具体步骤包括：

步骤1确定病历类型

获取原始病历信息，进行数据预处理，包括去除空白(空格、空行等)、去除重复内容，以去除冗余的信息，并对异常数据、异常值进行清洗。另外，由于医生的书写习惯不同，对于同一属性的描述存在着差异，例如关于肿块大小的描述，可能有“14mm*11mm”，“28mmX27mm”，“18mmx17mm”等，因此，需要对文本中的一些特殊字符和符号统一格式。预处理完成后，将其与数据库中的模板病历进行文本相似度匹配，获得病历与每个模板的相似度，从而确定病历类型。

步骤2结构化信息提取

从医疗数据库中获取特定病历类型需要提取的属性列表，根据属性列表设置实体类别，并对文本数据中的实体进行标注构建命名实体识别数据集，使用算法训练数据集以获得可能有用的实体，最后设定规则提取实体或其对应的值。流程图如图2至图3所示。

步骤2.1获得待提取属性列表

经过第一步处理之后，可以得到预处理之后的病历数据以及病历类型，根据病历类型从医疗数据库获取相应的需要提取的属性列表。

步骤2.2构建命名实体识别数据集

根据每个类型的病历需要提取的属性，设置实体类别，并以此作为依据对病历数据进行标注。实体一般指的是文本中具有特定意义或者指代性比较强的词语，在自然语言处理中一般包括人名、地名、组织名称、时间等等。在医学领域一般包括疾病名称、药物名称、手术治疗等医学名词。其中，实体类别是与病历类型息息相关的，特别是病历中需要结构化提取的属性，此外，还可以参考国际疾病标准分类编码ICD-10、中文医学主题词表(Chinese Medical Subject Headings,CMeSHs)，该表主要收录了临床医学、药学、流行病学等各个领域的专业医疗主题词。

步骤2.3利用算法训练数据集

获得带标签的数据集后，将其作为命名实体识别算法的输入进行训练，相关的算法有很多种，主要包括三大类：早期的方法，基于规则、字典等自定义方法；传统的机器学习方法，基于HMM、MEMM、CRF等统计的方法；深度学习方法，包括RNN、LSTM、CNN、注意力模型等，算法经过训练后可以得到识别模型，利用模型对病历数据进行命名实体识别，从而得到可能有用的实体。

步骤2.4设定规则提取实体或其对应的值

在进行命名实体识别之后，通过对不同类别的实体构建相应的提取规则可以筛选有用实体或者提取实体对应的值。首先，对病历文本进行句子分割，根据中文中常见的分句符号：“。”、“；”、“！”等将文本分为多个句子；然后，以句子为单位设定提取规则。

步骤3审核保存

获得结构化提取结果后，将其提交给医生进行审核，如果审核通过则直接进行保存；如果审核不通过，则医生可以手动进行修改，最后再保存。

实施例：

步骤1：确定病历类型实施例

获取原始病历信息，进行数据预处理，包括去除空白(空格、空行等)、去除重复病历，以去除冗余的信息，并对异常数据、异常值进行清洗。另外，由于医生的书写习惯不同，对于同一属性的描述存在着差异，例如关于肿块大小的描述，可能有“14mm*11mm”，“28mmX27mm”，“18mmx17mm”等，因此，需要对文本中的一些特殊字符和符号统一格式。得到预处理数据后，将其与数据库中的模板病历进行文本相似度匹配，可以利用关键词匹配、计算余弦相似度等方法获得病历与每个模板的相似度，从而输出病历类型。

步骤2：结构化信息提取实施例

从医疗数据库中获取病历需要提取的属性列表，根据属性列表设置实体类别，并对文本数据中的实体进行标注构建命名实体识别数据集，通过算法进行训练以获得可能有用的实体，最后设定规则提取实体或其对应的值。

步骤2.1获得待提取属性列表

经过步骤1处理之后，可以得到预处理之后的病历数据以及病历类型，根据病历类型从医疗数据库获取相应的需要提取的属性列表。

步骤2.2构建命名实体识别数据集

根据每个类型的病历需要提取的属性，设置实体类别，并对文本中出现的符合要求的实体进行标注。以乳腺X线类型的病历为例，按照需要提取的信息，可以将实体划分为三大类：关键词类、直接提取类、规则提取类，每一大类中又包含多个小类，例如位置、构成、密度、边界、象限等类别。关键词类实体的功能是定位，可以判断句子中是否可能包含需要提取的内容；直接提取类是指文本中出现即可提取的实体，例如“双侧乳腺实质呈不均匀致密型”这句话中，“不均匀致密型”是一个“构成”实体，那么可以直接将这个实体提取为“乳腺构成”这一属性的值。规则提取类是指不能直接提取，而是要设定规则提取的实体。例如“左乳可见肿块”和“左侧腋下可见淋巴结影”这两个句子中，“左乳”和“左侧腋下”均可被识别为“位置”实体，但是待提取的属性是“肿块位置”，因此要设定规则，当句子中存在关键词类实体“肿块”时，才提取“位置”实体，最终提取到“左乳”。

步骤2.3利用算法训练数据集

获得带标签的数据集后，将其作为命名实体识别算法的输入进行训练，相关的算法有很多种，本实施例使用LSTM、BiLSTM、BiLSTM-CRF算法进行了对比实验，数据集使用乳腺X线文本，训练结果(设置相同的轮数)如表1所示。BiLSTM-CRF算法的结构如图4所示，给定输入句子“左乳可见肿块”，泛化后表示为输入x＝{x₁,x₂,x₃,x₄,x₅,x₆}，经过embedding之后，每个x_i被转换为e_i，得到e＝{e₁,e₂,e₃,e₄,e₅,e₆}，e_i进入前向LSTM处理后可得到f_i，进而得到序列f＝{f₁,f₂,f₃,f₄,f₅,f₆}，e_i进入后向LSTM处理后得到b_i，序列b＝{b₁,b₂,b₃,b₄,b₅,b₆}，而后f_i、b_i进行并联处理后得到c_i向量，进而得到序列c＝{c₁,c₂,c₃,c₄,c₅,c₆}，此序列进入CRF层进行优化，得到最终每个字被标注为某个标签的概率，取最大概率对应的标签。LSTM算法经过embedding和单向LSTM处理后计算得出每个字对应的标签；BiLSTM算法经过embedding和双向LSTM处理后得到标签。从表1的结果可以看出，与单向LSTM对比，双向LSTM能够很大程度地提升标注效果，使用CRF进行后处理也能够略微提升结果。这是因为BiLSTM-CRF可以提取到每个字与前后字之间的关系，同时也可以进行后处理添加一些约束，使得标注的正确率更高。

表1命名实体识别训练结果

	Precision	Recall	F1
				LSTM	91.90	95.15	93.50
BiLSTM	95.63	96.47	96.05
				BiLSTM-CRF	96.19	96.62	96.40

步骤2.4设定规则提取实体或其对应的值

在进行命名实体识别之后，通过对不同类别的实体构建相应的提取规则可以筛选有用实体或者提取实体对应的值。首先，对病历文本进行句子分割，根据中文中常见的分句符号：“。”、“；”、“！”等将文本分为多个句子；然后，以句子为单位设定提取规则，最后获得结构化信息。

步骤3：审核保存实施例

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多类型病历文本的结构化信息提取方法，其特征在于包括：

2.根据权利要求1所述的基于多类型病历文本的结构化信息提取方法，其特征在于：

根据病历类型从医疗数据库中获取相应的需要提取的属性列表；