CN114417836A

CN114417836A - 一种基于深度学习的中文电子病历文本语义分割方法

Info

Publication number: CN114417836A
Application number: CN202210052863.8A
Authority: CN
Inventors: 艾彭磊; 杜金莲; 金雪云; 张潇; 张津丽
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-29

Abstract

本发明公开了一种基于深度学习的中文电子病历文本语义分割方法，主要包括语义字典构建及文本语义特征向量表示、整体特征融合、深度神经网络训练以及预测优化部分。利用预训练语言模型表示文本上下文语义特征，并加入了字符语义位置特征，将融合后的整体特征输入到深度神经网络中进行模型训练。相比于现有的语义分割技术，本发明构建字符间融合全局的上下文语义特征，捕获并学习序列每个字符的语义类别特性，最后找到每个字符的最佳语义类别标签，从而实现精细化的文本语义分割，在数据集较小情况下实现了文本语义分割较高的准确性，发展了EMR文本语义分割的新方法。

Description

一种基于深度学习的中文电子病历文本语义分割方法

技术领域

本发明涉及自然语言处理领域的一种基于深度学习的文本语义分割方法，属于医疗文本数据挖掘技术领域，特别是涉及一种中文电子病历文本语义分割方法。

背景技术

当前，以深度学习为主的方法促进了自然语言处理技术的不断发展，并且已经成功应用于包括文本分类、人机对话、智能服务、文本翻译和自然语言推理等典型场景，帮助我们理解、处理自然语言与文本，获取到大量有价值的信息。

随着自然语言处理技术与医学的深度融合，智慧医疗在临床辅助诊疗、医疗数据挖掘、疾病风险评估上取得了一系列新的成果。这些成果使用的新方法高度依赖海量的真实、准确、可靠的结构化诊疗数据。病历蕴含了大量的专业医疗知识，但是，临床电子病历通常设计时以记录为主，而不是面向科学研究，临床的数据被原原本本地记录下来，但却并没有针对信息做面向研究和应用的加工处理，医院无法直接使用电子病历中的信息、更无法使其服务于临床诊疗。因此，将非结构化的医疗数据进行结构化成为一个必要而关键的步骤。考虑到数据量巨大，若依靠人工来进行结构化，其经济成本无疑将十分高昂。所以，利用自然语言处理技术自动的从电子病历中提取结构化的临床信息是一种理想的选择。

医学文本语义分割方法及系统是一种可以自动将描述症状、检查、病人状态、治疗诊断的语句段分割提取出来的系统，对于电子病历结构化系统的性能有重大影响。信息分割的准确性对于后续医疗数据分析流程有着基础性的影响。因此，一个好的语义分割系统可以帮助提高病历结构化的准确性，也能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。目前尚无针对电子病历进行专门优化的语义分割的方法和系统。

另一方面，在语义分割领域，图像语义分割是图像处理和是机器视觉技术中关于图像理解的重要一环，也是AI领域中一个重要的分支。语义分割即是对图像中每一个像素点进行分类，确定每个点的类别(如属于背景、人或车等)，从而进行区域划分。目前，语义分割已经被广泛应用于自动驾驶、无人机落点判定等场景中。

Fully Convolutional Networks(FCN)的提出是图像语义分割领域当中出众的模型之一，该模型把CNN后面几个全连接都换成卷积，这样就可以获得一张2维的featuremap，后接softmax获得每个像素点的分类信息，从而解决了分割问题，FCN成为语义分割的基本框架。这些相关研究对把FCN用于文本语义分割提供了很好的借鉴和启示作用。

基于FCN架构的语义分割无法摆脱编码器需要对输入特征图进行降采样的操作，而Transformer的一个特性便是能够保持输入和输出的空间分辨率不变，同时还能够有效的捕获全局的上下文信息。因此，采用类似的结构来进行特征提取进行语义分割逐渐浮出水面。本文为了解决文本语义分割问题，针对目前研究中存在的局部感受野、上下文语义表达不准确的问题，设计了适用于文本语义分割的算法及模型，对于病历文本研究具有重要意义。

发明内容

本专利的目的是针对文本进行语义分割，提出一种文本语义分割模型以及文本语义分割系统。本专利结合图像语义分割的思想，构建字符上下文语义信息，从而将大段文本中的不同语义信息实现精细化的文本语义分割，以方便自然语言理解和自然文本的结构化。

为实现上述目的，本发明采用如下的技术方案：

一种基于深度学习的中文电子病历文本语义分割方法包括以下步骤：

步骤一：构建医学数据集和语义字典

选取原始数据集；采用抽取器对原始数据集进行预处理得到若干个训练数据样本，将前述若干个训练数据样本作为训练数据集，并根据规则对训练数据样本进行语义类别标注；统计数据字符集，将字符输入预训练模型构建的语义字典，将每个字符表示为固定维度的向量；

步骤二：获取文本语义特征向量

以步骤一获得的语义字典为基础，按文本序列顺序生成文本特征向量；

步骤三：融合语义位置特征

将字符的文本位置特征与步骤二得到的文本语义特征向量合并为整体特征；

步骤四：将整体特征输入到深度神经网络中进行参数训练；

步骤五：用训练好的深度神经网络模型对测试样本进行语义分割。

作为优选，步骤二中首先进行文本向量表示，对文本进行字符向量化，即给定文本序列S＝(c₁,c₂,…,c_n)，n为文本的字符总数，c_i为文本S中第i个字符，则文本向量表示为T(S)＝A。其中A＝(a¹,a²,…,aⁿ)，aⁱ为c_i的m维字符向量，通过BERT_wwm预训练模构建的SEG语义字典得到，考虑实验室设备配置同时设置最大输入序列Max_length，根据可变长的文本，融合超出最大序列外的文本特征，进行多段分割数据增强，得到文本的特征向量表示。

作为优选，步骤三中为了解决self-attention中没有考虑位置信息的问题，更加准确的区分字符的语义特征，我们给文本中的每个位置添加一个独特的语义位置向量eⁱ，由转移矩阵和pⁱ相乘得到，其中pⁱ为文本的每个c_i对应的one-hot编码向量。然后将语义位置向量eⁱ与文本向量aⁱ相加再输入到自注意力层进行特征学习。

作为优选，步骤四中的深度神经网络由以下部分组成：嵌入层使用BERT_wwm将文本映射为向量形式，以输入到模型中；Transformer Encoder层首先将输入向量融合可学习的语义位置向量特征，通过多头自注意力层来学习字符间的特征，不再追加CLS，而将每个文本字向量都看作分类预测的有效信息，后续经过前馈神经网络层归一化，通过LinearScore得到每个字符的语义信息，捕获序列每个字符的类别特性；Prediction层用于解码，以找到每个字符的最佳语义类别标签。

作为优选，步骤五通过每个字符的语义类别进行中文电子病历的语义分割，其中，属于相同类别的字符被分到同一个语义段；另外，通过对病历进行分析，逗号或者句号为分隔的短句通常表示一个局部完整的语义部分，因此当字符为逗号或者句号时语义类别跟随其前一个字符；当短句中相邻的若干个字符c_i,c_i+1,…,c_i+j有不同的语义类别时，以语义类别最多的字符数为短句类别。

本发明通过预训练语言模型表示文本上下文语义特征，并加入了字符语义位置特征，将合并后的整体特征输入到深度神经网络中进行模型训练。比对样本的标记特征进行残差计算，通过有监督地微调，对整个深层架构的性能进行优化调整。测试阶段，将测试样本输入深度神经网络之中，利用深度学习中逐层训练的思路，在对输入特征进行线性变化后，输入到顶层分类器中，计算出分类概率，得到最终的分类结果。本发明的方法充分利用了深度学习对特征进行深层优化的特点，同时加入了语义位置特征，在数据集较小的情况下实现了文本语义分割较高的准确性。

附图说明

图1为本发明一个基于深度学习的中文电子病历语义分割方法的整体结构示意图；

图2为本发明语义字典构建结构示意图；

图3为本发明文本语义特征表示流程示意图；

图4为本发明深度神经网络的模型结构示意图；

图5为本发明基于深度学习的中文电子病历语义分割方法训练流程示意图。

具体实施方式

下面将详细描述本发明各个方面的特征和实施流程。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面的流程描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

为了解决文本语义分割问题，针对目前研究中存在的的局部感受野、上下文信息以及上下文语义的问题，本发明设计了适用于中文电子病历文本语义分割的方法。以下将结合附图所示的具体实施方式对本发明进行详细描述。

本发明的整体结构图如图1所示，基于深度学习的中文电子病历语义分割方法包括语义字典构建及文本语义特征向量表示、整体特征融合以及深度神经网络训练部分，它们的功能如下：语义字典构建及文本语义特征向量表示部分统计数据字符集，将字符输入预训练模型构建语义字典，将每个字符表示为固定维度的向量，根据语义字典按文本序列顺序生成文本特征向量，语义字典构建结构图如图2所示；整体特征融合部分将字符语义位置特征与上一个步骤得到的上下文文本语义特征合并为整体特征，文本语义特征表示流程图如图3所示；深度神经网络训练部分将整体特征输入到深度神经网络中进行参数训练，最后利用训练好的深度神经网络模型进行中文电子病历的语义分割，深度神经网络的模型结构图如图4所示。

本发明的一种基于深度学习的中文电子病历语义分割方法，包括以下步骤：

步骤一：构建医学数据集和语义字典

统计数据字符集，将字符输入预训练模型构建的语义字典，将每个字符表示为固定维度的向量；

步骤二：获取文本语义特征向量

步骤三：融合语义位置特征

步骤四：将整体特征输入到深度神经网络中进行参数训练；

其中，步骤二中首先进行文本向量表示，对文本进行字符向量化，即给定文本序列S＝(c₁,c₂,…,c_n)，n为文本的字符总数，c_i为文本S中第i个字符，则文本向量表示为T(S)＝A。其中A＝(a¹,a²,…,aⁿ)，aⁱ为c_i的m维字符向量，通过BERT_wwm预训练模构建的SEG语义字典得到，考虑实验室设备配置同时设置最大输入序列Max_length，根据可变长的文本，融合超出最大序列外的文本特征，进行多段分割数据增强，得到文本的特征向量表示。

步骤三中为了解决self-attention中没有考虑位置信息的问题，更加准确的区分字符的语义特征，我们给文本中的每个位置添加一个独特的语义位置向量eⁱ，由转移矩阵和pⁱ相乘得到，其中pⁱ为文本的每个c_i对应的one-hot编码向量。然后将语义位置向量eⁱ与文本向量aⁱ相加再输入到自注意力层进行特征学习。

步骤四中的深度神经网络由以下部分组成：嵌入层使用BERT_wwm将文本映射为向量形式，以输入到模型中；Transformer Encoder层首先将输入向量融合可学习的语义位置向量特征，通过多头自注意力层来学习字符间的特征，不再追加CLS，而将每个文本字向量都看作分类预测的有效信息，后续经过前馈神经网络层归一化，通过LinearScore得到每个字符的语义信息，捕获序列每个字符的类别特性；Prediction层用于解码，以找到每个字符的最佳语义类别标签。

步骤五通过每个字符的语义类别进行中文电子病历的语义分割，其中，属于相同类别的字符被分到同一个语义段；另外，通过对病历进行分析，逗号或者句号为分隔的短句通常表示一个局部完整的语义部分，因此当字符为逗号或者句号时语义类别跟随其前一个字符；当短句中相邻的若干个字符c_i,c_i+1,…,c_i+j有不同的语义类别时，以语义类别最多的字符数为短句类别。

本发明通过预训练语言模型表示文本上下文语义特征，并加入了字符语义位置特征，将合并后的整体特征输入到深度神经网络中进行模型训练。比对样本的标记特征进行残差计算，通过有监督地微调，对整个深层架构的性能进行优化调整。测试阶段，将测试样本输入深度神经网络之中，利用深度学习中逐层训练的思路，在对输入特征进行线性变化后，输入到顶层分类器中，计算出分类概率，得到最终的分类结果。本发明的方法充分利用了深度学习对特征进行深层优化的特点，同时加入了语义位置特征，在数据集较小情况下实现了文本语义分割较高的准确性。

本发明基于深度学习中文电子病历语义分割训练流程如图5所示。假设训练目的为对一段中文电子病历中关于现病史的描述，如“患者某一时间出现某些症状，经过某些检查和相应治疗,目前精神状态如何”等，将整个待训练语句以字符为基本单位进行分割。在语义字典中查得每个字符的向量表示，分别为m维向量。将其按文本序列顺序相接，组成上下文n*m特征矩阵。将获取的上下文特征融合字符语义位置向量为整体特征，组成n*m整体特征矩阵。将整体特征输入到深度神经网络中进行参数训练，比对样本的标记特征进行残差计算，然后有监督地微调，对整个深层架构的性能进行优化调整。模型训练好后，将测试样本对应的上下文特征输入到模型中，可得到输出结果。上面已经参考附图对本发明的语义分割方法进行了详细描述。如前所述，本发明将深度学习技术应用于文本语义分割中，同时将字符语义位置特征加入到了文本语义特征中，利用整体特征进行深度神经网络的模型训练。相对于现有的语义分割技术，本发明构建字符间融合全局的上下文语义信息，捕获序列每个字符的类别特性，最后找到每个字符的最佳语义类别标签，从而实现精细化的文本语义分割，发展了EMR文本语义分割的新方法。

应当理解，本发明并不局限于上文所描述并在图中示出的特定配置和处理方式。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述方法中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，做出各种改变、修改和添加，或者改变步骤之间的顺序进行组合。

本发明可以用其他的具体形式实现，而不脱离其精神和本质特征。例如，本发明中所描述的算法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的方法在所有方面都被看作是示例性的而非限定性的，它们并非用于限制本发明的保护范围，凡是未脱离本发明精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的中文电子病历语义分割方法，其特征在于：该方法包括如下步骤：

步骤一：构建医学数据集和语义字典；

步骤二：获取文本语义特征向量；

步骤三：融合语义位置特征；

步骤四：将整体特征输入到深度神经网络中进行参数训练；

2.根据权利要求1所述的一种基于深度学习的中文电子病历文本语义分割方法，其特征在于：利用预训练语言模型表示文本语义特征，并加入了字符语义位置特征构建字符间融合全局的上下文语义特征，捕获并学习序列每个字符的语义类别特性，最后找到每个字符的最佳语义类别标签，从而实现精细化的文本语义分割；

基于深度学习的中文电子病历语义分割方法，包括语义字典构建及文本语义特征向量表示、整体特征融合、深度神经网络训练以及预测优化部分；利用预训练语言模型表示文本上下文语义特征，并加入了字符语义位置特征，将融合后的整体特征输入到深度神经网络中进行模型训练。

3.根据权利要求1所述的一种基于深度学习的中文电子病历语义分割方法，其特征在于：考虑字符语义位置信息的问题，为了更加准确的区分字符的语义特征，给文本中的每个位置添加一个独特的语义位置向量eⁱ，由转移矩阵和pⁱ相乘得到，其中pⁱ为文本的每个c_i对应的one-hot编码向量；然后将语义位置向量eⁱ与文本向量aⁱ相加再输入到自注意力层进行特征学习。

4.根据权利要求1所述的一种基于深度学习的中文电子病历语义分割方法，其特征在于：深度神经网络由以下部分组成：嵌入层使用BERT_wwm将文本映射为向量形式，以输入到模型中；Transformer Encoder层首先将输入向量融合可学习的语义位置向量特征，通过多头自注意力层来学习字符间的特征，不再追加CLS，而将每个文本字向量都看作分类预测的有效信息，后续经过前馈神经网络层归一化，通过LinearScore得到每个字符的语义信息，捕获序列每个字符的类别特性；Prediction层用于解码，以找到每个字符的最佳语义类别标签。