CN113095074A

CN113095074A - 中文电子病历的分词方法及系统

Info

Publication number: CN113095074A
Application number: CN202110303360.9A
Authority: CN
Inventors: 杜金莲; 密伟; 苏航; 金雪云
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-09

Abstract

本发明公开了中文电子病历的分词方法及系统，该方法的主体为基于GNN‑BiLSTM‑CRF的中文电子病历分词模型，包含步骤如下：数据集的构建及数据的处理。将来源于合作医院的中文电子病历数据进行人工标注，完成中文电子病历分词数据集的构建。将构建好的数据集中的数据转为CoNLL格式。训练中文电子病历分词模型。本发明提出的中文电子病历模型充分利用GNN及LSTM的优势，通过图结构和链结构交互捕获医疗术语构词规律等局部特征和上下文序列信息及长期特征，提高分词的质量。通过图神经网络高效将领域词典融入到分词模型中，通过其学习术语构词规律扩展了词典的应用价值，降低了模型对数据集的依赖同时缓解了医学术语繁多且与日俱增而导致的分词问题。

Description

中文电子病历的分词方法及系统

技术领域

本发明属于自然语言处理领域，是一种基于深度学习的中文电子病历的分词方法及其所构建的系统；具体为使用基于GNN-BiLSTM-CRF的模型对中文电子病历进行分词。

背景技术

电子病历文本分词的任务是医学自然语言处理的重要组成部分，是构建临床辅助诊疗和个人健康信息管理知识图谱等目标的首要步骤，具有重要的应用价值，分词效果的好坏影响知识图谱的质量并最终影响数据的价值发挥。

对中文分词方法的研究已经从二十世纪八十年代持续至今，大致有三类方法：基于词典的匹配法、基于统计学和语言模型的统计分词方法和基于神经网络的深度学习方法。

基于词典匹配法最早于1986年由刘源等人提出，后续又发展出根据大小和方向等多种匹配方法。词典匹配分词速度快，针对性强，无需训练，但是过于依赖词典，且难以消除歧义，对未登录词的识别处理效果也较差。目前已经很少单独用于分词，一般用作模型的一部分来提高分词效果。

基于统计学和语言模型的分词方法较多，Sproat等人在二十世纪九十年代提出的互信息模型，Xue等人在2003年率先使用最大熵模型，Peng等人在2004年提出的条件随机场模型等。该类方法已经在分词方面已经取得了不错的效果，但是较为依赖特征工程，特征定义的好坏直接影响分词的结果。

自2013年Zheng等人将神经网络应用于中文文本分词后，许多学者就开始了基于深度学习的中文分词方法研究。Chen等人在2015年使用RNN的变种LSTM来解决中文分词问题，通过模型的记忆单元学习文本信息的长期依赖。Huang等人将神经网络和统计模型进行结合，提出了BI-LSTM-CRF模型。这些深度学习模型在分词中取得了不错的效果，但是缺点在于对数据集依赖较大，同时不同领域之间的适应性较弱。

目前通用领域的中文分词技术已经日趋成熟，分词结果可以达到极高的标准，比如jieba、pkuseg等分词工具在通用领域开源数据集上的准确率和召回率已经能达到百分之九十以上。但是处理电子病历等特殊的专业领域时，由于存在大量专业术语且新术语与日俱增，以及文本风格特殊等因素的存在，这些基于通用领域数据集训练出来的分词工具会导致许多错误的切分。

许多学者针对中文电子病历分词的问题也进行了研究，取得了一定的成果。如张立邦使用基于半监督学习的方式进行中文电子病历分词，先用领域词典对电子病历进行切分，后引入概率模型估计词的出现概率，最后利用信息熵将未登录词识别转化为最优化问题，利用动态规划算法求解，有效的改良了传统无监督分词方法在处理电子病历时良度失效的问题。Xia通过词典来生成中文临床的部分标记数据，然后和标注数据一起训练半监督条件随机场模型，来解决注释数据稀缺影响模型质量问题。Junjie Xing通过自适应多任务迁移学习的多任务学习框架，建议最小化源和目标域之间隐藏表示的分布距离，彼此适应并获得领域不变特征，通过这种迁移学习的思想来提高分词效果，有效的改善了模型对注释数据严重依赖的问题。

这些研究虽然取得了不错的效果，但是这些模型一般对词典的利用程度极其有限，对数据集依赖较高，而电子病历同时还存在领域隐私性和专业性强导致标注数据集成本较高的问题。领域词典相比于标注数据集成本更低，医学术语的构词方式一般有其规律可循。因此如果能通过领域词典来高效学习这些构词规律等知识，将有利于识别生词，降低对数据集的依赖。

发明内容

本发明基于以上分析，结合中文电子病历语料结构风格及医疗领域术语特点，提出了一种基于GNN-BiLSTM-CRF的中文电子病历分词模型，通过学习领域词典知识、挖掘文本信息特征来解决电子病历分词中的问题，提高分词的质量。并基于该模型构建中文电子病历分词系统，便于使用。

本发明主要包含两个部分：

中文电子病历的分词方法，该方法的主体为基于GNN-BiLSTM-CRF的中文电子病历分词模型，包含步骤如下：

步骤1，数据集的构建及数据的处理。

将来源于合作医院的中文电子病历数据进行人工标注，完成中文电子病历分词数据集的构建。将构建好的数据集中的数据转为CoNLL格式。

步骤2，训练中文电子病历分词模型。

步骤2.1，提取步骤1中处理完毕后的部分数据，生成训练集，将训练集和词典输入到嵌入单元中，使用Word2vec进行嵌入将字和词转化为对应的向量输入到模型的下一层图神经网络GNN单元进行计算。

步骤2.2，通过嵌入后的字和词的向量来构建图，其中字作为图中的节点，词作为图中的边，然后通过基于多头注意力机制和门控机制的迭代聚合更新这种信息传递机制来学习医学领域术语构词规律等局部特征。每次迭代中图的节点特征和边的特征都会得到更新，将其最后一次迭代后的图中每个节点的特征向量输入到模型的下一层。

步骤2.3，将图中的每个节点特征输入到双向长短期记忆网络LSTM单元中，以对每个字的上下文信息进行建模捕获序列信息和远程依赖特征来挖掘中文电子病历语料文本信息特征。

步骤2.4，对LSTM的输出使用条件随机场CRF单元来联合解码预测最佳标签序列，最终输出模型对每个字的预测标签。

步骤2.5，使用负对数似然函数作为损失函数来评价模型的预测值和真实值的差异程度，通过最小化损失函数来进行训练，得到中文电子病历分词模型。

基于该模型构建了基于B/S架构的中文电子病历分词在线图形化系统，该系统的主要功能模块如下：

前端界面模块，可以通过浏览器访问本系统的前端界面；通过界面中对应的输入文本框或上传文件功能将原始的中文电子病历的数据进行输入。通过界面中的分词功能将输入数据传递到系统的数据处理模块进行分词预处理。在界面中显示分词后的结果并提供下载功能。

数据处理模块，将前端输入的数据转成符合中文电子病历分词模块所需的输入的CoNLL格式，输入到中文电子病历分词模块。按照中文电子病历分词模块输出的每个字的预测标签对原始输入的中文电子病历文本进行分词，并将分词结果返回到前端界面。

中文电子病历分词模块，将数据处理模块处理后的数据输入到训练好的中文电子病历分词模型中，并依次通过其中的嵌入单元、图神经网络单元、双向长短期记忆网络单元、条件随机场单元进行运算，最终输出每个字的预测标签，然后将结果返回到数据处理模块。

本发明具有以下优点：

1、本发明提出的中文电子病历模型充分利用GNN及LSTM的优势，通过图结构和链结构交互捕获医疗术语构词规律等局部特征和上下文序列信息及长期特征，提高分词的质量。

2、通过图神经网络高效将领域词典融入到分词模型中，通过其学习术语构词规律扩展了词典的应用价值，降低了模型对数据集的依赖同时缓解了医学术语繁多且与日俱增而导致的分词问题。

3、使用注意力机制和门控机制来帮助模型过滤噪音，提升模型在中文电子病历分词中的表现。

4、使用训练好的模型构建系统，后续面临中文电子病历分词任务时，可以直接使用该系统将待处理的电子病历数据输入系统，即可得到分词后的结果。

附图说明

图1为基于GNN-BiLSTM-CRF的中文电子病历分词模型的结构示意图

图2为系统功能模块示意图

图3为系统的流程示意图

图4为模型中图的构建部分的示例图

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。

本发明中的中文电子病历分词模型结构示意图如图1所示，具体实施步骤如下：

(1)数据集的构建及数据的处理

本研究中的数据集主要来源于合作医院，为了确保数据集的有效性，其标注规则是在北京大学计算语言学研究所创建的中文分词标准的基础之上，考虑后续构建知识图谱等结构化需求，经过数据挖掘专业人士与医院业内专家前后五个版本的修订，最终用于电子病历的标注工作。标注工作均由领域内专业人士完成，在标注前根据制定好的标注规则对标注人员进行培训学习。标注之后进行反复交叉验证，来解决注释者的分歧问题。标注流程参考Cohen等人的观点。

原始的中文电子病历数据分词在模型中其实是进行字级别的序列标注，本发明使用BMES序列标注方法，基本原理是文本中的每一个字都用“B”、“M”、“E”、“S”四个字母中的一个字母标注。其中“B”代表词的开始位置(begin)，“M”代表词的中间位置(middle)，“E”代表词的结尾部分(end)，“S”代表单字组成词(single)，这种标注方式下，从“B”到“E”表示一个词，“S”表示一个词，这样通过对每个字进行标注，便可以将文本进行分词，文本分词方法研究的目标就是寻找最优的标注序列，因此数据在输入到模型之前需要将其转化为符合的输入格式，本模型使用CoNLL格式，每个字及其标记为一行，中间使用制表符分割，句子用空行分隔。

(2)模型的构建

模型结构如图1所示，自底向上依次为：

a)嵌入层将待分词的文本映射成向量的形式来输入到模型中，使用Word2vec进行字嵌入和词嵌入，并进行微调。

b)GNN层首先进行图的构建，然后使用迭代的聚合和更新来进行特征信息的提取和传递，最终的节点特征信息输出到下一层模型。

·图的构建

文本中的每个字对应于图中的每个节点，图中的边代表词典与文本相匹配的词，即文本中存在的词典中的词。如输入文本“硝酸甘油”，词典中与之匹配的有“硝酸”、“甘油”、“硝酸甘油”三个词，则基于此词典构建的图如图4所示。

其中图的四个节点：c₁对应“硝”，c₂对应“酸”，c₃对应“甘”，c₄对应“油”；图中的边：e_1,2对应“硝酸”，e_1,4对应“硝酸甘油”，e_3,4对应“甘油”。

·图神经网络的聚合

图神经网络聚合运算使用多头注意力机制，其中节点特征集合

和边特征集合

e_ij为所有词典和文本相匹配的词即图中的所有边。

每个节点c_o聚合计算时经过以下三步：

第一步先确定节点c_o需要聚合的特征信息

节点聚合时为每个节点聚合其边特征

和对应相连节点的特征

通过词和词首词尾的特征提取可以有效习得词的边界信息。

计算如公式(1)所示:

其中：“[||]”代表拼接操作，

拼接后特征维度为2F；r∈N_o，N_o代表所有与c_o有边连接的节点下标集合，“|”代表或，即同时考虑c_o作为词首和词尾两种情况。

第二步计算节点特征

与聚合特征

的注意力系数α_ro：

其中：W^c和W^g均为可训练的权重矩阵，其中

将特征进行线性变换；

W^o为可训练的权重矩阵，

LR代表对使用LeakyReLU函数进行非线性激活；

第三步使用多头机制来计算聚合后的特征

其中：K为多头注意力机制的头数；

代表第k个注意力机制计算的归一化后的节点特征与对应聚合特征的注意力系数；W^k为可训练权重矩阵；对所有头进行加权平均，得到最终的输出特征

节点聚合的最终输出特征集合为

边e_ij聚合也经过三步：

第一步先确定边e_ij需要聚合的特征信息

边聚合时为每条边聚合该边上的所有节点的特征信息，v∈N_ij，N_ij代表从节点i到节点j的所有节点的下标集合。

第二部计算边特征

与聚合特征

的注意力系数α_iv：

其中：W^e和W^v均为可训练的权重矩阵，其中W^e,

Wⁱ为可训练的权重矩阵，

第三步使用多头机制来计算聚合后的特征

其中：K为多头注意力机制的头数；

代表第k个注意力机制计算的归一化后的边特征与对应聚合特征的注意力系数；W^e为可训练权重矩阵。

边聚合的最终输出特征集合为

·图神经网络的更新

模型使用门控机制将聚合得到的特征有控制的流向节点和边，从而其学习聚合得到的局部特征信息。下面分别对节点更新和边更新进行介绍。

节点更新:

输入t时刻节点特征集合

和节点聚合的特征集合

输出t+1时刻

其中W、V均为可训练的参数矩阵，b为可训练参数向量；⊙是Hadamard Product，矩阵中对应的元素相乘，要求两个相乘矩阵是同型的；σ为激活函数sigmoid；Softmax对两个门控进行归一化；tanh为激活函数，进行非线性变化；

为节点o在t+1轮迭代中的节点特征。

首先计算两个门控

和

以及待学习的特征信息

均由节点特征

和聚合特征

计算得出。然后用

来控制遗忘特征

中的部分信息，用

控制学习特征

中的部分信息。最终输出下一轮的节点特征

边更新:

输入t时刻边特征集合

和边聚合得到的特征集合

输出t+1时刻边特征集合

其中W、V为可训练的参数矩阵，b为可训练参数向量；⊙、σ、Softmax、tanh同节点更新；

为边e_ij在t+1轮迭代中的边特征。

首先计算两个门控

和

以及待传递的特征信息

通过边特征

和聚合特征

计算得来。然后用

控制特征

用

控制特征

最终输出下一轮的边特征

整个图神经网络每轮迭代，都经过一次完整的节点、边聚合，以及节点、边更新。经过m轮迭代，最终输出的节点特征集合

作为图神经网络的输出。

c)LSTM层使用双向LSTM分别捕获过去和将来的信息，将两个结果进行连接作为最终输出。其输入来自于图神经网络的输出，其具体计算过程如下：

首先计算三个门控

以及待传递的特征信息

均由

和输出

计算得出。

其中W、V为可训练的参数矩阵，b为可训练参数向量。

门控

用来控制遗忘前一单元传递过来的记忆特征

中的部分信息，门控

用来控制学习特征

中的部分信息，生成当前单元记忆特征

并将其传递到后一单元，如公式(9)所示：

将

使用tanh函数进行非线性激活后，通过门控

遗忘其中部分信息，得到当前单元的输出

并将其传递到后一单元，如公式(10)所示：

LSTM中的h_t用于获得距离当前节点较近的节点传递过来的特征信息，C_t则用于记录远程的序列信息，一近一远高效捕获上下文的序列信息和远程依赖。

d)CRF层通过CRF对整句文本的标签序列进行建模，根据对应的观测序列来预测对应的状态序列，标签序列y的得分s(y|x)计算如下:

其中：T是编码层输出进行线性变换后得到的矩阵，其中的矩阵元素

代表当前字x_i对应标签为y_i时的分数。Z代表转移矩阵，通过训练进行学习。其中的矩阵元素

代表从前一标签y_i-1转移到当前标签y_i的分数。

计算所有可能的标签序列的分数后使用softmax函数进行归一化，得到标签序列y的条件概率P(y|x)：

其中:Y(x)代表所有可能的标签序列。

(3)模型的训练

将预测结果与真实情况进行比较，使用负对数似然函数作为损失函数，如公式(13)所示：

通过最小化损失函数，进行训练。

在预测过程中，寻找具有最高条件概率的标签序列y^*：

使用维特比算法进行求解。y^*即模型最终预测输出的标签序列。

(4)模型分词实验效果

a)实验条件

Windows 10，Python，Pytorch框架，GeForce GTX 2080Ti显卡。

b)实验参数

实验中字嵌入和词嵌入的维度均设置为50，GNN聚合过程中的多头注意力的头数和维度大小都设置为10，GNN的迭代次数为2，LSTM层的维度设置为128，batchsize大小设置为8，学习率设置为2e-4，使用adam优化算法，为了减少过拟合，使用dropout随机失活，嵌入层比率0.5，聚合层比率0.2，LSTM层比率0.2。

c)性能比较

使用目前最主流的分词工具jieba、pkuseg作为对比，其中pkuseg支持加载预训练好的分词模型，数据集属于医疗领域，所以使用时pkuseg均加载medicine领域模型。由于两种分词工具均支持加载词典，于是使用这两项分词工具设置四组对比试验。

同时使用目前最主流的序列标注模型BI-LSTM-CRF以及Xing等人提出的针对中文医疗文本分词的最新技术模型AMTTL作为基线模型。

使用本专利构建的中文电子病历分词数据集EMRs进行实验，结果见表1，可以看出本方法优于以往效果最好的电子病历分词模型和最主流的分词工具。

表1 EMRs数据集的主要实验结果

为了更好的验证模型的有效性，将本方法运用于xing等人在论文中公开的来自Good Doctor Online这一中国医学咨询论坛的数据集Forum中，可以看出，在两个数据集中，本专利模型效果均优于其他分词模型及分词工具。

表2 Forum数据集的主要实验结果

本发明的中文电子病历分词系统的流程图如图3所示，该系统的构建使用Java、SpringBoot、Bootstrap、python、pytorch等语言框架，基于B/S架构，即浏览器/服务器端，浏览器端是使用系统的接口，通过浏览器的界面可以对服务器端传输数据或提出请求，并对服务器端返回的结果进行处理并展示。服务器端用来进行数据的处理，并将结果返回，使用B/S架构可以让系统具有更好的通用性，对环境依赖小，便于使用，系统的主要步骤如下：

(1)在浏览器中，可以通过界面中的输入文本框或上传文件的功能将原始电子病历数据输入，对服务器提出请求，将输入的数据进行分词处理。

(2)服务器端将从浏览器中传输过来的输入数据转成符合模型输入的CoNLL格式(BMES标注)的数据。

(3)将格式转换好的数据输入到训练好的模型中，通过维特比算法来预测其最优的标注序列。

(4)按照模型输出的最优标注序列将文本进行分词

(5)服务器端返回分词后的电子病历数据，将其显示在浏览器的输出文本框中且可以导出下载

综上所述，本发明提出了一种用于中文电子病历分词的模型及系统，模型通过融合使用了基于注意力机制、门控机制的图神经网络(GNN)、长短期记忆网络(LSTM)和条件随机场(CRF)来充分发挥不同网络的优势，有效地解决了中文电子病历分词的问题，并通过实验验证了模型具有较高的精度。通过将训练好的模型封装为BS架构的系统，可以更加方便高效的用于中文电子病历分词任务，只需要使用浏览器输入数据即可进行分词操作，便于使用。

Claims

1.中文电子病历的分词方法，其特征在于：该方法的主体为基于GNN-BiLSTM-CRF的中文电子病历分词模型，包含步骤如下：

步骤1，数据集的构建及数据的处理；

将来源于合作医院的中文电子病历数据进行人工标注，完成中文电子病历分词数据集的构建；将构建好的数据集中的数据转为CoNLL格式；

步骤2，训练中文电子病历分词模型；

步骤2.1，提取步骤1中处理完毕后的部分数据，生成训练集，将训练集和词典输入到嵌入单元中，使用Word2vec进行嵌入将字和词转化为对应的向量输入到模型的下一层图神经网络GNN单元进行计算；

步骤2.2，通过嵌入后的字和词的向量来构建图，其中字作为图中的节点，词作为图中的边，然后通过基于多头注意力机制和门控机制的迭代聚合更新这种信息传递机制来学习医学领域术语构词规律等局部特征；每次迭代中图的节点特征和边的特征都会得到更新，将其最后一次迭代后的图中每个节点的特征向量输入到模型的下一层；

步骤2.3，将图中的每个节点特征输入到双向长短期记忆网络LSTM单元中，以对每个字的上下文信息进行建模捕获序列信息和远程依赖特征来挖掘中文电子病历语料文本信息特征；

步骤2.4，对LSTM的输出使用条件随机场CRF单元来联合解码预测最佳标签序列，最终输出模型对每个字的预测标签；

2.利用权利要求1所述方法设计的中文电子病历的分词系统，其特征在于：基于该模型构建了基于B/S架构的中文电子病历分词在线图形化系统，该系统的主要功能模块如下：

前端界面模块，可以通过浏览器访问本系统的前端界面；通过界面中对应的输入文本框或上传文件功能将原始的中文电子病历的数据进行输入；通过界面中的分词功能将输入数据传递到系统的数据处理模块进行分词预处理；在界面中显示分词后的结果并提供下载功能；

数据处理模块，将前端输入的数据转成符合中文电子病历分词模块所需的输入的CoNLL格式，输入到中文电子病历分词模块；按照中文电子病历分词模块输出的每个字的预测标签对原始输入的中文电子病历文本进行分词，并将分词结果返回到前端界面；