CN110837736B

CN110837736B - 一种基于字结构的中文医疗记录的命名实体识别方法

Info

Publication number: CN110837736B
Application number: CN201911059655.5A
Authority: CN
Inventors: 赵洲; 潘启璠; 沈锴; 陈漠沙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2021-08-10
Anticipated expiration: 2039-11-01
Also published as: CN110837736A

Abstract

本发明公开了一种基于字结构的迭代膨胀卷积神经网络‑条件随机场的中文医疗记录的命名实体识别方法，其中命名实体识别方法包括以下步骤：1)针对一组询问序列、实体标注序列的训练数据集，通过卷积神经网络从汉字对应的位图中提取出特征向量；2)将字嵌入的结果和卷积神经网络输出的特征向量相结合；3)通过迭代膨胀卷积神经网络和注意力机制，对于标注集合中每一个标注获取一个得分序列；4)通过线性链条件随机场算法，得出命名实体识别的结果。通过本发明，可以利用中文医疗记录中的汉字结构信息，通过将迭代膨胀卷积神经网络与条件随机场算法相结合，可以进一步提高命名实体识别方法的表现。

Description

一种基于字结构的中文医疗记录的命名实体识别方法

技术领域

本发明涉及自然语言处理命名实体识别领域，具体涉及一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法。

背景技术

医疗记录是十分重要的研究数据，但是人工分析医疗记录耗时长且开销大。因此，自动且高效的机器学习算法在这一领域是十分关键的应用。命名实体识别是为了找到在给定内容下具有特殊意义的实体，是关系提取等分析性工作的基础。

目前最先进的命名实体识别的模型有Ma和Hovy在2016年提出的BiLSTM-CNN-CRF，以及Strubell等人在2017年提出的IDCNN-CNN-CRF。以上两种模型将词嵌入和字级别的特征相结合来提高性能。但是对于中文来说，一个句子是由字而非单词组成的，所以直接将上述模型应用与中文命名实体识别并不容易。一种经典的方法是Peng和Dredze在2016年提出的字嵌入，即为每一个中文字找到合适的向量表示，然后用迭代膨胀卷积神经网络(IDCNN)提取特征，用条件随机场(CRF)来找到最优路径。字嵌入通常使用的算法是Mikolov等人在2013年提出的Skip-gram算法，但是对比IDCNN-CNN-CRF用卷积神经网络来提取单词层面的特征，比如大小写形式，Skip-gram算法损失了字级别的特征。然而，众所周知的是汉字是象形文字，这意味着字的基本含义通常来自于它的组成部分。汉字在任何情况下都不会改变形式，汉字的组成部分包含了特征。但是Skip-gram算法在训练字嵌入时并没有考虑汉字的组成，因此汉字本身包含的信息可能丢失。举例来说，汉字“瘤”和“癌”有着同样的部首，这意味着他们都和疾病有关联。我们通常通过偏旁部首来猜测陌生的汉字，因此引入汉字偏旁部首中包含的语义信息可能有助于提高命名实体识别的表现。

发明内容

本发明提供了一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录命名实体识别方法，很好地解决了字嵌入过程中汉字结构信息丢失的问题，提高了针对电子医疗记录的命名实体识别的表现。

一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录命名实体识别方法，包括以下步骤：

1.一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录命名实体识别方法，其特征在于，包括以下步骤：

1)将中文医疗记录数据作为训练数据集，并对训练数据集进行实体标注，标注后的训练数据集包括询问序列和实体标注序列；构建基于字结构的迭代膨胀卷积神经网络-条件随机场网络结构，所述网络结构包括卷积神经网络层、嵌入层、迭代膨胀卷积神经网络层和线性链条件随机场层；

2)针对训练数据集中的一组询问序列，将询问序列中的每一个汉字映射到位图矩阵，将位图矩阵分别输入到卷积神经网络层和嵌入层，通过卷积神经网络从询问序列中的汉字对应的位图矩阵中提取出字级别的特征向量，使用字嵌入提取询问序列中每一个汉字的字嵌入向量；将得到的字级别的特征向量和字嵌入向量按位相加，得到询问序列中每一个汉字的最终特征向量，构成询问序列的最终特征向量集；

3)将询问序列的最终特征向量集输入迭代膨胀卷积神经网络层中，在迭代膨胀卷积神经网络中引入注意力机制，得到实体标注序列中每一个标注的分数向量，构成分数序列；

4)将步骤3)得到的分数序列输入到线性链条件随机场层中，通过线性链条件随机场模型输出预测标注结果，计算输出的预测标注结果和给定实体标注序列的损失，使用Adam算法优化模型，得到基于字结构的迭代膨胀卷积神经网络-条件随机场模型；

5)将待测的询问序列输入到步骤4)所述的基于字结构的迭代膨胀卷积神经网络-条件随机场模型中，输出命名实体识别的结果。

进一步的，所述步骤2)具体为：

针对训练数据集中的一组询问序列{w₁,w₂,…,w_n}和实体标注序列{l₁,l₂,…,l_n}，其中w_i表示询问序列中的第i个汉字，l_i表示询问序列中的第i个汉字的实体标注，l_i来自但不限于O、B-DIS、I-DIS、E-DIS标注，O表示非命名实体，B-DIS表示疾病实体的开始，I-DIS表示在疾病实体中，E-DIS表示疾病实体的结束，命名实体包括但不限于疾病实体，定义所有标注构成的集合G＝{g₁,g₂,…,g_p}，其中p为所有标签的数量，实体标注序列{l₁,l₂,…,l_n}中的元素均属于G；

将询问序列中的每一个汉字w_i映射到一个m×m的位图矩阵M_i，其中m表示像素，n表示询问序列中汉字的个数；通过卷积神经网络从询问序列中的汉字w_i对应的位图矩阵M_i中提取出字级别的特征向量e_i，使用字嵌入提取询问序列中每一个汉字w_i的字嵌入向量b_i；将卷积神经网络输出的字级别的特征向量e_i和字嵌入向量b_i按位相加，得到每一个汉字w_i对应的最终特征向量v_i，构成最终特征向量集V＝(v₁,v₂,…,v_n)。

进一步的，所述步骤3)具体为：

将步骤2)得到的最终特征向量集V输入迭代膨胀卷积神经网络中，迭代膨胀卷积神经网络由参数相同的多个膨胀卷积块构成，每个膨胀卷积块包含多层膨胀系数逐渐增大的膨胀卷积层，一次迭代是指将输入传入膨胀卷积块得到输出，再将输出作为下一个膨胀卷积块的输入，迭代多次，将每次迭代的输出综合，得到标注g_i对应的n维分数向量t_i，其中t_i[j]表示汉字w_j对应标注g_i的分数，

t_i＝IDCNN(v₁,v₂,…,v_n),i＝1,2,…,p

针对t_i，采用注意力机制得到其对应的n×1的分数向量f_i，

f_i＝Attention(t_i),i＝1,2,…,p

进一步得到实体标注序列中每一个标注的分数向量，构成分数序列{f₁,f₂,…,f_p}。

进一步的，所述步骤4)具体为：

采用线性链条件随机场模型，将步骤3)得到的分数序列{f₁,f₂,…,f_p}输入到线性链条件随机场层中，输出预测标注结果；

定义一个p×p的概率转移矩阵A，根据如下公式计算训练数据集中给定的实体标注序列{l₁,l₂,…,l_n}的分数：

其中A[l_i,l_j]表示从标注l_i到标注l_j的概率转移，f_i[l_i]表示分数向量f_i中标注l_i的分数；

定义k为给定询问序列中所有可能的预测标注结果，根据如下公式利用softmax计算出对数似然：

将对数似然的值取负作为训练的损失，使用Adam算法来优化模型，得到基于字结构的迭代膨胀卷积神经网络-条件随机场模型。

本发明具备的有益效果：

本发明的创新点在于利用卷积神经网络来探索字形层面的语义特征。在医疗记录命名实体识别这一应用领域，结合汉字字形的语义特征，识别结果具有更高的准确率和召回率。

具体来讲，在卷积神经网络层，本发明将汉字映射到一个位图矩阵，然后用卷积神经网络来提取汉字的字形特征，对应到特征向量。

在嵌入层，将卷积神经网络层得到的特征向量与传统的字嵌入算法输出的字嵌入向量相加，增加了模型的信息输入。

随后的迭代膨胀卷积神经网络层和条件随机场层延用了Strubell等人提出的结构，由于在卷积神经网络层和嵌入层引入了汉字字形的信息，模型的判别结果随之提高。

附图说明

图1为本发明在命名实体识别的整体结构示意图；

图2为本发明汉字和位图矩阵的对应关系示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明框架采用分层命名实体识别方式，总共分为四层：

(a)卷积神经网络层：对于所给询问序列{w₁,w₂,…,w_n}和实体标注序列{l₁,l₂,…,l_n}，将询问序列中的每一个汉字w_i映射到一个64×64的位图矩阵M_i。然后通过卷积神经网络从位图矩阵M_i中提取出特征向量e_i。其中下标n代表询问序列和标注序列的长度。定义所有标注构成的集合G＝{g₁,g₂,…,g_p}，其中p为所有标签的数量，实体标注序列{l₁,l₂,…,l_n}中的元素均属于G。

(b)嵌入层：将每个汉字w_i通过字嵌入算法转化为字嵌入向量b_i，之后将卷积神经网络输出的特征向量e_i和字嵌入向量b_i按位相加，得到最终特征向量v_i。

(c)迭代膨胀卷积神经网络层：对于每个最终特征向量v_i，通过膨胀卷积神经网络的多次迭代，将每次迭代的输出综合，得到标注g_i对应的n维分数向量t_i，其中t_i[j]表示汉字w_j对应标注g_i的分数，

t_i＝IDCNN(v₁,v₂,…,v_n),i＝1,2,…,p

针对t_i，采用注意力机制得到其对应的n×1的分数向量f_i，

f_i＝Attention(t_i),i＝1,2,…,p

(d)条件随机场层：应用线性链条件随机场模型，将得到的分数序列{f₁,f₂,…,f_p}输入到线性链条件随机场层中，输出预测标注结果；

实施例

以待测询问序列{我右胸疼}为例，如图2所示，“我”字为一个长宽均为64像素汉字，通过像素和位图之间的映射关系，得到一个长宽均为64位的位图矩阵。

将64位的位图矩阵输入到残差网络(ResNet)中，得到“我”字的特征向量e₁；将64位的位图矩阵输入到Skip-gram模型进行字嵌入，得到“我”字的字嵌入向量b₁；将e₁和b₁按位相加，得到“我”字的最终特征向量v₁；

同时，将“右”、“胸”、“疼”分别输入到相同的残差网络和Skip-gram模型中，分别得到“右”字的最终特征向量v₂、“胸”字的最终特征向量v₃、“疼”字的最终特征向量v₄，构成询问序列{我右胸疼}的最终特征向量集V＝(v₁,v₂,v₃,v₄)。

定义标注集合{O,B-DIS,I-DIS,E-DIS}，对应{g₁,g₂,g₃,g₄}。将V＝(v₁,v₂,v₃,v₄)输入到迭代膨胀卷积神经网络层中，一个膨胀卷积块由三次膨胀系数分别为1、1、2的膨胀卷积组成，将最终特征向量集输入到膨胀卷积块，再将膨胀卷积块的输出作为输入，进行3次迭代，综合3次迭代的输出，得到标注g₁对应的分数向量t₁。对于t₁采用注意力机制，得到对应的最终分数向量f₁。

重复上述步骤，得到标注g₂、g₃、g₄对应的最终分数向量f₂、f₃、f₄，组成分数向量序列(f₁,f₂,f₃,f₄)。

将分数向量序列输入到条件随机场层中，输出标注结果{O,B-DIS,I-DIS,E-DIS}，其中O表示非命名实体，B-DIS表示疾病实体的开始，I-DIS表示在疾病实体中，E-DIS表示疾病实体的结束，即“右胸疼”为识别的疾病实体。

下面将上述方法应用于下列比较例中，以体现本发明的技术效果，比较例中具体步骤不再赘述。

比较例

本发明在CCKS-2017task 2数据集上与其他目前最前沿的命名实体识别方式进行对比。CCKS-2017task 2包含1200条记录，5个类别，29860个实体。在实验中将80％的句子作为训练集，10％作为开发集，10％作为测试集。

本发明主要利用准确率、召回率和F1分数作为评判指标。总共比较了3个目前主流的命名实体识别算法，分别为：BiLSTM+softmax，BiLSTM+CRF，IDCNN+CRF。表1表示各大算法模型CCKS-2017task 2数据集上的准确率、召回率以及F1分数。

表1

模型	准确率(％)	召回率(％)	F1分数(％)
				本发明算法	88.6	90.4	89.5
BiLSTM+softmax	86.2	82.1	84.1
				BiLSTM+CRF	87.8	88.8	88.3
IDCNN+CRF	87.9	88.9	88.4

从表1可以看出，本发明提出的基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法，在CCKS-2017task 2数据集上相较于其他算法均获得最优效果，充分展示了本发明算法的优越性。

Claims

1.一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法，其特征在于，包括以下步骤：

2)针对训练数据集中的一组询问序列，将询问序列中的每一个汉字映射到位图矩阵，将位图矩阵分别输入到卷积神经网络层和嵌入层，通过卷积神经网络从询问序列中的汉字对应的位图矩阵中提取出字级别的特征向量，使用字嵌入提取询问序列中每一个汉字的字嵌入向量；将得到的字级别的特征向量和字嵌入向量按位相加，得到询问序列中每一个汉字的最终特征向量，构成询问序列的最终特征向量集；所述步骤2)具体为：

针对训练数据集中的一组询问序列{w₁,w₂,…,w_n}和实体标注序列{l₁,l₂,…,l_n}，其中w_i表示询问序列中的第i个汉字，l_i表示询问序列中的第i个汉字的实体标注，l_i来自O、B-DIS、I-DIS、E-DIS标注，O表示非命名实体，B-DIS表示疾病实体的开始，I-DIS表示在疾病实体中，E-DIS表示疾病实体的结束，命名实体包括疾病实体，定义所有标注构成的集合G＝{g₁,g₂,…,g_p}，其中p为所有标签的数量，实体标注序列{l₁,l₂,…,l_n}中的元素均属于G；

将询问序列中的每一个汉字w_i映射到一个m×m的位图矩阵M_i，其中m表示像素，n表示询问序列中汉字的个数；通过卷积神经网络从询问序列中的汉字w_i对应的位图矩阵M_i中提取出字级别的特征向量e_i，使用字嵌入提取询问序列中每一个汉字w_i的字嵌入向量b_i；将卷积神经网络输出的字级别的特征向量e_i和字嵌入提取到的字嵌入向量b_i按位相加，得到每一个汉字w_i对应的最终特征向量v_i，构成最终特征向量集V＝(v₁,v₂,…,v_n)；

3)将询问序列的最终特征向量集输入迭代膨胀卷积神经网络层中，在迭代膨胀卷积神经网络中引入注意力机制，得到实体标注序列中每一个标注的分数向量，构成分数序列；所述步骤3)具体为：

t_i＝IDCNN(v₁,v₂,…,v_n),i＝1,2,…,p

针对t_i，采用注意力机制得到其对应的n×1的分数向量f_i，

f_i＝Attention(t_i),i＝1,2,…,p

进一步得到实体标注序列中每一个标注的分数向量，构成分数序列{f₁,f₂,…,f_p}；

4)将步骤3)得到的分数序列输入到线性链条件随机场层中，通过线性链条件随机场模型输出预测标注结果，计算输出的预测标注结果和给定实体标注序列的损失，使用Adam算法优化模型，得到基于字结构的迭代膨胀卷积神经网络-条件随机场模型；所述步骤4)具体为：

其中A[l_i-1,l_i]表示从标注l_i-1到标注l_i的概率转移，f_i[l_i]表示分数向量f_i中标注l_i的分数；

将对数似然的值取负作为训练的损失，使用Adam算法来优化模型，得到基于字结构的迭代膨胀卷积神经网络-条件随机场模型；