CN114927177A

CN114927177A - 一种融合中文医疗领域特征的医疗实体识别方法及系统

Info

Publication number: CN114927177A
Application number: CN202210592403.4A
Authority: CN
Inventors: 俞山青; 章诗涵; 金士博; 张建林; 宣琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-19
Anticipated expiration: 2042-05-27
Also published as: CN114927177B

Abstract

一种融合中文医疗领域特征的医疗实体识别方法，基于特定领域知识识别药品说明书中的实体，所述方法包括步骤：S1：收集中文药品说明书并进行文本预处理；S2：利用图卷积网络提取文本序列词级别的特征，其中节点的特征考虑了字音、字形以及字典的特征；S3:提取文本序列字级别的特征，并融合词级别的特征；S4:采用双向LSTM学习文本的序列特征，经过解码层得到汉字的序列标签，将标签进行组合，完成实体识别的任务。本发明充分全面地捕捉到汉字字音字形的特征，以词级别的粒度融入到实体识别的模型中，提高了医疗实体识别的精度。

Description

一种融合中文医疗领域特征的医疗实体识别方法及系统

技术领域

本发明涉及中文命名实体识别领域，更具体地说，涉及一种融合中文医疗领域特征的医疗实体识别方法及系统。

背景技术

随着信息时代的到来，信息数据以指数形式爆炸增长，且模态多样化。多数的信息属于非结构或半结构数据，无法被计算机系统直接利用构建知识图谱。人们在获取信息的过程中存在信息过载、资源迷向等问题，因此，如何快速简洁地提取有效的信息变得愈加重要。

在这种背景下，信息抽取技术应运而生，旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息，信息抽取的主要目的是从自然语言文本中抽取指定的实体、关系和事件。实体识别是关系抽取和事件抽取的基础，实体识别也可以称为实体抽取，是自然语言处理中的一项基础任务，应用非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。

实体识别在英文领域已经取得了不错的成果，英文数据集句子中的单词通过空格自然分开便于后续的研究工作，但在中文领域的实体识别还处在不成熟的阶段，汉语中比较特殊生僻的字符以及分词的问题给实体识别任务带来了一定的挑战，在正确识别实体边界的同时，也要确保实体的类型也标注正确。随着深度学习的发展，神经网络成为了有效处理这类问题的模型，将实体识别任务转化成序列标注的任务，用神经网络自动提取特征，并预测序列的标签。

将实体识别运用在医疗领域，包括识别中文药品说明书中的实体，一般包括药品、疾病、症状、药物成分、性状等，提取药品说明书中的关键信息，使得人们能够快速简洁地提取有效的信息，同时方便后续的工作，例如知识图谱的构建、知识推理、知识问答等。

发明内容

本发明的目的在于提供了一种融合中文医疗领域特征的医疗实体识别方法及系统。本发明结合了文本字级别的特征和词级别的特征，能够对中文药品说明书中的实体进行识别。

本发明是针对医疗领域的中文药品说明书，提供了一种识别医疗实体的新思路。不再局限于单个汉字的特征对汉字进行标注，提出了一种基于语义依存关系的医疗实体识别模型，不仅考虑了单个汉字的特征，同时融入了词汇的特征，在利用图卷积神经网络提取词汇特征的过程中，考虑了汉字字音、字形以及字典的特征。

本发明的一种融合中文医疗领域特征的医疗实体识别方法，包括如下步骤：

S1：对中文药品说明书进行文本预处理操作，包括对说明书文本进行预清洗和文本的切分处理；

S2：输入的句子通过中文语义分析工具得到语义依存关系，构造语义依存关系网络图，采用图卷积神经网络提取文本词级别的特征，其中输入图卷积神经网络的特征融合中文医疗领域字音、字形、字典的特征；

S3：采用预训练模型提取医疗文本字级别的特征；

S4：采用基于双向LSTM和CRF的实体识别模型，输入特征融合步骤S2中的文本词级别特征和步骤S3中的文本字级别特征，实现药品说明书中的实体识别的任务。

优选地，所述步骤S1具体包括：

对文本的预处理操作包括文本的预清洗和文本的切分处理，对说明书文本中的无效字符进行过滤，针对说明书文本篇幅长的问题，采用两级文本切分的策略，根据文本之间特定的分隔符进行切分，切分后的句子过短则合并短句子，使得合并后的句子长度不超过设置的句子最大长度。

优选地，所述步骤S2具体包括：

S2.1：输入的句子通过中文语义分析工具得到语义依存关系，构造语义依存关系网络图

其中V表示的是句子中的词汇节点，E表示的是词汇之间的语义依存关系；

所述的语义依存关系网络图中的词汇之间的语义依存关系，包括当事关系、受事关系、客事关系等；

S2.2：基于步骤S2.1构造的语义依存关系网络图，构建邻接矩阵

采用以下公式对邻接矩阵

进行卷积操作，对于输入图卷积神经网络的节点特征，融合了中文医疗领域字音、字形、字典的特征，字音通过拼音的声母、韵母、声调进行编码，字形通过汉字的部首信息和其余部分进行编码，医疗实体部首大多包含“月”、“疒”等，相同的偏旁部首可能代表医疗实体中的一类实体，对部首进行单独的编码可以更好地识别实体，字典信息根据医疗领域词典，采用N-gram语言模型描述医疗实体这类由字构成的词；

1)字音向量

具体为：

获取汉字的拼音，将拼音划分为声母、韵母、声调三个部分，通过拼音的声母、韵母、声调来编码汉字的拼音；

2)字形向量

具体为：

统计汉字的部首信息和获取汉字的笔画顺序信息，构建字典D_r和D_s，根据汉字的结构拆分成两个部分，通过两个部分对汉字的形状进行编码，如果有部分在部首字典D_r中，取该部首的one-hot编码X^sr，其余的部分按照笔画进行编码，任何一个汉字都可以由横、竖、撇、捺、折、点的线性组合表示，根据D_s，获取汉字剩余笔画的编码X^ss；

其中，concat(·)表示将括号中的向量进行拼接；

3)字典向量

具体为：

根据N-gram特征模板和医疗领域词典，获取字典向量。

进一步地，输入图卷积神经网络的节点特征可表示为：

聚合不同词汇之间的特征：

其中，

表示第l层图卷积操作输出的词汇节点的特征表示，W^(l)，b^(l)表示网络学习的参数，σ(·)表示激活函数，D表示

对应的度矩阵，I_N表示单位矩阵。

优选地，所述步骤S3具体包括：

使用预训练模型BERT把输入的文本信息中的字嵌入成字向量

优选地，所述步骤S4具体包括：

将步骤S2、S3中获得的文本词级别特征和文本字级别特征进行融合，具体公式如下：

将融合后的特征向量

作为BiLSTM的输入，正向LSTM输出

与反向LSTM输出

依次拼接为

经过CRF模型得到标签序列的得分score，具体公式如下：

其中，P表示BiLSTM提取的语义特征矩阵，P_ij表示把第i个汉字分类至第j个标签的分数，A表示转移概率矩阵，A_ij表示标注序列从第i个标签转移到第j个标签的概率，y＝(y₁,y₂,…,y_n)为句子的标签序列；

所有可能的标签序列的概率可表示为：

用以下最大似然函数对模型进行训练直至模型收敛：

一种融合中文医疗领域特征的医疗实体识别系统，包括依次连接的数据收集处理模块、特征提取模块、序列标注识别模块；

所述数据收集处理模块，用于爬取药品相关数据，收集中文药品说明书，并对文本数据进行预处理操作，具体包括：文本的预清洗和文本的切分处理；

所述特征提取模块，用于提取并融合文本词级别的特征和字级别的特征，具体包括：数据收集处理模块输出的句子通过中文语义分析工具得到语义依存关系，构造语义依存关系网络图，节点的特征加入了字音字形和字典的特征，再通过图卷积神经网络获得词级别的特征，融合通过预训练模型BERT获得的字级别的特征；

所述序列标注识别模块，采用基于BiLSTM和CRF的实体识别模型，对文本的特征进行学习，进行序列标注，并组合标签，进而实现实体识别的任务。

本发明的优点是，与现有技术相比，本申请的技术方案的有益效果是：融合了文本字级别的特征和词级别的特征，在提取词汇级别的特征时，考虑到了汉字字音、字形以及字典的特征，充分挖掘了汉字的特征，从而更形象地表征了汉字的信息，以词级别的粒度融入到实体识别的模型中，提高了医疗实体识别的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的框架图；

图2为本发明的总流程图；

图3为本发明的系统结构示意图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。

在不背离本发明的范围或精神的情况下，可对本发明说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

本发明中所述的“份”如无特别说明，均按质量份计。

本发明提供一种融合中文医疗领域特征的医疗实体识别方法，如图1所示，包括以下步骤：

步骤S1：对中文药品说明书进行文本预处理操作，包括对说明书文本进行预清洗和文本的切分处理；

具体为：爬取药品相关数据，收集中文药品说明书，对说明书文本中的无效字符进行过滤，针对说明书文本篇幅长的问题，采用两级文本切分的策略，根据文本之间特定的分隔符进行切分，切分后的句子过短则合并短句子，使得合并后的句子长度不超过设置的句子最大长度；

文本之间特定的分隔符包括句号、换行符等。

步骤S2：输入的句子通过中文语义分析工具得到语义依存关系，构造语义依存关系网络图，采用图卷积神经网络模型提取文本词级别的特征；

输入的句子通过中文语义分析工具得到语义依存关系，构造语义依存关系网络图

其中V表示的是句子中的词汇节点，E表示的是词汇之间的语义依存关系。

其中，对于输入图卷积神经网络的节点特征，融合了中文医疗领域字音、字形、字典的特征，能够更加完整地表示药品说明书中汉字的信息，具体包括：

1)字音向量

具体为：

利用python中的pypinyin模块获取汉字的拼音，将拼音划分为声母、韵母、声调三个部分，通过拼音的声母、韵母、声调来编码汉字的拼音；

字音向量

由长度为52位的向量组成，通过one-hot编码生成embedding；

字音向量

具体组成如下：

向量位置	对应的含义
		1-23	汉字拼音的声母
24-47	汉字拼音的韵母
		48-52	汉字拼音的声调

2)字形向量

具体为：

参考新华字典，统计汉字的部首信息和获取汉字的笔画顺序信息，构建字典D_r和D_s，根据汉字的结构拆分成两个部分，通过两个部分对汉字的形状进行编码。

如果有部分在部首字典D_r中，取该部首的one-hot编码X^sr，

(d＝53)，其余的部分按照笔画进行编码，任何一个汉字都可以由横、竖、撇、捺、折、点的线性组合表示，根据D_s，获取汉字剩余笔画的编码X^ss；

其中，concat(·)表示将括号中的向量进行拼接；

3)字典向量

具体为：

根据N-gram特征模板，获取字典向量；

N-gram特征模板类型如下：

类型	模板
		2-gram	x<sub>i-1</sub>x<sub>i</sub>，x<sub>i</sub>x<sub>i+1</sub>
3-gram	x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>，x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub>
		4-gram	x<sub>i-3</sub>x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>，x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub>x<sub>i+3</sub>
5-gram	x<sub>i-4</sub>x<sub>i-3</sub>x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>，x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub>x<sub>i+3</sub>x<sub>i+4</sub>

在一些实施例中，例如需要获得“为抗厌氧菌药，用于牙龈炎，有阻碍细菌代谢作用”中“牙”的字典向量，通过N-gram特征模板对“牙”进行特征提取，具体过程如下：

“牙龈炎”是字典中的词语，那么“牙”的字典向量可表示为X^d＝[0，0，0，1，0，0，0，0]。

进一步地，从命名实体识别的角度，可以将实体的标签也加入到字典向量中。识别中文药品说明书中的实体，包括药品(M)、疾病(D)、症状(S)、药物成分(C)、性状(N)等实体。

“牙”的字典向量可表示为40维的向量X^d＝[…，0，0，0，0，1，…]，其中第18位为1，其余位为0。

输入图卷积神经网络的节点特征可表示为：

基于构造的语义依存关系网络图，构建邻接矩阵

采用以下公式对邻接矩阵

进行卷积操作，聚合不同词汇之间的特征：

其中，

对应的度矩阵，I_N表示单位矩阵；

步骤S3：采用BERT预训练模型提取医疗文本字级别的特征；

使用预训练模型BERT把输入的文本信息中的字嵌入成字向量

步骤S4：采用基于双向LSTM和CRF的实体识别模型，输入特征融合步骤S2中的文本词级别特征和步骤S3中的文本字级别特征，实现药品说明书中的实体识别的任务；

具体包括：融合文本词级别特征和字级别特征，

将融合后的特征向量

作为BiLSTM的输入，正向LSTM输出

与反向LSTM输出

依次拼接为

经过CRF模型得到标签序列的得分score，具体公式如下：

其中，P表示BiLSTM提取的语义特征矩阵，P_ij表示把第i个汉字分类至第j个标签的分数，A表示转移概率矩阵，A_ij表示标注序列从第i个标签转移到第j个标签的概率，y＝(y₁,y₂,…,y_n)为句子的标签序列。

在一些实施例中，标签的种类包括药品实体的标签B-Med、I-Med，疾病实体的标签B-Dis、I-Dis，症状实体的标签B-Sym、I-Sym，药物成分实体的标签B-Com、I-Com，性状实体的标签B-Nat、I-Nat等。所有可能的标签序列的概率可表示为：

用以下最大似然函数对模型进行训练直至模型收敛：

所述数据收集处理模块，用于爬取药品相关数据，收集中文药品说明书，并对文本数据进行预处理操作，具体包括：对文本的预清洗，包括对说明书文本中的无效字符进行过滤，对文本进行切分处理，主要针对说明书文本篇幅长的问题，采用两级文本切分的策略，根据文本之间特定的分隔符进行切分，切分后的句子过短则合并短句子，使得合并后的句子长度不超过设置的句子最大长度；

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种融合中文医疗领域特征的医疗实体识别方法，其特征在于，包括如下步骤：

S3：采用预训练模型提取医疗文本字级别的特征。

2.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法，其特征在于，所述步骤S1中，对文本的预处理操作包括文本的预清洗和文本的切分处理，对说明书文本中的无效字符进行过滤，针对说明书文本篇幅长的问题，采用两级文本切分的策略，根据文本之间特定的分隔符进行切分，切分后的句子过短则合并短句子，使得合并后的句子长度不超过设置的句子最大长度。

3.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法，其特征在于，所述步骤S2具体包括：