CN115906857A

CN115906857A - 一种基于词汇增强的中医文本命名实体识别方法

Info

Publication number: CN115906857A
Application number: CN202310028057.1A
Authority: CN
Inventors: 殷继彬; 吴淼淼
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-04-04

Abstract

本发明公开了一种面向中医文本的命名实体识别方法,具体涉及一种基于词汇增强的中医文本命名实体识别方法，包括：首先，收集中医文献通过数据清洗、标注，构建中医领域数据集；之后，引入中医领域词典；然后，输入到输入表示层的嵌入层和位置编码，嵌入层采用扁平晶格结构，在生成字符向量时，结合领域词典同时生成字符对应的单词向量，位置编码对不同字符进行相对位置编码；接着，送入上下文编码层，通过Transformer编码器和TCN模型获取文本的全局和局部特征；最后，输出解码层CRF模型对融合后的特征向量进行解码，得到全局最优的标签序列。本发明解决了中医实体过长引发的长记忆丢失和分词错误带来的噪声问题，使得中医命名实体识别任务更精准高效。

Description

一种基于词汇增强的中医文本命名实体识别方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于词汇增强的中医文本命名实体识别方法。

背景技术

中医是中国传统医学文化的精华，同时也是中国历史上历代人民与疾病抗争中积累下来的拥有丰富诊疗经验的总结。同时当前我国提倡“智慧医疗”，“医工融合”，将人工智能相关的技术应用到医学信息处理当中,对中医文献进行命名实体识别，有助于理清中医文献的知识概念表达，是中医文献信息化、智能化处理的重要任务。

早期传统的命名实体识别算法是基于词典和规则的方法，采用机器学习对实体边界和类别标签进行联合预测，但是这种方式效率低，可移植性差。随着深度学习技术的发展，基于深度学习的命名实体识别方法逐渐成为主流。目前在中医领域使用最多的是双向长短时记忆网络结合条件随机场序列标注(BiLSTM-CRF)的命名实体识别方法。该方法能够在一定程度上获取长句子的上下文信息，提高实体边界的识别效率；同时结合CRF方法生成最优的标注序列。但是该方法在上下文信息获取上仍有很大的不足和提升空间；并且在特征提取上采用相对传统的网络结构，局限性较大。另一方面，通过字级别和词级别统计方法的比较可以发现，基于词的命名实体识别方法通常效果差于基于字符的命名实体方法。

这是因为中文分词存在误差，但词汇信息在中文NER任务中，起到了判断实体边界等重要作用，因此提出词汇增强方法，在以字为基本组成成分的模型中引入词汇的信息。这样一方面能够告诉模型实体的边界信息，提供先验知识；另一方面，在很多垂直领域中存在很多专有的词汇表，是很强的约束信息集合，通过词汇表的方式可以直接利用这些约束信息干预模型的输出。

针对中医领域训练数据匮乏、标注数据少，部分研究仅针对单一疾病或某一中医名老进行标注和研究等问题，本发明收集大量中医语料，利用中医高等教材作为知识源，通过标注、审核、数据处理构建更为全面的中医实体识别数据集及中医领域词典，并在领域专家的指导下定义了10种实体类别。

针对中医实体过长引发的长记忆丢失问题和分词错误带来的噪声问题，本发明提出了一种基于词汇增强的中医文本命名实体识别方法，该模型采用Transformer和时域卷积网络(Temporal Convolutional Network，TCN)作为编码层，不同于LSTM，Transformer引入的注意力机制从根本上解决了长记忆丢失问题。TCN模型能够通过感受野灵活的提取文本的局部特征作为补充。为了解决命名实体识别容易受分词信息的影响，采用基于字符的序列标注方法，引入领域词典，利用词汇增强强化实体边界。

发明内容

为解决上述技术问题，本发明提供了一种基于词汇增强的中医文本命名实体识别方法。

一种基于词汇增强的中医文本命名实体识别方法，包括以下步骤：

S1，构建中医命名实体识别标准数据集；

S2，引入中医领域专用词典；

S3，以步骤S1构建的数据集作为模型训练的原始数据，送入输入表示层，采用扁平晶格网络实现字词向量的生成和提取相对位置特征信息；

输入表示层包括嵌入层和位置编码，嵌入层采用扁平晶格结构，在生成字符向量时，结合词典同时生成字符对应的单词向量；位置编码使用对不同字符或单词文本进行相对位置编码的方式

S4，以步骤S3输入表示层的输出结果输入到上下文编码层，所述的上下文编码层通过Transformer编码器和TCN模型获取文本的全局和局部特征，采用ADD操作融合两个模型捕获的特征信息，最后得到新的特征向量序列；

S5，采用输出解码层CRF模型对步骤S4融合后的特征向量进行解码，得到全局最优的标签序列。

本发明的有益效果：

1.采用Transformer和时域卷积网络(Temporal Convolutional Network，TCN)作为编码层，TCN捕获的局部信息使Transformer获取的上下文信息更加有效，且保留了其获取长距离依赖关系的能力，能够很好地解决中医实体过长引发的长记忆丢失问题。

2.采用基于字符的序列标注方法，引入中医领域词典，利用词典增强强化实体边界，解决命名实体识别容易受分词信息的影响，在中医文本领域命名实体识别任务中具有有效性和优越性。

附图说明

图1为本发明整体流程图；

图2为本发明所提出的算法模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，本发明一种基于词汇增强的中医文本命名实体识别方法，具体包括以下步骤：

S1，构建中医命名实体识别标准数据集，利用中医高等教材作为知识源，通过数据收集、确定实体标签、实体标注、数据处理等形成规范化文本数据以及标准数据集，将数据集按照8:1:1分为训练集、验证集和测试集。

S2，引入中医领域专用词典，构建中医领域知识词典，词典术语数据来源于国家中医药管理局、国家卫生健康委员会颁发的中医药行业标准：《中医病证分类与代码》和《中医临床诊疗术语》，主要包括：疾病名称、症状名称、证候名称、治法名称、脉象名称、舌象名称、方剂名称、药物名称等。

利用中医领域知识词汇进行补充，从词典(领域加通用)中获得句子每个字符所对应的潜在单词，加入到文本序列中；将文本序列转化为FLAT模型采用的扁平晶格结构的文本序列(可以定义为多个文本片段span的集合，其中一个文本片段由文本token、头部head和尾部tail构成)；嵌入层将每个文本向量化表示成矩阵dmodel是文本向量的维度；使用相对位置编码对文本片段之间的交互进行编码；计算公式为:

其中head[i]和tail[i]表示xi的头和尾的位置，

表示xi的头部与xj的头部之间的距离，其他类似；

利用非线性变换得到两两节点之间的最终相对位置编码R_ij，计算公式为：

其中，ReLU为激活函数，W_r是可学习参数，

表示拼接操作，p_d计算如下：

其中k为位置编码的维数指标。

S4，以步骤S3输入表示层的输出结果输入到上下文编码层，所述的上下文编码层通过Transformer编码器和TCN模型计算文本中字符与字符，字符与单词之间的关系，使模型能够学习字词之间的关系和每个字与词的重要性程度，从而获取全局和局部性的特征信息，之后采用ADD操作融合两个模型捕获的特征信息，最后得到新的特征向量序列。

Transformer编码器引入了相对位置编码，但位置编码所获取的局部信息有限，无法通过模型结构本身学习到词汇的局部信息。TCN模型的因果卷积和膨胀卷积通过获取文本向量矩阵之间的局部特征信息，对Transformer编码器捕获的向量信息进行补充，同时它也具有捕获文本序列长期依赖关系和并行计算的能力。

所述S4具体包括如下：

Step1：所述Transformer模型，包括：自注意力层、两个求和标准化层、全连接层，使用Transformer编码器中的多头注意力机制对向量化后的文本向量矩阵计算注意力，在计算过程中加入位置编码，相对位置编码计算公式为：

其中

是可学习参数，E_xj为上层输入的字词向量特征,R_ij是相对位置编码矩阵；

多头注意力值计算公式为：

MultiHead(Q，K，V)＝Concat(head₁，…，，head_h)W⁰

其中，Q、K、V为文本序列Token部分的嵌入向量与最终相对位置编码相加后的结果，Concat为拼接操作，i为注意力的头数，W⁰、W_i ^Q、

为可训练的权重矩阵；

Step2：将Step1的输出和输入的文本向量矩阵加起来残差连接；同时采用层标准化做归一化处理；将归一化后的结果输出后送入前馈网络层，使用ReLU激活函数进行非线性转换；

Step3：同样将Step2 ReLU激活变换后的输出与归一化后的输出进行残差连接和采用层标准化做归一化处理，输出Transformer编码器的文本特征A；

Step4：使用TCN的因果卷积和膨胀卷积获取文本向量矩阵之间的局部特征信息；TCN采用残差模块对文本向量矩阵进行正则化，一个残差模块包含两层的卷积和非线性映射，输出最终获取的文本特征B；

Step5：使用ADD操作，将A和B两个特征进行融合，得到新的向量序列。

S5，采用输出解码层CRF模型对步骤S4融合后的特征向量进行解码，得到全局最优的标签序列；将上下文编码层的输出输入CRF模型解码，得到实体标签信息，CRF预测时，会根据训练好的参数选取概率最大的候选标签序列作为最终结果。

Claims

1.一种基于词汇增强的中医文本命名实体识别方法，其特征在于，包括以下步骤：

S1，构建中医命名实体识别标准数据集；

S2，引入中医领域专用词典；

2.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法，其特征在于，所述S1的具体过程为：中医文献搜集，OCR文字提取，清洗校正、领域专家确定实体标签及标注规则、使用doccano进行实体标注、数据处理等形成规范化文本数据以及标准数据集，将数据集按照8:1:1分为训练集、验证集和测试集。

3.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法，其特征在于，所述S2的具体过程为：构建中医领域知识词典，词典术语数据来源于国家中医药管理局、国家卫生健康委员会颁发的中医药行业标准：《中医病证分类与代码》和《中医临床诊疗术语》，主要包括：疾病名称、症状名称、证候名称、治法名称、脉象名称、舌象名称、方剂名称、药物名称等。

4.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法，其特征在于，所述S3中输入表示层包括嵌入层和位置编码，嵌入层采用扁平晶格结构，在生成字符向量时，结合词典同时生成字符对应的单词向量；位置编码使用对不同字符或单词文本进行相对位置编码的方式，使用四种相对距离来表示xi和xj之间的关系，计算公式为: