CN115906857A - 一种基于词汇增强的中医文本命名实体识别方法 - Google Patents

一种基于词汇增强的中医文本命名实体识别方法 Download PDF

Info

Publication number
CN115906857A
CN115906857A CN202310028057.1A CN202310028057A CN115906857A CN 115906857 A CN115906857 A CN 115906857A CN 202310028057 A CN202310028057 A CN 202310028057A CN 115906857 A CN115906857 A CN 115906857A
Authority
CN
China
Prior art keywords
chinese medicine
layer
text
traditional chinese
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310028057.1A
Other languages
English (en)
Inventor
殷继彬
吴淼淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202310028057.1A priority Critical patent/CN115906857A/zh
Publication of CN115906857A publication Critical patent/CN115906857A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种面向中医文本的命名实体识别方法,具体涉及一种基于词汇增强的中医文本命名实体识别方法,包括:首先,收集中医文献通过数据清洗、标注,构建中医领域数据集;之后,引入中医领域词典;然后,输入到输入表示层的嵌入层和位置编码,嵌入层采用扁平晶格结构,在生成字符向量时,结合领域词典同时生成字符对应的单词向量,位置编码对不同字符进行相对位置编码;接着,送入上下文编码层,通过Transformer编码器和TCN模型获取文本的全局和局部特征;最后,输出解码层CRF模型对融合后的特征向量进行解码,得到全局最优的标签序列。本发明解决了中医实体过长引发的长记忆丢失和分词错误带来的噪声问题,使得中医命名实体识别任务更精准高效。

Description

一种基于词汇增强的中医文本命名实体识别方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于词汇增强的中医文本命名实体识别方法。
背景技术
中医是中国传统医学文化的精华,同时也是中国历史上历代人民与疾病抗争中积累下来的拥有丰富诊疗经验的总结。同时当前我国提倡“智慧医疗”,“医工融合”,将人工智能相关的技术应用到医学信息处理当中,对中医文献进行命名实体识别,有助于理清中医文献的知识概念表达,是中医文献信息化、智能化处理的重要任务。
早期传统的命名实体识别算法是基于词典和规则的方法,采用机器学习对实体边界和类别标签进行联合预测,但是这种方式效率低,可移植性差。随着深度学习技术的发展,基于深度学习的命名实体识别方法逐渐成为主流。目前在中医领域使用最多的是双向长短时记忆网络结合条件随机场序列标注(BiLSTM-CRF)的命名实体识别方法。该方法能够在一定程度上获取长句子的上下文信息,提高实体边界的识别效率;同时结合CRF方法生成最优的标注序列。但是该方法在上下文信息获取上仍有很大的不足和提升空间;并且在特征提取上采用相对传统的网络结构,局限性较大。另一方面,通过字级别和词级别统计方法的比较可以发现,基于词的命名实体识别方法通常效果差于基于字符的命名实体方法。
这是因为中文分词存在误差,但词汇信息在中文NER任务中,起到了判断实体边界等重要作用,因此提出词汇增强方法,在以字为基本组成成分的模型中引入词汇的信息。这样一方面能够告诉模型实体的边界信息,提供先验知识;另一方面,在很多垂直领域中存在很多专有的词汇表,是很强的约束信息集合,通过词汇表的方式可以直接利用这些约束信息干预模型的输出。
针对中医领域训练数据匮乏、标注数据少,部分研究仅针对单一疾病或某一中医名老进行标注和研究等问题,本发明收集大量中医语料,利用中医高等教材作为知识源,通过标注、审核、数据处理构建更为全面的中医实体识别数据集及中医领域词典,并在领域专家的指导下定义了10种实体类别。
针对中医实体过长引发的长记忆丢失问题和分词错误带来的噪声问题,本发明提出了一种基于词汇增强的中医文本命名实体识别方法,该模型采用Transformer和时域卷积网络(Temporal Convolutional Network,TCN)作为编码层,不同于LSTM,Transformer引入的注意力机制从根本上解决了长记忆丢失问题。TCN模型能够通过感受野灵活的提取文本的局部特征作为补充。为了解决命名实体识别容易受分词信息的影响,采用基于字符的序列标注方法,引入领域词典,利用词汇增强强化实体边界。
发明内容
为解决上述技术问题,本发明提供了一种基于词汇增强的中医文本命名实体识别方法。
一种基于词汇增强的中医文本命名实体识别方法,包括以下步骤:
S1,构建中医命名实体识别标准数据集;
S2,引入中医领域专用词典;
S3,以步骤S1构建的数据集作为模型训练的原始数据,送入输入表示层,采用扁平晶格网络实现字词向量的生成和提取相对位置特征信息;
输入表示层包括嵌入层和位置编码,嵌入层采用扁平晶格结构,在生成字符向量时,结合词典同时生成字符对应的单词向量;位置编码使用对不同字符或单词文本进行相对位置编码的方式
S4,以步骤S3输入表示层的输出结果输入到上下文编码层,所述的上下文编码层通过Transformer编码器和TCN模型获取文本的全局和局部特征,采用ADD操作融合两个模型捕获的特征信息,最后得到新的特征向量序列;
S5,采用输出解码层CRF模型对步骤S4融合后的特征向量进行解码,得到全局最优的标签序列。
本发明的有益效果:
1.采用Transformer和时域卷积网络(Temporal Convolutional Network,TCN)作为编码层,TCN捕获的局部信息使Transformer获取的上下文信息更加有效,且保留了其获取长距离依赖关系的能力,能够很好地解决中医实体过长引发的长记忆丢失问题。
2.采用基于字符的序列标注方法,引入中医领域词典,利用词典增强强化实体边界,解决命名实体识别容易受分词信息的影响,在中医文本领域命名实体识别任务中具有有效性和优越性。
附图说明
图1为本发明整体流程图;
图2为本发明所提出的算法模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明一种基于词汇增强的中医文本命名实体识别方法,具体包括以下步骤:
S1,构建中医命名实体识别标准数据集,利用中医高等教材作为知识源,通过数据收集、确定实体标签、实体标注、数据处理等形成规范化文本数据以及标准数据集,将数据集按照8:1:1分为训练集、验证集和测试集。
S2,引入中医领域专用词典,构建中医领域知识词典,词典术语数据来源于国家中医药管理局、国家卫生健康委员会颁发的中医药行业标准:《中医病证分类与代码》和《中医临床诊疗术语》,主要包括:疾病名称、症状名称、证候名称、治法名称、脉象名称、舌象名称、方剂名称、药物名称等。
S3,以步骤S1构建的数据集作为模型训练的原始数据,送入输入表示层,采用扁平晶格网络实现字词向量的生成和提取相对位置特征信息;
利用中医领域知识词汇进行补充,从词典(领域加通用)中获得句子每个字符所对应的潜在单词,加入到文本序列中;将文本序列转化为FLAT模型采用的扁平晶格结构的文本序列(可以定义为多个文本片段span的集合,其中一个文本片段由文本token、头部head和尾部tail构成);嵌入层将每个文本向量化表示成矩阵dmodel是文本向量的维度;使用相对位置编码对文本片段之间的交互进行编码;计算公式为:
Figure BDA0004046022130000041
Figure BDA0004046022130000042
Figure BDA0004046022130000043
Figure BDA0004046022130000044
其中head[i]和tail[i]表示xi的头和尾的位置,
Figure BDA0004046022130000045
表示xi的头部与xj的头部之间的距离,其他类似;
利用非线性变换得到两两节点之间的最终相对位置编码Rij,计算公式为:
Figure BDA0004046022130000046
其中,ReLU为激活函数,Wr是可学习参数,
Figure BDA0004046022130000047
表示拼接操作,pd计算如下:
Figure BDA0004046022130000048
Figure BDA0004046022130000049
其中k为位置编码的维数指标。
S4,以步骤S3输入表示层的输出结果输入到上下文编码层,所述的上下文编码层通过Transformer编码器和TCN模型计算文本中字符与字符,字符与单词之间的关系,使模型能够学习字词之间的关系和每个字与词的重要性程度,从而获取全局和局部性的特征信息,之后采用ADD操作融合两个模型捕获的特征信息,最后得到新的特征向量序列。
Transformer编码器引入了相对位置编码,但位置编码所获取的局部信息有限,无法通过模型结构本身学习到词汇的局部信息。TCN模型的因果卷积和膨胀卷积通过获取文本向量矩阵之间的局部特征信息,对Transformer编码器捕获的向量信息进行补充,同时它也具有捕获文本序列长期依赖关系和并行计算的能力。
所述S4具体包括如下:
Step1:所述Transformer模型,包括:自注意力层、两个求和标准化层、全连接层,使用Transformer编码器中的多头注意力机制对向量化后的文本向量矩阵计算注意力,在计算过程中加入位置编码,相对位置编码计算公式为:
Figure BDA00040460221300000410
其中
Figure BDA00040460221300000411
是可学习参数,Exj为上层输入的字词向量特征,Rij是相对位置编码矩阵;
多头注意力值计算公式为:
MultiHead(Q,K,V)=Concat(head1,…,,headh)W0
Figure BDA00040460221300000412
其中,Q、K、V为文本序列Token部分的嵌入向量与最终相对位置编码相加后的结果,Concat为拼接操作,i为注意力的头数,W0、Wi Q
Figure BDA0004046022130000051
为可训练的权重矩阵;
Step2:将Step1的输出和输入的文本向量矩阵加起来残差连接;同时采用层标准化做归一化处理;将归一化后的结果输出后送入前馈网络层,使用ReLU激活函数进行非线性转换;
Step3:同样将Step2 ReLU激活变换后的输出与归一化后的输出进行残差连接和采用层标准化做归一化处理,输出Transformer编码器的文本特征A;
Step4:使用TCN的因果卷积和膨胀卷积获取文本向量矩阵之间的局部特征信息;TCN采用残差模块对文本向量矩阵进行正则化,一个残差模块包含两层的卷积和非线性映射,输出最终获取的文本特征B;
Step5:使用ADD操作,将A和B两个特征进行融合,得到新的向量序列。
S5,采用输出解码层CRF模型对步骤S4融合后的特征向量进行解码,得到全局最优的标签序列;将上下文编码层的输出输入CRF模型解码,得到实体标签信息,CRF预测时,会根据训练好的参数选取概率最大的候选标签序列作为最终结果。

Claims (6)

1.一种基于词汇增强的中医文本命名实体识别方法,其特征在于,包括以下步骤:
S1,构建中医命名实体识别标准数据集;
S2,引入中医领域专用词典;
S3,以步骤S1构建的数据集作为模型训练的原始数据,送入输入表示层,采用扁平晶格网络实现字词向量的生成和提取相对位置特征信息;
S4,以步骤S3输入表示层的输出结果输入到上下文编码层,所述的上下文编码层通过Transformer编码器和TCN模型获取文本的全局和局部特征,采用ADD操作融合两个模型捕获的特征信息,最后得到新的特征向量序列;
S5,采用输出解码层CRF模型对步骤S4融合后的特征向量进行解码,得到全局最优的标签序列。
2.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S1的具体过程为:中医文献搜集,OCR文字提取,清洗校正、领域专家确定实体标签及标注规则、使用doccano进行实体标注、数据处理等形成规范化文本数据以及标准数据集,将数据集按照8:1:1分为训练集、验证集和测试集。
3.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S2的具体过程为:构建中医领域知识词典,词典术语数据来源于国家中医药管理局、国家卫生健康委员会颁发的中医药行业标准:《中医病证分类与代码》和《中医临床诊疗术语》,主要包括:疾病名称、症状名称、证候名称、治法名称、脉象名称、舌象名称、方剂名称、药物名称等。
4.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S3中输入表示层包括嵌入层和位置编码,嵌入层采用扁平晶格结构,在生成字符向量时,结合词典同时生成字符对应的单词向量;位置编码使用对不同字符或单词文本进行相对位置编码的方式,使用四种相对距离来表示xi和xj之间的关系,计算公式为:
Figure FDA0004046022120000011
Figure FDA0004046022120000012
Figure FDA0004046022120000013
Figure FDA0004046022120000014
其中head[i]和tail[i]表示xi的头和尾的位置,
Figure FDA0004046022120000015
表示xi的头部与xj的头部之间的距离,其他类似;
利用非线性变换得到两两节点之间的最终相对位置编码Rij,计算公式为:
Figure FDA0004046022120000021
其中,ReLU为激活函数,Wr是可学习参数,
Figure FDA0004046022120000022
表示拼接操作,pd计算如下:
Figure FDA0004046022120000023
Figure FDA0004046022120000024
其中k为位置编码的维数指标。
5.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S4的具体过程为:
Step1:所述Transformer模型,包括:自注意力层、两个求和标准化层、全连接层,使用Transformer编码器中的多头注意力机制对向量化后的文本向量矩阵计算注意力,在计算过程中加入位置编码,相对位置编码计算公式为:
Figure FDA0004046022120000025
其中
Figure FDA0004046022120000026
是可学习参数,Exj为上层输入的字词向量特征,Rij是相对位置编码矩阵;
多头注意力值计算公式为:
MultiHead(Q,K,V)=Concat(head1,…,,headh)W0
headdi=Att(QWi Q,KWi K,VWi V)
其中,Q、K、V为文本序列Token部分的嵌入向量与最终相对位置编码相加后的结果,Concat为拼接操作,i为注意力的头数,W0、Wi Q、Wi K、Wi V为可训练的权重矩阵;
Step2:将Step1的输出和输入的文本向量矩阵加起来残差连接;同时采用层标准化做归一化处理;将归一化后的结果输出后送入前馈网络层,使用ReLU激活函数进行非线性转换;
Step3:同样将Step2 ReLU激活变换后的输出与归一化后的输出进行残差连接和采用层标准化做归一化处理,输出Transformer编码器的文本特征A;
Step4:使用TCN的因果卷积和膨胀卷积获取文本向量矩阵之间的局部特征信息;TCN采用残差模块对文本向量矩阵进行正则化,一个残差模块包含两层的卷积和非线性映射,输出最终获取的文本特征B;
Step5:使用ADD操作,将A和B两个特征进行融合,得到新的向量序列。
6.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S5的具体过程为:将上下文编码层的输出输入CRF模型解码,得到实体标签信息,CRF预测时,会根据训练好的参数选取概率最大的候选标签序列作为最终结果。
CN202310028057.1A 2023-01-09 2023-01-09 一种基于词汇增强的中医文本命名实体识别方法 Pending CN115906857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310028057.1A CN115906857A (zh) 2023-01-09 2023-01-09 一种基于词汇增强的中医文本命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310028057.1A CN115906857A (zh) 2023-01-09 2023-01-09 一种基于词汇增强的中医文本命名实体识别方法

Publications (1)

Publication Number Publication Date
CN115906857A true CN115906857A (zh) 2023-04-04

Family

ID=86481066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310028057.1A Pending CN115906857A (zh) 2023-01-09 2023-01-09 一种基于词汇增强的中医文本命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115906857A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341554A (zh) * 2023-05-22 2023-06-27 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法
CN117077672A (zh) * 2023-07-05 2023-11-17 哈尔滨理工大学 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341554A (zh) * 2023-05-22 2023-06-27 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法
CN116341554B (zh) * 2023-05-22 2023-08-29 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法
CN117077672A (zh) * 2023-07-05 2023-11-17 哈尔滨理工大学 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法
CN117077672B (zh) * 2023-07-05 2024-04-26 哈尔滨理工大学 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法

Similar Documents

Publication Publication Date Title
CN109582789B (zh) 基于语义单元信息的文本多标签分类方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN111738004B (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112487143B (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN115906857A (zh) 一种基于词汇增强的中医文本命名实体识别方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113423004B (zh) 基于解耦译码的视频字幕生成方法和系统
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN114756687A (zh) 基于自学习实体关系联合抽取的钢铁产线设备诊断方法
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN113868432A (zh) 一种用于钢铁制造企业的知识图谱自动构建方法和系统
CN113312912A (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN115630649A (zh) 一种基于生成模型的医学中文命名实体识别方法
CN111340006A (zh) 一种手语识别方法及系统
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN117197891A (zh) 一种多模态骨骼动作识别方法及装置
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和系统
CN116151260A (zh) 一种基于半监督学习的糖尿病命名实体识别模型构建方法
CN113505207B (zh) 一种金融舆情研报的机器阅读理解方法及系统
CN114580423A (zh) 一种基于Bert与Scat的页岩气领域命名实体识别方法
CN113971405A (zh) 基于albert模型融合的医疗命名实体识别系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication