CN115906857A - 一种基于词汇增强的中医文本命名实体识别方法 - Google Patents
一种基于词汇增强的中医文本命名实体识别方法 Download PDFInfo
- Publication number
- CN115906857A CN115906857A CN202310028057.1A CN202310028057A CN115906857A CN 115906857 A CN115906857 A CN 115906857A CN 202310028057 A CN202310028057 A CN 202310028057A CN 115906857 A CN115906857 A CN 115906857A
- Authority
- CN
- China
- Prior art keywords
- chinese medicine
- layer
- text
- traditional chinese
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000001364 causal effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 208000011580 syndromic disease Diseases 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 206010043946 Tongue conditions Diseases 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000003759 clinical diagnosis Methods 0.000 claims description 2
- 230000036541 health Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 208000024891 symptom Diseases 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 9
- 230000011218 segmentation Effects 0.000 abstract description 5
- 208000000044 Amnesia Diseases 0.000 abstract description 3
- 208000026139 Memory disease Diseases 0.000 abstract description 3
- 230000006984 memory degeneration Effects 0.000 abstract description 3
- 208000023060 memory loss Diseases 0.000 abstract description 3
- 238000004140 cleaning Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 208000035240 Disease Resistance Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种面向中医文本的命名实体识别方法,具体涉及一种基于词汇增强的中医文本命名实体识别方法,包括:首先,收集中医文献通过数据清洗、标注,构建中医领域数据集;之后,引入中医领域词典;然后,输入到输入表示层的嵌入层和位置编码,嵌入层采用扁平晶格结构,在生成字符向量时,结合领域词典同时生成字符对应的单词向量,位置编码对不同字符进行相对位置编码;接着,送入上下文编码层,通过Transformer编码器和TCN模型获取文本的全局和局部特征;最后,输出解码层CRF模型对融合后的特征向量进行解码,得到全局最优的标签序列。本发明解决了中医实体过长引发的长记忆丢失和分词错误带来的噪声问题,使得中医命名实体识别任务更精准高效。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于词汇增强的中医文本命名实体识别方法。
背景技术
中医是中国传统医学文化的精华,同时也是中国历史上历代人民与疾病抗争中积累下来的拥有丰富诊疗经验的总结。同时当前我国提倡“智慧医疗”,“医工融合”,将人工智能相关的技术应用到医学信息处理当中,对中医文献进行命名实体识别,有助于理清中医文献的知识概念表达,是中医文献信息化、智能化处理的重要任务。
早期传统的命名实体识别算法是基于词典和规则的方法,采用机器学习对实体边界和类别标签进行联合预测,但是这种方式效率低,可移植性差。随着深度学习技术的发展,基于深度学习的命名实体识别方法逐渐成为主流。目前在中医领域使用最多的是双向长短时记忆网络结合条件随机场序列标注(BiLSTM-CRF)的命名实体识别方法。该方法能够在一定程度上获取长句子的上下文信息,提高实体边界的识别效率;同时结合CRF方法生成最优的标注序列。但是该方法在上下文信息获取上仍有很大的不足和提升空间;并且在特征提取上采用相对传统的网络结构,局限性较大。另一方面,通过字级别和词级别统计方法的比较可以发现,基于词的命名实体识别方法通常效果差于基于字符的命名实体方法。
这是因为中文分词存在误差,但词汇信息在中文NER任务中,起到了判断实体边界等重要作用,因此提出词汇增强方法,在以字为基本组成成分的模型中引入词汇的信息。这样一方面能够告诉模型实体的边界信息,提供先验知识;另一方面,在很多垂直领域中存在很多专有的词汇表,是很强的约束信息集合,通过词汇表的方式可以直接利用这些约束信息干预模型的输出。
针对中医领域训练数据匮乏、标注数据少,部分研究仅针对单一疾病或某一中医名老进行标注和研究等问题,本发明收集大量中医语料,利用中医高等教材作为知识源,通过标注、审核、数据处理构建更为全面的中医实体识别数据集及中医领域词典,并在领域专家的指导下定义了10种实体类别。
针对中医实体过长引发的长记忆丢失问题和分词错误带来的噪声问题,本发明提出了一种基于词汇增强的中医文本命名实体识别方法,该模型采用Transformer和时域卷积网络(Temporal Convolutional Network,TCN)作为编码层,不同于LSTM,Transformer引入的注意力机制从根本上解决了长记忆丢失问题。TCN模型能够通过感受野灵活的提取文本的局部特征作为补充。为了解决命名实体识别容易受分词信息的影响,采用基于字符的序列标注方法,引入领域词典,利用词汇增强强化实体边界。
发明内容
为解决上述技术问题,本发明提供了一种基于词汇增强的中医文本命名实体识别方法。
一种基于词汇增强的中医文本命名实体识别方法,包括以下步骤:
S1,构建中医命名实体识别标准数据集;
S2,引入中医领域专用词典;
S3,以步骤S1构建的数据集作为模型训练的原始数据,送入输入表示层,采用扁平晶格网络实现字词向量的生成和提取相对位置特征信息;
输入表示层包括嵌入层和位置编码,嵌入层采用扁平晶格结构,在生成字符向量时,结合词典同时生成字符对应的单词向量;位置编码使用对不同字符或单词文本进行相对位置编码的方式
S4,以步骤S3输入表示层的输出结果输入到上下文编码层,所述的上下文编码层通过Transformer编码器和TCN模型获取文本的全局和局部特征,采用ADD操作融合两个模型捕获的特征信息,最后得到新的特征向量序列;
S5,采用输出解码层CRF模型对步骤S4融合后的特征向量进行解码,得到全局最优的标签序列。
本发明的有益效果:
1.采用Transformer和时域卷积网络(Temporal Convolutional Network,TCN)作为编码层,TCN捕获的局部信息使Transformer获取的上下文信息更加有效,且保留了其获取长距离依赖关系的能力,能够很好地解决中医实体过长引发的长记忆丢失问题。
2.采用基于字符的序列标注方法,引入中医领域词典,利用词典增强强化实体边界,解决命名实体识别容易受分词信息的影响,在中医文本领域命名实体识别任务中具有有效性和优越性。
附图说明
图1为本发明整体流程图;
图2为本发明所提出的算法模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明一种基于词汇增强的中医文本命名实体识别方法,具体包括以下步骤:
S1,构建中医命名实体识别标准数据集,利用中医高等教材作为知识源,通过数据收集、确定实体标签、实体标注、数据处理等形成规范化文本数据以及标准数据集,将数据集按照8:1:1分为训练集、验证集和测试集。
S2,引入中医领域专用词典,构建中医领域知识词典,词典术语数据来源于国家中医药管理局、国家卫生健康委员会颁发的中医药行业标准:《中医病证分类与代码》和《中医临床诊疗术语》,主要包括:疾病名称、症状名称、证候名称、治法名称、脉象名称、舌象名称、方剂名称、药物名称等。
S3,以步骤S1构建的数据集作为模型训练的原始数据,送入输入表示层,采用扁平晶格网络实现字词向量的生成和提取相对位置特征信息;
利用中医领域知识词汇进行补充,从词典(领域加通用)中获得句子每个字符所对应的潜在单词,加入到文本序列中;将文本序列转化为FLAT模型采用的扁平晶格结构的文本序列(可以定义为多个文本片段span的集合,其中一个文本片段由文本token、头部head和尾部tail构成);嵌入层将每个文本向量化表示成矩阵dmodel是文本向量的维度;使用相对位置编码对文本片段之间的交互进行编码;计算公式为:
利用非线性变换得到两两节点之间的最终相对位置编码Rij,计算公式为:
其中k为位置编码的维数指标。
S4,以步骤S3输入表示层的输出结果输入到上下文编码层,所述的上下文编码层通过Transformer编码器和TCN模型计算文本中字符与字符,字符与单词之间的关系,使模型能够学习字词之间的关系和每个字与词的重要性程度,从而获取全局和局部性的特征信息,之后采用ADD操作融合两个模型捕获的特征信息,最后得到新的特征向量序列。
Transformer编码器引入了相对位置编码,但位置编码所获取的局部信息有限,无法通过模型结构本身学习到词汇的局部信息。TCN模型的因果卷积和膨胀卷积通过获取文本向量矩阵之间的局部特征信息,对Transformer编码器捕获的向量信息进行补充,同时它也具有捕获文本序列长期依赖关系和并行计算的能力。
所述S4具体包括如下:
Step1:所述Transformer模型,包括:自注意力层、两个求和标准化层、全连接层,使用Transformer编码器中的多头注意力机制对向量化后的文本向量矩阵计算注意力,在计算过程中加入位置编码,相对位置编码计算公式为:
多头注意力值计算公式为:
MultiHead(Q,K,V)=Concat(head1,…,,headh)W0
Step2:将Step1的输出和输入的文本向量矩阵加起来残差连接;同时采用层标准化做归一化处理;将归一化后的结果输出后送入前馈网络层,使用ReLU激活函数进行非线性转换;
Step3:同样将Step2 ReLU激活变换后的输出与归一化后的输出进行残差连接和采用层标准化做归一化处理,输出Transformer编码器的文本特征A;
Step4:使用TCN的因果卷积和膨胀卷积获取文本向量矩阵之间的局部特征信息;TCN采用残差模块对文本向量矩阵进行正则化,一个残差模块包含两层的卷积和非线性映射,输出最终获取的文本特征B;
Step5:使用ADD操作,将A和B两个特征进行融合,得到新的向量序列。
S5,采用输出解码层CRF模型对步骤S4融合后的特征向量进行解码,得到全局最优的标签序列;将上下文编码层的输出输入CRF模型解码,得到实体标签信息,CRF预测时,会根据训练好的参数选取概率最大的候选标签序列作为最终结果。
Claims (6)
1.一种基于词汇增强的中医文本命名实体识别方法,其特征在于,包括以下步骤:
S1,构建中医命名实体识别标准数据集;
S2,引入中医领域专用词典;
S3,以步骤S1构建的数据集作为模型训练的原始数据,送入输入表示层,采用扁平晶格网络实现字词向量的生成和提取相对位置特征信息;
S4,以步骤S3输入表示层的输出结果输入到上下文编码层,所述的上下文编码层通过Transformer编码器和TCN模型获取文本的全局和局部特征,采用ADD操作融合两个模型捕获的特征信息,最后得到新的特征向量序列;
S5,采用输出解码层CRF模型对步骤S4融合后的特征向量进行解码,得到全局最优的标签序列。
2.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S1的具体过程为:中医文献搜集,OCR文字提取,清洗校正、领域专家确定实体标签及标注规则、使用doccano进行实体标注、数据处理等形成规范化文本数据以及标准数据集,将数据集按照8:1:1分为训练集、验证集和测试集。
3.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S2的具体过程为:构建中医领域知识词典,词典术语数据来源于国家中医药管理局、国家卫生健康委员会颁发的中医药行业标准:《中医病证分类与代码》和《中医临床诊疗术语》,主要包括:疾病名称、症状名称、证候名称、治法名称、脉象名称、舌象名称、方剂名称、药物名称等。
5.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S4的具体过程为:
Step1:所述Transformer模型,包括:自注意力层、两个求和标准化层、全连接层,使用Transformer编码器中的多头注意力机制对向量化后的文本向量矩阵计算注意力,在计算过程中加入位置编码,相对位置编码计算公式为:
多头注意力值计算公式为:
MultiHead(Q,K,V)=Concat(head1,…,,headh)W0
headdi=Att(QWi Q,KWi K,VWi V)
其中,Q、K、V为文本序列Token部分的嵌入向量与最终相对位置编码相加后的结果,Concat为拼接操作,i为注意力的头数,W0、Wi Q、Wi K、Wi V为可训练的权重矩阵;
Step2:将Step1的输出和输入的文本向量矩阵加起来残差连接;同时采用层标准化做归一化处理;将归一化后的结果输出后送入前馈网络层,使用ReLU激活函数进行非线性转换;
Step3:同样将Step2 ReLU激活变换后的输出与归一化后的输出进行残差连接和采用层标准化做归一化处理,输出Transformer编码器的文本特征A;
Step4:使用TCN的因果卷积和膨胀卷积获取文本向量矩阵之间的局部特征信息;TCN采用残差模块对文本向量矩阵进行正则化,一个残差模块包含两层的卷积和非线性映射,输出最终获取的文本特征B;
Step5:使用ADD操作,将A和B两个特征进行融合,得到新的向量序列。
6.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S5的具体过程为:将上下文编码层的输出输入CRF模型解码,得到实体标签信息,CRF预测时,会根据训练好的参数选取概率最大的候选标签序列作为最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310028057.1A CN115906857A (zh) | 2023-01-09 | 2023-01-09 | 一种基于词汇增强的中医文本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310028057.1A CN115906857A (zh) | 2023-01-09 | 2023-01-09 | 一种基于词汇增强的中医文本命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115906857A true CN115906857A (zh) | 2023-04-04 |
Family
ID=86481066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310028057.1A Pending CN115906857A (zh) | 2023-01-09 | 2023-01-09 | 一种基于词汇增强的中医文本命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115906857A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341554A (zh) * | 2023-05-22 | 2023-06-27 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
CN117077672A (zh) * | 2023-07-05 | 2023-11-17 | 哈尔滨理工大学 | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 |
-
2023
- 2023-01-09 CN CN202310028057.1A patent/CN115906857A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341554A (zh) * | 2023-05-22 | 2023-06-27 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
CN116341554B (zh) * | 2023-05-22 | 2023-08-29 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
CN117077672A (zh) * | 2023-07-05 | 2023-11-17 | 哈尔滨理工大学 | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 |
CN117077672B (zh) * | 2023-07-05 | 2024-04-26 | 哈尔滨理工大学 | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582789B (zh) | 基于语义单元信息的文本多标签分类方法 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN111738004B (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN112487143B (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN112613303B (zh) | 一种基于知识蒸馏的跨模态图像美学质量评价方法 | |
CN115906857A (zh) | 一种基于词汇增强的中医文本命名实体识别方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113423004B (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN114756687A (zh) | 基于自学习实体关系联合抽取的钢铁产线设备诊断方法 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN113868432A (zh) | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 | |
CN113312912A (zh) | 一种用于交通基础设施检测文本的机器阅读理解方法 | |
CN115630649A (zh) | 一种基于生成模型的医学中文命名实体识别方法 | |
CN111340006A (zh) | 一种手语识别方法及系统 | |
CN114154504A (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN117197891A (zh) | 一种多模态骨骼动作识别方法及装置 | |
CN117113937A (zh) | 一种基于大规模语言模型的电力领域阅读理解方法和系统 | |
CN116151260A (zh) | 一种基于半监督学习的糖尿病命名实体识别模型构建方法 | |
CN113505207B (zh) | 一种金融舆情研报的机器阅读理解方法及系统 | |
CN114580423A (zh) | 一种基于Bert与Scat的页岩气领域命名实体识别方法 | |
CN113971405A (zh) | 基于albert模型融合的医疗命名实体识别系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |