CN117875312A - 多特征嵌入长短时记忆网络的水环境命名实体识别方法 - Google Patents

多特征嵌入长短时记忆网络的水环境命名实体识别方法 Download PDF

Info

Publication number
CN117875312A
CN117875312A CN202410049211.8A CN202410049211A CN117875312A CN 117875312 A CN117875312 A CN 117875312A CN 202410049211 A CN202410049211 A CN 202410049211A CN 117875312 A CN117875312 A CN 117875312A
Authority
CN
China
Prior art keywords
chinese
named entity
data
training
entity recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410049211.8A
Other languages
English (en)
Inventor
毕敬
倪坤
乔俊飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202410049211.8A priority Critical patent/CN117875312A/zh
Publication of CN117875312A publication Critical patent/CN117875312A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种面向中文水环境文本的命名实体识别的方法,特别是涉及一种基于多特征嵌入的双向长短时记忆神经网络(Bi‑directional Long Short Term Memory,BiLSTM),高速自注意力机制(Highway Self‑attention)与条件随机场(Conditional Random Field,CRF)混合神经网络的中文水环境文本命名实体识别方法。首先,将获取到的中文水环境文本数据用预先训练好的词典进行词嵌入,将中文字符与词语映射成向量。同时,将文本数据转换成拼音、五笔编码,通过模型预训练出拼音、结构与字体特征词典作为补充特征向量进行补充嵌入。然后,使用BiLSTM神经网络层从两个方向对拼接后的多特征数据进行训练提取。接着使用Highway Self‑attention对进一步提取句子级特征。最后使用CRF来解码特征,并获取准确度较高的命名实体所属类别的预测结果。

Description

多特征嵌入长短时记忆网络的水环境命名实体识别方法
技术领域
本发明涉及一种面向中文水环境文本的命名实体识别的方法,特别是涉及一种基于多特征嵌入长短时记忆网络的水环境命名实体识别方法。
背景技术
近年来,自然语言处理成为人工智能领域的一个研究热点,人们提出了许多获取文本信息的方法。命名实体识别(Named Entity Recognition,NER)旨在识别与特定语义相关的实体,找到句子中实体的开始和结束,并最终为实体分配语义类型。准确快速地识别水环境文本中的关键实体可以帮助管理人员提取重要信息,成为改善水质的一大重要辅助手段。传统的命名实体识别方法依赖于大量语言专家制定带有标点符号、关键字等的规则模板。但由于一套规则模板难以涵盖所有的语言现象,导致系统可移植性不好,对于不同的系统需要语言学专家重新书写规则,编制过程耗时且容易产生错误。而传统的机器学习方法虽然将统计算法与人工特征相结合,对模型进行训练和优化,但也存在预测精度低,难以充分提取语义信息等缺点。
近年来,随着神经网络的快速发展,深度学习方法在自然语言处理领域取得了重大突破。目前大多数中文命名实体识别数据由于没有明确的词语分隔符,导致数据中经常存在语言歧义,传统神经网络很难捕捉到这种因语言歧义产生的分词错误,导致预测的精度不足。基于多特征嵌入的长短时记忆模型(Bi-directional Long Short Term Memory,BiLSTM)模型赋予了神经网络从两个方向对数据的字级、词级、拼音、结构和字体特征进行提取,有力地挖掘文本数据中的语义特征,那么基于多特征嵌入的BiLSTM模型的思想进行预测会有更加精准的预测能力。另外考虑到整句话对预测结果可能产生影响,采用高速自注意力机制(Highway Self-attention)的BiLSTM模型,在提取句子级特征的同时,加快Self-attention模块的训练速度。
发明内容
针对以上现有技术的不足,本发明提供一种基于多特征嵌入的BiLSTM,HighwaySelf-attention与条件随机场(Conditional Random Field,CRF)的混合神经网络的中文命名实体识别方法。包括:基于预训练词典的多特征向量嵌入方案;基于BiLSTM的多级特征提取方案;基于Highway Self-attention实现对数据句子级特征的提取;基于CRF的特征解码,并获取精准度较高的预测结果。本发明的目的通过以下技术方案来实现。
基于多特征嵌入长短时记忆神经网络的中文命名实体识别方法,该方法包括如下的步骤:
1)获取北京市生态环境局和中华人民共和国生态环境部过去一段时间发布的水环境方面的中文文本数据,并对文本数据所属类别打上标签;
2)在1)的基础上,对水环境中文文本数据通过预训练词典进行字嵌入和词嵌入处理,并且依据不同文本的长度,自适应地将中文字符与词语映射成相同维度的特征向量。
3)在1)的基础上,将水环境中文文本数据转换成拼音与五笔编码,并且分别基于拼音、结构与字体特征,各通过模型生成预训练特征词典,依据不同文本的长度,自适应地将拼音、结构与字体特征映射成相同维度的补充特征向量。
4)在2)和3)的基础上,使用BiLSTM神经网络层从两个方向对拼接后的多维度特征数据进行训练提取;
5)在4)的基础上,使用Highway Self-attention对数据的句子级特征进行训练提取。
6)在5)的基础上,使用CRF来解码特征,获取准确度较高的命名实体所属类别的预测结果,并通过与数据原标签进行对比进行模型评价。
附图说明
图1一种多特征嵌入长短时记忆神经网络的水环境命名实体识别方法组成示意图;
图2一种基于多特征嵌入长短时记忆神经网络模型结构图。
具体实施方式
下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说显而易见的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。
下面将参照附图1来描述根据本发明实施例的一种基于多特征嵌入的BiLSTM,Highway Self-attention与CRF混合神经网络的中文命名实体识别方法的具体步骤如下:
第一步,预处理水环境文本数据。
由于获取到的文本数据不符合命名实体识别任务的数据格式要求,因此通过机器粗标与人工精标相结合的方式,对文本数据进行原始标注。标注方法参照“BIO”标注方法,将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头;“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置;“O”表示不属于任何类型。然后对打好标签的水环境中文文本数据用预先训练好的词典进行嵌入处理,将中文字符与词语映射成向量。
第二步,使用多特征词典将水环境文本数据转换成特征向量。
对于字级和词级特征向量的嵌入,本模型使用开源的字级与词级词典,将水环境文本数据转换成字级与词级向量。该开源词典使用Word2vec在自动分词的ChineseGigaword数据集上预训练。
假设输入的序列由s={c1,c2,…,cn}表示,其中,ci表示句子s中的第i个字符。进行词嵌入处理后,每个ci都转换成了对应的向量xi,计算公式如下:
xi=[ec(ci);eb(ci,ci+1)]
其中ec表示字嵌入操作,eb表示双字嵌入操作。
为了利用单词信息,将词级嵌入通过SoftLexicon的方式引入到xi中。首先对匹配的单词进行分类,对于任意输入序列s={c1,c2,…,cn}中的每个字符ci的所有匹配词划分为4个词集“BMES”,这四个词集由以下方式构成:
其中,D表示字级与词级嵌入词典。此外,如果某词集不存在符合要求的字或词,则会向空词集添加一个特殊标记“NONE”。
在获得每个字符的“BMES”词集后,将每个词级压缩成固定维向量。假设z(w)表示某个词典词在文本数据中出现的频率,则词集L的加权表示vs(L)计算如下:
其中,ew词嵌入操作,Z的计算如下:
接着将四个词集的表示组合成一个定维特征,并将其添加到每个字符的表示中,表示方式如下:
xi←[xi;vs(B);vs(M);vs(E);vs(S)]
对于拼音特征向量的嵌入,本模型使用开源库将水环境文本数据转换成拼音表示,并通过Word2vec预训练拼音数据生成拼音词典,并将拼音特征其添加到每个字符的表示中,表示方式如下:
xi←[xi;ep(ci)]
其中,ep表示拼音嵌入操作。
对于结构特征向量的嵌入,本模型使用开源库将水环境文本数据转换成五笔编码表示。由于五笔输入基于字符的结构,并且五笔编码具有实际结构意义且序列顺序意味着字符组件的顺序,因此五笔编码适合作为补充特征。通过Word2vec预训练五笔编码数据生成结构词典,并将结构特征其添加到每个字符的表示中,表示方式如下:
xi←[xi;es(ci)]
其中,es表示结构嵌入操作。
对于字体特征向量的嵌入,本模型使用Glyce预训练模型进行补充输入,该模型通过田字格卷积神经网络训练了多种字体形成字体特征向量。将字体特征其添加到每个字符的表示中,表示方式如下:
xi←[xi;eg(ci)]
其中,eg表示字体嵌入操作。
第三步,使用BiLSTM从两个方向对数据的字符级特征进行提取。
BiLSTM是LSTM的改进。由于命名实体识别需要充分考虑上下文语义特征,因此BiLSTM在保持原有模型从上文提取语义特征的同时,又结合下文提取特征,综合考虑了上下文语境。BiLSTM的原理如下:
在LSTM的基本递归结构中,每个ci都对应一个字符单元向量与一个隐藏向量/>一个LSTM存在一个长时记忆(Cell)和三个门(输入、输出和遗忘门),计算公式如下:
其中,⊙代表点乘,Wi,Wo,Wf和Wc矩阵分别代表输入门、输出门、遗忘门和Cell的权重矩阵,bi,bo,bf和bc分别代表输入门、输出门、遗忘门和Cell的偏差向量,σ(·)和tanh(·)是Sigmoid函数和Tanh函数。
对于BiLSTM,从上文得到的隐藏状态为从下文得到的隐藏状态为/>因此每个字符的隐藏状态表示为:
第四步,使用Highway Self-attention对句子级特征进行提取。
在提取字符级与词语级特征之后,使用Self-attention,以便更好地提取句子级特征。计算公式为:
其中,j={1,2,…,n},表示在句子s中每个字符,ηi,j的计算公式如下:
其中,score(·)是得分函数,计算公式如下:
其中,V、W1和W2是Self-attention层的权重矩阵。
Highway网络旨在简化深度学习网络的训练,优化了在训练过程中获得的特征和信息,并允许它们以高速通过神经网络层。因此本模型引入一个基于门控单元的Highway层来优化Self-Attention,计算公示如下:
cg=1-tg
其中tg表示用来控制进入Self-attention层的特征数量的变换门,cg表示用来控制跳过Self-attention层的特征数量的进位门,表示叉乘,Wg表示权重矩阵,bg表示偏差向量。
第五步,使用CRF来解码特征。
在提取完字符级、词语级、位置和句子级特征后,使用CRF来对这些特征进行解码,以获取精准度较高的命名实体所属类别的预测结果。
首先将BiLSTM与注意力机制的输出拼接成一个整体特征然后使用CRF对其进行解码。给定一个预测标签序列Y={y1,y2,…,ym},获得实际标签顺序可能的结果,计算公式如下:
其中,Y'={y'1,y'2,…,y'm}表示句子Sc所有可能的标签序列,是yi的可训练参数矩阵,/>表示yi-1和yi的偏差参数。
为了获得良好的预测结果,在训练过程中,给定标记好的数据损失函数Loss按如下公式计算:
其中,N是训练数据的句子数量,λ是L2正则化参数,Θ表示参数集。
本发明的技术贡献
中文命名实体识别,旨在识别与特定语义相关的实体,找到句子中实体的开始和结束,并最终为实体分配语义类型。命名实体识别广泛应用于各种语言当中,但大多数中文命名实体识别数据由于没有明确的词语分隔符,导致数据中经常存在语言歧义,传统神经网络很难捕捉到这种因语言歧义产生的分词错误,导致预测的精度不足。目前,大多已有的中文命名实体识别模型采用CNN、LSTM及其变体的方法来进行中文实体识别这些方法虽然能够取得相对比较好的预测结果,但它们却不能有效考虑到字级、词级、拼音、结构和字体等多特征对实体识别结果产生的结果,本专利针对上述问题,提出了一种基于多特征嵌入长短时记忆神经网络的中文命名实体识别方法。该方法能够在保证预测精度的情况下,克服上述问题。与已有的工作相比,本发明的主要贡献在于以下几个方面:
(1)本发明采用多特征词典进行水环境文本数据的向量嵌入,它不像过往的命名实体识别模型的输入那样,只能支持字级或词级的特征输入,而是将字级、词级、拼音、结构和字体特征进行拼接嵌入,在丰富了训练数据语义特征的同时,减少了分词错误带来的影响;
(2)本发明采用BiLSTM与Self-attention相结合的深度学习网络模型进行训练,在对嵌入后的训练数据进行隐藏特征提取之后,又通过Self-attention对BiLSTM层的输出从句子级的角度进一步提取隐藏特征,将一个输入序列的宏观特征和微观特征考虑成一个整体进行整合,最后解码并输出数据的预测标签;
(3)本发明创新性地将Highway网络和Self-attention相结合,更好地处理了句子中隐含的信息,在避免隐藏特征被过度提取的同时,加快了Self-attention层的训练速度,最后解码并输出数据的预测标签。
本发明对上面提出的一种基于多特征嵌入长短时记忆神经网络的中文命名实体识别方法。应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,然而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于多特征嵌入长短时记忆神经网络的水环境命名实体识别方法,其特征在于,该方法包括如下步骤:
1)获取北京市生态环境局和中华人民共和国生态环境部过去一段时间发布的水环境方面的中文文本数据,并对文本数据所属类别打上标签;
2)对水环境中文文本数据通过预训练词典进行字嵌入和词嵌入处理,并且依据不同文本的长度,自适应地将中文字符与词语映射成相同维度的特征向量。
3)将水环境中文文本数据转换成拼音与五笔编码,并且分别基于拼音、结构与字体特征,各通过模型生成预训练生成词典,依据不同文本的长度,自适应地将拼音、结构与字体特征映射成相同维度的补充特征向量。
4)使用双向长短时记忆(Bi-directional Long Short Term Memory,BiLSTM)神经网络层从两个方向对拼接后的多维度特征数据进行训练提取;
5)使用高速自注意力机制(Highway Self-attention)对数据句子级特征进行训练提取。
6)使用条件随机场(Conditional Random Field,CRF)来解码特征,获取准确度较高的命名实体所属类别的预测结果,并通过与数据原标签进行对比进行模型评价。
2.根据权利要求1所述的方法,其特征在于,所述基于真实的水环境中文文本数据,训练所述中文命名实体识别模型,包括:
获取水环境中文文本数据,并对文本数据所属类别打上标签;将打好标签的数据按照预设比例划分为训练集和测试集;通过预训练词典,对水环境中文文本数据进行字和词嵌入处理;将数据转换成拼音与五笔编码,并预训练分别获得拼音、结构和字体词典,作为补充特征进行多特征嵌入处理;将词嵌入处理后的水环境中文文本数据作为输入,训练所述中文命名实体识别模型,以获得命名实体识别模型的参数。
3.根据权利要求1所述的方法,其特征在于,所述基于所述中文命名实体识别模型预测命名实体所属类别,包括:
获取水环境中文文本数据并打好标签;对所述已打好标签的水环境中文文本数据进行多特征嵌入处理,自适应地映射成相同维度的向量;将多特征嵌入处理后的数据进行拼接后,输入到所述中文命名实体识别模型;解码所述中文命名实体识别模型的输出数据,获得命名实体所属类别的预测数据,并与数据原标签进行对比,评价模型预测精度。
4.根据权利要求2和权利要求3所述的方法,其特征在于,所述基于BiLSTM,HighwaySelf-attention与CRF混合神经网络来构建中文命名实体识别模型,具体包括:
使用BiLSTM神经网络层从两个方向对拼接后的多特征数据进行训练提取;使用Highway Self-attention对数据的句子级特征进行提取;使用CRF来解码特征,获取准确度较高的命名实体所属类别的预测结果,以构成所述中文命名实体识别模型。将预测结果与原数据标签进行对比,最终评价模型预测精度。
5.根据权利要求2所述的方法,其特征在于,所述根据所述测试集测试并优化所述中文命名实体识别模型,包括:
所述中文命名实体识别模型,根据所述中文命名实体识别模型在测试集上的预测结果,调整所述中文命名实体识别模型学习率,测试经调整的所述水中文命名实体识别模型,优化所述中文命名实体识别模型的参数。
6.根据权利要求3所述的方法,其特征在于,所述根据不同文本的长度,自适应地将中文字符、词语、拼音、结构和字体特征映射成相同维度的向量。
每一段文本序列的长度不固定,这段文本序列即为完整的一句话。
每一段文本序列都将根据预训练词典映射成相同维度的向量,所使用的预训练词典以及映射向量的维度可以人工设定。
7.根据权利要求4所述的方法,其特征在于,所述基于所述中文命名实体识别模型预测实体标签之前,还包括:
改变所述数据的序列顺序,每轮训练都重新将已经打好标签并进行词嵌入处理后的数据,依据训练集和测试集划分的比例和范围,改变其序列顺序。根据改变序列顺序后的数据训练所述中文命名实体识别模型,调整优化所述中文命名实体识别模型。
8.根据权利要求4所述的方法,其特征在于,所述基于BiLSTM,带有位置编码的自注意力机制与CRF混合神经网络模型进行中文实体识别,包括:
可以对模型参数进行调整,包括BiLSTM隐藏节点、所用优化器、学习率大小等,进一步优化模型预测的精度。将字级、词级、拼音、结构以及字体特征进行拼接整合,在丰富输入数据语义特征的同时,减小了相同汉字因读音与意义不同带来的干扰。模型可以根据每轮预测结果来选择是否保留本次训练调整后的参数,更有利于后续优化。
CN202410049211.8A 2024-01-12 2024-01-12 多特征嵌入长短时记忆网络的水环境命名实体识别方法 Pending CN117875312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410049211.8A CN117875312A (zh) 2024-01-12 2024-01-12 多特征嵌入长短时记忆网络的水环境命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410049211.8A CN117875312A (zh) 2024-01-12 2024-01-12 多特征嵌入长短时记忆网络的水环境命名实体识别方法

Publications (1)

Publication Number Publication Date
CN117875312A true CN117875312A (zh) 2024-04-12

Family

ID=90596667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410049211.8A Pending CN117875312A (zh) 2024-01-12 2024-01-12 多特征嵌入长短时记忆网络的水环境命名实体识别方法

Country Status (1)

Country Link
CN (1) CN117875312A (zh)

Similar Documents

Publication Publication Date Title
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN111339750B (zh) 去除停用语并预测句子边界的口语文本处理方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN110569505B (zh) 一种文本输入方法及装置
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN115293138A (zh) 一种文本纠错方法及计算机设备
Xiu et al. A handwritten Chinese text recognizer applying multi-level multimodal fusion network
CN112488111B (zh) 一种基于多层级表达引导注意力网络的指示表达理解方法
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和系统
Alkhatlan et al. Attention-based sequence learning model for Arabic diacritic restoration
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
CN114692596A (zh) 基于深度学习算法的债券信息解析方法、装置及电子设备
CN114896966A (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN117875312A (zh) 多特征嵌入长短时记忆网络的水环境命名实体识别方法
Yadav et al. Different Models of Transliteration-A Comprehensive Review
CN115563981A (zh) 基于混合自注意力机制的长短时记忆神经网络的中文命名实体识别方法
Singh et al. Language model based suggestions of next possible Gurmukhi character or word in online handwriting recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination