CN111259672A

CN111259672A - 基于图卷积神经网络的中文旅游领域命名实体识别方法

Info

Publication number: CN111259672A
Application number: CN202010087875.5A
Authority: CN
Inventors: 西尔艾力·色提; 吾买尔江·买买提明; 吐尔根·依布拉音; 艾山·吾买尔; 买合木提·买买提; 娜迪热·艾来提; 阿拉提·阿扎提
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-06-09

Abstract

基于图卷积神经网络的中文旅游领域命名实体识别方法，图卷积神经网络包括输入层、嵌入层、图卷积层和层级结构，其中输入体包括命名实体和非实体；S1：以旅游领域文本的任意非实体为中心同时向两边扩展，直至遍历完整个句子中的单个字；S2：字符特征的提取；S3：提取字符特征；S4：输入和训练；S5：图卷积层优化；S6：旅游领域文本数据中全部的命名实体进行标注；在图卷积层中引入拉普拉斯正则化损失函数，以进行节点内部结构信息的挖掘和字符特征的提取；S7：获得命名实体和非实体之间的层级关系。本发明，利用图卷积神经网络构建字符特征提取方法，并对字符特征进行语义建模，以实现文本中命名实体的正确识别。

Description

基于图卷积神经网络的中文旅游领域命名实体识别方法

技术领域

本发明涉及文旅游领域命名实体识别方法领域，尤其涉及基于图卷积神经网络的中文旅游领域命名实体识别方法。

背景技术

命名实体识别是指从大量的非结构化或结构化文本中抽取出相应的人名、地名或组织机构等实体，并对其进行精确的分类识别。而传统的命名实体识别方法，严重依赖于语言学知识和特征工程，使其忽略了文本中实体所隐含的潜在信息，从而增加了文本中命名实体的识别难度。

自然语言处理形态分析领域，随着人类生活水平的提高，出行旅游是我们的生活中并不缺少的一部分。人们对旅游领域的关注度越来越重视。目前为止。每天在互联网上出现海量的旅游信息，从海量的信息中抽取人们感兴趣内容是及时解决的问题之一。而且旅游领域命名实体识别是旅游信息抽取的重要的部分，所以本文中研究旅游领域命名实体识别。

随着深度学习技术的不断成熟，大量的深度学习技术被应用到了命名实体抽取和识别中，并通过多层的神经网络结构以捕获文本中命名实体所隐含的潜在信息。如谷川等人利用双层条件随机场来获取底层条件随机场来识别出简单的实体，高层条件随机场嵌套使用识别复杂命名实体，并提高了识别的精度。

如冯艳红等人利用词向量特征和双向的长短期记忆网络(Bidirectional LongShort-Term Memory，Bi-LSTM)来获取文本序列标签的相关性，以及命名实体的上下文语义信息，并提高了命名实体的识别精度。

Maryam Habibi等人利用词嵌入技术提取了生物医学文本中命名实体的词向量特征，并用该特征替换了手工特征，最后，借助深度学习技术对其进行了识别分类。Pham，Thai-Hoang等人为提高越南语文本中命名实体的识别准确度，在双向长短期记忆网络的基础上，引入了条件随机场(Conditional Random Field，CRF)和卷积神经网络(Convolutional Neural Network，CNN)，并使用词和句子向量特征作为输入来增加越语文本中命名实体的判别性。

Augenstein，Isabelle等人结合特征稀疏表示和深度学习技术对Web文本中的用户命名实体进行了抽取和识别，并对该方法的可行性进行了解释。

以上研究学者使用深度学习算法虽然解决了人工参与设定特征带来的误差，并提高了命名实体识别的准确率，但大多是基于某种单一词嵌入技术来提取文本的词向量特征，而该方法不仅会丢失文本中命名实体的语义信息，同时也会忽略文本中命名实体之间的层级信息。

因此，针对上述问题，本文结合自注意力机制提出字符图卷积神经网络的命名实体识别方法，即通过字符图卷积神经网络来提取文本中命名实体的字符特征和实体的内部结构信息。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出基于图卷积神经网络的中文旅游领域命名实体识别方法，对字符特征进行语义建模，以实现文本中命名实体的正确识别。

(二)技术方案

为解决上述问题，本发明提出了基于图卷积神经网络的中文旅游领域命名实体识别方法，图卷积神经网络包括输入层、嵌入层、图卷积层和层级结构，其中输入体包括命名实体和非实体；

图卷积层和层级结构中的每个节点代表旅游文本中的单个字；x₁、x₂、x₃、x₄、x₅…x_n，分别代表文本句子中的单个字；

图卷积层中的每个节点在提取命名实体的字符特征时，将自身所获得的特征信息经过非线性变化之后传输到下一个邻接节点，并依次传递到周围的多个节点中，具体的计算步骤如下：

S1：以旅游领域文本的任意非实体为中心同时向两边扩展，直至遍历完整个句子中的单个字；

S2：经过嵌入层将文本中的每个字逐个映射到低维的向量空间中，并输入图卷积神经网络的图卷积层中，以进行字符特征的提取；

S3：为提取文本中命名实体的字符特征，设图卷积层中的节点i有节点特征Ci，邻接矩阵为A，其图和节点矩阵的定义，如下公式A所示：

公式A：

公式A：中，v＝{v₁，v₂，v₃…v_n}，代表图卷积层中图节点的集合；w＝{w₁，w₂，w₃…w_n}，代表图节点边的权重集合；e＝{e₁，e₂，e₃…e_n}，代表节点与节点之间边的集合；n，m分别代表图节点数和节点特征数；

S4：文本在图卷积层中的输入和训练过程，如下公式B所示：

公式B：

公式B中，c，h，l分别代表输入特征、隐藏层和隐层层数；

S5：图卷积层的节点矩阵和邻接矩阵的优化过程，如下公式C所示：

公式C：

公式C中，σ与ω分别代表激活函数和上一层隐含层的权重；

S6：旅游领域文本数据中全部的命名实体进行标注，即，分类标签，仅可用于部分节点；在图卷积层中引入拉普拉斯正则化损失函数，对可用分类标签进行节点信息的传递，以进行节点内部结构信息的挖掘和字符特征的提取；其中，拉普拉斯正则化函数的计算过程，如下公式D所示：

公式D：

公式D中，δ₀

表示部分分类标签的监督损失；f(*)函数代表图神经网络的可导函数；λ表示损失函数的加权因子；c代表图节点的特征向量矩阵；

S7：获得命名实体和非实体之间的层级关系。

优选的，将命名实体识别问题转换为序列标注，引入自注意力机制模型来捕获旅游领域文本中长距离命名实体之间的空间关系；自注意力机制模型因在编码和解码转换时，使用Transformer框架；在自注意力机制模型的基础上，使用门控的双向长短期记忆网络；

网络结构包括输入层、Bi-LSTM层、自注意力机制层；输入层中输入的是经过字符图卷积网络提取的字符特征和命名实体的层级结构信息；

命名实体的字符特征和层级关系信息输入双向的长短期记忆网络以刻画文本中长距离命名实体之间的依赖关系，并对其进行相关的编码和解码操作；在编码-解码转换的过程中，使用自注意力机制的Transformer框架，具体的计算过程如下公式E所示：

公式E：

公式E中，

表示双向长短期记忆网络在t时刻的隐藏层；

表示双向的长短期记忆网络；w_t表示t时刻的输入的特征向量。

优选的，经过Transformer框架转换之后，输入分类函数，获得相关的实验结果，具体计算如下公式F所示：

公式F：τ＝SoftMax(ωtanh(w，h^T))；

公式F中，ω表示矩阵的权重向量，h^T表示网络的全部隐藏层。

优选的，公式E中，

由多个门结构和记忆单元共同构成；各个门和记忆单元的计算公式，如下公式F所示：

公式F：

公式F中，i，f，o，b，c分别表示输入门、忘记门、输出门、偏置和记忆单元。

优选的，使用Adam优化函数对其进行优化学习；字符特征提取时，将图卷积层中的图节点数设置为28，将下层图节点设置为12个；评价标准F-Score值的计算如下公式G所示：

公式G：F-Score＝(2×P×R)/(P＝R)；公式G中，P与R分别表示准确率和召回率。

本发明，为捕获旅游文本中命名实体的相关性和层级结构信息，以及增强字符特征对文本中命名实体的表征能力，利用图卷积神经网络构建字符特征提取方法，并对字符特征进行语义建模，以实现文本中命名实体的正确识别。

附图说明

图1为本发明提出的基于图卷积神经网络的中文旅游领域命名实体识别方法中，字符图卷积网络的网络结构示意图。

图2为本发明提出的基于图卷积神经网络的中文旅游领域命名实体识别方法中，自注意力机制模型的基础上的双向长短期记忆网络示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1-2所示，本发明提出的基于图卷积神经网络的中文旅游领域命名实体识别方法，图卷积神经网络包括输入层、嵌入层、图卷积层和层级结构，其中输入体包括命名实体和非实体；

公式A：

S4：文本在图卷积层中的输入和训练过程，如下公式B所示：

公式B：

公式B中，c，h，l分别代表输入特征、隐藏层和隐层层数；

公式C：

公式C中，σ与ω分别代表激活函数和上一层隐含层的权重；

公式D：

公式D中，δ₀

S7：获得命名实体和非实体之间的层级关系。

本发明中，为捕获旅游文本中命名实体的相关性和层级结构信息，以及增强字符特征对文本中命名实体的表征能力，利用图卷积神经网络构建字符特征提取方法，并对字符特征进行语义建模，以实现文本中命名实体的正确识别。

需要说明的是，有效的特征对旅游领域文本中命名实体的正确识别起着至关重要的作用，即提取的特征包含有效的信息越多，则表征能力越强，反之越差。

需要说明的是，由于文本中命名实体之间和字符信息具有密切的相关性，且单个字在该文本中还具有特殊的结构信息。传统的卷积神经网络(Huang weijie,2016)和和长短期记忆网络(Chiu J P C,2015)在提取在文本中的语义空间时，会丢失大量的细节信息，以及文本中命名实体的空间结构信息。而图卷积层中的每个图节点在提取命名实体的字符特征时，会将自身所获得的特征信息经过非线性变化之后传输到下一个邻接节点，并依次传递到周围的多个图节点中，实现文本层级信息、字符特征和命名实体内部结构信息的准确抽取。

为弥补特征对文本语义信息描述的不足，本文将命名实体识别问题转换为序列标注问题，即实体初始单元标注为B，命名实体内部单元标注为I，旅游景点名称标注为TPER,队伍名称标注为Tteam等，如北京为B-I-TPER，旅游服务提供方为中国青年旅行团B-I-TORG等，服务等级为三星级等其他非实体统一标注为O。

为进一步减少语义信息在层间传递所累积的误差，本文引入自注意力机制模型来捕获旅游领域文本中长距离命名实体之间的空间关系。

自注意力机制模型因在编码和解码转换时使用了Transformer框架，其不仅有效解决了循环神经网络(RNN)出现的长距离依赖问题，同时也提高了模型的整体运行效率。但因其在提取文本的语义信息时，各个位置之间的相互独立的，回忽略相邻命名实体之间的相关性。

因此，在一个可选的实施例中，将命名实体识别问题转换为序列标注，引入自注意力机制模型来捕获旅游领域文本中长距离命名实体之间的空间关系；自注意力机制模型因在编码和解码转换时，使用Transformer框架；在自注意力机制模型的基础上，使用门控的双向长短期记忆网络；

公式E：

公式E中，

表示双向长短期记忆网络在t时刻的隐藏层；

在一个可选的实施例中，经过Transformer框架转换之后，输入分类函数，获得相关的实验结果，具体计算如下公式F所示：

公式F：τ＝SoftMax(ωtanh(w，h^T))；

在一个可选的实施例中，公式E中，

公式F：

如表1(实体类别参数表)所示：

表1

综上所述，本文所提命名实体的识别框架不仅可以根据上下文语义信息对文本中命名实体进行编码和解码，同时也可以进一步捕获旅游文本中长距离命名实体之间的相关性。最后，通过SoftMax分类函数对文本中命名实体进行分类识别。

为验证模型的可行性，本文使用1万条旅游领域文本数据进行实验验证，且旅游领域文本数据的内容包含旅游景点、旅游团队、旅游散客、旅游购物、旅游住宿、旅游餐饮等而训练集、测试集和验证集的比例为7:2:1。为进一步确保实验结果准确性，采用P、R和F-Score值等多种评价标准对实验结果进行评估，以验证字符图卷积特征在该命名实体识别框架上的表征能力和，以及特征的有效性。

为确保实验的顺利进行，采用以下实验环境进行实验。具体的实验环境如表2(实验环境参数表)所示：

表2

参数的合理设置对命名实体识别框架的整体性能起着重要的作用，反之不仅会影响该识别框架对特征的有效利用，同时也会增加命名实体抽取和识别的去查。因此算法的参数需根据实际情况而定。

参数的初始化设置如表3(命名实体识别框架的参数设置)所示：

表3

为有效缓解该算法在训练过程中出现梯度消失和梯度爆炸等现象，本文使用Adam优化函数对其进行优化学习。

在一个可选的实施例中，使用Adam优化函数对其进行优化学习；字符特征提取时，将图卷积层中的图节点数设置为28，将下层图节点设置为12个；评价标准F-Score值的计算如下公式G所示：

需要说明的是，不同的特征可以从不同的角度反映旅游文本中命名实体的不同属性。因此，为验证本文所提特征具有更强的表征能力，以本文所提命名实体识别框架和字符图卷积特征为基础，使用词向量特征、字符卷积特征与其进行对比测试。

实验结果如表4(实验结果)所示：

表4

由表4可知，在同一命名实体识别框架下，本文特征所呈现的识别效果最好，因旅游领域文本中的命名实体在通过字符图卷积神经网络时，其不仅有效的字符特征和层级关系信息，同时也因图卷积层中图节点信息是共享和积累的，因此，获得了有效了词向量特征和命名实体之间的相关性。

卷积字符特征尽管取得了不错的识别结果，但是，由于卷积神经网络在提取字符信息时，在文本中只进行了局部游走，因此，提取的字符特征丢失了大量的细节信息，所以识别效果低于本文特征。

词向量特征的表征能力最差。由于词向量特征就是将旅游领域文本中的单词转换成了相应的向量，简单的说词向量本质上就是一种单词聚类方法，虽然，使得旅游领域文本中的临近实体之间具有了很强的局部关联性，但是会忽略大量的全局信息，因此，呈现的识别效果最差

需要说明的是，为验证本文所提识别框架的可行性和正确性，以本文字符图卷积特征为基础，与浅层机器学习和传统的命名实体识别框架进行实验对比。具体实验结果如表5(不同命名实体识别框架的实验结果)所示：

表5

由表5可知，在同一字符图卷积特征的条件下，支持向量机(SVM)的识别效果最差，即F-Score值为81.56％；因SVM为浅层的机器学习，在特征学习时，并未能捕获更深层次的抽象特征，使其忽略了大量的深层潜在信息；因此，表征能力最差。

需要说明的是，传统的命名实体识别框架中Bi-LSTM_CRF的识别效果最好，即F-Score值为90.43。由于数双向的长短期记忆网络，不仅很好的解决了文本中长距离命名实体之间的依赖问题，以及获取了旅游文本中命名实体的位置信息和文本的全局语义信息，同时也因使用条件随机场CRF对旅游领域文本序列进行了相应的解码，使其进一步增强了该框架的识别能力。但是，条件随机场CRF并不能完全考虑旅游领域文本的上下文语义信息，因此，识别效果比本文所提识别框架低2.08％。

卷积神经网络CNN相比于浅层的SVM，虽然捕获了旅游领域文本的深层特征，但因仅能提取文本的局部深层特征，故并未能取得理想的识别效果。Bi-LSTM和LSTM网络不仅挖掘了旅游领域文本中命名实体的深层特征，同时也解决了长时序依赖问题，并获取了全部语义信息。而注意力机制Attention尽管取得不错的识别效果，但因在提取深层信息时，由各个位置之间是相互独立的，因此，识别效果低于Bi-LSTM和LSTM神经网络。

本文所提命名实体识别框架，不仅有效挖掘了旅游文本的深层抽象特征和全局语义信息，同时也因引入自注意力机制模型(Self-Attention)捕获了旅游领域文本中命名实体的关键性信息，以及进一步刻画了字符图卷积特征的层级结构信息和命名实体之间的关联性。因此，识别效果优于其他传统命名实体识别框架，F-Score值为92.51％

在一个可选的实施例中，为验证本文所提识别框架和特征提取方法的可行性。与其他研究学者的实验结果进行了的实验对比。具体的对比结果如表6(对比结果表)所示：

表6

在表6中，由于本文采用非公开数据，因此，仅能与同类型识别方法进行实验对比。

由表6可知，文献[3]因只使用卷积神经网络所获得的字符特征，其忽略了大量的细节信息，因此，识别效果最差，其F-Score值为83.8％。

文献[4]因采用多种特征共同表征的方法，使其从多个角度去反映和描述文本中的命名实体，因此，识别效果要高于其他文献，且F-Score值为91.67％。但相比于本文所提识别框架，其忽略了文本中命名实体之间的层级关系和实体内部的结构信息，即F-Score低0.84％。

文献[1]、文献[2]和文献[4]，因使用单一或两种特征去描述文本中命名实体，显得较为单一，因此，并不能全面且有效地在该模型框架中去表征命名实体的内容和实体之间的关联性。

文献[1]：Li S,Zhou Y,Wu X,et al.A Method of Emotional Analysis ofMovie Based on Convolution Neural Network and Bi-directional LSTM RNN[C]IEEESecond International Conference on Data Science in Cyberspace.2017.10.1049/iet-ipr.2017.0389。

文献[2]：Lample G,Ballesteros M,Subramanian S,et al.NeuralArchitectures for Named Entity Recognition[J].2016.10.18653/N16-1030。

文献[3]：Xie J,Yang Z,Neubig G,et al.Neural Cross-Lingual Named EntityRecognition with Minimal Resources[J].2018.D18-1034369–379。

文献[4]：On the Strength of Character Language Models for MultilingualNamed Entity Recognition.Xiaodong Yu，Stephen Mayhew，Mark Sammons.Proceedingsof the 2018Conference on Empirical Methods in Natural Language Processing,pages 3073–3077。

文献[5]：Marginal Likelihood Training of BiLSTM-CRF for BiomedicalNamed Entity Recognition from Disjoint Label Sets.Nathan Greenberg，TrapitBansal，Patrick Verga.Proceedings of the 2018Conference on Empirical Methodsin Natural Language Processing,pages 2824–2829。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.基于图卷积神经网络的中文旅游领域命名实体识别方法，其特征在于，图卷积神经网络包括输入层、嵌入层、图卷积层和层级结构，其中输入体包括命名实体和非实体；

公式A：

S4：文本在图卷积层中的输入和训练过程，如下公式B所示：

公式B：

公式B中，c，h，l分别代表输入特征、隐藏层和隐层层数；

公式C：

公式C中，σ与ω分别代表激活函数和上一层隐含层的权重；

公式D：

公式D中，δ₀

S7：获得命名实体和非实体之间的层级关系。

2.根据权利要求1所述的基于图卷积神经网络的中文旅游领域命名实体识别方法，其特征在于，将命名实体识别问题转换为序列标注，引入自注意力机制模型来捕获旅游领域文本中长距离命名实体之间的空间关系；自注意力机制模型因在编码和解码转换时，使用Transformer框架；在自注意力机制模型的基础上，使用门控的双向长短期记忆网络；

公式E：

公式E中，

表示双向长短期记忆网络在t时刻的隐藏层；

3.根据权利要求2所述的基于图卷积神经网络的中文旅游领域命名实体识别方法，其特征在于，经过Transformer框架转换之后，输入分类函数，获得相关的实验结果，具体计算如下公式F所示：

公式F：τ＝SoftMax(ωtanh(w，h^T))；

4.根据权利要求2所述的基于图卷积神经网络的中文旅游领域命名实体识别方法，其特征在于，公式E中，

公式F：

5.根据权利要求1所述的基于图卷积神经网络的中文旅游领域命名实体识别方法，其特征在于，使用Adam优化函数对其进行优化学习；字符特征提取时，将图卷积层中的图节点数设置为28，将下层图节点设置为12个；评价标准F-Score值的计算如下公式G所示：