CN114330349A

CN114330349A - 一种特定领域命名实体识别方法

Info

Publication number: CN114330349A
Application number: CN202210003814.5A
Authority: CN
Inventors: 宋晓; 李晓庆; 崔勇; 周军华
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-12

Abstract

本发明公开了一种特定领域命名实体识别方法，包括以下步骤：步骤一，获取领域知识库，使用短语挖掘对文本语料进行高质量领域词表构建，补充现有知识库内容；步骤二，采用远程监督，将文本语料对齐领域知识库内容进行实体类型的自动标注；步骤三，构建与训练命名实体识别模型，完成特定领域文本中细粒度命名实体的识别与提取。本发明所公开的方法，基于远程监督获取特定领域标注语料，将命名实体识别任务分为候选实体获取与候选实体类型判断两个阶段，充分利用领域知识库中实体的边界信息与实体的类别信息，弥补了在特定领域上缺乏足够多的标注数据且人工标注成本高的缺点，并且在一定程度上避免因细粒度实体类型数量多所产生的实体识别效果一般的问题，从而提高了命名实体识别的性能。

Description

一种特定领域命名实体识别方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种特定领域命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，NER)是自然语言处理领域的基本任务之一，识别文本中具有特定意义实体。在特定领域中，如医疗、军事等，因缺乏大规模的标注数据集完成深度学习模型的训练，很难将其直接应用。

当前针对匮乏资源命名实体识别问题主要采用迁移学习、远程监督方法。迁移学习利用领域相似性，在领域之间进行数据共享和模型共建，利用无监督模式通过降低统计学习的期望误差来对未标记样本进行优化选择，有效减少标注数据的工作量；远程监督利用外部知识库和本体库来补充标注实体，将文本序列与知识库词典中的条目进行匹配，自动为带有命名实体类别的大量原始语料添加标签。以上方法可以较好地解决匮乏资源命名实体识别问题，在特定领域中，远程监督所需的外部知识库相较于迁移学习中相似领域的判定及其标注数据的获取较易进行，但在具有大量实体类型的特定领域文本数据上，现有远程监督模型方法对于类别信息默认为互相独立的去分类，存在命名实体识别效果一般的问题。

本发明所提出的一种特定领域命名实体识别方法，充分利用领域知识库中实体的边界信息与实体的类别信息，采用两阶段方式，将命名实体识别分为候选实体获取与候选实体类型判断，引入线性映射函数和相似度计算，充分发挥实体类别间的层级和语义相关的特点，弥补了在特定领域上缺乏足够多的标注数据且人工标注成本高的缺点，并且在一定程度上避免因细粒度实体类型数量多所产生的命名实体识别效果一般的问题，从而提高了命名实体识别的性能，取得了很好的效果。

发明内容

(1)要解决的技术问题

在实现特定领域的命名实体识别时仍存在以下难点问题：缺乏足够多的标注数据，人工标注的成本很高，需要耗费大量的时间以及精力，实体标注难度大；相较于通用领域的命名实体识别任务中的实体类别，特定领域存在实体类型层次多，实体类型粒度细，实体类型数量多，导致命名实体识别效果一般的问题。

(2)技术方案

为解决以上技术问题，本发明提供了一种特定领域命名实体识别方法，其主要特征在于，包括以下步骤：

步骤一：获取领域知识库，使用短语挖掘对文本语料进行高质量短语词表构建，补充现有特定领域知识库的内容。

步骤二：采用远程监督方法对文本语料进行标注，将领域知识库中实体所对应的类型作为该实体在文本中的类型。

步骤三：构建特定领域细粒度命名实体识别模型，将标注好的文本语料分为训练集、验证集与测试集，对模型进行训练，最后使用训练好的模型获取文本中细粒度实体类型的实体集合获取。

所述特定领域细粒度命名实体识别模型包含两阶段：候选实体获取与候选实体类型判断。候选实体获取阶段获取实体边界信息，从而获取候选实体。主要包含预训练编码层完成文本语料中原始字、词向量形式的转化；双向长短记忆网络完成文本全局上下文特征；逻辑回归分类层完成候选实体边界的判断。

实体类型判断阶段由长短记忆网络和双向长短记忆网络组成的特征表示层完成候选实体及其上下文语义环境的特征获取；线性映射函数和计算公式组成的相似度计算层完成候选实体与实体类型集合间的相似度获取；最后采用递归搜索实现候选实体对应类型的选择与输出。

线性映射函数φ_M与φ_L的具体定义为：

相似度计算函数s具体定义为：

式中：

表示候选实体特征表示向量的实数空间，

表示类型标签表示初始向量的实数空间，

表示二者嵌入的实数空间。U和V分别是特征表示和类型标签的投影矩阵，fⁱ为第i个候选实体的特征表示，

为第i个候选实体所对应类型标签的独热向量编码表示。

(3)有益效果

本发明的上述技术方案充分利用知识库中实体的边界信息与实体的类别信息，解决特定领域命名实体识别任务中缺乏足够多的标注数据，人工标注的成本很高，需要耗费大量时间的问题，挖掘出实体类型之间存在的语义关系，有效地提升了特定领域的命名实体识别效果。

附图说明

图1为本发明的操作流程图。

图2为本发明的网络结构图。

图3为本发明的作战想定命名实体识别模型训练测试流程。

图4为特征表示层的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

(1)参照图1所示，本实施方式提供了一种特定领域命名实体识别方法，其主要步骤如下：

a)对文本进行预处理生成文本语料，基于有限状态机进行英文词串的获取，即合并相邻的英文字母、空格以及符号。最终将以句子为单位的文本信息分离为中文单字和英文词串的形式。

b)基于开源的领域知识库构建知识库，将其整理为二元组形式：实体类型和实体名称。

c)根据文本内容统计获取高频词语，由高到底排序。通过字符串匹配计算出的n-grams的原始频率获取短语集合，集合中与知识库可以完全匹配的字符串作为正样本，剩余的作为负样本。然后结合词性信息进行短语边界的优化，通过给生成短语进行打分，当其满足预先设定的阈值时，加入高质量领域词典。

d)基于远程监督使用知识库中对应的实体类型对语料库中出现的对应实体进行自动标注。在具体标注过程中，只有同时未被知识库词典和高质量领域词典匹配的部分才被标记为非实体。

e)将标注好的特定领域数据集输入命名实体识别模型，训练模型。命名实体识别模型由候选实体获取、实体类型判断两个阶段组成。最后使用训练好的模型进行特定领域中的细粒度命名实体的识别与提取。

(2)参照图2所示，本发明所提出的用于命名实体识别的深度学习模型由嵌入层①、BiLSTM层②、候选实体边界输出层③、特征表示层④、相似度计算层⑤以及命名实体类型输出层⑥组成。

嵌入层①采用GloVe词向量模型以无监督的方式将分离为中文单字和英文词串的句子原始文本转化为向量形式，捕捉词的语义信息。

候选实体边界输出层③的输入首先经过BiLSTM层②，提取全局的上下文特征，然后对于第i个字或词与其前一个字或词之间的关系进行预测，采用以下公式计算得出：

p(y_i＝N|u_i)＝σ(W^Tu_i)

式中：y_i是第i个词和第i-1个词之间的标记，N代表“不相关”，u_i为第i个词编码向量，W为sigmoid层的权重参数，两个“不相关”标记之间的字或词共同构成候选实体。

特征表示层④由候选实体及其相关的上下文内容表示共同组成，特征表示层的结构如图4所示。

相似度计算层⑤的输入为第i个候选实体的特征表示与第i个候选实体所对应类型标签t的向量表示，将二者映射到相同维度的空间，为每个标签类型和候选实体特征向量分配一个分数作为它们嵌入的点积，采用以下公式计算得出：

式中：

表示候选实体特征表示向量的实数空间，

表示类型标签表示初始向量的实数空间，

为第i个候选实体所对应类型标签的独热向量编码表示。

命名实体类型输出层⑥，通过使用获得的候选实体特征表示计算其得分来递归计算子节点中的最佳类型。从根节点出发，采用递归在给定的类型层次中自上而下搜索以获取正确的类型路径，直到子节点到达叶子类型时或相似度得分低于0，搜索过程停止，最终输出实体对应类型。

(3)特定领域命名实体识别模型训练测试流程如图3所示，抽取句中具有层级结构实体类型的命名实体，基于深度学习算法采用该模型识别句子中的重要实体。

结合实施例来验证本发明有效性和正确性，数据来源于网络爬虫所获取的公开作战想定。实验中，对标注的作战想定数据集，划分成三个数据集：训练集、测试集和验证集，其中在训练集上训练模型，在验证集上调节超参数使得模型泛化能力最强，最终在测试集上进行测试，得到的误差作为泛化误差的近似。

本实验采用F1值对实体识别效果进行评价，F1是精确率P和召回率R的调和平均，F1分数同时考虑精确率和召回率，让两者取得平衡，计算公式如下：

式中：T_p为模型识别正确的实体个数，F_p为模型识别到的不相关实体个数、F_n为模型没有检测到的相关实体个数。

为了验证本发明的有效性和正确性，将验证结果与业界先进方法进行比较，比较结果如表1所示。

表1作战想定命名实体识别结果与比较

由以上的实施例可以看出，本发明提出的一种特定领域命名实体识别方法相比于业界先进方法具有更高的F1，能充分利用语料中实体的标签语义关系，解决因实体类型过多而导致的命名实体识别效果差问题，挖掘出实体类别间所存在得层级、语义相关的关系以及每个实体类别的重要性，有效地提高了作战想定命名实体识别任务的识别效果。