CN116776887B

CN116776887B - 一种基于样本相似性计算的负采样远程监督实体识别方法

Info

Publication number: CN116776887B
Application number: CN202311045140.6A
Authority: CN
Inventors: 线岩团; 刘杨; 相艳; 郭军军
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-10-31
Anticipated expiration: 2043-08-18
Also published as: CN116776887A

Abstract

本发明涉及一种基于样本相似性计算的负采样远程监督实体识别方法，属于自然语言处理技术领域。本发明首先获取训练样本和增强样本，将增强样本与原有训练样本一起，使用预训练语言模型PLM的词编码模块进行编码，得到文本的词嵌入，然后通过预训练语言模型里的双向Transformer编码器对词嵌入进行编码处理，得到所有样本最终的特征向量，将其中的负样本部分与正样本部分进行相似度计算并对其打分，从中取出得分靠前的K个负样本，这K个得分高的负样本就认为其为漏标实体，而后与原有正样本一起参与训练，以此实现完成漏标实体的发现和模型泛化能力的提高。

Description

一种基于样本相似性计算的负采样远程监督实体识别方法

技术领域

本发明涉及一种基于样本相似性计算的负采样远程监督实体识别方法，属于自然语言处理技术领域。

背景技术

命名实体识别（Named Entity Recognition, NER）主要是从文本中识别出特定类别的实体，例如人名、地名、组织机构名等，是自然语言处理任务中的最基础的一步，可以应用于关系抽取、实体链接、事件提取、知识图谱等一系列下游任务。

与其他自然语言处理任务类似，命名实体识别仍然严重依赖于人工注释或人工标注的训练数据集。通过人工标注数据花费时间较长，而且金钱成本较为高昂。一种解决手段是采用远程监督（Distantly Supervised，DS）的方法来获取实体标签或注释。在标注实体的过程中，远程监督的方法以外部知识库或词典去匹配输入文本中的词或者字符串，当匹配成功时，认为所匹配词或字符串类别即为外部知识库或词典中对应的标签。

然而，对于这种通过远程监督方法获取的标签，标注的实体大多有正确的标签，由于外部知识库或词典并不是完备的，其覆盖范围有限，不能保证完全覆盖数据集中所包含的所有实体，从而导致数据集整体标注是不完整的，存在有实体被漏标的情况。如果直接将从远程监督中获取的标注数据送入传统的命名实体识别模型中训练，将漏标实体当作非实体训练。一般来说，假设有某个实体在训练集中不存在，命名实体识别模型在预测过程中能够凭借其泛化能力有一定几率将实体识别出来；若该实体存在于训练集中，但被漏标，模型在训练时便会将其作为非实体学习，导致模型在后续预测实体类型时更倾向于将该实体预测为非实体，这将损害模型的性能。

发明内容

本发明提供了一种基于样本相似性计算的负采样远程监督实体识别方法，以用于解决远程监督命名实体识别方法中实体标签漏标的问题，提高识别模型的泛化能力。

本发明的技术方案是：一种基于样本相似性计算的负采样远程监督实体识别方法，所述方法的具体步骤如下：

步骤1：对数据集中的原始数据进行处理，得到训练样本；然后对其中的实体部分通过外部实体词库进行同义实体词随机替换，生成新的句子，处理后作为增强样本；

步骤2：将增强样本与原有训练样本一起，使用预训练语言模型PLM的词编码模块进行编码，得到文本的词嵌入，然后通过预训练语言模型里的双向Transformer编码器对词嵌入进行编码处理，得到所有样本最终的特征向量；

步骤3：对从步骤2处理后获取的所有样本最终的特征向量，将其中的负样本部分与正样本部分进行相似度计算并对其打分，从中取出得分靠前的K个负样本，这K个得分高的负样本就认为其为漏标实体，而后与原有正样本一起参与训练，以此实现完成漏标实体的发现和模型泛化能力的提高。

进一步地，所述步骤1中包含以下步骤：

步骤1.1：对从数据集中获取的原始数据进行处理，得到训练样本：

其中tokens为实体文本序列，为实体文本序列中的第i个单词，m为实体文本序列中单词的数量；文本序列的子序列称为span，spans表示所有可能的输入的文本序列的子序列集合，其中为文本序列的第i₁个子序列的开始位置，为文本序列的第 i₁个子序列的结束位置，n表示spans中文本序列的子序列的数量；spans_label表示文本序列的子序列对应的实体类型标签的集合，其中为文本序列的第i₂个子序列对应的实体类型标签，n1表示实体类型标签的数量；

步骤1.2：对训练样本S中的实体文本序列部分通过外部实体词库进行同义实体词随机替换，得到新的增强实体文本，其中为第i₃个替换的实体词；

步骤1.3：将训练样本S中的实体文本序列替换为增强实体文本，而且训练样本中的spans_label中的实体类型标签均标记为非实体，从而得到增强样本S。

进一步地，所述步骤2中包含如下内容：

步骤2.1：定义批次数据量为B，N为批次中最长的数量，M为向量维度，T为批次中最长序列的长度；对从步骤1获取的训练样本和增强样本S，对和S中的实体文本序列使用预训练语言模型PLM的词编码模块，得到对应的词嵌入向量集合和：

，,

其中为和S中对应的第i₄个词的词嵌入向量，同时对和进行向量化处理；m为实体文本序列中单词的数量；文本序列的子序列称为 span，spans表示所有可能的输入的文本序列的子序列集合，spans_label表示文本序列的子序列对应的实体类型标签的集合；

步骤2.2：对和进行拼接得到新的特征向量,将拼接后的新的特征向量输入预训练语言模型里的双向Transformer编码器进行编码进行处理，得到所有样本的特征向量，其中为第i₅个样本的特征向量；

步骤2.3：使用spans中的开始部分作为索引，从中获取到实体的头部特征向量的集合，其中为第i₆个实体头部的特征向量，d为头部特征向量的数量；

步骤2.4：使用spans中结束的部分作为索引，从中获取到获取实体的尾部特征向量的集合，其中为第i₇个实体尾部的特征向量，d为尾部特征向量的数量，也即头部特征向量的数量，头部特征向量的数量和尾部特征向量的数量相等；

步骤2.5：对实体宽度进行编码得到实体宽度的特征向量集合；其中为第i₈个实体宽度的特征向量，v为实体宽度特征向量的数量；

步骤2.6：对前述步骤2.3-步骤2.5得到的特征向量进行拼接得到

;

而后对使用多层线性层进行降维，得到所有样本最终的特征向量，其中为经过降维后的特征向量，r为降维后的维度。

进一步地，所述步骤3中包含以下步骤：

步骤3.1：对于从前序步骤获得的所有样本最终的特征向量P中包括正样本序列和负样本序列，其中为正样本序列集合中的一个正样本，为负样本序列集合中的一个负样本；对于每一个负样本，都对其与正样本序列中的每个正样本计算平均相似度得分：

；

其中为样本之间的相似度，为相似度得分，B1为一个批次数据中正样本数量；

步骤3.2：以为依据，从负样本序列中选出分数高的样本的对应索引，其中为排序算法；根据索引，从负样本中一共取出K个相似度得分高的负样本即为漏标实体，其中为负采样后得到的第i₉个样本，k为负采样采出的样本数量；而后将采样出的样本与原有的正样本一起投入训练模型参与训练，最后所有样本通过线性层后得到所有实体对于每种实体类型的分数：；

其中为所有实体对于每种实体类型的分数，为线性层；

步骤3.3：对实体类型标签集和所得实体类型得分，采用交叉熵损失计算标签类型损失：；其中，为交叉熵损失函数。

本发明的有益效果是：

（1）本发明通过数据增强的方法，对输入的文本序列中的实体词进行同义实体词的随机替换，生成了新的增强数据，有效增加了样本来源的丰富度，同时又可以获得相对原本数据更多样性的语义特征。

（2）针对远程监督中获取标签不完全，导致的对于实体漏标的问题，本发明通过生成的增强数据作为额外的负样本，计算正样本与负样本之间的相似度，选择与正样本相似度较高的负样本参加训练，从而达到漏标实体发现的目的并且能够提高模型的泛化能力。

附图说明

图1为本发明中的流程图。

具体实施方式

实施例1：如图1所示，一种基于样本相似性计算的负采样远程监督实体识别方法，所述方法的具体步骤如下：

步骤1：对CoNLL03数据集，Twitter数据集，Wiki数据集中获取的英文文本，对数据集中的原始数据进行处理，得到训练样本；然后对其中的实体部分通过外部实体词库进行同义实体词随机替换，生成新的句子，处理后作为增强样本；

对数据集进行切分，将数据集切分按7:1.5:1.5的比例进行切分成train 数据集，dev数据集和test数据集。对数据集中涉及的类别进行编号，将数据集中每个实体对应的类别转化成编号；语料信息如表1所示；

表1 实验语料

	CoNLL03	Twitter	Wiki
				句子数量	20744	4393	1696

所述步骤2中包含如下内容：

，,

步骤2.6：对前述步骤2.3-步骤2.5得到的特征向量进行拼接得到

;

所述步骤3中包含以下步骤：

；

其中为所有实体对于每种实体类型的分数，为线性层；

步骤3.3：对实体类型标签集]、]或]和所得实体类型得分，采用交叉熵损失计算标签类型损失；

其中代表CoNLL03数据集中的实体类型，代表Wiki数据集中的实体类型，代表 Twitter数据集中的实体类型，为交叉熵损失函数。

对于CoNLL03数据集和Wiki数据集，共包含四种实体类型：人名(PER)、地名(LOC)、机构名(ORG)、其他类型(MISC);对于Twitter数据集，共包含十种实体类型地名（geoloc）,设施（facility）, 电影（movie）,公司（company）,产品（product）, 人名（person）, 其他实体（other）, 运动队（sportsteam）, TV秀（tvshow）, 音乐艺术家（musicartist）；

为了说明本发明的效果，使用现有模型和本发明在CoNLL03数据集、Twitter数据集、Wiki数据集进行实体识别；

现有模型KB Matching模型、AutoNER模型、BOND模型、Span-NS模型、Span-NS-V模型以及本发明在三个数据集上的实验结果如下表2所示：

表2实验结果

从表2可以看出，本发明提出的方法可以有效的提升识别效果，相比较于之前的模型，指标均有明显提升。通过同义词实体替换生成新句子作为负样本参与训练，生成新的增强数据，有效增加了负样本来源的丰富度，同时又可以获得相对原本数据更多样性的语义特征；同时将生成的增强数据作为额外的负样本，计算正样本与所有负样本片段之间的相似度并进行打分，从中取出得分靠前的负样本片段与原有正样本一起参与训练，从而达到漏标实体发现的目的，并且能够提高模型的泛化能力。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于样本相似性计算的负采样远程监督实体识别方法，其特征在于：所述方法的具体步骤如下：

步骤3：对从步骤2处理后获取的所有样本最终的特征向量，将其中的负样本部分与正样本部分进行相似度计算并对其打分，从中取出得分靠前的K个负样本，这K个得分高的负样本就认为其为漏标实体，而后与原有正样本一起参与训练；

所述步骤1中包含以下步骤：

；

其中tokens为实体文本序列，为实体文本序列中的第i个单词，m为实体文本序列中单词的数量；文本序列的子序列称为span，spans表示所有可能的输入的文本序列的子序列集合，其中/>为文本序列的第i₁个子序列的开始位置，/>为文本序列的第i₁个子序列的结束位置，n表示spans中文本序列的子序列的数量；spans_label表示文本序列的子序列对应的实体类型标签的集合，其中/>为文本序列的第i₂个子序列对应的实体类型标签，n1表示实体类型标签的数量；

步骤1.2：对训练样本S中的实体文本序列部分通过外部实体词库进行同义实体词随机替换，得到新的增强实体文本，其中/>为第i₃个替换的实体词；

步骤1.3：将训练样本S中的实体文本序列替换为增强实体文本，而且训练样本中的spans_label中的实体类型标签均标记为非实体，从而得到增强样本S；

所述步骤2中包含如下内容：

步骤2.1：定义批次数据量为B，N为批次中最长的数量，M为向量维度，T为批次中最长序列的长度；对从步骤1获取的训练样本/>和增强样本S/>，对/>和S/>中的实体文本序列使用预训练语言模型PLM的词编码模块，得到对应的词嵌入向量集合/>和/>：

，/>；

其中为/>和S/>中对应的第i₄个词的词嵌入向量，同时对/>和进行向量化处理；m为实体文本序列中单词的数量；文本序列的子序列称为span，spans表示所有可能的输入的文本序列的子序列集合，spans_label表示文本序列的子序列对应的实体类型标签的集合；

步骤2.2：对和/>进行拼接得到新的特征向量,将拼接后的新的特征向量输入预训练语言模型里的双向Transformer编码器进行编码进行处理，得到所有样本的特征向量/>，其中/>为第i₅个样本的特征向量；

步骤2.3：使用spans中的开始部分作为索引，从中获取到实体的头部特征向量的集合，其中/>为第i₆个实体头部的特征向量，d为头部特征向量的数量；

步骤2.4：使用spans中结束的部分作为索引，从中获取到获取实体的尾部特征向量的集合/>，其中/>为第i₇个实体尾部的特征向量，d为尾部特征向量的数量，也即头部特征向量的数量，头部特征向量的数量和尾部特征向量的数量相等；

步骤2.5：对实体宽度进行编码得到实体宽度的特征向量集合；其中/>为第i₈个实体宽度的特征向量，v为实体宽度特征向量的数量；

步骤2.6：对前述步骤2.3-步骤2.5得到的特征向量进行拼接得到 ;

而后对使用多层线性层进行降维，得到所有样本最终的特征向量，其中/>为经过降维后的特征向量，r为降维后的维度；

所述步骤3中包含以下步骤：

步骤3.1：对于从前序步骤获得的所有样本最终的特征向量P中包括正样本序列和负样本序列/>，其中/>为正样本序列集合中的一个正样本，/>为负样本序列集合中的一个负样本；对于每一个负样本，都对其与正样本序列中的每个正样本计算平均相似度得分：

；

其中为样本之间的相似度，/>为相似度得分，B1为一个批次数据中正样本数量；

步骤3.2：以为依据，从负样本序列中选出分数高的样本的对应索引，其中/>为排序算法；根据索引，从负样本中一共取出K个相似度得分高的负样本即为漏标实体/>，其中为负采样后得到的第i₉个样本，k为负采样采出的样本数量；而后将采样出的样本与原有的正样本一起投入训练模型参与训练，最后所有样本通过线性层后得到所有实体对于每种实体类型的分数：/>；

其中为所有实体对于每种实体类型的分数，/>为线性层；

步骤3.3：对实体类型标签集和所得实体类型得分/>，采用交叉熵损失计算标签类型损失/>：/>；其中，/>为交叉熵损失函数。