CN115238701B

CN115238701B - 基于子词级别适应器的多领域命名实体识别方法和系统

Info

Publication number: CN115238701B
Application number: CN202211146784.XA
Authority: CN
Inventors: 张广志; 成立立; 于笑博; 肖同尧
Original assignee: Beiling Rongxin Datalnfo Science and Technology Ltd
Current assignee: Beiling Rongxin Datalnfo Science and Technology Ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-01-10
Anticipated expiration: 2042-09-21
Also published as: CN115238701A

Abstract

本发明提供一种基于子词级别适应器的多领域命名实体识别方法和系统，所述方法包括：准备训练用的样本数据集，样本数据集的多个样本数据分别来源于CrossNER中的五个领域，对CrossNER的样本数据进行遍历，统计所有多义词，并进行修改样本数据集；构建基于子词级别适应器的实体标签预测模型；分析出基于子词级别适应器的实体标签预测模型的损失函数；通过样本数据集中的样本数据对实体标签预测模型进行训练，待训练结束后，得到优化后的实体标签预测模型；获取待处理数据并将其输入优化后的实体标签预测模型，预测得到实体标签。本发明基于子词级别适应器将CrossNER中五个不同领域的数据进行微调，节省了训练时间和资源占用，解决领域之间语义冲突问题。

Description

基于子词级别适应器的多领域命名实体识别方法和系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于子词级别适应器的多领域命名实体识别方法和系统。

背景技术

实际场景中在处理超长文本或海量文本时，非常需要多领域命名实体识别的方法。然而目前多领域命名实体识别仍然是一个小众任务，因为它是一个监督学习任务，同时标注多个不同领域的数据是很困难的事情。多领域命名实体识别（MDNER）任务继承了常规序列标注的难点，继承了多领域适应的难点，还有特殊的领域冲突问题。

MDNER属于序列标注的范畴，在序列标注的问题上BERT和 ERNIE以及其他语言模型已经达到了很好的效果。由于上述大语料预训练模型的效果优越，领域适应和微调（DAPT）正成为一个热门的方向。作为迁移学习的特殊案例，领域适应旨在利用庞大的源领域数据对模型进行充分训练后，去提升模型在目标领域的表现。

它们使用掩码语言模型（MLM）等和预训练相同的无监督训练方式，然后针对下游任务例如NER做全量微调。在多领域的场景下，适应器（adapter）被引入用于解决全量微调消耗大量时间和资源的问题。适应器的实现方式是通过给预训练模型增加额外的参数，为每一个领域或每一个任务初始化一个适应器，在领域适应训练和微调时，冻结预训练模型的参数，只调整适应器的参数。适应器的参数相比预训练小很多，还能够实现所有领域同时训练和推理，因此可以成倍地减少训练次数和资源占用。

现有技术中用领域来描述数据的来源网站，而我们按照语义（实体标签）来划分领域，他们并不完全相同。对于NER来说，实体标签是重要的语义信息。实体标签是人工定义的，不同领域意味着出现不同的标签定义，以至于同样的实体提及在不同领域会被定义为不同类型的实体。例如人名在文学领域被定义为作家，在科学领域被定义为科学家，即使他们的表述和上下文是相近的。与此同时，不同领域可以提供标签信息，例如政治领域的政治家标签并不存在于文学领域，如何将各个这样的信息注入模型也是一个关键。

综上所述，MDNER面临的几个问题目前还没有很好的解决方式，而且，目前还没有用一个模型经过DAPT后同时识别多个不同领域的命名实体的案例。这篇文章中，我们提出的基于子词级别适应器（TAS）来解决上述问题。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于子词级别适应器的多领域命名实体识别方法和系统，能够基于子词级别适应器，将CrossNER中五个不同领域的数据同时进行微调，相当于进行了隐性的领域适应，同时大大节省了训练时间和资源占用；同时针对MDNER的特殊问题进行提升，解决领域之间语义冲突问题，同时不需要额外的标注数据。

本发明第一方面提出了一种基于子词级别适应器的多领域命名实体识别方法，所述方法包括：

准备训练用的样本数据集，样本数据集的多个样本数据分别来源于CrossNER中的五个领域，对CrossNER的样本数据进行遍历，统计所有多义词，并进行修改样本数据集；

构建基于子词级别适应器的实体标签预测模型；

分析出基于子词级别适应器的实体标签预测模型的损失函数；

通过样本数据集中的样本数据对实体标签预测模型进行训练，待训练结束后，得到优化后的实体标签预测模型；

获取待处理数据并将其输入优化后的实体标签预测模型，预测得到实体标签。

本方案中，修改样本数据集，具体包括：

在每个样本数据中的每一个词后增加两个标记，第一标记为该词的来源领域，记为1～5，对应CrossNER的五个领域；第二标记为该词是否为多义词，用0和1标记，0表示否定，1表示肯定。

本方案中，构建基于子词级别适应器的实体标签预测模型，具体包括：

首先加载开源的BERT-base模型；

然后为CrossNER的五个不同领域初始化不同的领域适应器，分别加载到12个注意力层上；

最后准备子词级别开关和子词级别任务适应器，子词级别开关由softmax函数构成，其负责针对输入信息是否为多义词做判断；判断为否的不传入子词级别任务适应器；判断为真的，传入对应的子词级别任务适应器。

本方案中，所述损失函数由CrossNER的交叉熵损失和子词级别开关的交叉熵损失两部分损失相加得到，损失函数的计算公式为：

其中，N表示标签类别的总数，i指的是标签类别的序号，j指的是标签类别下对应样本数据的序号，

表示真实的实体标签，

表示实体标签预测为真的概率。

本方案中，在训练过程中，将训练用的样本数据的最大句长设置为256，使用BERT-base模型的单句模式进行训练；每一个输入经过BERT-base模型的切词器转换为子词，每个子词继承整个词的实体标签标注、来源领域、是否为多义词的信息，传入输入层；用于训练的GPU为两个V100，训练的批次数据为128，训练数据迭代次数为30次；持续传入输入数据，直到训练结束。

本发明第二方面还提出一种基于子词级别适应器的多领域命名实体识别系统，包括存储器和处理器，所述存储器中包括一种基于子词级别适应器的多领域命名实体识别方法程序，所述基于子词级别适应器的多领域命名实体识别方法程序被所述处理器执行时实现如下步骤：

构建基于子词级别适应器的实体标签预测模型；

本方案中，修改样本数据集，具体包括：

首先加载开源的BERT-base模型；

表示真实的实体标签，

表示实体标签预测为真的概率。

本发明提出的一种基于子词级别适应器的多领域命名实体识别方法和系统，能够基于子词级别适应器，将CrossNER中五个不同领域的数据同时进行微调，相当于进行了隐性的领域适应，同时大大节省了训练时间和资源占用；同时针对MDNER的特殊问题进行提升，解决领域之间语义冲突问题，同时不需要额外的标注数据。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1示出了本发明一种基于子词级别适应器的多领域命名实体识别方法的流程图；

图2示出了本发明一种基于子词级别适应器的多领域命名实体识别系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于子词级别适应器的多领域命名实体识别方法的流程图。

如图1所示，本发明第一方面提出一种基于子词级别适应器的多领域命名实体识别方法，所述方法包括：

S102，准备训练用的样本数据集，样本数据集的多个样本数据分别来源于CrossNER中的五个领域，对CrossNER的样本数据进行遍历，统计所有多义词，并进行修改样本数据集；

S104，构建基于子词级别适应器的实体标签预测模型；

S106，分析出基于子词级别适应器的实体标签预测模型的损失函数；

S108，通过样本数据集中的样本数据对实体标签预测模型进行训练，待训练结束后，得到优化后的实体标签预测模型；

S110，获取待处理数据并将其输入优化后的实体标签预测模型，预测得到实体标签。

CrossNER为一个跨域且完全标注的NER数据集，且横跨五个不同的领域。

数据集标记。本发明采用多领域的实体识别数据集CrossNER，采用其训练集、评估集、测试集，但对数据做了额外处理，包括每个输入增加两种标记，包括每个词属于哪个领域，以及这个词是否是多义词。我们将在不同领域中有不同实体标签标注的词成为多义词，多义词被标记在训练集、评估集、测试集中。

领域适应器。本发明采用预训练的BERT-base作为基础模型，采用适应器结构对BERT进行适应，针对CrossNER的五个领域，设定了五个领域适应器。

任务适应器。在嵌入层之后，本发明设置了5个任务适应器以对应CrossNER的5个领域。此外，本发明为每一个适应器设置了一个开关（switch），开关是一个二分类层，使用softmax实现，用于判断输入的子词是否是多义词或多义词的一部分。非多义词不经过任务适应器，多义词会经过任务适应器。

在最终的损失计算时，将NER的交叉熵损失和任务适应器分类的交叉熵损失相加作为最终损失函数。

本发明通过使用BERT-base和adapters结合的方式，将CrossNER中五个不同领域的数据同时进行微调，相当于进行了隐性的领域适应，同时大大节省了训练时间和资源占用。

本发明新提出的多义词开关层结构，专门针对MDNER的特殊问题进行提升，解决领域之间语义冲突问题，同时不需要额外的标注数据。

根据本发明的实施例，修改样本数据集，具体包括：

根据本发明的实施例，构建基于子词级别适应器的实体标签预测模型，具体包括：

首先加载开源的BERT-base模型；

根据本发明的实施例，所述损失函数由CrossNER的交叉熵损失和子词级别开关的交叉熵损失两部分损失相加得到，损失函数的计算公式为：

表示真实的实体标签，

表示实体标签预测为真的概率。

需要说明的是，在训练过程中，将训练用的样本数据的最大句长设置为256，使用BERT-base模型的单句模式进行训练。每一个输入经过BERT-base模型的切词器转换为子词，每个子词继承整个词的实体标签标注、来源领域、是否为多义词的信息，传入输入层。用于训练的GPU为两个V100，训练的批次数据为128，训练数据迭代次数为30次。持续传入输入数据，直到训练结束。

如图2所示，本发明第二方面还提出一种基于子词级别适应器的多领域命名实体识别系统2，包括存储器21和处理器22，所述存储器中包括一种基于子词级别适应器的多领域命名实体识别方法程序，所述基于子词级别适应器的多领域命名实体识别方法程序被所述处理器执行时实现如下步骤：

构建基于子词级别适应器的实体标签预测模型；

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于子词级别适应器的多领域命名实体识别方法，其特征在于，所述方法包括：

构建基于子词级别适应器的实体标签预测模型；

获取待处理数据并将其输入优化后的实体标签预测模型，预测得到实体标签；

修改样本数据集，具体包括：

在每个样本数据中的每一个词后增加两个标记，第一标记为该词的来源领域，记为1～5，对应CrossNER的五个领域；第二标记为该词是否为多义词，用0和1标记，0表示否定，1表示肯定；

构建基于子词级别适应器的实体标签预测模型，具体包括：

首先加载开源的BERT-base模型；

2.根据权利要求1所述的一种基于子词级别适应器的多领域命名实体识别方法，其特征在于，所述损失函数由CrossNER的交叉熵损失和子词级别开关的交叉熵损失两部分损失相加得到，损失函数的计算公式为：

表示真实的实体标签，

表示实体标签预测为真的概率，k是标签类别下对应样本数据的总数。

3.根据权利要求1所述的一种基于子词级别适应器的多领域命名实体识别方法，其特征在于，在训练过程中，将训练用的样本数据的最大句长设置为256，使用BERT-base模型的单句模式进行训练；每一个输入经过BERT-base模型的切词器转换为子词，每个子词继承整个词的实体标签标注、来源领域、是否为多义词的信息，传入输入层；用于训练的GPU为两个V100，训练的批次数据为128，训练数据迭代次数为30次；持续传入输入数据，直到训练结束。

4.一种基于子词级别适应器的多领域命名实体识别系统，其特征在于，包括存储器和处理器，所述存储器中包括一种基于子词级别适应器的多领域命名实体识别方法程序，所述基于子词级别适应器的多领域命名实体识别方法程序被所述处理器执行时实现如下步骤：

构建基于子词级别适应器的实体标签预测模型；

修改样本数据集，具体包括：

构建基于子词级别适应器的实体标签预测模型，具体包括：

首先加载开源的BERT-base模型；

5.根据权利要求4所述的一种基于子词级别适应器的多领域命名实体识别系统，其特征在于，所述损失函数由CrossNER的交叉熵损失和子词级别开关的交叉熵损失两部分损失相加得到，损失函数的计算公式为：

表示真实的实体标签，

6.根据权利要求4所述的一种基于子词级别适应器的多领域命名实体识别系统，其特征在于，在训练过程中，将训练用的样本数据的最大句长设置为256，使用BERT-base模型的单句模式进行训练；每一个输入经过BERT-base模型的切词器转换为子词，每个子词继承整个词的实体标签标注、来源领域、是否为多义词的信息，传入输入层；用于训练的GPU为两个V100，训练的批次数据为128，训练数据迭代次数为30次；持续传入输入数据，直到训练结束。