CN116644751A

CN116644751A - 基于跨度对比学习的跨域命名实体识别方法、设备、存储介质和产品

Info

Publication number: CN116644751A
Application number: CN202310621806.1A
Authority: CN
Inventors: 王也; 史宸枭; 韩启龙; 宋洪涛; 刘鹏
Original assignee: Harbin Longming Technology Co ltd; Harbin Engineering University
Current assignee: Harbin Longming Technology Co ltd; Harbin Engineering University
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-25

Abstract

基于跨度对比学习的跨域命名实体识别方法、设备、存储介质和产品，属于命名实体识别技术领域，解决领域偏移及跨度边界信息学习性能低的问题。本发明的方法包括：使用预训练语言模型、对抗训练、对比学习、KL散度等技术构建基于跨度对比学习的跨域命名实体识别模型，利用实体边界信息，将顺序标签转化为全局边界矩阵，完成跨度级别的对比学习以及KL散度的计算，模型在训练过程中不断更改其中相关参数，充分考虑到了实体边界信息，学习到更多领域不变性信息，大大提高了跨域命名实体识别的性能。本发明适用于跨域命名实体的识别。

Description

基于跨度对比学习的跨域命名实体识别方法、设备、存储介质和产品

技术领域

本申请涉及命名实体识别技术领域，尤其涉及跨域命名实体识别。

背景技术

命名实体识别(Named Entity Recognition，NER)是一种自动识别文本中命名实体的任务，例如人名、地名、机构名等，并将其分类为不同的类型。深度学习模型在特征抽取深度和模型性能方面已经超越传统机器学习方法，但需要大量标注数据。在某些特定领域、小语种等数据资源匮乏的情况下，NER任务难以解决。领域自适应是迁移学习重要的一部分，领域偏移问题则是领域自适应中常见的问题。领域偏移是指当训练集和测试集不符合相同的基本分布时，模型在从一个领域迁移到另一个领域时性能下降的现象。

针对领域偏移问题，已经提出了广泛的算法进行缓解，例如领域对抗性神经网络(DANN)和分布匹配。然而，这些算法都存在一些问题。对于DANN，联合优化训练过程的不稳定性需要大量超参数调整。而分布匹配算法在尝试实现实例级对齐时，很难同时保持模型对目标任务的判别能力。因此，需要开发稳定且有效的解决方案，以学习无监督域自适应的域不变性和实例匹配能力。

最近的自监督学习(SSL)研究中，对比学习(CL)已被证明是一种有效的方法，利用原始学习中的数据代理任务在实例级别定义有助于学习表征。从领域适应的角度来看，构建跨领域正样本和对齐领域-认知对在相关文献中受到的重视较少。之前的工作侧重于设计保留标签的文本转换，例如回译、同义词、省略及其组合。

发明内容

本发明目的是为了针对跨域命名实体识别问题，解决领域偏移及跨度边界信息学习性能低的问题，提供了基于跨度对比学习的跨域命名实体识别方法、设备、存储介质和产品。

本发明是通过以下技术方案实现的，本发明一方面，提供一种基于跨度对比学习的跨域命名实体识别方法，所述方法包括：

步骤1、获得源域和目标域数据集，将数据集进行预处理，并划分为训练集和测试集；

步骤2、构建基于跨度对比学习的跨域命名实体识别模型，具体包括：

步骤2.1、获得源域数据以及目标域数据的嵌入表示，并给源域和目标域赋值相应的领域标签；

步骤2.2、构建领域混淆增强样本，将步骤2.1获得的源域以及目标域数据嵌入输入到预训练语言模型BERT中，使用投影梯度下降PGD方法来生成对抗样本，通过对抗性攻击进行领域分类；

步骤2.3、生成全局边界预测矩阵，具体包括：

将源域嵌入输入BERT，用得到的输出利用Global Pointer构建全局边界预测矩阵；将源域嵌入以及步骤2.2生成的领域混淆增强样本嵌入进行拼接后输入BERT中，用得到的输出利用GlobalPointer构建加入对抗扰动的全局边界预测矩阵；

步骤3、对步骤2中基于跨度对比学习的跨域命名实体识别模型进行训练，具体包含以下步骤：

步骤3.1、利用步骤2.3经过源域嵌入得到的全局边界预测矩阵，使用交叉熵损失函数计算源域的命名实体识别的损失；

步骤3.2、通过步骤2.3得到的两个全局边界预测矩阵包含的所有实体跨度的向量的相似度和不相似度来计算对比学习的损失；

步骤3.3、通过步骤2.3得到的两个全局边界预测矩阵包含的所有实体跨度计算KL散度的损失，使生成的对抗样本与模型本身预测的分布更加一致；

步骤3.4、通过联合步骤3.1，步骤3.2，步骤3.3的损失函数来更新模型的参数，以优化联合损失函数，训练得到的最优的基于跨度对比学习的跨域命名实体识别模型；

步骤4、将目标域测试集输入到步骤3经过训练更新优化之后的基于跨度对比学习的跨域命名实体识别模型当中，计算目标域实体的得分。

进一步地，步骤2.2，具体包括：

假设有n个标记数据的源数据集D^S＝{x_i,y_i}_1,...,n，其中，x_i是token序列，y_i是x_i的标签，所述源数据集的数据是从源域中独立同分布采样得到的；

带有m个未标记数据的目标数据集D^T＝{x_j}_1,...,m，其中，x_j是token序列，所述目标数据集的数据是从目标域中独立同分布采样得到的；

模型旨在学习函数f(x；θ_f,θ_y):x→C，该函数的输入是token序列，输出是相应的标签；其中，θ_f是预训练语言模型的参数，θ_y是类别标签预测的参数，C是标签集；

是模型在分类任务中的损失，在分类任务中，模型学习的目的是为了最小化这个损失，具体公式如下：

式中：表示序列和标签均来自源域；在单个领域中，对抗训练是一个以最大化内部损失和最小化外部损失为目标的对抗性问题；

式中：δ为生成的对抗样本；

其中，α_adv用来控制两种损失之间的权衡，通常设置为1；

以下迭代步骤可以生成对抗性扰动；

式中，∈为对抗扰动上界，η为对抗性步长，δ_t为当前迭代步骤生成的对抗样本，表示t时刻的分类任务的损失关于t时刻输入的梯度，为梯度公式，表示如果扰动超过范围∈，就要映射回规定的范围内，||·||_F表示L-infinity范数；

生成具有领域混淆的对抗样本：

其中，使用对抗性攻击学习领域分类器的特定于领域的损失，δ₀是初始化的对抗样本，θ_d是与领域分类的计算相对应的参数，d是领域标签；通过在嵌入空间中搜索最困扰领域分类器的极端方向来合成扰动δ，f(x+δ；θ_f)是由预训练语言模型制作的领域谜题；为表示t时刻的领域分类任务的损失关于t时刻输入的梯度。

进一步地，步骤2.3，具体包括：

假设S＝[s₁,s₂,…,s_m]是句子中可能的跨度；跨度s表示为s[i:j]，其中i和j分别是头索引和尾索引；命名实体识别的目标是识别所有s∈E，其中E是实体类型集；给定具有n个标记的句子X＝[x₁,x₂,…x_n]，首先将X中的每个标记与其在预训练语言模型中的对应表示关联，从而得到句子表示矩阵其中v是维数：

h₁,h₂,…h_n＝BERT(x₁,x₂,…x_n)

获得句子表示H后，可以利用两个前馈层计算跨度表示，这些前馈层依赖于跨度的开始和结束索引：

q_i,α＝W_q,αh_i+b_q,α

k_j,α＝W_k,αh_j+b_k,α

式中：是用于识别类型α的实体token的向量表示，q_i,α，k_j,α是类型α的跨度s[i:j]开始和结束位置，W_q,α，W_k,α是h_i和h_j的权重，b_q,α，b_k,α为偏置值，跨度s[i:j]属于类型α的得分计算如下：

计算出各个跨度的评分函数，通过评分函数进而生成全局边界预测矩阵；

式中：和均为正交矩阵。

进一步地，步骤3.1，具体包括：

通过步骤2.4得到的评分函数，计算每个实体的得分；

设置交叉熵损失函数为：

式中：q，k分别表示跨度的开始索引和结束索引，P_α表示实体类型为α的跨度的集合，Q_α表示不是实体或者实体类型不是α的跨度的集合，s_α(q,k)是α类型实体的分数，满足s_α(q,k)>0的分段是类型为α的实体的输出。

进一步地，步骤3.2中，对于一个输入的句子，每个实体跨度表示为一个向量，计算其包含的所有实体跨度的向量的相似度和不相似度来计算对比损失；

对比学习的损失函数计算过程如下：

式中：N为句子的最大长度，M为负例的数目，span(i,j)为跨度表示，span(i,j)⁺是当前句子的正例，即为源域数据对抗训练的数据增强，span(i,j)^-是当前句子的负例，即为与当前token标签不同的跨度，使用cos余弦相似度计算原始样本与正负样本的距离。

进一步地，步骤3.3中，KL散度的损失函数计算过程如下：

进一步地，步骤3.4，具体包括：

采用端到端的神经网络模型进行整体训练，其中包括四个损失函数，分别为源域的命名实体识别任务损失、领域分类器的损失、对比学习的损失和KL散度的损失；

将这些损失函数相加得到基于跨度对比学习的跨域命名实体识别模型的损失，对这些损失函数联合训练；

式中：α，λ，β是超参数，用来控制各种损失的权重。

第二方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于跨度对比学习的跨域命名实体识别方法的步骤。

第三方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行如上文所述的一种基于跨度对比学习的跨域命名实体识别方法。

第四方面，本发明提供一种计算机程序产品，所述计算机程序被处理器执行时实现如上文所述的一种基于跨度对比学习的跨域命名实体识别方法。

本发明的有益效果：

本发明针对跨域命名实体识别问题，克服现有技术的不足，使用预训练语言模型、对抗训练、对比学习等技术，充分考虑和挖掘领域不变性特征，提供涉及基于跨度对比学习的跨域命名实体识别方法。

1、引入实体边界信息，将顺序标签转化为全局边界矩阵，全局边界矩阵表示句子级别的目标标签，使模型能够学习明确的跨度边界信息。在跨域学习中，分布匹配和基于实例的匹配都存在一定的局限性，而对比学习则可以在目标域没有标签的情况下学习到领域不变性。

2、通过对抗学习使模型学习域混淆的知识，使用对比学习来减少领域偏移问题。

3、同时，使用KL散度学习到接近模型本身预测的分布，进一步提升模型性能。

本发明适用于跨域命名实体识别。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1基于跨度对比学习的跨域命名实体识别方法的流程图；

图2基于跨度对比学习的跨域命名实体识别方法的模型图；

图3领域谜题样图；

图4多头识别嵌套实体示意图；

图5正采样示意图；

图6负采样示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

具体实施方式一、一种基于跨度对比学习的跨域命名实体识别方法，所述方法包括：

步骤2.3、生成全局边界预测矩阵，具体包括：

将源域嵌入输入BERT，用得到的输出利用Global Pointer构建全局边界预测矩阵；将源域嵌入以及步骤2.2生成的领域混淆增强样本嵌入进行拼接后输入BERT中，用得到的输出利用Global Pointer构建加入对抗扰动的全局边界预测矩阵；

本实施方式中，针对跨域命名实体识别问题，克服现有技术的不足，使用预训练语言模型、对抗训练、对比学习等技术，充分考虑和挖掘领域不变性特征，提供涉及基于跨度对比学习的跨域命名实体识别方法。

首先，引入实体边界信息，将顺序标签转化为全局边界矩阵，全局边界矩阵表示句子级别的目标标签，使模型能够学习明确的跨度边界信息。在跨域学习中，分布匹配和基于实例的匹配都存在一定的局限性，而对比学习则可以在目标域没有标签的情况下学习到领域不变性。

其次，通过对抗学习使模型学习域混淆的知识，使用对比学习来减少领域偏移问题。

再次，同时，使用KL散度学习到接近模型本身预测的分布，进一步提升模型性能。

具体实施方式二，本实施方式是对实施方式一所述的一种基于跨度对比学习的跨域命名实体识别方法的进一步限定，本实施方式中，对步骤2.2，做了进一步限定，具体包括：

步骤2.2，具体包括：

假设有n个标记数据的源数据集D^S＝{x_i,y_i}_1,…,n，其中，x_i是token序列，y_i是x_i的标签，所述源数据集的数据是从源域中独立同分布采样得到的；

带有m个未标记数据的目标数据集D^T＝{x_j}_1,…,m，其中，x_j是token序列，所述目标数据集的数据是从目标域中独立同分布采样得到的；

式中：δ为生成的对抗样本；

其中，α_adv用来控制两种损失之间的权衡，通常设置为1；

以下迭代步骤可以生成对抗性扰动；

生成具有领域混淆的对抗样本：

本实施方式中，内部最大化可以通过投影梯度下降(PGD)方法来解决，并假设损失函数是局部线性的。PGD的优势在于它仅依赖于模型本身，可以生成具有不同对抗性的样本，从而提高模型在看不到的数据上的泛化能力。PGD采用小步多走的策略进行对抗。具体来说，就是一次次地进行前后向传播，一次次地根据g^adv计算扰动，一次次地将新的对抗扰动δ累加到嵌入层的g^adv上，若超出一个范围，则再映射回给定范围内。最终，将最后一步计算得到的g^adv累加到原始梯度上。即以累加过t步扰动的梯度对应的g^adv对原梯度进行更新。

如图3所示，领域谜题可以增强模型的领域不变性，从而使得模型能够更好地适应未知的数据和领域，在训练过程中通过丢弃与领域相关的信息来混淆模型，使其难以区分不同领域的数据，并将源(目标)数据及其相应的领域谜题拉得更近，以减少领域差异。

具体实施方式三，本实施方式是对实施方式一所述的一种基于跨度对比学习的跨域命名实体识别方法的进一步限定，本实施方式中，对步骤2.3，做了进一步限定，具体包括：

步骤2.3，具体包括：

h₁,h₂,…h_n＝BERT(x₁,x₂,…x_n)

q_i,α＝W_q,αh_i+b_q,α

k_j,α＝W_k,αh_j+b_k,α

式中：和均为正交矩阵。

本实施方式中，如图4所示，多头识别嵌套实体是为了生成所有可能存在的实体跨度。

在注意力机制中，位置编码分为绝对位置编码和相对位置编码两种形式。尽管绝对位置编码可以将位置信息添加到词向量，但是该位置信息与固定位置相关联，并且不能表示固定位置的上下文信息。为了利用边界信息，将满足的旋转式位置编码应用到实体表示中，使模型对实体之间的相对位置更敏感，并从而提高实体识别的性能。通过这种方式，可以计算出各个跨度的评分函数，通过评分函数进而生成全局边界预测矩阵。

具体实施方式四，本实施方式是对实施方式一所述的一种基于跨度对比学习的跨域命名实体识别方法的进一步限定，本实施方式中，对步骤3.1，做了进一步限定，具体包括：

步骤3.1，具体包括：

通过步骤2.4得到的评分函数，计算每个实体的得分；

设置交叉熵损失函数为：

本实施方式中，通过步骤2.4得到的评分函数，计算每个实体的得分。并且为了解决分类问题中的类别不平衡问题，设计了一个交叉熵损失函数来促使模型学习每个训练支持实例的边界信息。

具体实施方式五，本实施方式是对实施方式四所述的一种基于跨度对比学习的跨域命名实体识别方法的进一步限定，本实施方式中，对步骤3.2，做了进一步限定，具体包括：

步骤3.2中，对于一个输入的句子，每个实体跨度表示为一个向量，计算其包含的所有实体跨度的向量的相似度和不相似度来计算对比损失；

对比学习的损失函数计算过程如下：

本实施方式中，使用对比学习，在跨度层级拉近与本身相似的跨度，拉远与本身不相似的跨度，使模型能够学习更多的实体跨度不变性信息；如图5所示，对于正采样，模型能够将源域的跨度与领域谜题的跨度编码为在表示空间中更为接近，随着训练的进行，逐渐将例子拉到领域决策边界；对于跨域的负采样，对比损失可能会将源域和目标域的负采样相互推离，如图6的左半部分，跨域同一类别的负采样相互远离，这与拉近不同领域的目标相互矛盾。所以为了避免这种跨域排斥的存在，故将不同领域的样本从负采样集合中排除。

在跨度层级拉近与本身相似的跨度，拉远与本身不相似的跨度，使模型能够学习更多的实体跨度不变性信息。

具体实施方式六，本实施方式是对实施方式五所述的一种基于跨度对比学习的跨域命名实体识别方法的进一步限定，本实施方式中，对步骤3.3，做了进一步限定，具体包括：

步骤3.3中，KL散度的损失函数计算过程如下：

本实施方式中，通过步骤2.3得到的两个全局边界预测矩阵包含的所有实体跨度计算KL散度的损失，使生成的对抗样本与模型本身预测的分布更加一致；

在对抗训练中，为了让模型对抗样本更加鲁棒，会对训练数据进行一定的扰动，生成对抗样本。这些对抗样本与原始样本不同，可能会引入一些噪声或者扰动。为了确保生成的对抗样本具有一定的相似性和连续性，通常要引入一个隐变量，用于控制样本间的距离。而在生成对抗样本的过程中希望生成的样本能够接近模型本身预测的分布，以此使模型更加鲁棒。KL分布是一个常用的用于比较两个分布之间差异的指标，KL散度越小表示两个分布越接近。因此，对抗训练中通过对生成对抗样本的分布与模型在原始样本上的预测分布计算KL分布的方法来评估生成的对抗样本的质量，以便使生成的对抗样本与模型本身预测的分布更加一致。这样生成的对抗样本就可以更好地用于训练模型，提高模型的鲁棒性。因此，将KL散度的损失函数计算过程采用本实施方式中的方法。

具体实施方式七，本实施方式是对实施方式六所述的一种基于跨度对比学习的跨域命名实体识别方法的进一步限定，本实施方式中，对步骤3.4，做了进一步限定，具体包括：

步骤3.4，具体包括：

式中：α，λ，β是超参数，用来控制各种损失的权重。

本实施方式中，将这些损失函数相加得到基于跨度对比学习的跨域命名实体识别模型的损失，通过这些损失函数的联合训练，可以实现对模型的多个方面进行优化，从而提高其性能和鲁棒性。

通过端到端的训练，优化这个损失函数，可以得到一个同时在原始样本上具有较好的分类性能，并且对抗样本质量较高的鲁棒模型。

具体实施方式八，本实施方式是对如上文所述的一种基于跨度对比学习的跨域命名实体识别方法的实施例1，具体包括：

本实施例设计的基于跨度对比学习的跨域命名实体识别方法，通过以下步骤实现：

步骤1:获得源域和目标域数据集，将数据集进行预处理，并划分为训练集和测试集；

步骤2:构建基于跨度对比学习的跨域命名实体识别模型，具体包含如下步骤：

步骤2.1:获得源域数据以及目标域数据的嵌入表示，并给源域和目标域赋值相应的领域标签；

步骤2.2:构建领域混淆增强样本。将步骤2.1获得的源域以及目标域数据嵌入输入到预训练语言模型BERT中，使用投影梯度下降(PGD)方法来生成对抗样本，通过对抗性攻击进行领域分类；

步骤2.3:生成全局边界预测矩阵。将源域嵌入输入BERT，用得到的输出利用Global Pointer构建全局边界预测矩阵；将源域嵌入以及步骤2.2生成的领域混淆增强样本嵌入用函数concat()进行拼接后输入BERT中，用得到的输出利用Global Pointer构建加入对抗扰动的全局边界预测矩阵；

步骤3：对步骤2中基于跨度对比学习的跨域命名实体识别模型进行训练，具体包含以下步骤：

步骤3.1:利用步骤2.3经过源域嵌入得到的全局边界预测矩阵，使用交叉熵损失函数计算源域的命名实体识别的损失；

步骤3.2:通过步骤2.3得到的两个全局边界预测矩阵包含的所有实体跨度的向量的相似度和不相似度来计算对比学习的损失；

步骤3.3:通过步骤2.3得到的两个全局边界预测矩阵包含的所有实体跨度计算KL散度的损失，使生成的对抗样本与模型本身预测的分布更加一致；

步骤3.4:通过联合步骤3.1，步骤3.2，步骤3.3的损失函数来更新模型的参数，以优化联合损失函数，训练得到的最优的基于跨度对比学习的跨域命名实体识别模型；

步骤4:将目标域测试集输入到步骤3经过训练更新优化之后的基于跨度对比学习的跨域命名实体识别模型当中，计算目标域实体的得分。

具体实施方式八，本实施方式是对如上文所述的一种基于跨度对比学习的跨域命名实体识别方法的实施例2，具体包括：

如图1至图2所示，本发明提供了基于跨度对比学习的跨域命名实体识别方法，具体包括以下步骤：

所属步骤1具体包含以下步骤：

步骤1.1：从源域以及目标域数据集中，提取文本序列；

步骤1.2：将预处理好的数据集，划分为训练集和测试集；

步骤2:构建基于跨度对比学习的跨域命名实体识别模型。

所述步骤2具体包含以下步骤：

步骤2.1:获得源域数据以及目标域数据的嵌入表示，首先使用独立热编码获得每个标签的编码，使用预训练语言模型BERT生成源域和目标域token嵌入，并对源域和目标域两个领域进行编号：源域为0，目标域为1。

在步骤2.2中，假设有n个标记数据的源数据集D^S＝{x_i,y_i}_1,…,n，这些数据是从源域中独立同分布采样得到的。同时，还有一个带有m个未标记数据的目标数据集D^T＝{x_j}_1,…,m，这些数据是从目标域中独立同分布采样得到的，其中x_i，x_j是token序列，y_i是x_i的标签。在领域内训练中，模型旨在学习一个函数，该函数的输入是token序列，输出是相应的标签。模型旨在学习函数f(x；θ_f,θ_y):x→C，其中θ_f是预训练语言模型的参数，θ_y是类别标签预测的参数，C是标签集。在一般的分类任务中，是模型在分类任务中的损失，在分类任务中，模型学习的目的是为了最小化这个损失，具体公式如下：

式中：表示序列和标签均来自源域。在单个领域中，对抗训练是一个以最大化内部损失和最小化外部损失为目标的对抗性问题。

式中：δ为我们生成的对抗样本。

式中：α_adv用来控制两种损失之间的权衡，通常设置为1。内部最大化可以通过投影梯度下降(PGD)方法来解决，并假设损失函数是局部线性的。PGD的优势在于它仅依赖于模型本身，可以生成具有不同对抗性的样本，从而提高模型在看不到的数据上的泛化能力。PGD采用小步多走的策略进行对抗。具体来说，就是一次次地进行前后向传播，一次次地根据g^adv计算扰动，一次次地将新的对抗扰动δ累加到嵌入层的g^adv上，若超出一个范围，则再映射回给定范围内。最终，将最后一步计算得到的g^adv累加到原始梯度上。即以累加过t步扰动的梯度对应的g^adv对原梯度进行更新。以下迭代步骤可以生成对抗性扰动。

式中：∈为对抗扰动上界，η为对抗性步长，δ_t为当前迭代步骤生成的对抗样本，表示t时刻的分类任务的损失关于t时刻输入的梯度，为梯度公式。Π_{||δ||F≤∈}表示如果扰动超过范围∈，就要映射回规定的范围内，||·||_F表示L-infinity范数。

如图3所示，领域谜题可以增强模型的领域不变性，从而使得模型能够更好地适应未知的数据和领域，在训练过程中通过丢弃与领域相关的信息来混淆模型，使其难以区分不同领域的数据，并将源(目标)数据及其相应的领域谜题拉得更近，以减少领域差异。为了生成领域混淆增强，我们采用了带有扰动的对抗性攻击进行源域和目标域的分类任务，使用上述生成对抗样本的过程，我们可以生成具有领域混淆的对抗样本：

其中，使用对抗性攻击学习领域分类器的特定于领域的损失，δ₀是初始化的对抗样本，θ_d是与领域分类的计算相对应的参数，d是领域标签。通过在嵌入空间中搜索最困扰领域分类器的极端方向来合成扰动δ，f(x+δ；θ_f)是由预训练语言模型制作的领域谜题。为表示t时刻的领域分类任务的损失关于t时刻输入的梯度。

步骤2.3:生成全局边界预测矩阵。将源域嵌入输入BERT，用得到的输出利用Global Pointer构建全局边界预测矩阵；将源域嵌入以及步骤2.2生成的领域混淆增强样本嵌入用函数concat()进行拼接后输入BERT中，用得到的输出构建加入对抗扰动的全局边界预测矩阵；

如图4所示，多头识别嵌套实体是为了生成所有可能存在的实体跨度。在步骤2.3中，假设S＝[s₁,s₂,…,s_m]是句子中可能的跨度。跨度s表示为s[i:j]，其中i和j分别是头索引和尾索引。命名实体识别的目标是识别所有s∈E，其中E是实体类型集。给定具有n个标记的句子X＝[x₁,x₂,…x_n]，首先将X中的每个标记与其在预训练语言模型中的对应表示关联，从而得到一个新的隐向量输出矩阵其中v是维数：

h₁,h₂,…h_n＝BERT(x₁,x₂,…x_n)

q_i,α＝W_q,αh_i+b_q,α

k_j,α＝W_k,αh_j+b_k,α

式中：是用于识别类型α的实体token的向量表示，q_i,α，k_j,α是类型α的跨度s[i:j]开始和结束位置，W_q,α，W_k,α是h_i和h_j的权重，b_q,α，b_k,α为偏置值，跨度s[i:j]属于类型α的得分可以计算如下：

在注意力机制中，位置编码分为绝对位置编码和相对位置编码两种形式。尽管绝对位置编码可以将位置信息添加到词向量，但是该位置信息与固定位置相关联，并且不能表示固定位置的上下文信息。为了利用边界信息，将满足的旋转式位置编码应用到实体表示中，使模型对实体之间的相对位置更敏感，并从而提高实体识别的性能。通过这种方式，可以计算出各个跨度的评分函数，通过评分函数进而生成全局边界预测矩阵：

式中：和均为正交矩阵。

步骤3.1：利用步骤2.3经过源域嵌入得到的全局边界预测矩阵，使用交叉熵损失函数计算源域的命名实体识别的损失；

通过步骤2.4得到的评分函数，计算每个实体的得分。并且为了解决分类问题中的类别不平衡问题，设计了一个交叉熵损失函数来促使模型学习每个训练支持实例的边界信息：

步骤3.2：通过步骤2.3得到的两个全局边界预测矩阵包含的所有实体跨度的向量的相似度和不相似度，来计算对比学习的损失；

在步骤3.2中，使用对比学习，在跨度层级拉近与本身相似的跨度，拉远与本身不相似的跨度，使模型能够学习更多的实体跨度不变性信息；如图5所示，对于正采样，模型能够将源域的跨度与领域谜题的跨度编码为在表示空间中更为接近，随着训练的进行，逐渐将例子拉到领域决策边界；对于跨域的负采样，对比损失可能会将源域和目标域的负采样相互推离，如图6的左半部分，跨域同一类别的负采样相互远离，这与拉近不同领域的目标相互矛盾。所以为了避免这种跨域排斥的存在，故将不同领域的样本从负采样集合中排除。

在跨度层级拉近与本身相似的跨度，拉远与本身不相似的跨度，使模型能够学习更多的实体跨度不变性信息，对于一个输入的句子，每个实体跨度表示为一个向量，计算其包含的所有实体跨度的向量的相似度和不相似度来计算对比损失。因此，步骤3.23.3中对比学习的损失函数计算过程如下：

在对抗训练中，为了让模型对抗样本更加鲁棒，会对训练数据进行一定的扰动，生成对抗样本。这些对抗样本与原始样本不同，可能会引入一些噪声或者扰动。为了确保生成的对抗样本具有一定的相似性和连续性，通常要引入一个隐变量，用于控制样本间的距离。而在生成对抗样本的过程中希望生成的样本能够接近模型本身预测的分布，以此使模型更加鲁棒。KL分布是一个常用的用于比较两个分布之间差异的指标，KL散度越小表示两个分布越接近。因此，对抗训练中通过对生成对抗样本的分布与模型在原始样本上的预测分布计算KL分布的方法来评估生成的对抗样本的质量，以便使生成的对抗样本与模型本身预测的分布更加一致。这样生成的对抗样本就可以更好地用于训练模型，提高模型的鲁棒性。因此，步骤3.33.4中KL散度的损失函数计算过程如下：

采用端到端的神经网络模型进行整体训练，其中包括四个损失函数，分别为源域的命名实体识别任务损失、领域分类器的损失、对比学习的损失和KL散度的损失。我们将这些损失函数相加得到基于跨度对比学习的跨域命名实体识别模型的损失，通过这些损失函数的联合训练，可以实现对模型的多个方面进行优化，从而提高其性能和鲁棒性。

式中：α，λ，β是超参数，用来控制各种损失的权重。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于跨度对比学习的跨域命名实体识别方法，其特征在于，所述方法包括：

步骤2.3、生成全局边界预测矩阵，具体包括：

2.根据权利要求1所述的一种基于跨度对比学习的跨域命名实体识别方法，其特征在于，步骤2.2，具体包括：

式中：δ为生成的对抗样本；

其中，α_adv用来控制两种损失之间的权衡，通常设置为1；

以下迭代步骤可以生成对抗性扰动；

生成具有领域混淆的对抗样本：

3.根据权利要求1所述的一种基于跨度对比学习的跨域命名实体识别方法，其特征在于，步骤2.3，具体包括：

h₁，h₂，…h_n＝BERT(x₁，x₂，…x_n)

q_i，α＝W_q，αh_i+b_q，α

k_j，α＝W_k，αh_j+b_k，α

式中：和均为正交矩阵。

4.根据权利要求1所述的一种基于跨度对比学习的跨域命名实体识别方法，其特征在于，步骤3.1，具体包括：

通过步骤2.4得到的评分函数，计算每个实体的得分；

设置交叉熵损失函数为：

5.根据权利要求4所述的一种基于跨度对比学习的跨域命名实体识别方法，其特征在于，步骤3.2中，对于一个输入的句子，每个实体跨度表示为一个向量，计算其包含的所有实体跨度的向量的相似度和不相似度来计算对比损失；

对比学习的损失函数计算过程如下：

6.根据权利要求5所述的一种基于跨度对比学习的跨域命名实体识别方法，其特征在于，步骤3.3中，KL散度的损失函数计算过程如下：

7.根据权利要求6所述的一种基于跨度对比学习的跨域命名实体识别方法，其特征在于，步骤3.4，具体包括：

式中：α，λ，β是超参数，用来控制各种损失的权重。

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，当所述处理器运行所述存储器存储的计算机程序时执行权利要求1至7中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。

10.一种计算机程序产品，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。