CN114647715A

CN114647715A - 一种基于预训练语言模型的实体识别方法

Info

Publication number: CN114647715A
Application number: CN202210361634.4A
Authority: CN
Inventors: 戴国骏; 蒋世豪; 叶晨; 张桦; 吴以凡; 支浩仕
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-06-21

Abstract

本发明公开了一种基于预训练语言模型的实体识别方法。本发明涉及深度学习，自然语言处理任务中的预训练语言模型和数据集成领域中的实体识别子任务。本发明添加了对于实体识别任务本身独特需求的关注，具体是提出一个关注相似片段和数字信息片段的联合实体识别模型，通过一个感知相似片段的编码器和一个感知数字片段的编码器，可以有效处理预训练语言模型在小训练集上注意力分散的问题，从而使模型能够更好的处理实体识别任务。本发明能够在小训练集上较现有最新方法有显著的提升，目前大部分方法都需要大量的训练数据，这就意味着需要大量人工参与标注数据，本发明可以有效节省人工标注的成本。

Description

一种基于预训练语言模型的实体识别方法

技术领域

本发明涉及深度学习，自然语言处理任务中的预训练语言模型和数据集成领域中的实体识别子任务。添加了对于实体识别任务本身独特需求的关注，具体是提出一个关注相似片段和数字信息片段的联合实体识别模型，通过一个感知相似片段的编码器和一个感知数字片段的编码器，可以有效处理预训练语言模型在小训练集上注意力分散的问题，从而使模型能够更好的处理实体识别任务。

背景技术

实体识别(又称实体解析)任务，旨在识别两个记录是否引用了相同的世界真实实体。传统的实体识别方法主要关注结构化数据，这些数据大多是原子化也就是属性值较短的。近年来，由于大数据时代对于匹配文本化的实体数据的需求不断增加，例如匹配长文本的产品描述，对传统的实体识别方法提出了挑战。

在自然语言处理NLP领域的任务中，文本分类和相似性问题跟文本数据的问题息息相关。文本分类是针对不同场景(诸如情绪分析、主题检测、问答类型检测)预测给定文本的一个或多个类别标签的任务。近来，有些研究利用了一种基于transformer的BERT结构，在模型顶层设计一个线性分类器，从而可以处理诸如文本分类、语句问答等下游任务。

得益于预训练语言模型的研究发展和应用成熟，两种基于预训练语言模型的实体识别方法被提出，分别是DITTO方法和JointBERT方法，两者都被证明能够获得更好的表现结果。DITTO可以通过在预处理期间注入独特的标记来利用领域知识，JointBERT是一种基于预训练语言模型的双目标训练方法，能够在大量数据集下获得更加优秀的表现。

然而，这些方法比较直接地使用预训练的语言模型，并将实体识别和实体本身的特点割裂视为一个自然语言处理(Natural Language Processing，NLP)任务，不考虑实体识别任务的独特需求。DITTO的领域内先验知识并不总是可用且有效的，该缺点会导致整个模型的泛化能力较差；而JointBERT在训练集有限的情况下，返而会对原有的预训练语言模型造成负面影响，降低了模型的识别准确率。

因此，本发明拟针对深度学习模型中的注意力分散和小训练集下无法关注实体数据本身特点的问题，提出能够更加关注于相似片段和数字信息的实体识别方法。

发明内容

针对上述问题，本发明提出了一种不需要手动注入独特标记和先验知识的实体识别方法，增强了对文本数据中关键数字信息和相似片段的关注。

本发明解决其技术问题所采用的技术方案如下：

步骤1：数据预处理，根据基于文本相似度的处理方法预先生成所有的实体候选对，针对每个实体候选对(记录u，记录v)，先将记录u和记录v的实体文本描述分别生成序列Ⅰ和生成序列Ⅱ，然后使用特殊标识符连接生成序列Ⅰ和生成序列Ⅱ，从而得到一个综合生成序列Ⅲ。

步骤2：使用预训练语言模型(Pre-trained Language Model)将预处理之后的生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ分别进行分词、提取单词嵌入向量特征，并根据不同的文本长度进行对齐，最后分别得到生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ对应的词向量E_u、词向量E_v和组合后的整个词向量E_t。

步骤3：提取后的词向量E_u、词向量E_v和词向量E_t输入本发明的相似片段编码器，捕获每个实体候选对(记录u，记录v)两条记录之间相似的片段，增加重要片段的关注度。

输入：记录u和记录v经过预训练语言模型提取的词向量E_u和E_v，以及实体候选对(记录u，记录v)组合后的整个词向量E_t。

3-1.提取背景语义，将整个实体候选对(记录u，记录v)的词向量E_t作为背景语义，这里选择E_t[CLS]来表征整个背景语义，“[CLS]”的词向量汇总了词向量E_t的所有token词向量。

3-2.背景语义融合，分别在两个记录的词向量E_u和词向量E_v上执行一个背景语义的融合算子，因为E_t[CLS]包含了记录对的整体背景语义，采用该融合算子将有助于记录u和记录v之间的注意力交互。

3-3.两个记录之间的交互注意力，为了能够让记录u和记录v相互影响注意力，本发明同时提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制。结合整体背景语义表达，可以得到在整体背景语义下的包含相似片段感知的嵌入向量。

3-4.特征压缩与提取，采用卷积神经网络CNN进行特征压缩，输入经过交互注意力机制后的词向量

和

的拼接向量

将其进行卷积获得相似片段的信息。定义一个卷积矩阵

其中d^a是CNN的输出向量维度，l是卷积核大小，d是词向量维度。利用不同大小的卷积核进行卷积运算，进一步执行最大池化的操作以获取输出特征

步骤4：同时也利用数字信息片段编码器来编码预处理的输入，并根据预训练语言模型对数字本身的自注意力权重来筛选数字信息片段，给出经过数字编码器的向量。

输入：数字信息片段编码器的输入与上一个编码器稍微不同，只需要实体候选对(记录u，记录v)组合后的整个词向量E_t。

4-1.全部实体候选对编辑距离计算，首先计算每个实体候选对包含数字的字符子串的编辑距离(s_u,s_v)，其中s_u和s_v分别是来自记录u和记录v的包含数字的字符子串。这样就可以从记录u和v中选择出相似的数字型号组合。

4-2.子串过滤，对包含子串关系的字符子串组合进行剔除，当一个字符子串s_u是另一个字符子串s_v的子串，或一个字符子串s_v是另一个字符子串s_u的子串时，应当将编辑距离改为0，这是因为两个字符子串可能以不同的格式描述相同的信息。

4-3.量化字符子串相似度，简单用编辑距离的长度无法描述所有的记录，因为不同实体文本描述其匹配的字符子串会各不相同，会根据字符子串数量和字符子串本身的长度而产生不同量级的结果。因此，单纯用编辑距离本身是没有办法量化这个标准，所以采用编辑距离比例(Levenshtein ratio)来描述差异，在计算完编辑距离的基础上添加一个比例。

4-4.其他距离度量，有一点需要关注，本发明主要的考量是在包含数字的片段中，其数值视作产品型号的字符子串，因为在实际应用中，比如产品ID等，数值型号类型的字符子串存在相当普遍。然而，包含数字的片段中，其数值类型也可以被视为数字本身的大小描述，此时的距离计算可以采用平方函数等其他度量。

4-5.重要字符子串选择，引入预训练语言模型的自注意力权重来过滤自注意力权重低于设定阈值的字符子串。

4-6.综合编辑距离分数计算，在获得所有重要的字符子串后，生成数字感知的词向量

和

以及它们各自的编辑距离分数

4-7.基于卷积神经网络CNN的特征提取，和上面的相似感知编码器中CNN模块类似，同样使用CNN来提取

的联合特征。首先执行不同长度的卷积运算，然后同样地通过最大池化操作来获得输出特征

步骤5：拼接相似片段编码器和数字片段编码器输出向量

和

将该联合特征向量通过一个线性层和一个softmax层输出分类概率。根据标签数据，计算损失函数，然后进行反向传播，不断微调和优化模型的参数，再次从步骤2得到新的模型输入，反复迭代，当损失函数收敛时停止训练。得到最终的语言模型和编码器参数。

本发明的有益效果如下：

针对现有研究多直接使用自然语言处理方法而忽视实体识别任务本身独特需求来解决文本数据实体识别任务的不足，提出了一种能够结合真实世界实体本身特征的实体识别方法。本发明包含一个相似片段编码器和数字片段编码器，能够有效处理文本数据在实体识别中受冗余字段干扰和对关键数字型号信息不敏感的问题。

其次，相较于采用命名实体识别、数据增强等技术手段，本发明不需要进行过多设计，也就是在不需要先验知识的情况下就能取得很好的识别精度提升。同时，本发明在时间效率上也有一定程度上的提升。

本发明能够在小训练集上较现有最新方法有显著的提升，目前大部分方法都需要大量的训练数据，这就意味着需要大量人工参与标注数据，本发明可以有效节省人工标注的成本。

附图说明

图1是本发明相似片段编码器的流程图；

图2是本发明数字信息片段编码器提取关键型号信息流程图；

图3是本发明方法整体实施流程图；

图4是本发明实施实例。

具体实施方式

下面结合附图和实例，对本发明的具体实施方案作进一步描述。

如图4所示，本文的数据输入是两个实体的文本描述，并添加特殊标识符处理成序列。整体流程如图3所示，输入分别经过一个相似片段编码器模块和一个数字片段编码器模块，最后组合两个编码器的输出给出分类结果。具体步骤如下：

步骤1：文本数据预处理

将大量需要识别的实体文本描述记录组成记录对，本发明采用分块方法生成候选对，降低识别搜索空间。

将文本数据拼接的公式如下：

serialize(u,v)::＝[CLS]serizalize(u)[SEP]serialize(v)[SEP] (1)

其中，

serialize(x)::＝[COL]attr₁[VAL]val₁…[COL]attr_k[VAL]val_k (2)

表示在一个文本数据中，有多种属性值来描述一个实体，使用“COL”来突出属性名，并在“VAL”后突出属性的值。serialize(x)表示单纯生成一个记录的生成序列，::＝符号代表该序列化方法定义为右式，在图4中的一个记录经过生成后会得到“COL title VALMEMORYIA…”。attr₁和val₁分别表示记录的属性名和属性值输入，如图4，记录一般以二元组(attr_k,val_k)形式输入，k表示第k个二元组，一个二元组在记录u中分别是“title”和“MEMORIA…”。serialize(u,v)则是把两个记录的生成序列用特殊标识符“[CLS]”和“[SEP]”拼接，如图4，得到“[CLS]COLtitle VAL MEMORIA…[SEP]COL title VALCrucial…[SEP]”。

每一个记录u和记录v的原始输入通过序列化方法serialize得到各自记录的独立输入[CLS]serialize(u)[SEP]和[CLS]serialize(v)[SEP]，由公式(1)得到，同时还需要给出记录u和v的联合输入，由公式(2)得到。其中，“[SEP]”、“[COL]”、“[VAL]”是保留输入结构的特殊标记。

步骤2：提取词向量

使用预训练语言模型BERT(Bidirectional Encoder Representations fromTransformers)将预处理之后的数据进行分词、提取单词嵌入向量特征，根据不同的文本长度进行对齐。这里在实际应用编码中，每个attr_i和val_i都需要被token化，从而缓解训练时语料库不足的问题，例如记录u₁中的“8GB”会被拆分成“8”和“#GB”，添加一个“#”符号表明其是前一个单词的部分。最后得到每条记录本身的向量E_u和E_v，记录对(u,v)组合后的整个词向量E_t。

步骤3：相似片段编码器再分配注意力

图1展示了相似片段编码器的流程。

输入：相似片段编码器的输入由三部分组成，记录u和记录v的经过预训练语言模型提取的词向量式E_u和E_v，以及实体候选对(记录u，记录v)组合后的整个词向量E_t。l_u和l_v表示u和v的token序列化后的序列长度，d表示每个token词向量的维度。同样地，本文将记录u和v的联合表达标识为词向量E_t，这里l_t＝l_u+l_v-1，保证输入的长度一致性。这样，模型就获得了三个输入词向量E_t、E_u、E_v。

3-1.提取背景语义，将整个实体候选对(记录u，记录v)本身的词向量E_t作为背景语义进行注意力的交互，这里选择E_t[CLS]来表征整个语义，“[CLS]”的表达向量汇总了E_t词向量的所有token嵌入表达，采用BERT-base模型时，每个token的词向量维度是768，此处若输出整个背景语义的全部信息就是l_t×768的维度，但该向量精确到每个token的特征，一方面不适合作为一个广泛的背景语义，另一方面考虑向量对齐，所以采用“CLS”汇总所有语义。

3-2.背景语义融合，分别在两个记录的词向量E_u和E_v上执行一个背景语义的融合算子，也就是

E′_u＝E_u+E′_t[CLS] (3)

E′_v＝E_v+E′_t[CLS] (4)

其中E_t′[CLS]表示在一个维度上扩展E_t[CLS]从而对齐E_u和E_v形状大小的向量。因为E_t[CLS]包含了实体候选对(记录u，记录v)的整体背景语义，采用该融合算子将十分有助于记录u和v之间的注意力交互。

3-3.记录之间的交互注意力，为了能够让记录u和v相互影响注意力，本发明同时提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制。

对于记录v到记录u的注意力计算，考虑其注意力分布矩阵A：

A＝B/repeat(B_j,l_v)(5)

其中

且

repeat操作是将未归一化的注意力分布矩阵B的按列求和得到列总和B_j，并沿着第一维(行维度)进行向量扩展，方便后续矩阵运算。

接着将E′_v和注意力分布矩阵A进行融合，并且将结果重新加回到E_u上去并且最终得到交互后的词向量C_u：

C_u＝E_u+A^TE′_v (6)

类似地，交互后的词向量C_v也可以通过同样u到v的交互注意力方式计算得到。最后分别融合C_u和E_t，C_v和E_t，得到在整体背景语义下的包含相似片段感知的嵌入向量。

由于需要进行拼接，这里说明下

的意义，C_u输出维度是l_u×d，将其与l_t×d的词向量E_t拼接时，只需要拼接前l_u长度d维向量，这里的1:l_u代表取词向量第1列至第l_u列所有的d维向量。需要注意的是，交互后的词向量C_u和C_v中“[CLS]”(在词向量中处于第一列)的token嵌入向量都会单独和E_t中的token“[CLS]”相加，也就是

和

3-4.特征压缩与提取，采用卷积神经网络CNN进行特征压缩，输入

和

的拼接向量

将其进行卷积获得相似片段的信息。定义一个卷积矩阵

其中d^a是CNN的输出向量维度，卷积核大小l分别设置为3，4，5。利用不同大小的卷积核进行卷积运算，进一步执行最大池化的操作以获取输出特征

步骤4：数字信息片段编码器提取关键型号信息

如图2所示，数字信息片段编码器通过注意力权重和编辑距离获取关键数字信息。

输入：数字信息片段编码器的输入与上一个编码器稍微不同，只需要记录对(u,v)组合后的整个词向量E_t。

4-1.全部候选对编辑距离计算，本文首先计算每一对包含数字的字符子串候选对的编辑距离(s_u,s_v)，其中s_u和s_v分别是来自记录u和记录v的包含数字的字符子串。这样就可以从文本记录u和v中选择出相似的数字型号组合。

具体地，下面给出如何计算两个字符子串s_u和s_v的编辑距离：

这里的i和j分别代表s_u和s_v的字符子串下标。在真实数据集上，不同型号的字符子串往往差距只在1-2个可替换的字母或者数字，比如“1060”和“1070”只相差“6”和“7”。为了体现出这种差距，本文在原来的编辑距离计算公式的基础上，将编辑操作中的“替换”的代价变为2，从而能够对这种微小的字符差异进行放大。

4-2.子串过滤，包含子串关系的字符子串组合进行剔除，当一个字符子串s_u是另一个字符子串s_v的子串，或一个字符子串s_v是另一个字符子串s_u的子串时，应当将编辑距离改为0，这是因为两个字符子串可能以不同的格式描述相同的信息，例如“1x8gb”和“8gb”都描述了一个规格的信息。

4-3.量化字符子串相似度，简单的用编辑距离的长度无法描述所有的记录，因为不同文本描述其匹配的子串对会各不相同，会根据子串对数量和子串本身的长度而产生不同量级的结果。因此，单纯用编辑距离本身是没有办法量化这个标准，所以采用编辑距离比例来描述差异，在计算完编辑距离的基础上添加一个比例，其计算公式如下：

其中l_sum是s_u的加上s_v的编辑距离长度，设定一个阈值当r(s_u,s_v)≥0.5，则认为(s_u,s_v)是相似的字符子串。

4-5.重要字符子串对选择，引入预训练语言模型的自注意力权重来过滤这些无关的字符子串对。具体来说，使用

和

来表示s_u和s_v的自注意力权重。如果自注意力

或者

权重超过设定阈值1/l_t，那么就可以将这一对字符子串视为蕴含重要信息的字符子串对，并在模型训练过程中添加额外的关注。

4-6.综合编辑距离分数计算，在获得所有重要的字符子串对之后，生成数字感知的表达向量

和

以及它们各自的编辑距离分数

也就是

和

会通过平均所有字符子串s_u和s_v在u和v内的token嵌入表达向量得到，而编辑距离分数

则由如下公式计算得到：

其中，

表示字符子串对的集合，

代表字符子串对的数量。

的联合特征。此处的卷积被定义成拼接向量

和矩阵

之间的操作，其中d^a是CNN的输出向量维度，并且卷积核的滑动窗口大小为1和2。首先执行不同卷积核的卷积运算，然后同样地通过最大池化操作来获得输出特征

步骤5：联合输出

如图3所示，拼接相似片段编码器和数字片段编码器输出向量

和

将该联合特征向量通过一个线性层和一个softmax层输出分类概率。根据标签数据，计算预测样本和真值样本之间的损失函数：

其中，y^*表示训练数据中真实的结果，由0，1组成来表示匹配或不匹配；y表示本发明最后输出的0，1预测结果；N表示训练集数量，本发明每个batchsize为32，所以N为32。

然后进行反向传播，不断微调和优化模型的参数，再次从步骤2得到新的模型输入，反复迭代，当损失函数收敛时停止训练。得到最终的语言模型和编码器参数。

Claims

1.一种基于预训练语言模型的实体识别方法，其特征在于包括如下步骤：

步骤1：数据预处理，根据基于文本相似度的处理方法预先生成所有的实体候选对，针对每个实体候选对(记录u，记录v)，先将记录u和记录v的实体文本描述分别生成序列Ⅰ和生成序列Ⅱ，然后使用特殊标识符连接生成序列Ⅰ和生成序列Ⅱ，从而得到一个综合生成序列Ⅲ；

步骤2：使用预训练语言模型将预处理之后的生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ分别进行分词、提取单词嵌入向量特征，并根据不同的文本长度进行对齐，最后分别得到生成序列Ⅰ、生成序列Ⅱ和综合生成序列Ⅲ对应的词向量E_u、词向量E_v和组合后的整个词向量E_t；

步骤3：提取后的词向量E_u、词向量E_v和词向量E_t输入相似片段编码器，捕获每个实体候选对(记录u，记录v)两条记录之间的相似片段；

步骤4：同时也利用数字信息片段编码器来编码预处理的输入，并根据预训练语言模型对数字本身的自注意力权重来筛选数字信息片段，给出经过数字编码器的向量；

步骤5：拼接相似片段编码器和数字片段编码器输出向量

和

将该联合特征向量通过一个线性层和一个softmax层输出分类概率；根据标签数据，计算损失函数，然后进行反向传播，不断微调和优化模型的参数，再次从步骤2得到新的模型输入，反复迭代，当损失函数收敛时停止训练；得到最终的语言模型和编码器参数。

2.根据权利要求1所述的一种基于预训练语言模型的实体识别方法，其特征在于步骤3具体实现如下：

输入：记录u和记录v经过预训练语言模型提取的词向量E_u和E_v，以及实体候选对(记录u，记录v)组合后的整个词向量E_t；

3-1.提取背景语义，将整个实体候选对(记录u，记录v)的词向量E_t作为背景语义，这里选择E_t[CLS]来表征整个背景语义，“[CLS]”的词向量汇总了词向量E_t的所有token词向量；

3-2.背景语义融合，分别在两个记录的词向量E_u和词向量E_v上执行一个背景语义的融合算子，因为E_t[CLS]包含了记录对的整体背景语义，采用该融合算子将有助于记录u和记录v之间的注意力交互；

3-3.两个记录之间的交互注意力，提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制；结合整体背景语义表达，得到在整体背景语义下的包含相似片段感知的嵌入向量；

和

的拼接向量

将其进行卷积获得相似片段的信息；定义一个卷积矩阵

其中d^a是CNN的输出向量维度，l是卷积核大小，d是词向量维度；利用不同大小的卷积核进行卷积运算，进一步执行最大池化的操作以获取输出特征

3.根据权利要求2所述的一种基于预训练语言模型的实体识别方法，其特征在于步骤4具体实现如下：

输入：数字信息片段编码器的输入与上一个编码器稍微不同，只需要实体候选对(记录u，记录v)组合后的整个词向量E_t；

4-1.全部实体候选对编辑距离计算，首先计算每个实体候选对包含数字的字符子串的编辑距离(s_u,s_v)，其中s_u和s_v分别是来自记录u和记录v的包含数字的字符子串，便于从记录u和v中选择出相似的数字型号组合；

4-2.子串过滤，对包含子串关系的字符子串组合进行剔除，当一个字符子串s_u是另一个字符子串s_v的子串，或一个字符子串s_v是另一个字符子串s_u的子串时，应当将编辑距离改为0，这是因为两个字符子串可能以不同的格式描述相同的信息；

4-3.量化字符子串相似度，在计算完编辑距离的基础上添加一个编辑距离比例；

4-4.重要字符子串选择，引入预训练语言模型的自注意力权重来过滤自注意力权重低于设定阈值的字符子串；

4-5.综合编辑距离分数计算，在获得所有重要的字符子串后，生成数字感知的词向量

和

以及它们各自的编辑距离分数

4-6.基于卷积神经网络CNN的特征提取，同样使用CNN来提取

的联合特征；首先执行不同卷积核的卷积运算，然后同样地通过最大池化操作来获得输出特征

4.根据权利要求1所述的一种基于预训练语言模型的实体识别方法，其特征在于步骤1具体实现如下：

将需要识别的实体的文本描述记录组成记录对，采用分块方法生成候选对，将文本数据拼接的公式如下：

serialize(u,v)::＝[CLS]serizalize(u)[SEP]serialize(v)[SEP] (1)

其中，

serialize(x)::＝[COL]attr₁[VAL]val₁…[COL]attr_k[VAL]val_k (2)

表示在一个文本数据中，有多种属性值来描述一个实体，使用“COL”来突出属性名，并在“VAL”后突出属性的值；serialize(x)表示单纯生成一个记录的生成序列，::＝符号代表该序列化方法定义为右式，attr₁和val₁分别表示记录的属性名和属性值输入，记录一般以二元组(attr_k,val_k)形式输入，k表示第k个二元组，serialize(u,v)则是把两个记录的生成序列用特殊标识符“[CLS]”和“[SEP]”拼接；

每一个记录u和记录v的原始输入通过序列化方法serialize得到各自记录的独立输入[CLS]serialize(u)[SEP]和[CLS]serialize(v)[SEP]，由公式(1)得到，同时还需要给出记录u和v的联合输入，由公式(2)得到；其中，“[SEP]”、“[COL]”、“[VAL]”是保留输入结构的特殊标记。

5.根据权利要求4所述的一种基于预训练语言模型的实体识别方法，其特征在于步骤2具体实现如下：使用预训练语言模型BERT将预处理之后的数据进行分词、提取单词嵌入向量特征，根据不同的文本长度进行对齐，且在实际应用编码中，每个attr_i和val_i都需要被token化，最后得到记录u和v本身的向量E_u和E_v，记录对(u,v)组合后的整个词向量E_t。

6.根据权利要求2所述的一种基于预训练语言模型的实体识别方法，其特征在于步骤3-2背景语义融合具体实现如下：

别在两个记录的词向量E_u和E_v上执行一个背景语义的融合算子，也就是

E′_u＝E_u+E′_t[CLS] (3)

E′_v＝E_v+E′_t[CLS] (4)

其中E_t′[CLS]表示在一个维度上扩展E_t[CLS]从而对齐E_u和E_v形状大小的向量；因为E_t[CLS]包含了实体候选对(记录u，记录v)的整体背景语义，采用该融合算子将十分有助于记录u和v之间的注意力交互。

7.根据权利要求2或6所述的一种基于预训练语言模型的实体识别方法，其特征在于步骤3-3提出一个记录v到记录u的注意力计算机制和一个记录u到记录v的注意力计算机制，具体实现如下：

对于记录v到记录u的注意力计算，考虑其注意力分布矩阵A：

A＝B/repeat(B_j,l_v) (5)

其中

且

repeat操作是将未归一化的注意力分布矩阵B的按列求和得到列总和B_j，并沿着第一维进行向量扩展；

C_u＝E_u+A^TE′_v (6)

类似地，交互后的词向量C_v也通过同样u到v的交互注意力方式计算得到；最后分别融合C_u和E_t，C_v和E_t，得到在整体背景语义下的包含相似片段感知的嵌入向量；

由于需要进行拼接，因此补充说明

的意义，C_u输出维度是l_u×d，将其与l_t×d的词向量E_t拼接时，只需要拼接前l_u长度d维向量，这里的1:l_u代表取词向量第1列至第l_u列所有的d维向量，交互后的词向量C_u和C_v中“[CLS]”的token嵌入向量都会单独和E_t中的token“[CLS]”相加，也就是

和

8.根据权利要求3所述的一种基于预训练语言模型的实体识别方法，其特征在于步骤4-1所述的全部候选对编辑距离计算，具体如下：首先计算每一对包含数字的字符子串候选对的编辑距离(s_u,s_v)，其中s_u和s_v分别是来自记录u和记录v的包含数字的字符子串；具体地，下面给出如何计算两个字符子串s_u和s_v的编辑距离：