CN113947083A

CN113947083A - 一种文档级别命名实体识别方法

Info

Publication number: CN113947083A
Application number: CN202110155109.2A
Authority: CN
Inventors: 桂韬; 叶佳成; 张奇; 李争彦; 费子楚; 宫叶云; 黄萱菁
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-01-18

Abstract

本发明提供一种文档级别命名实体识别方法，通过分别将引入了一种新颖的两阶段标签修正方法来处理文档级标签的一致性依赖关系，首先使用键值记忆网络来记录第一阶段模型预测的草稿标签，然后基于键值记忆网络存储的相同词的上下文和草稿标签信息，使用双通道Transformer对草稿标签进行修正。因此，通过本发明提出的方法可以在通过所使用的贝叶斯神经网络来指示所有草稿标签的不确定性，从而减轻不正确的草稿标签的副作用，避免了不确定性很高的草稿标签对最终标签产生的干扰。

Description

一种文档级别命名实体识别方法

技术领域

本发明属于命名实体识别技术领域，具体涉及一种文档级别命名实体识别方法。

背景技术

目前的命名实体识别领域所采用的主流的方法是使用BiLSTM+CRF模型，然而CRF存在两个问题，一是其只能建模周围词的依赖关系，无法建模长距离的依赖(例如相同词可能存在标签一致性关系的情况)；二是CRF在推断阶段使用的维特比算法在处理长文本的时候效率很低，导致了在一些实时性要求较高的场合难以适用。

为了建模文档级别的标签依赖关系，近年来包括Graph-IE和Hier-NER的一些模型通过尝试通过融合相同词在文档级别的上下文信息来建模文档级别的依赖关系，但是该类方法的工作重点仅放在文档级上下文表示上，并没有为相同词之间的文档级标签一致性关系进行显式建模。

目前的模型无法显式建模标签的文档级依赖关系。此外，包括BiLSTM-seq2seq和BiLSTM-LAN的另一些模型通过引入标签嵌入来建模标签间的长距离依赖关系，但是该类方法仅局限于建模句子级别的依赖关系，以此同时也无法有效建模文档级别的依赖关系。

发明内容

为解决上述问题，提供一种能同时且高效的建模句子级别和文档级别的标签依赖的文档级别命名实体识别方法，本发明采用了如下技术方案：

本发明提供了一种文档级别命名实体识别方法，用于对待识别文档进行命名实体识别得到该待识别文档中每个词所对应的实体标签，其特征在于，包括如下步骤：步骤S1，对待识别文档进行一阶段识别得到每个词所对应的句子级别草稿标签以及草稿标签对应的不确定性值，并基于该句子级别草稿标签以及不确定性值构建对应待识别文档的键值记忆网络；步骤S2，基于键值记忆挖网络对待识别文档进行二阶段识别得到每个词所对应的修正标签；步骤S3，依次判断每个词对应的句子级别草稿标签的不确定性值是否大于预定的阈值；步骤S4，当不确定性值大于预定的阈值时，将修正标签设置为实体标签；步骤S5，当不确定性值小于等于预定的阈值时，将句子级别草稿标签设置为实体标签；步骤S6，输出每个词所对应的实体标签，其中，步骤S1包括以下子步骤：步骤S1-1，将待识别文档通过编码前处理得每个词的初始词表示以及初始特征；步骤S1-2，将初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征，并将两者拼接形成句子级别上下文表示；步骤S1-3，通过采样得到标签预测分布，并根据该标签预测分布计算得到每个词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值；步骤S1-4，将每个词对应的句子级别草稿标签以及句子级别上下文表示按照键值块存储在键值记忆网络中，其中相同的词占用一个键值块，步骤S2包括以下子步骤：步骤S2-1，通过单通道Transformer对待识别文档进行编码得到每个词对应的上下文表示；步骤S2-2，根据每个词在键值记忆网络中对应的键值块，以上下文表示作为查询条件，从键值块里检索到对应的句子级别上下文表示作为共现表示，并对该共现表示执行注意力机制从而得到每个词的注意力权重，进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个词对应的文档级别上下文表示以及文档级别草稿标签；步骤S2-3，将句子级别上下文表示和句子级别草稿标签分别与文档级别上下文表示和文档级别草稿标签进行连接，并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。

本发明提供的一种文档级别命名实体识别方法，还可以具有这样的技术特征，其中，步骤S1-1包括以下子步骤：步骤S1-1-1，通过待识别文档得到词向量以及词标签；步骤S1-1-2，通过词嵌入矩阵进行初始化得到初始词表示：w_i＝e^w(w_i)，式中，w_i为第i个词的初始词表示，e^w是词嵌入矩阵，w_i为初始化词向量；步骤S1-1-3，将词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征：l_j＝e^l(l_j)，式中，l_j为初始特征，e^l为标签嵌入矩阵，l_j为词标签；步骤S1-1-4，通过CNN网络通过编码得到字符级别特征；步骤S1-1-5，将字符级别特征和预先设有的字特征进行拼接得到初始特征：x_i＝[w_i；c_i]，式中，x_i为初始特征，w_i为第i个词的词表示，c_i为字特征。

本发明提供的一种文档级别命名实体识别方法，还可以具有这样的技术特征，其中，步骤S1-2中的句子级别上下文表示为：

式中，h_i为句子级别上下文表示，

为前向特征，

为后向特征。

本发明提供的一种文档级别命名实体识别方法，还可以具有这样的技术特征，其中，步骤S1-3包括以下子步骤：步骤S1-3-1，通过句子级别上下文表示并根据采样得到的结果来计算句子级别草稿标签以及不确定性值：

式中，

为用于进行采样的VLSTM网络参数，T为采样次数，t表示当前为第t次采样，p_i为经多次采样得到的第i个词的标签预测分布，

为第i个词的句子级别草稿标签，h_i为第i个词的句子级别上下文表示，u_i为第i个句子级别草稿标签的不确定性值，p_i为第i个词的标签预测分布，p_c为第c个类别的概率值；步骤S1-3-2，得到所有句子级别草稿标签L^*以及所有不确定性值U：

U＝{u₁，u₂，...，u_n}

式中，

为第i个句子级别草稿标签，u_n为第n个句子级别草稿标签的不确定性值。

本发明提供的一种文档级别命名实体识别方法，还可以具有这样的技术特征，其中，步骤S1-4包括以下子步骤：步骤S1-4-1，将每个句子级别草稿标签以及对应的不确定性值按照每个词占用一个键值块进行储存：

式中，

表示第i个词w_i对应的键值块，k_i；s表示了词w_i在待识别文档中第s次出现的句子级别上下文表示，v_i；s表示词w_i在该文档中第s次出现的句子级别草稿标签的嵌入向量；步骤S1-4-2，得到由所有键值块构成的键值记忆网络M：

式中，r表示待识别文档中的词表的数量。

本发明提供的一种文档级别命名实体识别方法，还可以具有这样的技术特征，其中，步骤S2-2中每个词的注意力权重

为：

式中，x_i表示第i个词的上下文表示，H_i表示键值记忆模块中第i个词对应的

中所有句子级别上下文表示k_i；m构成的矩阵，W_h是预先设定的网络权重，文档级别上下文表示

以及文档级别草稿标签

通过如下公式计算得到：

式中，L_i表示键值记忆模块中第i个词对应的

中所有的句子级别草稿标签的嵌入向量。

本发明提供的一种文档级别命名实体识别方法，还可以具有这样的技术特征，其中，双通道Transformer包含多个参数不共享但结构一致的层，每一层包括一个内容注意力模块和一个标签注意力模块，分别用于计算内容注意力权重以及标签注意力权重：

式中，

表示第i个词对第j个词的内容注意力权重，

表示第i个词对第j个词的草稿标签的标签注意力权重，R为采用了相对位置编码的位置编码矩阵，W_qh、W_kh、W_kR、W_ql、W_kl、u_i、v_i为可学习的参数，双通道Transformer的的每一层在得到的注意力权重后，进行如下操作：

V_h＝H¹W_h，a_h＝Softmax(A^h2h)V_h，

V_l＝L¹W_l，a_l＝Softmax(A^h2l)V_l，

H²＝FeedForward(LayerNorm(Linear(a_h)+H¹))

L²＝FeedForward(LayerNorm(Linear(a_l)+L¹)).

式中，H¹表示句子级别上下文表示与文档级别上下文表示拼接后的向量构成的矩阵，L¹表示句子级别草稿标签与文档级别草稿标签拼接后的向量构成的矩阵，A^h2h为所有内容注意力权重，a_h表示内容注意力分布，A^h2l为所有标签注意力权重，a_l表示标签注意力分布，V_h为对H¹变换后的表示，V_l为对L¹变换后的表示，W_h、W_l均为可学习的参数，最终得到的H²和L²将作为双通道Transformer的下一层输入，双通道Transformer的最后一层输出的H²和L²用于被连接并预测得到所有修正标签：

式中，

为第n个词的修正标签。

发明作用与效果

根据本发明提供的一种文档级别命名实体识别方法，由于通过两阶段标签修正方法来处理文档级标签的一致性依赖关系，即，首先通过一阶段识别来识别出待识别文档中各个词的草稿标签以及不确定性值，并将各个词的草稿标签以及上下文表示构建一个对应的键值记忆网络，然后在使用双通道Transformer对待识别文档进行二阶段识别时，基于键值记忆网络中相同词的上下文和草稿标签信息进行实体识别得到修正标签。因此，通过这样的方式，在草稿标签的不确定性较高时，可以将修正标签进行替换来作为词的最终标签，从而有效减轻不正确的草稿标签的副作用，避免了不确定性很高的草稿标签对最终标签产生的干扰。

附图说明

图1是本发明实施例中文档级别标签的依赖示意图；

图2是本发明实施例中文档级别命名实体识别方法的流程图；

图3是本发明实施例中文档级别命名实体识别方法的过程的结构示意图；

图4是本发明实施例中文档级别命名实体识别方法的步骤S1的流程图；

图5是本发明实施例中文档级别命名实体识别方法的步骤S2的流程图；

图6是本发明实施例中文档级别命名实体识别方法与以往方法的对比实验结果；以及

图7是本发明实施例中文档级别命名实体识别方法与以往方法的效率对比实验结果。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种文档级别命名实体识别方法作具体阐述。

<实施例>

图1是本发明实施例中文档级别标签的依赖示意图。

在图1示出的文档的部分句子中，“Rusty Greer”以及“Julia Tavarez”两者是相邻词汇，具有局部依赖的关系，可以通过该局部依赖来判断出两者的标签分别为B-PER和E-PER。但是，在句子“Greer hit a…”中，词汇“Greer”与“Rusty Greer”分别属于一个文档中独立的两个句子，属于文档级别依赖。另外，图1中还示出了一致性依赖，该一致性依赖是一种特殊的文档级别依赖

图2是本发明实施例中文档级别命名实体识别方法的流程图，图3是本发明实施例中文档级别命名实体识别方法的过程的结构示意图。

如图2以及图3所示，以被输入的待识别文档为“Office of Fair Trading”为例，文档级别命名实体识别方法对该待识别文档进行处理后，就会预测出文档中每个词的标签，其中，“Office”最终预测的标签为B-ORG，“of”和“Fair”均对应标签I-ORG，“Trading”对应标签E-ORG。文档级别命名实体识别方法具体包括步骤S1至步骤S6。

步骤S1，将待识别文档通过贝叶斯LSTM处理得到草稿标签以及草稿标签对应的不确定性值，并基于该句子级别草稿标签以及不确定性值构建对应待识别文档的键值记忆网络。

图4是本发明实施例中文档级别命名实体识别方法的步骤S1的流程图。

如图4所示，步骤S1包括步骤S1-1至步骤S1-4。

步骤S1-1，将待识别文档通过编码前处理得每个词的初始词表示以及初始特征。本实施例中，该步骤S1-1具体包括以下步骤S1-1-1至步骤S1-1-5。

步骤S1-1-1，通过待识别文档得到词向量以及词标签；

步骤S1-1-2，通过词嵌入矩阵进行初始化得到初始词表示：，具体通过以下公式：

w_i＝e^w(w_i)

式中，w_i为第i个词的初始词表示，e^w是词嵌入矩阵，w_i为初始化词向量；

步骤S1-1-3，将词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征：

l_j＝e^l(l_j)

式中，l_j为初始特征，e^l为标签嵌入矩阵，l_j为词标签；

步骤S1-1-4，通过CNN网络通过编码得到字符级别特征；

步骤S1-1-5，将字符级别特征和预先设有的字特征进行拼接得到初始特征：

x_i＝[w_i；c_i]

式中，x_i为初始特征，w_i为第i个词的词表示，c_i为字特征。

步骤S1-2，将初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征，并将两者拼接形成句子级别上下文表示。本实施例中，句子级别上下文表示为：

式中，h_i为句子级别上下文表示，

为前向特征，

为后向特征。

步骤S1-3，通过采样得到标签预测分布，并根据该标签预测分布计算得到每个词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值。如图3所示，“Office”以及“of”预测得到的句子级别草稿标签均为O，且不确定性值都为0.8；“Fair”预测得到的句子级别草稿标签为S-ORG，不确定性值为0.6；“Trading”预测得到的句子级别草稿标签为E-ORG，不确定性值为0.1。

本实施例中，该步骤S1-3具体包括步骤S1-3-1至步骤S1-3-2：

步骤S1-3-1，通过句子级别上下文表示并根据采样得到的结果来计算句子级别草稿标签以及不确定性值：

式中，

为第i个词的句子级别草稿标签，h_i为第i个词的句子级别上下文表示，u_i为第i个句子级别草稿标签的不确定性值，p_i为第i个词的标签预测分布，p_c为第c个类别的概率值。

步骤S1-3-2，得到所有句子级别草稿标签L^*以及所有不确定性值U：

U＝{u₁，u₂，...，u_n}

式中，

步骤S1-4，将每个词对应的句子级别草稿标签以及句子级别上下文表示按照键值块存储在键值记忆网络中，其中相同的词占用一个键值块。

本实施例中，如图3所示，在键值记忆网络中，词m1、m2和m3分别占用一个键值块，其中，由于词m1在整个待识别文档中出现两次，因此在词m1的键值块中对应地存储有两个句子级别草稿标签以及相应的句子级别上下文表示，分别为句子级别草稿标签l_1；1和l_1；2以及句子级别上下文表示h_1；1和h_1；2。

本实施例的步骤S1-4具体包括步骤S1-4-1至步骤S1-4-2：

步骤S1-4-1，将每个句子级别草稿标签以及对应的不确定性值按照每个词占用一个键值块进行储存：

式中，

表示第i个词w_i对应的键值块，k_i；s表示了词w_i在待识别文档中第s次出现的句子级别上下文表示，v_i；s表示词w_i在该文档中第s次出现的句子级别草稿标签的嵌入向量；

步骤S1-4-2，得到由所有键值块构成的键值记忆网络M：

式中，r表示待识别文档中的词表的数量。

步骤S2，将基于键值记忆挖网络对待识别文档进行二阶段识别得到每个词所对应的修正标签。

图5是本发明实施例中文档级别命名实体识别方法的步骤S2的流程图。

如图5所示，步骤S2具体包括以下步骤S2-1至步骤S2-3：

步骤S2-1，通过单通道Transformer对待识别文档进行编码得到每个词对应的上下文表示。

步骤S2-2，根据每个词在键值记忆网络中对应的键值块，以上下文表示作为查询条件，从键值块里检索到对应的句子级别上下文表示作为共现表示，并对该共现表示执行注意力机制从而得到每个词的注意力权重，进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个词对应的文档级别上下文表示以及文档级别草稿标签。

本实施例中，每个词的注意力权重

为：

中所有句子级别上下文表示k_i；m构成的矩阵，W_h是预先设定的网络权重，

文档级别上下文表示

以及文档级别草稿标签

通过如下公式计算得到：

式中，L_i表示键值记忆模块中第i个词对应的

中所有的句子级别草稿标签的嵌入向量。

步骤S2-3，将句子级别上下文表示和句子级别草稿标签分别与文档级别上下文表示和文档级别草稿标签进行连接，并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。

本实施例中，双通道Transformer包含多个参数不共享但结构一致的层，每一层包括一个内容注意力模块和一个标签注意力模块，分别用于计算内容注意力权重以及标签注意力权重：

式中，

表示第i个词对第j个词的内容注意力权重，

表示第i个词对第j个词的草稿标签的标签注意力权重，R为采用了相对位置编码的位置编码矩阵，W_qh、W_kh、W_kR、W_ql、W_kl、u_i、v_i为可学习的参数。

双通道Transformer的的每一层在得到的注意力权重后，进行如下操作：

V_h＝H¹W_h，a_h＝Softmax(A^h2h)V_h，

V_l＝L¹W_l，a_l＝Softmax(A^h2l)V_l，

H²＝FeedForward(LayerNorm(Linear(a_h)+H¹))

L²＝FeedForward(LayerNorm(Linear(a_l)+L¹)).

式中，H¹表示句子级别上下文表示与文档级别上下文表示拼接后的向量构成的矩阵，L¹表示句子级别草稿标签与文档级别草稿标签拼接后的向量构成的矩阵，A^h2h为所有内容注意力权重，a_h表示内容注意力分布，A^h2l为所有标签注意力权重，a_l表示标签注意力分布，V_h为对H¹变换后的表示，V_l为对L¹变换后的表示，W_h、W_l均为可学习的参数，最终得到的H²和L²将作为双通道Transformer的下一层输入。

双通道Transformer的最后一层输出的H²和L²用于被连接并预测得到所有修正标签：

式中，

为第n个词的修正标签。

通过上述过程，即可得到待识别文档中每个词的修正标签，如图3所示，“Office”的修正标签为B-ORG，“of”和“Fair”的修正标签为I-ORG，“Trading”的修正标签为S-ORG。

步骤S3，判断草稿标签不确定性值是否大于预定的阈值。

步骤S4，当草稿标签不确定性值大于预定的阈值时，将修正标签设置为最终标签。

步骤S5，当草稿标签不确定性值小于等于预定的阈值时，将草稿标签设置为最终标签。

步骤S6，输出最终结果，

本实施例中，为了减轻第一阶段不正确的草稿标签对正确的草稿标签产生负面影响，我们预设一个不确定性阈值Γ，只对草稿标签中不确定行值大于Γ的标签进行修正，并保持其余标签不变。例如，给定u₁＞Γ，u₂≤Γ以及u_n＞Γ，则最终的输出标签序列为

图6是本发明实施例中文档级别命名实体识别方法与以往方法的对比实验结果。

如图6所示，针对CoNLL2003、OntoNotes、CHENDNER三种标准数据集，本实施例的文档级别命名实体识别方法(DocL-NER)相对于传统的各种方法准确率都明显优于目前的其他各种方法。

从图7可以看出，文档级别命名实体识别方法(DocL-NER)的训练以及推断速度相对于Hier-Ner的效率分别是2.64倍以及5.48倍，相对于GraphIE和BiLSTM-CRF这两种方法也具有明显的优势。

实施例作用与效果

在实施例中，由于通过在待识别文档提取词向量以及词标签能够更将详细的获取待识别文档的上下文信息，因此使得得到的最终标签能够更加准确。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种文档级别命名实体识别方法，用于对待识别文档进行命名实体识别得到该待识别文档中每个词所对应的实体标签，其特征在于，包括如下步骤：

步骤S1，对所述待识别文档进行一阶段识别得到每个所述词所对应的句子级别草稿标签以及所述草稿标签对应的不确定性值，并基于该句子级别草稿标签构建对应所述待识别文档的键值记忆网络；

步骤S2，基于所述键值记忆挖网络对所述待识别文档进行二阶段识别得到每个所述词所对应的修正标签；

步骤S3，依次判断每个所述词对应的所述句子级别草稿标签的所述不确定性值是否大于预定的阈值；

步骤S4，当所述不确定性值大于预定的阈值时，将所述修正标签设置为实体标签；

步骤S5，当所述不确定性值小于等于预定的阈值时，将所述句子级别草稿标签设置为所述实体标签；

步骤S6，输出每个词所对应的所述实体标签，

其中，所述步骤S1包括以下子步骤：

步骤S1-1，将所述待识别文档通过编码前处理得每个所述词的初始词表示以及初始特征；

步骤S1-2，将所述初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征，并将两者拼接形成句子级别上下文表示；

步骤S1-3，通过采样得到标签预测分布，并根据该标签预测分布计算得到每个所述词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值；

步骤S1-4，将每个词对应的所述句子级别草稿标签以及所述句子级别上下文表示按照键值块存储在所述键值记忆网络中，其中相同的所述词占用一个所述键值块，

所述步骤S2包括以下子步骤：

步骤S2-1，通过单通道Transformer对所述待识别文档进行编码得到每个词对应的上下文表示；

步骤S2-2，根据每个词在所述键值记忆网络中对应的所述键值块，以所述上下文表示作为查询条件，从所述键值块里检索到对应的句子级别上下文表示作为共现表示，并对该共现表示执行注意力机制从而得到每个词的注意力权重，进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个所述词对应的文档级别上下文表示以及文档级别草稿标签；

步骤S2-3，将所述句子级别上下文表示和所述句子级别草稿标签分别与所述文档级别上下文表示和文档级别草稿标签进行连接，并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。

2.根据权利要求1所述的一种文档级别命名实体识别方法，其特征在于：

其中，所述步骤S1-1包括以下子步骤：

步骤S1-1-1，通过所述待识别文档得到词向量以及词标签；

步骤S1-1-2，通过词嵌入矩阵进行初始化得到所述初始词表示：

w_i＝e^w(w_i)

式中，w_i为第i个所述词的所述初始词表示，e^w是词嵌入矩阵，w_i为初始化词向量；

步骤S1-1-3，将所述词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征：

l_j＝e^l(l_j)

式中，l_j为所述初始特征，e^l为所述标签嵌入矩阵，l_j为所述词标签；

步骤S1-1-4，通过CNN网络通过编码得到字符级别特征；

步骤S1-1-5，将所述字符级别特征和预先设有的字特征进行拼接得到所述初始特征：

x_i＝[w_i；c_i]

式中，x_i为所述初始特征，w_i为第i个词的所述词表示，c_i为所述字特征。

3.根据权利要求1所述的一种文档级别命名实体识别方法，其特征在于：

其中，所述步骤S1-2中的所述句子级别上下文表示为：

式中，h_i为所述句子级别上下文表示，

为所述前向特征，

为所述后向特征。

4.根据权利要求1所述的一种文档级别命名实体识别方法，其特征在于：

其中，所述步骤S1-3包括以下子步骤：

步骤S1-3-1，通过所述句子级别上下文表示并根据所述采样得到的结果来计算句子级别草稿标签以及所述不确定性值：

式中，

为用于进行所述采样的VLSTM网络参数，T为采样次数，t表示当前为第t次采样，p_i为经多次所述采样得到的第i个词的标签预测分布，

为第i个词的所述句子级别草稿标签，h_i为第i个词的所述句子级别上下文表示，u_i为第i个所述句子级别草稿标签的所述不确定性值，p_i为第i个词的所述标签预测分布，p_c为第c个类别的概率值；

步骤S1-3-2，得到所有所述句子级别草稿标签L^*以及所有所述不确定性值U：

U＝{u₁,u₂,…,u_n}

式中，

为第i个所述句子级别草稿标签，u_n为第n个句子级别草稿标签的不确定性值。

5.根据权利要求1所述的一种文档级别命名实体识别方法，其特征在于：

其中，所述步骤S1-4包括以下子步骤：

步骤S1-4-1，将每个所述句子级别草稿标签以及对应的所述不确定性值按照每个词占用一个键值块进行储存：

式中，

表示第i个词w_i对应的键值块，k_i；s表示了词w_i在所述待识别文档中第s次出现的所述句子级别上下文表示，v_i；s表示词w_i在该文档中第s次出现的所述句子级别草稿标签的嵌入向量；

步骤S1-4-2，得到由所有所述键值块构成的所述键值记忆网络M：

式中，r表示所述待识别文档中的词表的数量。

6.根据权利要求1所述的一种文档级别命名实体识别方法，其特征在于：

其中，所述步骤S2-2中每个词的所述注意力权重

为：

式中，x_i表示第i个词的所述上下文表示，H_i表示所述键值记忆模块中第i个词对应的

所述文档级别上下文表示

以及所述文档级别草稿标签

通过如下公式计算得到：

式中，L_i表示所述键值记忆模块中第i个词对应的

中所有的所述句子级别草稿标签的嵌入向量。

7.根据权利要求6所述的一种文档级别命名实体识别方法，其特征在于：

其中，所述双通道Transformer包含多个参数不共享但结构一致的层，每一所述层包括一个内容注意力模块和一个标签注意力模块，分别用于计算内容注意力权重以及标签注意力权重：

式中，

表示第i个词对第j个词的内容注意力权重，

表示第i个词对第j个词的草稿标签的标签注意力权重，R为采用了相对位置编码的位置编码矩阵，W_qh、W_kh、W_kR、W_ql、W_kl、u_i、v_i为可学习的参数，

所述双通道Transformer的的每一层在得到的注意力权重后，进行如下操作：

V_h＝H¹W_h,a_h＝Softmax(A^h2h)V_h,

V_l＝L¹W_l,a_l＝Softmax(A^h2l)V_l,

H²＝FeedForward(LayerNorm(Linear(a_h)+H¹))

L²＝FeedForward(LayerNorm(Linear(a_l)+L¹)).

式中，H¹表示所述句子级别上下文表示与所述文档级别上下文表示拼接后的向量构成的矩阵，L¹表示所述句子级别草稿标签与所述文档级别草稿标签拼接后的向量构成的矩阵，A^h2h为所有所述内容注意力权重，a_h表示内容注意力分布，A^h2l为所有所述标签注意力权重，a_l表示标签注意力分布，V_h为对H¹变换后的表示，V_l为对L¹变换后的表示，W_h、W_l均为可学习的参数，最终得到的H²和L²将作为所述双通道Transformer的下一所述层输入，

所述双通道Transformer的最后一层输出的H²和L²用于被连接并预测得到所有所述修正标签：

式中，

为第n个词的所述修正标签。