CN112883732A

CN112883732A - 基于关联记忆网络的中文细粒度命名实体识别方法及装置

Info

Publication number: CN112883732A
Application number: CN202011344221.2A
Authority: CN
Inventors: 孙成胜; 饶志宏; 张焱; 王伟; 童炜
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-06-01

Abstract

本发明公开了一种基于关联记忆网络的中文细粒度命名实体识别方法及装置，包括输入层进行记忆句子的选择，计算输入句子和训练集中句子的距离，将训练集中与输入句子距离最近的几个句子作为记忆句子；嵌入层对输入句子和记忆句子中的字符进行上下文编码，并将记忆句子的实体标签转换为标签序列，进行标签嵌入；关联记忆网络计算输入句子中每个字符和记忆句子中每个字符的注意力矩阵，并与记忆句子对应的标签嵌入相乘，将标签信息融入序列表示中；多头自注意层、条件随机场层和输出层。本发明对融入了标签信息的字符表示进行重新编码，增加了实体识别的效果；实验结果表明，本发明的模型在细粒度命名实体识别任务中取得了更好的效果。

Description

基于关联记忆网络的中文细粒度命名实体识别方法及装置

技术领域

本发明涉及自然语言处理领域，更为具体的，涉及一种基于关联记忆网络的中文细粒度命名实体识别方法及装置。

背景技术

细粒度命名实体识别是对文本中的实体进行定位，并将其分类至预定义的细粒度类别中；命名实体识别是自然语言处理中的信息抽取任务之一，其目的是对文本中特定类别的实体进行定位和分类。大多数命名实体识别任务中只识别人名、组织、地点等实体类别，识别的实体类别少，并且类别划分的比较宽泛；然而，细粒度命名实体识别更符合现实世界的知识体系，在一些常见类别的基础上做了近一步的类别划分，需要识别的实体种类远多于一般的命名实体识别，这样从文本中抽取的实体就拥有了一个更详细的定义，对下游的知识图谱的构建和问答任务提供更有力的支撑。

在细粒度命名实体识别中，更细粒度的划分会造成各实体类别在语义上呈现出更紧密的距离；模型对语义相近类别的实体进行分类时，容易发生混淆，这意味着细粒度实体类别的区分更具有挑战性。目前，中文公开的高质量细粒度命名实体识别的数据集很少，CLUENER2020数据集包含 10种不同的实体类别，并对一些常见类别进行了细粒度的划分，如从“地点” 中分离出来了“景点”，从“组织”中分离出了“政府”和“公司”，这就造成“地点”和“景点”之间，“组织”、“政府”和“公司”之间的混淆程度较高；同时存在同一实体在不同语境下属于不同类别的情况，如“游戏”可以是一些“书籍” 和“电影”的改编。

如表1所示，实体“《黑暗之塔》”在第一个句子中属于“游戏”类别，在第二和第三个句子中属于“书籍”。在这种情况下，对实体类别的区分需要结合上下文语境，同时也给“游戏”、“书籍”和“电影”实体类别之间的区分造成混淆。Xu等人使用bilstm-crf和预训练语言模型在该数据集上进行实验，相同的模型在其他数据集上的f1值可以达到95，然而在该数据集上最好的效果只能达到80左右，这是因为细粒度数据集的句子中经常存在多个类别的实体，模型在预测时会出现一些实体类别的丢失，同时模型对一些类别的区分能力也存在一定的限制，导致细粒度命名实体识别任务更具有挑战性。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于关联记忆网络的中文细粒度命名实体识别方法及装置，解决了现有细粒度命名实体识别方案中存在的不足。

本发明的目的是通过以下方案实现的：

基于关联记忆网络的中文细粒度命名实体识别方法，其特征在于，包括步骤：

S1，给定输入句子S，计算输入句子S和训练集中句子的距离，将训练集中与输入句子S距离最近的几个句子作为记忆句子；

S2，对输入句子S和记忆句子中的字符进行上下文编码，并将记忆句子的实体标签转换为标签序列，进行标签嵌入；

S3，通过关联记忆网络计算输入句子S中每个字符和记忆句子中每个字符的注意力矩阵，并与记忆句子对应的标签嵌入相乘，将标签信息融入序列表示中；

S4，通过多头自注意机制结合句子任意位置之间的相互关注，对融入了标签信息的序列表示进行重新编码；

S5，通过条件随机场学习各实体标签之间的规则，再使用维特比算法输出概率最高的标签序列。

进一步地，包括用于构建基于关联记忆网络的中文细粒度命名实体识别模型的程序和运行该程序的可读存储介质；所述运行该程序的可读存储介质包括输入层模块、嵌入层模块、关联记忆网络模块、多头自注意层模块、条件随机场层模块和输出层模块；

所述输入层模块用于进行记忆句子的选择，计算输入句子和训练集中句子的距离，将训练集中与输入句子距离最近的几个句子作为记忆句子；

所述嵌入层模块对输入句子和记忆句子中的字符进行上下文编码，并将记忆句子的实体标签转换为标签序列，进行标签嵌入；

所述关联记忆网络模块计算输入句子中每个字符和记忆句子中每个字符的注意力矩阵，并与记忆句子对应的标签嵌入相乘，将标签信息融入序列表示中；

所述多头自注意层模块结合句子任意位置之间的相互关注，对融入了标签信息的序列表示进行重新编码；

所述条件随机场层模块学习各实体标签之间的规则；

所述输出层模块使用维特比算法输出概率最高的标签序列。

进一步地，所述输入层模块包括输入句子S、句子S在训练集中对应的n 个记忆句子和所述n个记忆句子对应的标签序列；

所述输入层模块通过计算两个句子词性序列编辑距离的方法计算句子的距离，其包括通过计算句子S和训练集中所有句子的距离，选择前n个与句子S距离最近的句子和这n个句子对应的标签序列存入记忆单元中。

进一步地，所述输入层模块计算句子的距离还包括通过计算实体类别距离的方法实现，其包括先通过文本多标签预测模型预测句子中可能包含的实体类别；然后将训练集中与输入句子包含的实体类别最相近的句子存储在记忆单元中。

进一步地，所述嵌入层模块包括使用预训练语言模型对句子中的字符进行上下文嵌入和对记忆句子的标签序列进行标签嵌入两部分，实现将句子的字符映射到同一个语义空间中。

进一步地，所述使用预训练语言模型对句子中的字符进行上下文嵌入包括通过预训练语言模型分别对所述输入句子S和对应的所述n个记忆句子进行上下文嵌入，捕获每个字符在给定句子中的上下文信息，得到所述输入句子S的嵌入向量表示

和对应的所述n个记忆句子的嵌入向量表示

其中，i为输入句子S第i个位置的下标，j为第j个记忆句子的下标， x为句子中的字符序列，l_s为输入句子的长度，l_j为第j个记忆句子的长度， x_i为输入句子的第i个字符，x_j,k为第j个记忆句子的第k个字符。

进一步地，所述对记忆句子的标签序列进行标签嵌入包括通过预训练的词向量对训练集中的各类实体进行词嵌入，如果出现未登录的实体则进行字符嵌入，词嵌入和字符嵌入的维度皆为300维；将各类实体嵌入表示的平均数作为标签嵌入矩阵的初始化权重，采用BIOS的形式对实体进行标记，将4位onehot向量拼接在各个实体标签嵌入的尾部，得到维度R^l为304 维的标签嵌入。

进一步地，所述关联记忆网络包括输入句子和记忆句子之间的注意力计算以及标签序列的融入和合并两部分；通过计算输入句子和记忆句子之间的注意力，实现捕获输入句子中的每个字符对记忆句子中每个字符在实体类别方面的相似度。

进一步地，所述输入句子和记忆句子之间的注意力计算包括通过公式

计算输入句子S的嵌入向量表示s′中每个字符和记忆句子的嵌入向量表示a′_j中每个字符的相似度，得到n个l_s×l_j的注意力矩阵

再通过公式

对注意力矩阵

进行归一化，得到归一化后的矩阵M_j，其中

其中，

为输入句子S和第j个记忆句子的注意力矩阵，

a′_j为第j个记忆句子的字符序列，α_i,j是输入句子的第i个字符对应第j个记忆句子各个字符的归一化向量，f(·)是softmax函数。

进一步地，所述标签序列的融入和合并包括将归一化后的矩阵M_j与记忆句子对应的标签嵌入序列L_j相乘得到融入了标签信息的序列L′_j；将n个融入了标签信息的序列L′_j进行平均并与输入句子S的嵌入向量s′拼接得到最后的输入句子表示e。

本发明的有益效果是：

本发明解决了现有细粒度命名实体识别方案中存在的不足，取得了更好的效果；本发明充分利用了预训练语言模型捕获了句子字符的上下文信息，同时利用关联记忆网络，使字符的上下文信息接近于实体类别的标签信息，并将类别的标签信息融入到序列的字符表示中，最后利用多头自注意网络高效的计算了句子任意位置间的关注度，对融入了标签信息的字符表示进行重新编码，增加了实体识别的效果；实验结果表明，本发明的模型在细粒度命名实体识别任务中取得了更好的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明装置中模型的整体框架图；

图2为标签嵌入形式示意图；

图3为关联记忆网络中各层向量形状转换流程图；

图4为多头自注意力层示意图；

图5为验证集上的F1值曲线图；

图6为基于实体类别距离的关联注意力热力图；

图7为基于编辑距离的关联注意力热力图。

具体实施方式

本说明书中所有实施例公开的所有特征(包括任何附加权利要求、摘要和附图)，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1～7所示，基于关联记忆网络的中文细粒度命名实体识别方法，其特征在于，包括步骤：

所述条件随机场层模块学习各实体标签之间的规则；

所述输出层模块使用维特比算法输出概率最高的标签序列。

和对应的所述n个记忆句子的嵌入向量表示

进一步地，所述对记忆句子的标签序列进行标签嵌入包括通过预训练的词向量对训练集中的各类实体进行词嵌入，如果出现未登录的实体则进行字符嵌入，词嵌入和字符嵌入的维度皆为300维；将各类实体嵌入表示的平均数作为标签嵌入矩阵的初始化权重，采用BIOS的形式对实体进行标记，将4位onehot向量拼接在各个实体标签嵌入的尾部，得到维度R¹为304 维的标签嵌入。

再通过公式

对注意力矩阵

进行归一化，得到归一化后的矩阵M_j，其中

其中，

为输入句子S和第j个记忆句子字符级别的注意力矩阵，

a′_j为第j个记忆句子的字符序列，α_i,j是输入句子的第i个字符对应第j个记忆句子各个字符的归一化注意力矩阵。

在本发明的其他实施例中，如图1所示，涉及一种基于关联记忆网络的中文细粒度命名实体识别装置，结合预训练语言模型和关联记忆网络实现相应的模块，自底向上包括输入层模块、嵌入层模块、关联记忆网络模块、多头自注意层模块、条件随机场层模块和输出层模块等。

其中，输入层进行记忆句子的选择，计算输入句子和训练集中句子的距离，将训练集中与输入句子距离最近的几个句子作为记忆句子；嵌入层对输入句子和记忆句子中的字符进行上下文编码，并将记忆句子的实体标签转换成标签序列，进行标签嵌入；关联记忆网络计算输入句子中每个字符和记忆句子中每个字符的注意力矩阵，并与记忆句子对应的标签嵌入相乘，将标签信息融入序列表示中；多头自注意力层结合句子任意位置之间的相互关注，对融入了标签信息的序列表示进行重新编码；条件随机场层学习各实体标签之间的规则；输出层使用维特比算法输出概率最高的标签序列。

输入层的主要目的是构建记忆单元，记忆单元的最小组成部分是一个句子以及与该距离对应的n个记忆句子；其包括输入句子S、输入句子S在训练集中对应的n个记忆句子和这n个记忆句子对应的标签序列；本发明使用了两种句子距离的计算方式，第一种为计算两个句子词性序列编辑距离的方法，计算输入句子S和训练集中所有句子的距离，选择前n个与输入句子S 最近的句子和这n个句子对应的标签序列存入记忆单元中。

第二种是针对命名实体识别来计算实体类别距离的方法，计算两个句子包含实体类别的距离，由于记忆句子需要包含输入句子中对应的实体类别，本发明首先通过文本多标签预测模型预测句子中可能包含的实体类别，然后将训练集中与输入句子包含的实体类别最相近的句子存储在记忆单元中。

具体地，加入输入句子包含的实体类别集合为Y_s＝{y₁,y₂,…,y_k}， y_k∈C，训练集中句子中包含的实体类别集合为Y_t＝{y₁,y₂,…,y_n}，y_n∈C，其中，C是所有实体类别的集合，k和s分别表示输入句子和记忆句子包含实体类别的数量，该方法以集合Y_s和集合Y_t差集包含实体类别数量|Y_s-Y_t|降序，以集合Y_t包含类别数量|Y_t|降序，对训练集中的句子进行排序，让记忆句子包含输入句子实体类别的同时，记忆句子包含的实体类别最少。本发明通过实验证明，当多标签文本分类模型预测句子中包含的实体类别越准确，模型的命名实体识别的效果越好。

嵌入层是为了将句子的字符映射到同一个语义空间中，根据上下文的语义将句子中的字符编码成向量。本发明选择RoBERTa语言模型对句子中的字符进行编码，因为该模型是深度的神经网络模型，并且在大规模的语料上进行训练，可以更好的归纳自然语言文本中的语义和语法上的特性，但是由于模型参数量大，需要的计算空间也随之增大。

嵌入层包括两个部分：使用预训练语言模型对句子中的字符进行上下文嵌入和对记忆句子的标签序列进行标签嵌入；

本发明使用预训练语言模型RoBERTa分别对输入句子S和其对应的n 个记忆句子进行上下文嵌入，捕获每个字符在给定句子中的上下文信息；假设

其中l_s表示句子的长度，x_i表示句子中的第i个字符。使用预训练语言模型对句子S中字符进行上下文编码，得到嵌入表示s′，嵌入公式如下：

其中，x′_i是字符x_i上下文编码向量，维度为R^d，其中d是预训练语言模型隐藏层的维度。记忆句子的上下文嵌入过程与输入句子相同。假设，n个记忆句子为

其中l_j表示第j个记忆句子的长度， x_j,k表示第j个记忆句子中的第k个字符。通过预训练语言模型对n个记忆句子进行上下文编码，得到嵌入表示a′_jj∈{1,2,…,n},嵌入公式如下，其中，x′_j,k是字符x_j,k的上下文编码向量，维度R^d。

如图2所示，对于记忆句子的标签嵌入，本发明首先使用预训练的词向量对训练集中的各类实体进行词嵌入，如果出现未登录的实体则进行字符嵌入，词嵌入和字符嵌入的维度皆为300维；然后，将各类实体嵌入表示的平均数作为标签嵌入矩阵的初始化权重。另外，由于本发明采用BIOS 形式对实体进行标记，为了表明实体标签的位置信息，将4位onehot向量拼接在各实体标签嵌入的尾部，最后，标签嵌入的维度R^l为304维。标签嵌入矩阵在训练过程中更新，使句子字符上下文的表示更加接近实体类别的标签嵌入。本发明使用预训练的词向量和字符向量对标签嵌入矩阵进行初始化，而不是选择随机初始化，是为了让初始化的标签矩阵就包含一些实体类别的相关特征。

一般的命名实体识别模型将经过上下文编码的输入序列表示通过 softmax激活或者输入到条件随机场层进行标签序列的预测。本发明通过引入关联记忆网络，在对输入序列表示进行标签预测之前，让输入句子的字符去记忆句子中匹配和其类别最相关的字符的标签信息，然后将匹配的标签信息融入输入句子的字符表示中进行预测。

关联记忆网络包含两部分：输入句子和记忆句子之间的注意力计算、标签序列的融入与合并；计算输入句子和记忆句子之间的注意力，是为了捕获输入句子中的每一个字符对记忆句子中每一个字符在实体类别方面的相似度，如果两个字符拥有相同的实体标签，那么这两个字符之间就拥有较高的关注。

如图3所示，在嵌入层得到输入句子S的嵌入向量表示s′，以及记忆句子的向量表示a′_j j∈{1,2,…,n}后，通过公式

计算句子s′中每个字符和记忆句子a′中每个字符的相似度，得到n个l_s×l_j的注意力矩阵

其中n是记忆句子的数量，l_s是输入句子的长度，l_j是第j个记忆句子的长度。

最后，通过公式

和

对未经过归一化的

注意力矩阵按行进行归一化，得到归一化后的矩阵M_jj∈{1,2,…,n}，其中α_i,j是一个l_j维的向量，该向量的分量表示句子s中的第i个字符对记忆句子a_j中每个字符的注意力权重；其中，(·)代表softmax函数，α_i,j是

矩阵第i行的简化形式。

标签序列的融入与合并，如公式

所示，将归一化后的注意力矩阵M_j与记忆句子对应的标签嵌入序列L_j相乘后，得到融入了标签信息的序列L′_j，它根据输入句子s中的每个字符对记忆句子中每个字符标签的关注程度，来计算输入句子中每个字符对应的标签类别信息。

最后，将n个融入了标签信息的序列L′_j进行平均，并与句子s的上下文向量s′拼接，得到最后的输入句子表示e，如公式e＝[s′,mean(L′_j)]所示。中e的表示维度为R^d+l，mean(·)是平均函数。

多头自注意力层的主要作用是结合序列各个位置的相关度，对融合了标签信息的字符表示进行重新编码，使用自注意力机制对句子序列进行编码，避免了LSTM不能并行的缺点，同时可以更好的捕获全局信息。

如图4所示，多头自注意力层将最后的句子表示e作为输入，通过多头自注意力机制从多个角度计算输入序列任意位置之间的相关度，突出序列每个位置实体类别的最重要信息。

如公式

所示，多头自注意力机制通过不同的线性映射将输入向量映射成query、key和value的形式，并映射到不同的子空间中，每个子空间反映不同的隐藏特征。其中，

表示映射到第i个子空间对应的参数，各参数的维度大小为

其中，d表示多头自注意力层输入向量的维度，d_Q、d_V、d_K分别表示query、key和value的映射维度。

然后，如公式

所示，计算输入序列中某个位置的query和所有位置的key的相似度，得到注意力矩阵。这个注意力矩阵表示了句子中两两位置之间的关注度，将注意力矩阵和该位置 value相乘，捕获句子中任意位置之间的关系。

最后，如下公式所示：

m(h_t)＝concat(score₁(h_t),score₂(h_t),…,score₂(h_t))W^o

将各个子空间的计算结果进行拼接，经过线性映射，得到最终的输出。其中，

h是子空间的数量。这样最后得到的输入序列就包含了每个attentionhead学习到的语义和语法特征。

条件随机场的作用是约束标签序列的预测，通过以下公式计算预测标签序列y＝l₁,l₂,…,l_s的概率P(y|s)为：

其中，W_cRF和b_CRF是条件随机场层的权重和偏置，反映的是各标签之间的转换分数，通过训练对参数进行更新。

给定带标签的训练集

训练的损失函数为句子级别的对数似然损失，如下式所示：

本发明的模型使用随机梯度下降进行端到端训练，通过最小化句子级别的负对数似然来训练模型的参数。在训练过程中，由于Ling指出微调预训练语言模型的学习率满足不了条件随机场层参数的训练。本发明在模型训练的过程中，增大了除预训练语言模型层之外其他层的学习率，来优化模型参数。在预测阶段，输出层使用维特比算法找到分数最高的标签预测序列进行输出。

本发明采用CLUENER 2020数据集进行实验，该数据集的实体类别分为10种：address，book，company，game，government，movie，name， organization，position，scene；该数据集只提供训练集和验证集的标注，不提供测试集的标注；数据集的详细信息如表2所示，本发明采用CLUENER 2020提供的线上测评网站，以F1值对实验结果进行评价。

表2 CLUNER2020数据集描述

本实验使用Colab pro p100 16g内存。由于内存限制，在嵌入层使用中文预训练语言模型RoBERTa的base版本，该模型是包含12层的Transformer。本发明模型中使用的参数取值如表3所示。通过实验证明，增大其他层的学习率，包括自注意力层和条件随机场层的学习率后，模型的效果有所提升，学习出来的条件随机场层的参数也符合真实情况。

表3参数取值

如图5所示，本发明模型在CLUNER2020数据集上的训练过程，图5 是模型在验证集上的F1值曲线图。从图中可以看出，模型训练的前期F1 值提升较快，然后不断的波动寻找局部最优值，最后趋于平稳。

(1)实体类别距离选择方式分析

为了证明文本提出的实体类别距离的有效性，文本使用训练集和验证集中的句子包含的gold的实体类别构建记忆单元，并在验证集上进行实验。如表4所示，引入正确的类别标签信息，可以大幅度促进命名实体的识别。表4中第一行和第三行对比了编辑距离方法和实体类别距离在验证集上的效果，表中的pred表示句子包含的实体类别是通过基于bert的文本多标签预测模型得到。从结果可以看出，本发明提出的实体类别距离在验证集上的效果要高于编辑距离，通过第二行和第三行的对比，句子包含的实体类别预测越准确，模型的效果越高；从实验结果可以看出，细粒度命名实体识别任务还有很大的提升空间，该任务的挑战在于对实体类别的预测。

表4验证集上距离计算方法的消融实验

(2)各实体类别评价指标分析

RoBERTa-Base模型和本发明模型在验证集上，各实体类别精确率，召回率和F1的对比如表5所示，从表中可以得出，在所有类别总体的准确率和召回率上，本发明模型都有所提升，在各类别的召回率上，本发明模型都较高，说明本发明模型能多识别更多的命名实体。从表5可以看出模型对“地址”和“景点”的类别实体的类别的实体效果差，模型的效果取决于对这两种类别实体的识别和区分。

表5验证集上的模型对比

(3)消融实验和基线模型对比

为了分析模型不同模块对实体识别效果的影响程度，本发明在 Roberta-base模型+关联注意力网络的基础上，分别做了2组消融实验，分别去除了关联记忆网络、去除了预训练语言模型并使用BiLSTM+字符嵌入进行上下文编码。实验结果如表6所示，分别验证了预训练语言模型，关联记忆网络对实验结果的影响。

表6消融实验

从消融实验结果可以看出，去掉关联记忆网络之后，模型的F1值下降了0.823％，说明关联记忆网络可以将训练集中的标签信息融入到字符表示中，引入类别的标签信息对细粒度命名实体的识别有促进作用。去掉训练语言模型，使用BiLTSM+char embedding去句子进行嵌入层编码，效果明显下降，说明预训练语言模型拥有比LSTM更好的上下文编码能力。

表7各模型F1值对比

表7将本发明模型结果与对应的基线模型进行对比，表7中， LSTM+CRF和BERT-Base语言模型是Xu等人提出的2个基线模型，本发明使用RoBERTa-wwm-base-ext语言模型作为基线。RoBERTa是BERT语言模型的升级版本，wwm表示该语言模型在训练过程中使用了完整的单词遮蔽，ext表示使用了更大规模的扩展语料，base表示模型使用12层Transformer。

表7第二行和第三行的对比中，可以看出在基于LSTM+CRF的模型结构上加入关联记忆网络，模型的识别效果有所提升。从第五行和第6行可以看出，在使用预训练语言模型的基础上，加上关联记忆网络之后，借助正确的实体类别信息，模型的效果也有明显的提升。

(4)关联注意力矩阵分析

如图6所示，我们通过分析各关联句子间的注意力矩阵来验证关联记忆网络的有效性；图中方格的亮度代表字符之间的相关性，从图中可以看出，对于“书籍”实体，输入句子中的“证券时报”与记忆句子中的“《推背图》”存在强关联；对于“名字”实体，实体“唐XX”和实体“李淳风” 存在强关联；对于“职位”实体，实体“记者”和“作者”存在强关联。这说明相同实体种类的上下文向量更加接近，通过捕获记忆句子中强关联实体的真实标签信息，就可以增加输入句子中实体的类别预测。

如图7所示，从图中发现当记忆句子中不包含输入句子中的一些实体类别时，记忆句子的一些实体会关联到句子的其他位置。因为记忆句子中不包含“书籍”的实体类别，导致“书籍”实体“证券时报”关联到了“职位”实体”处长”，但是最终模型还是对“证券时报”做出了正确的预测。从实验中发现，基于编辑距离的记忆句子选择方式出现上述情况的可能性要大于基于实体类别距离的记忆句子选择方式，但模型通过训练能很好的对错误融入的标签信息进行处理，所以在对句子包含的实体类别预测效果不佳的情况下，基于编辑距离的记忆句子选择方式要好于第二种。

由于，基于编辑距离的模型具有一定利用正确实体类别信息和处理错误实体类别信息的能力，本发明针对模型识别“地址”类别实体能力差的特点，尝试将所有句子的类别标签信息用“地址”类别的标签嵌入替换，如表8所示，发现模型的整体的识别效果得到了大幅度提升。

表8使用增强地址信息的模型F1值

本发明充分利用了预训练语言模型捕获了句子字符的上下文信息，同时利用关联记忆网络，使字符的上下文信息接近于实体类别的标签信息，并将类别的标签信息融入到序列的字符表示中，最后利用多头自注意网络高效的计算了句子任意位置间的关注度，对融入了标签信息的字符表示进行重新编码，增加了实体识别的效果。实验结果表明，本发明模型在细粒度命名实体识别任务中取得了更好的效果，在未来的工作中，希望针对细粒度命名实体识别，设计多标签文本分类模型，来提高预测句子中包含的实体类别的效果，结合本发明提出的实体类别距离的计算方法，来提高模型的识别效果。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备(可以是个人计算机，服务器，或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器 (Random Access Memory，RAM)、随机存取存储器(Random Access Memory，RAM)等。

Claims

1.基于关联记忆网络的中文细粒度命名实体识别方法，其特征在于，包括步骤：

2.基于关联记忆网络的中文细粒度命名实体识别装置，其特征在于，包括用于构建基于关联记忆网络的中文细粒度命名实体识别模型的程序和运行该程序的可读存储介质；所述运行该程序的可读存储介质包括输入层模块、嵌入层模块、关联记忆网络模块、多头自注意层模块、条件随机场层模块和输出层模块；

所述条件随机场层模块学习各实体标签之间的规则；

所述输出层模块使用维特比算法输出概率最高的标签序列。

3.根据权利要求2所述的基于关联记忆网络的中文细粒度命名实体识别装置，其特征在于，所述输入层模块包括输入句子S、句子S在训练集中对应的n个记忆句子和所述n个记忆句子对应的标签序列；

4.根据权利要求2或3任一所述的基于关联记忆网络的中文细粒度命名实体识别装置，其特征在于，所述输入层模块计算句子的距离还包括通过计算实体类别距离的方法实现，其包括先通过文本多标签预测模型预测句子中可能包含的实体类别；然后将训练集中与输入句子包含的实体类别最相近的句子存储在记忆单元中。

5.根据权利要求4所述的基于关联记忆网络的中文细粒度命名实体识别装置，其特征在于，所述嵌入层模块包括使用预训练语言模型对句子中的字符进行上下文嵌入和对记忆句子的标签序列进行标签嵌入两部分，实现将句子的字符映射到同一个语义空间中。

6.根据权利要求5所述的基于关联记忆网络的中文细粒度命名实体识别装置，其特征在于，所述使用预训练语言模型对句子中的字符进行上下文嵌入包括通过预训练语言模型分别对所述输入句子S和对应的所述n个记忆句子进行上下文嵌入，捕获每个字符在给定句子中的上下文信息，得到所述输入句子S的嵌入向量表示

和对应的所述n个记忆句子的嵌入向量表示

其中，i为输入句子S第i个位置的下标，j为第j个记忆句子的下标，x为句子中的字符序列，l_s为输入句子的长度，l_j为第j个记忆句子的长度，x_i为输入句子的第i个字符，x_j,k为第j个记忆句子的第k个字符。

7.根据权利要求5所述的基于关联记忆网络的中文细粒度命名实体识别装置，其特征在于，所述对记忆句子的标签序列进行标签嵌入包括通过预训练的词向量对训练集中的各类实体进行词嵌入，如果出现未登录的实体则进行字符嵌入，词嵌入和字符嵌入的维度皆为300维；将各类实体嵌入表示的平均数作为标签嵌入矩阵的初始化权重，采用BIOS的形式对实体进行标记，将4位onehot向量拼接在各个实体标签嵌入的尾部，得到维度R^l为304维的标签嵌入。

8.根据权利要求2所述的基于关联记忆网络的中文细粒度命名实体识别装置，其特征在于，所述关联记忆网络包括输入句子和记忆句子之间的注意力计算以及标签序列的融入和合并两部分；通过计算输入句子和记忆句子之间的注意力，实现捕获输入句子中的每个字符对记忆句子中每个字符在实体类别方面的相似度。

9.根据权利要求8所述的基于关联记忆网络的中文细粒度命名实体识别装置，其特征在于，所述输入句子和记忆句子之间的注意力计算包括通过公式

计算输入句子S每个字符和第j个记忆句子每个字符的相似度，得到n个l_s×l_j的注意力矩阵

再通过公式

对注意力矩阵

进行归一化，得到归一化后的矩阵M_j，其中

其中，

为输入句子S和第j个记忆句子的注意力矩阵，a′_j ^T，a′_j为第j个记忆句子的字符序列，α_i,j是输入句子的第i个字符对应第j个记忆句子各个字符的归一化向量，f(·)是softmax函数。

10.根据权利要求9所述的基于关联记忆网络的中文细粒度命名实体识别装置，其特征在于，所述标签序列的融入和合并包括将归一化后的矩阵M_j与记忆句子对应的标签嵌入序列L_j相乘得到融入了标签信息的序列L′_j；将n个融入了标签信息的序列L′_j进行平均并与输入句子S的嵌入向量s′拼接得到最后的输入句子表示e。