CN114386417A

CN114386417A - 一种融入词边界信息的中文嵌套命名实体识别方法

Info

Publication number: CN114386417A
Application number: CN202111620499.2A
Authority: CN
Inventors: 史树敏; 杨志坤; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-22

Abstract

本发明涉及一种融入词边界信息的中文嵌套命名实体识别方法，属于自然语言处理中的信息抽取技术领域。本方法结合了中文场景特有的语言形态问题，利用外部的词表向模型中融入词级别信息，对于边界敏感的嵌套命名实体识别任务，模型更加关注于词边界问题，并且利用预训练模型抽取丰富的语义信息向量表示，保证模型在词级别和句子级别都能更好地建模，提升了实体识别的准确性，有效解决了现有的机器学习中文嵌套命名实体识别模型缺乏词级别信息的问题。

Description

一种融入词边界信息的中文嵌套命名实体识别方法

技术领域

本发明涉及一种融入词汇信息的嵌套命名实体识别方法，通过文本与外部词典匹配，利用词级别信息为嵌套命名实体识别提供词边界信息，属于自然语言处理中的信息抽取技术领域。

背景技术

作为人类沟通和传递信息的主要工具，自然语言本身蕴含了丰富的非结构化信息。如何从非结构化文本中提取出便于机器处理的结构化数据，是当前面临的一大挑战。

命名实体识别任务，旨在从文本中抽取能够表示独立存在的具体事务或实体的文本片段，可用于知识图谱的构建及一些文本分析的下游工作。

根据实体的文本片段边界是否存在嵌套结构，可以分为扁平命名实体识别抽取和嵌套命名实体识别抽取。命名实体识别在早期的研究过程中，一般集中于扁平命名实体识别抽取，句中每个单词最多只属于一个实体类型，因而通常将其建模为序列标注任务。近年来，嵌套命名实体识别逐渐得到重视和发展，其采用其他标注方式抽取嵌套实体，但多以英文的研究为主，针对于中文的研究通常是较为简单的语料迁移。

由于中文所属的汉藏语系不同于以英语为代表的印欧语系，英语是通过空格来分割句中单词，有比较清晰的分词结构，而中文是连续的字构成的句子，没有在表示基本语义信息的单词维度上进行显示划分，导致中文的词级别信息模糊，而命名实体识别任务对于单词边界划分敏感。随着深度神经网络在自然语言处理领域的广泛应用，模型对句子的语义信息建模能力有所增强，但是，对于词级别知识仍有所欠缺。

发明内容

本发明的目的是为了解决现有的机器学习中文嵌套命名实体识别模型缺乏词级别信息的问题，提出了一种融入词边界信息的中文嵌套命名实体识别方法，将文本与外部词典进行匹配并通过匹配词与原始文本共同建模。

首先，对有关概念进行说明：

定义1：文本序列s

指待抽取嵌套实体的一个中文句子，由连续的字构成。

符号表示为：s＝{w₁,w₂,…,w_n}，其中n表示句子的长度，w_i表示句子中第i个字。

定义2：外部词典D

指独立于训练语料的词典文件，是中文常见词的集合，每个词由一个或多个字组成。

符号表示为：D＝{d₁,d₂,…,d_/D/}，其中，|D|表示词典文件中的单词数量，d_i表示词典中的第i个词汇。

定义3：文本匹配词M

指文本序列与外部词典按照贪心算法匹配，根据文本匹配到的词典中的单词的集合为文本匹配词。

s对应的匹配词表示为：M＝{m₁,…,m_K}，其中K表示一个文本序列中匹配出来的词汇个数。

定义4：中文嵌套实体识别语料库

指针对于中文领域的嵌套实体识别任务的文本和标注信息构成的数据库，其中文本即为文本序列s的集合，而标注信息是记录文本序列中嵌套实体词在原文本的开始位置索引和结束位置索引及实体类型的三元组，符号表示为：(start,end,label)。

定义5：中文静态词向量E

指根据大规模语料预训练得到开源的中文字、词的静态向量表示。其中，静态字向量表示为E_w，静态词向量表示为E_m。

定义6：位置向量PE

指对于文本序列中每个字的位置索引pos对应的向量表示。计算方法通过三角函数计算得到，如式1、式2所示：

其中，d_model表示位置向量的维度，PE_(pos,2i)表示第pos索引位置向量的第i维度上值。

定义7：预训练语言模型LM_BERT

指利用大型无监督语料预训练的深层语言模型BERT。

定义8：语义信息x_BERT

指通过计算每个句子中字之间的信息交互得到的句子层面的信息表示。

可以通过预训练语言模型LM_BERT做字级别信息交互，获得语义信息x_BERT。

定义9：实体类型c

指语料库中标注出来的实体类型的集合，符号表示为c＝{O,c₁,c₂,…,c_|C|}，其中，O类型表示非实体类型，其余为预定义实体类型。

本发明采用以下技术方案实现。

一种融入词边界信息的中文嵌套命名实体识别方法，包括以下步骤：

步骤1：获取中文嵌套实体识别语料库，以及外部词典和开源的中文静态词向量。

步骤2：对于语料中的每一个文本序列s，通过贪心算法得到匹配词M。

具体地，贪心算法的计算方式为：

首先，遍历文本序列中的每个字w_i，在外部词典D中查找以w_i为开始字且与w_i之后的字能够一一对应的尽可能长的所有词汇，并记录每个匹配词对应原始文本的开始索引和结束索引位置。

然后，将{m₁,…,m_K}的开始索引记为pos_M,start＝{pos_M,s1,…,pos_M,sK}，将结束索引记为pos_M,end＝{pos_M,e1,…,pos_M,eK}。

{w₁,w₂,…,w_n}的开始索引和结束索引，均是从1开始递增，分别记为pos_s,start＝{1,2,…,n}、pos_s,end＝{1,2,…,n}。

步骤3：通过pos_M,start、pos_M,end、pos_s,start、pos_s,end计算每两个位置之间的相对位置向量R_ij，如下所示：

其中，pos_start,i表示pos_M,start或pos_s,start中第i个的位置索引，pos_end,i表示pos_M,end或pos_s,end中第i个的位置索引，pos_start,j、pos_end,j的定义同理，以此类推。

通过

体现了字、匹配词之间的边界位置信息，

表示利用位置向量PE得到索引为

的位置向量，其携带边界信息的相对位置编码；W_r为模型需要学习的参数，ReLU()为深度学习中常用的激活函数。

步骤4：从中文静态词向量E中得到文本序列s和匹配词M对应的向量表示E，

步骤5：使用两层Transformer-XL的编码结构，对步骤4得到的字词向量进行编码计算。再计算Attention阶段融合相对位置，得到带有词边界信息的每个字的向量表示。

具体地，方法如下：

sub_layer_output＝LayerNorm(x+(SubLayer(x))) (8)

Att(A,V)＝softmax(A)V (9)

其中，sub_{layer_output}表示Transformer-XL的子层输出，LayerNorm()表示层级正则化计算，SubLayer()表示Transformer-XL的子层结构，Att()表示自注意力计算，A表示自注意力计算的注意力权重矩阵，a_ij表示A矩阵中第i行第j列的元素，V表示Transformer-XL前一子层的输出经过线性变换的结果，softmax()、ReLU()均为激活函数，FFN()表示前馈神经网络，x_i、x_j表示i、j索引位置的字符，

表示x_i、x_j在中文静态词向量E中的向量表示，

W_k,E、W_k,R均表示模型待学习的不同参数矩阵，其中

是参数矩阵W₁、W₂、W_q的转置矩阵，b₁、b₂均表示模型待学习的不同参数列向量。

在每个Transformer-XL层中都包含两个子层，最后一层的输出为融合词边界信息的向量表示，记为x_boundary,i，式8为子层计算的基本逻辑，x表示子层的输入向量，第一子层式9是式8的输入，第二子层式10是式8的输入，式9中的权重矩阵A的每位元素计算为式10，当前Transformer-XL层的输入为前一层的输出，初始化输出即为E。

步骤6：利用LM_BERT得到每个字带有语义信息的向量表示，将字w_i的语义信息的向量表示记为x_BERT,i。

步骤7：按照式12对两种向量表示进行拼接，得到最终字的向量表示x_i。

x_i＝[x_BERT,i；x_boundary,i] (12)

步骤8：利用双仿射分类器，计算每个开始索引位置为i、结束位置索引为j的文本片段span_ij对于实体类型为c的概率p(i,j,c)，具体如下：

p(i,j,c)＝softmax(score_ij) (16)

其中，FFNN_s、FFNN_e表示两个维度相同的独立线性映射层，

分别表示由步骤7得到的文本片段span_ij的开始字符以及结束字符的向量表示，softmax()表示常见的归一化层，U_m、W_m表示模型的训练参数矩阵，b_m表示模型的训练参数列向量。

式13至式15是双仿射分类器的计算过程。首先通过两个独立的映射层保留字向量表示中带有实体起始位置信息h_start(i)、实体结尾位置信息的向量表示h_end(j)，经过双仿射分类器计算得到一个文本片段span(i,j)在不同实体类型上的得分score_ij，将分数经过softmax()层转化成最终的实体分类的概率p(i,j,c)，模型选择概率最大的类型作为span(i,j)的实体类型预测结果。

模型使用模型预测结果与语料库中的标注结果的交叉熵作为模型训练的损失函数，通过不断优化损失函数值来训练调整模型参数。

至此，从步骤1到步骤8，通过匹配词给模型融入词边界信息，完成了中文场景下的嵌套命名实体识别。

有益效果

本发明方法，对比现有技术，具有以下优点：

本方法结合了中文场景特有的语言形态问题，利用外部的词表向模型中融入词级别信息，对于边界敏感的嵌套命名实体识别任务，模型更加关注于词边界问题，并且利用预训练模型抽取丰富的语义信息向量表示，保证模型在词级别和句子级别都能更好地建模，提升了实体识别的准确性。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面将结合说明书附图对及实施例对本发明方法作进一步详细说明。

如图1所示，本发明包括以下步骤：

步骤A：获取文本序列以及匹配词；

具体到本实施例中，通过本文序列与外部词典匹配得到匹配词，并记录相关词的位置信息等，具体与发明内容步骤1至2相同；

步骤B：计算含词边界信息的字向量表示；

具体到本实施例中，通过匹配词与文本序列共享位置信息，利用transformer-xl结构捕获匹配词对应文本的词边界信息，得到带有词边界信息的字向量表示，具体与发明内容步骤3至5相同；

步骤C：计算含语义信息的字向量表示；

具体到本实施例中，利用预训练模型计算带有语义信息的字向量表示，具体与发明内容步骤6相同；

步骤D：拼接两种向量表示；

具体到本实施例中，与发明内容步骤7相同；

步骤E：双仿射分类器计算各实体类型概率：

具体到本实施例中，经过双仿射层计算每个文本片段在各实体类型下的得分，再转化为各实体类型的概率，与发明内容步骤8相同；

实施例

以文本序列“目前中国代表团共获得26金16银15铜”为实施例，本实施例将以具体实例对本发明所述的融入词边界信息的中文嵌套命名实体识别方法的具体操作步骤进行详细说明；

融入词边界信息的中文嵌套命名实体识别方法的处理流程如图1所示；从图1可以看出，融入词边界信息的中文嵌套命名实体识别方法，包括以下步骤：

步骤A：获取文本序列以及匹配词；

通过贪心算法匹配文本序列的匹配词，对于文本序列长度为19的“目前中国代表团共获得26金16银15铜”，经过词典匹配得到的匹配词有“目前”、“中国”、“代表”、“代表团”、“获得”，匹配词的pos_M,start＝{1，3，5，5，9}，pos_M,start＝{2，4，6，7，10}；

步骤B：计算含词边界信息的字向量表示；

具体到本实施例中，利用Transformer-xl计算含词边界信息的100维字向量表示；

步骤C：计算含语义信息的字向量表示；

利用BERT预训练模型计算每个字的包含语义信息512维字向量表示；

步骤D：拼接两种向量表示；

将步骤B和步骤C的两种字向量拼接，得到612维字向量表示；

步骤E：双仿射分类器计算各实体类型概率：

具体到本实施例中，通过双仿射层得到一个19×19的矩阵，矩阵中的元素就表示文本序列中以矩阵元素位置索引为边界的文本片段的实体类型分类概率，比如识别出“中国”的实体概率是矩阵中的第3行第4列的位置，“中国代表团”的实体概率是矩阵中的第3行第7列的位置。

Claims

1.一种融入词边界信息的中文嵌套命名实体识别方法，其特征在于，包括以下步骤：

步骤1：获取中文嵌套实体识别语料库，以及外部词典和开源的中文静态词向量；

步骤2：对于语料中的每一个文本序列s，通过贪心算法得到匹配词M；

其中，文本序列s指待抽取嵌套实体的一个中文句子，由连续的字构成，符号表示为：s＝{w₁，w₂，...，w_n}，其中n表示句子的长度，w_i表示句子中第i个字；

贪心算法的计算方式为：

首先，遍历文本序列中的每个字w_i，在外部词典D中查找以w_i为开始字且与w_i之后的字能够一一对应的尽可能长的所有词汇，并记录每个匹配词对应原始文本的开始索引和结束索引位置；

其中，外部词典D是指独立于训练语料的词典文件，是中文常见词的集合，每个词由一个或多个字组成，符号表示为：D＝{d₁，d₂，...，d_/D/}，|D|表示词典文件中的单词数量，d_i表示词典中的第i个词汇；

文本匹配词M，是指文本序列与外部词典按照贪心算法匹配，根据文本匹配到的词典中的单词的集合为文本匹配词；文本序列s对应的匹配词表示为：M＝{m₁，...，m_K}，其中K表示一个文本序列中匹配出来的词汇个数；

然后，将{m₁，...，m_K}的开始索引记为pos_M，start＝{pos_M，s1，...，pos_M，sK}，将结束索引记为pos_M，end＝{pos_M，e1，...，pos_M，eK}；

{w₁，w₂，...，w_n}的开始索引和结束索引，均是从1开始递增，分别记为pos_s，start＝{1，2，...，n}、pos_s，end＝{1，2，...，n}；

步骤3：通过开始索引pos_M，start、结束索引pos_M，end、pos_s，start、pos_s，end计算每两个位置之间的相对位置向量R_ij，如下所示：

其中，pos_start，i表示pos_M，start或pos_s，start中第i个的位置索引，pos_end，i表示pos_M，end或pos_s，end中第i个的位置索引，pos_start，j、pos_end，j的定义同理，以此类推；

通过

体现了字、匹配词之间的边界位置信息，

表示利用位置向量PE得到索引为

的位置向量，其携带边界信息的相对位置编码；W_r为模型需要学习的参数，ReLU()为深度学习中常用的激活函数；

位置向量PE指对于文本序列中每个字的位置索引pos对应的向量表示，通过三角函数计算得到，如式6、式7所示：

其中，d_model表示位置向量的维度，PE_(pos，2i)表示第pos索引位置向量的第i维度上值；

中文静态词向量E指根据大规模语料预训练得到开源的中文字、词的静态向量表示，其中，静态字向量表示为E_w，静态词向量表示为E_m；

步骤5：使用两层Transformer-XL的编码结构，对步骤4得到的字词向量进行编码计算，再计算Attention阶段融合相对位置，得到带有词边界信息的每个字的向量表示；

具体地，方法如下：

sub_layer_output＝LayerNorm(x+(SubLayer(x))) (8)

Att(A，V)＝softmax(A)V (9)

表示x_i、x_j在中文静态词向量E中的向量表示，

W_k，E、W_k，R均表示模型待学习的不同参数矩阵，其中

是参数矩阵W₁、W₂、W_q的转置矩阵，b₁、b₂均表示模型待学习的不同参数列向量；

在每个Transformer-XL层中都包含两个子层，最后一层的输出为融合词边界信息的向量表示，记为x_boundary，i，式8为子层计算的基本逻辑，x表示子层的输入向量，第一子层式9是式8的输入，第二子层式10是式8的输入，式9中的权重矩阵A的每位元素计算为式10，当前Transformer-XL层的输入为前一层的输出，初始化输出即为E；

步骤6：利用预训练语言模型LM_BERT得到每个字带有语义信息的向量表示，将字w_i的语义信息的向量表示记为x_BERT，i；

语义信息，指通过计算每个句子中字之间的信息交互得到的句子层面的信息表示；

步骤7：按照式12对两种向量表示进行拼接，得到最终字的向量表示x_i；

x_i＝[x_BERT，i；x_boundary，i] (12)

步骤8：利用双仿射分类器，计算每个开始索引位置为i、结束位置索引为j的文本片段span_ij对于实体类型为c的概率p(i，j，c)：

p(i，j，c)＝softmax(score_ij) (16)

其中，FFNN_s、FFNN_e表示两个维度相同的独立线性映射层，

分别表示由步骤7得到的文本片段span_ij的开始字符以及结束字符的向量表示，softmax()表示常见的归一化层，U_m、W_m表示模型的训练参数矩阵，b_m表示模型的训练参数列向量；

实体类型c指语料库中标注出来的实体类型的集合，符号表示为c＝{O，c₁，c₂，...，c_|C|}，其中，O类型表示非实体类型，其余为预定义实体类型；

式13至式15是双仿射分类器的计算过程；首先通过两个独立的映射层保留字向量表示中带有实体起始位置信息h_start(i)、实体结尾位置信息的向量表示h_end(j)，经过双仿射分类器计算得到一个文本片段span(i，j)在不同实体类型上的得分score_ij，将分数经过softmax()层转化成最终的实体分类的概率p(i，j，c)，模型选择概率最大的类型作为span(i，j)的实体类型预测结果；

使用模型预测结果与语料库中的标注结果的交叉熵，作为模型训练的损失函数，通过不断优化损失函数值来训练调整模型参数。