CN116050418B

CN116050418B - 基于融合多层语义特征的命名实体识别方法、设备和介质

Info

Publication number: CN116050418B
Application number: CN202310187937.3A
Authority: CN
Inventors: 郭方洪; 金聪; 朱琦; 傅金波; 刘涛
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-10-31
Anticipated expiration: 2043-03-02
Also published as: CN116050418A

Abstract

本发明公开了一种基于融合多层语义特征的命名实体识别方法、设备和介质，包括：获取文本数据集分为训练集和测试集，采用BIO标注方法对数据集中每个样本的字符进行标注；将标注后的数据集中的每条数据构建对应的标签序列；构建命名实体识别模型并利用训练集进行训练，命名实体识别模型包括Bert预训练语言模型、多层Transformer编码网络、双向长短期记忆网络BiLSTM层、条件随机场CRF层；将测试集输入训练好的命名实体识别模型，获得命名实体识别结果。该方法能够改善长文本中或包含长实体的文本中的实体提取效果，提升整体命名实体识别的准确性。

Description

基于融合多层语义特征的命名实体识别方法、设备和介质

技术领域

本发明属于命名实体识别领域，具体涉及一种基于融合多层语义特征的命名实体识别方法、设备和介质。

背景技术

近年来，随着互联网信息技术的发展，在各领域内中的各式信息展现出爆炸式的增长，每天都会有海量的新数据产生，面对这些大量的数据，利用深度学习的方法从中获取有用的信息成为当下主流的研究热点。命名实体识别（Named Entity Recognition, NER）作为信息抽取中的一个重要任务，旨在从非结构化文本中提取有效的实体信息，例如时间、地点、人物、组织机构等。实体识别技术的提升对后续关系抽取、机器翻译、图谱构建等下游任务的发展有着重大帮助。目前，命名实体识别技术已经在通用领域内有了较为充分的研究。

在传统的命名实体识别方法中，基本都以字典和规则的方式来实现，后来随着机器学习的出现，传统方法逐渐被取代。近几年来，随着深度学习技术的快速发展，以往的实体识别方法在神经网络模型的帮助下有了更好地提升。目前在基于深度学习的中文命名实体识别方法中，文本的处理大部分都以字或词作为单位，然而以字或词为特征的实体识别方法无法充分利用文本的信息，尤其在针对长文本或者包含长实体的一些数据文本中，想要有效地提取实体却比较困难。

发明内容

本发明的目的在于针对上述问题，提出一种基于融合多层语义特征的命名实体识别方法、设备和介质，可更加充分地利用文本信息，从而提升命名实体识别的性能。

为实现上述目的，本发明所采取的技术方案为：

本发明提出一种基于融合多层语义特征的命名实体识别方法，所述基于融合多层语义特征的命名实体识别方法包括如下步骤：

步骤1、构建训练命名实体识别模型的数据集并将其划分为训练集和测试集，同时采用BIO标注方法对数据集中的各个字符进行标注；

步骤2、对文本数据集中的每一条数据构建对应的标签序列，标签序列表示如下：

，

式中，表示每一条数据中的第/>个字符，/>表示第/>个字符对应的实体标签类别，/>表示每一条数据的长度；

步骤3、构建融合多层语义特征的命名实体识别模型并利用训练集训练，命名实体识别模型包括Bert预训练模型、多层Transformer编码网络、双向长短期记忆网络BiLSTM层和条件随机场CRF层；

步骤4、将测试集中待识别的数据输入训练好的命名实体识别模型，获得命名实体识别结果，其中识别效果指标包括精确率P、召回率R和F1值其中一种或多种。

进一步地，所述步骤1中的BIO标注方法为：将样本中的每个字符标注为“B-X”、“I-X”或者“O”，其中，“B-X”表示此字符所在的实体属于X类型并且此字符属于实体的开头，“I-X”表示此字符所在的实体属于X类型并且此字符在此实体的中间位置或末尾位置，“O”则表示此字符不属于任何类型。

进一步地，所述步骤3中模型训练过程如下：

步骤31、利用Bert预训练模型对训练集中的所有样本进行字符特征提取，将样本中的每一个字符映射成768维的字符特征向量；

步骤32、构建多层Transformer编码网络，利用多层Transformer编码网络对训练集中的样本进行特征提取，底层Transformer提取浅层语义信息，顶层Transformer提取深层语义信息，将这两层语义信息特征融合后采用均值操作得到768维的语义特征向量；

步骤33、将步骤31中的字符特征向量和步骤32中的语义特征向量进行拼接，得到融合多层语义特征的拼接向量；

步骤34、将步骤33得到的向量作为双向长短期记忆网络BiLSTM层的输入，BiLSTM层利用其双向记忆网络的特性提取全局信息，获得包含上下文信息的特征向量，该特征向量经softmax获得各字符对应标签概率集合；

步骤35、将标签概率集合输入条件随机场CRF层，条件随机场CRF层自主学习标签序列之间的特征并对标签序列进行相应的规则约束，从而获得最佳标签序列；

步骤36、判断模型训练次数是否达到预设值，若达到预设值，停止训练，获得训练好的命名实体识别模型，否则，返回执行步骤S31。

进一步地，所述步骤3中，所述多层Transformer编码网络中，底层Transformer提取更常见、通用和基础广泛的信息，顶层Transformer提取更近似于本地化和特定于手头任务的信息，将底层Transformer和顶层Transformer提取的特征向量利用均值操作进行融合，同时将该语义特征向量映射成768维。

进一步地，所述步骤3中，所述双向长短期记忆网络BiLSTM层包含正向的LSTM和逆向的LSTM，每个LSTM维度控制在32~256维。

进一步地，每个LSTM维度控制在150维。

进一步地，所述步骤3中，所述Bert预训练模型输入部分由词向量、段向量和位置向量组成，用于区分同一字符在不同位置下的特征表示。

进一步地，所述条件随机场CRF层采用维特比算法来获得最佳标签序列并优化计算时间。

本发明还提供一种基于融合多层语义特征的命名实体识别设备，包括一个或多个处理器，用于实现如上所述的基于融合多层语义特征的命名实体识别方法。

本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现如上所述的基于融合多层语义特征的命名实体识别方法。

与现有技术相比，本发明的有益效果为：

该方法通过构建命名实体识别模型，利用Bert预训练模型获取字符特征，利用多层Transformer编码网络获取浅层语义特征和深层语义特征，将这些特征进行融合后可以充分利用文本信息，对长文本中或包含长实体的文本中的实体提取有更好的帮助，将融合后的特征向量输入双向长短期记忆网络BiLSTM层和条件随机场CRF后，利用BiLSTM双向特征提取的特性可以有效地获得上下文信息，同时条件随机场CRF也能对标签序列进行有效的规则约束，降低不合理的标签序列的出现概率，从而提升命名实体识别结果的准确性。

附图说明

图1为本发明的一种基于融合多层语义特征的命名实体识别方法的流程图；

图2为本发明的一种基于融合多层语义特征的命名实体识别方法中多头注意力机制结构图；

图3为本发明的一种基于融合多层语义特征的命名实体识别方法中Transformer编码内部结构图；

图4为本发明的一种计算机设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

如图1所示，一种基于融合多层语义特征的命名实体识别方法，包括如下步骤：

步骤1、构建训练命名实体识别模型的数据集，数据集采用BIO标注方法对数据集中的各个字符进行标注，标注完成后将数据集划分为训练集和测试集。

其中，BIO标注方式会将样本中的每个字符标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此字符所在的实体属于X类型并且此字符属于实体的开头，“I-X”表示此字符所在的实体属于X类型并且此字符在此实体的中间位置或末尾位置，“O”则表示此字符不属于任何类型；

步骤2、对文本数据集中的每一条数据构建对应的标签序列，文本标签序列表示如下：

，

式中，表示每一条数据中的第/>个字符，/>表示第/>个字符对应的实体标签类别，/>表示每一条数据的长度。

步骤3、构建融合多层语义特征的命名实体识别模型并利用训练集训练，命名实体识别模型主要包括Bert预训练模型、多层Transformer编码网络、双向长短期记忆网络BiLSTM层、条件随机场CRF层，模型训练过程如下：

步骤31、利用Bert预训练模型对训练集中的所有样本进行字符特征提取，样本经过Bert模型前，通过查询词表，找到样本中每个字符在词表中的位置，然后向Bert模型输入词向量、段向量和位置向量，最后利用Bert自带的编码机制和多头自注意力机制将每一条数据中的每一个字符映射成768维的字符特征向量，该字符向量能够有表示同一字符在不同语境下的不同含义，其中，自注意力计算公式为：

，

式中，为查询矩阵，/>为键矩阵，/>为值矩阵。首先计算矩阵/>和/>矩阵之间的点积，为防止其结果过大，通过/>进行大小缩放，其中/>为Key向量的维度，然后利用Softmax操作将其结果归一化为概率分布，最终与矩阵/>相乘即可得到权重求和的表示，其中Softmax表示归一化指数函数。

单纯的自注意力的计算会导致模型的时间复杂程度极高，其需要计算每一个字符与其它字符的关联分数，这些分数还需要被不断训练收敛。另外一方面，字符之间的注意力关系需要被充分计算，划分为多头的模式有助于使得模型学习到更具多样性的注意力信息，多头自注意力机制的原理就是将划分为多头的自注意力的输出结果拼接，有利于模型提取更好的文本特征，如图2所示，其计算公式为：

，

式中，为映射矩阵，其通过与/>、/>、/>三个矩阵相乘，将三个矩阵映射到一个更小的维度后得到每头的注意力/> ，随后将计算结果利用Concat()函数进行拼接，拼接后的结果与映射矩阵/>相乘得到多头自注意力机制的计算结果。

步骤32、构建多层Transformer编码网络，其中单层Transformer内部结构如图3所示，单个Transformer编码器主要由自注意力机制和前馈神经网络组成，每个字符的位置向量分别经由一条路径进入一个自注意力层，这些路径之间存在依赖关系，但是计算无先后顺序。之后再进入一个前馈神经网络层，输入序列的每个位置对应的前馈神经网络完全一样，在这一层中没有依赖关系，可以并行执行各种路径。利用多层Transformer编码网络对训练集中的样本进行特征提取，底层Transformer可有效提取浅层语义信息，通常可以获取更常见、通用和基础广泛的信息，顶层Transformer可有效提取深层语义信息，通常可获得更近似于本地化和特定于手头任务的信息，将这两层语义信息特征融合后并采用均值操作可得到更为丰富的语义特征向量，并将该语义特征向量映射成768维。

步骤33、将步骤31中的字符特征向量和步骤32中语义特征向量进行拼接，得到融合多层语义特征的拼接向量。

步骤34、将步骤33得到的向量输入到双向长短期记忆网络BiLSTM层，BiLSTM层包含正向的LSTM和逆向的LSTM，每个LSTM维度控制在150维，利用其双向记忆网络的特性可有效提取从前到后和从后到前的全局信息，BiLSTM主要包含遗忘门、记忆门和输出门。其中，遗忘门主要决定丢弃什么信息，记忆门决定什么样的信息需要被记忆，而输出门则根据遗忘门和记忆门来决定最终需要输出的信息。输出后的特征向量经softmax可获得各字符对应标签概率集合。

步骤35、将步骤34的标签概率集合输入条件随机场CRF层，条件随机场可自主学习标签序列之间的特征并对标签序列进行相应的规则约束，同时在计算获得最佳标签序列时，采用维特比算法来优化计算过程，从而减少标签序列优化的时间并同时提升模型效果。

步骤36、判断模型训练次数是否达到预设值，若达到预设值，停止实体模型的训练，获得最终训练好的命名实体识别模型，否则，返回执行步骤S31。

步骤4、将测试集中待识别的数据输入训练好的命名实体识别模型，获得命名实体识别结果，其中识别效果指标包括精确率P、召回率R和F1值。其中，精确率是指所有被预测为正例的样本中实际为正例的样本所占的比例，召回率是指所有实际为正例的样本中被预测为正例的样本所占的比例，F1值则是精确率与召回率的调和平均值。

该方法通过构建命名实体识别模型，将Bert预训练语言模型、多层Transformer编码网络、BiLSTM模型和条件随机场相结合，其中，利用Bert预训练语言模型提取样本中字符特征向量，利用多层Transformer编码网络来获取包含浅层和深层的语义特征向量，接着利用双向长短期记忆网络BiLSTM对拼接的字符特征和语义特征的向量进行更深一步的特征提取，主要用于获取上下信息，最后基于条件随机场对标签的输出进行约束，在输出序列结果时可以降低逻辑上不合理的标签序列的出现概率，从而提升命名实体识别结果的准确性。

与前述一种基于融合多层语义特征的命名实体识别方法的实施例相对应，本发明还提供了一种计算机设备的实施例。

参见图4，本发明实施例提供的一种基于融合多层语义特征的命名实体识别设备，包括一个或多个处理器，用于实现上述实施例中的基于融合多层语义特征的命名实体识别方法。

本发明一种基于融合多层语义特征的命名实体识别设备的实施例可以应用在任意具备数据处理能力的装置上，该任意具备数据处理能力的装置可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种基于融合多层语义特征的命名实体识别设备所在任意具备数据处理能力的装置的一种硬件结构图，除了图4所示的处理器、内存、网络接口，以及非易失性存储器之外，实施例中设备所在的任意具备数据处理能力的制造通常根据该任意具备数据处理能力的装置的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于融合多层语义特征的命名实体识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅表达了本申请描述较为具体和详细的实施例，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于融合多层语义特征的命名实体识别方法，其特征在于：所述基于融合多层语义特征的命名实体识别方法包括如下步骤：

，

模型训练过程包括：

步骤36、判断模型训练次数是否达到预设值，若达到预设值，停止训练，获得训练好的命名实体识别模型，否则，返回执行步骤S31；

2.如权利要求1所述的基于融合多层语义特征的命名实体识别方法，其特征在于：所述步骤1中的BIO标注方法为：将样本中的每个字符标注为“B-X”、“I-X”或者“O”，其中，“B-X”表示此字符所在的实体属于X类型并且此字符属于实体的开头，“I-X”表示此字符所在的实体属于X类型并且此字符在此实体的中间位置或末尾位置，“O”则表示此字符不属于任何类型。

3.如权利要求1所述的基于融合多层语义特征的命名实体识别方法，其特征在于：所述步骤3中，所述多层Transformer编码网络中，底层Transformer提取更常见、通用和基础广泛的信息，顶层Transformer提取更近似于本地化和特定于手头任务的信息，将底层Transformer和顶层Transformer提取的特征向量利用均值操作进行融合，同时将该语义特征向量映射成768维。

4.如权利要求1所述的基于融合多层语义特征的命名实体识别方法，其特征在于：所述步骤3中，所述双向长短期记忆网络BiLSTM层包含正向的LSTM和逆向的LSTM，每个LSTM维度控制在32~256维。

5.如权利要求4所述的基于融合多层语义特征的命名实体识别方法，其特征在于：每个LSTM维度控制在150维。

6.如权利要求1所述的基于融合多层语义特征的命名实体识别方法，其特征在于：所述步骤3中，所述Bert预训练模型输入部分由词向量、段向量和位置向量组成，用于区分同一字符在不同位置下的特征表示。

7.如权利要求1所述的基于融合多层语义特征的命名实体识别方法，其特征在于：所述条件随机场CRF层采用维特比算法来获得最佳标签序列并优化计算时间。

8.一种基于融合多层语义特征的命名实体识别设备，其特征在于，包括一个或多个处理器，用于实现权利要求1-7中任一项所述的基于融合多层语义特征的命名实体识别方法。

9.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-7中任一项所述的基于融合多层语义特征的命名实体识别方法。