CN116484848B

CN116484848B - 一种基于nlp的文本实体识别方法

Info

Publication number: CN116484848B
Application number: CN202310265137.9A
Authority: CN
Inventors: 薛全华; 韩三普; 陈竑
Original assignee: Beijing Shenwei Zhixun Technology Co ltd
Current assignee: Beijing Shenwei Zhixun Technology Co ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2024-03-29
Anticipated expiration: 2043-03-17
Also published as: CN116484848A

Abstract

本发明属于NLP技术领域，公开了一种基于NLP的文本实体识别方法，包括如下步骤：采集文本大数据，对文本大数据进行预处理，得到文本标准数据集；根据文本标准数据集，并基于NLP技术的预训练语言子模型、循环神经网络、图神经网络以及注意力机制，建立文本实体识别模型；获取待识别文本数据，将待识别文本数据输入文本实体识别模型进行文本实体识别，得到文本实体识别结果。本发明解决了现有技术存在的现有技术的特征提取不够全面、模型精度受限，实用性不强以及文本实体识别效果差的问题。

Description

一种基于NLP的文本实体识别方法

技术领域

本发明属于NLP技术领域，具体涉及一种基于NLP的文本实体识别方法。

背景技术

自然语言处理(NLP，Natural Language Processing)是一门把语言学、计算机科学、数学等相关领域融为一体的交叉学科，自然语言处理技术逐渐渗透到各行各业用于文本数据挖掘和信息存储。文本实体是指自然语言文本中出现的特定对象的名称，文本实体识别对于分析语句结构、信息提取和语义理解等均有重要作用。对于英文而言，每个单词通常独立地代表一个意思，并且词和词之间是有空格进行分隔，因此对英语来说，本身就自带分词属性。而对于中文来说，每个词是由每个字拼接而成的，并且中文并不像英文，每个单字之间自带分割符。因此对于中文来说，选用的分词方式不同，得到的语义意思会有很大的区别。

现有的文本实体识别方法，大多数是基于预训练模型来进行，主要依赖于预训练模型在大规模语料中学到的通用语义信息。但是这种通用语义信息，很容易掩盖了下游任务语料中特有的语义信息、文本特征和数据分布，并且在特征提取程中，由于没有深层次挖掘语句的隐藏特征，关注的特征层面过窄，导致提取的特征不够全面；而且在进行实体识别时由于对语句各部分的关注度是相同的，往往没有利用到对识别实体产生关键作用的信息，导致模型精度受限，实用性不强，最终的文本实体识别效果差。

发明内容

为了解决现有技术存在的现有技术的特征提取不够全面、模型精度受限，实用性不强以及文本实体识别效果差的问题，本发明目的在于提供一种基于NLP的文本实体识别方法。

本发明所采用的技术方案为：

一种基于NLP的文本实体识别方法，包括如下步骤：

采集文本大数据，对文本大数据进行预处理，得到文本标准数据集；

根据文本标准数据集，并基于NLP技术的预训练语言子模型、循环神经网络、图神经网络以及注意力机制，建立文本实体识别模型；

获取待识别文本数据，将待识别文本数据输入文本实体识别模型进行文本实体识别，得到文本实体识别结果。

进一步地，对文本大数据进行的预处理包括格式转换处理、数据压缩处理、数据脱敏处理、数据降噪处理、数据清洗处理以及语料分词处理，且在预处理后，得到独立词语标签的文本标准数据集。

进一步地，文本实体识别模型包括输入层、语义特征提取模块、图特征提取模块、特征交互协作模块、CRF模块以及输出层，输入层分别与语义特征提取模块和图特征提取模块连接，语义特征提取模块和图特征提取模块均与特征交互协作模块连接，且语义特征提取模块基于BERT预训练语言子模型和BILSTM网络建立，图特征提取模块与语义特征提取模块连接，且图特征提取模块基于BERT预训练语言子模型和GAT网络建立，特征交互协作模块与CRF模块连接，且特征交互协作模块基于交互注意力机制建立，CRF模块与输出层连接。

进一步地，语义特征提取模块包括设置有BERT预训练语言子模型的字向量表征层和BILSTM层，字向量表征层分别与输入层、BILSTM层以及图特征提取模块连接，BILSTM层与特征交互协作模块连接；

图特征提取模块包括设置有BERT预训练语言子模型的词向量表征层、字词关系文本构图层以及GAT层，词向量表征层、字词关系文本构图层以及GAT层依次连接，且词向量表征层与输入层连接，字词关系文本构图层与语义特征提取模块的字向量表征层连接，GAT层与特征交互协作模块连接；

特征交互协作模块包括Positional embedding子模块、Multi-head AttentionMechanism子模块、两个Add&Norm子模块以及两个FeedForward子模块，Multi-headAttention Mechanism子模块分别与语义特征提取模块、图特征提取模块、Positionalembedding子模块以及第一个Add&Norm子模块连接，第一个Add&Norm子模块分别与语义特征提取模块、图特征提取模块、第二个Add&Norm子模块以及并联设置的两个FeedForward子模块连接，第二个Add&Norm子模块分别与并联设置的两个FeedForward子模块和CRF模块连接。

进一步地，获取待识别文本数据，将待识别文本数据输入文本实体识别模型进行文本实体识别，包括如下步骤：

将待识别文本数据输入文本实体识别模型，提取待识别文本数据中文本序列的词向量序列和字向量序列；

根据字向量序列提取待识别文本数据的语义特征，并根据词向量序列和字向量序列提取待识别文本数据的图特征；

将待识别文本数据的语义特征和图特征进行特征交互协作，得到交互协作特征序列；

根据交互协作特征序列进行依赖性处理，得到文本实体标记序列，即文本实体识别结果。

进一步地，提取待识别文本数据的语义特征的公式为：

式中，h_i、h_i-1、h_i+1分别为待识别文本数据第i、i-1、i+1个字向量的语义特征，按照字向量序列顺序构成语义特征序列矩阵H＝[h₁,...,h_i,...,h_I]；i为字向量指示量；I为字向量序列总数；分别为文本正序、文本逆序的语义特征；/>分别为BILSTM网络中正序、逆序的特征提取函数；x_i为第i个字向量；o_i为第i个字的one-hot向量；e(*)为BERT预训练语言子模型输出的字向量矩阵。

进一步地，提取待识别文本数据的图特征的公式为：

式中，h'_i'为待识别文本数据的图特征，按照GAT层输出顺序构成图特征序列矩阵H'＝[h'₁,...,h'_i',...,h'_N]；i'、j、k均为字词关系文本构图的结点指示量；N为结点总数；α_i'j为第i'源结点与第j邻接结点的权重系数；e_i'j、e_i'k分别为通过注意力机制得到的第i'源结点与第j邻接结点和第k邻接结点的信息权重；a(*)为权重获取函数；Wh_i、Wh_j均为结点特征；||为拼接函数；σ为拼接系数。

进一步地，在特征交互协作过程中加入多头注意力机制，构成交互注意力机制，交互注意力机制的公式为：

式中，Attention(*)为交互注意力机制函数；Q为根据图特征序列矩阵H'在注意力机制中获取的query向量序列，其中，Q＝[q₁,...,q_i",...,q_Y]；k_j'、v_i"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量序列和value向量序列，其中，K＝[k₁,...,k_j',...,k_U]，V＝[v₁,...,v_j',...,v_U]；softmax(*)为归一化函数；W_Q、W_K、W_V均为相关计算系数；d_k为缩放系数；H'为图特征序列矩阵；H为语义特征序列矩阵。

进一步地，将待识别文本数据的语义特征和图特征进行特征交互协作的公式为：

式中，c_i"为交互协作特征值，按照取待识别文本数据的文本序列顺序构成交互协作特征序列C＝[c₁,...,c_i",...,c_Y]；i"为图特征向量指示量；Y为图特征向量总数；j'、k'均为语义特征向量指示量；U为语义特征向量总数；β_i"j'为注意力机制的权重；s_i"j'、s_i"k'均为图特征向量与语义特征向量之间的相似度；q_i"为根据图特征序列矩阵H'在注意力机制中获取的query向量；k_j'、v_i"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量和value向量。

进一步地，文本实体识别模型使用IAFSA算法进行各个模块的相关参数进行优化，IAFSA算法引入了动态反向学习策略和基于柯西分布的自适应人工鱼视野对传统的人工鱼群算法进行改进；

动态反向学习策略的公式为：

x'_i*j*(t)＝k*(a_j*(t)+b_j*(t))-x_i*j*(t)

式中，x'_i*j*(t)、x_i*j*(t)分别为第i*条人工鱼第j*维的反向位置和正向位置；a_j*(t)、b_j*(t)分别为当前人工鱼群第j*维的上界和下界；k*为递减惯性因子，k*＝0.9-0.5D/D_max；D、D_max分别为当前迭代次数和最大迭代次数；t为时刻指示量；

基于柯西分布的自适应人工鱼视野范围更新的公式为：

式中，v(x_i*)为人工鱼的视野范围更新函数；v为人工鱼的原始视野范围；v_C(x_i*)为迭代后半程人工鱼经柯西分布变换后的视野范围；x_i*(t)为第i*条人工鱼的位置；D、D_max分别为当前迭代次数和最大迭代次数；

柯西分布变换后的视野范围的公式为：

式中，v_C(x_i*)为迭代后半程人工鱼经柯西分布变换后的视野范围；f(x_i*)为第i*条人工鱼的适应度值；f_worst为人工鱼的最劣的适应度值；γ为尺度参数，其值越小，柯西分布概率密度曲线越陡峭，γ＝1/(π·v_origin)；v_origin为初始视野值。

本发明的有益效果为：

本发明提供的基于NLP的文本实体识别方法，基于文本大数据获取语料数据，增强了对各个技术领域的专业术语学习，提高了方法的适应性，利用深度学习中的循环神经网络和图神经网络，提取文本数据里所隐含的语义特征和图结构特征，避免了使用预训练模型进行语义信息学习的同时进行深层次的特征挖掘，提高了模型精度和方法的实用性，并且以注意力机制为原型，设计出一种不同类型特征间的交互协作方法，加强对文本数据的关键信息的关注，从而可以更好地进行像字粒度特征与词粒度特征、语义特征与图结构特征间的特征交互协作，达到数据增强的作用，进一步地提高文本实体识别效果。

本发明的其他有益效果将在具体实施方式中进一步进行说明。

附图说明

图1是本发明中基于NLP的文本实体识别方法的流程框图。

图2是本发明中文本实体识别模型的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1：

如图1所示，本实施例提供一种基于NLP的文本实体识别方法，包括如下步骤：

根据用户需求，采集对应领域的文本大数据，对文本大数据进行预处理，包括格式转换处理、数据压缩处理、数据脱敏处理、数据降噪处理、数据清洗处理以及语料分词处理，且在预处理后，得到独立词语标签的文本标准数据集；

格式转换处理将采集的文本大数据转换为当前模型能够识别的数据格式，数据压缩处理在不丢失有用信息的前提下，缩减数据量以减少存储空间，提高其传输、存储和处理效率，数据脱敏处理将文本大数据中涉及的隐私信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护，同时减少了无关实体对文本数据的干扰，数据降噪处理去除文本大数据中包含的噪音数据，数据清洗处理将数据集中不被机器理解的字符去除并整理成模型能够处理的字符，在模型训练过程中，需要用到词粒度信息，语料分词处理时使用Jieba分词工具将连续的文本序列划分为独立的词语表达，有利于下一步的特征表达和识别分类；

如图2所示，文本实体识别模型包括输入层、语义特征提取模块、图特征提取模块、特征交互协作模块、CRF模块以及输出层，输入层分别与语义特征提取模块和图特征提取模块连接，语义特征提取模块和图特征提取模块均与特征交互协作模块连接，且语义特征提取模块基于来自Transformers的双向编码表示(BERT，Bidirectional EncoderRepresentation from Transformers)预训练语言子模型和双向长短期记忆网络(BILSTM，Bi-directional Long Short-Term Memory)建立，图特征提取模块与语义特征提取模块连接，且图特征提取模块基于BERT预训练语言子模型和图注意力机制网络(GAT，GraphAttention Network)建立，特征交互协作模块与线性链条件随机场(CRF，ConditionalRandom Field)模块连接，且特征交互协作模块基于交互注意力机制建立，CRF模块与输出层连接。

本实施例中，避免了总体模型使用预训练机制，仅仅采用BERT预训练语言子模型进行向量表征，根据独立词语标签的文本标准数据集对BERT子模型进行预训练，包括将所有的单位字符做拆分处理，按照拆分的分组分类单词，将字符的位置信息映射到特征空间形成特征向量，也叫位置编码，位置信息对文本语义理解非常关键，最后标记文本，BERT在设置输入时，加入了两个特殊符号[CLS]和[SEP]，用于标记应用的对象和字符标记，其中[CLS]放在输入的起始位置标记任务类型，对非分类模型，该符号可以省去，[SEP]表示文本中的无重要意义的符号，如“，”、“；”等，用于隔开数据；

输入层接收待识别文本数据，语义特征提取模块提取待识别文本数据的语义特征，图特征提取模块提取待识别文本数据的图特征，将语义特征和图特征输入特征交互协作模块在细粒度层面上进行特征交互协作，得到交互协作特征序列，将交互协作特征序列输入到CRF模块中，完成文本实体词的标注；

语义特征提取模块包括设置有BERT预训练语言子模型的字向量表征层和BILSTM层，字向量表征层分别与输入层、BILSTM层以及图特征提取模块连接，BILSTM层与特征交互协作模块连接；

字向量表征层的BERT预训练语言子模型将待识别文本数据转换为字向量序列，BILSTM层的BILSTM网络对输入的字向量序列进行前后双向遍历，获得数据双向的隐藏层表示，最后根据双向隐藏层向量构建文本数据全面特征表示，即语义特征；通过基于序列模型的语义特征提取模块后，可以将待识别文本数据从字符序列转换成稠密向量化表示，该向量维度低，且可以很好地表征文本的语义信息以及序列信息；

词向量表征层的BERT预训练语言子模型将待识别文本数据转换为词向量序列，并根据字向量表征层传输的字向量序列，使用字词关系文本构图层构建自适应文本图，针对字向量结点，基于文本的序列构建字结点的邻接关系，针对词向量结点，首先使用词向量来计算词与词之间、词与字之间的相似度，通过计算词与词、词与字之间的两两相似度，便可得到一个相似度共现矩阵，根据相似度共现矩阵的每个值，得到邻接矩阵，图中词向量结点的邻接关系，是基于语义相似度计算得到的，可以与该词结点相连的结点，必定是在语义上有很大的相似性，通过这种方式构图，邻接点间的相似性得以保证，同时直接对距离较远但密切相关的上下文信息进行连接，基于自适应文本图，使用GAT层的图注意力机制模型来提取图的半结构化特征，由于构图时所用结点均为文本中的字与词，通过该模块提取得到的图特征，更多的是表征文本中，字词之间的语义联系信息；

特征交互协作模块包括Positional embedding位置嵌入子模块、Multi-headAttention Mechanism多头注意机制子模块、两个Add&Norm残差与标准化子模块以及两个FeedForward正反馈子模块，Multi-head Attention Mechanism子模块分别与语义特征提取模块、图特征提取模块、Positional embedding子模块以及第一个Add&Norm子模块连接，第一个Add&Norm子模块分别与语义特征提取模块、图特征提取模块、第二个Add&Norm子模块以及并联设置的两个FeedForward子模块连接，第二个Add&Norm子模块分别与并联设置的两个FeedForward子模块和CRF模块连接；

获取待识别文本数据，将待识别文本数据输入文本实体识别模型进行文本实体识别，得到文本实体识别结果，包括如下步骤：

提取待识别文本数据的语义特征的公式为：

式中，h_i、h_i-1、h_i+1分别为待识别文本数据第i、i-1、i+1个字向量的语义特征，按照字向量序列顺序构成语义特征序列矩阵H＝[h₁,...,h_i,...,h_I]；i为字向量指示量；I为字向量序列总数；分别为文本正序、文本逆序的语义特征；/>分别为BILSTM网络中正序、逆序的特征提取函数；x_i为第i个字向量；o_i为第i个字的one-hot向量；e(*)为BERT预训练语言子模型输出的字向量矩阵；

提取待识别文本数据的图特征的公式为：

式中，h'_i'为待识别文本数据的图特征，按照GAT层输出顺序构成图特征序列矩阵H'＝[h'₁,...,h'_i',...,h'_N]；i'、j、k均为字词关系文本构图的结点指示量；N为结点总数；α_i'j为第i'源结点与第j邻接结点的权重系数；e_i'j、e_i'k分别为通过注意力机制得到的第i'源结点与第j邻接结点和第k邻接结点的信息权重；a(*)为权重获取函数；Wh_i、Wh_j均为结点特征；||为拼接函数；σ为拼接系数；

在特征交互协作过程中加入多头注意力机制，构成交互注意力机制，交互注意力机制的公式为：

式中，Attention(*)为交互注意力机制函数；Q为根据图特征序列矩阵H'在注意力机制中获取的query向量序列，其中，Q＝[q₁,...,q_i",...,q_Y]；k_j'、v_i"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量序列和value向量序列，其中，K＝[k₁,...,k_j',...,k_U]，V＝[v₁,...,v_j',...,v_U]；softmax(*)为归一化函数；W_Q、W_K、W_V均为相关计算系数；d_k为缩放系数；H'为图特征序列矩阵；H为语义特征序列矩阵；

进行特征交互协作的公式为：

式中，c_i"为交互协作特征值，按照取待识别文本数据的文本序列顺序构成交互协作特征序列C＝[c₁,...,c_i",...,c_Y]；i"为图特征向量指示量；Y为图特征向量总数；j'、k'均为语义特征向量指示量；U为语义特征向量总数；β_i"j'为注意力机制的权重；s_i"j'、s_i"k'均为图特征向量与语义特征向量之间的相似度；q_i"为根据图特征序列矩阵H'在注意力机制中获取的query向量；k_j'、v_i"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量和value向量；

作为优选，文本实体识别模型使用改进人工鱼群(AFSA，Improve ArtificialFish Swarm Algorithm)算法进行各个模块的相关参数进行优化，IAFSA算法引入了动态反向学习策略和基于柯西分布的自适应人工鱼视野对传统的人工鱼群算法进行改进，IAFSA算法相较于传统的Adam优化器，其收敛性能和局部跳脱能力得到了很大的提升，加快了上述模型中相关参数的优化过程，提高了模型的精度；

动态反向学习策略的公式为：

x'_i*j*(t)＝k*(a_j*(t)+b_j*(t))-x_i*j*(t)

基于柯西分布的自适应人工鱼视野范围更新的公式为：

柯西分布变换后的视野范围的公式为：

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于NLP的文本实体识别方法，其特征在于：包括如下步骤：

所述的文本实体识别模型包括输入层、语义特征提取模块、图特征提取模块、特征交互协作模块、CRF模块以及输出层，所述的输入层分别与语义特征提取模块和图特征提取模块连接，所述的语义特征提取模块和图特征提取模块均与特征交互协作模块连接，且语义特征提取模块基于BERT预训练语言子模型和BILSTM网络建立，所述的图特征提取模块与语义特征提取模块连接，且图特征提取模块基于BERT预训练语言子模型和GAT网络建立，所述的特征交互协作模块与CRF模块连接，且特征交互协作模块基于交互注意力机制建立，所述的CRF模块与输出层连接；

2.根据权利要求1所述的基于NLP的文本实体识别方法，其特征在于：对文本大数据进行的预处理包括格式转换处理、数据压缩处理、数据脱敏处理、数据降噪处理、数据清洗处理以及语料分词处理，且在预处理后，得到独立词语标签的文本标准数据集。

3.根据权利要求1所述的基于NLP的文本实体识别方法，其特征在于：所述的语义特征提取模块包括设置有BERT预训练语言子模型的字向量表征层和BILSTM层，所述的字向量表征层分别与输入层、BILSTM层以及图特征提取模块连接，所述的BILSTM层与特征交互协作模块连接；

所述的图特征提取模块包括设置有BERT预训练语言子模型的词向量表征层、字词关系文本构图层以及GAT层，所述的词向量表征层、字词关系文本构图层以及GAT层依次连接，且词向量表征层与输入层连接，所述的字词关系文本构图层与语义特征提取模块的字向量表征层连接，所述的GAT层与特征交互协作模块连接；

所述的特征交互协作模块包括Positional embedding子模块、Multi-head AttentionMechanism子模块、两个Add&Norm子模块以及两个FeedForward子模块，所述的Multi-headAttention Mechanism子模块分别与语义特征提取模块、图特征提取模块、Positionalembedding子模块以及第一个Add&Norm子模块连接，第一个所述的Add&Norm子模块分别与语义特征提取模块、图特征提取模块、第二个Add&Norm子模块以及并联设置的两个FeedForward子模块连接，第二个Add&Norm子模块分别与并联设置的两个FeedForward子模块和CRF模块连接。

4.根据权利要求3所述的基于NLP的文本实体识别方法，其特征在于：获取待识别文本数据，将待识别文本数据输入文本实体识别模型进行文本实体识别，包括如下步骤：

5.根据权利要求4所述的基于NLP的文本实体识别方法，其特征在于：提取待识别文本数据的语义特征的公式为：

6.根据权利要求5所述的基于NLP的文本实体识别方法，其特征在于：提取待识别文本数据的图特征的公式为：

7.根据权利要求6所述的基于NLP的文本实体识别方法，其特征在于：在特征交互协作过程中加入多头注意力机制，构成交互注意力机制，交互注意力机制的公式为：

式中，Attention(*)为交互注意力机制函数；Q为根据图特征序列矩阵H'在注意力机制中获取的query向量序列，其中，Q＝[q₁,...,q_i",...,q_Y]；k_j'、v_i"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量序列和value向量序列，其中，softmax(*)为归一化函数；W_Q、W_K、W_V均为相关计算系数；d_k为缩放系数；H'为图特征序列矩阵；H为语义特征序列矩阵。

8.根据权利要求7所述的基于NLP的文本实体识别方法，其特征在于：将待识别文本数据的语义特征和图特征进行特征交互协作的公式为：

9.根据权利要求8所述的基于NLP的文本实体识别方法，其特征在于：所述的文本实体识别模型使用IAFSA算法进行各个模块的相关参数进行优化，所述的IAFSA算法引入了动态反向学习策略和基于柯西分布的自适应人工鱼视野对传统的人工鱼群算法进行改进；

动态反向学习策略的公式为：

式中，分别为第i^*条人工鱼第j^*维的反向位置和正向位置；分别为当前人工鱼群第j^*维的上界和下界；k^*为递减惯性因子，k^*＝0.9-0.5D/D_max；D、D_max分别为当前迭代次数和最大迭代次数；t为时刻指示量；

基于柯西分布的自适应人工鱼视野范围更新的公式为：

式中，为人工鱼的视野范围更新函数；v为人工鱼的原始视野范围；/>为迭代后半程人工鱼经柯西分布变换后的视野范围；/>为第i^*条人工鱼的位置；D、D_max分别为当前迭代次数和最大迭代次数；

柯西分布变换后的视野范围的公式为：

式中，为迭代后半程人工鱼经柯西分布变换后的视野范围；/>为第i^*条人工鱼的适应度值；f_worst为人工鱼的最劣的适应度值；γ为尺度参数，其值越小，柯西分布概率密度曲线越陡峭，γ＝1/(π·v_origin)；v_origin为初始视野值。