CN117786120B

CN117786120B - 基于层次化注意力机制的文本情感分类方法及系统

Info

Publication number: CN117786120B
Application number: CN202410216838.8A
Authority: CN
Inventors: 王继彬; 张鑫硕; 郭莹; 吴晓明
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2024-02-28
Filing date: 2024-02-28
Publication date: 2024-05-24
Anticipated expiration: 2044-02-28
Also published as: CN117786120A

Abstract

本发明提出了基于层次化注意力机制的文本情感分类方法及系统，涉及人工智能领域，具体方案包括：对待分类的文本数据进行数据预处理，并通过Bert模型将其转化为情感词向量；将情感词向量输入到基于层次化注意力机制的文本情感分类模型中，生成并输出文本情感分类结果；其中，所述层次化注意力机制由缩放点积注意力层、注意力池化层和多头注意力层组成，通过缩放点积注意力层对情感词向量进行初步筛选，增强词向量的表示能力，所述注意力池化层用来筛选重要的情感特征，而多头注意力层进行进一步的特征提取和整合；本发明充分挖掘文本语义信息，从而显著提高情感分类的准确率。

Description

基于层次化注意力机制的文本情感分类方法及系统

技术领域

本发明属于人工智能领域，尤其涉及基于层次化注意力机制的文本情感分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

文本情感分类指的是对具有主观色彩和情感倾向的文本进行分析、推理和总结的过程，旨在识别文本中用户的情感极性。通过对用户言论进行情感分类，可以帮助了解公众的情绪状态，及时把握公众的观点和态度。该技术在商品评价、电影评价、新闻推荐等领域有广泛应用，同时在舆情监控、民意调查等工作中也具有重要意义。

传统的情感分类技术主要包括基于规则的方法和基于机器学习的方法。基于规则的方法主要依赖经验或专家知识，通过统计特征、情感词典等来对文本进行情感分类；而基于机器学习的方法则通过人工标注部分数据建立训练集，再利用特征提取和学习构建分类模型，最终对未知标签的数据进行情感分类。然而，随着数据量的增加，文本信息的特征变得更加复杂，传统方法的局限性逐渐显现：过于依赖复杂的特征工程，难以进行有效的特征提取，同时也容易面临梯度爆炸、信息丢失等问题。

近年来在自然语言处理领域广泛使用的深度学习技术，包括卷积神经网络、循环网络和注意力机制等，这些技术可以学习文本的深层特征，提高情感分类的效果；然而，仍然存在一些隐含信息没有被充分挖掘的问题，文本的语义信息也没有得到充分利用，因此在提高准确率方面还有进一步的提升空间。

发明内容

为克服上述现有技术的不足，本发明提供了基于层次化注意力机制的文本情感分类方法及系统，充分挖掘文本语义信息，从而显著提高情感分类的准确率。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于层次化注意力机制的文本情感分类方法。

基于层次化注意力机制的文本情感分类方法，包括：

对待分类的文本数据进行数据预处理，并通过Bert模型将其转化为情感词向量；

将情感词向量输入到基于层次化注意力机制的文本情感分类模型中，生成并输出文本情感分类结果；

其中，所述层次化注意力机制由缩放点积注意力层、注意力池化层和多头注意力层组成，通过缩放点积注意力层对情感词向量进行初步筛选，增强词向量的表示能力，所述注意力池化层用来筛选重要的情感特征，而多头注意力层进行进一步的特征提取和整合。

进一步的，所述数据预处理为清理脏数据和异常值处理。

进一步的，所述通过Bert模型将其转化为情感词向量，具体步骤为：

将文本中的每个词切分为子词单元，然后为每个子词单元查询一个固定维度的字向量；

为每个输入的字向量添加两个额外的向量：文本向量和位置向量；

将添加后的字向量输入到多层的Transformer网络中，通过自注意力机制和全连接层，将每个字向量融合上下文的语义信息，得到最终的词向量。

进一步的，所述文本情感分类模型包括依次连接的缩放点积注意力层、多粒度卷积网络层、注意力池化层、BGRU层、多头注意力层、全连接层和softmax层。

进一步的，所述缩放点积注意力层是对词向量进行缩放点积操作，增强情感特征表达，得到缩放点积注意力输出。

进一步的，所述注意力池化层，通过计算每个词与其他词的相关性权重，筛选情感权重较大的特征，得到文本局部情感特征向量。

进一步的，所述BGRU层对文本局部情感特征向量进行序列建模，捕捉序列中长距离依赖关系，得到文本全局情感特征向量。

进一步的，所述多头注意力层为文本全局情感特征向量计算相关权重，对每个词的双向GRU输出进行加权求和筛选，得到整个文本的注意力情感表示向量。

进一步的，所述全连接层和Softmax层，以注意力情感表示向量为输入，通过线性变换和归一化激活函数对整个文本的注意力情感表示向量进行分类，得到文本情感分类的结果。

本发明第二方面提供了基于层次化注意力机制的文本情感分类系统。

基于层次化注意力机制的文本情感分类系统，包括预处理模块和文本分类模块：

预处理模块，被配置为：对待分类的文本数据进行数据预处理，并通过Bert模型将其转化为情感词向量；

文本分类模块，被配置为：将情感词向量输入到基于层次化注意力机制的文本情感分类模型中，生成并输出文本情感分类结果；

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于层次化注意力机制的文本情感分类方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于层次化注意力机制的文本情感分类方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明利用由缩放点积注意力层、注意力池化层和多头注意力层组成的层次化注意力机制，通过缩放点积注意力层对情感词向量进行初步筛选，增强词向量的表示能力，所述注意力池化层用来筛选重要的情感特征，而多头注意力层进行进一步的特征提取和整合，深度挖掘隐含信息，充分利用文本的语义信息，提高情感分类的准确性。

本发明提供的基于层次化注意力机制的文本情感分类模型，充分挖掘了文本情感语义信息，加强了对重要情感特征的关注度，有效捕捉了词语的长距离依赖关系，增强了模型的非线性能力，从而提高了文本情感分类的准确度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第一个实施例注意力池化结构示意图。

图3为第一个实施例BGRU网络结构示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本公开的一种实施例中提供了基于层次化注意力机制的文本情感分类方法，包括如下步骤：

作为一种实施例，基于层次化注意力机制的文本情感分类方法的具体实施方式如下，如图1所示：

步骤S111：对文本数据进行数据预处理，使用Bert模型将文本数据转化为词向量；

S111a：待分类的文本数据的获取，可以采用爬虫技术获得的评论内容；用于模型训练的文本数据集，也可以采用爬虫技术构建，例如：使用爬虫技术爬取当当网、京东网中某商品的评论内容，构建文本数据集。

S111b：因为抓取的文本数据中包含大量无关内容，所以数据预处理的主要步骤为清理脏数据，包括：

(1)将文本数据中的标点符号、表情符号、URL、HTML标签、电话号码等无关内容去除，这些内容与情感信息无关，并且影响训练效率，对准确率也会产生影响；

(2)统一文本中数字和字母的格式，将数字和字母的大小写统一；

(3)将文本统一转换为简体字；

(4)将全角数字字母转换为半角字符。

S111c：使用Bert模型将文本数据转换为词向量

Bert模型是一种基于Transformer的双向编码器模型，能够从大规模的无标注文本中学习语言的表示，捕捉词汇、句法和语义等多层次的信息。Bert模型可以作为文本的特征提取器，将输入的文本转换为高维的向量表示，作为后续层的输入，具体步骤为：

S111c1：将文本中的每个词切分为一个或多个子词单元，然后为每个子词单元查询一个固定维度的字向量；

S111c2：为每个输入的字向量添加两个额外的向量：文本向量和位置向量；

S111c3：将加和后的字向量输入到多层的Transformer网络中，通过自注意力机制和全连接层，将每个字向量融合上下文的语义信息，得到最终的词向量。

步骤S112：将步骤S111词向量输入到缩放点积注意力层，对文本特征进行初步筛选，增强词向量矩阵的情感特征表达能力；

缩放点积注意力机制是一种用于计算输入序列中不同位置之间的相关性的机制，可以捕捉长距离依赖关系，并且可以并行化处理，可以增强词向量的特征表示能力，使其能够关注输入序列中不同位置和不同子空间的信息，用公式表示为：

其中，：Query 矩阵，表示查询向量；/>：Key 矩阵，表示键向量；/>：Value 矩阵，表示值向量；/>是向量维度的平方根；/>表示key矩阵的转置。

具体步骤为：

S112a:计算 Query 矩阵和 Key 矩阵/>的乘积，得到得分矩阵/>，这一步计算了 Query 和 Key 之间的相似度；

S112b:对得分矩阵进行缩放，即将其除以向量维度的平方根，这一步可以避免得分过大或过小；

S112c：生成一个与得分矩阵大小相同的掩码矩阵，将不需要关注的元素置为，其他元素置为0；

S112d：对缩放后的得分矩阵进行 softmax 归一化计算，得到Attention注意力权重矩阵：，这一步将得分转换为概率分布；

S112e：计算 Value 矩阵 V 和 Attention 注意力权重矩阵的乘积，得到加权后的 Context 矩阵：；这一步实现了注意力机制的作用，即根据 Query 和Key 之间的相似度对 Value 进行加权。

步骤S113：将步骤S112缩放点积注意力输出输入到多粒度卷积网络层获得文本的卷积输出。

其中，多粒度卷积神经网络能够通过滑动窗口对文本进行局部特征提取，捕捉词语之间的组合关系和语义信息；通过对Bert模型输出的向量进行卷积操作，得到不同尺度的特征图，作为后续层的输入；通过使用不同大小的卷积核对词向量进行卷积操作可以获得不同范围内词的关系，可以更好的捕捉局部相关性，具体步骤为：

S113a：通过对输入矩阵进行卷积操作得到相邻词或字符的特征图，将缩放点积注意力层输出的注意力矩阵输入，与卷积核的权重矩阵/>相乘并加上偏置项/>得到特征图/>，用公式表示为：

其中，是特征图的第i个元素；

表示激活函数；

是卷积核的权重矩阵；

是输入矩阵的第i到i+h-1行；

表示偏置项。

步骤S114：使用注意力池化层对步骤S113的卷积输出进行池化操作，得到文本的局部情感特征向量。

使用注意力池化层替代传统的最大池化层，通过对每个特征图进行注意力池化操作，从每个特征图中选取最大的情感特征做为该特征图的代表，保留最重要的情感特征。

所述注意力池化层结构如图2所示，具体步骤为：

S114a：将特征图输入，使用操作选取特征图的最大情感特征，得到最大注意力池化输出/>，计算公式如下所示：

其中，表示注意力池化后的标量值；

表示选取最大的情感特征；

是经过卷积操作的拼接集合；

S114b：将经过卷积、池化操作之后的特征输出，得到文本局部情感特征。

步骤S115：将步骤S114得到的文本局部情感特征输入BGRU层，捕捉序列中长距离依赖关系，对文本序列进行建模。

其中，BGRU是一种双向门控循环单元，能够通过记忆和遗忘机制，捕捉文本中的长距离依赖和时序信息，可以对注意力层输出的文本表示向量进行前向和后向的循环计算，得到每个位置上双向的隐藏状态，作为后续层的输入。

所述BGRU网络结构如图3所示，具体步骤为：

S115a：使用正向GRU计算正向序列得到正向GRU序列；

S115b：使用反向GRU计算反向序列得到反向GRU序列；

S115c：拼接所述正向GRU序列，反向GRU序列，得到文本的全局特征。

具体的，通过使用正向GRU计算特征正向序列得到特征正向GRU序列，使用反向GRU计算特征反向序列得到特征反向GRU序列，均包括：

更新门：

遗忘门：

候选隐藏状态：

最终隐藏状态：

其中，表示输入向量；

分别表示上一刻和当前时刻的隐藏状态；

表示sigmod函数，/>表示逐元素相乘；

表示可学习的权重矩阵；

表示可学习的偏置向量；

正向序列各时刻隐藏状态的集合构成所述正向GRU序列；反向序列各时刻隐藏状态的集合构成所述反向GRU序列。

将所述正向GRU序列和反向GRU序列进行拼接，得到文本的全局情感特征信息为：

步骤S116：将步骤S115得到的文本全局情感特征输入多头注意力层，得到文本注意力情感表示向量。

多头自注意力机制是一种基于注意力机制的变体，其目的是为了减少对外部信息的依赖，尽可能地利用特征内部固有的信息进行注意力的交互；多头自注意力机制的核心思想是：对于一个输入序列，每个元素都可以通过计算与其他元素的相似度来得到一个加权平均的表示，这个表示可以捕捉到序列中的局部和全局的依赖关系，并对文本特征进行权重计算和分配，加大情感极性词的权重，可以增加模型对重要特征的关注度，具体步骤为：

S116a：根据文本全局情感特征构建矩阵；

S116b：首先计算注意力权重；

S116c：接下来计算当前输入的序列的注意力输出；

S116d：最后将整个文本的注意力输出拼接并与可学习的权重矩阵相乘得到经注意力层输出的特征向量/>。

具体的，用公式表示为：

其中，分别表示根据文本全局情感特征向量构建的查询、键、值矩阵，其中i=1、…、h，h是头的个数；

表示键向量的维度；

n是输入序列的长度；

表示第i组注意力输出；

表示可学习的权重矩阵；

表示将h组注意力输出拼接；

表示经注意力层输出的文本注意力情感特征向量。

步骤S117：将步骤S116得到的文本注意力情感表示向量输入全连接层和Softmax层，通过线性变换和归一化激活函数对整个文本的情感表示向量进行分类，得到文本情感分类的结果。

全连接层是一种线性变换层，能够将高维的特征向量映射到低维的空间，实现降维和非线性激活；全连接层可以对多头注意力机制输出的向量进行线性变换和激活函数处理，得到最终的特征表示；Softmax是一种归一化函数，能够将任意实数向量转换为概率分布，实现分类任务，可以对全连接层输出的向量进行归一化处理，得到每个类别的预测概率，具体步骤为：

S117a:将文本注意力情感表示向量E输入全连接层，经过计算得到全连接层输出，其中，/>表示文本注意力情感表示向量；/>是权重矩阵，/>是偏置量，/>表示全连接层输出向量。

S117b：将全连接层输出结果输入Softmax层，得到分类结果，用公式表示为：

其中，表示Softmax层权重矩阵，/>表示Softmax层偏移量；/>是全连接层输出向量，/>表示情感分类结果。

是情感分类结果的预测概率分布，范围在0-1之间，0表示消极情感，1表示积极情感，中间值为0.5，若0</><0.5，则预测为消极;若/>>=0.5,则预测为积极。

本实施例提供的技术方案可以概括为：

首先，本实施例巧妙地利用了Bert模型的强大语义和句法信息，提高了模型对输入序列的理解和表达能力，并且借助预训练模型的泛化和迁移能力，降低了模型的训练难度和数据需求。

其次，本实施例设计了层次化的注意力机制，使得模型能够关注文本中不同位置和维度的关键信息，而并行计算也加速了模型的训练和推理过程。

再次，本实施例使用了多粒度的卷积网络，捕捉了输入序列中不同位置和子空间的相关性和特征，从而增强了模型的表达和泛化能力，同时也增加了模型的多样性和容量。

此外，对于传统的最大池化层，本实施例进行了改进：传统的最大池化没有考虑每个位置的权重或重要性，可能导致信息丢失；然而，本实施例采用了注意力机制替代传统的最大池化，可以根据输入文本的上下文动态地调整权重，将更多的关注放在对情感分类有贡献的部分，从而提高了特征的利用效率。

最后，本实施例使用了双向BGRU循环神经网络，充分利用了前后文信息，并通过门控机制选择性地记忆或遗忘信息，提高了模型的记忆能力。同时，采用全连接层和softmax函数增加了模型的非线性能力，降低了输出维度，得到了适合分类任务的向量，将其转换为情感分类结果对应的概率分布。

综上所述，本实施例设计了层次化的多层自注意力机制，能够全面提取文本各个尺度的情感特征，加强对重要情感特征的关注度。同时，改进了传统的最大池化层，使用了注意力池化层，减少了信息丢失，进一步增强了对重要情感特征的关注度。整体而言，本实施例提出了一种高效且合理的模型结构，充分融合了Bert模型、卷积神经网络、注意力机制和双向BGRU循环神经网络等技术优势，极大地提高了文本情感分类的性能和准确率。

实施例二

本公开的一种实施例中提供了基于层次化注意力机制的文本情感分类系统，包括预处理模块和文本分类模块：

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的基于层次化注意力机制的文本情感分类方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的基于层次化注意力机制的文本情感分类方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于层次化注意力机制的文本情感分类方法，其特征在于，包括：

其中，所述层次化注意力机制由缩放点积注意力层、注意力池化层和多头注意力层组成，通过缩放点积注意力层对情感词向量进行初步筛选，增强词向量的表示能力，所述注意力池化层用来筛选重要的情感特征，而多头注意力层进行进一步的特征提取和整合；

所述文本情感分类模型包括依次连接的缩放点积注意力层、多粒度卷积网络层、注意力池化层、BGRU层、多头注意力层、全连接层和softmax层；

所述缩放点积注意力层是对词向量进行缩放点积操作，增强情感特征表达，得到缩放点积注意力输出；

所述注意力池化层，通过计算每个词与其他词的相关性权重，筛选情感权重较大的特征，得到文本局部情感特征向量；

所述BGRU层对文本局部情感特征向量进行序列建模，捕捉序列中长距离依赖关系，得到文本全局情感特征向量；

所述多头注意力层为文本全局情感特征向量计算相关权重，对每个词的双向GRU输出进行加权求和筛选，得到整个文本的注意力情感表示向量；

所述全连接层和Softmax层，以注意力情感表示向量为输入，通过线性变换和归一化激活函数对整个文本的注意力情感表示向量进行分类，得到文本情感分类的结果。

2.如权利要求1所述的基于层次化注意力机制的文本情感分类方法，其特征在于，所述数据预处理为清理脏数据和异常值处理。

3.如权利要求1所述的基于层次化注意力机制的文本情感分类方法，其特征在于，所述通过Bert模型将其转化为情感词向量，具体步骤为：

4.基于层次化注意力机制的文本情感分类系统，其特征在于，包括预处理模块和文本分类模块：