CN116579347A

CN116579347A - 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质

Info

Publication number: CN116579347A
Application number: CN202310212288.8A
Authority: CN
Inventors: 李沛源; 权义宁; 江涛; 孙鹏岗; 宋建锋; 苗启广
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-08-11

Abstract

一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质，其方法利用BERT预训练模型对传统词嵌入的情感语义表征能力予以补充，通过对BERT模型的微调，在任务预处理阶段充分挖掘出文本蕴含的情感语义信息，动态地对词语进行标识，表征多义词和新词的语义；另外通过双向门循环网络结构(Bi‑GRU)融合自注意力机制，得出每个情感类别对应的概率值，选取概率值最大的类别作为BERT‑BiGRU模型的最终输出结果；所述系统、设备及介质用于计算机程序被处理器执行时能够对评论文本的情感进行分析；本发明具够对评论文本中蕴含的情感极性进行较为准确的预测和分类；改善情感分类模型的性能效果。

Description

一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质

技术领域

本发明属于自然语言处理和数据分析应用技术领域，尤其涉及一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质。

背景技术

在移动互联网和大数据等技术不断跨越式发展的今天，互联网上的应用不断丰富起来，其中有一项就是直播电商。随着用户规模的爆发式增长，每场直播都会产生海量的评论文本数据，这些评论文本是用户观看视频内容以后所产生的直观感受的表达，一般都会带有用户的情感倾向，这些情感倾向可能是针对视频的内容质量、与主持人的互动交流、商品的评价等，是观众观看视频时的情感表达。在这些评论文本中，用户可以随心所欲表达情感而不用考虑文体格式、内容影响、舆论反应等等，所以评论文本和普通文学在表达方式上有很大的不同。从数据存储的角度来讲，在现有存储能力下能够完整地保存所有用户的所有评论数据，并以此作为研究评论文本基础。

对于评论文本的情感分析可以归为自然语言处理中的文本分类任务，文本分类任务是一个通过大量给定标签的训练集训练得到一个算法模型，通过模型预测待检测文本标签的任务。此项任务的应用场景十分广泛，比如在电商平台广泛应用的评论结构化、观点可视化、产品改进、评论推荐等场景。在社交网络中，可以抓取微博等平台上用户发表的观点，进行舆情分析。

早期的文本情感分析多采用情感词典的方式，这种方法的核心是构建情感词典。它的优点是原理简单，不依赖有标注的数据集；缺点是时间和人力成本高，情感词典构建需要专业的语言学知识。第二个阶段是基于机器学习的方法，机器学习通过大量的训练语料来学习不同情绪表达的句子特征，达到对情感倾向进行分类的效果。机器学习方法对于数据的要求比较高，需要针对特定任务或领域对文本进行人工标注，标注质量直接影响情感分类效果。其次依赖于人工设计的特征，训练过程耗时过长。随着深度学习的深入研究和广泛应用，深度学习已经成为了主流的研究方法。深度学习不依赖人工构建特征，具有特征的自学习能力，适用于语言文本的抽象、高维、复杂等特点。使用深度学习方法可以有效解决传统机器学习在自然语言处理领域中数据稀疏，误差传播和特征提取等问题。

目前，使用深度学习方法解决文本分类问题，可以采用的模型工具有多层感知器模型(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制等。相较于卷积神经网络，循环神经网络更适合处理基于时间的词汇序列。传统的循环神经网络存在梯度消失或梯度爆炸的问题，且不能有效学习文本中的长距离依赖关系。

目前深度学习模型已经取得了较好的性能，并且能够进行初步的语义理解，但在识别和分类能力方面还不能达到或接近人类的水平。其主要问题集中在深度学习模型的有效性不足，具体体现在部分模型的结构复杂，训练参数量非常大，另外模型对知识的表示和推理的抽象能力不足，不能对知识中的高层语义特征进行有效抽取。

专利申请CN114548111A公开了一种基于深度学习的课程评论文本情感分析方法及系统，该方法包括：获取待分析的课程评论文本；将所述课程评论文本输入预先训练的课程评论文本情感分析模型中,获得课程评论文本情感分析结果；其中,所述课程评论文本情感分析模型包括输入层、嵌入层、BiGRU层、Attention层以及激活层,所述嵌入层采用XLNet模型以及预先构建的课程评论情感词典将输入的文本状态表示为加权词向量矩阵,所述XLNet模型以排列组合的形式对输入的文本进行重构,通过将部分课程评论文本上下文信息中的部分下文内容引入到上文中,实现双向预测的功能。该发明通过XLNet模型，引入了自回归的语言模型，可以很好的适应生成式的语言环境。但是，对于文本情感分析这种分类任务，在语义识别理解和文本分类等方面的性能和效果仍待提高。另外，构建课程评论情感词典的方式成本较高，要求具备领域专家知识，且方法的泛化能力较差，不能很好的适应其他类型的数据集。

发明内容

为了克服上述现有技术的不足，本发明的目的在于提出一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质，利用BERT预训练模型对传统词嵌入的情感语义表征能力予以补充，通过对BERT-base模型的每个隐藏层引入一个动态重加模块进行改进，在任务预处理阶段充分挖掘出文本蕴含的情感语义信息，动态地对词语进行标识，表征多义词和新词的语义；同时，改变了BERT-base模型使用最后一个隐藏层的输出作为文本特征表示的方式，充分使用了模型中全部12个隐藏层的输出信息，使得预训练语言模型能够关注到输入文本不同层次结构上的动态语义特征；最后，通过双向门循环网络结构(Bi-GRU)融合自注意力机制，得出每个情感类别对应的概率值，选取概率值最大的类别作为BERT-BGRU模型的最终输出结果，改善了情感分类模型的性能效果。

为了实现上述目的，本发明采用如下技术方案：

一种基于动态语义特征融合的评论文本情感分析方法，采用BERT预训练模型对文本进行编码表示，通过在BERT-base模型的每一个隐藏层中融入一个轻量级的动态语义重加权模块，将动态语义理解的过程结合到预训练的语言模型中；在训练时对模型进行微调，以掌握句子的整体语义，在任务预处理阶段表征出文本蕴含的情感语义信息，动态地对词语进行标识，表征多义词和新词的语义；通过预训练语言模型生成输入文本的特征表示，该特征表示全面结合了每一个隐藏层学习到的特征，使预训练学习框架在微调的过程中能够关注到输入文本不同层次结构上的动态语义特征，释放BERT模型的性能；采用BiGRU网络对输入的向量信息进行特征提取，从文本的正向和反向两个方向分别学习上下文特征信息；最后得到每个情感类别对应的概率值，选取概率值最大的类别作为模型的最终输出结果。

一种基于动态语义特征融合的评论文本情感分析方法，具体步骤如下：

步骤1.设置词向量表示层

对BERT-base模型进行改进，在该模型的12个隐藏层中，在每层之后都引入了一个动态重加权模块，对数据集中的文本语料进行特征表示；

步骤2.设置特征提取层

利用BiGRU网络对上一层输出的词向量进行双向学习，前向GRU和后向GRU分别从文本的正向和反向两个方向学习词语的前后上下文信息；

步骤3.设置分类输出层

采用全连接层作为输出层，采用Softmax分类函数对向量进行计算并分类。

所述步骤1具体方法为：

将数据集中的文本语料输入到BERT模型的输入层进行模型训练，输入部分E为每一个字词token(符号)所对应的表征，BERT模型将输入的文本转换为各个字对应的一维向量，同时还包含分段向量和位置向量；分段向量用于表示文本的全局语义信息，位置向量则用来刻画每个词语在句子中所处的位置信息；输出部分为T，BERT模型以词向量形式输出，输出的向量是融合上下文语义信息后的表示；

引入动态特征重加权模块对BERT-base模型的12个隐藏层进行改进：第一，在每一个隐藏层之后都插入了一个动态特征重加权模块，BERT隐藏层在微调期间被冻结不参与训练，动态特征重加权模块在微调期间参与训练；第二，将12个隐藏层的输出信息分为若干组，对每个组内不同隐藏层的输出向量进行拼接，每个组的拼接输出向量再输入到一个BiGRU网络中学习组内不同层输出向量的信息，提取不同层的特征；最后使用一个BiGRU网络合并这若干个组的输出，将其作为预训练语言模型的整体特征输出表示，输入到下游的情感分类任务模块中。

所述步骤2的具体方法为：

将门控循环单元(GRU)单元输入的数据表示为x_t，GRU单元的输出表示为h_t，更新门表示为z_t，重置门表示为r_t；

重置门用于控制对前一时刻历史状态信息的遗忘程度，即候选状态的计算是否依赖于上一时刻的隐藏状态h_t-1；重置门r_t的值越小，说明对前一时刻的状态信息遗忘得越多，如式(2-1)：

r_t＝σ(W_t·[h_t-1,x_t]+b_r) (2-1)

当前时刻的候选状态为如式(2-1)：

更新门则是用来控制前一时刻的隐藏状态信息h_t-1和当前时刻输入信息的平衡，即确定前面历史状态信息保留到当前时间步的量；更新门z_t的值越大，说明对前一时刻的状态信息保留得越多，如式(2-3)：

z_t＝σ(W_z·[h_t-1,x_t]+b_z) (2-3)

平衡后的信息为h_t，如式(2-4)：

利用Bi-GRU网络对于上一层输出的词向量进行双向学习，即前向GRU和后向GRU分别从两个方向学习词语的前后上下文信息；

首先综合t时刻的输入x_t和前向GRU在t-1时刻的隐层状态得到t时刻的前向隐层状态/>然后综合t时刻的输入x_t和反向GRU在t-1时刻的隐层状态/>得到t时刻的反向隐层状态输出/>如式(2-5)、式(2-6)所示，其中GRU函数GRU()表示神经网络的非线性变化：

Bi-GRU在t时刻的隐层状态h_t由前向隐层状态和反向隐层状态/>加权求和得到，如式(2-7)所示，其中w_t和v_t分别表示前向隐层状态和反向隐层状态的权重，b_t表示t时刻隐层状态的偏移量：

所述步骤3具体方法为：

将步骤2中Bi-GRU网络输出的隐层状态序列输入到全连接层，全连接层的作用是将多维特征向量变换成低维特征向量，全连接层中含有ReLU激活函数，同时为了防止在训练过程中出现过拟合现象，还采用了Dropout机制，即在神经网络的训练过程中，对于一次迭代中的某一层神经网络，先随机选中一些神经元并将其临时隐藏，使其不参与训练，然后再进行本次训练和优化；在下一次迭代中，继续随机隐藏一些神经元，重复这个过程直到训练结束；接着，再添加一个全连接层，该层总共包含三个单元，采用Softmmax分类函数作为目标函数，对全连接层输出的特征向量进行归一化处理，计算出每个情感类别对应的概率值，选取概率值最大的类别作为模型的最终输出结果，计算公式如下：

y ＝ softmax(WO+b) (2-8)

其中，W是权重矩阵，b是偏置参数。

一种基于动态语义特征融合的评论文本情感分析方法的分析系统，包括：

词向量生成模块，用于将数据集中的文本信息转换为低维的稠密向量表示：采用引入动态重加权模块的BERT预训练模型将输入的文本转换为各个字对应的一维向量，同时还包含分段向量和位置向量，融入了动态的语义特征，结果以词向量形式输出，输出的词向量是融合上下文语义信息后的特征。

特征提取模块采用的是BiGRU网络，用于充分提取文本序列的特征，增加反向输入机制以改进GRU网络，获取文本特征学习的全局信息；在模型学习过程中，每个输入数据将分别从正向和反向各计算一次，对于第i个单词，分别用h_fi和h_bi来表示前向文本和反向文本的输出向量，最终的输出结果是两个向量加权拼接得到的结果。

分类输出模块，采用全连接层作为输出层，采用Softmax分类函数对向量进行计算并分类；首先把BiGRU网络输出的特征向量送入到一个全连接层中，这个层中含有ReLU激活函数；还采用了Dropout机制防止在训练过程中出现过拟合现象；再添加一个全连接层，紧接着添加一个Softmax层，用于产生文本分类标签。

一种基于动态语义特征融合的评论文本情感的分析设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现步骤1至4所述基于动态语义特征融合的评论文本情感分析方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够基于权利要求1至5任一项分析方法对评论文本情感进行分析。

本发明与现有技术相比，具有如下优点：

1、针对传统词嵌入存在对文本情感语义表达不足的问题，基于引入动态重加权模块的BERT预训练语言模型对传统词嵌入的情感语义表征能力进行了补充：在BERT-base模型的全部12个隐藏层的每一个隐藏层之后，引入一个动态重加权模块，将动态语义理解的过程结合到预训练的语言模型中，进一步提高了模型对上下文的特征提取能力；在训练时对模型进行微调：BERT隐藏层在微调期间被冻结不参与训练，动态语义重加权模块在微调期间参与训练，通过这种方式掌握句子的整体语义，在任务预处理阶段挖掘出文本蕴含的情感语义信息，动态地对词语进行标识，表征多义词和新词的语义；另外，本发明所设计的预训练语言模型输出的上下文特征表示向量，充分利用了全部12个隐藏层的所有输出信息，包含多层次的语义特征信息，如字词基本信息、语法信息和语义信息。基于以上优势，本发明在面对评论文本中层出不穷的网络用语和新词的情况时，改进后的预训练语言模型很好的表征了多义词和新词的语义。

2、在LSTM中使用多个“门”，因此会导致模型的参数过多、模型训练时间长的缺陷，为了对模型进行改进，可以使用门控循环单元(Gated Recurrent Unit)进行精简，只保留两个门：更新门(update gate)和重置门(reset gate)，GRU可以与LSTM达到同样的作用，使用更少的训练参数，因此可以提高模型训练的效率。

3、本方法提出的Bi-GRU模型，除了标准GRU模型的机制之外，还增加了一个反向机制，从输入流的传输方向可以看出，在模型学习过程中，每个输入数据将分别从正向和反向计算两次，对于第i个单词，分别用h_fi和h_bi来表示前向文本和反向文本的输出向量，最终的输出结果是两个向量拼接得到的结果。因此本模型得到的单词对应的隐藏层输出，综合了前向和后向序列的信息，使得自身的信息表达更加准确。

4、在评论文本情感分析任务中，将文本输入到模型后，利用反向传播机制可以学习到隐藏层特征的参数值，输出的向量值作为文本评论的情感特征表示，最后通过全连接层和Softmax层，可以获得文本的情感倾向分类结果。

综上，本发明能够对评论文本中蕴含的情感极性进行预测和分类，得到的结果一方面能够为评价对象提供有针对性的改进建议，另一方面通过分析评论文本的有效性与影响性，可以健全舆情监测和引导机制，加强对舆论进行积极的引导。

附图说明

图1是本发明BERT预训练语言模型结构图。

图2是本发明GRU单元结构图。

图3是本发明Bi-GRU网络结构图。

图4本发明的整体模型架构图

图5是本发明模型训练和测试流程图。

具体实施方式

下面结合附图对本发明进一步详细说明。

参见图1，步骤1.设置词向量表示层，使用改进后的BERT模型对数据集中的文本语料进行表征。

首先将数据集划分为训练集和测试集两部分，其中训练集又可以进一步划分为训练集和验证集。在PyTorch深度学习框架下，使用BERT预训练模型的tokenizers来对文本进行预处理，通过预训练的词表将文本中的字词映射为实数值，此外BERT还会使用特殊的tokens对文本进行掩码处理。在使用BERT预训练模型中的词表对文本进行数值化映射之后，还需要构建文本情感分类标签的词表，一般情况下我们将负向情感(Negative)标记为‘0’，将正向情感(Positive)标记为‘1’。

参见图2，步骤2.设置特征提取层，使用门控循环单元对LSTM中使用的多个“门”进行精简，提高模型训练的效率。

r_t＝σ(W_t·[h_t-1,x_t]+b_r) (2-1)

当前时刻的候选状态为如式(2-1)：

z_t＝σ(W_z·[h_t-1,x_t]+b_z) (2-3)

平衡后的信息为h_t，如式(2-4)：

具体实施如：通过BERT预训练模型获取到文本的词向量之后，将其输入到下游的文本情感分析任务模型当中，抽取文本当中的情感特征。在PyTorch框架下，通过创建torch.nn下GRU类的实例，实现Bi-GRU模型，创建BERT模型的实例，设置模型训练的一系列超参数，如词嵌入维度、隐藏层维度、隐藏层层数、双向网络参数、Dropout等，在前向传播的过程中，可以采取一些基于工程经验的方法，来对模型进行优化。

步骤3.设置结果输出层，采用全连接层作为输出层，采用Softmax分类函数对向量进行计算并分类。

将步骤2中Bi-GRU网络输出的隐层状态序列输入到全连接层，参见图3，全连接层的作用是将多维特征向量变换成低维特征向量；接着，采用Softmmax分类函数作为目标函数，对全连接层输出的特征向量进行归一化处理，计算出每个情感类别对应的概率值，选取概率值最大的类别作为BERT-BGRU模型的最终输出结果，计算公式如下：

y ＝ softmax(WO+b) (2-8)

其中，W是权重矩阵，b是偏置参数。

具体实施如：设置模型训练的Batch_size和Epoch周期数，模型使用的是Adam优化器和BCEWithLogitsLoss()损失函数，定义准确率计算函数、train()函数，evaluate()函数等，将模型和损失函数部署在图形处理器(GPU)上进行训练，直至模型收敛，保存训练得到的网络模型参数。

存储器，用于存储计算机程序；

参见图5，模型性能测试：

采用准确率(Accuracy)作为模型性能评价指标，在测试集上，使用evaluate()函数计算Loss和Accuracy，获取训练得到的模型在测试集上的文本情感分类效果评价。

为了验证模型的有效性，利用本方法提出的模型和其他的基线模型进行了对比实验。实验基于Restaurant和Laptop数据集进行方面级情感分析，将本文提出的BERT-BiGRU模型与其他的基准模型进行了对比，最终验证了本文提出的BERT-BiGRU模型的性能更为优异，实验数据如下：

表1 BERT-BiGRU模型与其他基线模型的实验对比结果

实验所用的操作系统为Ubuntu18.04，深度学习框架是PyTorch，实验所涉及的具体配置如表2所示：

表2实验环境及配置表

本发明所述文本情感分析方法，旨在从以下三个方面解决已有方法模型中存在的问题：第一，基于BERT预训练模型，对BERT-base模型的所有12个隐藏层进行改进，通过在每一个隐藏层中融入一个轻量级的动态语义重加权模块，将动态语义理解的过程结合到预训练的语言模型中。通过这项技术，可以对常规词嵌入的情感语义表征能力予以补充，在任务预处理阶段充分挖掘出文本蕴含的情感语义信息，动态地对词语进行标识，有效地表征多义词和新词的语义，适应评论文本语言非结构化、网络新词频繁出现的特点；第二，在将预训练语言模型的输出结果作为输入文本的特征表示输入到下游的情感分析任务时，不再仅使用BERT-base模型的12个隐藏层中最后一层的输出，而是全面结合每一个隐藏层学习到的特征，从而使得预训练语言模型在微调的过程中能够关注到输入文本不同层次结构上的动态语义特征，进一步释放BERT模型的性能，使得它在下游的自然语言处理任务中发挥出更大的潜力；第三，在下游文本情感分类任务中，基于双向门循环网络(BiGRU)，提取文本特征表示的长距离依赖，获取上下文的语义信息。BiGRU解决了传统RNN网络模型所存在的梯度爆炸与梯度消失的问题，还可以充分挖掘出短文本所蕴含的情感语义特征和上下文的内联结构关系。后续利用ReLU激活函数、Dropout机制、全连接网络层和Softmax等模块，完成文本的情感分类任务。通过设置对比实验，验证了本方法的有效性，并且设计了一个完整的文本情感分析系统，将其存储和部署在计算机系统上，所述计算机程序能够被处理器执行，在程序执行时能够对评论文本的情感进行分析。

Claims

1.一种基于动态语义特征融合的评论文本情感分析方法，其特征在于，采用BERT预训练模型对文本进行编码表示，通过在BERT-base模型的每一个隐藏层中融入一个轻量级的动态语义重加权模块，将动态语义理解的过程结合到预训练的语言模型中；在训练时对模型进行微调，以掌握句子的整体语义，在任务预处理阶段表征出文本蕴含的情感语义信息，动态地对词语进行标识，表征多义词和新词的语义；通过预训练语言模型生成输入文本的特征表示，该特征表示全面结合了每一个隐藏层学习到的特征，使预训练学习框架在微调的过程中能够关注到输入文本不同层次结构上的动态语义特征，释放BERT模型的性能；采用BiGRU网络对输入的向量信息进行特征提取，从文本的正向和反向两个方向分别学习上下文特征信息；最后得到每个情感类别对应的概率值，选取概率值最大的类别作为模型的最终输出结果。

2.基于权利要求1所述的一种基于动态语义特征融合的评论文本情感分析方法，其特征在于，具体步骤如下：

步骤1.设置词向量表示层

步骤2.设置特征提取层

步骤3.设置分类输出层

3.基于权利要求2所述的一种基于动态语义特征融合的评论文本情感分析方法，其特征在于，所述步骤1具体方法为：

4.基于权利要求2所述的一种基于动态语义特征融合的评论文本情感分析方法，其特征在于，所述步骤2的具体方法为：

r_t＝σ(W_t·[h_t-1,x_t]+b_r) (2-1)

当前时刻的候选状态为如式(2-1)：

z_t＝σ(W_z·[h_t-1,x_t]+b_z) (2-3)

平衡后的信息为h_t，如式(2-4)：

首先综合t时刻的输入x_t和前向GRU在t-1时刻的隐层状态 ₁,得到t时刻的前向隐层状态/>然后综合t时刻的输入x_t和反向GRU在t-1时刻的隐层状态/>得到t时刻的反向隐层状态输出/>如式(2-5)、式(2-6)所示，其中GRU函数GRU()表示神经网络的非线性变化：

5.基于权利要求1所述的一种基于动态语义特征融合的评论文本情感分析方法，其特征在于，所述步骤3具体方法为：

y ＝ softmax(WO+b) (2-8)

其中，W是权重矩阵，b是偏置参数。

6.基于权利要求1至5任一项所述的基于动态语义特征融合的评论文本情感分析方法的分析系统，其特征在于，包括：

7.基于权利要求1至5任一项所述的基于动态语义特征融合的评论文本情感的分析设备，其特征在于，包括：

存储器，用于存储计算机程序；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够基于权利要求1至5任一项分析方法对评论文本情感进行分析。