CN117033558A

CN117033558A - 一种融合bert-wwm与多特征的影评情感分析方法

Info

Publication number: CN117033558A
Application number: CN202311085681.1A
Authority: CN
Inventors: 王旭; 王卫民
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-10

Abstract

本发明公开了一种融合BERT‑WWM与多特征的影评情感分析方法，属于自然语言处理技术领域，包括以下步骤：首先，从影视网站、论坛等利用爬虫框架获取数据，并对其进行预处理，之后，使用BERT‑WWM模型将文本编码为词向量，输出至双通道网络模型以提取特征，其中TextCNN提取局部特征，BiLSTM提取全局特征，然后利用注意力机制予以特征不同权重以优化语义表达，最后将局部与全局特征向量融合输入到全连接层计算，再使用Softmax分类输出结果；本发明通过对文本多特征提取并使用注意力机制结合语义分配权重，使得影评文本的情感分析更加准确。

Description

一种融合BERT-WWM与多特征的影评情感分析方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种融合BERT-WWM与多特征的影评情感分析方法。

背景技术

随着社交媒体、在线评论平台和数字化娱乐的兴起，影评逐渐成为了人们交流观点、分享体验的重要途径。然而，影评的数量庞大和多样化，使得手动筛选和理解这些评论变得愈发困难，这也催生了影评情感分析的研究。

影评情感分析是一种利用自然语言处理和机器学习技术，以自动化的方式评估影评文本中的情感色彩的方法。这种技术的出现，不仅可以帮助影评平台更好地理解用户的喜好和观点，还能够为电影制片方提供有价值的市场反馈，从而更好地满足观众的需求。背后的思想是通过自动分析和分类影评中的情感，可以更加客观地了解观众的态度，为电影产业的发展提供指导。

传统情感分析采用构建情感词典的方法，其中包含一系列积极、消极和中性的词汇，然后通过计算文本中这些词汇的出现频率来确定情感。这种方法这考虑静态词汇不结合上下文，因此效果有限。之后出现机器学习的方法，将文本转换为特征向量，然后训练模型来预测情感，此方法依赖人工构建特征，泛化性不足。而后深度学习的出现，情感分析技术取得了新的突破。神经网络如卷积神经网络(CNN)、长短时记忆网络(LSTM)和门控循环单元(GRU)，以及预训练语言模型，如BERT、GPT和RoBERTa，进一步提升了情感分析的性能。如今，采用多模型融合的方法成为研究情感分析的新范式。

发明内容

本发明的目的在于提供一种融合BERT-WWM与多特征的影评情感分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种融合BERT-WWM与多特征的影评情感分析方法，包括以下步骤：

步骤一、影评数据获取与数据预处理；

步骤二、将文本映射为词向量；

步骤三、将词向量输入至双通道网络中，其一通道提取局部特征，其二通道提取全局特征；

步骤四、使用注意力机制优化局部、全局特征的权重，增强重要信息，抑制非重要信息；

步骤五、融合优化后的特征向量并输入到一个全连接层，使用Softmax函数输出预测结果。

作为一种优选的实施方式，所述步骤一中利用Python爬虫框架对影评网站、影视网站、论坛爬取文本数据并存储，对于原数据进行预处理，包括清洗数据、平衡数据、数据标注与数据划分。

作为一种优选的实施方式，所述步骤二中：采用全词掩码预训练模型BERT-WWM将文本转化为词向量。

作为一种优选的实施方式，所述步骤三中：对于局部特征提取，利用TextCNN模型通过卷积核对词向量序列计算，可得出当前卷积核对应的局部特征向量，计算输出所有大小不同的卷积核对应的局部特征向量；

利用BiLSTM模型捕捉序列的正向和反向依赖关系，从而能够提取全局特征，计算单个词向量的正向状态与反向状态，并拼接得到词向量对应的全局特征向量，计算输出所有的全局特征向量。

作为一种优选的实施方式，所述步骤四中：使用注意力机制优化局部、全局特征的权重。注意力机制可以用来增强重要信息的表达权重，从而更好地理解文本中的关键信息。分别对每一个局部特征向量和全局特征向量使用注意力机制，计算其对应的注意力权重分值，表示该向量的重要程度。之后将权重与对应特征向量加权求和得出融合注意力机制的局部特征向量和全局特征向量。

作为一种优选的实施方式，所述步骤五中：将优化后的局部特征向量和全局特征向量融合为一个强语义特征向量，并将该特征向量输入全连接层，使用Softmax函数得到预测概率分值，取概率值最大的为预测结果。

与现有技术相比，本发明的有益效果是：

本发明使用BERT-WWM模型将文本向量化，该模型更加适配与中文文本，更好地处理中文分词问题，从而捕捉词级别的语义和上下文信息，提升模型在中文任务上的性能，采用双通道提取双特征，TextCNN通过卷积操作捕捉不同长度的文本局部特征，BiLSTM通过双向捕捉长距离依赖关系获取全局特征，局部特征有助于捕捉情感表达的细节，而全局特征有助于更好地理解整个文本的情感趋势和情感转变，并引入注意力机制，调整关键词权重，提高了情感分类的准确率。

附图说明

图1为本发明整体流程结构图

图2为BERT-WWM词嵌入结构图

图3为TextCNN卷积词向量说明图

图4为LSTM结构图

图5为BiLSTM结构图。

具体实施方式

下面结合实施例对本发明做进一步的描述。

以下实施例用于说明本发明，但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整，在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。

请参阅图1，本说明书实施例提供一种融合BERT-WWM与多特征的影评情感分析方法，包括以下步骤：

步骤一、获取影评数据，对数据进行预处理；

如首先从各大影视网站，论坛等爬取影评数据集，如豆瓣电影、腾讯视频、优酷视频和百度贴吧等，这些网站用户多，活跃程度高，能够获得充分量的数据。利用Python的Scrapy爬虫框架构建爬虫脚本，爬取数据后存储在MySQL数据库中。

由于原数据存在很多不规范的文本，所以要对其进行预处理，具体包括以下步骤：

1.清洗数据：部分用户的评论会添加特殊内容如emoji表情、图片、外文字符等，而在数据存储过程中由于字符编码的原因，导致这些内容变成乱码，因此需要将其去除；部分用户喜好“水贴”和“刷屏”，这些评论往往只有寥寥几字，并且和影视本身的内容毫无关系，因此也需要去除这些无意义评论；还有部分用户的评论过长，为方便模型的训练，去除了文本长度过长的数据。

2.平衡数据：为防止模型训练出现过拟合导致的评估失真现象，应确保正负样本的数量相对平衡，因此使用欠采样、重采样等方法增删正负样本，避免模型偏向某个类别。

3.数据标注：按照评论情感的正负进行人工标注，具体为积极情感文本标注为1，消极情感标注文本标注为0。

4.数据划分：将数据集按照一定比例划分为训练集、验证集和测试集，一般为6:2:2。

步骤二、词向量转化。

针对中文文本，本发明采用BERT-WWM模型将文本转为词向量。相较于BERT模型，BERT-WWM在预训练时使用了全词掩码策略。中文以词为基本语言单位，一个词由一个或多个字符组成，而英文是以单词为基本单位，并且单词之间存在空格，因此英文分词更加容易，相比之下，中文边界模糊，词的组成不固定，若直接使用BERT模型，则在分词时会以字粒度进行切分，在生成预训练训练样本时，这些被分开的字会随机被mask。例如文本“我喜欢看喜剧片”，BERT模型分词成“‘我’‘喜’‘欢’‘看’‘喜’‘剧’‘片’”，在掩码训练时，会随机掩码为“我[mask]欢看[mask]剧片”，如此就导致词信息的丢失。BERT-WWM模型在切分文本时，以词粒度进行切分，如上述文本切分为“‘我’‘喜欢’‘看’‘喜剧片’”，而后预训练时，会对组成同一个词的字全部进行mask，即全词掩码，如“我[mask][mask]看[mask][mask][mask]”,因此BERT-WWM模型能够更好地捕捉中文文本词级别的语义。

BERT-WWM词向量转化流程结构如图2所示。原文本会加上[CLS]和[SEP]符号分别作为文本开始与结束的标志，首先进入Embedding层，其由Token Embedding词嵌入、Segment Embedding段落嵌入和Position Embedding位置嵌入组成。其中Token Embedding将文本每个词(token)映射为简单的、固定维度的向量表示，Segment Embedding标记文本中的不同段落(示例中只有一段文字)，Position Embedding将位置信息嵌入到词中，最后将三层向量会按元素相加，形成最终的输入向量。设句子序列为s＝{c₁,c₂,…,c_n}，其中c_i表示句子的第i个词，词嵌入向量公式如下：

E_i＝E^Token(c_i)+E^Segment(c_i)+E^Position(c_i).

之后进入Transformer层，采用双向Transformer编码器构成，其核心是自注意力机制，每个词向量考虑上下文信息，从而对不同词向量分配不同权重，以便更好地捕捉单词之间的依赖关系。词嵌入向量经过Transformer层后，输出语义丰富的词向量，公式如下：

a_i＝Transformer(E_i).

步骤三、特征提取。

本发明采用TextCNN模型提取局部特征，如图3所示，通过卷积核的大小不同来获取不同距离的词向量特征信息，从而提取到局部特征。大小为m的卷积核的特征计算公式如下：

x_i＝ReLU(Ua_i:i+m-1+b).

其中U为对应的权重矩阵，b为偏置，a_i表示第i个词向量，a_i:i+m-1表示第i个词向量到第i+m-1个词向量的拼接向量，使用ReLU函数激活，输出卷积值。

步长设为1，则对于n个词向量序列滑动卷积核共生成n-m+1个卷积值，由此可得该卷积核对应的局部特征向量w＝{x₁,x₂,…,x_n-m+1}。计算输出所有k个卷积核对应的局部特征向量w₁,w₂,…,w_k。

采用BiLSTM模型提取全局特征，相较于LSTM无法编码从后到前的信息，BiLSTM采用双向LSTM，按照时间步来捕获过去和未来的词向量状态和长距离依赖关系，从而提取到全局特征。LSTM内部结构如图4所示，其中a_i表示输入的词向量，I_i，F_i，O_i分别表示输入门、遗忘门和输出门，c_i表示新细胞信息，c_i-1是上一个LSTM细胞信息，c表示候选细胞信息，h_i是本LSTM的状态输出，h_i-1是上一个LSTM的状态输出，σ是sigmoid激活函数，各门公式如下：

I_i＝σ(W_I[h_i-1,a_i]+b_I)

F_i＝σ(W_F[h_i-1,a_i]+b_F)

O_i＝σ(W_O[h_i-1,a_i]+b_O)

h_i＝O_itanh(c_i).

其中W,b为权重矩阵和偏置。

通过连接双向LSTM构建BiLSTM，如图5所示，此时需要考虑正反方向问题，对于词向量序列，BiLSTM计算公式如下：

其中分别表示词向量a_i与/>经过LSTM计算得到的正向状态和词向量a_i与经过LSTM计算得到反向状态，之后将双向状态拼接得到词向量a_i对应的全局特征向量h_i。计算并输出所有的全局特征向量h₁,h₂,…,h_n。

步骤四、使用注意力机制优化特征。

一段影评文本往往一个关键词决定了情感基调，因此需要使用注意力机制提高权重，同时文本中也存在噪声干扰，也需要注意力机制降低权重。本发明在TextCNN通道和BiLSTM通道输出局部特征向量和全局特征向量后同时引入注意力机制，以计算并分配权重。

分别对每一个局部特征向量w和全局特征向量h使用注意力机制，公式如下：

α_i＝softmax(V_wtanh(Q_ww_i))(i＝1,2,…,k)

β_j＝softmax(V_htanh(Q_hh_j))(j＝1,2,…,n).

其中V_w，Q_w，V_h，Q_h为训练得来的权重矩阵，α_i，β_j分别为局部特征向量w_i和全局特征向量h_j对应的注意力权重分值，表示该向量的重要程度。

之后将权重与对应特征向量加权求和得出融合注意力机制的局部特征向量和全局特征向量，公式如下：

步骤五、融合特征向量，并输入到全连接层，使用Softmax函数进行情感分类，输出结果。

将TextCNN通道注意力加权后的局部特征向量e_w和BiLSTM通道加权后的全局特征向量e_h融合，得到文本最终情感特征向量，公式如下：

e＝[e_w；e_h].

最后将融合情感特征通过全连接层输出Softmax分类器运算得到最终情感预测y，取概率值最大的为预测结果，具体地，y∈(0,0.5)为消极，y∈[0.5,1)为积极，公式如下：

y＝softmax(Re+b_r).

其中，R为全连接层权重矩阵，b_r是偏置。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合BERT-WWM与多特征的影评情感分析方法，包括以下步骤：

步骤一、影评数据获取与数据预处理；

步骤二、将文本映射为词向量；

2.根据权利要求1所述的一种融合BERT-WWM与多特征的影评情感分析方法，其特征在于：所述步骤一中利用Python爬虫框架对影评网站、影视网站、论坛爬取文本数据并存储，对于原数据进行预处理，包括清洗数据、平衡数据、数据标注与数据划分。

3.根据权利要求1所述的一种融合BERT-WWM与多特征的影评情感分析方法，其特征在于：所述步骤二中：采用全词掩码预训练模型BERT-WWM将文本转化为词向量。

4.根据权利要求1所述的一种融合BERT-WWM与多特征的影评情感分析方法，其特征在于：所述步骤三中：对于局部特征提取，利用TextCNN模型通过卷积核对词向量序列计算，可得出当前卷积核对应的局部特征向量，计算输出所有大小不同的卷积核对应的局部特征向量；

5.根据权利要求1所述的一种融合BERT-WWM与多特征的影评情感分析方法，其特征在于：所述步骤四中：使用注意力机制优化局部、全局特征的权重，注意力机制可以用来增强重要信息的表达权重，从而更好地理解文本中的关键信息，分别对每一个局部特征向量和全局特征向量使用注意力机制，计算其对应的注意力权重分值，表示该向量的重要程度，之后将权重与对应特征向量加权求和得出融合注意力机制的局部特征向量和全局特征向量。

6.根据权利要求1所述的一种融合BERT-WWM与多特征的影评情感分析方法，其特征在于：所述步骤五中：将优化后的局部特征向量和全局特征向量融合为一个强语义的特征向量，并将该特征向量输入至全连接层，使用Softmax函数得到预测概率分值，取概率值最大的为预测结果。