CN116578705A

CN116578705A - 基于预训练语言模型与集成神经网络的微博情感分类方法

Info

Publication number: CN116578705A
Application number: CN202310553306.9A
Authority: CN
Inventors: 陈红阳; 邓剑勋; 刘明
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-11

Abstract

本发明公开了基于预训练语言模型与集成神经网络的微博情感分类方法，涉及情感分析技术领域。本发明至少包括以下步骤：S1：建立由数据来源、数据集划分和微博文本数据预处理组成的输入层；S2：通过构建微博文本情感特征向量和基于Bert与ERNIE模型训练生成动态字，词向量构成的融合Bert与ERNIE模型的词嵌入层。本发明中所公开的方法，在微博文本向量化表示以及情感分类模型构建等两方面做了改进，分别设计了融合Bert、Ernie预训练语言模型与情感信息的微博文本特征向量表示方法以及基于集成神经网络的情感分类模型。

Description

基于预训练语言模型与集成神经网络的微博情感分类方法

技术领域

本发明涉及情感分析技术领域，具体为基于预训练语言模型与集成神经网络的微博情感分类方法。

背景技术

微博是一个基于用户关系的社交媒体平台，通过该平台用户以文字、图片、视频等多媒体形式，随时随地发布自己日常生活中的所见、所闻、所感，表达自身的喜怒哀乐，从而实现信息的及时分享、传播互动。而随着用户数量的日渐增长，微博平台中的信息呈现爆炸式的增长态势，致使人们淹没在信息的海洋中。然而，这些微博信息饱含着用户的情感信息，若采用有效技术手段加以处理，将会具有重大的社会价值。在此背景下，微博文本情感分析技术应运而生，主要是以微博短文本为处理对象，分析文本中蕴含的用户情感倾向，即是正向的情感倾向抑或为负向的情感倾向。

目前，基于深度学习实现微博情感分析成为主流的情感分析技术，深受研究者的青睐。它主要分为微博文本预处理，词向量训练与文本向量化表示，情感分类模型构建等环节。

在词向量训练与文本向量化方面，研究者们多采用像Bert，Ernie等预训练语言模型进行词向量训练以生成上下文相关的动态词向量，有效解决了基于Word2vec的静态词向量存在的一词多义问题，进而更好表示文本向量，为情感分类模型输送优质的数据。

然而，基于Bert预训练语言模型的词向量训练方法主要是以字为粒度进行词向量模型训练，得到融合上下文语义信息的词向量，但却不一定能有效提高基础语义单元的信息表示；基于Ernie预训练语言模型的词向量训练方法主要是以词为粒度训练，得到的则是融合词语，实体先验知识的词向量，具有更强的语义信息表达能力，但会忽略词间字的相关信息。

在文本情感分类模型构建层面，多数采用单个深度学习算法(如RNN,CNN,BLISTM与GRU等)结合微博数据构建情感分类模型，也有采用集成学习方法将传统机器学习算法与深度学习算法融合起来构建情感分类模型的，然而基于单个深度学习算法构建的情感分类器运用于文本情感分类时效果不如基于集成学习方法构建的强分类器；而且这些集成学习算法未能充分利用多个深度学习算法的优点构建性能更佳的情感分类器，也忽略了单个文本被各个基分类器分类正确的概率，因此，本发明提出基于预训练语言模型与集成神经网络的微博文本情感分类方法，以期进一步提升微博文本情感分类准确率，有效改善情感分类效果。

发明内容

本发明的目的在于提供基于预训练语言模型与集成神经网络的微博情感分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

基于预训练语言模型与集成神经网络的微博情感分类方法，至少包括以下步骤：

S1：建立由数据来源、数据集划分和微博文本数据预处理组成的输入层；

S2：通过构建微博文本情感特征向量和基于Bert与ERNIE模型训练生成动态字，词向量构成的融合Bert与ERNIE模型的词嵌入层；

S3：建立特征学习层，执行各基分类器学习文本初始特征、获取文本被各基分类器分类正确的概率向量和以权重投票方式集成融合初始特征形成最终文本特征；

S4：建立情感分类层，在上述步骤中学习得到微博文本特征后，通过连接softmax层计算文本隶属于正负情感类别的概率值，然后选择概率值大的情感类别作为文本的情感标签；

S5：进行情感分类模型训练；

S6：进行情感分类模型评估，采用准确率、召回率及F1值等作为微博情感分类的评价指标，将测试数据集作用于通过上述步骤S5所构建的情感分类模型，观测融合预训练语言模型Bert与Ernie的文本向量表示方法，以及基于集成神经网络的情感分类模型对微博文本情感分析的影响，并与传统的文本向量化表示方法及情感分类方法做对比分析。

优选的，所述数据来源的数据包含两部分来源，第一部分是COAE2014提供的用于研究中文微博情感分析技术的公开数据集；第二部分是采用python编写网络爬虫爬取微博平台中的微博评论数据；

所述数据集划分为将数据来源中收集到的分数据集进行合并获得含正负情感标签的微博数据集，将正向微博评论提出后，然后随机打乱数据集，并以8：1：1比例对其进行训练、测试与数据集的划分。

优选的，所述微博文本数据预处理为先进行文本噪声滤除，分词，停用词去除等操作，后采用截长补短方式将每条文本处理为等长的句子，最后形成输入层的数据集Z＝(Z₁，Z₂，...，Z_i，...，Z_N)，(1≤i≤N)；

式中的N为数据集中文本的总数；

Z_i为第i条微博文本的表示，即Z_i＝(z_i1，z_i2，...，z_ij，...，z_in)，其中z_ij表示当前文本中的第j个字；

n为文本中总字数，即文本长度。

优选的，所述构建微博文本情感特征向量至少包括以下步骤：

根据已有的情感词典以及网络搜集的方式实现微博领域情感词典构建；

将情感词划分7类：正向情感词、负向情感词、否定词、程度副词、连词、主张词与标点符号等；

采用类one-hot编码方法将文本中每个词表示为含7维的情感特征向量，其中每一维表示这7类词语中的一类词语；

针对微博文本d_k(1≤k≤K)，计算每一个特征词term_i(1≤i≤n)的情感特征向量，见式如下：

e′_i＝ww_i*(e_i1，e_i2，...，e_ij，...，e_i7)，(1≤j≤7)

该式中，K为微博文本总数，n为微博文本d_k中特征词总个数，e′_i表示第i个特征词的情感特征向量，e_ij取值为0或1，依赖于特征词term_i是否属于第j类词语，而ww_i为特征词term_i的情感特征向量所赋予的权重；

将微博文本d_k中的所有特征词term_i对应的新特征向量进行叠加，从而获取微博文本情感特征向量S_k，见式如下：

S_k＝(e′₁，e′₂，...，e′_i，...，e′_n)。

优选的，所述基于Bert与ERNIE模型训练生成动态字，词向量的执行过程至少包括以下步骤：

将输入层数据集中的每条微博文本分别送入预训练语言模型Bert与ERNIE中，获取Bert词向量矩阵B与ERNIE词向量矩阵E，具体见下述公式所示；

B＝[B₁，B₂，...，B_K，...，B_N]

式中，B_K为第k条微博文本经Bert模型得到的词向量矩阵，即包含了n个词语对应的词向量，且词向量的维度为m，具体见下式；

式中，表示BERT词向量矩阵中第1个词语对应的词向量，b_1j则为该词向量中的第j维数值，且1≤j≤m；

E＝[E₁，E₂，...，E_K，...，E_N]

式中，E_K为第k条微博文本经ERNIE模型得到的词向量矩阵，即包含了n个词语对应的词向量，且词向量的维度为m，具体见下式；

式中，表示ERNIE词向量矩阵中第1个词语对应的词向量，e_1j则为该向量中的第j维数值，且1≤j≤m；

获取融合Bert与ERNIE模型的将微博文本的Bert词向量矩阵B与ERNIE词向量矩阵E以及情感特征向量S_K进行拼接形成融合Bert与ERNIE模型的词向量来表示文本初始特征向量W，并作为词嵌入层的内容，具体见下式；

W＝[B₁+E₁+S₁，B₂+E₂+S₂，...，B_K+E_K+S_K，...，B_N+E_N+S_N]

在式中，B_K+E_K+S_K∈R^n，2m+7表示第k条微博文本经Bert与ERNIE模型得到的词向量矩阵以及情感特征向量之间的拼接，具体见下式；

优选的，所述各基分类器学习文本初始特征至少包括以下步骤：结合微博文本数据，分别使用TextCNN，BiLSTM，BiLSTM+Attention，RCNN以及DPCNN等神经网络算法训练生成情感分类器，并将其作为集成学习方法中的基分类器；

将每一条微博文本通过输入层，词嵌入层得到的微博文本特征向量分别送入上述各基分类器中，以从微博文本中学习不同的有助于情感分类的初始特征W1，W2，W3，W4，W5；

所述获取文本被各基分类器分类正确的概率向量至少包括以下步骤：

构建一个多层感知机，所述多层感知机包含1个输入层，2个隐藏层，1个全连接层和1个softmax层；

针对某个微博文本，将其按照步骤S2生成对应的文本特征向量作为多层感知机的输入数据，经过学习，最终获取当前微博文本被各个基分类器分类正确的概率向量见如下公式：

在式中，P₁，P₂，P₃，P₄，P₅表示当前微博文本被各基分类器分类正确的概率值；

所述以权重投票方式集成融合初始特征形成最终文本特征至少包括以下步骤：

将当前微博文本特征向量通过多层感知机获得的概率向量作为各基分类器学习得到的文本初始特征的权重值，并对其进行加权求和得到最终文本特征W′，见公式如下：

W′＝(P₁*W₁+P₂*W₂+P₃*W₃+P₄*W₄+P₅*W₅)。

优选的，所述S4的公式表示如下：

P＝soft max(AW′+b)

在式中，A为参数权重矩阵，B为偏置矩阵。

优选的，所述S5至少包括以下步骤：

结合训练数据集采用有监督学习方式实施情感分类模型的训练过程，并在此过程中实现对Bert与ERNIE预训练模型的微调，使得获取的文本向量更好地适应下游的情感分类任务；

为了减少训练样本情感标签预测值与真实值之间的误差，采用分类问题中常用的损失函数-交叉熵函数作为损失函数，以此来度量与优化情感分类模型的效果，并运用反向传播算法训练与更新模型中的参数，交叉熵损失函数定义为如下公式所示：

在式中，为训练数据集中所有微博样本的损失值，主要采用mini-batch梯度下降优化算法求得最小损失值；为样本总数，为第条样本的表示，为当前微博文本的真实情感标签值，而则表示文本经分类模型预测的情感标签值。

与现有技术相比，本发明的有益效果是：

1、本发明的情感分类方法，主要在微博文本向量化表示，以及情感分类模型构建等两方面做了改进，分别设计了融合Bert、Ernie预训练语言模型与情感信息的微博文本特征向量表示方法，以及基于集成神经网络的情感分类模型；

2、本发明提出了一种融合预训练语言模型Bert，Ernie与情感信息的微博文本特征向量表示方法。该方法首先基于程度副词、连词、转折词等信息构建微博领域情感词典，并对情感词典中的词进行分类，同时设计词语的情感特征向量计算规则，以获取微博文本情感特征向量表示；其次结合微博数据集，基于预训练语言模型Bert与Ernie训练生成蕴含上下文信息的动态字向量，以及短语与实体先验知识信息的动态词向量；最后将字，词向量与情感特征向量拼接融合形成具有丰富语义信息与情感信息的文本特征向量表示微博文本，使用该方法构建的文本特征向量蕴含了丰富的语义信息与情感信息，进一步增强了文本的语义表达能力，使得文本表示的准确性得到进一步提升，为情感分类模型提供了优质的输入数据，有助于提高情感分类的准确性；

3、本发明提出了一种基于集成神经网络的文本情感分类模型，它首先结合微博数据，运用单个深度学习算法训练生成若干个基分类器；其次，引入多层感知机(MLP)设置基分类器的权重，获取每个样本被各个基分类器分类正确的概率值；然后，采用集成学习策略集成各基分类器的输出结果；最后，连接softmax层获取文本情感标签，从而实现文本情感分类，该方法基于深度学习算法，结合微博文本数据训练生成了高效的单个情感分类器；并采用集成学习策略融合基分类器的优点，同时考虑适合文本分类的最佳基分类器，因而可以更好地提升文本情感分类准确率，进而改善微博文本情感分类效果，实验结果表明，相较于其他方法，该方法在准确率，召回率与F1值等性能评价指标上进一步地提升了约1.10％～5.85％。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于预训练语言模型与集成神经网络的微博文本情感分类模型结构图；

图2为本发明多层感知机的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

请参阅图1，基于预训练语言模型与集成神经网络的微博情感分类方法，至少包括以下步骤：

S5：进行情感分类模型训练；

数据来源的数据包含两部分来源，第一部分是COAE2014提供的用于研究中文微博情感分析技术的公开数据集，该数据集中包含了关于20个事件的微博评论数据集，且数据已标注好情感标签，从中抽选32000条数据；第二部分是采用python编写网络爬虫爬取新浪微博平台中2021年10月-12月期间十多个热点话题(如“空气炸锅健康吗”、“如何看待中国电影”等)的微博评论数据，在进行预处理与人工标注情感后得到7326条；

数据集划分为将数据来源中收集到的分数据集进行合并以形成39326条获得含正负情感标签的微博数据集，将正向微博评论提出后，其中正向微博评论20000条；然后随机打乱数据集，并以8:1:1比例对其进行训练、测试与数据集的划分。

微博文本数据预处理为先进行文本噪声滤除，分词，停用词去除等操作，后采用截长补短方式将每条文本处理为等长的句子，最后形成输入层的数据集Z＝(Z₁，Z₂，...，Z_i，...，Z_N)，(1≤i≤N)；

式中的N为数据集中文本的总数；

n为文本中总字数，即文本长度。

构建微博文本情感特征向量至少包括以下步骤：

根据已有的情感词典(如知网情感词典，大连理工大学中文词汇情感本体库，清华大学中文褒贬义词典等)以及网络搜集的方式实现微博领域情感词典构建，主要形成以下几类情感词典：基础情感词典、否定词词典、程度副词词典、连词词典、主张词词典、标点符号词典及网络情感词典；

e′_i＝ww_i*(e_i1，e_i2，...，e_ij，...，e_i7)，(1≤j≤7)

S_k＝(e′₁，e′₂，...，e′_i，...，e′_n)。

基于Bert与ERNIE模型训练生成动态字，词向量的执行过程至少包括以下步骤：

B＝[B₁，B₂，...，B_K，...，B_N]

E＝[E₁，E₂，...，E_K，...，E_N]

W＝[B₁+E₁+S₁，B₂+E₂+S₂，...，B_K+E_K+S_K，...，B_N+E_N+S_N]

各基分类器学习文本初始特征至少包括以下步骤：结合微博文本数据，分别使用TextCNN，BiLSTM，BiLSTM+Attention，RCNN以及DPCNN等神经网络算法训练生成情感分类器，并将其作为集成学习方法中的基分类器；

请参阅图2，获取文本被各基分类器分类正确的概率向量至少包括以下步骤：

构建一个多层感知机，简称MLP，多层感知机包含1个输入层，2个隐藏层，1个全连接层和1个softmax层；

在式中，P₁，P₂，P₃，P₄，P₅表示当前微博文本被各基分类器分类正确的概率值，即适用于各个基分类器分类获得较好分类性能的概率值；

以权重投票方式集成融合初始特征形成最终文本特征至少包括以下步骤：

W′＝(P₁*W₁+P₂*W₂+P₃*W₃+P₄*W₄+P₅*W₅)。

S4的公式表示如下：

P＝soft max(AW′+b)

在式中，为A参数权重矩阵，B为偏置矩阵。

S5至少包括以下步骤：

为了减少训练样本情感标签预测值与真实值之间的误差，采用分类问题中常用的损失函数－交叉熵函数作为损失函数，以此来度量与优化情感分类模型的效果，并运用反向传播算法训练与更新模型中的参数，交叉熵损失函数定义为如下公式所示：

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.基于预训练语言模型与集成神经网络的微博情感分类方法，其特征在于：至少包括以下步骤：

S5：进行情感分类模型训练；

S6：进行情感分类模型评估，采用准确率、召回率及F1值作为微博情感分类的评价指标，将测试数据集作用于通过上述步骤S5所构建的情感分类模型，观测融合预训练语言模型Bert与Ernie的文本向量表示方法，以及基于集成神经网络的情感分类模型对微博文本情感分析的影响，并与传统的文本向量化表示方法及情感分类方法做对比分析。

2.根据权利要求1所述的基于预训练语言模型与集成神经网络的微博情感分类方法，其特征在于：所述数据来源的数据包含两部分来源，第一部分是COAE2014提供的用于研究中文微博情感分析技术的公开数据集；第二部分是采用python编写网络爬虫爬取微博平台中的微博评论数据；

所述数据集划分为将数据来源中收集到的分数据集进行合并获得含正负情感标签的微博数据集，将正向微博评论提出后，然后随机打乱数据集，并以8:1:1比例对其进行训练、测试与数据集的划分。

3.根据权利要求2所述的基于预训练语言模型与集成神经网络的微博情感分类方法，其特征在于：

所述微博文本数据预处理为先进行文本噪声滤除，分词，停用词去除操作，后采用截长补短方式将每条文本处理为等长的句子，最后形成输入层的数据集Z＝(Z₁,Z₂,...,Z_i,...,Z_N)，(1≤i≤N)；

式中的N为数据集中文本的总数；

Z_i为第i条微博文本的表示，即Z_i＝(z_i1,z_i2,...,z_ij,...,z_in)，其中z_ij表示当前文本中的第j个字；

n为文本中总字数，即文本长度。

4.根据权利要求1所述的基于预训练语言模型与集成神经网络的微博情感分类方法，其特征在于：所述构建微博文本情感特征向量至少包括以下步骤：

将情感词划分7类：正向情感词、负向情感词、否定词、程度副词、连词、主张词与标点符号；

e′_i＝ww_i*(e_i1,e_i2,...,e_ij,...,e_i7)，(1≤j≤7)

该式中，K为微博文本总数，n为微博文本d_k中特征词总个数，e'_i表示第i个特征词的情感特征向量，e_ij取值为0或1，依赖于特征词term_i是否属于第j类词语，而ww_i为特征词term_i的情感特征向量所赋予的权重；

S_k＝(e'₁，e'₂,...,e'_i,...,e'_n)。

5.根据权利要求1所述的基于预训练语言模型与集成神经网络的微博情感分类方法，其特征在于：所述基于Bert与ERNIE模型训练生成动态字，词向量的执行过程至少包括以下步骤：

B＝[B₁,B₂,…，B_K,…，B_N]

式中，表示BERT词向量矩阵中第1个词语对应的词向量，/>则为该词向量中的第j维数值，且1≤j≤m；

E＝[E₁,E₂,…，E_K,…，E_N]

W＝[B₁+E₁+S₁,B₂+E₂+S₂,…，B_K+E_K+S_K,…，B_N+E_N+S_N]

在式中，B_K+E_K+S_K∈R^n,2m+7表示第k条微博文本经Bert与ERNIE模型得到的词向量矩阵以及情感特征向量之间的拼接，具体见下式；

6.根据权利要求1所述的基于预训练语言模型与集成神经网络的微博情感分类方法，其特征在于：所述各基分类器学习文本初始特征至少包括以下步骤：

结合微博文本数据，分别使用TextCNN，BiLSTM，BiLSTM+Attention，RCNN以及DPCNN神经网络算法训练生成情感分类器，并将其作为集成学习方法中的基分类器；

将每一条微博文本通过输入层，词嵌入层得到的微博文本特征向量分别送入上述各基分类器中，以从微博文本中学习不同的有助于情感分类的初始特征W1,W2,W3,W4,W5；

将当前微博文本特征向量通过多层感知机获得的概率向量作为各基分类器学习得到的文本初始特征的权重值，并对其进行加权求和得到最终文本特征W'，见公式如下：

W'＝(P₁*W₁+P₂*W₂+P₃*W₃+P₄*W₄+P₅*W₅)。

7.根据权利要求1所述的基于预训练语言模型与集成神经网络的微博情感分类方法，其特征在于：所述S4的公式表示如下：

P＝softmax(AW'+b)

在式中，A为参数权重矩阵，b为偏置矩阵。

8.根据权利要求1所述的基于预训练语言模型与集成神经网络的微博情感分类方法，其特征在于：所述S5至少包括以下步骤：