CN114692623A

CN114692623A - 一种环境类网络舆情的情感分析方法

Info

Publication number: CN114692623A
Application number: CN202210196099.1A
Authority: CN
Inventors: 孙加林; 范青武; 刘旭东
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-02-12
Filing date: 2022-02-12
Publication date: 2022-07-01

Abstract

一种环境类网络舆情的情感分析方法属于人工智能技术领域方法。具体包括以下步骤：首先将网络平台爬取到的网络舆情文本作为数据来源，使用舆情文本数据作为语料库对word2vec词向量模型进行重新训练，得到更加适用于环境类领域的词向量化模型。其次使用Word2vec文本向量化模型将文本表示为词向量，对词向量矩阵添加注意力机制，使用每个词在句子中拥有不同的权重。将添加注意力机制的词向量输入到特征提取层中进行特征提取，CNN具有提取局部特征，LSTM具有提取上下文特征的特点，将CNN和LSTN提取特征进行位置融合,最终实现文本的情感分类。该方法解决了现有模型在环境类舆情文本的情感分类中性能差、不适配的问题。

Description

一种环境类网络舆情的情感分析方法

技术领域

本发明涉及一种环境类舆情文本的情感倾向性分析方法，尤其涉及一种基于位置特征融合的环境类舆情文本的情感倾向性分析方法。

背景技术

随着近年来互联网的快速发展，网络社交平台成为民众交流和表达情感的热门渠道，民众乐于在社交媒体上发布自己感兴趣的内容。同时环境问题已成为现代社会普遍关心的问题，越来越多的民众通过网络社交平台曝光环境类污染现象。尽管我国有多种途径举报环境污染问题，但是如果民众举报污染问题未得到较好解决，民众会选择去公共网络社交媒体平台如：微信、微博、论坛曝光环境污染问题，引起网络民众的关注和讨论。以达到通过社会舆论来引起环保部门和政府的重视，以求尽快解决问题的目的。

网络社交评论是指民众在社交软件、互联网信息平台上传播的某一特定话题，网络民众对该话题带倾向性的讨论、意见、态度的总和。环境类社交评论的“发展”是伴随着事件在社交媒体上的曝光，大量感兴趣的网民进行转发评论，产生了大量包含网络民众意见、态度、观点的社交评论数据。由于网络社交媒体平台的开放性、自由性，如果任由环境类事件在网络上发展，很可能受到虚假信息影响，扰乱人们对事件的真实性的判断，发生网络社交评论灾难，反而不利于解决问题。社交评论中包含民众对该讨论事件的态度。情感倾向性分析就是分析正面、负面的情感极性，对环境类社交评论进行情感倾向性分析，方便环保部门更好的了解网民大众的意见、态度、情绪，有利于掌握事件的影响和未来可能的发展趋势，便于相关部门及时引导广大网民正确认识事件。所以提出一种环境类社交评论情感倾向性分析模型具有重要的现实意义。

综上所述，基于特征融合的环境类舆情文本的情感倾向性分析是一项创新的研究问题，具有重要的研究意义和应用价值。

发明内容

本发明的目的是及时了解民众的情感意向有利于引导决策。网络社交评论具有短文本、大噪声、领域性，针对环境类社交评论短文本特征提取不显著以及大噪声的问题。为了解决上述问题提出了一种位置特征融合方法，该方法引入词注意力机制，以增强句子中情感词的权重，同时弱化噪声词的影响，使用CNN和LSTM作为特征提取器，通过位置式融合方法融合CNN和LSTM提取到的特征。完成环境类舆情文本的情感倾向性分析。

一种基于位置特征融合的环境类舆情文本的情感倾向性分析方法，该方法步骤如下。

S1数据收集，对收集到的环境类网络舆情文本数据进行整理汇总。

S2对环境类舆情文本进行数据预处理。

S3将处理好的文本数据输入到Word2vec模型中进行词向量训练，并生成词向量。

S4对编码后的网络舆情文本数据进行词注意力机制。

S5对加入注意力机制的文本向量输入到CNN和LSTM中进行深层次的特征提取。

S6将特征提取器提取到的特征进行位置融合。

S7将融合后的特征输入到全连接层，得出分类结果。

附图说明

图1为基于位置特征融合的环境类舆情文本的情感倾向性分析方法具体细节示意图。

图2为CNN提取特征过程示意图。

图3为基于特征融合的环境类舆情文本的情感倾向性分析方法的流程图。

具体实施方式

本发明提出一种基于位置特征融合的环境类舆情文本的情感倾向性分析方法，方法的主要流程如附图3所示：

结合附图1和附图2详细说明本发明的具体实施方式：

在步骤S1中，获取来自网络平台的环境类舆情文本数据，如：微博、微信、贴吧等，通过预处理实现对网络舆情数据文本的提取，并构建得到数据集：S＝{s₁，s₂...s_a}表示数据集文本，其中a表示样本数量。一条文本数据集s₁表示为词的集合X^s＝{W₁，W₂，...，W_n}，其中n代表文本的长度，W_i，0≤i≤n为当前词语。y∈{0，1}为网络舆情文本的标签，其中 0代表消极的情感倾向，1代表正向的情感倾向。将数据集进行划分，随机抽取其中80％的数据用于模型的训练，20％用于模型的测试。

在步骤S2中，预处理主要包括舆情文本字段的提取、数据的清洗、去重、分词等，对一条文本数据s_i进行分词后被表示为词语集合：X^s＝{W₁，W₂，...，W_n}。其中X^s表示一条网络舆情文本数据词语的集合，W_i为该条文本数据经过分词后的第i个词语，其中n表示该条文本数据经过分词后词语的数量。即一个词汇可以表示为W_i，0≤i≤n。

在步骤S3中，使用大量环境类舆情文本数据对Word2vec模型进行从新训练。首先使用独热编码对每一条文本数据进行编码，Word2vec模型通过一个词语W_i的上下文作来预测词语本身。上下文窗口选取为3，表示对于词语W_i仅仅围绕前后的6个词语作为上下文词。输出则为预测词语W_i的独热编码。训练这个模型的时候使用反向传播的链式求导，最终便得到网络的权重V_m*d，其中，m为词库中词的数量，d为词向量的维度，d的取值d＝300。对于词语W_i的词嵌入表示

该词向量

就代表唯一词X_i。一条文本数据s的词嵌入表示为该条文本中词向量的集合，即s的词嵌入表示为：

n为一条文本中词的数量，经过大量数据统计，n大小满足概括95％的数据文本长度，对于大于长度n的文本进行截取舍弃，少于n的部分则补0处理。

在步骤S4中，对一条文本数据添加词注意力机制，使用注意力机制使得不同的词语用于不同的权重系数，为模型提供更加可靠的特征。

一条文本句子s经过预处理、分词之后表示为词的集合X^s＝{W₁，W₂，...，W_n}，其中W_i，0≤i≤n为句子s所包含的第i个词语，n为文本长度；词的集合X^s经过Word2vec词嵌入的序列词被映射为一个矩阵

其中

0≤i≤n表示第i个词向量，n为文本词语个数，d为词嵌入维度；注意力层的目的是给不同的词向量分配不同的权重值，为模型提供更加可靠的特征。词嵌入层添加词注意力的方式为：

X^att＝A_ωX^e (1)

输入词向量矩阵为

则添加了注意力的词向量矩阵X^att＝{x_att ¹，x_att ²，...，x_att ⁿ}，其中

是未添加注意力的词向量，n为文本长度，x_att ⁱ为添加了注意力的词向量；A_ω为权重向量。A_ω权重系数可通过以下过程计算得到：

其中输入X^e为词向量矩阵，W_ω，V为可学习的神经网络权重，b_ω为偏置。在模型开始训练前随机初始化，在模型训练阶段通过反向传播进行参数更新，通过多次迭代训练获得最优参数。A_ω表示上下文相关单词的权重系数，当词向量矩阵X^e乘以权重系数A_ω，得到添加了权重的词向量矩阵X^att。

在步骤S5中，将加入注意力机制的词向量矩阵X^att输入到CNN和LSTM模型当中去，提取文本的深层次特征，以用于位置特征融合，最终实现文本的分类。

局部特征提取层：设xⁱ是一条文本句子中第i个词对应的维度为d的向量，则长度为n的句子可以表示为：

这里的

起到每个词向量的连接操作，xⁱ为添加了注意力的词W_i的词向量表示，xⁱ，0≤i≤n构成卷积的词向量矩阵。使用x_j：j+k指代x_j，x_j+1，...x_j+k，则卷积操作包含一个滤波器W∈R^h×d，应用于一个h的窗口产生一个新特征，d为词向量的维度，h为过滤窗口的大小。在x_j：j+k一次卷积的输出特征c_j：

c_j＝f(W·X_j：j+h-1+b) (5)

这里W为权重矩阵，b为偏置项，W、b为可学习的神经网络参数，f是非线性激活函数sigmoid，c_j为第一个卷积步的输出，随着窗口滑动，得到如下窗口词 {X_1：h，X_2：h+1，...X_n-h+1：n}，进行卷积操作可得到{c₁，c₂，...c_n-h+1}，最终得到一个特征层C，C 由多个卷积步的输出{c₁，c₂，...c_n-h+1}构成。

C＝[c₁，c₂，...，c_n-h+1] (6)

池化层可以在不丢失重要的信息的情况下减小数据的维度。在卷积层后接入池化层减小了卷积窗口下数据量，同时保留了数据的特征。本方法池化方式采用最大值池化。池化方式如下：

代表这个卷积位置处获得的最重要的特征，其他的特征将会被过滤掉。c为多个卷积核在同一卷积步下的输出。池化过程如附图2所示池化部分，通过对不同特征层的相同位置进行池化操作，随着池化窗口的移动，得到了同样具有序列特征的文本特征向量 X^c，

n大小等于文本的长度。

序列特征提取层：LSTM作为RNN的进化版本，有效解决了RNN所带来的梯度消失问题。 LSTM拥有输入门、遗忘门、输出门保持和控制信息并且引入细胞状态，输入门决定上一时刻单元的状态有多少保留到当前时刻，遗忘门决定当前时刻网络的输入有多少保存到单元状态，输出门控制当前单元状态有多少输出到当前输出值；

该层的输入为X^att＝{x₁ ^att，x₂ ^att，...，x_n ^att}，输出为特征向量x^l。其中x_t ^att为T个时间步中第t个时间步的输入，对应于第t个词的注意向量。c_t为LSTM单元在t时刻的状态，h_t为t时间步的输出，计算过程如下式子：

其中f_t为遗忘门的输出，表示上一时刻单元的状态h_t-1和当前输入x_t ^att有多少选择性忘记。i_t为输入门，表示上一时刻单元的状态h_t-1和当前输入x_t ^att有多少保留到细胞状态。o_t为输出门，表示当前细胞状态c_t有多少输出到当前输出值h_t。

为细胞状态候选值，c_t为当前细胞状态，h_t为当前时刻输出。W_f，W_i，W_c，W_o为权重矩阵，b_f，b_i，b_c，b_o为权重参数，W，b 均为需要训练的参数。σ为sigmoid激活函数，tanh为双曲正切函数。最后一个时间步的输出h_n作为循环层的输出x^l，x^l输入到特征融合层完成特征融合。

步骤S6中所述的位置特征融合指的是使用最大值融合的方法实现对特征的融合，在特征融合时选择最大值作为特征输出。在CNN的池化阶段，对相同位置处的不同特征层进行池化，卷积得到的特征向量同样包含了文本的上下文特征。通过对CNN和LSTM提取特征进行融合，为分类任务提供更重要的特征。本文选择最大值融合的方法进行特征融合。最大融合方式：

x^f＝max(x^c，x^l) (9)

其中融合层的输入为卷积层输出特征向量x^c和循环层输出特征向量x^l，序列特征层 LSTM的输出同局部特征层输出具有相同的维度，通过在对应特征位置进行最大值融合获得文本中的强特征。输出为融合后的特征向量x^f。

步骤S7中，将特征融合后的融合特征x^f送入到输出层，之前的操作已经得到了文本中的特征，将融合得到的特征通过全连接层连接到sigmoid层。输出层是用于分类的sigmoid层，最终的输出结果代表的是文本的分类的概率。表示为：

其中W^T和b是全连接层的权重和偏置，

是预测的结果。sigmoid激活函数用于将分类的置信度分数归一化在0-1之间。模型网络预测结果是一个0-1的值。设定0.5为分类阈值，大于0.5认定为积极情感，小于0.5认定为消极情感。

使用交叉熵作为损失函数来计算实际标签与预测标签之间的差异：

y代表真实标签，

为预测文本的分类概率。

为了更好的评价本发明模型，分类模型的性能指标一般是分类准确率(Accuracy)、精准度(Precision)、召回率(Recall)、F1值等。准确率的定义是对于给定的数据，分类正确的样本数占总样本数的比例。表现为模型的总体性能，整体的评价Accuracy的计算公式为：

但是这一分类指标方法实际是非常不具有说服力的。对于二分类问题的评价指标还有使用精确(precision)和召回率(recall)。然而一般会去关注为正类的类，其他类为负类。

精准度：预测为正的样本共有多少是真实的正样本；

召回率：预测为正的样本中，占据正的样本的比例有多大；

F1值：精确率和召回率的调和平均。即：

或

本方法采用真实的环境类网络舆情文本，数据爬取自贴吧、论坛、微博。真实的环境类网络舆情数据共计59000条，其中标签为积极和消极的数据基本保持为1∶1，其中随机选择50000条数据用于模型训练，9000条数据用于模型的测试。

模型开始训练之前对神经网络权重和偏置进行随机初始化，模型训练中学习率lr＝0.001，迭代次数epochs＝30，批处理大小batch_size＝128，dropout＝0.2，优化器选择Adam。当2次迭代中验证集准确率(val_acc)或损失(loss)没有发生变化即可停止模型训练。

实验结果可以看出，本发明所提取的位置特征融合模型(PFF)性能优于对比模型，在准确率的指标上均高于其他方法，相比经典的机器学习算法有5％-13％的提升，深度学习在特征提取方面的具有较大优势。对比深度模型，PFF相较单一的CNN和LSTM模块有4％-6％的提升。对比添加了注意力机制的CNN-A和LSTM-A也有2％以上的提升。A-LSTM和A-CNN是添加词注意力机制的CNN和LSTM模型，PFF高于A-LSTM和A-CNN的性能表现，说明特征融合对于性能提升的重要性。结果显示本方法PFF模型在环境类社交评论情感分析任务中优于对比模型，能够完成情感分类任务。

综上所述，本方法能够很好的提取文本特征，实现特征融合，可以很好的完成舆情情感倾向性分析任务。

Claims

1.一种环境类网络舆情的情感分析方法，具体步骤如下：

S1数据收集，对收集到的环境类网络舆情文本数据进行整理汇总；

S2对环境类舆情文本进行数据预处理，包括：分词、去停用词；

S3将处理好的文本数据输入到Word2vec模型中进行词向量训练，并生成词向量；

S4对编码后的网络舆情文本进行词注意力机制；

S5对加入注意力机制的文本向量输入到CNN和LSTM中进行深层次的特征提取；

S6将特征提取器提取到的特征进行位置融合；

S7将融合后的特征输入到全连接层，得出分类结果；

其特征在于：

在步骤S1中，获取来自网络平台的环境类舆情文本数据，通过预处理实现对网络舆情数据文本的提取，并构建得到数据集：S＝{s₁，s₂...s_a}表示数据集文本，a表示样本数量；一条文本数据集s₁表示为词的集合X^s＝{W₁，W₂，...，W_n}，n代表文本的长度，W_i，0≤i≤n为当前词语；y∈{0，1}为网络舆情文本的标签，其中0代表消极的情感倾向，1代表正向的情感倾向；将数据集进行划分，随机抽取其中80％的数据用于模型的训练，20％用于模型的测试；

在步骤S2中，预处理包括舆情文本字段的提取、数据的清洗、去重、分词，对一条文本数据s_i进行分词后被表示为词语集合：X^s＝{W₁，W₂，...，W_n}；其中X^s表示一条网络舆情文本数据词语的集合，W_i为该条文本数据经过分词后的第i个词语表示为W_i，0≤i≤n，其中n表示该条文本数据经过分词后词语的数量；

使用大量环境类舆情文本数据对Word2vec模型进行训练；首先使用独热编码对每一条文本数据进行编码，Word2vec模型通过一个词语W_i的上下文作来预测词语本身；上下文窗口选取为3，表示对于词语W_i仅仅围绕前后的6个词语作为上下文词；输出则为预测词语W_i的独热编码；训练这个模型的时候使用反向传播的链式求导，最终便得到网络的权重V_m*d，其中，m为词库中词的数量，d为词向量的维度；对于词语W_i的词嵌入表示

该词向量

就代表唯一词X_i；一条文本数据s的词嵌入表示为该条文本中词向量的集合，即s的词嵌入表示为：

n为一条文本中词的数量，n大小满足概括95％的数据文本长度，对于大于长度n的文本进行截取舍弃，少于n的部分则补0处理。

2.根据权利要求1所述的分析方法，其特征在于：

在步骤S4中，对词嵌入矩阵添加注意力机制，矩阵中的向量为一个词语的向量化表示，使用注意力机制使得不同的词语用于不同的权重系数，为模型提供更加可靠的特征；

词向量矩阵添加词注意力的方式为：

X^att＝A_ωX^e (1)

输入

是未添加注意力的词向量，n为文本长度，x_att ⁱ为添加了注意力的词向量；A_ω为权重向量；A_ω通过以下过程计算得到：

p＝tanh(W_ωX^e+b_ω) (2)

这里X^e为词向量矩阵，W_ω，V为可学习的神经网络权重，b_ω为偏置；在模型开始训练前随机初始化，在模型训练阶段通过反向传播进行参数更新，通过训练获得最优参数；A_ω表示上下文相关单词的权重系数，当词向量矩阵X^e乘以权重系数A_ω，得到添加了权重的词向量矩阵X^att。

3.根据权利要求1所述的分析方法，其特征在于：

在步骤S5中，加入注意力机制的词向量矩阵X^att输入到CNN和LSTM模型当中去，提取文本的深层次特征，以用于位置特征融合，最终实现文本的分类；

局部特征提取层：设xⁱ是一条文本句子中第i个词对应的维度为d的向量，则长度为n的句子表示为：

这里的

起到每个词向量的连接操作，xⁱ是添加了注意力的词W_i的词向量表示，xⁱ，0≤i≤n构成卷积的词向量矩阵；使用x_j：j+k指代x_j，x_j+1，...x_j+k，则卷积操作包含一个滤波器W∈R^h×d，应用于一个h的窗口产生一个新特征，d为词向量的维度，h为过滤窗口的大小；在x_j：j+k一次卷积的输出特征c_j：

c_j＝f(W·X_j：j+h-1+b) (5)

这里W为权重矩阵，b为偏置项，W、b为可学习的神经网络参数，f是非线性激活函数sigmoid，c_j为第一个卷积步的输出，随着窗口滑动，得到如下窗口词{X_1：h，X_2：h+1，...X_n-h+1：n}，进行卷积操作得到{c₁，c₂，...c_n-h+1}，最终得到一个特征层C，C由多个卷积步的输出{c₁，c₂，...c_n-h+1}构成；

C＝{c₁，c₂，...，c_n-h+1} (6)

在卷积层后接入池化层减小了卷积窗口下数据量；池化方式采用最大值池化；池化方式如下：

代表这个卷积位置处获得的最重要的特征，其他的特征将会被过滤掉；c为多个卷积核在同一卷积步下的输出；通过对不同特征层的相同位置进行池化操作，随着池化窗口的移动，得到了同样具有序列特征的文本特征向量X^c，

其中向量的维度为n，n大小等于文本的长度；

序列特征提取层：LSTM拥有输入门、遗忘门、输出门保持和控制信息并且引入细胞状态；该层的输入为X^att＝{x₁ ^att，x₂ ^att，...，x_n ^att}，输出为特征向量x^l；其中x_t ^att为T个时间步中第t个时间步的输入，对应于第t个词的注意向量；c_t为LSTM单元在t时刻的状态，h_t为t时间步的输出，计算过程如下式子：

其中f_t为遗忘门的输出，表示上一时刻单元的状态h_t-1和当前输入x_t ^att有多少选择性忘记；i_t为输入门，表示上一时刻单元的状态h_t-1和当前输入x_t ^att有多少保留到细胞状态；o_t为输出门，表示当前细胞状态c_t有多少输出到当前输出值h_t；

为细胞状态候选值，c_t为当前细胞状态，h_t为当前时刻输出；W_f，W_i，W_c，W_o为权重矩阵，b_f，b_i，b_c，b_o为权重参数，W，b均为需要训练的参数；σ为sigmoid激活函数，tanh为双曲正切函数；最后一个时间步的输出h_n作为循环层的输出x^l，x^l输入到特征融合层完成特征融合。

4.根据权利要求1所述的分析方法，其特征在于：

步骤S6所述的位置特征融合指的是使用最大值融合的方法实现对特征的融合，在特征融合时选择最大值作为特征输出；通过对CNN和LSTM提取特征进行融合，为分类任务提供更重要的特征；选择最大值融合的方法进行特征融合；最大融合方式：

x^f＝max(x^c，x^l) (9)

其中融合层的输入为卷积层输出特征向量x^c和循环层输出特征向量x^l，序列特征层LSTM的输出同局部特征层输出具有相同的维度，通过在对应特征位置进行最大值融合获得文本中的强特征；输出为融合后的特征向量x^f。

5.根据权利要求1所述的分析方法，其特征在于：

步骤S7中，将特征融合后的融合特征x^f送入到输出层，之前的操作已经得到了文本中的特征，将融合得到的特征通过全连接层连接到sigmoid层；输出层是用于分类的sigmoid层，最终的输出结果代表的是文本的分类的概率；表示为：

其中W^T和b是全连接层的权重和偏置，

是预测的结果；sigmoid激活函数用于将分类的置信度分数归一化在0-1之间；模型网络预测结果是一个0-1的值；设定0.5为分类阈值，大于0.5认定为积极情感，小于0.5认定为消极情感；

y代表真实标签，

为预测文本的分类概率。