CN114936283B

CN114936283B - 一种基于Bert的网络舆情分析方法

Info

Publication number: CN114936283B
Application number: CN202210539480.3A
Authority: CN
Inventors: 颜凯; 董茜; 徐旭光; 鲁晓倩; 钟梅
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-12-26
Anticipated expiration: 2042-05-18
Also published as: CN114936283A

Abstract

本发明属于大数据技术领域，具体涉及一种基于Bert的网络舆情分析方法。本发明主要是针对传统方法复杂度高的问题，提出了的可提升分析效率的方法，主本发明的Bert为只有编码器的Transformer，将输入的文本序列映射到查询、键、值三个空间，得到查询向量、键向量和值向量，然后对每一个查询向量，使用Softmax指数归一化函数作用在查询向量与键向量的内积上得到编码向量，再将编码向量输入训练好的分类器即可获得识别结果。

Description

一种基于Bert的网络舆情分析方法

技术领域

本发明属于大数据技术领域，具体涉及一种基于Bert的网络舆情分析方法。

背景技术

舆情的全称是“舆论情况”，是民意的一种综合反应。舆情往往反映了在事件特别是公共事件发生、发展和变化过程中，民众所持的社会态度。随着互联网技术的不断发展，舆论信息的传播方式发生了根本的改变。当前主要的舆情传播方式主要以社交网络平台，如微博、知乎、今日头条等，以用户信息、用户关系、平台导流等方式迅速进行传播。用户评论语言的情感分析对预防公共突发事件预警和社会公共事件的应急响应具有非常重要的意义。

目前，应用较为广泛的网络舆情情感分析方法有基于NLP分析方法、RNN或TextCNN分析方法等。NLP分析方法是一种基于监督学习的方法，网络舆情情感分析的准确度受模型训练样本质量的影响较大，当样本数据量较少或者噪声过大时，采用该方法模型的预测准确性较低。采用RNN或TextCNN方法，仅考虑输出层，而忽略了文本之间的上下文关系，预测准确性有待提高，且无法并行进行计算，算法的效率较低。在这种情况下，需要寻找一种全新的方法，能快速、准确的分析出网络舆情的情感分析倾向。

发明内容

本发明的目的是，针对上述问题，提出了一种利用Bert进行网络舆情的情感分析方法。该方法旨在提高情感分析的准确性并进一步提升分析效率。

本发明的技术方案是：

一种基于Bert模型的网络舆情分析方法，包括以下步骤：

S1、获取与网络舆情相关的文本数据，并进行预处理，至少包括：全角转半角、繁体转简体、英文大写转小写、去除url、去除email、去除@以及保留emoji；

S2、将经过预处理的文本数据输入Bert编码器进行编码。编码过程首先将输入序列映射到查询、键、值三个空间，得到查询向量、键向量和值向量，然后对每一个查询向量，使用 Softmax指数归一化函数作用在查询向量与键向量的内积上得到编码向量。

S3、将编码向量输入到分类器中，得到舆情情感倾向是否积极的判别结果。

本发明的有益效果是：

1.基于Bert的网络舆情分析方法，克服了传统循环神经网络忽略上下文的缺点；

2.基于Bert的网络舆情分析方法，算法复杂度从RNN或TextCNN的O(n²)简化为O(n)。

附图说明

图1为Bert编码图。

图2为分类器结构图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细描述：

本发明的具体步骤为：

步骤1:对输入的文本数据进行标记和预处理。

(1)根据文本内容标记正向和负向情绪。

(2)处理的内容包括全角转半角、繁体转简体、英文大写转小写、去除url、去除email、去除@以及保留emoji等操作。

步骤2：将经过预处理的文本数据输入Bert编码器，其编码过程如图1所示。

Bert采用查询-键-值(QKV，Query-Key-Value)模式。假设输入的序列为输出序列为/>具体过程如下：

(1)对于每个输入x_i，首先将其线性映射到三个不同的空间，得到查询向量键向量/>和值向量/>对于整个输入序列X，线性映射过程可以简写为

其中分别为线性映射的参数矩阵，

Q＝[q₁,…,q_N]

K＝[k₁,…,k_N]

V＝[v₁,…,v_N]

分别是由查询向量、键向量和值向量构成的矩阵。

(2)对于每一个查询向量q_n∈Q，采用下式得到输出向量h_n。

Softmax函数为指数归一化函数。

Bert编码器的编码向量为：H＝[h₁,…,h_N]

步骤3：将Bert编码器输出的编码向量输入到分类器中，得到舆情情感倾向是否积极的判别结果。

(1)分类器为一个前向全链接神经网络，结构如图2所示。训练集为

X＝[x₁,…,x_N],Y＝[y₁,…,y_N]

，Y是训练集X对应的标签，代表分类的种类。

激活函数使用ReLU函数，定义如下：

ReLU(a)＝max(a,0)＝aI(a>0)

(2)分类器的训练过程如下：记

分类器的损失函数定义为：

L(y,y^～)＝-ylogy^～

其中y^～代表分类器对于输入样本x的分类结果。利用梯度下降法更新网络参数W,b，更新公式如下：

本发明方法中的Bert为只有编码器的Transformer，从而简化了结构，提升了效率。

Claims

1.一种基于Bert的网络舆情分析方法，其特征在于，包括以下步骤：

S2、将经过预处理的文本数据输入Bert编码器进行编码，获得编码向量，具体为：将输入序列映射到查询、键、值三个空间，得到查询向量、键向量和值向量，然后对每一个查询向量，使用Softmax指数归一化函数作用在查询向量与键向量的内积上得到编码向量；

Bert采用查询-键-值(QKV，Query-Key-Value)模式；

假设输入的序列为输出序列为/>具体过程如下：

对于每个输入x_i，首先将其线性映射到三个不同的空间，得到查询向量键向量/>和值向量/>对于整个输入序列X，线性映射过程可以简写为：

其中分别为线性映射的参数矩阵，

Q＝[q₁,…,q_N]

K＝[k₁,…,k_N]

V＝[v₁,…,v_N]

分别是由查询向量、键向量和值向量构成的矩阵；

对于每一个查询向量qn∈Q，采用下式得到输出向量h_n；

Softmax函数为指数归一化函数；

Bert编码器的编码向量为：H＝[h₁,…,h_N]；

S3、将编码向量输入到分类器中，得到舆情情感倾向是否积极的判别结果；所述分类器是经过预训练的用于判别舆情情感倾向是否积极的前向全链接神经网络；前向全链接神经网络训练集为：

X＝[x₁,…,x_N],Y＝[y₁,…,y_N]，Y是训练集X对应的标签，代表分类的种类；

激活函数使用ReLU函数，定义如下：

ReLU(a)＝max(a,0)＝aI(a>0)；

分类器的训练过程如下：

记分类器的损失函数定义为：

L(y,y～)＝-ylogy～；

其中y～代表分类器对于输入样本x的分类结果；利用梯度下降法更新网络参数W,b，更新公式如下：