CN114372475A

CN114372475A - 一种基于RoBERTa模型的网络舆情情感分析方法及系统

Info

Publication number: CN114372475A
Application number: CN202210033958.5A
Authority: CN
Inventors: 徐亦飞; 曹帅; 朱利; 尉萍萍; 张屿琪; 程菊飞; 张美丹
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-19

Abstract

本发明公开了一种基于RoBERTa模型的网络舆情情感分析方法及系统，通过对网络舆情信息进行分割，获取文本分割后序列的input embedding，并在input embedding层生成对抗网络，有效提升了模型的泛化能力，再将分割后的文本信息分别输入到预训练模型中获取文本信息的词嵌入特征，并进一步获取长文本信息的更高维度特征，进而对长文本的情感进行分析，提高了对特征的抽取能力，增强了获取网络舆情内容的上下文信息和语义的能力，提高了网络舆情情感分析的准确率，有助于对社会、企业对网络舆情进行管控和分析，减少因网络舆情处理不当造成的经济损失。解决了现有技术中网络舆情情感分析的准确率不理想的问题。

Description

一种基于RoBERTa模型的网络舆情情感分析方法及系统

技术领域

本发明属于网络舆情分析技术领域，涉及一种基于RoBERTa模型的网络舆情情感分析方法及系统。

背景技术

随着互联网技术的快速发展，越来越多的社交网络平台融入到人们的生活。人们从信息的接收者逐步转变成信息的发送者，使得各种社交平台的网络内容迅速增长。为了社交网络平台更好的管控、分析舆情传播与发酵，因此对网络舆情的情感分析具有十分重要的意义。

以前的工作中，情感词典的方法最早运用于网络舆情情感分析任务中，这种方法通过将文本进行Jieba分词，再载入情感词典抽取文本信息中的情感词，最后根据提取出来的情感候选词进行分析。但由于人工构建的情感词典面临着不完善的问题，将导致影响情感分析的效果。后来随着机器学习的发展，其方法逐步被运用到该领域中。这种方法首先对文本进行分词，并对文本信息进行向量化，将文本中的每一个字映射到多维空间向量的一个点，生成文本向量(x1，w1；x2，w2；……；xn，wn)，其中x为字，w为权重，其次通过语义分析提取文本中字与字之间的语义关系，最后通过分类器进行分类，但其较依赖分类器对文本特征提取的效果，导致泛化能力不够强。

随着深度学习的快速发展，将深度学习的方法引入到自然语言处理领域中成为了一个研究重点。许多研究人员利用LSTM、GRU、RNN等网络模型进行网络舆情情感分析，但由于网络舆情内容具有信息丰富、语义复杂等特点，导致特征抽取能力不够高。近年来，研究人员侧重于通过预训练模型BERT生成深度的双向语言表征进行网络舆情情感分析，然而预训练模型的输入序列长度有限，无法将全部网络舆情内容输入到模型当中，使其获取网络舆情内容的上下文信息和语义能力不够强，导致网络舆情情感分析的准确率不理想。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于RoBERTa模型的网络舆情情感分析方法及系统。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于RoBERTa模型的网络舆情情感分析方法，包括以下步骤：

S1：对文本信息进行分割，获取文本分割后序列的input embedding，并在inputembedding层生成对抗网络；

S2：将分割后的文本信息分别输入到预训练模型中分别获取分割后文本信息的词嵌入特征；

S3：基于分割后文本信息的词嵌入特征提取文本的高维特征；

S4：根据分割后文本的高维特征，获取整个长文本的高维特征，进行长文本的情感分析。

本发明的进一步改进在于：

所述S1包括以下步骤：

S1.1：根据输入的长文本序列对文本信息进行分割，根据分割后的信息分别进行3种不同的词嵌入，并将3种不同的词嵌入总和构成input embedding，作为预训练模型的输入向量

S1.2：对获取的每部分文本信息input embedding层采用生成对抗网络进行扰动：

其中，x表示input embedding；g表示梯度，∥g∥₂表示梯度g两次归一化的结；L表示损失函数。

所述3种不同的词嵌入包括：

利用句子中的字进行编码生成token embeddings，用来表示字的主要语义信息；

利用句子的结构信息进行编码生成segmentation embeddings；

利用句子中每个字的位置信息生成position embeddings，为注意力机制增加时序信息。

所述S2包括以下步骤：

S2.1：预训练模型采用多层Transformer的encode进行特征提取，每一层Transformer的encode中都包含两个sub-layer，一个是Multi-Head Attention层，一个是Feed Forward层，在Multi-Head Attention中将文本中的字融入到别的字信息，并提取不同维度的特征，即通过查询向量矩阵和键向量矩阵的点乘来确定值向量矩阵的权重分布，得到注意力机制结果：

MultiHead(Q，K，V)＝Concat(Attention(Q，K，V))W (4)

其中，Q表示查询向量矩阵；K为键向量矩阵；V表示值向量矩阵；d_k表示embedding维度；

S2.2：将注意力机制结果通过残差连接Add和Layer Normalization再向前传递，计算方法见下式：

X_a＝X_Attention+X_h (5)

X_b＝LayerNorm(X_a) (6)

其中，X_Attention表示经过自注意力机制以后的结果；X_h表示字向量；X_a表示经过残差链接后的结果；X_b表示归一化后的结果。

所述S3包括以下步骤：

S3.1：将n个预训练模型最后一个隐藏层所有状态位信息输入到GRU神经网络中，通过GRU网络分别获取重置门状态r和更新门状态u，计算方法见下式：

r＝σ(W^r·(x^t，h^t-1)) (7)

u＝σ(W^u·(x^t，h^t-1)) (8)

其中，h^t-1表示上一个传输下来的状态；x^t表示当前节点的输入；σ表示sigmoid函数；W^r和W^u表示权重；

S3.2：在重置门r中，通过长时信息进行局部信息的提取：

将h₁ ^t-1与当前输入x^t进行拼接，最后由tanh获取当前时间步的信息h₁ ^t；

在更新门中将会遗忘一部分隐藏信息，也会选择记忆一些信息，生成新的信息h^t，计算方法见下式：

h₁ ^t-1＝h^t-1⊙r (9)

h₁ ^t＝tanh(W·(x^t，h₁ ^t-1)) (10)

h^t＝(1-u)⊙h^t-1+u⊙h₁ ^t (11)

其中，h^t-1表示上一个传输下来的状态；x^t表示当前节点的输入；r表示从重置门状态；u表示从重置门状态；W表示权重。

所述S4包括以下步骤：

S4.1：通过LSTM网络来获取长文本的全局特征和语义信息，计算方法见下式：

H(e_t，y_t，c_t)＝LSTM(e_t-1，x_t，c_t-1) (12)

其中，e_t-1表示上一个传输下来的状态；x_t表示当前节点的输入；c_t-1表示上一个的全局信息载体；e_t表示当前状态量；y_t表示当前输出；c_t表示当前的全局信息载体；

S4.2：使用softmax函数进行回归处理：

其中，N表示预测类别的个数；b表示模型的输出；y_i表示类别i的概率；

S4.3：使用交叉熵作为损失函数：

其中，N表示预测类别的个数；p(x_i)表示预测概率。

一种基于RoBERTa模型的网络舆情情感分析系统，包括文本信息进行分割模块、词嵌入特征模块、高维特征模块和长文本高维特征模块；

文本信息进行分割模块，用于对文本信息进行分割，获取文本分割后序列的inputembedding，并在input embedding层生成对抗网络；

词嵌入特征模块，用于将分割后的文本信息分别输入到预训练模型中获取文本信息的词嵌入特征；

高维特征模块，用于基于文本信息的词嵌入特征提取文本的高维特征；

长文本高维特征模块，用于基于S3进一步进行全局特征捕获，获取整个长文本的高维特征，进行长文本的情感分析。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明公开了一种基于RoBERTa模型的网络舆情情感分析方法及系统，通过对网络舆情信息进行分割，获取文本分割后序列的input embedding，并在input embedding层生成对抗网络，有效提升了模型的泛化能力，再将分割后的文本信息分别输入到预训练模型中获取文本信息的词嵌入特征，并进一步获取长文本信息的更高维度特征，进而对长文本的情感进行分析，提高了对特征的抽取能力，增强了获取网络舆情内容的上下文信息和语义的能力，提高了网络舆情情感分析的准确率，有助于对社会、企业对网络舆情进行管控和分析，减少因网络舆情处理不当造成的经济损失。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明实施例公开了一种基于RoBERTa模型的网络舆情情感分析方法，首先通过将网络舆情文本内容进行分割，再将分割后的文本信息序列分别输入到RoBERTa-wwm-ext预训练语言模型以获取文本信息的词嵌入特征，同时在input embedding层通过生成对抗网络，增加模型的泛化能力，然后再利用GRU网络获取每部分文本更高维度的特征，最后使用LSTM网络模型来连接GRU网络的输出进行全局特征的捕获。本发明可以有效对网络舆情进行情感分析。

步骤1，获取预训练模型的RoBERTa-wwm-ext的输入表示，并通过生成对抗网络GAN进行扰动，提高模型泛化能力。具体过程如下：

1.1：根据输入长文本序列x＝{x1,x2,x3,…,xn}，对文本信息进行分割。根据分割后的文本信息，分别进行三种不同的词嵌入，利用句子中的字进行编码生成tokenembeddings，用来表示字的主要语义信息，利用句子的结构信息进行编码生成segmentation embeddings，利用句子中每个字的位置信息生成position embeddings，为注意力机制增加时序信息。将三种不同的词嵌入的总和构成input embedding，作为预训练模型的输入向量，位置编码P具体计算公式如下：

式中pos为词语在句子的位置索引，i为词嵌入向量的索引。

1.2：获取文本分割后序列的input embedding，对每部分文本信息的inputembedding层，采用生成对抗网络进行扰动,提高模型的泛化能力以及模型对恶意攻击的鲁棒性，具体计算公式如下：

式中x为input embedding，g为梯度，||g||₂为梯度g两次归一化的结果，L为损失函数。

步骤2，将文本的input embeddings和生成对抗网络生成的扰动数据，采用预训练模型RoBERTa-wwm-ext获取文本信息的词嵌入特征。具体过程如下：

2.1：RoBERTa-wwm-ext采用多层Transformer的encode进行特征提取，让RoBERTa-wwm-ext可以学习到文本的上下文语义信息和语境。同时每一层Transformer的encode中都包含两个sub-layer，一个是Multi-Head Attention层，一个是Feed Forward层。在Multi-Head Attention中可以将文本中的字融入到别的字信息，并且可以提取不同维度的特征。其主要方法是通过查询向量矩阵和键向量矩阵的点乘来确定值向量矩阵的权重分布，得到注意力机制结果，计算公式如下所示：

MultiHead(Q，K，V)＝Concat(Attention(Q，K，V))W (4)

式中的Q为查询向量矩阵，K为键向量矩阵，V为值向量矩阵，d_k为embedding维度。

2.2：再将注意力机制的结果通过残差连接Add和Layer Normalization再向前传递，计算公式如下所示：

X_a＝X_Attention+X_h (5)

X_b＝LayerNorm(X_a) (6)

式中的X_Attention为经过自注意力机制以后的结果，X_h为字向量，X_a为经过残差链接后的结果。X_b为归一化后的结果。

步骤3，将预训练模型RoBERTa-wwm-ext最后一个隐藏层所有状态位信息，通过GRU神经网络提取文本的高维特征和保存文本时间序列特征。具体过程如下：

3.1：将n个预训练模型最后一个隐藏层所有状态位信息输入到GRU神经网络中，GRU网络首先会分别获取重置门状态r和更新门状态u用来控制重置门和更新门计算公式如下所示：

r＝σ(W^r·(x^t，h^t-1)) (7)

u＝σ(W^u·(x^t，h^t-1)) (8)

式中h^t-1上一个传输下来的状态，x^t当前节点的输入，σ为sigmoid函数，W^r和W^u为权重。

3.2：在重置门r中，通过长时信息进行局部信息的提取。将h₁ ^t-1与当前输入x^t进行拼接，最后由tanh获取当前时间步的信息h₁ ^t；在更新门中将会遗忘一部分隐藏信息，也会选择记忆一些信息，生成新的信息h^t。计算公式如下所示：

h₁ ^t-1＝h^t-1⊙r (9)

h₁ ^t＝tanh(W·(x^t，h₁ ^t-1)) (10)

h^t＝(1-u)⊙h^t-1+u⊙h₁ ^t (11)

式中h^t-1上一个传输下来的状态，x^t当前节点的输入，r从重置门状态，u从重置门状态，W为权重。

步骤4，通过LSTM网络模型来连接步骤3的输出，获取整个长文本的高维特征，并进行长文本的情感分析，具体过程如下：

4.1：文本信息存在着上下文关系，为了让模型可以学习到整篇文本词语中的依赖关系，因此通过LSTM网络来获取长文本的全局特征和语义信息。LSTM网络具有长距离语义捕获能力，可以学习长期依赖信息，计算公式如下所示：

H(e_t，y_t，c_t)＝LSTM(e_t-1，x_t，c_t-1) (12)

式中e_t-1为上一个传输下来的状态，x_t为当前节点的输入，c_t-1上一个的全局信息载体，e_t为当前状态量，y_t为当前输出，c_t为当前的全局信息载体。

4.2：使用softmax函数进行回归处理，公式如下：

式中N为预测类别的个数，b为模型的输出，y_i为类别i的概率。

4.3：使用交叉熵(Cross Entropy Loss Function)作为损失函数，公式如下：

式中N为预测类别的个数，p(x_i)为预测概率。

本发明实施例还公开了一种基于RoBERTa模型的网络舆情情感分析系统，包括：

本发明一实施例提供的终端设备的示意图。该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。