CN114817533A

CN114817533A - 基于时间特征的弹幕情感分析方法

Info

Publication number: CN114817533A
Application number: CN202210416995.4A
Authority: CN
Inventors: 牟雪峰; 李海明
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-29

Abstract

本发明提供了一种基于时间特征的弹幕情感分析方法，首先对原始弹幕数据进行了分词、去除停用词等文本预处理，来提高嵌入的准确度。然后使用弹幕情感分析模型中的嵌入模块将文本从词换成字并输出具有时间特征的融合向量，从而解决弹幕结构复杂的问题，减少网络词汇对语义的影响，使得模型能够更好地学习弹幕地隐含语义，优化了模型进行弹幕分析地性能。其次，通过双向长短期记忆模型BiLSTM和注意力机制进一步获取弹幕数据的深层特征，充分考虑了文本和时间两种因素。最后通过分类器对弹幕的情感类型进行精确分类。相较于现有弹幕分析方法，本发明的弹幕情感分析方法有效提升了弹幕情感分析的准确率，具有较强的应用性。

Description

基于时间特征的弹幕情感分析方法

技术领域

本发明属于文本分类领域，具体涉及一种基于时间特征的弹幕情感分析方法。

背景技术

文本情感分析是文本分类的一种，是指利用自然语言处理和文本挖掘技术，对带有情感色彩的主观性文本进行分析、处理和抽取的过程，其已经构成一个具有影响力的研究领域，并在工业界得到了广泛的应用。情感分析的需求来源于个人、企业和政府对产品、营销和政策的兴趣。近年来，创新和商业的需求不断推动着情感分析的研究发展。

随着互联网和社交媒体的发展，人们对娱乐消费的需求越来越高。根据中国互联网络发展状况统计报告，网络视频和衍生产品已经成为网络娱乐消费领域的支柱产业。弹幕作为一种视频评论手段，由最初的亚文化小团体逐渐进入了大众的视野，为视频用户提供了一种新的在线交流的方法。目前，包括Bilibili、腾讯、虎牙、爱奇艺、斗鱼和央视影音等都在视频中加入了弹幕。对弹幕进行情感分析可以帮助平台了解用户的心理和特征，得到更多有效的信息反馈，协助后台进行相关视频和广告的推荐，也可以帮助创作者改进发布的视频。然而，弹幕与一般的微博、商品评论和影评等不同，结构多样，构成复杂，省略的信息较多，是一种特殊的短文本，目前的方法对弹幕进行情感分析效果有限，准确率较低。因此，有必要提供一种新的方法来对弹幕的情感分析进行改进。

发明内容

为解决上述问题，提供一种准确率高的弹幕情感分析方法，本发明采用了如下技术方案：

本发明提供了一种基于时间特征的弹幕情感分析方法，其特征在于，包括以下步骤：步骤S1，对待分析的原始弹幕数据进行预处理，并提取弹幕文本和弹幕发送时间；步骤S2，基于输入层、嵌入模块、神经网络模块和分类模块构建并训练得到弹幕情感分析模型；步骤S3，将弹幕文本和弹幕发送时间输入至弹幕情感分析模型中，由嵌入模块进行向量化处理分别得到文本向量和时间向量，并拼接得到融合向量；步骤S4，将融合向量作为神经网络模块的输入，获取弹幕句子表达式；步骤S5，由分类模块中的softmax分类器计算弹幕句子表达式的文本标签的类别概率，得到待分析的原始弹幕数据的情感分类的分析结果。

在本发明提供了一种基于时间特征的弹幕情感分析方法中，还可以具有这样的特征：其中，文本预处理包括分词、去除停用词、以及清除特殊字符和标点符号。

在本发明提供了一种基于时间特征的弹幕情感分析方法中，还可以具有这样的特征：其中，嵌入模块具有文本信息处理子模块、时间信息处理子模块以及融合子模块，文本向量为文本信息处理子模块基于word2vec模型对弹幕文本进行向量化处理得到，该处理过程为：设定每一条弹幕含有n个词，将每个词都转换成其one-hot向量的形式x_i＝(x₁,x₂…x_n)，然后通过嵌入矩阵W^e得到x_i的嵌入向量表达形式，通过将每个词的嵌入向量进行拼接得到文本向量的表达式S_c。

在本发明提供了一种基于时间特征的弹幕情感分析方法中，还可以具有这样的特征：其中，时间向量为时间信息处理子模块基于word2vec模型对弹幕发送时间进行向量化处理得到，该处理过程为：设定每一条弹幕所处的时间长度有n秒，将每一秒都转化成其one-hot向量的形式x_i＝(x₁,x₂…x_n)，然后通过嵌入矩阵W^e得到x_i的嵌入向量表达形式，通过将每秒的嵌入向量进行拼接得到时间向量的表达式S_t。

在本发明提供了一种基于时间特征的弹幕情感分析方法中，还可以具有这样的特征：其中，融合子模块将文本向量和时间向量拼接起来得到融合向量，即：

S＝S_c+S_t

式中，S为融合向量，S_c为文本向量，S_t为时间向量。

在本发明提供了一种基于时间特征的弹幕情感分析方法中，还可以具有这样的特征：其中，神经网络模块包括一个双向长短期记忆模型BiLSTM和一个注意力机制层，BiLSTM由两个反向的长短期记忆模型LSTM构成。

在本发明提供了一种基于时间特征的弹幕情感分析方法中，还可以具有这样的特征：其中，弹幕句子表达式的获取过程如下：将融合向量作为BiLSTM的输入，设定向前LSTM在t时刻的状态为h_t1，向后LSTM在t时刻的状态为h_t2，整个神经网络在t时刻的状态为h_t，根据下式求得h_t：

h_t＝h_t1+h_t2；

将BiLSTM的输出h_t作为注意力机制层的输入，利用注意力机制层对权重重新分配后加权求和得到弹幕句子表达式r_i，计算公式如下：

m_i＝tanh(h_t)

p_i＝softmax(Wmi)

r_i＝h_t*p_i。

在本发明提供了一种基于时间特征的弹幕情感分析方法中，还可以具有这样的特征：其中，弹幕情感分析模型的训练为：采集原始弹幕数据并进行预处理，得到训练用数据集，将训练用数据集输入至初始模型中，采用Adam优化器对该初始模型进行优化训练，直至初始模型的预测效果达到预定标准就停止训练，得到训练好的弹幕情感分析模型。

发明作用与效果

根据本发明的基于时间特征的弹幕情感分析方法，首先对原始弹幕数据进行了分词、去除停用词等文本预处理，来提高嵌入的准确度。然后使用弹幕情感分析模型中的嵌入模块将文本从词换成字并输出具有时间特征的融合向量，从而解决弹幕结构复杂的问题，减少网络词汇对语义的影响，使得模型能够更好地学习弹幕地隐含语义，优化了模型进行弹幕分析地性能。其次，通过双向长短期记忆模型BiLSTM和注意力机制进一步获取弹幕数据的深层特征，充分考虑了文本和时间两种因素。最后通过分类器对弹幕的情感类型进行精确分类。相较于现有弹幕分析方法，本发明的弹幕情感分析方法有效提升了弹幕情感分析的准确率，具有较强的应用性。

附图说明

图1是本发明实施例的基于时间特征的弹幕情感分析方法的流程示意图；以及

图2是本发明实施例中弹幕情感分析模型的结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明基于时间特征的弹幕情感分析方法作具体阐述。

<实施例>

图1是本发明实施例的基于时间特征的弹幕情感分析方法的流程示意图。

如图1所示，基于时间特征的弹幕情感分析方法包括以下步骤：

步骤S1，对待分析的原始弹幕数据进行文本预处理，并提取弹幕文本和弹幕发送时间。

本实施例中，文本预处理的任务主要是将数据集中的句子进行处理以便后续输入模型进行分类。

文本预处理包括清除特殊字符和标点符号：由于大多数嵌入不提供标点符号和其他特殊字符的向量值，因此要做的第一件事就是去除文本数据中的特殊字符和标点符合来提高嵌入的准确度。

分词：方便模型使用文本中的词来表征文本。

去除停用词：当进行分词时，主要是句子中出现的词语都会被划分，而有些词语是没有实际意思的，对于后续的关键词提取就会加大工作量，并且可能提取的关键词是无效的。所以在分词处理以后，引入去停用词来优化分词的结果。

步骤S2，构建初始模型并训练得到弹幕情感分析模型，该模型具有输入层、嵌入模块、神经网络模块以及分类模块(如图2所示)。

本实施例中，该初始模型的训练过程如下：

首先，采集原始弹幕数据并进行预处理，得到训练用数据集。

然后，将训练用数据集输入至初始模型中，采用Adam优化器对该初始模型进行优化训练，直至初始模型的预测效果达到预定标准就停止训练，得到训练好的弹幕情感分析模型。

其中，Adam优化器的随机失活参数设置为0.6，学习率衰减设置为0.98。预定标准为：使用早停法来避免手动设置epoch，具体标准是：若超过1000batch效果还没提升，则提前结束训练。

步骤S3，将弹幕文本和弹幕发送时间输入至弹幕情感分析模型中，由嵌入模块进行向量化处理分别得到文本向量和时间向量，并拼接得到融合向量。

本实施例中，嵌入模块包括文本信息处理模块(Char to vecor，c2v)、时间信息处理模块(Time to vecor，t2v)以及融合模块。

由于弹幕的结构复杂，使用的网络词汇较多，为了减少这些因素对语义的影响，本实施例选用字符级神经网络，能更好地学习到弹幕的隐含语义。因此，需要将最小的处理单元从词换成字。

其中，文本信息处理模块使用word2vec模型对弹幕文本进行向量化处理得到文本向量。具体地：

设定每一条弹幕含有n个词，将每个词都转换成其one-hot向量的形式x_i＝(x₁,x₂…x_n)，然后通过嵌入矩阵W^e得到x_i的嵌入向量表达形式，最后通过将每个词的嵌入向量进行拼接得到文本向量的表达式S_c＝∑W^e x_i。

时间信息处理模块使用word2vec模型对弹幕发送时间进行向量化处理得到时间向量。

由于爬取到的弹幕发送时间是线性的，所以不需要考虑时间的周期性对时间表征在向量空间上的影响。对于时间特征的处理，以秒为单位，参照文本的向量化方法进行处理。具体地：

设定每一条弹幕所处的时间长度有n秒，将每一秒都转化成其one-hot向量的形式y_i＝(y₁,y₂…y_n)，然后通过嵌入矩阵W^e得到x_i的嵌入向量表达形式，通过将每秒的嵌入向量进行拼接得到时间向量的表达式S_t＝∑W^e y_i。

融合模块用于将文本向量和时间向量拼接起来，得到具有时间特征的融合向量S，其表达式为：S＝S_c+S_t。

步骤S4，将融合向量作为神经网络模块的输入，获取弹幕句子表达式。

本实施例中，神经网络模块由一个双向长短期记忆模型BiLSTM(Bi-directionalLong Short-Term Memory)和一个注意力机制层(Attention)组成，用于提取数据的深层特征和权重的分配。

其中，LSTM在NLP相关任务中的应用很多，可以较好地解决文本语义丢失的问题。本实施例中，BiLSTM 31由2个方向相反的LSTM组成，以此充分考虑之前和之后的状态，使得神经网络在t时刻的状态由2个LSTM共同决定。

设定向前LSTM在t时刻的状态为h_t1，向后LSTM在t时刻的状态为h_t2，则整个神经网络在t时刻的状态为h_t，根据下式求得h_t：

h_t＝h_t1+h_t2。

注意力机制是一种模仿人类注意力认知的技术，通过进行加权求和，对权重进行重新分配。在使用BiLSTM提取融合向量的状态信息h_t后，使用注意力机制层来学习特征中哪些部分对弹幕的情感影响更大，充分考虑时间和文本两种因素。具体地：

将BiLSTM 31的输出h_t作为注意力机制层32的输入，由该注意力机制层32加权求和，并权重进行重新分配，由重新分配后的向量的加权求和得到弹幕句子表达式r_i。计算公式如下：

m_i＝tanh(h_t)

p_i＝softmax(Wmi)

r_i＝h_t*p_i

步骤S5，由分类模块中的softmax分类器计算弹幕句子表达式的文本标签的类别概率，即将多分类的输出转换成为范围在0到1的概率分布，选取该概率分布中的最大值作为待分析的原始弹幕数据的情感分类的分析结果，计算公式为：

本实，分类模块使用softmax函数将多分类的输出转换成为范围在0到1的概率分布，进行情感极性的分类：

式中，xi为第i个节点的输出，C为需要分类的类别数目。

本实施例中，标签一共有3个：正面的情感，中立的情感以及负面的情感。

为验证本发明在本实施例中的有效性，与以下4种模型进行比较，分别是SVM，RNN，CNN，和RNN_ATT，在不同的模型数据集上的准确率如下表1所示：

表1不同模型的准确率比较

上表所示的TBAN即为本发明实施例的弹幕情感分析模型。从上表可以看出，本实施例的基于时间特征的弹幕情感分析方法所得出的精确率可以达到79.60％，比现有技术中的SVM、RNN、CNN、和RNN_ATT都更高，由此可见，本发明提出的方法简单且取得了更好的结果，可以有效地应用于弹幕的情感分析。

实施例的作用与效果

根据本实施例提供的基于时间特征的弹幕情感分析方法，首先对原始弹幕数据进行了分词、去除停用词等文本预处理，来提高嵌入的准确度。然后使用弹幕情感分析模型中的嵌入模块将文本从词换成字并输出具有时间特征的融合向量，从而解决弹幕结构复杂的问题，减少网络词汇对语义的影响，使得模型能够更好地学习弹幕地隐含语义，优化了模型进行弹幕分析地性能。其次，通过双向长短期记忆模型BiLSTM和注意力机制进一步获取弹幕数据的深层特征，充分考虑了文本和时间两种因素。最后通过分类器对弹幕的情感类型进行精确分类。

本发明实施例的弹幕情感分析方法相较于现有弹幕分析方法，有效提升了弹幕情感分析的准确率，具有较强的应用性。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于时间特征的弹幕情感分析方法，其特征在于，包括以下步骤：

步骤S1，对待分析的原始弹幕数据进行文本预处理，并提取弹幕文本和弹幕发送时间；

步骤S2，基于输入层、嵌入模块、神经网络模块和分类模块构建并训练得到弹幕情感分析模型；

步骤S3，将所述弹幕文本和所述弹幕发送时间输入至所述弹幕情感分析模型中，由所述嵌入模块进行向量化处理分别得到文本向量和时间向量，并拼接得到具有时间特征的融合向量；

步骤S4，将所述融合向量作为所述神经网络模块的输入，获取弹幕句子表达式；

步骤S5，由所述分类模块中的softmax分类器计算弹幕句子表达式的文本标签的类别概率，得到所述待分析的原始弹幕数据的情感分类的分析结果。

2.根据权利要求1所述的基于时间特征的弹幕情感分析方法，其特征在于：

其中，所述文本预处理包括分词、去除停用词、以及清除特殊字符和标点符号。

3.根据权利要求1所述的基于时间特征的弹幕情感分析方法，其特征在于：

其中，所述嵌入模块具有文本信息处理子模块、时间信息处理子模块以及融合子模块，

所述文本向量为所述文本信息处理子模块基于word2vec模型对所述弹幕文本进行向量化处理得到，该处理过程为：

设定每一条弹幕含有n个词，将每个词都转换成其one-hot向量的形式x_i＝(x₁,x₂…x_n)，然后通过嵌入矩阵W^e得到x_i的嵌入向量表达形式，通过将每个词的嵌入向量进行拼接得到所述文本向量。

4.根据权利要求3所述的基于时间特征的弹幕情感分析方法，其特征在于：

其中，所述时间向量为所述时间信息处理子模块基于所述word2vec模型对所述弹幕发送时间进行向量化处理得到，该处理过程为：

设定每一条弹幕所处的时间长度有n秒，将每一秒都转化成其one-hot向量的形式x_i＝(x₁,x₂…x_n)，然后通过嵌入矩阵W^e得到x_i的嵌入向量表达形式，通过将每秒的嵌入向量进行拼接得到所述时间向量。

5.根据权利要求4所述的基于时间特征的弹幕情感分析方法，其特征在于：

其中，所述融合子模块将所述文本向量和所述时间向量拼接起来得到所述融合向量，即：

S＝S_c+S_t

式中，S为融合向量，S_c为文本向量，S_t为时间向量。

6.根据权利要求1所述的基于时间特征的弹幕情感分析方法，其特征在于：

其中，所述神经网络模块包括一个双向长短期记忆模型BiLSTM和一个注意力机制层，

所述BiLSTM由两个反向的长短期记忆模型LSTM构成。

7.根据权利要求6所述的基于时间特征的弹幕情感分析方法，其特征在于：

其中，所述弹幕句子表达式的获取过程如下：

将融合向量作为所述BiLSTM的输入，设定向前LSTM在t时刻的状态为h_t1，向后LSTM在t时刻的状态为h_t2，整个神经网络在t时刻的状态为h_t，根据下式求得h_t：

h_t＝h_t1+h_t2；

将所述BiLSTM的输出h_t作为所述注意力机制层的输入，利用所述注意力机制层对权重重新分配后加权求和得到弹幕句子表达式r_i，计算公式如下：

m_i＝tanh(h_t)

p_i＝softmax(Wmi)

r_i＝h_t*p_i。

8.根据权利要求1所述的基于时间特征的弹幕情感分析方法，其特征在于：

其中，所述弹幕情感分析模型的训练为：

采集原始弹幕数据并进行预处理，得到训练用数据集，

将所述训练用数据集输入至所述初始模型中，采用Adam优化器对该初始模型进行优化训练，直至所述初始模型的预测效果达到预定标准就停止训练，得到训练好的所述弹幕情感分析模型。