CN111144448A

CN111144448A - 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法

Info

Publication number: CN111144448A
Application number: CN201911250369.7A
Authority: CN
Inventors: 宋威; 温子健
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-05-12

Abstract

基于多尺度注意力卷积编码网络的视频弹幕情感分析方法，属于自然语言处理、情感分析领域。将多层次结构的注意力机制与卷积神经网络相结合，弥补卷积神经网络难以提取文本的长依赖信息的不足的缺陷。输入的样本与目标词分别进行卷积神经网络的多通道特征学习进行编码，再利用注意力机制提取出句子中与目标词相关部分，将最后的各个部分编码的特征向量拼接得到多尺度的综合特征向量，作为最后的向量输入分类器进行情感分类。

Description

基于多尺度注意力卷积编码网络的视频弹幕情感分析方法

技术领域

本发明属于深度学习、情感分析领域，提出一种使用多尺度注意力机制的卷积编码网络 (Hierarchical Attention Convolution Neural Network,HACNN)模型，可以有效分析复杂视频弹幕中目标词对应的情感信息，从而能对视频弹幕样本进行情感分析。

背景技术

随着互联网的高速发展，视频弹幕作为一种新型的评论交流方式应运而生，观众可以在互联网上观看视频时同步地发表自己的观点。由于弹幕是一种新兴的评论方式，所以目前对这方面的研究较少，但弹幕中包含了大量对视频的实时情感信息，与视频反馈用户对视频每一部分的态度情感。根据弹幕情感对视频关键帧进行情感标注,可以方便用户根据关键帧情感来选择该帧进行视频播放，也可以方便作者对视频意见的收集、改进。因此，提出一个高效、智能、准确的视频弹幕情感分析方法是非常必要的。

卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN)采用了自动编码机的思想，对视频中每一帧图像中的弹幕进行识别。CRNN的前半部分使用了卷积神经网络 (Convolutional Neural Networks,CNN)对每一帧图像进行特征提取，起到编码部分的作用，再将得到的特征图利用循环神经网络(Recurrent Neural Network，RNN)对特征图中含有文字的部分进行解码，从而达到对图像中弹幕识别的目的。

一般来说RNN也可直接用于对样本进行情感分析，但传统的RNN网络存在梯度弥散、梯度消失问题，而且不能并行计算，时间开销太大。近年来，Kim提出将CNN用于文本分类之后，卷积神经网络在深度学习的应用越来越被重视。这种深度学习网络能有效提取样本特征，并能突出样本中各个词之间的关联信息。利用CNN能提取相关词信息的优势，可以对视频弹幕进行有效的特征提取，从而可以对弹幕的整体含义、表达情感倾向进行有效的状态描述。

但是，如果样本中含有多个目标词且这些目标词有着多种不同的情感极性时，单用CNN 来处理样本是远远不能达到需要的效果的。CNN虽然能提取窗口內样本信息及关联信息，但不能对整个样本进行处理，这就导致CNN可能会对样本的情感极性提取不够充分甚至会产生错误。而且现有的CNN模型与传统的RNN模型相比，在提取样本特征上还略处劣势。因此，需要提出一种新结构的CNN模型，使得CNN能提取更加丰富的样本特征，能更好地捕捉到样本中多目标词对应情感。

发明内容

针对上述存在问题，本发明提出了一种基于多尺度注意力卷积编码网络(Hierarchical Attention Convolution Neural Network,HACNN)的模型来进行视频弹幕的情感分析。将多层次结构的注意力机制与卷积神经网络相结合，弥补卷积神经网络难以提取样本的长依赖信息的不足的缺陷。输入的样本与目标词分别进行卷积神经网络的多通道特征学习进行编码，再利用注意力机制提取出句子中与目标词相关部分，将最后的各个部分编码的特征向量拼接得到多尺度的综合特征向量，作为最后的向量输入分类器进行情感分类。

本发明的技术方案：

本发明提出的基于多尺度注意力卷积编码网络的视频弹幕情感分析方法，主要步骤如下：

步骤1、从互联网上的视频网站收集带有弹幕的视频文件，利用CRNN模型提取出视频中的弹幕样本，将视频的每一帧的视频图片转化为RGB三通道的像素矩阵，并输入到CNN模型中提取特征：

F＝CNN(X) (1)

其中F为提取出的中间特征图，X为图片的输入像素矩阵。

特征图F经过RNN模型的解码翻译出弹幕样本：

S＝RNN(F) (2)

将样本中的目标词和情感标记出来作为数据集，并将其划分为训练集和测试集。对数据集进行样本预处理，即词嵌入向量操作。本发明使用的是GloVe的词嵌入向量方法：根据已有的语料库，构建一个由X_ij个元素构成的共现矩阵X，将单词i和其上下文单词j在固定窗口大小的上下中共同出现的次数与权重的乘积定义为X_ij。权重是由GloVe自身的衰减函数来计算：

w_d＝1/d (3)

其中d为上下文单词之间的距离。

GloVe词嵌入向量的训练损失函数为：

其中，

和

为最终求解词向量，f(X_ij)为权重函数

进一步的，f(X_ij)定义为：

其中，α取值为0.75，x_max取值为100。

步骤2、构建HACNN模型，设置HACNN模型的各项超参数数值。将步骤1中GloVe 处理之后得到的句子样本和目标词向量输入到HACNN模型，进行第一重注意力机制处理。对句子样本和目标词向量同时做多头自注意力，初步提炼出向量中最相关的信息部分，完成粗编码过程。k＝{k₁,k₂,…,k_n}和q＝{q₁,q₂,…,q_m}分别为注意力的一组键值序列和查询序列，自注意力公式为：

Attention(k,q)＝softmax(f_s(k,q))k (6)

f_s(k_i,q_j)＝tanh([k_i；q_j]·W_att) (7)

则多头注意力公式可定义为：

o^h＝Attention^h(k,q) (9)

其中，W_att和W_mh为模型可训练的变量，“；”代表向量直接拼接，

为第 h头的注意力输出，且h∈[1,n_head]。

样本进行自我自注意力，即k与q的值相等；目标词进行交互自注意力，即k与q的值不等。

进一步可以得到句子和目标词的向量表示：

c＝MHA(context,context) (10)

t＝MHA(context,target) (11)

其中，_c为句子的向量表示，t为目标词的向量表示。

步骤3、将得到的句子和目标词的初步向量表示再输入进多通道卷积转换(Multi-Channels ConvolutionTransformation，MCCT)模块中，MCCT能将输入的特征通道维度升高，能从不同的角度学习到输入的特征。再利用第二重注意力——通道间的注意力，降低CNN的通道维度，去除掉多个通道中冗余的部分，提取多通道中收集的不同特征。MCCT模块的计算方法如下：

f_r＝ReLU(L) (12)

其中，L为：

L＝W_cx (13)

Wc为可训练的权重，x为MCCT模块的输入。则通道注意力Attention_l可用以下公式表示：

Attention_l＝Sigmoid(W_rf_r) (14)

其中，W_r为可训练的权重。用卷积网络将输入展开到不同通道进行学习：

T_c＝Conv1d(input) (15)

去除冗余通道信息：

MCCT(c)＝Attention_l(T_c) (16)

其中T_c为卷积收集到的信息，通道数channel和隐藏层reduction为超参数，在本发明中为64和16。

则最终的特征表示h^c可表示为：

h^c＝Conv1d(MCCT(c)) (17)

同样可得到h^t的表示：

h^t＝Conv1d(MCCT(t)) (18)

得到的样本表示特征序列为

目标词序列为

步骤4、第三重注意力为样本与目标词之间的注意力。在网络在多通道进一步提取了样本句子与目标词的高维信息后，再一次提取句子中与目标词最相关的部分，即在h^c与h^t之间再做一次注意力。将句子向量与目标词向量做乘积作为注意力权重，进而将此注意力权重与目标词向量做点积得到句子中与目标词相关信息的特征向量表示。此注意力过程使用了公式 (6)中的自注意力公式：

h^tc＝MHA(h^c,h^t) (19)

其中h^tc为与目标词最相关的句子表示。

步骤5、将得到的三个特征表示h^c、h^t与h^tc进行平均池化后拼接。将拼接之后的向量表示H输入到最后的分类器分类，平均池化操作为：

其中，H是向量长度。

则h^c、h^t与h^tc进行平均池化后可得到h^c _avg、h^t _avg与h^tc _avg。

将三个池化后的特征表示拼接得H：

其中，“；”为拼接操作。

步骤6、将最后得到的H向量特征表示，输入到softmax分类器中进行最后的分类，得到的一个三维向量y为最后的预测分布，每个维度代表一个分类类别，分别为积极的、消极的和中立的。使用argmax函数找到数值最大的维度标号，即模型预测的类别P，此过程的公式为：

P＝arg max(y) (24)

其中，

与

都是反向传播过程中可训练学习到的变量。C为分类的种类，本发明中为3。

在网络中的收集的样本训练集标签有可能是不正确的，所以本发明使用了标签平滑 (Label SmoothingRegularization，LSR)的交叉熵函数代替了传统的交叉熵函数作为整个网络的损失函数来获取更好的训练效果。LSR可以防止模型把预测值过度集中在概率较大类别上，把一些概率分到其他概率较小类别上，即从一定程度上防止了网络对训练样本的过拟合。训练样本x标签的真实分布可以表示为q(k|x)，LSR将此分布重写为：

q(k|x)＝(1-∈)q(k|x)+∈u(k) (25)

其中，u(k)为先验分布，∈为一个取[0,1]的平滑系数。在本发明中∈为0.2。

u(k)服从一个简单的均匀分布：

u(k)＝1/C (26)

把标签的真实分布q(k|x)与固定的分布u(k)按照1-∈和∈的权重混合在一起，构成一个新的分布。这相当于对标签分布中加入噪声，k值有∈的概率来自于分布u(k)。LSR交叉熵函数相当于计算了先验分布u(k)与网络的预测分布p_θ之间的KL散度，LSR可定义为：

再使用L2正则化对损失函数进行约束，则损失函数可定义为：

其中，y^c为网络的预测C类的情感分布，

为y^c的平均值。λ为L2正则化系数，θ为设定的超参数。

本发明的有益效果：提出了一种智能的视频弹幕情感分析方法，不需要人为干预能对复杂的视频弹幕进行情感分类。为了处理网络中的复杂句子样本，使用CNN与多层级注意力机制的搭配，从多空间维度进行多尺度的特征学习，并去除冗余信息，完成细粒度分类任务，即对句子中不同目标词的不同情感准确判断。针对于收集的网络样本标签准确率不高的特点，使用了LSR对损失函数进行优化，训练出预测分布更真实的网络结构，得到更有效的预测效果。利用以上优点，实现对视频弹幕准确地情感分析。

附图说明

图1为本发明整个网络的结构示意图；

图2为网络中MCCT模块的结构示意图

图3为HACNN模型训练流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,结合以上所给技术方案和附图，进一步说明本发明的具体使用方式。

如图3所示，基于多尺度注意力卷积编码网络的视频弹幕情感分析方法，具体步骤如下：

步骤1、收集视频文件，用CRNN提取出视频的弹幕样本，整理出每个样本句子中的目标词，并分别对每个目标词的情感偏向进行标注，得到弹幕样本数据集。数据集中的句子样本与目标词分别进行GloVe预处理，使其变为神经网络易处理的向量形式，GloVe神经网络的损失函数为：

其中，

和

为最终求解词向量，f(X_ij)为权重函数。

步骤2、构建HACNN模型，设置HACNN模型的各参数值：词向量维度为300则网络隐藏层维度也为300，学习率为0.001，一次训练所选取的样本数设置为16，训练迭代15次。将处理好的句子和目标词向量作为两部分输入到HACNN模型中，利用多头自注意力机制对两个部分做不同处理。句子样本部分对自身做自注意力，进一步抽取句子中的特征信息；目标词向量则对句子样本做自注意力，初步粗筛选出句子样本中与目标词相关的部分。样本和目标词特征可表示为：

Attention(k,q)＝softmax(f_s(k,q))k (30)

fs(k_i,q_j)＝tanh([k_i；q_j]·W_att) (31)

o^h＝Attention^h(k,q) (33)

c＝MHA(context,context) (34)

t＝MHA(context,target) (35)

步骤3、将经过多头自注意力的句子和目标词同时进行多尺度特征学习，通过神经网络的反向传播更新网络参数，具体操作如下：

步骤3.1、如图2所示，自注意力处理的两部分内容分别作为MCCT模块的输入。利用卷积神经网络抽取特征并扩充输入的词向量提升到64通道维度进行训练，再利用通道注意力去除冗余通道信息，使通道数降到16。多通道使整个网络能从多角度学习到不同维度的特征，提取出的信息更加丰富，但不同通道的信息也会有重复部分，所以利用网络的反向传播训练一个注意力权值，去除这部分冗余。再利用卷积层将提取的16通道特征信息整合成单通道的词向量，作为样本句子与词向量的最终特征图。通道间注意力公式为：

Attention_l＝Sigmoid(W_r Re LU(W_cx)) (36)

则整个MCCT模块训练过程可以以卷积公式表示为：

T_c＝Conv1d(input) (37)

MCCT(c)＝Attention_l(T_c) (38)

h^c＝Conv1d(MCCT(c)) (39)

同理，目标词的特征也可按此公式表示：

h^t＝Conv1d(MCCT(t)) (40)

步骤3.2、将提取的样本句子与目标词特征分别处理。句子特征再一次与目标词做注意力操作，计算出高维句子特征与高维目标词相关系数，再与之间的目标词特征做点积操作，得到一个混合特征表示。根据公式(4)，混合特征的公式为：

h^tc＝MHA(h^c,h^t) (41)

步骤4、从整个步骤3可提取出样本句子、词向量以及其混合特征的高维表示，将这三个高维特征向量进行平均池化，压缩为一个向量送入最后的分类器进行分类，采用的方式为直接拼接。平均池化计算公式为：

其中H为向量长度，h_i为样本句子、词向量以及混合特征的维度信息。

由公式(14)计算出样本句子、目标词与混合特征池化后的向量表示h^c _avg、h^t _avg与h^tc _avg。再将其直接拼接压缩为一个向量：

其中，“；”为拼接操作。

步骤5、将最后得到的特征表示输入到softmax分类器中进行情感预测，到的一个三维向量y为最后的预测分布，每个维度代表一个分类类别，分别为积极的、消极的和中立的。使用argmax函数找到数值最大的维度标号，即模型预测的类别P，此过程的公式为：

P＝arg max(y) (46)

其中，C为分类种类数，在本发明中为3，即“积极的”、“消极的”和“中立的”。y为最后的预测分布。

步骤6、利用神经网络的反向传播训练公式中的权值W与偏置b。由于在网络中的收集的样本训练集标签有可能是不正确的，使用标签平滑(Label SmoothingRegularization，LSR)的交叉熵函数代替传统的交叉熵函数。LSR可以防止模型把预测值过度集中在概率较大类别上，把一些概率分到其他概率较小类别上，即从一定程度上防止了网络对训练样本的过拟合。训练样本x标签的真实分布可以表示为q(k|x)，LSR将此分布重写为：

q(k|x)＝(1-∈)q(k|x)+∈u(k) (47)

u(k)服从一个简单的均匀分布：

u(k)＝1/C (48)

其中，y为网络的预测的情感分布，λ为L2正则化系数，θ为设定的超参数。

使用本发明提出的弹幕情感分析方法对网络收集的弹幕样本数据集进行预测，该数据集从300个视频中收集了5000条弹幕样本，其中训练样本4000个，测试样本1000个。预测输出有3类：0、1、2，分别代表“消极的”、“中立的”和“积极的”。

以下是预测实例：

Is obama trying to be just like jimmy carter？he's doing a pretty goodjob so far,he has passed jimmy！May he keep so instead of being MikhailGorbachev who made a mess of things.

当目标词为“obama”时，模型注意力关注部分为“prettygoodjob”，模型预测情感为“积极的”；当目标词为“jimmy”时，模型注意力对整个句子的权重都很平均，预测情感为“中立的”；当目标词为“Mikhail Gorbachev”时，模型注意力关注部分为“amessofthings”，模型预测情感为“消极的”。

预测结果表明基于多尺度注意力卷积编码网络的视频弹幕情感分析方法相比于人工分类节约了60％的时间，并分类的准确率也能达到预期要求。因此，本发明提出的方法可以有效对视频弹幕进行情感分析，并能大大减少人力与时间耗费，实现高效的智能化处理。

Claims

1.基于多尺度注意力卷积编码网络的视频弹幕情感分析方法，其特征在于，步骤如下：

F＝CNN(X) (1)

其中F为提取出的中间特征图，X为图片的输入像素矩阵；

特征图F经过RNN模型的解码翻译出弹幕样本：

S＝RNN(F) (2)

将样本中的目标词和情感标记出来作为数据集，并将其划分为训练集和测试集；对数据集进行样本预处理，即词嵌入向量操作；

使用GloVe的词嵌入向量方法：根据已有的语料库，构建一个由X_ij个元素构成的共现矩阵X，将单词i和其上下文单词j在固定窗口大小的上下中共同出现的次数与权重的乘积定义为X_ij；权重是由GloVe自身的衰减函数来计算：

w_d＝1/d (3)

其中d为上下文单词之间的距离；

GloVe词嵌入向量的训练损失函数为：

其中，

和

为最终求解词向量，f(X_ij)为权重函数

进一步的，f(X_ij)定义为：

其中，α取值为0.75，x_max取值为100；

步骤2、构建HACNN模型，设置HACNN模型的各项超参数数值；将步骤1中GloVe处理之后得到的句子样本和目标词向量输入到HACNN模型，进行第一重注意力机制处理；对句子样本和目标词向量同时做多头自注意力，初步提炼出向量中最相关的信息部分，完成粗编码过程；k＝{k₁,k₂,…,k_n}和q＝{q₁,q₂,…,q_m}分别为注意力的一组键值序列和查询序列，自注意力公式为：

Attention(k,q)＝softmax(f_s(k,q))k (6)

f_s(k_i,q_j)＝tanh([k_i；q_j]·W_att) (7)

则多头注意力公式可定义为：

o^h＝Attention^h(k,q) (9)

为第h头的注意力输出，且h∈[1,n_head]；样本进行自我自注意力，即k与q的值相等；目标词进行交互自注意力，即k与q的值不等；

进一步得到句子和目标词的向量表示：

c＝MHA(context,context) (10)

t＝MHA(context,target) (11)

其中，c为句子的向量表示，t为目标词的向量表示；

步骤3、将得到的句子和目标词的初步向量表示再输入进多通道卷积转换模块MCCT中，MCCT能将输入的特征通道维度升高，能从不同的角度学习到输入的特征；再利用第二重注意力——通道间的注意力，降低CNN的通道维度，去除掉多个通道中冗余的部分，提取多通道中收集的不同特征；MCCT模块的计算方法如下：

f_r＝ReLU(L) (12)

其中，L为：

L＝W_cx (13)

其中，Wc为可训练的权重，x为MCCT模块的输入；则通道注意力Attention_l用以下公式表示：

Attention_l＝Sigmoid(W_rf_r) (14)

其中，W_r为可训练的权重

用卷积网络将输入展开到不同通道进行学习：

T_c＝Conv1d(input) (15)

去除冗余通道信息：

MCCT(c)＝Attention_l(T_c) (16)

其中T_c为卷积收集到的信息，通道数channel和隐藏层reduction为超参数；则最终的特征表示h^c表示为：

h^c＝Conv1d(MCCT(c)) (17)

同样得到h^t的表示：

h^t＝Conv1d(MCCT(t)) (18)

得到的样本表示特征序列为

目标词序列为

步骤4、第三重注意力为样本与目标词之间的注意力；在网络在多通道进一步提取了样本句子与目标词的高维信息后，再一次提取句子中与目标词最相关的部分，即在h^c与h^t之间再做一次注意力；将句子向量与目标词向量做乘积作为注意力权重，进而将此注意力权重与目标词向量做点积得到句子中与目标词相关信息的特征向量表示；此注意力过程使用了公式(6)中的自注意力公式：

h^tc＝MHA(h^c,h^t) (19)

其中h^tc为与目标词最相关的句子表示；

步骤5、将得到的三个特征表示h^c、h^t与h^tc进行平均池化后拼接；将拼接之后的向量表示H输入到最后的分类器分类，平均池化操作为：