CN116384340A

CN116384340A - 一种基于变分跨模态表征的实时弹幕情感分析方法

Info

Publication number: CN116384340A
Application number: CN202310574093.8A
Authority: CN
Inventors: 宋彦; 张勇东; 陈伟东; 罗常凡
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-07-04
Anticipated expiration: 2043-05-22
Also published as: CN116384340B

Abstract

本发明涉及视频弹幕情感分析技术领域，公开了一种基于变分跨模态表征的实时弹幕情感分析方法，包括视频编码、自动门控、文本编码、特征融合、弹幕重构和弹幕情感分析，最终预测得到弹幕情感。本方法利用自动门控模块将周围弹幕作为目标弹幕的上下文信息，并利用文本编码模块对目标弹幕进行特征提取，在编码模块和解码模块之间的特征融合模块会把视频信息融入进来，解码模块中的弹幕重构模块可以学习到不同模态之间的关系，促进情感分析模块预测出弹幕情感。

Description

一种基于变分跨模态表征的实时弹幕情感分析方法

技术领域

本发明涉及视频弹幕情感分析技术领域，具体涉及一种基于变分跨模态表征的实时弹幕情感分析方法。

背景技术

视频弹幕情感分析指对视频实时弹幕的弹幕情感进行分析。本发明解决了两个技术问题：

1.现有的方法倾向于提取句子级的特征进行情感分析和分类，都是基于规则的语法、语义基础之上的，但是弹幕的特点是：短小、口语化、形式多样化、语法不规范等，所以现有的情感分析方法无法准确地对弹幕进行分词以及语法分析等，进而无法准确地进行情感分析。

2.现有弹幕具有长度短、上下文信息缺乏、语言形式多样化、与当时的视频主题相关、交互性强、实时性较强等特点，使得现有的方法无法在短时间内对其进行有效、准确地情感分析。

发明内容

为解决上述技术问题，本发明提供一种基于变分跨模态表征的实时弹幕情感分析方法。本发明的主要改进点，在于利用变分自编码网络的结构进行视频实时弹幕的表征建模并进行情感分析。变分自编码网络的编码模块结合设计的自动门控模块，能够筛选出周围有用的弹幕作为目标弹幕的上下文信息，然后通过编码模块提取目标弹幕的特征。同时，在编码模块和解码模块的中间嵌入特征融合模块对目标弹幕与视频内容的交互进行学习，利用多模态方式将视频信息融合到文本特征中，充分利用有用的信息强化视频弹幕的特征表示，从而对视频弹幕进行准确高效地情感分析。

为解决上述技术问题，本发明采用如下技术方案：

一种基于变分跨模态表征的实时弹幕情感分析方法，将时刻t发出的弹幕

、弹幕

周围的弹幕集合/>

、时刻t以及时刻t前后的帧图像组成的视频/>

输入至完成训练的弹幕情感分析模型，预测得到弹幕/>

的弹幕情感；

弹幕情感分析模型的训练过程，包括以下步骤：

步骤一：使用残差卷积神经网络对视频

的k个帧图像/>

进行编码，并将得到的编码向量串联，得到编码后的帧级别的视频特征/>

；其中/>

为视频/>

的第k个帧图像；

步骤二：使用词嵌入操作，分别对弹幕

和弹幕集合/>

中的m个周围弹幕

进行初步编码，得到编码后的目标弹幕特征/>

和周围弹幕特征

；其中/>

为弹幕集合/>

中第i个周围弹幕，/>

为/>

的周围弹幕特征；

步骤三：利用

对/>

进行筛选过滤操作，得到第i个周围弹幕的周围弹幕表示/>

：

，/>

；

其中

为中间变量，W和b均为可学习参数，/>

表示ReLU函数，/>

代表对应位置元素进行乘积；

步骤四：将所有的周围弹幕表示

串联起来得到周围弹幕表示

；

步骤五：通过文本编码，将周围弹幕表示

和目标弹幕特征/>

进行融合，并提取出强化的目标弹幕特征/>

；

步骤六：将视频特征

和目标弹幕特征/>

输入L层自注意力层和交叉注意力层，迭代得到增强视频特征/>

和增强目标弹幕特征/>

；

步骤七：将增强视频特征

和增强目标弹幕特征/>

输入至多层多头注意力层进行弹幕重构，弹幕重构损失记为/>

：

；/>

；

其中

表示重构操作，/>

表示批处理操作，/>

表示总的时长，/>

表示弹幕重构产生的弹幕，CE表示交叉熵损失；

将增强视频特征

和增强目标弹幕特征/>

经过层正则化和Softmax激活函数，预测得到弹幕/>

的弹幕情感/>

，弹幕情感预测损失记为/>

：/>

；/>

表示真实弹幕情感；

弹幕情感分析模型的整体损失

；其中/>

代表损失平衡参数。

具体地，步骤一中，将编码向量串联得到编码后的帧级别的视频特征

时：

；/>

表示串联操作，/>

表示编码操作。

具体地，步骤二中，分别对弹幕

和弹幕集合/>

中的m个周围弹幕进行初步编码，得到编码后的目标弹幕特征/>

和周围弹幕特征时：

；

；

其中

表示词嵌入操作。

具体地，步骤四中，将所有的周围弹幕表示串联起来得到周围弹幕表示

时：

；

其中

表示串联操作。

具体地，步骤五中，将周围弹幕表示和目标弹幕特征进行融合，并提取出强化的目标弹幕特征

时：

；

其中TE表示文本编码操作，

表示串联操作，周围弹幕融合矩阵/>

和目标弹幕融合矩阵/>

均为学习参数。

具体地，步骤六中，将视频特征

和目标弹幕特征/>

和增强目标弹幕特征/>

时：

向第

层自注意力层输入视频特征/>

，得到下一层的输入视频特征/>

：

；

其中SA表示自注意力层；

向第

层交叉注意力层输入目标弹幕特征/>

，得到下一层的输入目标弹幕特征/>

：

；

其中CA表示交叉注意力层；

经过L层自注意力层和交叉注意力层迭代后，在最后一层，得到视频特征

，即增强视频特征/>

，以及目标弹幕特征/>

，即增强目标弹幕特征/>

。

具体地，步骤七中，将增强视频特征

和增强目标弹幕特征/>

经过层正则化和Softmax激活函数，预测得到弹幕/>

的弹幕情感/>

时：

；

；

其中

表示中间变量，/>

表示串联操作，LN代表层正则化操作，/>

表示Softmax函数，视频情感矩阵/>

、目标弹幕情感矩阵/>

和情感预测矩阵/>

都是学习参数；/>

表示多层感知机。

与现有技术相比，本发明的有益技术效果是：

1.本发明在编码模块结合设计的自动门控模块，利用目标弹幕来对周围的弹幕进行筛选过滤操作，让一些周围的具有相同情感的有用的弹幕可以作为目标弹幕的上下文信息提供帮助，解决弹幕短、没有足够的上下文信息等问题，并通过文本编码模块提取文本特征，提升了目标弹幕的质量。

2.在编码模块和解码模块的中间嵌入特征融合模块，对目标弹幕与视频内容的交互进行学习，充分考虑视频主题与弹幕的关系，获得增强的特征表示，提升了模型对弹幕进行情感分析的性能。

3.利用解码模块，遵循多任务学习的原则，促进各个模块的整体学习效果，提升情感分析模块的性能。

附图说明

图1为本发明中的弹幕情感分析模型的结构示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明应用于视频实时弹幕的情感分析。例如在某一时刻，用户发出了一条弹幕，本发明能够判断出这条弹幕的弹幕情感。

本发明利用自动门控模块将周围弹幕作为目标弹幕的上下文信息，并利用文本编码模块对目标弹幕进行特征提取，位于编码模块和解码模块之间的特征融合模块（由多层自注意力层和交叉注意力层组成）会把视频信息融入进来，解码模块中的弹幕重构模块可以学习到不同模态之间的关系，促进情感分析模块预测出弹幕情感。

本实施例中弹幕情感分析模型的结构如图1所示。本实施例中，弹幕

“和声是怪物”，/>

周围的弹幕集合/>

“这是写给她女儿的”、“好帅啊啊啊”和“加油加油……”作为/>

的上下文内容，与发出弹幕/>

时相对应的视频/>

一起作为弹幕情感分析模型的输入，弹幕情感为完成训练的弹幕情感分析模型中的情感分析模块产生。弹幕情感分析模型使用了变分自编码网络的编码-解码架构。

弹幕情感分析模型训练预测过程如下。

弹幕情感分析模型包括编码模块、特征融合模块和解码模块。

1.编码模块

编码模块包含视频编码模块、自动门控模块以及文本编码模块这三个部分。

编码模块的输入如下：（1）时刻t的弹幕

；（2）/>

到/>

时刻内的视频/>

，视频/>

有k个帧图像，/>

，/>

为设定的数值；（3）/>

周围的弹幕集合/>

，/>

中有m个周围弹幕，

，即与弹幕/>

在同一帧视频内的其他弹幕。

在视频编码模块内，使用残差卷积神经网络，编码k帧视频

，并将得到的编码向量串联，得到编码后的帧级别的视频特征/>

：

；

其中

表示的是串联操作，/>

表示视频编码器进行的编码操作。

使用词嵌入（Embedding）操作，分别对弹幕

和其周围的m个弹幕/>

，进行初步编码，得到编码后的目标弹幕特征/>

和周围弹幕特征

：

；

；

其中

为弹幕集合/>

中第i个周围弹幕，/>

为/>

的周围弹幕特征。

基于视频弹幕的特点，一些周围的具有相同情感的有用的弹幕可以作为目标弹幕的上下文信息提供帮助，本发明通过自动门控模块，利用目标弹幕特征

来对周围弹幕特征/>

进行筛选过滤操作，得到自动门控模块处理后的第i个周围弹幕表示/>

：

；

；

其中

为中间变量，门矩阵W和门偏移向量b是可学习参数，激活函数/>

表示ReLU函数，操作/>

代表对应位置元素进行乘积。

把所有的周围弹幕表示

串联起来得到/>

：

；

其中

表示串联操作。

利用文本编码模块，把周围弹幕表示

和目标弹幕特征/>

进行融合并提取出强化的目标弹幕特征/>

：

；

其中TE代表文本编码模块进行的文本编码操作，

代表串联操作，周围弹幕融合矩阵/>

和目标弹幕融合矩阵/>

均为可学习参数。

2.特征融合模块

特征融合模块由L层自注意力层和交叉注意力层组成。将编码后的视频特征

和目标弹幕特征/>

作为特征融合模块第一层的输入，经过多层迭代，得到相应的融合了其他模态的增强视频特征/>

和增强目标弹幕特征/>

；

特征融合模块第

层的处理过程如下：

在第

层输入视频特征/>

，得到第/>

层的输入视频特征/>

：

；

其中SA表示自注意力层；

在第

层输入目标弹幕特征/>

，得到下一层的输入目标弹幕特征/>

：

；

其中CA表示交叉注意力层。

，即增强视频特征/>

，以及目标弹幕特征/>

，即增强目标弹幕特征/>

。

3.解码模块

解码模块由弹幕重构模块和情感分析模块组成，解码模块以编码模块中得到的增强视频特征

、和增强目标弹幕特征/>

作为输入。

在弹幕重构模块，重构损失被该模块分析计算，并被加入到闭环训练中促进多模态融合模块的学习效果，提升情感分析模块的效果。

弹幕重构模块由多层多头注意力层组成，弹幕重构损失

为：

；

；

其中

表示重构操作，/>

表示批处理操作，/>

表示总的时长，/>

表示弹幕重构产生的弹幕，CE表示交叉熵损失；/>

表示真实的弹幕，即时刻t发出的弹幕。

在情感分析模块，进行弹幕情感预测和弹幕情感预测损失的计算；

进行弹幕情感预测中，输入增强视频特征

和增强目标弹幕特征/>

，得到预测出的弹幕情感/>

：

；

；

其中

表示中间变量，/>

代表串联操作，LN代表层正则化操作，激活函数/>

是Softmax函数，视频情感矩阵/>

、目标弹幕情感矩阵/>

和情感预测矩阵/>

均为可学习参数，/>

表示多层感知机；

弹幕情感预测损失

为：

；

其中p表示真实弹幕情感。

弹幕情感分析模型的整体损失

；

其中

代表损失平衡参数；基于损失和反向传播算法更新弹幕情感分析模型参数，直至弹幕情感分析模型性能达到预期效果。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。