CN117892260A

CN117892260A - 一种多模态短视频的情感可视化分析方法及系统

Info

Publication number: CN117892260A
Application number: CN202410306890.2A
Authority: CN
Inventors: 卫青蓝; 周雅琪; 张远; 肖龙辉; 向申恋
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-04-16

Abstract

本发明公开了一种多模态短视频的情感可视化分析方法及系统，属于人工智能技术领域，包括：将多模态短视频输入数据格式预处理模块进行预处理；将预处理得到的视频和音频模态的数据输入无声检测模块，检测音频说话人的停顿点，将视频和音频切分为若干片段；将每个片段的音频数据输入到Whisper模型，转录得到文本模态的数据；利用音频检测的停顿点，对齐视频模态、音频模态和文本模态的数据，将同一片段的三种模态数据输入到V2EM‑RoBERTa模型，得到每个片段的情感预测结果；将各个片段的情感预测结果进行融合，得到多模态短视频整体的情感预测结果。本发明采用上述的一种多模态短视频的情感可视化分析方法及系统，提高了现有模型的文本模态的情感分析性能和准确性。

Description

一种多模态短视频的情感可视化分析方法及系统

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种多模态短视频的情感可视化分析方法及系统。

背景技术

现代多模态视频情感识别的现代技术主要是通过文本、语音、面部表情、手势、姿势等帮助理解人们在视频中传达出来的情绪。总体上看，多模态视频情感识主要是通过获取和分析声音、视觉和文本三个方面的特征，从而训练获得情感识别的能力。在现有的基于多模态的视频情感识别工作中，声学模态特征通常由OpenSmile工具包或基于RNN的深度学习网络提取。随着深度学习的发展，如今的视觉模态特征提取主要依赖于深度学习网络。对于文本模块，常利用NLP技术，比如Transformer和BERT来实现。

以2022年Wei等人提出的FV2ES系统为例。将视频数据输入给FV2ES模型，首先得到输入视频的完整对话文本和音频梅尔谱图。同时，对图像帧进行预处理，将整个视频分成几个短视频片段。接着，使用时间表对齐三种模式的数据。选择同一时期的文本、光谱和图像帧，并将它们直接作为V2EM的输入。在该模型中，针对输入采用分层注意力的方法对输入中音频模态的每个频谱块进行特征提取，通过声谱分割、块内自注意力和块聚合处理，提取分层的谱特征，以获得音频谱的内部关系信息，并增强音频模态的效果。同时，采用基于RepVGG的多分支特征学习和单分支推理结构，提取帧的视觉模态信息。对于文本模态，采用预训练的开源的Albert模型来提取文本特征。同时使用基本的Transformer来获得视觉和听觉的顺序信息。最后，通过加权的前馈网络执行多模式融合，输出最后的各类情感预测概率，选择概率最大者作为最终的情感预测。最后，将多个短视频的情感预测值作为输入视频的情感预测结果。

但是，现有技术中仍存在以下不足：

一是，经过调研与分析，在近三年以来的所有情感分析模型中，文本模态对结果的影响最大。但是V2EM所使用的Albert模型在文本模态上针对情感分析任务的特征提取效果不够优秀，导致对结果影响最大的文本模态的分析不够完善。此外，还有其他的方案尝试采用大语言模型对文本模态进行分析，虽然大语言模型有更多的参数以及更大的规模，但是会导致推理时间变长和推理开销增大，且经过我们的实验，大语言模型在类似系统中的文本模态的情绪预测方面表现不如经过训练的小语言模型好。

二是，在V2EM模型中，视频模态的输入是图像帧，然而完整的图像帧中会出现其他与情绪分析无关的内容，且短视频既有横屏又有竖屏，图像帧的分辨率也有所差异，这些因素会影响到视频模态的情感预测。

三是，现有的数据集大多数只对每个视频的按语段进行切分的片段进行了情感标注，缺乏对视频整体的情感的标注，且通常采用人工的方式对视频进行分段和转录。

发明内容

本发明的目的是提供一种多模态短视频的情感可视化分析方法及系统，可以解决上述背景技术中存在的问题。

为实现上述目的，本发明提供了一种多模态短视频的情感可视化分析方法，包括以下步骤：

S1、将多模态短视频数据集输入数据格式预处理模块进行预处理，实现不同分辨率视频的自适应压缩，得到视频模态和音频模态的数据；

S2、将得到的视频模态和音频模态的数据输入无声检测模块，通过检测音频的说话人的停顿点，将视频和音频切分为若干片段；

S3、将每个片段的音频数据输入到Whisper模型，转录得到文本模态的数据；

S4、利用步骤S2检测的停顿点，对齐视频模态、音频模态和文本模态的数据，将同一时期的三种模态数据输入到V2EM-RoBERTa模型中，得到每个片段的情感预测结果；

S5、将各个片段的情感预测结果进行决策层线性融合，得到多模态短视频整体的情感预测结果。

优选的，步骤S1中，数据格式预处理模块将不同分辨率的多模态短视频进行压缩，并使用FFmpeg工具将MP3、MP4格式的音频转化为AVI、WAV格式，得到视频模态数据和音频模态数据。

优选的，步骤S4中，V2EM-RoBERTa模型中，对于视频模态数据，使用mtcnn facerecognition模型截取视频帧中的人脸图片，针对人脸图片使用RepVGG网络提取视觉特性，使用Transformer模型对视觉特征进行包含时序信息的编码，最后通过FFN层得到视频模态的预测结果；

对于声学模态数据，提取原始音频的对数频率特征，将其展开为二维频率特征图，之后将二维频率特征图划分为16个子图序列，并输入到NesT结构中提取声学特征，然后将声学特征输入到Transformer模型中进行包含时序信息的编码，最后通过FFN层得到音频模态的预测结果；

对于文本的模态数据，使用开源的预训练语言模型RoBERTa提取文本特征，然后使用Transformer模型对文本特征进行包含时序信息的编码，最后通过FFN层得到文本模态的预测结果；

最后，将视频模态、音频模态和文本模态的预测结果使用线性融合的方式得到最终的情感预测结果。

优选的，步骤S1中，多模态短视频数据集的构建方法包括以下步骤：

（1）设计自动分割和转录的方法；

（2）数据集清洗和标注整体情感。

优选的，步骤（1）中，设计自动分割和转录的方法，包括以下步骤：

1.1、根据讲话者的说话节奏，将短视频的音频部分进行自动分割，得到音频片段，获取每个音频片段中每句话的开始时间和结束时间；

1.2、将音频片段输入到Whisper模型，将中文语音和英文语音均转录成英文文本；

1.3、对于每一个音频片段生成的每个句子的字幕文本和分割时间戳输出到csv文件中。

优选的，步骤1.1中，自动分割的实现是通过pydub库中的detect-silence函数检测讲话者讲话时的沉默间隔，将音频自动分割后可以有效提高语音转录文本的质量；

将原始音频分割成与每个句子相对应的短段的阈值为0.8S。

优选的，步骤（2）中，数据集清洗和标注整体情感，包括以下步骤：

2.1、从网站上爬取与事件相关的短视频；

2.2、设计短视频标准并人工选择短视频，得到初始数据集；

2.3、通过评委来为初始数据集中的短视频整体标注情感，筛选短视频后，得到最终数据集即为多模态短视频数据集，并对标注结果进行一致性验证。

为了验证数据集的标注结果的一致性，计算数据集的3位注释者的标签的Fleiss’Kappa，得到K>0.60时，证明标注具有相当程度的一致性。

为了验证标注的质量，还选取了数据集中出现不同确切情感的标注的短视频，并邀请了一位新的标注者再次对这些短视频进行标注，计算Cohen’s Kappa来衡量与原注释的一致性，得到K>0.80时，表明非常好的一致性。

优选的，步骤2.2中，短视频标准如下：

视频画面中仅有一至二位主要人物、主要人物全讲中文或英文、视频时长短于3分钟和有明显的情感倾向；

同时，为了保证数据集的客观性，过滤政策类的相关短视频。

本发明还提供了一种用于实现如上述的一种多模态短视频的情感可视化分析方法的系统，包括数据格式预处理模块、无声检测模块、Whisper模型、数据对齐模块、V2EM-RoBERTa模型、融合模块和可视化模块。

因此，本发明采用上述一种多模态短视频的情感可视化分析方法及系统，其技术效果如下：

（1）本发明设计的数据格式预处理模块通过将视频中的人脸部分通过mtcnn facerecognition模型截取并统一到同一分辨率下，实现了对后续情绪识别模块的输入数据的统一，解决了短视频横竖屏差异和图像帧的分辨率不同，对文本模态情感预测产生影响的问题。

（2）本发明构建了V2EM-RoBERTa模型，并通过使用预训练的小语言模型RoBERTa，提高了现有模型的文本模态的情感分析性能和准确性，并通过实验验证大语言模型在类似任务上的性能不如小语言模型。

（3）本发明使用detect-silence函数将短视频按照讲话者的说话间隔自动进行划分，标注每句话的开始时间与结束时间，通过Whisper模型将音频转化为全部是英文的文本进行标注并设计严谨的方案进行整体情绪的人工标注。

（4）本发明提出了多语言自动分割和转录的方法，提高了构建多模态数据集的效率，结合严谨的人工整体情感标注，构建了一套对短视频整体的情感进行标注的数据集bili_news。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种多模态短视频的情感可视化分析系统的流程图；

图2为V2EM-RoBERTa模型的技术流程图；

图3为系统的每个片段的综合情感预测的可视化结果图；

图4为系统的每个模态的各片段综合情感预测的可视化结果图；

图5为系统的短视频整体情感预测的可视化结果图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

实施例一

本发明提供了一种多模态短视频的情感可视化分析方法，具体包括以下步骤：

S1、对于输入的多模态短视频经过数据格式预处理模块进行预处理，实现不同分辨率视频的自适应压缩，得到视频模态和音频模态的数据；

数据格式预处理模块将不同分辨率的多模态短视频进行压缩，并使用FFmpeg工具将MP3、MP4格式的音频转化为AVI、WAV格式，得到视频模态数据和音频模态数据；

如图2所示，V2EM-RoBERTa模型中，对于视频模态数据，使用mtcnn facerecognition模型截取视频帧中的人脸图片，针对人脸图片使用RepVGG网络提取视觉特性，使用Transformer模型对视觉特征进行包含时序信息的编码，最后通过FFN层得到视频模态的预测结果；

对于声学模态数据，提取原始音频的对数频率特征，将其展开为二维频率特征图，然后将二维频率特征图划分为16个子图序列，输入到NesT结构中提取声学特征，然后将声学特征输入到Transformer模型中进行包含时序信息的编码，最后通过FFN层得到音频模态的预测结果；

在常用的多模态视频情感数据集IEMOCAP数据集和CMU-MOSEI数据集上基于V2EM模型使用RoBERTa语言模型和其他语言模型提取文本特征进行比较实验。在IEMOCAP数据集上，我们的视觉模态使用每隔800帧每秒进行抽取视频帧，epoch设置为30，batchsize设置为1，累积梯度设置为4进行实验，结果如表1所示。

在CMU-MOSEI数据集上，由于该数据集中部分视频较长和显卡的限制，针对视觉模态，每个视频固定抽取10张视频帧作为输入，其他参数设置与IEMOCAP的实验一样，结果如表2所示。由表1和表2可见RoBERTa模型在多个指标上效果最高。同时，还进行了RoBERTa语言模型和目前开源的大语言模型进行对比，其中针对文本模态直接使用统一的prompt命令得到情感判断的回答，即不进行训练而直接推理得到文本模态的情感分析结果，其他的实验参数与之前的实验一样，最终进行各模态结果的线性融合，得到最终的情感分析结果，各指标结果如表3所示，可见RoBERTa模型的各指标效果最高。

表1 IEMOCAP数据集上的实验结果

;

表2 CMU-MOSEI数据集上的实验结果

;

表3 各指标结果

;

实施例二

如图1所示，本发明还提供了一种用于实现一种多模态短视频的情感可视化分析方法的系统，包括数据格式预处理模块、无声检测模块、whisper模型、数据对齐模块、V2EM-RoBERTa模型、融合模块和可视化模块。

数据格式预处理模块对输入的多模态短视频进行预处理，实现不同分辨率视频的自适应压缩，得到视频模态和音频模态数据；

无声检测模块对数据格式预处理模块得到的视频模态数据和音频模态数据进行检测，将视频和音频分为若干片段；

whisper模型将每个片段的音频数据转录得到英文文本模态数据；

数据对齐模块用于将视频模态数据、音频模态数据和文本模态数据进行对齐；

V2EM-RoBERTa模型将同一时期的视频模态数据、音频模态数据和文本模态数据进行分析，得到每个片段的综合情感预测结果，如图3所示，以及每个模态的各片段综合情感预测结果，如图4所示；

融合模块用于将各模态的各片段综合情感预测结果进行决策层线性融合，得到多模态短视频整体的情感预测结果，如图5所示；

可视化模块用于显示多模态短视频整体的情感预测结果，如图3~图5所示。

实施例三

本发明还提供了一种多模态短视频的数据集构建方法，包括以下步骤：

（1）设计自动分割和转录的方法

1.1、根据讲话者的说话节奏，将短视频的音频部分进行自动分割，得到音频片段，获取每个音频片段的每句话的开始时间和结束时间；

自动分割的实现是通过pydub库中的detect-silence函数用于检测讲话者讲话时的沉默间隔；

将原始音频分割成与每个句子相对应的短段的阈值为0.8S；

（2）数据集清洗和标注整体情感

首先，从bilibili网站上爬取了1820个与事件相关的短视频；

然后，设计了短视频标准并人工选择短视频；

视频标准如下：视频画面中仅有一至二位主要人物、主要人物全讲中文或英文、视频时长短于3分钟和有明显的情感倾向。

同时，为了保证数据集的客观性，还过滤了政策类的相关短视频。最终保留165个视频为初始数据集；

最后，通过12评委来为初始数据集中的短视频整体标注情感，删掉了带有不明确情感标注的短视频，最终保留了147个短视频为最终数据集，命名为bili-news数据集；

为了验证数据集的标注结果的一致性，计算了bili-news数据集的3位注释者的标签的Fleiss’Kappa，得到K>0.65，证明标注具有相当程度的一致性。

此外，为了验证标注的质量，还选取了数据集中出现不同确切情感的标注的短视频，并邀请了一位新的标注者再次对这些短视频进行标注，计算了Cohen’s Kappa来衡量与原注释的一致性，得到了K>0.85。这表明了非常好的一致性。

下面通过具体试验来对本发明进行说明。

针对bili-news数据集

（1）V2EM模型的识别过程及情感分析的准确性

使用V2EM模型，文本模态输入短视频标题，音频模态输入短视频的音频，视频模态输入短视频的视频。

针对视频模态的输入，V2EM模型采用固定时间间隔截取图像帧，将其组成图像序列数据进行输入，首先使用现成的mtcnn人脸识别模型对视频帧的人脸部分进行截取，再使用RepVGG网络提取图像特征，利用包含可建模时间信息的位置嵌入层的Transformer模型对数据流进行编码，最后得到局部的预测结果。

针对音频模态的输入，V2EM模型将提取原始音频的对数梅尔频率特征，将其二维展开为二维频率特征图，将特征图分割为16个子图序列输入至NesT结构提取音频特征，再将数据流传入可建模时间信息的Transformer模型对数据进行编码，输出局部的预测结果。

针对文本模态的输入，V2EM模型加载预训练好的Albert模型对文本信息提取语义特征，使用最后一个维度的特征进行前向预测的训练，得到局部的预测结果。V2EM模型的多模态融合使用决策级融合，即使用每个模态的局部决策结果加权输出得到最终的预测结果。

（2）本发明方法的分析过程及准确性

使用本发明方法，我们输入短视频的视频和音频，先将音频进行说话者停顿检测进行切割，再将切割后的音频使用开源的预训练模型Whisper进行语音转录文本，将停顿检测得到的时间点进行视频、音频、文本的切割和对齐后，输入至V2EM-RoBERTa模型中，得到最终的结果。

针对视频模态的输入，V2EM-RoBERTa模型采用固定时间间隔截取图像帧，将其组成图像序列数据进行输入，首先使用现成的mtcnn人脸识别模型对视频帧的人脸部分进行截取，再使用RepVGG网络提取图像特征，利用包含可建模时间信息的位置嵌入层的Transformer模型对数据流进行编码，最后得到局部的预测结果。

针对音频模态的输入，V2EM-RoBERTa模型将提取原始音频的对数梅尔频率特征，将其二维展开为二维频率特征图，将特征图分割为16个子图序列输入至NesT结构提取音频特征，再将数据流传入可建模时间信息的Transformer模型对数据进行编码，输出局部的预测结果。

针对文本模态的输入，V2EM-RoBERTa模型加载预训练好的RoBERTa模型对文本信息提取语义特征，使用最后一个维度的特征进行前向预测的训练，得到局部的预测结果。最后对各模态结果使用决策级融合，得到最终的预测结果。再将切割后的不同的最终的预测结果进行取平均，得到整段视频的预测结果。

表4 针对bili-news数据集的预测结果

;

（3）二者进行对比，突出本发明的优势

由于现实世界中的短视频一般可直接获得的只有视频和音频模态，文本模态一般只能直接获得短视频的标题，因此相较于V2EM模型需要直接上传文本、音频、视频模态数据，本发明方法只需要直接上传音频和视频数据，将音频进行说话者停顿检测和语音转录，即可得到输入至最终的多模态情感分析模型的文本模态数据，更符合对现实世界中的短视频进行分析。同时，针对之后的多模态情感分析模型，V2EM-RoBERTa在文本模态使用的预训练模型RoBERTa进行文本特征提取，该模型较V2EM使用的Albert，使用了更丰富的训练数据、更大的训练批次、更大的训练步长，同时补充了新闻文本相关的数据集，提高了针对现实世界的短视频数据集的情感分析准确度。

因此，本发明采用上述一种多模态短视频的情感可视化分析方法及系统，提高了现有模型的文本模态的情感分析性能和准确性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种多模态短视频的情感可视化分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多模态短视频的情感可视化分析方法，其特征在于，步骤S1中，数据格式预处理模块将不同分辨率的多模态短视频进行压缩，并使用FFmpeg工具将MP3、MP4格式的音频转化为AVI、WAV格式，得到视频模态数据和音频模态数据。

3.根据权利要求2所述的一种多模态短视频的情感可视化分析方法，其特征在于，步骤S4中，V2EM-RoBERTa模型中，对于视频模态数据，使用mtcnn face recognition模型截取视频帧中的人脸图片，针对人脸图片使用RepVGG网络提取视觉特性，使用Transformer模型对视觉特征进行包含时序信息的编码，最后通过FFN层得到视频模态的预测结果；

对于声学模态数据，先提取原始音频的对数频率特征，将其展开为二维频率特征图，之后将二维频率特征图划分为16个子图序列，并输入到NesT结构中提取声学特征，然后将声学特征输入到Transformer模型中进行包含时序信息的编码，最后通过FFN层得到音频模态的预测结果；

4.根据权利要求3所述的一种多模态短视频的情感可视化分析方法，其特征在于，步骤S1中，多模态短视频数据集的构建方法包括以下步骤：

（1）设计自动分割和转录的方法；

（2）数据集清洗和标注整体情感。

5.根据权利要求4所述的一种多模态短视频的情感可视化分析方法，其特征在于，步骤（1）中，设计自动分割和转录的方法，包括以下步骤：

6.根据权利要求5所述的一种多模态短视频的情感可视化分析方法，其特征在于，步骤1.1中，自动分割的实现是通过pydub库中的detect-silence函数检测讲话者讲话时的沉默间隔；

将原始音频分割成与每个句子相对应的短段的阈值为0.8S。

7.根据权利要求6所述的一种多模态短视频的情感可视化分析方法，其特征在于，步骤（2）中，数据集清洗和标注整体情感，包括以下步骤：

2.1、从网站上爬取与事件相关的短视频；

2.2、设计短视频标准并人工选择短视频，得到初始数据集；

8.一种用于实现如权利要求1-7任一项所述的一种多模态短视频的情感可视化分析方法的系统。