CN114741556A

CN114741556A - 一种基于场景片段和多模态特征增强的短视频分类方法

Info

Publication number: CN114741556A
Application number: CN202210196211.1A
Authority: CN
Inventors: 孔灿灿; 张博; 朱志良; 于海; 张伟
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-07-12

Abstract

本发明提供一种基于场景片段和多模态特征增强的短视频分类方法，涉及短视频分类技术领域；抓取短视频平台的短视频及其附加信息，对短视频数据进行标注以构建一个短视频数据集；将视频按照场景分割成多个场景片段，并提取出每个场景片段中的多模态信息，包括关键帧、音频和字幕；利用预训练的深度学习模型提取出各个模态特征；动态选择出短视频多个场景片段的同一类型模态中的信息密集型特征和信息稀疏型特征，并利用前者来增强后者语义，通过与原始特征连接获得视频粒度上增强后的模态特征；将视觉模态作为主导模态，其他模态作为辅助模态，将辅助模态中的特有性特征与主导模态连接，得到短视频分类结果。

Description

一种基于场景片段和多模态特征增强的短视频分类方法

技术领域

本发明涉及短视频分类技术领域，尤其涉及一种基于场景片段和多模态特征增强的短视频分类方法。

背景技术

随着移动互联网和社交网络的迅速发展，短视频凭借其“短、快、精”的优势在社交网络上迅速传播，成为当前媒体结构的重要组成部分。研究表明，短视频数据呈现爆炸式的增长，人们迫切地需要从这些海量短视频中快速准确地找到有用的信息，而人类对这些非结构化、内容复杂的数据处理能力是有限的，因此需要智能化、自动化的技术对视频信息进行处理。

多模态融合是指整合多个模态的信息来完成分类或回归任务。短视频是视觉模态、声音模态和文本模态等多个模态的统一体。普遍认为，在观察同一个现象时引入多个模态会增强预测的健壮性，而且接触多个模态的信息，会更有可能捕捉到互补的信息，即只有某个模态特有的信息正好可以补充其他模态没有的信息。另外，多模态特征可以保证在缺失某一个模态时仍然可以有较好的性能。

因此，与传统视频的理解相比，短视频理解存在一些挑战。短视频本身是社交属性、视觉、声音、文本等多个模态的统一体，因此如何有效地从短视频的多个模态中提取特征并将其融合以充分挖掘其中的潜在信息从而完成短视频理解就显得非常重要。

经过调查发现，对一个短视频来说，在视频的不同场景片段中同一模态的贡献度是不同的，即每一模态在不同的时间点可能表现出不同形式和不同等级的噪声。由于用户在制作短视频时会添加一些包含其他意图的额外干扰信息，或由于拍摄条件的瞬间改变，或由于镜头转场，都会导致一个短视频不同时间段内的模态质量有所差异。因此需要一种技术对短视频的不同场景片段的模态进行分析，以有效解决短视频分类的问题。

发明内容

针对现有技术的不足，本发明提供一种基于场景片段和多模态特征增强的短视频分类方法。

一种基于场景片段和多模态特征增强的短视频分类方法，具体为以下步骤：

步骤1：爬取短视频平台的短视频及其附加信息，构建一个短视频数据集；附加信息包括视频描述、标签、视频时长、播放次数；

步骤1.1：选取短视频平台上一些粉丝数量较多的用户作为种子用户，爬取种子用户的粉丝列表的视频相关信息，包括视频描述、标签、视频时长、播放次数信息；

步骤1.2：对步骤1.1得到的视频相关信息中的标签提取特征，使用聚类算法K-means进行聚类，把越相似的标签聚成一簇；

步骤1.3：根据步骤1.2聚类得到的一些簇，人工定义每个簇所属类别，称之为类别关键词，如美食、萌宠、美妆；

步骤1.4：在短视频平台上搜索处输入步骤1.3的类别关键词，爬取搜索出的短视频及其附加信息，构建一个短视频数据集；

步骤2：将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段，并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态；

步骤2.1：使用场景识别分割工具将短视频数据集中的每个短视频按照场景分割成多个场景片段，并保存分割时产生的关键帧图片作为视觉模态；

步骤2.2：使用开源视频分割工具从每个场景片段中分离出音频文件，作为声音模态；

步骤2.3：使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息，作为字幕模态；

步骤3：利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量，并统一保存到一个h5文件中；预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器；

步骤3.1：使用预训练的视觉模态特征提取器为每个关键帧提取视觉特征，然后对每个场景片段的所有关键帧采用最大池化策略，最终为每个场景片段生成一个视觉模态特征向量；

步骤3.2：使用预训练的声音模态特征提取器来提取声音特征；然后对音频文件的特征采取最大池化，最终为每个场景片段生成一个声音模态特征向量；

步骤3.3：将每个场景片段的关键帧中的字幕连接成一个句子，然后使用预训练的文本特征提取器为从每个场景片段中的字幕信息生成一个字幕模态特征向量；

步骤3.4：将视觉、声音、字幕模态特征向量与该视频对应的类别保存到h5文件中；

步骤4：对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征，并利用信息密集型特征来增强信息稀疏型特征语义；将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征，连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征；

步骤4.1：根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示：

其中，

和

分别表示第j个场景片段的模态m的原始特征向量、高级语义特征向量、激活函数和可训练的权重矩阵，m∈{v,a,s}分别表示视觉模态、声音模态和字幕模态；

步骤4.2：从多个场景片段的同一类型模态中，动态选择出信息密集型特征和信息稀疏性特征，所述的同一类型模态是指同为视觉模态或声音模态或字幕模态；

步骤4.2.1：初始化可学习的权重矩阵

C表示类别数量，D_m表示模态m的特征维度，计算多个场景片段的同一类型模态对应的权重矩阵的分数大小，所述同一类型模态是指视觉模态或声音模态或字幕模态；

其中，Q[α,β]表示矩阵Q中第α行第β列的权重值，

表示第j个场景片段的模态m的权重矩阵的分数；

步骤4.2.2：计算多个场景片段的同一类型模态的分数最大的权重矩阵，表示为Z，该权重矩阵对应的特征为信息密集型的场景片段模态特征，表示为

其他场景片段的该模态特征为稀疏型特征,表示为

其中M为一个视频的场景片段的个数，Max表示求最大值函数；

步骤4.3：计算信息密集型特征与信息稀疏型特征之间的欧式距离

计算所有信息密集型与信息稀疏型特征的欧式距离之和loss，将其作为损失函数，使信息稀疏型特征向信息密集型特征靠近，实现利用信息密集型特征增强信息稀疏型特征的语义；

步骤4.4：根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征；

步骤4.4.1：将语义增强后的特征向量与语义增强前的特征向量连接，并输入两层神经网络中以学习更具有表达能力的特征向量即场景片段粒度；

其中conc表示连接函数，

表示连接后的第j个场景片段的模态m的特征向量，

表示可训练的权重矩阵，σ表示激活函数，

表示第j个场景片段的模态m的更具有表达能力的特征向量；

步骤4.4.2：将经过步骤4.4.1的多个场景片段中同一类型的模态特征连接起来，获得视频粒度上的多种模态特征向量；

其中，

表示第i个视频模态m的特征向量；

步骤4.4.3：将经过步骤4.4.2获得的多种模态特征向量分别输入一个全连接的softmax层，得到在短视频分类中的概率分布；

计算短视频的多种模态特征向量对于短视频类别的概率分布：

其中，W_m表示可训练的权重矩阵，softmax表示归一化指数函数，

表示模态m对于短视频类别的概率分布；

计算多种模态特征向量预测类别与真实类别的交叉熵损失：

N表示短视频的数量，yi表示第i个短视频的真实类别；

步骤5：将视频粒度上的视觉模态特征向量作为主导模态，视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态，计算主导模态与辅助模态之间的关联性，获得辅助模态中与主导模态关联性不大的特有性分数向量，将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类，从而得到短视频分类结果；

步骤5.1：将视频粒度上的视觉模态作为主导模态，视频粒度上的声音模态和字幕模态作为辅助模态，连接辅助模态与主导模态特征记作E_vt，计算辅助模态与主导模态的特征关联性分数向量记作R_vt，R_vt中的分值越小，表示辅助模态中的该特征与主导模态关联性越小；

E_vt＝conc(E_v,E_t)

R_vt＝softmax(W_v·E_vt)

其中，E_v表示视频粒度上的主导模态特征即视觉模态特征，E_t表示视频粒度上的辅助模态特征即声音模态特征或字幕模态特征，t∈{a,s}分别表示声音模态和字幕模态，v表示视觉模态，conc表示连接函数，softmax表示归一化指数函数，W_v表示可训练的权重矩阵；

步骤5.2：通过可学习的阈值ρ_m，从特征关联性分数向量中获得辅助模态中与主导模态关联性不大的特有性分数向量γ_vt：

其中，R_vt[i]表示关联性分数向量R_vt中位置i的值，γ_vt[i]表示特有性分数向量γ_vt中位置i的值；

步骤5.3：将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态特征连接成该视频的最终多模态融合特征向量，短视频的最终多模态融合特征向量为：

其中，γ_va和γ_vs分别表示声音模态和字幕模态对视觉模态特征关联性不大的特有性分数向量，E_a和E_s分别表示声音模态特征和字幕模态特征，

表示叉乘即两个向量对应元素相乘；

步骤5.4：将最终的多模态融合特征向量输入一个全连接的softmax层，得到在短视频分类中的概率分布，对该概率分布进行损失补偿，得到短视频分类结果；

计算短视频的最终多模态融合的特征向量对于短视频类别的概率分布：

其中，W_p表示可训练的权重矩阵，softmax表示归一化指数函数；

计算预测类别与真实类别的交叉熵损失：

将交叉熵损失与步骤4.3得到的loss₁和步骤4.4.2得到的loss₂相加作为目标函数，得到场景分类结果；

Loss＝loss₁+loss₂+loss₃。

本发明的有益效果：

针对短视频是一个多模态融合体的特点，本发明构建了一个短视频数据集，用于短视频分类。本方法挖掘出短视频中的字幕模态，可以有效的补充模态信息。另外本发明提供了一种基于场景片段的多模态特征增强及补充短视频分类方法，从场景片段这一更细粒度上分析了不同模态的质量，动态选择出信息密集型特征和信息稀疏型特征，并利用前者来增强后者的语义信息，使其具有更强的表达能力。另外本方法将视觉模态作为主导模态，其他模态作为辅助模态，将辅助模态的特有性特征与主导模态连接，共同实现短视频分类。综上，本发明可以对短视频分类提供更好的性能。

附图说明

图1为本发明中场景片段的分割示例图。

图2为本发明中字幕模态的挖掘示例图。

图3为本发明中一种基于场景片段的多模态特征增强及补充的短视频分类方法的框架图。

具体实施方式

下面结合附图和实施例对一种基于场景片段和多模态特征增强的短视频分类方法做进一步说明；

步骤2.1：使用场景识别分割工具如开源工具PySceneDetect将短视频数据集中的每个短视频按照场景分割成多个场景片段，并保存分割时产生的关键帧图片作为视觉模态；如图1所示。在分割时选择检测场景片段的方法为detect-content，通过比较每个帧，依次查找内容的变化。另外，限制每个场景片段的最低时长为3秒，以及每个场景片段取出5帧图片作为关键帧。

每个场景片段的命名格式为video_id-Scene-n.mp4，其中n表示该视频的第n个场景片段，将一个视频的多个场景片段保存在以video_id命名的文件夹中。每个关键帧的命名格式为video_id-Scene-n-m.png，其中n表示第n个场景片段，m表示第m个关键帧，将多个关键帧保存在以video_id命名的文件夹中。

步骤2.2：使用开源视频分割工具如FFmpeg(Fast Forward Moving PictureExperts Group，快进动态图像专家组)从每个场景片段中分离出音频文件，作为声音模态；

每个音频文件的命名格式为video_id-Scene-n.m4a，其中n表示第n个场景片段，将一个视频的多个场景片段的音频文件保存在以video_id命名的文件夹中。

步骤2.3：使用开源OCR工具如PaddleOCR从步骤2.1中获取的关键帧图片中提取出字幕信息，作为字幕模态；

每个场景片段的字幕信息保存在video_id-Scene-n.csv文件中，其中第一列为该字幕所对应关键帧的名字，第二列为提取出的字幕信息。

步骤3.1：使用预训练的视觉模态特征提取器如Transformer模型为每个关键帧提取768维的视觉特征，然后对每个场景片段的所有关键帧采用最大池化策略，最终为每个场景片段生成一个768维的视觉模态特征向量；

步骤3.2：使用预训练的声音模态特征提取器如使用在Audioset音频数据集上预训练的VGGish模型来提取声音特征；每个音频提取了nums_frames*128维的特征，其中nums_frames＝音频时长/0.96。然后对音频文件的特征采取最大池化，最终为每个场景片段生成一个128维的声音模态特征向量；

步骤3.3：将每个场景片段的关键帧中的字幕连接成一个句子，如图2所示。然后使用预训练的文本特征提取器如ALBERT模型为从每个场景片段中的字幕信息生成一个312维的字幕模态特征向量；

步骤3.4：将视觉、声音、字幕模态特征向量与该视频对应的类别(以one-hot编码)保存到h5文件中；

步骤4：对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征(比如n个场景片段中的视觉模态特征)，并利用信息密集型特征来增强信息稀疏型特征语义；将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征，连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征；

其中

和

步骤4.2.1：初始化神经网络中可学习的权重矩阵

其中Q[α,β]表示矩阵Q中第α行第β列的权重值，

表示第j个场景片段的模态m的权重矩阵的分数；

其他场景片段的该模态特征为稀疏型特征,表示为

其中M为一个视频的场景片段的个数，Max表示求最大值函数；

其中conc表示连接函数，

表示连接后的第j个场景片段的模态m的特征向量，

表示可训练的权重矩阵，σ表示激活函数，

表示第j个场景片段的模态m的更具有表达能力的特征向量；

其中，

表示第i个视频模态m的特征向量；

表示模态m对于短视频类别的概率分布；

计算多种模态特征向量预测类别与真实类别的交叉熵损失：

N表示短视频的数量，yi表示第i个短视频的真实类别；

步骤5：选择模态质量较好的模态作为主导模态，实验表明一般而言视觉模态质量最佳。因此本方法将视觉模态作为主导模态，将视频粒度上的视觉模态特征向量作为主导模态，视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态，计算主导模态与辅助模态之间的关联性，获得辅助模态中与主导模态关联性不大的特有性分数向量，将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类，从而得到短视频分类结果；算法模型如图3所示；

E_vt＝conc(E_v,E_t)

R_vt＝softmax(W_v·E_vt)

表示叉乘即两个向量对应元素相乘；

步骤5.4：将最终的多模态融合特征向量经过一个全连接的softmax层，得到在短视频分类中的概率分布，对该概率分布进行损失补偿，得到短视频分类结果；

计算预测类别与真实类别的交叉熵损失：

Loss＝loss₁+loss₂+loss₃。

另外，本发明在构建的数据集上进行了实验，实验表明，本发明提出的一种基于场景片段的多模态特征增强及补充的短视频方法在Macro-F1上的结果为0.9835，和Micro-F1的结果为0.9851。

Claims

1.一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，具体包括以下步骤：

步骤5：将视频粒度上的视觉模态特征向量作为主导模态，视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态，计算主导模态与辅助模态之间的关联性，获得辅助模态中与主导模态关联性不大的特有性分数向量，将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类，从而得到短视频分类结果。

2.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，所述步骤1具体为：

步骤1.4：在短视频平台上搜索处输入步骤1.3的类别关键词，爬取搜索出的短视频及其附加信息，构建一个短视频数据集。

3.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，所述步骤2具体为：

步骤2.3：使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息，作为字幕模态。

4.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，所述步骤3具体为：

步骤3.4：将视觉、声音、字幕模态特征向量与该视频对应的类别保存到h5文件中。

5.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，所述步骤4具体为：