CN111460223B

CN111460223B - 基于深度网络的多模态特征融合的短视频单标签分类方法

Info

Publication number: CN111460223B
Application number: CN202010117185.XA
Authority: CN
Inventors: 苏育挺; 崔天舒; 井佩光
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2023-04-18
Anticipated expiration: 2040-02-25
Also published as: CN111460223A

Abstract

本发明公开了一种基于深度网络的多模态特征融合的短视频单标签分类方法，包括：将模态数据划分为音频模态私有的部分、音频模态和视觉模态公有的部分、以及视觉模态私有的部分，进而获得音频模态的私有域特征矩阵、视觉模态的私有域特征矩阵，音频模态的公有域特征矩阵、和视觉模态的公有域特征矩阵；分别计算音频模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失、和视觉模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失，将两个差异性损失联合作为第一目标函数；将第一至第三目标函数加权获取总目标函数，进而迭代深度网络的网络参数，直至目标函数值收敛，得到最终的分类结果。本发明准确地判断短视频的类别，实现对短视频的分类。

Description

基于深度网络的多模态特征融合的短视频单标签分类方法

技术领域

本发明涉及多媒体环境下的短视频单标签分类领域，尤其涉及一种基于深度网络的多模态特征融合的短视频单标签分类方法。

背景技术

伴随着科学技术的进步和社会的发展，多媒体信息处理及其处理技术日渐兴起。当今，智能手机以及社交软件的迅猛发展，移动互联网的时代已经到来，人们对多媒体信息的需求和获取也有了新的要求。

人们对于多媒体信息的获取方式由原来的台式机、笔记本电脑等到现在的手机可随时随地进行获取，人们对获取的信息形式也由过去冗长的、复杂的、不易处理变成了碎片化的、精炼的。为此，以网络视频为例，现在的网络视频普遍在时间长度上变短，内容上精炼、易于网络共享和传播，而针对这一现象，如何能够准确高效地处理这些短视频成为了现在的研究方向之一。

而现在伴随着抖音、快手等短视频软件的兴起，待处理的短视频数据的数据量已经不足以支持人工进行处理，因此提出一种基于深度网络的多模态特征融合的短视频单标签分类方法是很有意义的。

发明内容

本发明提供了一种基于深度网络的多模态特征融合的短视频单标签分类方法，致力于快速、准确地判断短视频的类别，实现对短视频的分类，详见下文描述：

一种基于深度网络的多模态特征融合的短视频单标签分类方法，所述方法包括：

将模态数据划分为音频模态私有的部分、音频模态和视觉模态公有的部分、以及视觉模态私有的部分，通过上述三部分进而获得音频模态的私有域特征矩阵、视觉模态的私有域特征矩阵，音频模态的公有域特征矩阵、和视觉模态的公有域特征矩阵；

分别计算音频模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失、和视觉模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失，将两个差异性损失联合作为第一目标函数；

将视频数据集的预测标签和真实标签差异性得到的分类损失，作为第二目标函数；

将视频数据集音频模态的公有域特征和视频模态的公有域特征的相似性损失，作为第三目标函数；

将第一至第三目标函数加权获取总目标函数，优化总目标函数，迭代深度网络的网络参数，直至目标函数值收敛，得到最终的分类结果。

其中，所述方法还包括：

使用三条参数不同的I3D神经网络分别作为音频模态的私有网络，视觉模态的私有网络，音频模态和视觉模态的公有网络。

进一步地，

所述音频模态的私有域特征矩阵定义为：将音频模态数据输入到音频模态的私有网络而获得的输出矩阵；视觉模态的私有域特征矩阵定义为：将视觉模态数据输入到视觉模态的私有网络而获得的输出矩阵。

进一步地，

所述音频模态的公有域特征矩阵定义为：将音频模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵；

所述视觉模态的公有域特征矩阵定义为：将视觉模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵。

本发明提供的技术方案的有益效果是：

1、本发明通过结合单一模态公有域特征子空间与私有域特征子空间正交的理论，构建视觉模态、音频模态私有域特征和公有域特征的差异性损失，实现对同一模态下不同域特征的正交性；

2、本发明通过神经网络构建公有域神经网络，通过对神经网络公有域网络全连接层的网络参数进行相似性约束，实现对不同模态公有域特征的相似性；

3、本发明通过结合多种思想以实现最优的效果，尤其适合单标签视频的分类。

附图说明

图1为一种基于深度网络的多模态特征融合的短视频单标签分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实例提供了一种基于深度网络的多模态特征融合的短视频单标签分类方法，参见图1，该方法包括以下步骤：

101：分别计算视频数据集音频模态的私有域特征与公有域特征之间的差异性损失、和视觉模态的私有域特征与公有域特征差异性之间的差异性损失，将两个差异性损失联合作为第一目标函数；

102：将视频数据集的预测标签和真实标签差异性得到的分类损失，作为第二目标函数；

103：将视频数据集音频模态的公有域特征和视频模态的公有域特征的相似性损失，作为第三目标函数；

104：将第一至第三目标函数加权获取总目标函数，优化总目标函数，迭代深度网络的网络参数，直至目标函数值收敛，得到最终的分类结果。

具体实现时，在步骤101之前，该方法还包括：

利用系统的音频信息库Sox对从视频数据库中提取的MP3生成语谱图，作为音频模态的数据集；

利用python的视频处理库opencv从视频数据库中提取图像帧，作为视觉模态的数据集；

利用现有的深度网络I3D从音频模态和视觉模态的数据集中分别提取音频模态的私有域特征矩阵，音频模态的公有域特征矩阵，视觉模态的私有域特征矩阵，视觉模态的公有域特征矩阵。

综上所述，本发明通过结合单一模态公有域特征子空间与私有域特征子空间正交的理论，构建视觉模态、音频模态私有域特征和公有域特征的差异性损失，实现对同一模态下不同域特征的正交性。

实施例2

下面结合计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：构建视频图像模态的数据库时，对视频数据库进行预处理；

即，在构建视频视觉模态数据库时，将视频处理为图片帧流，从图片帧流的中间抽取32帧，构成视频图像模态的数据库；在构建视频音频模态数据库时，将视频分为等间隔的16个视频片段，提取它们的音频信息，构成视频音频模态的数据库。

202：在进行训练的特征子空间中包含音频模态的私有域特征子空间，音频模态和视觉模态的公有域特征子空间，视觉模态的私有域特征子空间；

按照要求，为实现对不同模态数据的域划分，即将数据划分为三部分，分别为：音频模态私有的部分、音频模态和视觉模态公有的部分、以及视觉模态私有的部分，通过上述三部分进而获得四个特征矩阵，分别为：音频模态的私有域特征矩阵、视觉模态的私有域特征矩阵，音频模态的公有域特征矩阵、和视觉模态的公有域特征矩阵。

其中，音频模态的私有域特征矩阵定义为：将音频模态数据输入到音频模态的私有网络而获得的输出矩阵；视觉模态的私有域特征矩阵定义为：将视觉模态数据输入到视觉模态的私有网络而获得的输出矩阵；音频模态的公有域特征矩阵定义为：将音频模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵；视觉模态的公有域特征矩阵定义为：将视觉模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵。

具体实现时，本发明分别采用

表示音频模态的公有域特征矩阵，

表示音频模态的私有域特征矩阵，

表示视觉模态的公有域特征矩阵，

表示视觉模态的私有域特征矩阵，所有矩阵的维度均为N×M，其中N代表数据总数，M代表每个数据的特征向量维度，在本发明实施例中M以512为例进行说明，也可以根据实际应用中的需要选择其他数值，本发明实施例对此不作限制。

203：为保证单一模态下公有特征和私有特征的差异性，依据特征子空间正交性理论，为了满足差异性损失，构建第一个目标函数如下：

其中，T代表对矩阵的转置，

代表对矩阵乘积求F范数的平方。

通过降低第一个目标函数的数值，使得音频模态的公有域特征和私有域特征之间，视频模态的公有特征和私有特征之间满足正交性。

204：为保证不同模态下音频模态和视觉模态公有特征的相似性，依据张量的正态分布理论去探寻线性层参数的关系，构建第二个目标函数；

即，先将提取视觉模态公有域特征和音频模态公有域特征的深度网络中第l层全连接层权重ω^l进行向量化，得到权重向量vec(ω^l)，将得到的权重向量进行正态分布初始化并对权重向量求协方差矩阵得到

为保证其权重张量ω^l的三维空间性，分别获取了该层网络对应的特征维度

类别维度

以及分类维度

同时将其进行克罗内克积分解，获得特征协方差矩阵

类别协方差矩阵

模态分类协方差矩阵

并通过获得的上述参数，构建第二个目标函数如下：

其中，

为第l层网络第k个模态的维度；K为3；

为特征维度数、类别维度数、分类维度数的乘积，

为特征协方差矩阵，类比协方差矩阵和模态分类协方差矩阵的克罗内克积。

205：对得到的音频模态的私有域特征矩阵、公有域特征矩阵，视频模态的私有特征矩阵，公有特征矩阵按照列的维度进行矩阵拼接，并将拼接后的新特征矩阵经过全连接层进行分类，得到最后的预测标签与真实标签做交叉熵损失，构建第三个目标函数：

其中，y_i为视频的真实标签；y_i为视频的预测标签；N_S为对将要预测的视频类别总数。

206：将上述三个目标函数整合到一起，并对不同的目标函数项赋予不同的权重得到最终的目标函数：

L_loss＝min(αL_difference+βL_similarity+γL_classify) (4)

其中，α，β，γ是权重参数。

207：根据优化总目标函数，迭代深度网络的网络参数，直至目标函数值收敛，再将视频数据集经过搭建的深度多模态特征融合网络获取最终的分类结果。

综上所述，本发明实施例通过特征子空间正交性的相关知识，实现对视频单一模态下公有域特征、私有域特征的差异性；通过结合张量分解中克罗内克积和正态分布的相关知识，探寻全连接层网络参数的相关性，实现对视频音频模态和视觉模态的公有特征相似性；最后通过结合视频的分类损失，实现对单标前视频的分类，得到最终的分类结果。

实施例3

下面给出具体的实验对实施例1和2中的方案进行可行性验证，详见下文描述：

本发明实施例的分类性能通过模型对目标域的测试数据的预测标签与真实标签之间的分类准确度(Accuracy)来进行衡量。

其中，N_test是测试数据的总个数，N_ture是测试数据中标签预测正确的样本个数。

为了对本方法的算法性能做基本的评测，本发明实施例使用ai-challenger-mlsv-2018的数据集作为短视频实时分类的数据库，视频的数据集总共分为63类，采用多标签的分类体系。而针对本次完成的是单标签的视频处理任务，从中按照大约10：3的比例划分训练集和测试集，即选取了105316个视频作为训练集，选取了34540个视频作为测试集。

通过在搭建的神经网络上检验本方法的预测性能，根据多次实验后，将权重参数设置为α＝0.75,β＝0.25,γ＝1。

表1


		I3D(audio)	0.3409
I3D(video)	0.7104
		I3D(multi-modal)	0.7560
I3D(us)	0.7716

从表1可以看出特征子空间分离的方法提高了模型的泛化能力，证明了本方法的有效性。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度网络的多模态特征融合的短视频单标签分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于深度网络的多模态特征融合的短视频单标签分类方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的一种基于深度网络的多模态特征融合的短视频单标签分类方法，其特征在于，

4.根据权利要求1所述的一种基于深度网络的多模态特征融合的短视频单标签分类方法，其特征在于，