CN111339362B

CN111339362B - 一种基于深度协同矩阵分解的短视频多标签分类方法

Info

Publication number: CN111339362B
Application number: CN202010081003.8A
Authority: CN
Inventors: 井佩光; 洪道政; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-02-05
Filing date: 2020-02-05
Publication date: 2023-07-18
Anticipated expiration: 2040-02-05
Also published as: CN111339362A

Abstract

本发明公开了一种基于深度协同矩阵分解的短视频多标签分类方法，所述方法包括以下步骤：获取短视频特征和类别特征，并分别分解为若干个基矩阵和一个重构特征矩阵，引入对重构特征矩阵的低秩约束；结合特征属性关联性的学习，对短视频特征和类别特征进行分解；同时利用标签矩阵建立短视频特征和类别特征之间的联系：引入类间关系学习使短视频特征有利于多标签分类；结合F范数整和目标项获取目标函数，利用拉格朗日乘子法优化目标函数，直至函数值收敛，利用得到的基矩阵和分类器得到短视频多标签的分类结果。本发明对短视频多标签进行有效的分类。

Description

一种基于深度协同矩阵分解的短视频多标签分类方法

技术领域

本发明涉及短视频多标签分类领域，尤其涉及一种基于深度协同矩阵分解的短视频多标签分类方法。

背景技术

随着移动通信设备的快速发展，随时随地拍摄并上传内容丰富的短小视频已经变得非常容易。这些内容涉及我们日常生活中方方面面的短小视频被称为“短视频”。相比于传统的视频，短视频的时长更短(短视频的播放时长大约为5-10秒)，所涉及的内容更为丰富，拍摄所需的门槛更低。短视频所具有的传统视频没有的优点，使得短视频更容易占据人们“碎片化”的时间，这也使得在生活节奏快速的今天，短视频比其他多媒体更具商业价值。这一两年来，出现了大量和短视频有关的应用程序，短视频行业的市场规模由2018年的50亿元飙升至2019年的450亿元。

短视频的语义理解对于短视频的应用程序来说至关重要，短视频的语义理解涉及短视频的流行度预测、多标签分类、拍摄场景分析等多个方面，这其中最为重要的便是短视频的多标签分类。由于短视频的特征较为复杂，特征所包含的隐藏信息较多，使得短视频多标签分类成为一个比较困难的工作。

因此提出一种省时有效的短视频多标签分类方法是很有意义的。

发明内容

本发明提供了一种基于深度协同矩阵分解的短视频多标签分类方法，本发明对短视频多标签进行有效的分类，详见下文描述：

基于深度协同矩阵分解的短视频多标签分类方法，所述方法包括以下步骤：

获取短视频特征和类别特征，并分别分解为若干个基矩阵和一个重构特征矩阵，引入对重构特征矩阵的低秩约束；

结合特征属性关联性的学习，对短视频特征和类别特征进行分解；同时利用标签矩阵建立短视频特征和类别特征之间的联系：引入类间关系学习使短视频特征有利于多标签分类；

结合F范数整和目标项获取目标函数，利用拉格朗日乘子法优化目标函数，直至函数值收敛，利用得到的基矩阵和分类器得到短视频多标签的分类结果。

所述获取短视频特征和类别特征具体为：

将每一个短视频按等时间间隔采样出16帧，每一帧的图像用谷歌深度神经网络提取特征，维度为2048维，再经过主成分分析降维，维度由2048减少至1024，之后取这16个1024维度的特征的平均值作为每个短视频的特征；

获取谷歌深度神经网络的最后一层全连接层作为类别特征，并将类别特征的维度由2048维经主成分分析降至1024维。

所述引入对重构特征矩阵的低秩约束具体为：

s.t.X＝Z₁Z₂…Z_lH,A＝L₁L₂…L_lW

其中，||·||_*是核范数，H和W分别是短视频特征和类别特征的重构特征矩阵，Z₁Z₂…Z_l，L₁L₂…L_l分别是短视频特征和类别特征的基矩阵。

所述利用标签矩阵建立短视频特征和类别特征之间的联系具体为：

H^TW≈Q

其中，Q为标签矩阵。

所述结合F范数整和目标项获取目标函数具体为：

s.t.Ω₁,Ω₂,Ψ≥0；tr(Ω₁)＝tr(Ω₂)＝tr(Ψ)＝1.

其中，λ₁，…,λ₆是系数；||·||_F是F范数。

所述利用得到的基矩阵和分类器得到短视频多标签的分类结果具体为：

其中S₂是最终输出的分类结果；是伪逆运算；soft max(·)是softmax归一化操作。

本发明提供的技术方案的有益效果是：

1、本发明利用短视频特征和类别特征在深度分解后互补的关系，挖掘了更多隐藏信息；

2、本发明结合低秩表征、类间关系学习、特征属性间关系学习，使得重构特征的冗余性最低，并且更适合多标签分类；

3、本发明同时提取了短视频特征和类别特征，并对这两种特征同时进行深度矩阵分解，在深度矩阵分解的过程中考虑重构特征的低秩约束，以及重构特征属性间关系学习，以获取携带最少冗余信息的重构特征；

4、本发明利用标签矩阵做桥梁，建立短视频特征和类别特征之间的互补联系，同时引入类间关系学习；

5、本发明首次提出了“类别特征”的概念，并首次建立了短视频特征和类别特征在深度矩阵分解的框架下的互补关系，填补了相关研究在双深度矩阵分解以处理短视频多标签分类问题上的空白。

附图说明

图1为一种基于深度协同矩阵分解的短视频多标签分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于深度协同矩阵分解的短视频多标签分类方法，参见图1，该方法包括以下步骤：

1)获取短视频特征和类别特征，并分别分解为若干个基矩阵和一个重构特征矩阵，引入对重构特征矩阵的低秩约束；

2)结合特征属性关联性的学习，对短视频特征和类别特征进行分解；同时利用标签矩阵建立短视频特征和类别特征之间的联系：引入类间关系学习使短视频特征有利于多标签分类；

3)结合F范数整和目标项获取目标函数，利用拉格朗日乘子法优化目标函数，直至函数值收敛，利用得到的基矩阵和分类器得到短视频多标签的分类结果。

其中，上述步骤1)获取短视频特征和类别特征具体为：

综上所述，本发明实施例通过上述步骤实现了对短视频多标签进行有效的分类。

实施例2

下面结合具体的计算公式、实例，对实施例1中的方案进行进一步地介绍，详见下文描述：

1)将每一个短视频按等时间间隔采样出16帧，每一帧的图像用谷歌深度神经网络提取特征，维度为2048维，再经过主成分分析降维，维度由2048减少至1024，之后取这16个1024维度的特征的平均值作为每个短视频的特征；获取谷歌深度神经网络的最后一层全连接层作为类别特征，并将类别特征的维度由2048维经主成分分析降至1024维；

2)同时将短视频特征X和类别特征A分别分解为l个基矩阵和一个重构特征矩阵：

其中，Z₁Z₂…Z_l，L₁L₂…L_l分别是短视频特征和类别特征的基矩阵；H和W分别是短视频特征和类别特征的重构特征矩阵。

3)引入对重构特征矩阵的低秩约束，以减少冗余信息：

s.t.X＝Z₁Z₂…Z_lH,A＝L₁L₂…L_lW (2)

其中，||·||_*是核范数。

4)在深度矩阵分解的过程中，同时考虑特征属性关联性的学习：

s.t.Ω₁,Ω₂≥0；tr(Ω₁)＝tr(Ω₂)＝1. (3)

其中，Ω₁,Ω₂是属性关联矩阵，它们的值由公式(4)确定：

其中，tr(·)是迹范数；(·)^T是矩阵的转置操作；tr(Ω₁)＝tr(Ω₂)＝1是为了限制公式(3)所对应的模型的复杂性，λ₂,λ₄为系数。

5)利用标签矩阵Q建立短视频特征和类别特征之间的联系：

H^TW≈Q (5)

其中，标签矩阵Q的值由人为标注确定，用来表示每个短视频所带标签的信息。q_ij为标签矩阵第i行第j列的元素，如果第i个短视频带有第j个标签则q_ij值为1，否则为-1。

6)为了使重构的短视频特征更有利于多标签分类，引入了类间关系学习：

s.t.Ψ≥0；tr(Ψ)＝1. (6)

其中，λ₆为系数；Ψ为类间关系矩阵，其值由公式(7)确定：

7)用F范数逼近步骤2)、5)中的约等关系，同时整合步骤3)、4)、6)中的目标项，可得到如下的目标函数：

s.t.Ω₁,Ω₂,Ψ≥0；tr(Ω₁)＝tr(Ω₂)＝tr(Ψ)＝1. (8)

其中，λ₁，…,λ₆是系数；||·||_F是F范数。

8)利用拉格朗日乘子法优化步骤7)中的目标函数，直至函数值收敛；

其中，上述优化步骤为本领域技术人员所公知，本发明实施例对此不做赘述。

9)利用得到的基矩阵Z₁,...,Z_l和分类器W得到短视频多标签的分类结果：

其中,S₂是最终输出的分类结果；是伪逆运算；soft max(·)是softmax归一化操作。

实施例3

下面结合具体的实验对实施例1和2中的方案进行可行性验证，详见下文描述：

选择由AI Challenger发布的MLSV2018短视频多标签数据库作为数据集。将该数据集平均分成5份数据，每份数据按照6折交叉验证的方式进行实验。选择了多标签分类评价指标中的Average precision作为评判模型性能的指标。Average precision的值越大越好。

在5份数据上分别进行训练和测试，最后的结果取五份数据上取得结果的平均。最佳参数为：λ₁＝10,λ₂＝10,λ₃＝5,λ₄＝5,λ₅＝200,λ₆＝100；深度分解最佳层数为6层，每层的降维步长为50，所得的结果如表1所示：

表1

方法	Average precision
		C3D	0.7149±0.0089
GoogleNet	0.6676±0.0044
		SRRS	0.7912±0.0051
LRR	0.5243±0.0057
		DNMF	0.4673±0.0063
MlkNN	0.7891±0.0043
		Ours	0.8017±0.0054

其中，结果表示为：均值±方差的形式，从表1可以看出本发明所提出的模型表现最优。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度协同矩阵分解的短视频多标签分类方法，其特征在于，所述方法包括以下步骤：

结合F范数整和目标项获取目标函数，利用拉格朗日乘子法优化目标函数，直至函数值收敛，利用得到的基矩阵和分类器得到短视频多标签的分类结果；

所述获取短视频特征和类别特征具体为：

同时将短视频特征X和类别特征A分别分解为l个基矩阵和一个重构特征矩阵：

其中，Z₁Z₂…Z_l，L₁L₂…L_l分别是短视频特征和类别特征的基矩阵；H和W分别是短视频特征和类别特征的重构特征矩阵；

引入对重构特征矩阵的低秩约束，以减少冗余信息：

s.t.X＝Z₁Z₂…Z_lH,A＝L₁L₂…L_lW

其中，||·||_*是核范数；

获取谷歌深度神经网络的最后一层全连接层作为类别特征，并将类别特征的维度由2048维经主成分分析降至1024维；

所述引入对重构特征矩阵的低秩约束具体为：

s.t.X＝Z₁Z₂…Z_lH,A＝L₁L₂…L_lW

其中，||·||_*是核范数，H和W分别是短视频特征和类别特征的重构特征矩阵，Z₁Z₂…Z_l，L₁L₂…L_l分别是短视频特征和类别特征的基矩阵；

H^TW≈Q

其中，Q为标签矩阵；

所述结合F范数整和目标项获取目标函数具体为：

s.t.Ω₁,Ω₂,Ψ≥0；tr(Ω₁)＝tr(Ω₂)＝tr(Ψ)＝1.

其中，λ₁，…,λ₆是系数；||·||_F是F范数；

其中，S₂是最终输出的分类结果；是伪逆运算；s o f t m a x(·)是softmax归一化操作。