CN112287170B

CN112287170B - 一种基于多模态联合学习的短视频分类方法及装置

Info

Publication number: CN112287170B
Application number: CN202011089720.1A
Authority: CN
Inventors: 苏育挺
Original assignee: Quanzhou Jinda Intelligent Research Institute Co ltd
Current assignee: Quanzhou Jinda Intelligent Research Institute Co ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2022-05-17
Anticipated expiration: 2040-10-13
Also published as: CN112287170A

Abstract

本发明提供一种基于多模态联合学习的短视频分类方法及装置，包括如下步骤：A、对短视频提取视觉模态特征z_v、声音模态特征z_a和文本模态特征z_t；B、分别学习潜在表示特征

潜在表示特征

潜在表示特征

和潜在表示特征

C、构建重建损失函数

D、得到由标签向量组成的标签特征矩阵P；E、利用Multi‑head Attention得到短视频的最终表示；F、对最终表示做多标签分类，得到分类损失函数

H、由重建损失函数

和分类损失函数

构建目标函数

本发明充分利用短视频的模态信息和标签信息，有效解决短视频多标签分类问题，并提高了分类准确度。

Description

一种基于多模态联合学习的短视频分类方法及装置

技术领域

本发明涉及一种基于多模态联合学习的短视频分类方法及装置。

背景技术

近年来，随着数字媒体技术的飞速发展、智能终端的普及以及社交网络的火热，越来越多的信息采用多媒体内容呈现，高清摄像头、大容量存储和高速的网络连接为用户创造了极其便利的拍摄和分享条件，从而创造了海量的多媒体数据。

短视频作为一种新型的用户生成内容，凭借其创作门槛低、碎片化内容以及较强的社交属性等独特优势在社交网络中受到了极大的欢迎。尤其是2011年以来，伴随着移动互联网终端的普及和网络的提速以及流量资费的降低，短视频迅速获得了包括各大内容平台、粉丝以及资本等多方的支持与青睐。有数据显示，全球移动视频流量已经占据移动数据总流量的一半以上，且持续高速增长。规模庞大的短视频数据很容易湮没用户需要的信息，使得用户难以找到其所期望的短视频信息内容，所以如何有效处理和利用这些信息变得至关重要。

以深度学习为代表的人工智能技术已经成为当今最流行的技术之一，被广泛运用到计算机视觉等众多领域中。因此，将其引入到短视频的分类任务中不仅有利于推动计算机视觉以及多媒体领域相关课题的创新，对于用户体验的提升以及工业界的发展也具有很重要的应用价值和现实意义。

发明内容

本发明的目的是针对现有技术的不足，提出一种基于多模态联合学习的短视频分类方法及装置，充分利用短视频的模态信息和标签信息，有效解决短视频多标签分类问题，并提高了分类准确度。

本发明通过以下技术方案实现：

一种基于多模态联合学习的短视频分类方法，其特征在于：包括如下步骤：

A、对一个完整的短视频提取视觉模态特征z_v、声音模态特征z_a和文本模态特征z_t；

B、分别学习视觉模态特征z_v的潜在表示特征

考虑声音模态特征z_a后的视觉模态特征的潜在表示特征

考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

和考虑声音模态特征z_a及文本模态特征z_t后的视觉模态特征的潜在表示特征

C、将步骤B中的四种视觉模态的潜在表示特征堆叠成矩阵

将矩阵A输入自动编码器中，得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示

并由此构建重建损失函数

D、获取步骤A所述短视频的标签信息，采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示，得到由标签向量组成的标签特征矩阵P，其中标签特征矩阵P可以采用随机初始化方式得到；

E、利用Multi-head Attention，对公共潜在表示特征H和标签特征矩阵P进行信息融合，得到步骤A所述短视频的最终表示；

F、对步骤E中的最终表示做多标签分类，得到分类损失函数

G、由重建损失函数

和分类损失函数

构建目标函数

并训练至收敛状态，其中，0＜λ_r＜1。

进一步的，所述步骤B包括：

利用DNN网络学习视觉模态特征z_v的潜在表示特征

其中，

表示特定于视觉特征的映射器，由DNN网络构成，θ₀为DNN网络的模型参数；

考虑声音模态特征z_a后，计算视觉模态特征z_v和声音模态特征z_a的相似程度：

把这种相似程度加入视觉模态特征z_v中得到

再通过全连接层学习潜在表示特征

其中，f_c表示全连接层，θ₁为全连接层待学习参数；

考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

为：

其中，

θ₂为全连接层待学习参数；

考虑声音模态特征z_a及文本模态特征z_t后，首先获取声音模态特征z_a和文本模态特征z_t的联合信息z_a&t：

潜在表示特征

为：

其中，

z′_v＝tanh(θ′z_v+b)，d_h表示潜在表示特征的维度，θ₃为全连接层待学习参数，θ′表示变换权重，b表示偏重。

进一步的，所述步骤C中的公共潜在表示特征H为：H＝g_ae(A；W_ae)，其中，

重建表示

为：

其中，

重建损失函数

为：

其中，g_ae,g_dg为普通的神经网络层，W_ae,W_dg为对应网络的待学习参数。

进一步的，所述步骤D包括如下步骤：

D1、获取步骤A所述短视频的标签信息：采用

表示标签集合，考虑图G(V，E)(V＝{1,2,...,C}表示标签节点,E∈|V|×|V|表示对应边集合)，对于任意标签节点i，其邻域节点被定义为ρ(i)＝{j:(i,j)∈E}∪{i}，标签节点特征集合为Q＝[q₁,q₂,...,q_C]，

为标签C初始特征，

表示每个标签的原始特征维度是m，C表示标签类别数量；

D2、引入逆协方差矩阵

学习标签间的关系结构：

s.t.S≥0；tr(S)＝1；

D3、将标签节点特征集合Q输入图注意层，得到新的标签节点特征集合Q'：

表示偏差，M_h表示应用在每个标签节点上的特征映射函数，d_k表示标签节点特征集合的维度；

D4、更新标签节点特征的相关系数矩阵S'：

s.t.S'≥0；tr(S')＝1；

D5、建立两到三个图注意层，重复D3、D4步骤，得到由标签向量组成的标签特征矩阵P：

d_u表示标签向量的特征维度。

进一步的，所述步骤E包括：

E1、将公共潜在表示特征H作为查询矩阵Q；

E2、计算每一个视觉模态特征的潜在表示特征与每一类标签向量的余弦相似度：

以得到相关性矩阵R:

其中，p_i是取自标签特征矩阵P中的每一个标签向量，n＝[0,1,2,3]；

E3、获取键矩阵K：

E4、将自标签特征矩阵P作为值矩阵V；

E5、将查询矩阵Q、键矩阵K和值矩阵V作为Multi-head Attention的输入，得到所述短视频的最终表示：

其中，

为投影矩阵，k＝[0,1,2,3]。

进一步的，所述步骤F中的分类损失函数

为：

其中，

进一步的，所述步骤A包括：

先对所述短视频关键帧做ResNet，再对所有帧做平均池操作以获取视觉模态特征z_v：

利用长短期记忆网络提取声音模态特征z_a：

利用多层感知器提取文本模态特征z_t：

其中，X＝{X_v,X_a,X_t}表示所述短视频，其中X_v、X_a和X_t表示该短视频的原始视觉信息、原始音频信息和原始文本信息；β_v,β_a,β_t分别表示用来提取短视频的视觉模态特征、音频模态特征和文本模态特征的网络参数。

进一步的，还包括步骤H：输入短视频训练样本集合，直至目标函数

收敛，再输入短视频测试样本集合进行测试，并利用覆盖率、排名损失和平均精度三个评价指标来评估测试结果。

本发明还通过以下技术方案实现：

一种基于多模态联合学习的短视频分类装置，包括：

特征提取模块：用于对一个完整的短视频提取视觉模态特征z_v、声音模态特征z_a和文本模态特征z_t；

潜在表示特征获取模块：用于分别学习视觉模态特征z_v的潜在表示特征

考虑声音模态特征z_a后的视觉模态特征的潜在表示特征

考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

重建损失函数构建模块：用于将四种视觉模态的潜在表示特征堆叠成矩阵

并由此构建重建损失函数

标签特征矩阵获取模块：用于获取步骤A所述短视频的标签信息，采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示，得到由标签向量组成的标签特征矩阵P，其中标签特征矩阵P可以采用随机初始化方式得到；

目标函数构建模块：用于利用Multi-head Attention，对公共潜在表示特征H和标签特征矩阵P进行信息融合，得到所述短视频的最终表示；对步骤E中的最终表示做多标签分类，得到分类损失函数

由重建损失函数

和分类损失函数

构建目标函数

并训练至收敛状态，其中，0＜λ_r＜1。

本发明具有如下有益效果：

1、本发明针对短视频的多模态属性探究基于视觉模态的短视频内容信息表示，以视觉模态为主，从模态缺失角度构建四个潜在表示特征的子空间，来学习模态间信息互补性，获得四个不同的潜在表示特征，又考虑到视觉模态信息的一致性利用自动编码网络学习视觉模态信息的公共潜在表示，这一过程同时考虑到模态缺失问题和模态信息的互补性及一致性，充分利用了短视频的模态信息；本发明探究了短视频的标签信息空间，从逆协方差估计和图注意网络两个层面考虑，提供了标签相关性学习的一种新思路；本发明针对短视频“短，信息不足”的劣势，从内容信息和标签信息两个角度分别学习相关表示，最后利用Multi-Head Attention融合层获得丰富的短视频表示，整个方案充分利用短视频的各模态信息，有效解决短视频多标签分类问题，并提高了分类准确度。

2、本发明利用覆盖率、排名损失和平均精度三个评价指标来评估测试分类结果，确保结果的客观性。

附图说明

下面结合附图对本发明做进一步详细说明。

图1为本发明的流程图。

具体实施方式

如图1所示，基于多模态联合学习的短视频分类方法，包括如下步骤：

A、对一个完整的短视频提取视觉模态特征z_v、声音模态特征z_a和文本模态特征z_t；具体包括：

先对所述短视频关键帧做ResNet(残差网络)，再对所有帧做平均池操作以获取视觉模态特征z_v：

利用长短期记忆网络提取声音模态特征z_a：

利用多层感知器提取文本模态特征z_t：

其中，X＝{X_v,X_a,X_t}表示所述短视频，其中X_v、X_a和X_t表示该短视频的原始视觉信息、原始音频信息和原始文本信息；β_v,β_a,β_t分别表示用来提取短视频的视觉模态特征、音频模态特征和文本模态特征的网络参数，具体为大于0的自定义参数，实际的取值范围要结合特定的短视频分类任务设定；d_v、d_a、d_t分别表示z_v、z_a、z_t的维数；

B、分别学习视觉模态特征z_v的潜在表示特征

考虑声音模态特征z_a后的视觉模态特征的潜在表示特征

考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

具体包括：

利用DNN网络学习视觉模态特征z_v的潜在表示特征

其中，

余弦相似度通过计算两个向量的夹角余弦值来评估他们的相似度，向量夹角的余弦值可以用来表征这两个向量的相似性，而且夹角越小，余弦值越接近于1，方向就越吻合，两个向量就越相似；因此把这种相似性加入到原始视觉信息，然后再去学习视觉特征的潜在表示特征，以此实现其他模态信息对视觉信息的补充，具体过程如下所示：

把这种相似程度加入视觉模态特征z_v中得到

再通过全连接层学习潜在表示特征

其中，f_c表示全连接层，θ₁为全连接层待学习参数；

同理，考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

为：

其中，

θ₂为全连接层待学习参数；

当声音模态特征z_a、文本模态特征z_t和视觉模态特征z_v都存在时，考虑把声音信息和文本信息联合来补充视觉信息，具体为：

潜在表示特征

为：

其中，

z′_v＝tanh(θ′z_v+b)，d_h表示潜在表示特征的维度，θ₃为全连接层待学习参数，θ′表示变换权重，b表示偏重，

表示向量与向量相乘；做z′_v＝tanh(θ′z_v+b)变换，是为了保证原始视觉特征与z_a&t的维度一致；

C、利用自动编码网络可学习视觉模态信息的一致性，四个子空间学到的四种潜在表示特征应该是相似的，理论上它们都表征同一视觉内容，因此，可采用自动编码器将学习到的四种潜在表示特征尽可能地投影到一个公共空间去，即获取公共潜在表示特征；如此有两个优点，一方面在一定程度上防止了数据的过拟合，对数据进行降维，得到更为紧凑的视觉特征潜在表示，另一方面，加强了四个子空间之间的有效联系，使子空间学习变得更有意义；将步骤B中的四种视觉模态的潜在表示特征堆叠成矩阵

并由此构建重建损失函数

其中，自动编码器为现有技术；

公共潜在表示特征H为：H＝g_ae(A；W_ae)，其中，

重建表示

为：

其中，

重建损失函数

为：

其中，g_ae,g_dg为普通的神经网络层，W_ae,W_dg为对应网络的待学习参数；

D、获取步骤A所述短视频的标签信息，采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示，得到由标签向量组成的标签特征矩阵P，其中标签特征矩阵P可以采用随机初始化方式得到；具体为：

D1、获取步骤A所述短视频的标签信息：首先引入图的概念，采用

表示标签集合(标签集合是指类别的集合，在任务的最初就已固定，属于已知条件，标签类别可包括舞蹈、健身、唱歌、场景等多种不同类型标签)，考虑图G(V，E)(V＝{1,2,...,C}表示标签节点,E∈|V|×|V|表示对应边集合)，对于任意标签节点i，其邻域节点被定义为ρ(i)＝{j:(i,j)∈E}∪{i}，标签节点特征集合为Q＝[q₁,q₂,...,q_C]，

为标签C初始特征，

表示每个标签的原始特征维度是m，C表示标签类别数量(标签类别数量为初始条件设定，属于已知条件；短视频分类泛指一系列短视频分类任务，不同任务中C的大小由具体分类任务指定，比如短视频的10分类任务，则C＝10；1000分类任务，则C＝1000)；

D2、由于标签集合

中的初始数据关系是未知的，因此引入逆协方差矩阵

学习标签间的关系结构：

s.t.S≥0；tr(S)＝1；

*表示向量与数的乘积，

D4、更新标签节点特征的相关系数矩阵S'：

s.t.S'≥0；tr(S')＝1；

d_u表示标签向量的特征维度；

E、利用Multi-head Attention，对公共潜在表示特征H和标签特征矩阵P进行信息融合，得到步骤A所述短视频的最终表示；具体包括：

E1、将公共潜在表示特征H作为查询矩阵Q；

E2、对于键矩阵K，考虑标签表示和视觉特征表示的相关性，计算每一个视觉模态特征的潜在表示特征与每一类标签向量的余弦相似度：

以得到相关性矩阵R:

E3、获取键矩阵K：

E4、将自标签特征矩阵P作为值矩阵V；

E5、Multi-head Attention的输入是查询矩阵Q、键矩阵K和值矩阵V，对查询矩阵Q、键矩阵K做线性变换(线性变换为现有技术)，并计算注意力权重α_k：

根据注意力权重α_k，计算短视频的标签向量输出表示head_k：

因查询矩阵Q有明显的四种语义维度，故k＝[0,1,2,3]；

将四次标签向量输出表示串联起来，并整体做一次线性变换即得到所述短视频的最终表示：

其中，

为投影矩阵；

F、对步骤E中的最终表示做多标签分类，得到分类损失函数

其中，

G、由重建损失函数

和分类损失函数

构建目标函数

并训练至收敛状态，其中，0＜λ_r＜1；

H、输入短视频训练样本集合，直至目标函数

收敛，再输入短视频测试样本集合进行测试，并利用覆盖率、排名损失和平均精度三个评价指标来评估测试结果，具体为：

覆盖率coverage用来计算平均需要多大程度的标签以覆盖实例的所有正确标签，它与召回率最佳水平的精确性有松散的联系，其值越小，性能越好，定义如下：

其中x_i表示第i个短视频，Y_i ⁺是第i个短视频的相关标签集，p表示参与实验的短视频总个数。f表示多标签预测器，公式表示当f在标签方面有效时，相关标签的最大等级小于不相关标签的最小等级；

排名损失ranking-loss计算实例的倒序标签对的平均分数，其值越小，性能越好，定义如下：

其中x_i表示第i个短视频，Y_i是第i个短视频的标签集，

是其补集，p表示参与实验的短视频总个数，f表示多标签预测器；

平均精度mAP定义如下：

其中，P为单次预测正确率，AP表示n次预测的平均准确率，mAP表示m类不同的视频的AP的平均值。

基于多模态联合学习的短视频分类装置，包括：

考虑声音模态特征z_a后的视觉模态特征的潜在表示特征

考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

并由此构建重建损失函数

标签特征矩阵获取模块：用于获取所述短视频的标签信息，采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示，以得到由标签向量组成的标签特征矩阵P；

由重建损失函数

和分类损失函数

构建目标函数

并训练至收敛，其中，0＜λ_r＜1。

以上所述，仅为本发明的较佳实施例而已，故不能以此限定本发明实施的范围，即依本发明申请专利范围及说明书内容所作的等效变化与修饰，皆应仍属本发明专利涵盖的范围内。

Claims

1.一种基于多模态联合学习的短视频分类方法，其特征在于：包括如下：

A、对一个完整的短视频提取其视觉模态特征z_v、声音模态特征z_a和文本模态特征z_t；

B、分别学习视觉模态特征z_v的潜在表示特征

考虑声音模态特征z_a后的视觉模态特征的潜在表示特征

考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

C、将B中的四种视觉模态的潜在表示特征堆叠成矩阵

并由此构建重建损失函数

D、获取A所述短视频的标签信息，采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示，得到由标签向量组成的标签特征矩阵P，其中标签特征矩阵P采用随机初始化方式得到；

E、利用Multi-head Attention，对公共潜在表示特征H和标签特征矩阵P进行信息融合，得到A所述短视频的最终表示；

F、对E中的最终表示做多标签分类，得到分类损失函数

G、由重建损失函数

和分类损失函数

构建目标函数

并训练至收敛状态，其中，0＜λ_r＜1；

所述B包括：

利用DNN网络学习视觉模态特征z_v的潜在表示特征

其中，

把这种相似程度加入视觉模态特征z_v中得到

再通过全连接层学习潜在表示特征

其中，f_c表示全连接层，θ₁为全连接层待学习参数；

考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

为：

其中，

θ₂为全连接层待学习参数；

潜在表示特征

为：

其中，

z′_v＝tanh(θ′z_v+b)，d_h表示潜在表示特征的维度，θ₃为全连接层待学习参数，θ′表示变换权重，b表示偏重；

所述D包括如下：

D1、获取A所述短视频的标签信息：采用

表示标签集合，考虑图G(V,E),V＝{1,2,…,C}表示标签节点,E∈|V|×|V|表示对应边集合，对于任意标签节点i，其邻域节点被定义为ρ(i)＝{j:(i,j)∈E}∪{i}，标签节点特征集合为Q＝[q₁,q₂,...,q_C]，

为标签C初始特征，

表示每个标签的原始特征维度是m，C表示标签类别数量；

D2、引入逆协方差矩阵

学习标签间的关系结构：

s.t.S≥0；tr(S)＝1；

q′_i＝∑_j∈ρ(i)s_ij*M_h(q_j)+b_i，

D4、更新标签节点特征的相关系数矩阵S'：

s.t.S'≥0；tr(S')＝1；

D5、建立两到三个图注意层，重复D3、D4，得到由标签向量组成的标签特征矩阵P：

d_u表示标签向量的特征维度。

2.根据权利要求1所述的一种基于多模态联合学习的短视频分类方法，其特征在于：所述C中的公共潜在表示特征H为：H＝g_ae(A；W_ae)，其中，

重建表示

为：

其中，

重建损失函数

为：

3.根据权利要求1所述的一种基于多模态联合学习的短视频分类方法，其特征在于：所述E包括：

E1、将公共潜在表示特征H作为查询矩阵Q；

以得到相关性矩阵R:

E3、获取键矩阵K：

E4、将自标签特征矩阵P作为值矩阵V；

其中，

为投影矩阵，k＝[0,1,2,3]。

4.根据权利要求1所述的一种基于多模态联合学习的短视频分类方法，其特征在于：所述F中的分类损失函数

为：

其中，

5.根据权利要求1至4任一所述的一种基于多模态联合学习的短视频分类方法，其特征在于：所述A包括：

利用长短期记忆网络提取声音模态特征z_a：

利用多层感知器提取文本模态特征z_t：

6.根据权利要求1至4任一所述的一种基于多模态联合学习的短视频分类方法，其特征在于：还包括H：输入短视频训练样本集合，直至目标函数

7.一种基于多模态联合学习的短视频分类装置，其特征在于：包括：

考虑声音模态特征z_a后的视觉模态特征的潜在表示特征

考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

具体包括：利用DNN网络学习视觉模态特征z_v的潜在表示特征

其中，

表示特定于视觉特征的映射器，由DNN网络构成，θ₀为DNN网络的模型参数；考虑声音模态特征z_a后，计算视觉模态特征z_v和声音模态特征z_a的相似程度：

把这种相似程度加入视觉模态特征z_v中得到

再通过全连接层学习潜在表示特征

其中，f_c表示全连接层，θ₁为全连接层待学习参数；考虑文本模态特征z_t后的视觉模态特征的潜在表示特征

为：

其中，

θ₂为全连接层待学习参数；考虑声音模态特征z_a及文本模态特征z_t后，首先获取声音模态特征z_a和文本模态特征z_t的联合信息z_a&t：

潜在表示特征

为：

其中，

并由此构建重建损失函数

标签特征矩阵获取模块：用于获取A所述短视频的标签信息，采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示，得到由标签向量组成的标签特征矩阵P，其中标签特征矩阵P采用随机初始化方式得到；具体包括：获取A所述短视频的标签信息：采用

为标签C初始特征，

表示每个标签的原始特征维度是m，C表示标签类别数量；引入逆协方差矩阵

学习标签间的关系结构：

s.t.S≥0；tr(S)＝1；将标签节点特征集合Q输入图注意层，得到新的标签节点特征集合Q'：

q′_i＝∑_j∈ρ(i)s_ij*M_h(q_j)+b_i，

表示偏差，M_h表示应用在每个标签节点上的特征映射函数，d_k表示标签节点特征集合的维度；更新标签节点特征的相关系数矩阵S'：

s.t.S'≥0；tr(S')＝1；建立两到三个图注意层，重复D3、D4，得到由标签向量组成的标签特征矩阵P：

d_u表示标签向量的特征维度；

目标函数构建模块：用于利用Multi-head Attention，对公共潜在表示特征H和标签特征矩阵P进行信息融合，得到所述短视频的最终表示；对E中的最终表示做多标签分类，得到分类损失函数

由重建损失函数

和分类损失函数

构建目标函数

并训练至收敛状态，其中，0＜λ_r＜1。