CN111723241A

CN111723241A - 一种基于特征与多标签增强表示的短视频自动标注方法

Info

Publication number: CN111723241A
Application number: CN202010383978.6A
Authority: CN
Inventors: 吕卫; 李德盛; 井佩光; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-09-29
Anticipated expiration: 2040-05-08
Also published as: CN111723241B

Abstract

本发明公开了一种基于特征与多标签增强表示的短视频自动标注方法，包括：利用字典映射矩阵、公共低秩表示的积和稀疏误差矩阵重构原始特征矩阵，构成多视角低秩表征项；通过对整体数据集进行聚类，获取全部数据集以及不同聚类中潜在标签相关性信息，构成全局与局部标签相关性学习项；将公共低秩表示作为预测标签，与真实标签相减得到标注误差并使其最小化，构成最小化标注误差项；由多视角低秩表征项、全局与局部标签相关性学习项、最小化标注误差项进行加权获得总目标函数，利用交替方向乘子法优化总目标函数，引入拉格朗日乘子，依次迭代更新各个矩阵变量，直至目标函数的值收敛，得到最终的标注结果。本发明提高了短视频多标签标注问题中的准确率。

Description

一种基于特征与多标签增强表示的短视频自动标注方法

技术领域

本发明涉及短视频领域，尤其涉及一种基于特征与多标签增强表示的短视频自动标注方法。

背景技术

当前，随着工作生活环境的变化和手机网络的迅速普及，人们对于信息的接收方式逐渐由传统的长时间接收逐渐转化为碎片化的接收方式。人们不再局限于用大段时间单纯地阅读、创作，而是随时通过手机网络等方式短时间内获取自己想要的信息，在此背景下，短视频应运而生。

短视频作为一种新兴的媒体形式广泛传播于各大网络社交平台，并在近些年获得了快速发展。各大短视频网络平台允许用户自己制作，加工，上传长度往往不超过30秒的短视频，因此各大社交平台会周期性地出现大量的短视频原始数据，且这些数据作为多媒体内容往往携带多个标签。例如，“唇彩”和“女生自拍”两个标签常常存在于同一个短视频中。

如今，对于短视频语义理解方面的研究包括场景分类、流行度预测、事件检测等，但在大量短视频数据的背景下，对短视频进行有效的标注仍然存在着一定局限性。采用人工标注的方式会使得流程更为复杂，造成效率低下以及人工成本上升等问题。

因此提出一种有效的短视频自动标注方法是很有意义的。

发明内容

本发明提供了一种基于特征与多标签增强表示的短视频自动标注方法，本发明致力于提高短视频多标签标注问题中的准确率，详见下文描述：

一种基于特征与多标签增强表示的短视频自动标注方法，所述方法包括：

利用字典映射矩阵、公共低秩表示的积和稀疏误差矩阵重构原始特征矩阵，从而整体构成多视角低秩表征项；

通过对整体数据集进行聚类，获取全部数据集以及不同聚类中潜在标签相关性信息，构成全局与局部标签相关性学习项；

将公共低秩表示作为预测标签，与真实标签相减得到标注误差并使其最小化，构成最小化标注误差项；

由多视角低秩表征项、全局与局部标签相关性学习项、最小化标注误差项进行加权获得总目标函数，利用交替方向乘子法优化总目标函数，引入拉格朗日乘子，依次迭代更新各个矩阵变量，直至目标函数的值收敛，进而得到最终的标注结果。

其中，所述多视角低秩表征项具体为：

s.t.X_i＝D_iL+E_i,i＝1,2,...,V

其中，i为视角序号，

为第i视角的特征矩阵，

为第i视角的字典映射矩阵，L∈R^C×N为多视角特征的公共低秩表示，

为稀疏误差矩阵，R为实数集，d_i为第i视角的特征维度，V为视角总数，N为样本总数，C为标签类别总数，∑(·)为求和符号，||·||_*为核范数，||·||₁为l₁范数，λ₁和λ₄为调节参数。

进一步地，所述全局与局部标签相关性学习项具体为：

s.t.B^T＝GL+E_B

其中，k为聚类个数，v为聚类的类别序号，m和n为标签序号，G∈R^C×C为标签相关性矩阵，G_m,n为第m个标签与第n个标签之间的相关性，B∈R^N×C为短视频的真实标签矩阵，E_B∈R^C×N为标签误差矩阵，||·||₂为2范数，λ₃为调节参数，

为真实标签矩阵中第v聚类中第m个标签所构成的向量，

为真实标签矩阵中第v聚类中第n个标签所构成的向量，λ₂为调节参数。

其中，所述最小化标注误差项具体为：

其中，T表示矩阵的转置，||·||_F代表矩阵的F范数。

本发明提供的技术方案的有益效果是：

1、本发明利用不同视角特征描述同一短视频的一致性，对多视角原始特征进行了低秩表征，去除了原始特征的冗余信息，得到了本征稳定的公共低秩表示；

2、本发明将原始数据集进行聚类，得到了属于不同聚类的样本，从而在全局和局部两个方面分析数据的标签相关性，并利用低秩约束提高其稳健性，以此提高整体标注的准确性；

3、本发明将多种思想结合在一起以实现最优的效果，尤其适合短视频的多标签自动标注。

附图说明

图1为一种基于特征与多标签增强表示的短视频自动标注方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种基于特征与多标签增强表示的短视频自动标注方法，参见图1，该方法包括以下步骤：

101：利用字典映射矩阵、公共低秩表示的积和稀疏误差矩阵重构原始特征矩阵，从而整体构成多视角低秩表征项(第一目标函数)；

102：通过对整体数据集进行聚类，获取全部数据集以及不同聚类中潜在标签相关性信息，构成全局与局部标签相关性学习项(第二目标函数)；

103：将公共低秩表示作为预测标签，与真实标签相减得到标注误差并使其最小化，构成最小化标注误差项(第三目标函数)；

104：由以上所有目标函数加权获得总目标函数，利用交替方向乘子法优化总目标函数，引入拉格朗日乘子，依次迭代更新各个矩阵变量，直至目标函数的值收敛，进而得到最终的标注结果。

具体实现时，在步骤101之前，该方法还包括：

利用VGG-m-2048(视觉几何组网络)的倒数第一个全连接层从短视频数据集中提取2048维视觉(visual)语义特征；

利用TDD(轨迹合并的深度卷积描述符)模型和Fisher Vector(费舍尔矢量)从短视频数据集中提取2048维轨迹(trajectory)语义特征；

使用l₂范数对上述两种语义特征进行标准化，形成两个2048维的特征表示，将二者归一化分别得到多视角特征矩阵X₁和X₂。

实施例2

下面结合计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：利用VGG-m-2048网络的倒数第一个全连接层提取2048维度的高级视觉语义特征，利用TDD模型和Fisher Vector从视频数据集中提取2048维度的轨迹特征，使用l2范数对每个视角的特征进行标准化处理，得到最终的标准化多视角特征X₁和X₂。

202：确定不同视角特征X_i的公共低秩表示L，根据公式：

X_i＝D_iL+E_i,i＝1,2,...,V

(1)

其中，利用字典映射矩阵D_i将不同视角的特征X_i映射到公共低秩表示L，并令L的秩达到最低，通过最小化矩阵的核范数可降低矩阵的秩，由此得到如下公式：

其中，i为视角序号，

为第i视角的特征矩阵，

为稀疏误差矩阵，R为实数集，d_i为第i视角的特征维度，V为视角总数，N为样本总数，C为标签类别总数，∑(·)为求和符号，||·||_*为核范数，||·||₁为l₁范数，λ₁和λ₄为调节参数；由此整体构成多视角低秩表征项(即第一目标函数)。

203：通过对原始数据集进行聚类，得到不同类别样本的标签分布信息，从而从全局和局部两个方面得到潜在的标签相关性表示，其中标签相关性强的两个标签在其相关性矩阵中对应的值应当较大，因此构造以下学习公式：

为真实标签矩阵中第v聚类中第m个标签所构成的向量，

为真实标签矩阵中第v聚类中第n个标签所构成的向量。

此外，模型需要对标签相关性矩阵引入低秩约束来保证其稳健性，上式变化为：

其中，λ₂为调节参数，由此整体构成全局与局部标签相关性学习项(即第二目标函数)。

204：将公共低秩表示作为预测标签，其与原有的真实标签矩阵相减再取其F范数的平方，得到如下公式：

其中，[·]^T表示矩阵的转置，||·||_F代表矩阵的F范数；由此整体构成最小化标注误差项(即第三目标函数)。

205：将以上三个目标函数整合到一起，得到如下总目标函数：

s.t.X_i＝D_iL+E_i,B^T＝GL+E_B,i＝1,2,...,V

(6)

其中，λ₁、λ₂、λ₃、λ₄、λ₅是平衡参数。

206：由于上述目标函数直接优化较为困难，在实际过程中利用交替方向乘子法对步骤205中的总目标函数进行优化，首先将总目标函数转化为如下形式：

s.t.X_i＝D_iL+E_i,B^T＝GL+E_B,L＝L,G＝G,i＝1,2,...,V

(7)

其中，L∈R^C×N和G∈R^C×C为辅助变量，目的是将目标函数中的非平滑正则项分离；在上式中引入拉格朗日乘子矩阵Q_X，Q_B，Q_L，Q_G：

其中，<·>为Frobenius内积，μ为惩罚参数，由此依次迭代更新目标函数中的变量，直至目标函数的值收敛；

207：将测试集的原始数据进行提取特征处理后带入迭代收敛后的整体模型，即在公式(8)中迭代得到其低秩特征表示，作为未标准化的预测标签矩阵；

208：将未标准化的预测标签矩阵带入符号函数sign(·)，即可得到最终的标注结果。

综上所述，本发明实施例通过低秩表征稳健性的特点，找到了原始视频数据的最佳公共低秩表示，去除了信息的冗余性，使得最终结果的鲁棒性得到提高，结合样本全局与局部的标签相关性信息，模型整体能够学习到不同标签之间的独立性和依赖型，从而使得最终学习结果更加贴合多标签标注的需求，此外，模型将已被标注的视频信息作为监督项构造了损失函数，使得最终预测结果更加贴近真实标签信息；本发明将多种思想结合在一起以实现最优的效果，尤其适合短视频的多标签标注，并最终得到了良好的自动标注结果。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。