CN110110610B

CN110110610B - 一种用于短视频的事件检测方法

Info

Publication number: CN110110610B
Application number: CN201910303095.7A
Authority: CN
Inventors: 张静; 刘靖辉; 井佩光; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2023-06-30
Anticipated expiration: 2039-04-16
Also published as: CN110110610A

Abstract

本发明公开了一种用于短视频的事件检测方法，包括：提出低秩约束模型，用于最大化不同视角间的关联性和互补性，获得更加鲁棒的子空间结构；采用判别学习的方式，通过回归分析建立样本的特征表征与类别标签之间的联系；建立弹性的正则化网络，引入非负标号松弛矩阵，将严格的二元标签矩阵松弛为一个松弛变量矩阵，用于在扩大不同类之间的距离同时，提供更多空间来拟合标签；根据获取到的目标函数，将提取的训练集的特征矩阵以及对应的标签矩阵带入，通过拉格朗日乘子法求出字典矩阵，映射矩阵；根据约束条件，带入测试集的特征矩阵进而求出预测的特征集的标签，将其和数据真实的标签做比对，通过计算mAP的方式求出最后的预测结果。

Description

一种用于短视频的事件检测方法

技术领域

本发明涉及视频检测领域，尤其涉及一种用于短视频的事件检测方法。

背景技术

随着互联网社交平台的发展，海量的各种各样的媒体形式在互联网上传播。其中，短视频作为一种新兴的媒体在近些年迅速发展流行起来。在海量的短视频中，快速确定短视频的种类，将短视频按照一定的标准进行分类，是进行短视频内容分析的重要环节，是后续进行个性化推荐的重要前提。

但相比于传统的动作识别，事件检测更加的复杂和具有挑战性。视频中的人物、背景以及事件往往更加复杂。相较于传统的常规视频，短视频具有时间短，镜头单一，噪声大，拍摄视角不同等诸多特点。针对于这些特点，需要有新的方法来解决上述存在的问题。

目前主流的视频事件检测切入角度有：提取深度语义特征，多视角特征融合等。其中多视角融合这一切入点由于其充分利用了视频各个视角的信息在该领域取得了诸多成果。但目前在该领域存在一定的问题，一方面已存在的方法对于各个视角的互补性和关联性利用不足，另一方面不同视角间的信息融合后得到的子空间鲁棒性不足，因此提出一种有效的复杂事件检测的方式是很有必要的。

发明内容

本发明提供了一种用于短视频的事件检测方法，本发明提高了检测精度，具有较高的空间鲁棒性，详见下文描述：

一种用于短视频的事件检测方法，所述事件检测方法包括以下步骤：

采集短视频的前景信息和背景信息；

提出低秩约束模型，用于最大化不同视角间的关联性和互补性，获得更加鲁棒的子空间结构；

采用判别学习的方式，通过回归分析建立样本的特征表征与类别标签之间的联系；

建立弹性的正则化网络，引入非负标号松弛矩阵，将严格的二元标签矩阵松弛为一个松弛变量矩阵，用于在扩大不同类之间的距离同时，提供更多空间来拟合标签；

根据获取到的目标函数，将提取的训练集的特征矩阵X以及对应的标签矩阵Y带入，通过拉格朗日乘子法求出字典矩阵U，映射矩阵W，A；

根据约束条件

带入测试集的特征矩阵X，U,W，求出对应的Z，再根据Y＝ZA，求出预测的特征集的标签Y，将其和数据真实的标签做比对，通过计算mAP的方式求出最后的预测结果。

所述低秩约束模型具体为：

其中，U_i∈R^D×P表示第i个视角对应的字典，P表示字典中元素的个数；Z∈R^P×N表示不同视角共享的特征表征矩阵；E_i∈R^D×(N+M)代表第i个视角的稀疏误差矩阵，R表示设定的字典个数，γ₁和γ₂表示平衡因子；T表示转置；

代表矩阵U的核范数，δ_i(U)表述矩阵U的第i个奇异值。||·||₁表示L₁范数。||·||_2，1表示矩阵的L_2,1范数。

所述非负标号松弛矩阵具体为：

其中，A表示学习的低秩特征Z与标签矩阵的Y映射矩阵，Y表示标签矩阵，||·||_F表示矩阵的F范数，γ表示平衡因子，矩阵B的元素B_ij定义为

矩阵M∈R^N ^×C为弹性矩阵。

所述目标函数具体为：

将U，W，A，带入测试集的特征矩阵，根据Y＝ZA，求得最后的预测结果。

本发明主要采集短视频前景信息，将提取的多视角的特征映射到一个共同的潜在子空间当中去，并对该空间加以低秩约束，通过回归学习的方式建立低秩特征和标签之间的关联，该技术方案的有益效果是：

1、本发明提出了一个新颖的低秩模型，不仅能够最大化不同视角间的关联性和互补性，而且可以获得更加鲁棒的子空间结构；

2、本发明为了增强模型的判别性，采用判别学习的方式，通过回归分析建立样本的特征表征与类别标签之间的联系；

3、本发明建立了一个弹性的正则化网络，引入一个非负标号弹性矩阵，将严格的二元标签矩阵松弛为一个松弛变量矩阵，在尽可能地扩大不同类之间的距离同时，从而提供更多空间来拟合标签；

4、本发明还可以利用大量的无监督的短视频辅助学习，来提升模型性能，通过采用上述方式，获得了更加精确的检测结果，填补了相关研究在事件检测方面的空白。

附图说明

图1为一种用于短视频的事件检测方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种用于短视频的事件检测方法，参见图1，该方法包括以下步骤：

101：采集短视频的前景信息和背景信息；

其中，前景信息包括：主要人物和事件；背景信息包括：地点和环境。

102：提出新颖的低秩约束模型，不仅能够最大化不同视角间的关联性和互补性，而且可以获得更加鲁棒的子空间结构；

103：为了增强低秩模型的判别性，采用判别学习的方式，通过回归分析建立样本的特征表征与类别标签之间的联系；

104：建立一个弹性的正则化网络，引入一个非负标号松弛矩阵，将严格的二元标签矩阵松弛为一个松弛变量矩阵，在尽可能地扩大不同类之间的距离的同时，从而提供更多空间来拟合标签；

105：根据获取到的目标函数，将提取好的训练集的特征矩阵X以及它对应的训练集的标签矩阵Y带入，通过拉格朗日乘子法，求出对应的字典矩阵U，映射矩阵W，A；

106：根据约束条件

(默认误差矩阵E为0)，带入测试集的特征矩阵X，以及步骤105中求得的U,W，求出对应的Z，再根据Y＝ZA，通过求出的Z和步骤105中求出的A,求出预测的特征集的标签Y，将其和数据真实的标签坐比对，通过计算mAP的方式求出最后的预测结果。

综上所述，本发明实施例通过上述步骤101-步骤104，获得了更加精确的检测结果，填补了相关研究在事件检测方面的空白。

实施例2

下面结合图1、以及具体的计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：提取短视频的两个视角的特征，即前景信息和背景信息；

其中，前景信息，包括：主要人物和事件；背景信息，包括：地点和环境特征矩阵X＝[X₁；X₂；…；X_K]。

其中，K代表视角数，

代表所有样本的第i种特征，D_i表示特征维数，N代表样本数。

202：学习发现一组各个视角所特有的一组映射矩阵

D表示学习到的各视角共享的低秩子空间的特征维度，将不同视角下的特征映射到一个更本征低维的空间中使得不同视角对之间的关联性最大化，要求：

其中，I表示D_i×D_i的单位矩阵，

表示X_i与X_j的协方差矩阵，D_j表示与D_i所对应视角不同的视角特征维度，W_j表示与W_i所对应视角不同的视角的映射矩阵，S_ii表示各个视角自身的协方差矩阵，即X_i与X_i的协方差矩阵。

203：引入新颖的低秩约束模型即：将映射后的特征矩阵分解成一个由低秩结构决定的共享的显著性成分Z及各视角特有的误差矩阵E_i；

其中，U_i∈R^D×P表示第i个视角对应的字典，P表示字典中元素的个数；Z∈R^P×N表示不同视角共享的特征表征矩阵；E_i∈R^D×(N+M)代表第i个视角的稀疏误差矩阵，R表示设定的字典个数，γ₁和γ₂表示平衡因子；T表示转置。

204：对样本进行回归分析，引入非负标号松弛矩阵；

矩阵M∈R^N ^×C为弹性矩阵。

特别的，当存在一定量的不属于任意一类别的样本时，即当存在Y_i,j＝0，设定B_ij＝0。

205：引入拉普拉斯矩阵L，强化样本间的关联，其表达形式为：

其中，φ为平衡因子。

206：获取完整的目标函数；

具体实现时，求出各个变量的表达式，适当初始化后对各个变量进行迭代求值。待结果稳定后，得到U，W，A，带入测试集的特征矩阵，根据Y＝ZA，求得最后的预测结果。

207：将预测的结果和测试集的标签进行比对，定义最后的评价标准如下：

其中，TP和TN代表正确的正例和负例概率，N是测试集样本数量。

208：求出所有单个事件分类准确率的平均值，得到最后的最终预测结果平均准确率。

实施例3

下面结合表1对实施例1和2中的方案进行可行性验证，详见下文描述：

为了评估本方法的性能，收集来自Flickr社交平台上的3589个短视频，类别总计20个，所有视频都有标注并经过初步筛选(本领域技术人员所公知)以保证视频质量。将数据分成三组，每一组都包含有训练集和测试集，在实验过程中，使用matlab来调试程序，经过迭代使得各个变量的值都趋于稳定后，得到最后的结果如表1所示。

表1

数据集	结果
		第一组	89.1％
第二组	88.4％
		第三组	87.1％

从表1可以看出本方法在事件检测方面有很高的准确率。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。