CN110110610B - 一种用于短视频的事件检测方法 - Google Patents

一种用于短视频的事件检测方法 Download PDF

Info

Publication number
CN110110610B
CN110110610B CN201910303095.7A CN201910303095A CN110110610B CN 110110610 B CN110110610 B CN 110110610B CN 201910303095 A CN201910303095 A CN 201910303095A CN 110110610 B CN110110610 B CN 110110610B
Authority
CN
China
Prior art keywords
matrix
label
representing
feature
event detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910303095.7A
Other languages
English (en)
Other versions
CN110110610A (zh
Inventor
张静
刘靖辉
井佩光
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910303095.7A priority Critical patent/CN110110610B/zh
Publication of CN110110610A publication Critical patent/CN110110610A/zh
Application granted granted Critical
Publication of CN110110610B publication Critical patent/CN110110610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于短视频的事件检测方法,包括:提出低秩约束模型,用于最大化不同视角间的关联性和互补性,获得更加鲁棒的子空间结构;采用判别学习的方式,通过回归分析建立样本的特征表征与类别标签之间的联系;建立弹性的正则化网络,引入非负标号松弛矩阵,将严格的二元标签矩阵松弛为一个松弛变量矩阵,用于在扩大不同类之间的距离同时,提供更多空间来拟合标签;根据获取到的目标函数,将提取的训练集的特征矩阵以及对应的标签矩阵带入,通过拉格朗日乘子法求出字典矩阵,映射矩阵;根据约束条件,带入测试集的特征矩阵进而求出预测的特征集的标签,将其和数据真实的标签做比对,通过计算mAP的方式求出最后的预测结果。

Description

一种用于短视频的事件检测方法
技术领域
本发明涉及视频检测领域,尤其涉及一种用于短视频的事件检测方法。
背景技术
随着互联网社交平台的发展,海量的各种各样的媒体形式在互联网上传播。其中,短视频作为一种新兴的媒体在近些年迅速发展流行起来。在海量的短视频中,快速确定短视频的种类,将短视频按照一定的标准进行分类,是进行短视频内容分析的重要环节,是后续进行个性化推荐的重要前提。
但相比于传统的动作识别,事件检测更加的复杂和具有挑战性。视频中的人物、背景以及事件往往更加复杂。相较于传统的常规视频,短视频具有时间短,镜头单一,噪声大,拍摄视角不同等诸多特点。针对于这些特点,需要有新的方法来解决上述存在的问题。
目前主流的视频事件检测切入角度有:提取深度语义特征,多视角特征融合等。其中多视角融合这一切入点由于其充分利用了视频各个视角的信息在该领域取得了诸多成果。但目前在该领域存在一定的问题,一方面已存在的方法对于各个视角的互补性和关联性利用不足,另一方面不同视角间的信息融合后得到的子空间鲁棒性不足,因此提出一种有效的复杂事件检测的方式是很有必要的。
发明内容
本发明提供了一种用于短视频的事件检测方法,本发明提高了检测精度,具有较高的空间鲁棒性,详见下文描述:
一种用于短视频的事件检测方法,所述事件检测方法包括以下步骤:
采集短视频的前景信息和背景信息;
提出低秩约束模型,用于最大化不同视角间的关联性和互补性,获得更加鲁棒的子空间结构;
采用判别学习的方式,通过回归分析建立样本的特征表征与类别标签之间的联系;
建立弹性的正则化网络,引入非负标号松弛矩阵,将严格的二元标签矩阵松弛为一个松弛变量矩阵,用于在扩大不同类之间的距离同时,提供更多空间来拟合标签;
根据获取到的目标函数,将提取的训练集的特征矩阵X以及对应的标签矩阵Y带入,通过拉格朗日乘子法求出字典矩阵U,映射矩阵W,A;
根据约束条件
Figure BDA0002028904270000021
带入测试集的特征矩阵X,U,W,求出对应的Z,再根据Y=ZA,求出预测的特征集的标签Y,将其和数据真实的标签做比对,通过计算mAP的方式求出最后的预测结果。
所述低秩约束模型具体为:
Figure BDA0002028904270000022
Figure BDA0002028904270000023
其中,Ui∈RD×P表示第i个视角对应的字典,P表示字典中元素的个数;Z∈RP×N表示不同视角共享的特征表征矩阵;Ei∈RD×(N+M)代表第i个视角的稀疏误差矩阵,R表示设定的字典个数,γ1和γ2表示平衡因子;T表示转置;
Figure BDA0002028904270000024
代表矩阵U的核范数,δi(U)表述矩阵U的第i个奇异值。||·||1表示L1范数。||·||2,1表示矩阵的L2,1范数。
所述非负标号松弛矩阵具体为:
Figure BDA0002028904270000025
其中,A表示学习的低秩特征Z与标签矩阵的Y映射矩阵,Y表示标签矩阵,||·||F表示矩阵的F范数,γ表示平衡因子,矩阵B的元素Bij定义为
Figure BDA0002028904270000026
矩阵M∈RN ×C为弹性矩阵。
所述目标函数具体为:
Figure BDA0002028904270000027
Figure BDA0002028904270000028
将U,W,A,带入测试集的特征矩阵,根据Y=ZA,求得最后的预测结果。
本发明主要采集短视频前景信息,将提取的多视角的特征映射到一个共同的潜在子空间当中去,并对该空间加以低秩约束,通过回归学习的方式建立低秩特征和标签之间的关联,该技术方案的有益效果是:
1、本发明提出了一个新颖的低秩模型,不仅能够最大化不同视角间的关联性和互补性,而且可以获得更加鲁棒的子空间结构;
2、本发明为了增强模型的判别性,采用判别学习的方式,通过回归分析建立样本的特征表征与类别标签之间的联系;
3、本发明建立了一个弹性的正则化网络,引入一个非负标号弹性矩阵,将严格的二元标签矩阵松弛为一个松弛变量矩阵,在尽可能地扩大不同类之间的距离同时,从而提供更多空间来拟合标签;
4、本发明还可以利用大量的无监督的短视频辅助学习,来提升模型性能,通过采用上述方式,获得了更加精确的检测结果,填补了相关研究在事件检测方面的空白。
附图说明
图1为一种用于短视频的事件检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种用于短视频的事件检测方法,参见图1,该方法包括以下步骤:
101:采集短视频的前景信息和背景信息;
其中,前景信息包括:主要人物和事件;背景信息包括:地点和环境。
102:提出新颖的低秩约束模型,不仅能够最大化不同视角间的关联性和互补性,而且可以获得更加鲁棒的子空间结构;
103:为了增强低秩模型的判别性,采用判别学习的方式,通过回归分析建立样本的特征表征与类别标签之间的联系;
104:建立一个弹性的正则化网络,引入一个非负标号松弛矩阵,将严格的二元标签矩阵松弛为一个松弛变量矩阵,在尽可能地扩大不同类之间的距离的同时,从而提供更多空间来拟合标签;
105:根据获取到的目标函数,将提取好的训练集的特征矩阵X以及它对应的训练集的标签矩阵Y带入,通过拉格朗日乘子法,求出对应的字典矩阵U,映射矩阵W,A;
106:根据约束条件
Figure BDA0002028904270000031
(默认误差矩阵E为0),带入测试集的特征矩阵X,以及步骤105中求得的U,W,求出对应的Z,再根据Y=ZA,通过求出的Z和步骤105中求出的A,求出预测的特征集的标签Y,将其和数据真实的标签坐比对,通过计算mAP的方式求出最后的预测结果。
综上所述,本发明实施例通过上述步骤101-步骤104,获得了更加精确的检测结果,填补了相关研究在事件检测方面的空白。
实施例2
下面结合图1、以及具体的计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:提取短视频的两个视角的特征,即前景信息和背景信息;
其中,前景信息,包括:主要人物和事件;背景信息,包括:地点和环境特征矩阵X=[X1;X2;…;XK]。
其中,K代表视角数,
Figure BDA0002028904270000041
代表所有样本的第i种特征,Di表示特征维数,N代表样本数。
202:学习发现一组各个视角所特有的一组映射矩阵
Figure BDA0002028904270000042
D表示学习到的各视角共享的低秩子空间的特征维度,将不同视角下的特征映射到一个更本征低维的空间中使得不同视角对之间的关联性最大化,要求:
Figure BDA0002028904270000043
Figure BDA0002028904270000044
其中,I表示Di×Di的单位矩阵,
Figure BDA0002028904270000045
表示Xi与Xj的协方差矩阵,Dj表示与Di所对应视角不同的视角特征维度,Wj表示与Wi所对应视角不同的视角的映射矩阵,Sii表示各个视角自身的协方差矩阵,即Xi与Xi的协方差矩阵。
203:引入新颖的低秩约束模型即:将映射后的特征矩阵分解成一个由低秩结构决定的共享的显著性成分Z及各视角特有的误差矩阵Ei
Figure BDA0002028904270000046
Figure BDA0002028904270000047
其中,Ui∈RD×P表示第i个视角对应的字典,P表示字典中元素的个数;Z∈RP×N表示不同视角共享的特征表征矩阵;Ei∈RD×(N+M)代表第i个视角的稀疏误差矩阵,R表示设定的字典个数,γ1和γ2表示平衡因子;T表示转置。
Figure BDA0002028904270000048
代表矩阵U的核范数,δi(U)表述矩阵U的第i个奇异值。||·||1表示L1范数。||·||2,1表示矩阵的L2,1范数。
204:对样本进行回归分析,引入非负标号松弛矩阵;
Figure BDA0002028904270000051
其中,A表示学习的低秩特征Z与标签矩阵的Y映射矩阵,Y表示标签矩阵,||·||F表示矩阵的F范数,γ表示平衡因子,矩阵B的元素Bij定义为
Figure BDA0002028904270000052
矩阵M∈RN ×C为弹性矩阵。
特别的,当存在一定量的不属于任意一类别的样本时,即当存在Yi,j=0,设定Bij=0。
205:引入拉普拉斯矩阵L,强化样本间的关联,其表达形式为:
Figure BDA0002028904270000053
其中,φ为平衡因子。
206:获取完整的目标函数;
Figure BDA0002028904270000054
Figure BDA0002028904270000055
具体实现时,求出各个变量的表达式,适当初始化后对各个变量进行迭代求值。待结果稳定后,得到U,W,A,带入测试集的特征矩阵,根据Y=ZA,求得最后的预测结果。
207:将预测的结果和测试集的标签进行比对,定义最后的评价标准如下:
Figure BDA0002028904270000056
其中,TP和TN代表正确的正例和负例概率,N是测试集样本数量。
208:求出所有单个事件分类准确率的平均值,得到最后的最终预测结果平均准确率。
实施例3
下面结合表1对实施例1和2中的方案进行可行性验证,详见下文描述:
为了评估本方法的性能,收集来自Flickr社交平台上的3589个短视频,类别总计20个,所有视频都有标注并经过初步筛选(本领域技术人员所公知)以保证视频质量。将数据分成三组,每一组都包含有训练集和测试集,在实验过程中,使用matlab来调试程序,经过迭代使得各个变量的值都趋于稳定后,得到最后的结果如表1所示。
表1
数据集 结果
第一组 89.1%
第二组 88.4%
第三组 87.1%
从表1可以看出本方法在事件检测方面有很高的准确率。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种用于短视频的事件检测方法,其特征在于,所述事件检测方法包括以下步骤:
采集短视频的前景信息和背景信息;
提出低秩约束模型,用于最大化不同视角间的关联性和互补性,获得更加鲁棒的子空间结构;
采用判别学习的方式,通过回归分析建立样本的特征表征与类别标签之间的联系;
建立弹性的正则化网络,引入非负标号松弛矩阵,将严格的二元标签矩阵松弛为一个松弛变量矩阵,用于在扩大不同类之间的距离同时,提供更多空间来拟合标签;
根据获取到的目标函数,将提取的训练集的特征矩阵X以及对应的标签矩阵Y带入,通过拉格朗日乘子法求出字典矩阵U,映射矩阵W,A;
根据约束条件
Figure FDA0004128643170000011
带入测试集的特征矩阵X,U,W,求出对应的Z,再根据Y=ZA,求出预测的特征集的标签Y,将其和数据真实的标签做比对,通过计算mAP的方式求出最后的预测结果;
所述低秩约束模型具体为:
Figure FDA0004128643170000012
Figure FDA0004128643170000013
其中,Ui∈RD×P表示第i个视角对应的字典,P表示字典中元素的个数;Z∈RP×N表示不同视角共享的特征表征矩阵;Ei∈RD×(N+M)代表第i个视角的稀疏误差矩阵,R表示设定的字典个数,γ1和γ2表示平衡因子;T表示转置;
Figure FDA0004128643170000014
代表矩阵U的核范数,δi(U)表述矩阵U的第i个奇异值,||.||1表示L1范数,||·||2,1表示矩阵的L2,1范数;
所述非负标号松弛矩阵具体为:
Figure FDA0004128643170000015
其中,A表示学习的低秩特征Z与标签矩阵的Y映射矩阵,Y表示标签矩阵,||·||F表示矩阵的F范数,γ表示平衡因子,矩阵B的元素Bij定义为
Figure FDA0004128643170000016
矩阵M∈RN×C为弹性矩阵;
所述目标函数具体为:
Figure FDA0004128643170000021
Figure FDA0004128643170000022
将U,W,A,带入测试集的特征矩阵,根据Y=ZA,求得最后的预测结果。
CN201910303095.7A 2019-04-16 2019-04-16 一种用于短视频的事件检测方法 Active CN110110610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910303095.7A CN110110610B (zh) 2019-04-16 2019-04-16 一种用于短视频的事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910303095.7A CN110110610B (zh) 2019-04-16 2019-04-16 一种用于短视频的事件检测方法

Publications (2)

Publication Number Publication Date
CN110110610A CN110110610A (zh) 2019-08-09
CN110110610B true CN110110610B (zh) 2023-06-30

Family

ID=67485399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910303095.7A Active CN110110610B (zh) 2019-04-16 2019-04-16 一种用于短视频的事件检测方法

Country Status (1)

Country Link
CN (1) CN110110610B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339362B (zh) * 2020-02-05 2023-07-18 天津大学 一种基于深度协同矩阵分解的短视频多标签分类方法
CN111460222B (zh) * 2020-02-17 2021-01-12 天津大学 一种基于多视角低秩分解的短视频多标签分类方法
CN111460223B (zh) * 2020-02-25 2023-04-18 天津大学 基于深度网络的多模态特征融合的短视频单标签分类方法
CN111723241B (zh) * 2020-05-08 2023-11-03 天津大学 一种基于特征与多标签增强表示的短视频自动标注方法
CN112541485B (zh) * 2020-12-29 2024-03-29 宁波职业技术学院 基于多源正则化消费视频事件检测模糊回归模型构建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法
CN106055576A (zh) * 2016-05-20 2016-10-26 大连理工大学 一种大规模数据背景下的快速有效的图像检索方法
CN106503652A (zh) * 2016-10-21 2017-03-15 南京理工大学 基于低秩自适应稀疏重建的异常事件检测方法
CN107229702A (zh) * 2017-05-24 2017-10-03 天津大学 基于低秩约束和多视角特征融合的微视频流行度预测方法
CN108899896A (zh) * 2018-06-28 2018-11-27 华南理工大学 一种基于改进benders分解法的供电能力评估方法
CN109522956A (zh) * 2018-11-16 2019-03-26 哈尔滨理工大学 一种低秩判别特征子空间学习方法
CN109583498A (zh) * 2018-11-29 2019-04-05 天津大学 一种基于低秩正则化特征增强表征的时尚兼容度预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860683B2 (en) * 2012-10-25 2020-12-08 The Research Foundation For The State University Of New York Pattern change discovery between high dimensional data sets

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055576A (zh) * 2016-05-20 2016-10-26 大连理工大学 一种大规模数据背景下的快速有效的图像检索方法
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法
CN106503652A (zh) * 2016-10-21 2017-03-15 南京理工大学 基于低秩自适应稀疏重建的异常事件检测方法
CN107229702A (zh) * 2017-05-24 2017-10-03 天津大学 基于低秩约束和多视角特征融合的微视频流行度预测方法
CN108899896A (zh) * 2018-06-28 2018-11-27 华南理工大学 一种基于改进benders分解法的供电能力评估方法
CN109522956A (zh) * 2018-11-16 2019-03-26 哈尔滨理工大学 一种低秩判别特征子空间学习方法
CN109583498A (zh) * 2018-11-29 2019-04-05 天津大学 一种基于低秩正则化特征增强表征的时尚兼容度预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Tensor-Driven Temporal Correlation Model for Video Sequence Classification;Jing Zhang et al.;《IEEE Signal Processing Letters》;20160607;第1-4页 *
Discriminative Transfer Subspace Learning via Low-Rank and Sparse Representation;Yong Xu et al.;《IEEE Transactions on Image Processing》;20151218;第1-14页 *
基于低秩张量恢复的图像去噪与运动目标分割;张开飞;《中国优秀硕士学位论文全文数据库信息科技辑》;20180315;正文全文 *

Also Published As

Publication number Publication date
CN110110610A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110110610B (zh) 一种用于短视频的事件检测方法
Pu et al. Variational autoencoder for deep learning of images, labels and captions
CN109492099B (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN109919252B (zh) 利用少数标注图像生成分类器的方法
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN114998602B (zh) 基于低置信度样本对比损失的域适应学习方法及系统
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN110489424B (zh) 一种表格化信息提取的方法、装置、存储介质及电子设备
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
CN114332568A (zh) 域适应图像分类网络的训练方法、系统、设备及存储介质
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN114722892A (zh) 基于机器学习的持续学习方法及装置
CN113449802A (zh) 基于多粒度互信息最大化的图分类方法及装置
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN115761900A (zh) 用于实训基地管理的物联网云平台
CN116415581A (zh) 一种基于智慧教育的教学数据分析系统
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN112348001B (zh) 表情识别模型的训练方法、识别方法、装置、设备及介质
CN110197213A (zh) 基于神经网络的图像匹配方法、装置和设备
Li et al. Robust multi-label semi-supervised classification
CN113536015A (zh) 一种基于深度辨识度迁移的跨模态检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant