CN107886109B - 一种基于有监督视频分割的视频摘要方法 - Google Patents
一种基于有监督视频分割的视频摘要方法 Download PDFInfo
- Publication number
- CN107886109B CN107886109B CN201710954324.2A CN201710954324A CN107886109B CN 107886109 B CN107886109 B CN 107886109B CN 201710954324 A CN201710954324 A CN 201710954324A CN 107886109 B CN107886109 B CN 107886109B
- Authority
- CN
- China
- Prior art keywords
- video
- matrix
- abstract
- frame
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
Abstract
一种基于有监督视频分割的视频摘要方法,包括以下步骤:通过相似性矩阵和训练视频的核矩阵,获取测试视频的核矩阵,将该核矩阵作为时域子空间聚类的正则化拉普拉斯矩阵;引入时域拉普拉斯正则化表达式,获取目标函数,并通过乘法器的交替方向法对目标函数进行求解,得到分割后的每一段视频帧,并计算每一段视频帧的分数;通过背包法选择合适的片段作为视频摘要;将获取到的视频摘要与人工标注的视频摘要进行对比,调整各参数来进行多次试验,使视频摘要与人工标注更接近。本方法提高了视频摘要的效率和准确度。
Description
技术领域
本发明涉及多媒体社交的视频摘要领域,尤其涉及一种基于有监督视频分割的视频摘要方法。
背景技术
YouTube的大多数视频都包含时间长和未编辑且语义不能快速理解的特点。用户通常想要浏览视频,以快速获得关于语义内容的提示。随着视频数据的爆炸式增长,迫切需要开发自动视频摘要算法,通过提供时间较长视频的简短视频的总结来解决此问题。一个理想的视频摘要将包括所有重要的视频片段,并保持较短的长度。这个问题一般是极具挑战性的,并且是最近视频处理方面的一个研究主题。通过将长视频作为输入并生成短视频(或关键帧序列)作为输出,视频摘要具有很大的潜力,可以在原始视频中进行统计,并使其更具有可浏览性和可搜索性。
视频摘要具有巨大应用潜力、且具有挑战性。现有技术分为有监督和无监督的视频摘要方法两方面。在无监督方面,先前的视频摘要方法很大程度上主要集中在抽样有用的视频帧并将这些帧组合起来作为视频的摘要。监督学习的初步步骤,主要思想是使用一组视频和人工创建的摘要作为目标来调整子集选择模型的参数,以优化摘要的质量。有监督的视频摘要借助网络图片或者视频将测试视频与其特征相似的部分提取出来作为视频摘要。
在参考文献[1]中,提出无监督的提取静态摘要,即视频帧。该方法提取了视频的颜色特征,然后进行K-means聚类,将每一类离聚类中心最近的图像作为关键帧提取作为视频的摘要。
该算法的不足之处有两点:其一是在将视频分解为帧进行处理时未考虑视频的结构,也就是帧间的时间连续性信息,那么提取出来的摘要就难以叙述一个未编辑视频的语义信息。其次,在特征提取时只提取了低级的颜色信息,这也是该算法不能很好地进行语义描述的重要原因。
在参考文献[2]中,提出的算法是无监督的进行视频的边缘检测来进行视频的分割,然后对每一片段的趣味性进行打分,此处趣味性用到了一个较低级的特征,然后根据背包算法进行片段的选择。该算法的主要目的是挑选出趣味性较强的片段,在视频的语义理解方面少了连贯性,不能将故事通过摘要讲出来。所以摘要结果往往少了多样性,导致摘要之间的相似性很高。
参考文献[3]中用边缘检测进行的视频分割往往都会有的缺点,是将一个视觉上连贯的动作因为镜头的边缘检测而被分割开来,不能将完整的动作展示出来。
发明内容
本发明提供了一种基于有监督视频分割的视频摘要方法,本发明以训练视频的结构核矩阵、通过相似性矩阵运算得到训练集视频的结构矩阵,将此作为时间序列拉普拉斯正则化矩阵,指导时域子空间聚类的视频分割,再用背包法进行子片段筛选即得到视频摘要,详见下文描述:
一种基于有监督视频分割的视频摘要方法,所述视频摘要方法包括以下步骤:
1)通过相似性矩阵和训练视频的核矩阵,获取测试视频的核矩阵,将该核矩阵作为时域子空间聚类的正则化拉普拉斯矩阵;
2)引入时域拉普拉斯正则化表达式,获取目标函数,并通过乘法器的交替方向法对目标函数进行求解,得到分割后的每一段视频帧,并计算每一段视频帧的分数;
3)通过背包法选择合适的片段作为视频摘要;
4)将获取到的视频摘要与人工标注的视频摘要进行对比,调整各参数来进行多次试验,使视频摘要与人工标注更接近。
在步骤1)之前,所述视频摘要方法还包括:
对N1帧的训练视频和N2帧的测试视频,分别提取颜色直方图特征,构建一个N2*N1的相似性矩阵Sk。
在步骤1)之前,所述视频摘要方法还包括:
获取训练视频的核矩阵,该核矩阵由用户的评测帧得分矩阵经过对角化得到。
其中,L为测试视频的核矩阵;Lk为训练视频的核矩阵;Sk为相似性矩阵;T为转置。
本发明提供的技术方案的有益效果是:
1、引入训练视频的结构化矩阵,其中包涵视频之间的相似性和帧的重要性信息,将其传递给测试视频,以便于有监督地进行测试视频的结构化处理、以及帧的重要性选择处理;
2、采用时域子空间聚类的方法可以考虑到驻留在数据中的连续关系,模拟数据中的全局结构信息,提高视频分割的准确度和兴趣度,将想要提取的视频片段直接分割出来;
3、本方法提高了视频摘要的效率和准确度。
附图说明
图1为一种基于有监督视频分割的视频摘要方法的流程图;
图2为视频摘要片段的帧展示示意图;
图3为时域子空间聚类的视频分割的分割效果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例认为相似的视频应该有相似的结构,所以将视频摘要作为监督的子集选择问题,通过监督来学习视频的结构信息。在进行视频摘要的处理过程中主要有以下三个步骤:特征提取、视频分割和关键片段(帧)选取。现有技术大多数关注于关键片段选择,且在选择帧或子片段时一般服从这几个原则:代表性、多样性、趣味性和可跟踪对象的重要性。
作为视频分割的子空间聚类近年来在运动分割,面部聚类和数字聚类都有较好的表现。具有代表性的子空间聚类方法包括:稀疏子空间聚类(sparse subspaceclustering),低阶表示(low-rank representation),最小二乘回归(least-squareregression)等。子空间聚类中的关键思想是学习用于构建亲和力矩阵。
通常,现有的方法假定数据点是从多个子空间独立得到的。可以独立模拟数据点或隐含地考虑数据中的全局结构信息,但忽略了可能驻留在数据中的时间连续关系。但实际上时间序列的数据随处可见,比如视频。时域子空间聚类使视频分割不仅仅是聚类还考虑了数据点之间的时间连续性。本发明实施例考虑到视频中的时间序列信息,提出利用时域子空间聚类的方法进行视频的分割。
本发明实施把视频分割作为重点,以大量训练集视频作为训练,力求将视频重要片段在这个步骤直接划分出来,这样在选择视频片段过程就可以结合以上的原则直接进行提取了。
实施例1
为了解决以上问题,需要能够全面地捕获训练集视频的结构化信息和相似度信息,提高视频分割的准确度和摘要的准确度、以及兴趣度的研究方法。
研究表明:相似的视频之间结构也是相似的,可以通过捕获训练视频的结构化信息来传递给测试视频,且作为结构化信息知道测试视频的分割和摘要。本发明实施例提出了基于有监督视频分割的视频摘要学习方法,参见图1,详见下文描述:
101:通过相似性矩阵和训练视频的核矩阵,获取测试视频的核矩阵,将该核矩阵作为时域子空间聚类的正则化拉普拉斯矩阵;
102:引入时域拉普拉斯正则化表达式,获取目标函数,并通过乘法器的交替方向法对目标函数进行求解,得到分割后的每一段视频帧,并计算每一段视频帧的分数;
103:通过背包法选择合适的片段作为视频摘要;
104:将获取到的视频摘要与人工标注的视频摘要进行对比,调整各参数来进行多次试验,使视频摘要与人工标注更接近。
其中,在步骤101之前,该视频摘要方法还包括:
对N1帧的训练视频和N2帧的测试视频,分别提取颜色直方图特征,构建一个N2*N1的相似性矩阵Sk。
进一步,在步骤101之前,该视频摘要方法还包括:
获取训练视频的核矩阵,该核矩阵由用户的评测帧得分矩阵经过对角化得到。
其中,L为测试视频的核矩阵;Lk为训练视频的核矩阵;Sk为相似性矩阵;T为转置。
综上所述,本发明实施例通过上述步骤101-步骤104实现了通过相似性矩阵运算得到训练集视频的结构矩阵,将结构矩阵作为时间序列拉普拉斯正则化矩阵,指导时域子空间聚类的视频分割,再用背包法进行子片段筛选即得到视频摘要,本方法提高了视频摘要的效率和准确度。
实施例2
下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:对N1帧的训练视频和N2帧的测试视频,分别提取颜色直方图特征(512维),构建一个N2*N1的相似性矩阵Sk;
gt_score是用户对视频的每一帧打的分数,例如:一个有950帧的视频,gt_score为950*1的列矩阵,是训练集视频的信息,其每个元素代表15个人对视频的每一帧的打分平均分,核矩阵Lk为直接对列矩阵gt_score的对角化,得到一个N2*N2大小的对角矩阵,这个矩阵包涵了用户摘要的信息,即每帧的重要性信息,即Lk为950*950的对角矩阵。
203:通过相似性矩阵Sk和训练视频的核矩阵Lk,获取测试视频的核矩阵L,将该核矩阵L作为时域子空间聚类的正则化拉普拉斯矩阵,引入时域拉普拉斯正则化表达式,获取目标函数,并通过乘法器的交替方向法对目标函数进行求解,得到分割后的每一段视频帧;
令代表测试视频的颜色直方图的特征矩阵,Dd×r是一个字典,Zr×k是一个编码矩阵,X≈DZ,采用基于时域子空间聚类的最小二乘回归公式来表示此方法目标表达式,其中捕获了重建损失,用来建立矩阵X的全局子空间结构。λ1为权衡参数;为第k帧图像的颜色直方图特征;d为颜色直方图特征的维数;r为视频所有帧的数目。
其中,zi和zj为编码矩阵Z的第i和第j列子矩阵,s为样本帧与邻帧之间的邻居数。
其中,f(Z)为时域拉普拉斯正则化表达式。
204:对步骤203分割后的每一段视频帧提取低级特征,计算每一段视频帧的分数;
首先对所有视频帧提取low_depth_of_field低深度特征,维度为9。将每一帧的9维特征累加即为每一帧的分数。步骤203得到的片段即为将片段中的每一帧分数累加起来则为片段的分数。
205:通过背包法选择合适的片段作为视频摘要;
其中,背包问题(Knapsack problem)是一种组合优化的多项式复杂程度的非确定性问题。问题可以描述为:给定一组物品,每种物品都有自己的重量和价格,在限定的总重量内,如何选择,才能使得物品的总价格最高。背包法的解决思路:背包问题是关于最佳化的问题,要解最佳化问题可以使用“动态规划”,从空集合开始,每增加一个元素就先求出该阶段的最佳解,直到所有的元素加入至集合中,最后得到的就是最佳解。
具体背包法的步骤如下:
提取所有测试视频的9维的低景深指标特征(low-depth-of-field-indicators),由每一帧的特征值求出每帧的分数值,公式为:由求得的每帧的分数值可求得步骤204分割得到的每一段视频帧的分数值。
本发明实施例规定视频摘要的长度不长于总视频长度的15%。在拥有每段视频的帧数和每段视频的分数和总摘要视频长度之后,就可以用背包法来求解选择合适的视频片段组合了。
206:将步骤205获取到的视频摘要与人工标注的视频摘要进行对比,调整各参数来多次进行试验,使算法得到的视频摘要与人工标注更接近。
综上所述,本发明实施例通过上述步骤201-步骤206实现了通过相似性矩阵运算得到训练集视频的结构矩阵,将结构矩阵作为时间序列拉普拉斯正则化矩阵,指导时域子空间聚类的视频分割,再用背包法进行子片段筛选即得到视频摘要,本方法提高了视频摘要的效率和准确度。
实施例3
下面结合具体的计算公式、附图2和3对实施例1和2中的方案进行可行性验证,详见下文描述:
本实验使用的数据库为SumMe。SumMe数据库由25个视频组成,视频的平均长度为2分40秒。每个视频由15到18人剪辑和总结,人工摘要(基于镜头)总结的平均长度是原始视频的13.1%。
在所有实验中,通过将本方法的算法结果(A)与人类处理摘要(B)进行比较并得到分数(F),精度(P)和回忆(R),来评估本方法的自动总结结果(A),如下所示:
如下表格1为SumMe视频的F-score的分数。
表1
本方法得到的视频摘要结果与人工标记的视频摘要进行结果对比,可以看出本方法得到的三个评价指标分数显示摘要效果比较好。说明本方法的视频摘要能够完成视频的结构转移,且准确地进行视频的分割,最后筛选出来的视频摘要片段与人工得到的相似度较高,达到了预期。
参考文献:
[1]Avila S E F D.VSUMM:A mechanism designed to produce static videosummaries and a novel evaluation method[J].Pattern Recognition Letters,2011,32(1):56-68.
[2]M.Gygli,H.Grabner,H.Riemenschneider,and L.Van Gool.Creatingsummaries from user videos.In ECCV,2014.
[3]J.S.Boreczky,L.A.Rowe,Comparison of video shot boundary detectiontechniques,in:Proceedings of IS&T/SPIE International Symposium ElectronicImaging,San Jose,1996.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于有监督视频分割的视频摘要方法,其特征在于,所述视频摘要方法包括以下步骤:
1)对N1帧的训练视频和N2帧的测试视频,分别提取颜色直方图特征,构建一个N2*N1的相似性矩阵Sk;通过相似性矩阵和训练视频的核矩阵,获取测试视频的核矩阵,将测试视频的核矩阵作为时域子空间聚类的正则化拉普拉斯矩阵;
2)引入时域拉普拉斯正则化表达式,获取目标函数,并通过交替方向乘子法对目标函数进行求解,得到分割后的每一段视频帧,并计算每一段视频帧的分数;
3)通过背包问题选择合适的片段作为视频摘要;
4)将获取到的视频摘要与人工标注的视频摘要进行对比,调整各参数来进行多次试验,使视频摘要与人工标注更接近;
其中,引入时域拉普拉斯正则化表达式,获取目标函数具体为:
2.根据权利要求1所述的一种基于有监督视频分割的视频摘要方法,其特征在于,在步骤1)之前,所述视频摘要方法还包括:
获取训练视频的核矩阵,该核矩阵由用户的评测帧得分矩阵经过对角化得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710954324.2A CN107886109B (zh) | 2017-10-13 | 2017-10-13 | 一种基于有监督视频分割的视频摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710954324.2A CN107886109B (zh) | 2017-10-13 | 2017-10-13 | 一种基于有监督视频分割的视频摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107886109A CN107886109A (zh) | 2018-04-06 |
CN107886109B true CN107886109B (zh) | 2021-06-25 |
Family
ID=61781351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710954324.2A Active CN107886109B (zh) | 2017-10-13 | 2017-10-13 | 一种基于有监督视频分割的视频摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107886109B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763191B (zh) * | 2018-04-16 | 2022-02-11 | 华南师范大学 | 一种文本摘要生成方法及系统 |
CN111797072A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN110413838B (zh) * | 2019-07-15 | 2021-06-22 | 上海交通大学 | 一种无监督视频摘要模型及其建立方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872346A (zh) * | 2009-04-22 | 2010-10-27 | 中国科学院自动化研究所 | 一种自动生成视频导航系统的方法 |
CN103984738A (zh) * | 2014-05-22 | 2014-08-13 | 中国科学院自动化研究所 | 一种基于搜索匹配的角色标注方法 |
CN104113789A (zh) * | 2014-07-10 | 2014-10-22 | 杭州电子科技大学 | 一种基于深度学习的视频摘要在线生成方法 |
CN104537124A (zh) * | 2015-01-28 | 2015-04-22 | 苏州德沃智能系统有限公司 | 多视图度量学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171578B2 (en) * | 2010-08-06 | 2015-10-27 | Futurewei Technologies, Inc. | Video skimming methods and systems |
-
2017
- 2017-10-13 CN CN201710954324.2A patent/CN107886109B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872346A (zh) * | 2009-04-22 | 2010-10-27 | 中国科学院自动化研究所 | 一种自动生成视频导航系统的方法 |
CN103984738A (zh) * | 2014-05-22 | 2014-08-13 | 中国科学院自动化研究所 | 一种基于搜索匹配的角色标注方法 |
CN104113789A (zh) * | 2014-07-10 | 2014-10-22 | 杭州电子科技大学 | 一种基于深度学习的视频摘要在线生成方法 |
CN104537124A (zh) * | 2015-01-28 | 2015-04-22 | 苏州德沃智能系统有限公司 | 多视图度量学习方法 |
Non-Patent Citations (2)
Title |
---|
Demo Abstract:Video Streaming in Multi-hop Aerial Networks;Luis Ramos Pinto et al.;《2017 16th ACM/IEEE International Conference on Information Processing in Sensor Networks(IPSN)》;20170612;第283-284页 * |
视频结构化分析与应用研究;翟素兰;《万方》;20120604;第1-65页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107886109A (zh) | 2018-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sindagi et al. | Jhu-crowd++: Large-scale crowd counting dataset and a benchmark method | |
Lin et al. | Single shot temporal action detection | |
Dai et al. | Temporal context network for activity localization in videos | |
Sankaranarayanan et al. | Unsupervised domain adaptation for semantic segmentation with gans | |
CN102663015B (zh) | 基于特征袋模型和监督学习的视频语义标注方法 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
WO2018137126A1 (zh) | 一种静态视频摘要的生成方法及装置 | |
US8942469B2 (en) | Method for classification of videos | |
CN104200203B (zh) | 一种基于动作字典学习的人体动作检测方法 | |
Xian et al. | Evaluation of low-level features for real-world surveillance event detection | |
CN107886109B (zh) | 一种基于有监督视频分割的视频摘要方法 | |
Xie et al. | Feature consistency-based prototype network for open-set hyperspectral image classification | |
Celikkale et al. | Predicting memorability of images using attention-driven spatial pooling and image semantics | |
Tang et al. | Deep unsupervised key frame extraction for efficient video classification | |
Cerekovic | A deep look into group happiness prediction from images | |
Zhang | Sports action recognition based on particle swarm optimization neural networks | |
Wang et al. | Detecting action-relevant regions for action recognition using a three-stage saliency detection technique | |
Montserrat et al. | Scalable logo detection and recognition with minimal labeling | |
CN113537164B (zh) | 一种实时的动作时序定位方法 | |
Gu et al. | YouTube-GDD: A challenging gun detection dataset with rich contextual information | |
Song et al. | Text Siamese network for video textual keyframe detection | |
Zhou et al. | Feature sampling strategies for action recognition | |
CN114218434A (zh) | 一种自动标注方法、自动标注装置和计算机可读存储介质 | |
Wang et al. | Evolution-preserving dense trajectory descriptors | |
Yao et al. | Multi‐scale feature learning and temporal probing strategy for one‐stage temporal action localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |