CN107748761A

CN107748761A - 一种视频摘要的关键帧提取方法

Info

Publication number: CN107748761A
Application number: CN201710878227.XA
Authority: CN
Inventors: 武继刚; 贺子楠; 姜文超; 王勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2018-03-02
Anticipated expiration: 2037-09-26
Also published as: CN107748761B

Abstract

本发明公开了一种视频摘要的关键帧提取方法，所述方法包括：对视频摘要中满足代表性和多样性条件的帧进行提取以作为所述关键帧，如下式所示：

Description

一种视频摘要的关键帧提取方法

技术领域

本申请涉及机器学习与数据分析领域，其尤其指一种视频摘要的关键帧提取方法。

背景技术

视屏摘要：视频摘要又称视频浓缩，是对视频内容的一个简单概括，以自动或半自动的方式，先通过运动目标分析，提取运动目标，然后对各个目标的运动轨迹进行分析，将不同的目标拼接到一个共同的背景场景中，并将它们以某种方式进行组合。视频摘要在视频分析和基于内容的视频检索中扮演着重要角色。在社会公共安全领域，视频监控系统成为维护社会治安，加强社会管理的一个重要组成部分。然而视频录像存在存储数据量大，存储时间长等特点，通过录像寻找线索，获取证据传统的做法是要耗费大量人力、物力以及时间，效率极其低下，以至于错过最佳破案时机。因此在视频监控系统中，对原始视频进行浓缩，可以快速浏览，锁定检索对象，能够满足公安，网监，刑侦的各种需求及应用。

静态的视频摘要：也称之为视频概要(video summary)，是以一系列从原始视频流中抽取出来的静态语义单元来表现视频的内容。静态语义单元是诸如关键帧、标题、幻灯片等可以概括表示视频镜头内容的静态特征信息。目前的静态视频摘要的研究主要是基于关键帧选取方法来展开的。通过将多个关键帧组合成视频摘要，允许用于通过少量的关键帧快速浏览原始视频的内容，并提供快速检索。关键帧的选取主要利用颜色、运动矢量等视觉特征去区分帧间的差异性。但差异性的区分计算依赖阈值的选择，选择过程中计算了较大、实时性较差。基于关键帧的视频摘要结果简单，观看方便。但由于其以静态图像为结果的表达形式，很难准确地表达视频的内在语义，且对“对象”动态特征的描述不够全面，所以仅仅适用于视频的精彩瞬间生成，无法适应需要进行“对象”特征分析的场合。

动态视频摘要：又称之为视频浓缩(video synthesis)，是一段比原始视频短的多的浓缩结果。动态视频摘要可以分为精彩剪辑视频、专题浓缩视频、一般浓缩视频三种。精彩剪辑视频主要用于电影电视行业，是由原始视频中的精彩瞬间组成，专题浓缩视频主要应用于医学、金融等特定领域，利用特定专业知识对原始视频进行分析后浓缩得到的表现该领域特定内容的浓缩视频。

相对而言，一般视频浓缩采用通用浓缩方法面向较为普通视频，用户可以通过播放这些相对精炼的摘要视频来了解整个视频的内容。

发明内容

本发明认为组成视频摘要的关键帧需要满足代表性和多样性，其提出了新的代表性和多样性的定义方法，它们分别基于拓扑势与范数，并且提出了关键帧提取的数学模型。并且利用拓扑势来确定每一帧代表性，在我们得到每一帧的拓扑势后，将视频帧按照拓扑势进行代表性排序。同时考虑视频帧的外观不相似度和行为不相似度对其进行分别定义，最终得到确定关键帧的式子。

本发明的目的通过下述技术方案实现：

组成视频摘要的关键帧需要满足代表性和多元性，如下式所示：

其中，R(S)代表关键帧的代表性，而D(S)代表关键帧的多样性。

(1)代表性

对video frames建立网络G＝(V,E)，其中V为视频帧集合，E的权重为d_ij＝d(v_i,v_j)。根据数据场势函数的定义，任一结点的拓扑势可以表示为，

其中，m_j表示网络节点v_j的质量，用来描述v_j的固有属性，n为网络节点的个数，σ为影响因子，用于控制每个结点的影响范围。我们利用拓扑势来确定每一帧的代表性，则：

1)我们定义v_j局部密度来代表v_j的固有属性。其中

d_c为截断误差，其通常为实际值与计算值之间的差值。

2)影响因子σ的选取应该使势场分布尽可能体现数据的内在分布规律，我们引入势熵的概念来衡量势场数据分布的合理性。势熵定义如下：其中为标准化因子，我们通过下式来求解影响因子σ：

由此，我们得到每一帧的拓扑势，并将视频帧按照拓扑势进行代表性排序。

(2)多样性

我们同时考虑视频帧的外观不相似度和行为不相似度，定义如下：

dis_a(v_i,v_j)＝||c_i-c_j||，dis_m(v_i,v_j)＝||o_i-o_j||，其中，c和o分别是colorhistogram和optical flow，dis(v_i,v_j)＝dis_a(v_i,v_j)+dis_m(v_i,v_j)。那么，关键帧的多样性由下式进行确定：

*外观和行为的两个距离要调和才能进行运算。

综上所述，我们利用下式进行关键帧提取：

本发明相对于现有技术的优点及效果：

本文提出的方法基于视频摘要的两个因素代表性和多样性，我们对其进行了新的定义，在此基础上得到获取视频摘要的数学模型，此后进一步提出关键帧提取的具体方式方法，首先设置关键帧的代表能力的阈值，而后按照帧代表性从大到小的顺序对关键帧进行挑选。相比于现有的技术，本文所提出的方法具有一定的参考价值，并且对于一些特殊情况下的视频分析提取具有比一般方法更加突出的优势和作用。

具体实施方式

考虑到我们希望挑选的关键帧在不存在信息冗余的情况下尽可能地展现视频的主要内容，所以我们以差异性为约束，对关键帧集合的代表性进行优化。

(1)首先我们设置关键帧的代表能力的阈值δ₁，我们只对代表能力的视频帧进行研究。接下来，我们对视频帧按照代表性的大小排序：

其中k是排序之后视频帧的标号，N为代表能力的视频帧的数目。

(2)我们按照帧代表性从大到小的顺序对关键帧进行挑选。第1帧最具有代表性，显然可以作为关键帧。如果第k帧被选入关键帧集合，那么我们定义下一个关键帧的备选集合为{k+1,k+2,...,N}。第k+i帧被选入关键帧集合，如果满足：

dis(k,k+i)>δ₂,and dis(k,k+j)≤δ,

其中δ₂是两帧相似程度的阈值。

Claims

1.一种视频摘要的关键帧提取方法，其特征在于，所述方法包括：对视频摘要中满足代表性和多样性条件的帧进行提取以作为所述关键帧，如下式所示：

<mrow> <mi>S</mi> <mo>=</mo> <mi>arg</mi> <munder> <mi>max</mi> <mrow> <mi>S</mi> <mo>&Subset;</mo> <mi>V</mi> </mrow> </munder> <mi>R</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，R(S)代表关键帧的代表性，而D(S)代表关键帧的多样性，S表示关键帧。

2.如权利要求1所述的提取方法，其特征在于，所述代表性条件具体包括：

对所述视频摘要建立网络G＝(V,E)，其中V为视频帧集合，E的权重为d_ij＝d(v_i,v_j)，其表示网络中每条边的权值，可取欧氏距离等度量方法进行计算；根据数据场势函数的定义，任一结点的拓扑势表示为，

其中，m_j表示网络节点v_j的质量，用来描述v_j的固有属性，n为节点的数量；σ为影响因子，用于控制每个结点的影响范围；

然后利用所述拓扑势来确定每一帧的代表性，即：

其中有：

d_c为截断误差，其为实际值与计算值之间的差值；

影响因子σ为其中

3.如权利要求2述的提取方法，其特征在于，所述多样性条件具体包括：

首先计算外观不相似度：dis_a(v_i,v_j)＝||c_i-c_j||和行为不相似度：dis_m(v_i,v_j)＝||o_i-o_j||，

其中，c和o分别是彩色直方图和光流，所述关键帧的多样性条件由下式进行确定：

其中dis(v_i,v_j)＝dis_a(v_i,v_j)+dis_m(v_i,v_j)。