CN104008175A

CN104008175A - 一种情感激励下的视频关键帧自适应提取方法

Info

Publication number: CN104008175A
Application number: CN201410248555.8A
Authority: CN
Inventors: 余春艳; 翁子林; 苏晨涵; 叶东毅; 陈昭炯
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2014-06-06
Filing date: 2014-06-06
Publication date: 2014-08-27
Anticipated expiration: 2034-06-06
Also published as: CN104008175B

Abstract

本发明涉及一种情感激励下的视频关键帧自适应提取方法。从视频观看者情绪波动的角度考虑，通过计算视频帧的运动强度作为视频观看者观看视频时的视觉情感激励度，计算短时平均能量、音调作为听觉情感激励度，将听视觉情感激励度进行线性融合得到镜头内每个视频帧的视频情感激励度并生成镜头的视频情感激励度曲线；然后根据镜头的视频情感激励变化情况得到本镜头应分配到的视频关键帧数目KN；最后取视频情感激励度曲线情感激励度最高的前KN个波峰所对应的视频帧作为镜头关键帧。本发明的方法简单，从视频观看者情感变化的角度入手考虑，用视频情感激励度从语义从指导关键帧提取，所提取的视频关键帧更具有代表性以及有效性。

Description

一种情感激励下的视频关键帧自适应提取方法

技术领域

本发明涉及视频图像处理领域，特别是一种情感激励下的视频关键帧自适应提取方法。

背景技术

近年来多媒体技术的发展以及便携视频设备的普及催生出越来越多的视频数据，如何对这些数据进行快速浏览与高效管理成为一个亟待解决的问题。人的时间精力与视频的增长速度不成正比。一方面，人的时间跟精力是有限的，无法全部浏览自己感兴趣的视频；另一方面，视频数量不断暴涨。比如，对于体育视频爱好者来说，由于各方面的因素他们无法浏览一段时间内的全部比赛视频。事实上，他们可能只关注每场比赛的一些关键瞬间。为节省时间，需要对视频内容进行一定的分析，提取出其中的视频关键帧让用户尽可能快速地了解整段视频。

视频关键帧提取技术为用户能够快速了解视频片段提供了可能，为视频摘要以及视频检索提供了技术支撑。由于视频关键帧最终将服务于用户，因此如何充分考虑视频观看者情感变化以及视频的情感语义变化情况，从视频情感语义上更好地指导视频关键帧提取成为目前研究的重点问题之一。

传统的视频关键帧提取方法主要基于低层物理特征进行分析，没有从高层情感语义的角度分析问题。视频关键帧的一个很重要的特性在于它一般要服务于用户，没有从视频观看者的角度思考问题，没有从情感语义上定位视频关键帧往往导致所提取的视频关键帧缺乏一定的价值性和代表性。这类方法大多基于聚类或者基于运动分析。因此，目前本领域相关技术人员需要解决的技术问题在于：如何考虑视频观看者情感变化以及视频的情感语义变化情况，从视频情感语义上指导视频关键帧提取，使提取出来的视频关键帧更具有代表性和有效性。

发明内容

本发明的目的在于提供一种情感激励下的视频关键帧自适应提取方法，使得在视频情感语义的指导下所提取的视频关键帧更具有代表性和有效性，并且实现镜头关键帧数目的合理分配。

为实现上述目的，本发明的技术方案是：一种情感激励下的视频关键帧自适应提取方法，包括如下步骤，

步骤S1：从视频镜头中提取出所有视频帧并计算每个视频帧的视觉情感激励度；

步骤S2：计算与步骤S1中每个视频帧同步的音频数据的听觉情感激励度；

步骤S3：通过线性加权的方式将视觉情感激励度与听觉情感激励度融合，二者权重相等，得出每个视频帧的视频情感激励度，最后根据各镜头的视频情感激励情况自适应地计算出镜头的视频关键帧数目KN；

步骤S4：根据镜头内所有视频帧的视频情感激励度得到镜头的视频情感激励度曲线，在镜头的视频情感激励度曲线中选取视频情感激励度最高的前KN个波峰所对应的视频帧作为镜头的视频关键帧。

在本发明实施例中，所述步骤S1所述视频帧的视觉情感激励度的提取，是根据视频帧的运动强度按照以下方案实现：

步骤S11：用横向R-1、纵向C-1条平行线把每个视频帧分成R·C个子块，其中，R、C为自然数，且R>1，C>1；

步骤S12：计算当前视频帧与相邻的前一帧在对应像素点的像素差绝对值，根据像素差值绝对值计算当前帧在该像素点的运动强度；用表示像素点(i,j)的运动强度，若像素差值绝对值大于阈值，则认为该像素点发生运动，将置为1，反之为0；

步骤S13：根据所述子块内发生运动的像素比例来计算子块的运动强度；用表示当前帧在第i个子块的运动强度，子块内发生运动的像素点比例超过阈值就认为该子块发生运动，将该子块的运动强度置为1，反之为0；

步骤S14：根据当前视频帧发生运动的子块数占所有子块数的比例来计算视频帧的运动强度，即视觉情感激励度。

在本发明实施例中，所述步骤S2所述视频帧的同步音频数据的听觉情感激励度的提取，是根据音频帧的短时平均能量和音调按照以下方案计算得到：

步骤S21：将所述视频帧的同步音频数据进行音频分帧处理，音频帧之间有50%重叠，得到AN个音频帧；

步骤S22：计算每个音频帧的短时能量Energy，取AN个音频帧的平均短时能量作为所述视频帧所对应的声音能量情感激励度；

步骤S23：计算每个音频帧的音调Pitch，取AN个音频帧的平均音调作为所述视频帧所对应的音调情感激励度；

步骤S24：所述视频帧的同步音频数据的听觉情感激励度由以及相加得到，即。

在本发明实施例中，所述步骤S3所述的镜头视频关键帧数目KN的自适应计算方法按照以下方案实现：

步骤S31：通过线性加权的方式将视觉情感激励度与听觉情感激励度融合，二者权重相等，得出镜头中每个视频帧的视频情感激励度；

步骤S32：计算当前镜头S _k的相邻两帧的视频情感激励度差异累加和均值，，其中，F(i)是第i视频帧的视频情感激励度，N是镜头S _k内视频帧的总数；

步骤S33：计算当前镜头S _k应分配到的视频关键帧数目KN _k：，其中，KN _k表示分配给镜头S _k的视频关键帧数目，Sum表示预设的视频关键帧总数，M表示视频序列的镜头数，是镜头S _k的的相邻两帧的视频情感激励度差异累加和均值，max()是求最大值操作；每个镜头至少有一帧视频关键帧，此时镜头的视频关键帧就是镜头视频情感激励度曲线最大值处所对应的视频帧。

在本发明实施例中，所述步骤S33所述预设的视频关键帧总数Sum由以下方案确定：赋予Sum初始值为视频文件镜头总数的3倍，并且允许用户通过交互的方式设定新值，所设定的新值不能低于视频文件的镜头数；若用户没有设定新值，则Sum值为默认的初始值；反之，Sum值为用户设定的合法值。

相较于现有技术，本发明具有以下有益效果：本发明提出了一种情感激励下的视频关键帧自适应提取方法，从视频观看者情感变化以及视频情感语义变化的角度考虑，计算出了视频观看者在观看视频时的视频情感激励度，从视频情感语义上指导视频关键帧提取，所提取的视频关键帧更具有代表性及有效性；此外，本发明还提出一种视频关键帧数目自适应方法，根据每个镜头的视频情感激励度情况动态决定镜头内视频关键帧数目。

附图说明

图1为本发明是情感激励下的视频关键帧自适应提取方法的结构框图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明一种情感激励下的视频关键帧自适应提取方法，包括如下步骤，

以下为本发明具体实施例。

请参照图1，本发明通过计算视频帧的运动强度作为视频观看者观看视频时的视觉情感激励度，计算短时平均能量、音调作为听觉情感激励度，将听视觉情感激励度进行线性融合得到镜头内每个视频帧的视频情感激励度并生成镜头的视频情感激励度曲线，该曲线反应了视频观看者观看视频时的兴奋及激动程度；然后根据镜头的视频情感激励变化情况得到本镜头应分配到的视频关键帧数目KN _k；最后取视频情感激励度曲线情感激励度最高的前KN个波峰所对应的视频帧作为镜头关键帧，具体如下：

步骤1：计算镜头内视频帧的视觉情感激励度。其过程如下：（1）用横向R-1、纵向C-1条平行线把每个视频帧分成R·C个子块，R>1，C>1；（2）计算当前视频帧与相邻的前一帧在对应像素点的像素差绝对值，根据像素差值绝对值计算当前帧在该像素点的运动强度。用表示像素点(i,j)的运动强度，若像素差值绝对值大于阈值，则认为该像素点发生运动，运动强度置为1，反之为0；（3）根据子块内发生运动的像素比例来计算子块的运动强度。用表示当前帧在第i个子块的运动强度，块内发生运动的像素点比例超过阈值就认为该块发生运动，将该块的运动强度置为1，反之为0；（4）根据当前视频帧发生运动的子块数占所有子块数的比例来计算视频帧的运动强度，即运动强度，也即视觉情感激励度。

步骤2：计算与每个视频帧同步的音频数据的听觉情感激励度。其步骤如下：（1）将该视频帧所对应的音频数据进行音频分帧处理，音频帧之间有50%重叠，得到AN个音频帧；（2）计算每个音频帧的短时能量Energy，取AN个音频帧的平均短时能量作为该视频帧所对应的声音能量情感激励度；（3）计算每个音频帧的音调Pitch，取AN个音频帧的平均音调作为该视频帧所对应的音调情感激励度；（4）该视频帧所对应的听觉情感激励度由以及相加得到，即。

步骤3：自适应地计算出镜头的视频关键帧数目KN。其过程如下：（1）通过线性加权的方式将视觉情感激励度与听觉情感激励度融合，二者权重相等，即，其中分别为、的权重值，最终得出镜头中每个视频帧的情感激励度；（2）计算当前镜头S _k的相邻两帧的视频情感激励度差异累加和均值，，其中F(i)是第i视频帧的视频情感激励度，N是镜头S _k内视频帧的总数；（3）计算当前镜头S _k应分配到的视频关键帧数目KN _k：，其中KN _k表示分配给镜头S _k的视频关键帧数目，Sum表示预设的视频关键帧总数，M表示视频序列的镜头数，是镜头S _k的的相邻两帧的视频情感激励度差异累加和均值，max()是求最大值操作。每个镜头至少有一帧视频关键帧，此时镜头的视频关键帧就是镜头情感激励度曲线最大值处所对应的视频帧。其中，视频文件的关键帧总数Sum由以下方案确定：赋予Sum初始值为视频文件镜头总数的3倍，并且允许用户通过交互的方式设定新值，所设定的新值不能低于视频文件的镜头数。若用户没有设定新值，则Sum值为默认的初始值；反之，Sum值为用户设定的合法值。

步骤4：镜头视频关键帧提取。根据镜头内每个视频帧的视频情感激励度得到镜头的视频情感激励度曲线。在镜头的视频情感激励度曲线中选取视频情感激励度最高的前KN个波峰所对应的视频帧作为镜头的视频关键帧。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种情感激励下的视频关键帧自适应提取方法，其特征在于：包括如下步骤，

2.根据权利要求1所述的一种情感激励下的视频关键帧自适应提取方法，其特征在于：所述步骤S1所述视频帧的视觉情感激励度的提取，是根据视频帧的运动强度按照以下方案实现：

3.根据权利要求1所述的一种情感激励下的视频关键帧自适应提取方法，其特征在于：所述步骤S2所述视频帧的同步音频数据的听觉情感激励度的提取，是根据音频帧的短时平均能量和音调按照以下方案计算得到：

4.根据权利要求1所述的一种情感激励下的视频关键帧自适应提取方法，其特征在于：所述步骤S3所述的镜头视频关键帧数目KN的自适应计算方法按照以下方案实现：

5.根据权利要4所述的一种情感激励下的视频关键帧自适应提取方法，其特征在于：所述步骤S33所述预设的视频关键帧总数Sum由以下方案确定：赋予Sum初始值为视频文件镜头总数的3倍，并且允许用户通过交互的方式设定新值，所设定的新值不能低于视频文件的镜头数；若用户没有设定新值，则Sum值为默认的初始值；反之，Sum值为用户设定的合法值。