CN104463139A

CN104463139A - 一种音频情感驱动下的体育视频精彩事件检测方法

Info

Publication number: CN104463139A
Application number: CN201410806622.3A
Authority: CN
Inventors: 余春艳; 翁子林; 苏晨涵; 陈昭炯
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2014-12-23
Filing date: 2014-12-23
Publication date: 2015-03-25
Anticipated expiration: 2034-12-23
Also published as: CN104463139B

Abstract

本发明涉及一种音频情感的驱动下的体育视频精彩事件检测方法。本发明方法充分利用视频文件中的音频信息，首先利用两阶段的音频情感感知技术感知出音频中的高层情感语义；在第一阶段中构建了基于分层二叉树支持向量机的音频分类器，从底层音频特征中识别出中层情感类型；第二阶段中利用音频情感映射技术从中层音频类型中映射得到高层情感语义类型，得到高层情感语义后顺利挖掘到音频流中的高层情感语义波动序列；最终在音频情感波动序列的基础上结合静音以及激动情感语义定位出精彩事件。本发明的方法简单，利用音频情感从语义上驱动体育视频精彩事件的检测，所提取的体育视频精彩事件对于用户而言更加精彩更加有效。

Description

一种音频情感驱动下的体育视频精彩事件检测方法

技术领域

本发明涉及视频图像处理领域，特别是一种音频情感驱动下的体育视频精彩事件提取方法。

背景技术

体育视频是众多视频类型中非常重要的一种，深受许多视频观众尤其是体育视频爱好者的喜爱。随着高清数字电视的不断普及与推广，每天不同的电视频道都播着大量的体育视频节目。对于体育视频爱好者而言，把如此多的体育视频节目都完整浏览一遍是不现实的。在这种情况下，视频精彩事件提取方法能够有效地筛选出视频中的精彩片段，为用户节省大量的宝贵时间。因此，开发出一种有效的视频精彩片段提取方法是十分有必要的。

视频精彩片段提取技术能够帮助用户快速获取冗长的视频中关键的片段，是视频检索与视频摘要的重要技术支撑。由于视频精彩片段是面向用户的，因此如何充分考虑用户情感变化以及视频多媒体文件中的情感语义变化情况，从情感语义上更好地驱动视频精彩片段提取成为目前研究的重要问题之一。

视频多媒体文件一般包含视觉模态数据和伴生的听觉模态数据。视觉模态中的镜头缩放、镜头变换、运动物体等以及听觉模态中的背景音乐、对话独白、鼓掌呐喊等都向视频观看者传达着不同类型不同程度的情感语义信息。因此，两种模态数据都可以用来感知情感语义。

目前，已经有较多技术对视觉模态数据的情感语义进行感知，其目标主要是通过分析颜色、特定物体等底层视觉模态信息最终提取出情感语义。例如中国专利CN1991864A所公开的基于球门的足球视频精彩事件检测方法中将球门的出现看做关键语义事件的开始，从而定位出精彩事件。又如，文献“Edwards J, Jackson H J, Pattison P E. Emotion recognition via facial expression and affective prosody in schizophrenia: a methodological review[J]. Clinical psychology review, 2002, 22(6): 789-832.”对视频中人脸部不同位置的肌肉块进行分析，得到当前的表情所属的类别，进而分析出当前人物的心情以及事件的紧张程度。然而，底层视觉特征与高层情感之间并非强耦合关系，本质上两者之间存在语义鸿沟。所以，到目前为止，仅依赖底层视觉特征挖掘情感语义信息仍然是一个非常困难的问题。

听觉模态数据同样蕴含着丰富的情感语义。一方面，听觉模态中情感语义可以表征视频中事件的精彩程度，类似激动等类型的高层情感，通常伴随着视频精彩片段而出现。在体育视频中，比赛现场的观众以及解说员的反应往往跟着比赛中事件的发展而不断变化。精彩事件发生，他们往往较激动，表现为观众的欢呼声、鼓掌声以及解说员的激动解说，而在正常事件中他们则表现较为平静。另一方面，与视觉模态数据相比，听觉模态数据的底层物理特征与高层情感语义间的耦合关系比较紧密。例如，体育视频中观众的欢呼声一般具有较高的短时能量和较低的过零率，而欢呼声代表着观众处于较为激动的状态。这种相对紧密的耦合关系在一定程度上有助于缩小语义鸿沟。由此可见，音频情感语义可以有效地辅助体育视频精彩片段的提取。

发明内容

本发明的目的在于提供一种音频情感驱动下的体育视频精彩事件检测方法，使得在音频情感语义指导下所提取的体育视频精彩片段更加有效更符合用户的需要。

为实现上述目的，本发明的技术方案是：一种音频情感驱动下的体育视频精彩事件检测方法，包括如下步骤：

步骤S1：提取出源视频文件的音轨并将音轨分割成等长的基本单元；

步骤S2：基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型，得到各基本单元的音频情感感知结果，并运用基于规则的平滑技术进行平滑处理，得到音频高层情感语义波动序列；

步骤S3：在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出视频精彩事件。

在本发明的实施例中，步骤S1中，所述的基本单元的长度均为1s。

在本发明的实施例中，步骤S1中，所述的音轨统一格式化为wav格式、单声道，采样频率为22.05khz。

在本发明的实施例中，步骤S2中，所述的两阶段的音频情感感知技术按照以下方案实现：

步骤S21：提取并分析音频基本单元的底层音频特征，其中，底层音频特征包括：过零率、短时平均能量、频谱流量、音调、Mel频率倒谱系数、静音比例、低频能量比、高过量比率、带宽；

步骤S22：基于分层二叉树支持向量机构建一个音频分类器，利用该分类器从底层音频特征中识别出中层音频类型，其中，中层音频类型包括：欢呼声、鼓掌声、精彩解说声、其他语音、静音及其他共计六种类型；

步骤S23：通过语义映射技术将中层音频情感类型映射为高层情感语义类型，从而感知出底层音频特征中蕴含的高层情感语义类型，其中，高层情感语义类型包括：激动、平缓共计两种类型。

在本发明的实施例中，所述步骤S22中，所述的基于分层二叉树支持向量机的音频分类器的构建按照以下方案实现：构建一棵最优完全偏二叉树识别出欢呼声、鼓掌声、精彩解说声、其他语音、静音及其他这六种中层音频类型，且所述完全偏二叉树的构建过程中取中层音频类型作为叶子结点；

在本发明的实施例中，所述的完全偏二叉树构建过程中每一层叶子结点的确定按以下方案实现：

步骤S221：设M代表中层音频类型集合，即M={欢呼声，鼓掌声，精彩解说声，其他语音，静音，其他}；对于M中的任一类M_k，计算M_k与其他剩余类M_j之间的欧式距离，此时，M_k是正类，M_j是负类；可表示为：，其中，d_kj表示M_k与M_j之间的欧式距离，用M_k与M_j之间的中心距离表示；

步骤S222：计算负类中所有不同类之间的平均欧式距离，也即：；

步骤S223：取上述两个距离及之和作为M_k类的排斥距离D，即；计算M中每个类的排斥距离，取排斥距离最大的类作为当前层的叶子结点，并且将该类从M中剔除。

在本发明的实施例中，步骤S3中，所述的视频精彩事件定位算法按照以下方案实现：

步骤S31：根据步骤S2所述的音频高层情感语义波动序列，找到其中所有包含激动类型的情感语义音频段，并将其设为H_i；

步骤S32：确定视频精彩事件起始点：首先，确定H_i相邻的且在时间上早于它的静音类型的情感语义音频段，并将其设为Sile_i；取Sile_i的右边界所对应的音频帧索引，根据音视频同步技术计算得到对应的视频帧索引，并设为F_i；最后，用F_i所在的视频镜头的左边界作为视频精彩事件起始点；

步骤S33：确定视频精彩片段结束点：首先，取H_i的右边界所对应的音频帧索引，根据音视频同步技术计算得到对应的视频帧索引并将其作为视频精彩事件结束点。

相较于现有技术，本发明具有以下有益效果：本发明提出了一种音频情感驱动下的体育视频精彩事件检测方法，从音频情感语义变化的角度考虑，利用两阶段的音频情感感知技术从音频信息中挖掘出能反映视频观看者情绪起伏的情感语义信息，并结合静音以及激动的高层情感语义有效定位出体育视频的精彩事件，所提取的精彩事件对用户来说是有效的。

附图说明

图1为本发明为本发明的音频情感驱动下的体育视频精彩事件提取方法的结构框图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提出了一种音频情感驱动下的体育视频精彩事件检测方法，包括如下步骤：

以下为本发明的具体实施例。

请参照图1，本发明从视频的伴生音频数据出发，提取音频流的底层物理特征，充分挖掘其中的音频情感语义信息，为伴生音频流建立音频情感语义分割序列；进一步地，以音频情感语义分割序列为语义支撑，辅以精彩片段起止定位策略和音视频同步修订，完成体育视频精彩片段提取，具体如下：

步骤1：音频初分割。为感知音频情感语义进而获取音频情感语义感知序列，首先提取源视频文件的伴生音频数据，并按照一定的时长要求将其分割为若干等长且长度为1秒的音频基本单元(Basic Segment, BS)。在本实施例中BS时长设定为1秒，且音频数据统一格式化为wav格式、单声道，采样频率为22.05khz。

步骤2：音频情感感知。利用两阶段的音频情感感知技术感知出BS的高层情感语义。第一阶段采用基于分层二叉树SVM (Binary Tree SVM, BT-SVM)的音频分类器，根据底层音频特征完成中层音频类型分类识别。中层音频类型包括：“欢呼声”、“鼓掌声”、“精彩解说声”、“其他语音”、“静音”、“其他”共计六种类型。其中的音频分类器本质上是一棵寻优后的完全偏二叉树，以上六种中层音频类型作为其叶子节点，各层的类别的最优分布寻优过程按照以下方案确定：(1)让M代表中层音频类型集合，即M={欢呼声，鼓掌声，精彩解说声，其他语音，静音，其他}。对于M中的任一类M_k，计算M_k与其他剩余类之间的欧式距离。此时，M_k是正类，其余类M_j是负类。可表示为：，其中d_kj表示M_k与M_j之间的欧式距离，用M_k与M_j之间的中心距离表示；(2)计算负类M_j中所有不同类之间的平均欧式距离，也即：；(3)取上述两个距离之和作为M_k类的排斥距离D，即。计算M中每个类的排斥距离，取排斥距离最大的类作为当前层的叶子结点，并且将该类从M中剔除。第二阶段通过语义映射技术将中层音频类型映射为高层情感语义。高层语义包括“激动”语义以及“平缓”语义。其中将“欢呼声”、“鼓掌声”、“精彩解说声”、这三种中层音频类型映射为“激动”的高层情感语义；将“其他解说”、“静音”、“其他”这三种中层音频类型映射为“平缓”的高清情感语义。

在BS的高层语义识别结果的基础上需要接着进行基本单元的合并与平滑。将所有BS对应的高层情感语义串接得到伴生音频流的情感语义序列，该语义序列需要进一步的平滑处理，首先遍历语义序列并将情感语义序列中相邻且高层情感语义相同的BS合并，并对连续的三个高层情感语义类型进行平滑处理。假设a(n)、a(n+1)、a(n+2)是三个连续的BS所对应的高层情感语义类型，则有以下规则：规则1：if {a(n) == C && a(n+1) != C && a(n+2) == C} then a(n+1) = C；规则2：if {a(n+1) == C && a(n) != C && a(n+2) != C} then a(n) = a(n+1) = C。

步骤3：根据音频情感语义波动序列定位体育视频精彩事件，具体实现如下：(1)在音频高层情感语义波动序列，找到所有“激动”情感语义音频段(设为H_i)；(2)确定视频精彩事件起始点，首先确定H_i相邻的在时间上早于它的“静音”音频段(设为Sile_i)，取Sile_i的右边界所对应的音频帧索引，根据音视频同步技术计算得到对应的视频帧索引(设为F_i)。最后用F_i所在的视频镜头的左边界作为视频精彩事件起始点；(3)确定视频精彩片段结束点，首先取H_i的右边界所对应的音频帧索引，根据音视频同步技术计算得到对应的视频帧索引并将其作为视频精彩事件结束点。根据起始点以及结束点即可得到所有的体育视频精彩事件。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：包括如下步骤，

步骤S2：基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型，得到音频情感感知结果，并运用基于规则的平滑技术进行平滑处理，得到音频高层情感语义波动序列；

2.根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：步骤S1中，所述的基本单元的长度均为1s。

3.根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：步骤S1中，所述的音轨统一格式化为wav格式、单声道且采样频率为22.05kHz。

4.根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：步骤S2中，所述的两阶段的音频情感感知技术按照以下方案实现：

5.根据权利要求4所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：步骤S22中，所述的基于分层二叉树支持向量机的音频分类器的构建按照以下方案实现：构建一棵最优完全偏二叉树识别出欢呼声、鼓掌声、精彩解说声、其他语音、静音及其他这六种中层音频类型，且所述完全偏二叉树的构建过程中取中层音频类型作为叶子结点。

6.根据权利要求5所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：所述的完全偏二叉树构建过程中每一层叶子结点的确定按以下方案实现：

7.根据权利要求4所述的一种音频情感驱动下的体育视频精彩事件检测方法，其特征在于：步骤S3中，所述的视频精彩事件定位算法按照以下方案实现：

步骤S31：根据步骤S3所述的音频高层情感语义波动序列，找到其中所有包含激动类型的情感语义音频段，并将其设为H_i；

步骤S31：确定视频精彩事件起始点：首先，确定H_i相邻的且在时间上早于它的静音类型的情感语义音频段，并将其设为Sile_i；取Sile_i的右边界所对应的音频帧索引，根据音视频同步技术计算得到对应的视频帧索引，并设为F_i；最后，用F_i所在的视频镜头的左边界作为视频精彩事件起始点；