CN105989370B

CN105989370B - 基于属性层次的视音频融合方法

Info

Publication number: CN105989370B
Application number: CN201510082621.3A
Authority: CN
Inventors: 李学龙; 卢孝强; 胡迪
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2015-02-15
Filing date: 2015-02-15
Publication date: 2020-07-31
Anticipated expiration: 2035-02-15
Also published as: CN105989370A

Abstract

本发明涉及一种基于属性层次的视音频融合方法。包括以下步骤：1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库，实验数据库包括训练集和测试集；对训练集和测试集的视音频进行预处理；2】对预处理后的训练集数据进行属性特征提取；3】利用提取到的属性特征对测试集进行度量，得到分类结果。本发明提出了一种可以提高识别率，同时增强应用的可扩展性的基于属性层次的视音频融合方法。

Description

基于属性层次的视音频融合方法

技术领域

本发明属于多媒体技术领域，涉及一种利用视音频信息进行行为识别的方法，尤其涉及一种基于属性层次的视音频融合方法，可应用于公共安全管理、影视创作、体育健身等领域。

背景技术

近年来，随着人类与计算机间交互方式的变化，以及内容需求的增长，传统的交互方式(如键盘，鼠标，画面显示等)已难以满足人们的需求。这要求计算机能够获取多模式信息，包括图像，语音，文字等，进而完成一定的任务要求，获得期望输出。在主动获取多模式信息后，对其分别进行的处理以及信息融合处理是多模式处理的核心。

视音频信息融合是多模式信息融合的一种，它建立在获取特定任务的图像信息和声音信息的基础上，主要目的是获取统一的“感官体验”。现有的视音频融合方法主要为三类，已在文献“S T.Shivappa,M M.Trivedi,B D.Rao.Audiovisual information fusionin human–computer interfaces and intelligent environments:Asurvey.Proceedings of the IEEE,98(10):1692-1715,2010”中有较详细的叙述，分别是特征层，模型层和决策层：

一是特征层次融合方法，将获取的图像特征和声音特征在最低层次进行整合，进而组成一个较大的特征向量用以表示具体时刻的视音频融合信息，但是基于特征层的融合并没有具体的理论支撑，图像特征和声音特征来自不同空间，不宜直接进行整合，并且此层次的融合很难让两个通道的特征保持同步，同时当训练集和测试集的状况发生变化的时候，实验效果并不是很好。

二是模型层次融合方法，它是将图像信息和声音信息融合视作一个整体，在特定的模型内部进行融合。此种方法在自动语音识别和情感识别中应用较多，其中应用较为普遍的模型是隐马尔科夫模型和动态贝叶斯模型。基于模型的融合是一次真正意义上有实际理论依据的多通道信息融合。虽然它和其他融合方法相比有时表现并不好，但它所达到的理论意义是值得肯定的。在另一方面，此种方法有模型局限性，现在只能用于上述两类识别任务，并不能进行扩展。

三是决策层次融合方法是一种基于声音和图像各自分类结果的融合问题。它针对于将视音频主要的分类结果进行融合，而不注重内部交互。决策层融合并不是在实现一个真正意义上的“整体大于局部之和”，并不包含视音频内部的交互。它对融合的假设建立在图像信息和声音信息是独立的基础上，但这与事实相反。不过，它有效的避免了类似于特征层融合中特征向量过大的问题。

不同的融合层次需要一定的理论背景和任务需求。当前计算机视音频信息融合已经在一些领域中的得到了应用，例如自动语音识别，目标定位及跟踪和情感识别等。

发明内容

为了解决背景技术中所存在的技术问题，本发明提出了一种基于属性层次的视音频融合方法

本发明的技术方案为：一种基于属性层次的视音频融合方法，其特殊之处在于：包括以下步骤：

1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库，所述实验数据库包括训练集和测试集；对训练集和测试集的视音频进行预处理，预处理方法具体如下：

1a]提取训练集与测试集的视频特征；上述视频特征采用密集轨迹特征和运动边界特征，并根据密集轨迹特征和运动边界特征组成视频数据；

上述视频数据在帧的层次上进行密集采样，以保证特征点均等的覆盖所有的空间位置；

1b]提取训练集与测试集的音频特征；

上述音频特征在声音帧的层次上进行提取；一个音频会由多个特征进行联合表示，将多个特征组成一个矩阵；上述矩阵为音频数据；

1c]聚类处理；对所有训练集中的视频特征和音频特征分别进行k-means聚类，其结果为预处理后的训练集数据，具体公式如下：

其中，由于视觉信息量远大于听觉信息量，故而q＞p；

2】对预处理后的训练集数据进行属性特征提取；

根据得到的预处理后的训练集数据，提出以下的目标表达式，通过对它进行优化，以得到有监督聚类后的视音频弱行为描述包，即若干聚类中心。

其中，

和

是视音频训练行为描述包；

C^V和C^A是视音频弱行为描述包(聚类中心)；

W是相应的线性分类超平面；

β₁，β₂以及α是平衡系数；

和

用以度量待检测行为包和每个弱行为描述包间的相似度，并且是已进行归一化后的距离；

y_i为对于测试视频的分类结果；

对W采取l_2,1-范式约束，使其既能满足能量约束，也同时能满足稀疏约束；其中的

函数用于获取聚类中心，即弱行为描述包，其具体如下：

其中，

是相应的训练行为包；H(x_i,c_j)用以测量两包之间的豪斯多夫距离；对于每个x_i需要找出与它豪斯多夫距离最小的聚类中心c_j，通过对所有最短距离的求和及不断改变C来获得局部最小值；

3】利用提取到的属性特征对测试集进行度量，得到分类结果，具体方法如下：

3a]获取相似度；用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度，具体如下：

上式中，

和

用以度量待检测行为包和每个弱行为描述包间的相似度，并且是已进行归一化后的距离，而下式用于度量高斯分布下两包的相似度：

s(x_i,c_j)＝exp(-H(x_i,c_j)²/δ)

其中，δ是在所有弱行为描述包间的平均豪斯多夫距离；

3b]获取分类结果；将上述获取的相似度度量结果(

和

)和优化目标表达式所得到的超平面W共同带入下式：

其中，y_i为对于测试视频的分类结果；

上述步骤1】1b]中音频特征包括：零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。

本发明的优点是：本发明所展现的视音频融合是基于属性层次的融合。它通过对将视频和音频数据的底层特征进行整合，抽象成为属性特征，通过对训练和测试数据间属性特征的比对来进行行为识别。与现有方法相比，其提高了识别率，同时增强了应用的可扩展性。

附图说明

图1为本发明基于属性层次视音频融合方法的流程图。

具体实施方式

参见图1，一种基于属性层次的视音频融合方法，其特殊之处在于：包括以下步骤：

1】在Hollywood2行为数据库基础上任意抽取4组行为数据(如：吃饭、握手、下车、跑步)建立实验数据库，所述实验数据库包括训练集和测试集；对训练集和测试集的视音频进行预处理，预处理方法具体如下：

1b]提取训练集与测试集的音频特征；

其中，由于视觉信息量远大于听觉信息量，故而q＞p；

2】对预处理后的训练集数据进行属性特征提取；

其中，

和

是视音频训练行为描述包；

C^V和C^A是视音频弱行为描述包(聚类中心)；

W是相应的线性分类超平面；

β₁，β₂以及α是平衡系数；

和

y_i为对于测试视频的分类结果；

函数用于获取聚类中心，即弱行为描述包，其具体如下：

其中，

上式中，

和

s(x_i,c_j)＝exp(-H(x_i,c_j)²/δ)

其中，δ是在所有弱行为描述包间的平均豪斯多夫距离；

3b]获取分类结果；将上述获取的相似度度量结果(

和

)和优化目标表达式所得到的超平面W共同带入下式：

其中，y_i为对于测试视频的分类结果；

本发明实现的具体步骤如下：

步骤1，对训练和测试视音频进行预处理。

(1a)提取视频特征。视频特征采用密集轨迹和运动边界特征。具体来说，本方法将主要利用文献“H.Wang,A.

C.Schmid,et al.Dense trajectories and motionboundary descriptors for action recognition.International journal of computervision,103(1):60-79,2013”提出的算法，即视频在帧的层次上进行密集采样，目的是保证特征点均等的覆盖所有的空间位置和尺度，尽可能的保留要被计算的轨迹信息。然后在同一尺度上计算两帧之间的光流场w_t＝(u_t,v_t)，其中u_t和v_t是光流的水平和竖直方向。下一帧的确定与当前帧有关系，如下式：

其中，M是3*3的中值滤波器。将若干P_i进行串联，便可获得针对某点的一个轨迹(P_t,P_t+1,P_t+2,...)。由于轨迹倾向于离初始点越来越远，故而将帧数设为L，即只取L数量的P_i。一个视频通常会获取多个轨迹特征，将其组成一个矩阵用以表达此视频。

(1b)提取音频特征。由于视频背景的多样性，可能会涉及到多种声音，因此我们对视频中声音提取多种特征以使保留最大信息，解决多种类问题。我们主要采取的声音特征有：零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度等。通过对上述声音不同方面特征的提取，尽可能的保留原始声音各方面的特性。实现方面，上述特征在声音帧的层次上进行提取。一个音频会由上述多个特征进行联合表示，将其组成一个矩阵用以表达此音频。

(1c)聚类预处理。对所有训练视频特征和音频特征分别进行k-means聚类，其结果分别为：

步骤2，对预处理后的训练数据进行属性特征学习。

(2a)根据得到的预处理结果，提出以下的目标表达式，通过对它进行优化，以得到有监督聚类后的弱行为描述包，即聚类中心。

式中，

和

是视音频训练行为描述包，C^V和C^A是视音频弱行为描述包(聚类中心)，W是相应的线性规划参数。由于我们将行为识别多分类问题转化为“一对多”问题，故而对W采取l_2,1-范式约束，使其既能满足能量约束，也同时能满足稀疏约束。β₁，β₂以及α是平衡系数。而其中的

函数用于获取聚类中心，即弱行为描述包，其具体如下：

其中，

是相应的训练行为包，对于每个x_i需要找出与它豪斯多夫距离最小的聚类中心c_j，通过对所有最短距离的求和及不断改变C来获得全局最小值。

(2b)对目标式进行优化。对一种有效的块协同下降法，即

首先固定W和C^V，优化含C^A的目标式；

再固定W和C^A，优化含C^V的目标式；

最后固定C^V和C^A，优化含W的目标式，重复三步骤进行直至最终收敛。

步骤3，测试。

(3a)获取相似度。把衡量集合之间的豪斯多夫(Hausdorff)距离用来测量训练行为描述包和弱行为描述包之间的相似度，具体如下：

上式中，

和

用以度量待检测行为包和每个弱行为描述包间的相似度，并且是已进行归一化后的距离，而

s(x_i,c_j)＝exp(-H(x_i,c_j)²/δ)

其中δ是在所有弱行为描述包间的平均豪斯多夫距离，H(x_i,c_j)用以测量两包之间的豪斯多夫距离。

(3b)获取分类结果。将上述的相似度度量结果和训练所得到的超平面W共同带入下式：

其中，所得到的y_i即为对于测试视频的分类结果。

步骤4，计算平均精度值。

在测试实验结果时，我们利用平均精度值(average precision,AP)来进行衡量。首先上述精度的概念可以从用两个角度来解释，一个是准确率，一个是召回率。把所有待检测的行为视频带入回归函数，得到各自的回归分数。在一定的阈值条件下，我们可以筛选出那些回归是正确的，那些回归是错误的。准确率是在被认为正确的检测视频中真正正确的比率，而召回率是被认为正确的检测视频中真正正确的数目占所有被检测视频的比率，如下式：

正确率＝提取出的正确信息条数/提取出的信息条数

召回率＝提取出的正确信息条数/样本中的信息条数两者取值在0和1之间，数值越接近1，正确率或召回率就越高。而平均精度AP描述的是召回率和正确率所围成的面积，即：

其中，p(r)表示正确率，r代表召回率。在实际计算中，正确率和召回率一般是离散的值，从而我们使用下式对AP进行计算：

在这里，k表示阈值内的行为视频所在的等级，P(k)指在k等级的正确率，Δr(k)指k到k-1的等级变化。我们采取如上的办法计算平均精度AP值。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件

本发明是利用CPU和GPU异构计算进行加速实验。

实验中使用的数据库为Hollywood2行为数据库。此数据库来源自文献“M.Marszalek,I.Laptev,C.Schmid.Actions in context.IEEE Conference on ComputerVision and Pattern Recognition,pages 2929-2936,2009”，其主要截取自69部电影，包含12类行为，共1707个视频片段，选取823个视频片段用于训练，其余884个用于识别(具体见表4-1)，训练和识别来自不同的电影，测试效果用平均精度值来衡量。