CN105989370B - 基于属性层次的视音频融合方法 - Google Patents
基于属性层次的视音频融合方法 Download PDFInfo
- Publication number
- CN105989370B CN105989370B CN201510082621.3A CN201510082621A CN105989370B CN 105989370 B CN105989370 B CN 105989370B CN 201510082621 A CN201510082621 A CN 201510082621A CN 105989370 B CN105989370 B CN 105989370B
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- features
- behavior
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于属性层次的视音频融合方法。包括以下步骤:1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库,实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理;2】对预处理后的训练集数据进行属性特征提取;3】利用提取到的属性特征对测试集进行度量,得到分类结果。本发明提出了一种可以提高识别率,同时增强应用的可扩展性的基于属性层次的视音频融合方法。
Description
技术领域
本发明属于多媒体技术领域,涉及一种利用视音频信息进行行为识别的方法,尤其涉及一种基于属性层次的视音频融合方法,可应用于公共安全管理、影视创作、体育健身等领域。
背景技术
近年来,随着人类与计算机间交互方式的变化,以及内容需求的增长,传统的交互方式(如键盘,鼠标,画面显示等)已难以满足人们的需求。这要求计算机能够获取多模式信息,包括图像,语音,文字等,进而完成一定的任务要求,获得期望输出。在主动获取多模式信息后,对其分别进行的处理以及信息融合处理是多模式处理的核心。
视音频信息融合是多模式信息融合的一种,它建立在获取特定任务的图像信息和声音信息的基础上,主要目的是获取统一的“感官体验”。现有的视音频融合方法主要为三类,已在文献“S T.Shivappa,M M.Trivedi,B D.Rao.Audiovisual information fusionin human–computer interfaces and intelligent environments:Asurvey.Proceedings of the IEEE,98(10):1692-1715,2010”中有较详细的叙述,分别是特征层,模型层和决策层:
一是特征层次融合方法,将获取的图像特征和声音特征在最低层次进行整合,进而组成一个较大的特征向量用以表示具体时刻的视音频融合信息,但是基于特征层的融合并没有具体的理论支撑,图像特征和声音特征来自不同空间,不宜直接进行整合,并且此层次的融合很难让两个通道的特征保持同步,同时当训练集和测试集的状况发生变化的时候,实验效果并不是很好。
二是模型层次融合方法,它是将图像信息和声音信息融合视作一个整体,在特定的模型内部进行融合。此种方法在自动语音识别和情感识别中应用较多,其中应用较为普遍的模型是隐马尔科夫模型和动态贝叶斯模型。基于模型的融合是一次真正意义上有实际理论依据的多通道信息融合。虽然它和其他融合方法相比有时表现并不好,但它所达到的理论意义是值得肯定的。在另一方面,此种方法有模型局限性,现在只能用于上述两类识别任务,并不能进行扩展。
三是决策层次融合方法是一种基于声音和图像各自分类结果的融合问题。它针对于将视音频主要的分类结果进行融合,而不注重内部交互。决策层融合并不是在实现一个真正意义上的“整体大于局部之和”,并不包含视音频内部的交互。它对融合的假设建立在图像信息和声音信息是独立的基础上,但这与事实相反。不过,它有效的避免了类似于特征层融合中特征向量过大的问题。
不同的融合层次需要一定的理论背景和任务需求。当前计算机视音频信息融合已经在一些领域中的得到了应用,例如自动语音识别,目标定位及跟踪和情感识别等。
发明内容
为了解决背景技术中所存在的技术问题,本发明提出了一种基于属性层次的视音频融合方法
本发明的技术方案为:一种基于属性层次的视音频融合方法,其特殊之处在于:包括以下步骤:
1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库,所述实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理,预处理方法具体如下:
1a]提取训练集与测试集的视频特征;上述视频特征采用密集轨迹特征和运动边界特征,并根据密集轨迹特征和运动边界特征组成视频数据;
上述视频数据在帧的层次上进行密集采样,以保证特征点均等的覆盖所有的空间位置;
1b]提取训练集与测试集的音频特征;
上述音频特征在声音帧的层次上进行提取;一个音频会由多个特征进行联合表示,将多个特征组成一个矩阵;上述矩阵为音频数据;
1c]聚类处理;对所有训练集中的视频特征和音频特征分别进行k-means聚类,其结果为预处理后的训练集数据,具体公式如下:
其中,由于视觉信息量远大于听觉信息量,故而q>p;
2】对预处理后的训练集数据进行属性特征提取;
根据得到的预处理后的训练集数据,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的视音频弱行为描述包,即若干聚类中心。
CV和CA是视音频弱行为描述包(聚类中心);
W是相应的线性分类超平面;
β1,β2以及α是平衡系数;
yi为对于测试视频的分类结果;
3】利用提取到的属性特征对测试集进行度量,得到分类结果,具体方法如下:
3a]获取相似度;用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度,具体如下:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中,δ是在所有弱行为描述包间的平均豪斯多夫距离;
其中,yi为对于测试视频的分类结果;
上述步骤1】1b]中音频特征包括:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。
本发明的优点是:本发明所展现的视音频融合是基于属性层次的融合。它通过对将视频和音频数据的底层特征进行整合,抽象成为属性特征,通过对训练和测试数据间属性特征的比对来进行行为识别。与现有方法相比,其提高了识别率,同时增强了应用的可扩展性。
附图说明
图1为本发明基于属性层次视音频融合方法的流程图。
具体实施方式
参见图1,一种基于属性层次的视音频融合方法,其特殊之处在于:包括以下步骤:
1】在Hollywood2行为数据库基础上任意抽取4组行为数据(如:吃饭、握手、下车、跑步)建立实验数据库,所述实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理,预处理方法具体如下:
1a]提取训练集与测试集的视频特征;上述视频特征采用密集轨迹特征和运动边界特征,并根据密集轨迹特征和运动边界特征组成视频数据;
上述视频数据在帧的层次上进行密集采样,以保证特征点均等的覆盖所有的空间位置;
1b]提取训练集与测试集的音频特征;
上述音频特征在声音帧的层次上进行提取;一个音频会由多个特征进行联合表示,将多个特征组成一个矩阵;上述矩阵为音频数据;
1c]聚类处理;对所有训练集中的视频特征和音频特征分别进行k-means聚类,其结果为预处理后的训练集数据,具体公式如下:
其中,由于视觉信息量远大于听觉信息量,故而q>p;
2】对预处理后的训练集数据进行属性特征提取;
根据得到的预处理后的训练集数据,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的视音频弱行为描述包,即若干聚类中心。
CV和CA是视音频弱行为描述包(聚类中心);
W是相应的线性分类超平面;
β1,β2以及α是平衡系数;
yi为对于测试视频的分类结果;
3】利用提取到的属性特征对测试集进行度量,得到分类结果,具体方法如下:
3a]获取相似度;用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度,具体如下:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中,δ是在所有弱行为描述包间的平均豪斯多夫距离;
其中,yi为对于测试视频的分类结果;
上述步骤1】1b]中音频特征包括:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。
本发明实现的具体步骤如下:
步骤1,对训练和测试视音频进行预处理。
(1a)提取视频特征。视频特征采用密集轨迹和运动边界特征。具体来说,本方法将主要利用文献“H.Wang,A.C.Schmid,et al.Dense trajectories and motionboundary descriptors for action recognition.International journal of computervision,103(1):60-79,2013”提出的算法,即视频在帧的层次上进行密集采样,目的是保证特征点均等的覆盖所有的空间位置和尺度,尽可能的保留要被计算的轨迹信息。然后在同一尺度上计算两帧之间的光流场wt=(ut,vt),其中ut和vt是光流的水平和竖直方向。下一帧的确定与当前帧有关系,如下式:
其中,M是3*3的中值滤波器。将若干Pi进行串联,便可获得针对某点的一个轨迹(Pt,Pt+1,Pt+2,...)。由于轨迹倾向于离初始点越来越远,故而将帧数设为L,即只取L数量的Pi。一个视频通常会获取多个轨迹特征,将其组成一个矩阵用以表达此视频。
(1b)提取音频特征。由于视频背景的多样性,可能会涉及到多种声音,因此我们对视频中声音提取多种特征以使保留最大信息,解决多种类问题。我们主要采取的声音特征有:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度等。通过对上述声音不同方面特征的提取,尽可能的保留原始声音各方面的特性。实现方面,上述特征在声音帧的层次上进行提取。一个音频会由上述多个特征进行联合表示,将其组成一个矩阵用以表达此音频。
(1c)聚类预处理。对所有训练视频特征和音频特征分别进行k-means聚类,其结果分别为:
步骤2,对预处理后的训练数据进行属性特征学习。
(2a)根据得到的预处理结果,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的弱行为描述包,即聚类中心。
式中,和是视音频训练行为描述包,CV和CA是视音频弱行为描述包(聚类中心),W是相应的线性规划参数。由于我们将行为识别多分类问题转化为“一对多”问题,故而对W采取l2,1-范式约束,使其既能满足能量约束,也同时能满足稀疏约束。β1,β2以及α是平衡系数。而其中的函数用于获取聚类中心,即弱行为描述包,其具体如下:
(2b)对目标式进行优化。对一种有效的块协同下降法,即
首先固定W和CV,优化含CA的目标式;
再固定W和CA,优化含CV的目标式;
最后固定CV和CA,优化含W的目标式,重复三步骤进行直至最终收敛。
步骤3,测试。
(3a)获取相似度。把衡量集合之间的豪斯多夫(Hausdorff)距离用来测量训练行为描述包和弱行为描述包之间的相似度,具体如下:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中δ是在所有弱行为描述包间的平均豪斯多夫距离,H(xi,cj)用以测量两包之间的豪斯多夫距离。
(3b)获取分类结果。将上述的相似度度量结果和训练所得到的超平面W共同带入下式:
其中,所得到的yi即为对于测试视频的分类结果。
步骤4,计算平均精度值。
在测试实验结果时,我们利用平均精度值(average precision,AP)来进行衡量。首先上述精度的概念可以从用两个角度来解释,一个是准确率,一个是召回率。把所有待检测的行为视频带入回归函数,得到各自的回归分数。在一定的阈值条件下,我们可以筛选出那些回归是正确的,那些回归是错误的。准确率是在被认为正确的检测视频中真正正确的比率,而召回率是被认为正确的检测视频中真正正确的数目占所有被检测视频的比率,如下式:
正确率=提取出的正确信息条数/提取出的信息条数
召回率=提取出的正确信息条数/样本中的信息条数两者取值在0和1之间,数值越接近1,正确率或召回率就越高。而平均精度AP描述的是召回率和正确率所围成的面积,即:
其中,p(r)表示正确率,r代表召回率。在实际计算中,正确率和召回率一般是离散的值,从而我们使用下式对AP进行计算:
在这里,k表示阈值内的行为视频所在的等级,P(k)指在k等级的正确率,Δr(k)指k到k-1的等级变化。我们采取如上的办法计算平均精度AP值。
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件
本发明是利用CPU和GPU异构计算进行加速实验。
实验中使用的数据库为Hollywood2行为数据库。此数据库来源自文献“M.Marszalek,I.Laptev,C.Schmid.Actions in context.IEEE Conference on ComputerVision and Pattern Recognition,pages 2929-2936,2009”,其主要截取自69部电影,包含12类行为,共1707个视频片段,选取823个视频片段用于训练,其余884个用于识别(具体见表4-1),训练和识别来自不同的电影,测试效果用平均精度值来衡量。
Claims (2)
1.一种基于属性层次的视音频融合方法,其特征在于:包括以下步骤:
1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库,所述实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理,预处理方法具体如下:
1a]提取训练集与测试集的视频特征;所述视频特征采用密集轨迹特征和运动边界特征;并根据密集轨迹特征和运动边界特征组成视频数据;
所述视频数据在帧的层次上进行密集采样,以保证特征点均等的覆盖所有的空间位置;
1b]提取训练集与测试集的音频特征;
所述音频特征在声音帧的层次上进行提取;一个音频会由多个特征进行联合表示,将多个特征组成一个矩阵;所述矩阵为音频数据;
1c]聚类处理;对所有训练集中的视频特征和音频特征分别进行k-means聚类,其结果为预处理后的训练集数据,具体公式如下:
其中,由于视觉信息量远大于听觉信息量,故而q>p;
2】对预处理后的训练集数据进行属性特征提取;
根据得到的预处理后的训练集数据,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的视音频弱行为描述包,即若干聚类中心;
CV和CA是视音频弱行为描述包(聚类中心);
W是相应的线性分类超平面;
β1,β2以及α是平衡系数;
yi为对于测试视频的分类结果;
3】利用提取到的属性特征对测试集进行度量,得到分类结果,具体方法如下:
3a]获取相似度;用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度,具体如下:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中,δ是在所有弱行为描述包间的平均豪斯多夫距离;
其中,yi为对于测试视频的分类结果。
2.根据权利要求1所述的一种基于属性层次的视音频融合方法,其特征在于:所述步骤1】1b]中音频特征包括:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510082621.3A CN105989370B (zh) | 2015-02-15 | 2015-02-15 | 基于属性层次的视音频融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510082621.3A CN105989370B (zh) | 2015-02-15 | 2015-02-15 | 基于属性层次的视音频融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105989370A CN105989370A (zh) | 2016-10-05 |
CN105989370B true CN105989370B (zh) | 2020-07-31 |
Family
ID=57041518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510082621.3A Active CN105989370B (zh) | 2015-02-15 | 2015-02-15 | 基于属性层次的视音频融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105989370B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820071B (zh) * | 2021-02-25 | 2023-05-05 | 泰康保险集团股份有限公司 | 一种行为识别方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982634A (zh) * | 2012-11-13 | 2013-03-20 | 上海交通大学 | 音视频融合的人员入侵检测方法 |
CN103402044A (zh) * | 2013-08-07 | 2013-11-20 | 重庆大学 | 一种基于多源视频融合的目标识别与跟踪系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6956904B2 (en) * | 2002-01-15 | 2005-10-18 | Mitsubishi Electric Research Laboratories, Inc. | Summarizing videos using motion activity descriptors correlated with audio features |
US7383497B2 (en) * | 2003-01-21 | 2008-06-03 | Microsoft Corporation | Random access editing of media |
-
2015
- 2015-02-15 CN CN201510082621.3A patent/CN105989370B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982634A (zh) * | 2012-11-13 | 2013-03-20 | 上海交通大学 | 音视频融合的人员入侵检测方法 |
CN103402044A (zh) * | 2013-08-07 | 2013-11-20 | 重庆大学 | 一种基于多源视频融合的目标识别与跟踪系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105989370A (zh) | 2016-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
Yuan et al. | Sentribute: image sentiment analysis from a mid-level perspective | |
CN105895087B (zh) | 一种语音识别方法及装置 | |
WO2022161202A1 (zh) | 多媒体资源分类模型训练方法和多媒体资源推荐方法 | |
Roy et al. | Unsupervised universal attribute modeling for action recognition | |
Chao et al. | Multi task sequence learning for depression scale prediction from video | |
CN111126218A (zh) | 一种基于零样本学习的人体行为识别方法 | |
CN109919252B (zh) | 利用少数标注图像生成分类器的方法 | |
CN107301858B (zh) | 基于音频特征空间分层描述的音频分类方法 | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
Wöllmer et al. | Analyzing the memory of BLSTM neural networks for enhanced emotion classification in dyadic spoken interactions | |
Mower et al. | A hierarchical static-dynamic framework for emotion classification | |
Strat et al. | Hierarchical late fusion for concept detection in videos | |
CN113779283B (zh) | 一种深度监督与特征融合的细粒度跨媒体检索方法 | |
Singh et al. | Audio classification using grasshopper‐ride optimization algorithm‐based support vector machine | |
Zhang et al. | A paralinguistic approach to speaker diarisation: using age, gender, voice likability and personality traits | |
CN105989370B (zh) | 基于属性层次的视音频融合方法 | |
Shinoda et al. | Reusing speech techniques for video semantic indexing [applications corner] | |
Lu et al. | Context-based environmental audio event recognition for scene understanding | |
Sowmyayani et al. | STHARNet: Spatio-temporal human action recognition network in content based video retrieval | |
WO2021147084A1 (en) | Systems and methods for emotion recognition in user-generated video(ugv) | |
CN116821781A (zh) | 分类模型的训练方法、文本分析方法及相关设备 | |
Wang et al. | Emotional tagging of videos by exploring multiple emotions' coexistence | |
CN113762298A (zh) | 相似人群扩展方法和装置 | |
Al Azani et al. | Multimodal age-group recognition for opinion video logs using ensemble of neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |