CN105989370B - 基于属性层次的视音频融合方法 - Google Patents

基于属性层次的视音频融合方法 Download PDF

Info

Publication number
CN105989370B
CN105989370B CN201510082621.3A CN201510082621A CN105989370B CN 105989370 B CN105989370 B CN 105989370B CN 201510082621 A CN201510082621 A CN 201510082621A CN 105989370 B CN105989370 B CN 105989370B
Authority
CN
China
Prior art keywords
video
audio
features
behavior
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510082621.3A
Other languages
English (en)
Other versions
CN105989370A (zh
Inventor
李学龙
卢孝强
胡迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XiAn Institute of Optics and Precision Mechanics of CAS
Original Assignee
XiAn Institute of Optics and Precision Mechanics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XiAn Institute of Optics and Precision Mechanics of CAS filed Critical XiAn Institute of Optics and Precision Mechanics of CAS
Priority to CN201510082621.3A priority Critical patent/CN105989370B/zh
Publication of CN105989370A publication Critical patent/CN105989370A/zh
Application granted granted Critical
Publication of CN105989370B publication Critical patent/CN105989370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于属性层次的视音频融合方法。包括以下步骤:1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库,实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理;2】对预处理后的训练集数据进行属性特征提取;3】利用提取到的属性特征对测试集进行度量,得到分类结果。本发明提出了一种可以提高识别率,同时增强应用的可扩展性的基于属性层次的视音频融合方法。

Description

基于属性层次的视音频融合方法
技术领域
本发明属于多媒体技术领域,涉及一种利用视音频信息进行行为识别的方法,尤其涉及一种基于属性层次的视音频融合方法,可应用于公共安全管理、影视创作、体育健身等领域。
背景技术
近年来,随着人类与计算机间交互方式的变化,以及内容需求的增长,传统的交互方式(如键盘,鼠标,画面显示等)已难以满足人们的需求。这要求计算机能够获取多模式信息,包括图像,语音,文字等,进而完成一定的任务要求,获得期望输出。在主动获取多模式信息后,对其分别进行的处理以及信息融合处理是多模式处理的核心。
视音频信息融合是多模式信息融合的一种,它建立在获取特定任务的图像信息和声音信息的基础上,主要目的是获取统一的“感官体验”。现有的视音频融合方法主要为三类,已在文献“S T.Shivappa,M M.Trivedi,B D.Rao.Audiovisual information fusionin human–computer interfaces and intelligent environments:Asurvey.Proceedings of the IEEE,98(10):1692-1715,2010”中有较详细的叙述,分别是特征层,模型层和决策层:
一是特征层次融合方法,将获取的图像特征和声音特征在最低层次进行整合,进而组成一个较大的特征向量用以表示具体时刻的视音频融合信息,但是基于特征层的融合并没有具体的理论支撑,图像特征和声音特征来自不同空间,不宜直接进行整合,并且此层次的融合很难让两个通道的特征保持同步,同时当训练集和测试集的状况发生变化的时候,实验效果并不是很好。
二是模型层次融合方法,它是将图像信息和声音信息融合视作一个整体,在特定的模型内部进行融合。此种方法在自动语音识别和情感识别中应用较多,其中应用较为普遍的模型是隐马尔科夫模型和动态贝叶斯模型。基于模型的融合是一次真正意义上有实际理论依据的多通道信息融合。虽然它和其他融合方法相比有时表现并不好,但它所达到的理论意义是值得肯定的。在另一方面,此种方法有模型局限性,现在只能用于上述两类识别任务,并不能进行扩展。
三是决策层次融合方法是一种基于声音和图像各自分类结果的融合问题。它针对于将视音频主要的分类结果进行融合,而不注重内部交互。决策层融合并不是在实现一个真正意义上的“整体大于局部之和”,并不包含视音频内部的交互。它对融合的假设建立在图像信息和声音信息是独立的基础上,但这与事实相反。不过,它有效的避免了类似于特征层融合中特征向量过大的问题。
不同的融合层次需要一定的理论背景和任务需求。当前计算机视音频信息融合已经在一些领域中的得到了应用,例如自动语音识别,目标定位及跟踪和情感识别等。
发明内容
为了解决背景技术中所存在的技术问题,本发明提出了一种基于属性层次的视音频融合方法
本发明的技术方案为:一种基于属性层次的视音频融合方法,其特殊之处在于:包括以下步骤:
1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库,所述实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理,预处理方法具体如下:
1a]提取训练集与测试集的视频特征;上述视频特征采用密集轨迹特征和运动边界特征,并根据密集轨迹特征和运动边界特征组成视频数据;
上述视频数据在帧的层次上进行密集采样,以保证特征点均等的覆盖所有的空间位置;
1b]提取训练集与测试集的音频特征;
上述音频特征在声音帧的层次上进行提取;一个音频会由多个特征进行联合表示,将多个特征组成一个矩阵;上述矩阵为音频数据;
1c]聚类处理;对所有训练集中的视频特征和音频特征分别进行k-means聚类,其结果为预处理后的训练集数据,具体公式如下:
Figure GDA0002476234990000031
Figure GDA0002476234990000032
其中,由于视觉信息量远大于听觉信息量,故而q>p;
2】对预处理后的训练集数据进行属性特征提取;
根据得到的预处理后的训练集数据,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的视音频弱行为描述包,即若干聚类中心。
Figure GDA0002476234990000033
其中,
Figure GDA0002476234990000034
Figure GDA0002476234990000035
是视音频训练行为描述包;
CV和CA是视音频弱行为描述包(聚类中心);
W是相应的线性分类超平面;
β1,β2以及α是平衡系数;
Figure GDA0002476234990000036
Figure GDA0002476234990000037
用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离;
yi为对于测试视频的分类结果;
对W采取l2,1-范式约束,使其既能满足能量约束,也同时能满足稀疏约束;其中的
Figure GDA0002476234990000041
函数用于获取聚类中心,即弱行为描述包,其具体如下:
Figure GDA0002476234990000042
其中,
Figure GDA0002476234990000043
是相应的训练行为包;H(xi,cj)用以测量两包之间的豪斯多夫距离;对于每个xi需要找出与它豪斯多夫距离最小的聚类中心cj,通过对所有最短距离的求和及不断改变C来获得局部最小值;
3】利用提取到的属性特征对测试集进行度量,得到分类结果,具体方法如下:
3a]获取相似度;用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度,具体如下:
Figure GDA0002476234990000044
Figure GDA0002476234990000045
上式中,
Figure GDA0002476234990000046
Figure GDA0002476234990000047
用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离,而下式用于度量高斯分布下两包的相似度:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中,δ是在所有弱行为描述包间的平均豪斯多夫距离;
3b]获取分类结果;将上述获取的相似度度量结果(
Figure GDA0002476234990000048
Figure GDA0002476234990000049
)和优化目标表达式所得到的超平面W共同带入下式:
Figure GDA00024762349900000410
其中,yi为对于测试视频的分类结果;
上述步骤1】1b]中音频特征包括:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。
本发明的优点是:本发明所展现的视音频融合是基于属性层次的融合。它通过对将视频和音频数据的底层特征进行整合,抽象成为属性特征,通过对训练和测试数据间属性特征的比对来进行行为识别。与现有方法相比,其提高了识别率,同时增强了应用的可扩展性。
附图说明
图1为本发明基于属性层次视音频融合方法的流程图。
具体实施方式
参见图1,一种基于属性层次的视音频融合方法,其特殊之处在于:包括以下步骤:
1】在Hollywood2行为数据库基础上任意抽取4组行为数据(如:吃饭、握手、下车、跑步)建立实验数据库,所述实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理,预处理方法具体如下:
1a]提取训练集与测试集的视频特征;上述视频特征采用密集轨迹特征和运动边界特征,并根据密集轨迹特征和运动边界特征组成视频数据;
上述视频数据在帧的层次上进行密集采样,以保证特征点均等的覆盖所有的空间位置;
1b]提取训练集与测试集的音频特征;
上述音频特征在声音帧的层次上进行提取;一个音频会由多个特征进行联合表示,将多个特征组成一个矩阵;上述矩阵为音频数据;
1c]聚类处理;对所有训练集中的视频特征和音频特征分别进行k-means聚类,其结果为预处理后的训练集数据,具体公式如下:
Figure GDA0002476234990000051
Figure GDA0002476234990000052
其中,由于视觉信息量远大于听觉信息量,故而q>p;
2】对预处理后的训练集数据进行属性特征提取;
根据得到的预处理后的训练集数据,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的视音频弱行为描述包,即若干聚类中心。
Figure GDA0002476234990000061
其中,
Figure GDA0002476234990000062
Figure GDA0002476234990000063
是视音频训练行为描述包;
CV和CA是视音频弱行为描述包(聚类中心);
W是相应的线性分类超平面;
β1,β2以及α是平衡系数;
Figure GDA0002476234990000064
Figure GDA0002476234990000065
用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离;
yi为对于测试视频的分类结果;
对W采取l2,1-范式约束,使其既能满足能量约束,也同时能满足稀疏约束;其中的
Figure GDA0002476234990000066
函数用于获取聚类中心,即弱行为描述包,其具体如下:
Figure GDA0002476234990000067
其中,
Figure GDA0002476234990000068
是相应的训练行为包;H(xi,cj)用以测量两包之间的豪斯多夫距离;对于每个xi需要找出与它豪斯多夫距离最小的聚类中心cj,通过对所有最短距离的求和及不断改变C来获得局部最小值;
3】利用提取到的属性特征对测试集进行度量,得到分类结果,具体方法如下:
3a]获取相似度;用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度,具体如下:
Figure GDA0002476234990000071
Figure GDA0002476234990000072
上式中,
Figure GDA0002476234990000073
Figure GDA0002476234990000074
用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离,而下式用于度量高斯分布下两包的相似度:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中,δ是在所有弱行为描述包间的平均豪斯多夫距离;
3b]获取分类结果;将上述获取的相似度度量结果(
Figure GDA0002476234990000075
Figure GDA0002476234990000076
)和优化目标表达式所得到的超平面W共同带入下式:
Figure GDA0002476234990000077
其中,yi为对于测试视频的分类结果;
上述步骤1】1b]中音频特征包括:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。
本发明实现的具体步骤如下:
步骤1,对训练和测试视音频进行预处理。
(1a)提取视频特征。视频特征采用密集轨迹和运动边界特征。具体来说,本方法将主要利用文献“H.Wang,A.
Figure GDA0002476234990000078
C.Schmid,et al.Dense trajectories and motionboundary descriptors for action recognition.International journal of computervision,103(1):60-79,2013”提出的算法,即视频在帧的层次上进行密集采样,目的是保证特征点均等的覆盖所有的空间位置和尺度,尽可能的保留要被计算的轨迹信息。然后在同一尺度上计算两帧之间的光流场wt=(ut,vt),其中ut和vt是光流的水平和竖直方向。下一帧的确定与当前帧有关系,如下式:
Figure GDA0002476234990000079
其中,M是3*3的中值滤波器。将若干Pi进行串联,便可获得针对某点的一个轨迹(Pt,Pt+1,Pt+2,...)。由于轨迹倾向于离初始点越来越远,故而将帧数设为L,即只取L数量的Pi。一个视频通常会获取多个轨迹特征,将其组成一个矩阵用以表达此视频。
(1b)提取音频特征。由于视频背景的多样性,可能会涉及到多种声音,因此我们对视频中声音提取多种特征以使保留最大信息,解决多种类问题。我们主要采取的声音特征有:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度等。通过对上述声音不同方面特征的提取,尽可能的保留原始声音各方面的特性。实现方面,上述特征在声音帧的层次上进行提取。一个音频会由上述多个特征进行联合表示,将其组成一个矩阵用以表达此音频。
(1c)聚类预处理。对所有训练视频特征和音频特征分别进行k-means聚类,其结果分别为:
Figure GDA0002476234990000081
Figure GDA0002476234990000082
步骤2,对预处理后的训练数据进行属性特征学习。
(2a)根据得到的预处理结果,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的弱行为描述包,即聚类中心。
Figure GDA0002476234990000083
式中,
Figure GDA0002476234990000084
Figure GDA0002476234990000085
是视音频训练行为描述包,CV和CA是视音频弱行为描述包(聚类中心),W是相应的线性规划参数。由于我们将行为识别多分类问题转化为“一对多”问题,故而对W采取l2,1-范式约束,使其既能满足能量约束,也同时能满足稀疏约束。β1,β2以及α是平衡系数。而其中的
Figure GDA0002476234990000086
函数用于获取聚类中心,即弱行为描述包,其具体如下:
Figure GDA0002476234990000091
其中,
Figure GDA0002476234990000092
是相应的训练行为包,对于每个xi需要找出与它豪斯多夫距离最小的聚类中心cj,通过对所有最短距离的求和及不断改变C来获得全局最小值。
(2b)对目标式进行优化。对一种有效的块协同下降法,即
首先固定W和CV,优化含CA的目标式;
再固定W和CA,优化含CV的目标式;
最后固定CV和CA,优化含W的目标式,重复三步骤进行直至最终收敛。
步骤3,测试。
(3a)获取相似度。把衡量集合之间的豪斯多夫(Hausdorff)距离用来测量训练行为描述包和弱行为描述包之间的相似度,具体如下:
Figure GDA0002476234990000093
Figure GDA0002476234990000094
上式中,
Figure GDA0002476234990000095
Figure GDA0002476234990000096
用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离,而
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中δ是在所有弱行为描述包间的平均豪斯多夫距离,H(xi,cj)用以测量两包之间的豪斯多夫距离。
(3b)获取分类结果。将上述的相似度度量结果和训练所得到的超平面W共同带入下式:
Figure GDA0002476234990000097
其中,所得到的yi即为对于测试视频的分类结果。
步骤4,计算平均精度值。
在测试实验结果时,我们利用平均精度值(average precision,AP)来进行衡量。首先上述精度的概念可以从用两个角度来解释,一个是准确率,一个是召回率。把所有待检测的行为视频带入回归函数,得到各自的回归分数。在一定的阈值条件下,我们可以筛选出那些回归是正确的,那些回归是错误的。准确率是在被认为正确的检测视频中真正正确的比率,而召回率是被认为正确的检测视频中真正正确的数目占所有被检测视频的比率,如下式:
正确率=提取出的正确信息条数/提取出的信息条数
召回率=提取出的正确信息条数/样本中的信息条数两者取值在0和1之间,数值越接近1,正确率或召回率就越高。而平均精度AP描述的是召回率和正确率所围成的面积,即:
Figure GDA0002476234990000101
其中,p(r)表示正确率,r代表召回率。在实际计算中,正确率和召回率一般是离散的值,从而我们使用下式对AP进行计算:
Figure GDA0002476234990000102
在这里,k表示阈值内的行为视频所在的等级,P(k)指在k等级的正确率,Δr(k)指k到k-1的等级变化。我们采取如上的办法计算平均精度AP值。
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件
本发明是利用CPU和GPU异构计算进行加速实验。
Figure GDA0002476234990000103
Figure GDA0002476234990000111
实验中使用的数据库为Hollywood2行为数据库。此数据库来源自文献“M.Marszalek,I.Laptev,C.Schmid.Actions in context.IEEE Conference on ComputerVision and Pattern Recognition,pages 2929-2936,2009”,其主要截取自69部电影,包含12类行为,共1707个视频片段,选取823个视频片段用于训练,其余884个用于识别(具体见表4-1),训练和识别来自不同的电影,测试效果用平均精度值来衡量。

Claims (2)

1.一种基于属性层次的视音频融合方法,其特征在于:包括以下步骤:
1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库,所述实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理,预处理方法具体如下:
1a]提取训练集与测试集的视频特征;所述视频特征采用密集轨迹特征和运动边界特征;并根据密集轨迹特征和运动边界特征组成视频数据;
所述视频数据在帧的层次上进行密集采样,以保证特征点均等的覆盖所有的空间位置;
1b]提取训练集与测试集的音频特征;
所述音频特征在声音帧的层次上进行提取;一个音频会由多个特征进行联合表示,将多个特征组成一个矩阵;所述矩阵为音频数据;
1c]聚类处理;对所有训练集中的视频特征和音频特征分别进行k-means聚类,其结果为预处理后的训练集数据,具体公式如下:
Figure FDA0002491981910000011
Figure FDA0002491981910000012
其中,由于视觉信息量远大于听觉信息量,故而q>p;
2】对预处理后的训练集数据进行属性特征提取;
根据得到的预处理后的训练集数据,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的视音频弱行为描述包,即若干聚类中心;
Figure FDA0002491981910000013
其中,
Figure FDA0002491981910000014
Figure FDA0002491981910000015
是视音频训练行为描述包;
CV和CA是视音频弱行为描述包(聚类中心);
W是相应的线性分类超平面;
β1,β2以及α是平衡系数;
Figure FDA0002491981910000021
Figure FDA0002491981910000022
用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离;
yi为对于测试视频的分类结果;
对W采取l2,1-范式约束,使其既能满足能量约束,也同时能满足稀疏约束;其中的
Figure FDA0002491981910000023
函数用于获取聚类中心,即弱行为描述包,其具体如下:
Figure FDA0002491981910000024
其中,
Figure FDA0002491981910000025
是相应的训练行为包;H(xi,cj)用以测量两包之间的豪斯多夫距离;对于每个xi需要找出与它豪斯多夫距离最小的聚类中心cj,通过对所有最短距离的求和及不断改变C来获得局部最小值;
3】利用提取到的属性特征对测试集进行度量,得到分类结果,具体方法如下:
3a]获取相似度;用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度,具体如下:
Figure FDA0002491981910000026
Figure FDA0002491981910000027
上式中,
Figure FDA0002491981910000028
Figure FDA0002491981910000029
用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离,而下式用于度量高斯分布下两包的相似度:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中,δ是在所有弱行为描述包间的平均豪斯多夫距离;
3b]获取分类结果;将上述获取的相似度度量结果
Figure FDA00024919819100000210
Figure FDA00024919819100000211
和优化目标表达式所得到的超平面W共同带入下式:
Figure FDA0002491981910000031
其中,yi为对于测试视频的分类结果。
2.根据权利要求1所述的一种基于属性层次的视音频融合方法,其特征在于:所述步骤1】1b]中音频特征包括:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。
CN201510082621.3A 2015-02-15 2015-02-15 基于属性层次的视音频融合方法 Active CN105989370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510082621.3A CN105989370B (zh) 2015-02-15 2015-02-15 基于属性层次的视音频融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510082621.3A CN105989370B (zh) 2015-02-15 2015-02-15 基于属性层次的视音频融合方法

Publications (2)

Publication Number Publication Date
CN105989370A CN105989370A (zh) 2016-10-05
CN105989370B true CN105989370B (zh) 2020-07-31

Family

ID=57041518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510082621.3A Active CN105989370B (zh) 2015-02-15 2015-02-15 基于属性层次的视音频融合方法

Country Status (1)

Country Link
CN (1) CN105989370B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820071B (zh) * 2021-02-25 2023-05-05 泰康保险集团股份有限公司 一种行为识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982634A (zh) * 2012-11-13 2013-03-20 上海交通大学 音视频融合的人员入侵检测方法
CN103402044A (zh) * 2013-08-07 2013-11-20 重庆大学 一种基于多源视频融合的目标识别与跟踪系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6956904B2 (en) * 2002-01-15 2005-10-18 Mitsubishi Electric Research Laboratories, Inc. Summarizing videos using motion activity descriptors correlated with audio features
US7383497B2 (en) * 2003-01-21 2008-06-03 Microsoft Corporation Random access editing of media

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982634A (zh) * 2012-11-13 2013-03-20 上海交通大学 音视频融合的人员入侵检测方法
CN103402044A (zh) * 2013-08-07 2013-11-20 重庆大学 一种基于多源视频融合的目标识别与跟踪系统

Also Published As

Publication number Publication date
CN105989370A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
Yuan et al. Sentribute: image sentiment analysis from a mid-level perspective
CN105895087B (zh) 一种语音识别方法及装置
WO2022161202A1 (zh) 多媒体资源分类模型训练方法和多媒体资源推荐方法
Roy et al. Unsupervised universal attribute modeling for action recognition
Chao et al. Multi task sequence learning for depression scale prediction from video
CN111126218A (zh) 一种基于零样本学习的人体行为识别方法
CN109919252B (zh) 利用少数标注图像生成分类器的方法
CN107301858B (zh) 基于音频特征空间分层描述的音频分类方法
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
Wöllmer et al. Analyzing the memory of BLSTM neural networks for enhanced emotion classification in dyadic spoken interactions
Mower et al. A hierarchical static-dynamic framework for emotion classification
Strat et al. Hierarchical late fusion for concept detection in videos
CN113779283B (zh) 一种深度监督与特征融合的细粒度跨媒体检索方法
Singh et al. Audio classification using grasshopper‐ride optimization algorithm‐based support vector machine
Zhang et al. A paralinguistic approach to speaker diarisation: using age, gender, voice likability and personality traits
CN105989370B (zh) 基于属性层次的视音频融合方法
Shinoda et al. Reusing speech techniques for video semantic indexing [applications corner]
Lu et al. Context-based environmental audio event recognition for scene understanding
Sowmyayani et al. STHARNet: Spatio-temporal human action recognition network in content based video retrieval
WO2021147084A1 (en) Systems and methods for emotion recognition in user-generated video(ugv)
CN116821781A (zh) 分类模型的训练方法、文本分析方法及相关设备
Wang et al. Emotional tagging of videos by exploring multiple emotions' coexistence
CN113762298A (zh) 相似人群扩展方法和装置
Al Azani et al. Multimodal age-group recognition for opinion video logs using ensemble of neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant