CN101593273A - 一种基于模糊综合评价的视频情感内容识别方法 - Google Patents
一种基于模糊综合评价的视频情感内容识别方法 Download PDFInfo
- Publication number
- CN101593273A CN101593273A CNA2009100833936A CN200910083393A CN101593273A CN 101593273 A CN101593273 A CN 101593273A CN A2009100833936 A CNA2009100833936 A CN A2009100833936A CN 200910083393 A CN200910083393 A CN 200910083393A CN 101593273 A CN101593273 A CN 101593273A
- Authority
- CN
- China
- Prior art keywords
- fuzzy
- video
- scene
- emotion
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于视频内容分析领域,具体涉及一种基于模糊综合评价的视频情感内容识别方法。现有视频情感内容识别方法缺乏考虑情感的模糊属性问题。针对现有方法中存在的不足,本发明首次将模糊理论中模糊综合评价模型用于视频情感内容识别。与现有的方法相比,本发明提出的方法充分考虑到视频情感内容的模糊属性,在模糊综合评价模型的基础上,本发明用一个与情感紧密相关的高层特征向量来表示视频片段内容,在高层上研究视频情感内容识别;进一步,采用人工神经网络(ANN)来模拟人类情感反应系统,识别视频片段诱发观众产生的基本情感类型。实验结果证实了本发明在视频情感内容识别中的有效性和可行性。
Description
技术领域
本发明属于视频内容分析领域,特别是一种基于模糊综合评价的视频情感内容识别方法。
背景技术
随着多媒体技术与网络技术的发展,数字视频逐渐成为现代信息系统的主要媒体形式。在海量的视频数据和快节奏的生活环境中,人们没有时间也没有兴趣将所有的视频文件挨个观看,往往只根据个人的爱好寻找感兴趣的、令人兴奋或令人恐怖的视频或视频片断,这些特征表明人们需要一个个性化情感视频应用服务技术。自从Picard教授提出“情感计算”(Affective Computing)概念以来,视频情感内容计算被众多学者认为是实现个性化视频服务技术(Personalization Service Technology)和缩短“语义鸿沟”的一个有效途径,有助于进一步完善多媒体内容描述接口MPEG-7。目前,视频情感内容分析技术已经成为多媒体内容分析领域研究的热点问题。
现有的技术中,如文献“Affective content detection using HMMs”[Hong-Bong Kang,ACM internationalconference on Multimedia 2003,PP:259-262]所述,视频情感内容分析的一般方法是首先进行视频结构化处理,包括镜头边界检测、关键帧选择、场景边界检测,以镜头或场景作为视频情感内容分析基本结构单元;然后在每个镜头内部提取关键帧来表示镜头的视觉内容,从关键帧提取颜色、纹理、形状等低层特征,同时提取镜头对应的音频片段的低层特征,从而获得镜头或场景低层特征向量用于情感内容分析;最后,利用分类器或规则推理等方法建立低层特征空间和情感类型空间之间的链接桥梁。这类方法存在的问题是:大部分从低层特征层次来考虑情感内容问题,但是人们根本无法根据低层特征重构镜头或场景诱发的情感类型,也即是他们之间存在“情感鸿沟”,因此,直接建立低层特征和情感空间之间的桥接模型难以解决“情感鸿沟”问题,识别精确度(介于50%与71%之间)还不能满足人们的要求。另外,在2007年,文献“Videoaffective content representation and recognition using video affective tree and Hidden Markov Model”[Sun K andYu J Q,ACII,2007,PP:594-605]用视频情感树高层特征来表示视频内容,在高层特征空间上使用HMM模型建立两者之间的映射模型,识别精确度有所提高。但是,由于视频情感内容具有模糊属性,而目前提出的方法都没有考虑到该属性。
发明内容
针对现有视频情感内容分析技术存在的缺陷,本发明的目的是提出一种基于模糊综合评价的视频情感内容识别方法,该方法不仅考虑情感的模糊属性,而且在高层上考虑视频情感内容,能够提高视频情感内容的识别精确度和识全率,有助于推动个性化视频服务,有助于缩短“语义鸿沟”和改善多媒体内容描述接口MPEG-7。
为实现上述目的,本发明包括以下步骤:
(1)将RGB颜色空间转变为HSL颜色空间,用符合人类视觉感知的颜色空间来表示视觉内容;
(2)对视频数据库进行镜头分割,以镜头作为基本结构单元,进一步提取镜头低层特征向量;
(3)对镜头边界进行检测以识别场景边界,以场景作为研究单元,进一步提取场景低层特征向量;
(4)改进模糊综合评价模型,计算出能够反映场景情感信息的场景高层特征向量;
(5)利用高层特征向量和人工神经网络识别该场景诱发观众产生的基本情感类型。
进一步来说,步骤(2)中对视频数据库进行镜头分割的方法最好为鲁棒性好的算法,低层特征提取模型设为yi(t)=Fi(xi(t)),其中t表示第t个镜头,xi(t)表示第t个镜头第i个低层特征基本数据,yi(t)表示第t个镜头第i个低层特征值,i=1,2,...,m;
步骤(3)中应采用有效的和鲁棒性的场景边界识别算法,低层特征提取模型设为 其中k表示第k个场景,t1、t2、...、tpk表示第k个场景所包含的镜头,zi(k)表示第k个场景的第i个低层特征值,i=1,2,...,m;从而场景特征向量为Z=(z1(k),z2(k),…,zm(k));
步骤(4)改进模糊综合评价模型,并计算场景的高层特征向量,具体设为H=W*R(Z),其中W为n*m维的矩阵,n表示基本情感类型总数,(i,j)位置的元素表示第j个场景特征诱发观众产生第i个基本情感类型的综合贡献程度,称W为联合综合评价权重矩阵;R(Z)表示场景低层特征和基本情感之间的模糊关系,(i,j)位置的元素表示第i个场景特征诱发观众产生第j个基本情感类型的评价程度,称R(Z)为单因素评价矩阵;H中(i,j)位置的元素表示在场景诱发观众产生第i个基本情感类型的前提下,场景被评价为第j个基本情感类型的综合评价值。显然,如果场景诱发观众产生第i个基本情感类型,那么被评价为第i个基本情感类型应该是最合理的。因此,计算出的高层特征向量为(h11,h22,...,hnn)。
步骤(5)采用三层BP人工神经网络识别场景诱发观众产生的基本情感类型,具体如图2所示。
本发明的效果在于:采用本发明所描述的一种基于模糊综合评价的视频情感内容识别方法,可以取得更高的识别精确度,也可以保持较高的识别识全率。
本发明之所以具有如此显著的技术效果,其原因在于:
(1)选择HSL颜色空间模型表示视觉内容,与人的情感感知相一致。
(2)考虑到人的情感描述和情感反应的模糊属性,与人的思维表达相一致。
(3)利用联合综合评价权重矩阵来体现不同低层特征对诱发不同基本情感的不同贡献程度。
(4)采用人工神经网络模拟人的情感反应,是目前模拟人类行为的一种比较有效的工具。
附图说明
图1基于模糊综合评价的视频情感内容识别方法流程图
图2三层BP神经网络模型
具体实施方式
图1是本发明中各个步骤的流程示意图。如图1所示,一种基于模糊综合评价的视频情感内容识别方法应该包括一下几个步骤:
1、颜色空间转变
文献“Fuzzy-based algorithm for color recognition of license plates”[Wang F,Man L C,Wang B P等,PatternRecognition Letters,2008,Vol.29,No.7,PP:1007-1020]提出HSL颜色空间符合人类的情感感知。因此,本发明将RGB颜色空间转化为HSL颜色空间。
2、镜头分割及镜头特征提取
本发明采用一种有效的和鲁棒的镜头分割算法,对视频数据库进行分割,详细的算法描述可以参考文献“Efficient and robust shot change detection”[Lefevre S and Vincent N,Journal of Real-Time Image Processing,2007,Vol.2,PP:23-34]。采用关键帧代表镜头内容。关键帧选择可以采用基于聚类的算法,也可以采用简单的算法,本发明采用镜头的第一帧、中间帧和最后一帧作为镜头关键帧。
进一步,经常采用的三个低层镜头特征模型如下:
(1)亮度特征
(2)节奏特征
F2(k)=f2(镜头长度),其中镜头长度可以表示为镜头内所包含的视频帧总数,也可以用镜头播放的时间长度来表示。
(3)颜色能量
其中FCE(i,k)=f3(像素H分量,帧亮度,饱和度,彩色面积,对比度),i表示镜头中的第i个视频帧。
3、场景边界识别及场景特征提取
本发明采用一种模拟人类大脑语义理解方式的场景边界识别算法,对视频数据库中的镜头边界序列进行场景边界识别,详细的算法描述可以参考文献“Computable Scene and Structures in Films”[Sundaram H andChang S F.IEEE Transactions on Multimedia,2002,Vol.4,No.4,PP:482-491]。
进一步,与上面三个低层镜头特征模型对应的场景特征提取模型如下:
最后,将提取的各个场景特征值组合成一个场景低层特征向量,记为Z。
4、高层特征向量计算
提取场景的低层特征之后,本发明分成两步完成高层特征向量提取。
(1)利用特征对基本情感的模糊隶属函数来刻画特征和基本情感之间的模糊关系R(Z)。具体设为
其中μij(zi)表示第i个特征对第j个基本情感的模糊隶属程度,zi表示场景的第i个特征值。本发明采用模糊隶属函数来计算μij(zi)。
更具体地说,我们首先建立一个样本集,对样本集进行情感主观标注,标注为n类;同时将样本的场景特征向量按照情感类型进行分类,对每个情感类型进一步按照特征类型进行分类,最终获得m*n个样本数据集,设为第j类基本情感场景对应的第i个特征值集合为 其中zij(k)表示第k个场景的第i个特征值,表示该类场景的总数。
在此基础上,根据同类情感的场景同一个特征具有相似性,我们假设场景特征值与各类样本数据集的欧氏距离的函数作为特征对情感的初始隶属函数,具体表示为 其中d(z′i,Mij)表示特征值z′i和样本集Mij之间的欧氏距离,Cij为待定参数。
进一步,根据样本数据,利用最优化求待定参数Cij数,也就是求下列最优化问题的解:
利用样本数据,求解得到Cij的值为:
于是,最终的模糊隶属函数为 从而可以求出给定场景对应的单因素评价矩阵R(Z)。
(2)利用联合综合评价权重矩阵建立高层特征提取模型H=W*R(Z),其中W采用层次分析法获得各个特征对诱发各个基本情感类型的综合贡献程度。具体层次分析法参见参考文献“模糊(Fuzzy)数学及其应用”[彭祖赠,孙韫玉.模糊(Fuzzy)数学及其应用,武汉大学出版社,武汉,第二版,2007,PP:142-162]。
综合上面两个步骤,场景高层特征向量可以容易的求出。显然,该高层特征蕴含场景诱发观众产生的情感信息,因此有助于场景情感识别。
5、场景情感识别
本发明的最终目的是识别给定场景诱发观众产生的基本情感反应。在高层特征的基础上,本发明采用人工神经网络来实现分类功能,具体我们采用一个三层的BP神经网络,详细的训练和分类算法见参考文献“神经网络设计”[Martin T H,Howard B D,Mark H B等著,戴葵等译,机械工业出版社,2006,PP:197-226]。
Claims (6)
1、一种基于模糊综合评价的视频情感内容识别方法,其特征在于该算法包含一下几个步骤:
(1)该方法主要思想:由于视频内容(即视频不同低层特征)对诱发观众产生的基本情感具有模糊属性,本发明采用模糊理论中的模糊综合评价模型来表示视频场景内容;进一步,采用人工神经网络识别场景诱发观众产生的基本情感;
(2)定义场景低层特征对诱发基本情感的模糊隶属函数μij,并用隶属函数来刻画特征与情感之间的模糊关系。根据前人主观实验分析结果可假设:第j类情感的第i个低层特征数据具有相似性。于是,对于任意一个场景的第i个低层特征值z,将其模糊隶属函数值μij(z)假设为z与对应样本数据集的欧氏距离的函数,即μij(z)=P(d(z,Mij)),其中Mij表示第j类基本情感的第i个特征的样本数据集。一般情况,根据聚类的思想,场景特征值z与某个样本数据集距离越近,则z属于这类数据的可能性越大,故μij与d(z,Mij)近似成反比关系。
(3)根据最优化理论来求模糊隶属函数μij;
(4)采用低层特征对基本情感的模糊隶属函数来求两者之间的模糊关系R(Z);
(5)由于不同视频低层特征对评价不同情感的贡献程度不一样,本发明引入联合综合评价权重矩阵W来刻画贡献程度,设为W=[wij]n×m,其中wij表示第j个场景低层特征对诱发第i类基本情感的贡献值,n是基本情感类型的总数,m是场景低层特征的总数。本发明采用层次分析法来求W;
(6)计算各类基本情感的相对综合评价值,即H=[hij]n×m=W·R(Z),其中hij表示在场景诱发观众产生的基本情感是第i类的前提下,被评价为第j类基本情感的综合评价值;
(7)采用人工神经网络来识别场景观众产生的基本情感。
2、如权利要求1所述的一种基于模糊综合评价的视频情感内容识别方法,其特征在于:步骤(2,3)中,计算μij(z)=P(d(z,Mij))分成两步来完成:
首先,假设初始隶属函数为 其中 是样本数据集,对应各数据对诱发第j类基本情感的主观模糊隶属函数值为 cij为待定参数。待定参数采用最优化问题 来求。
其次,所求的模糊隶属函数为
5、如权利要求1所述的一种基于模糊综合评价的视频情感内容识别方法,其特征在于:步骤(6)中,计算hij采用公式:
6、如权利要求1所述的一种基于模糊综合评价的视频情感内容识别方法,其特征在于:步骤(7)中,本发明采用三层的BP神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100833936A CN101593273A (zh) | 2009-08-13 | 2009-08-13 | 一种基于模糊综合评价的视频情感内容识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100833936A CN101593273A (zh) | 2009-08-13 | 2009-08-13 | 一种基于模糊综合评价的视频情感内容识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101593273A true CN101593273A (zh) | 2009-12-02 |
Family
ID=41407921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2009100833936A Pending CN101593273A (zh) | 2009-08-13 | 2009-08-13 | 一种基于模糊综合评价的视频情感内容识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101593273A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495873A (zh) * | 2011-11-30 | 2012-06-13 | 北京航空航天大学 | 一种基于视频情感特征与会话模型的视频推荐方法 |
CN102509084A (zh) * | 2011-11-18 | 2012-06-20 | 中国科学院自动化研究所 | 一种基于多示例学习的恐怖视频场景识别方法 |
CN102571437A (zh) * | 2012-01-16 | 2012-07-11 | 广东宏景科技有限公司 | 一种感知层监测节点的模糊可信度评价方法 |
CN103473555A (zh) * | 2013-08-26 | 2013-12-25 | 中国科学院自动化研究所 | 基于多视角多示例学习的恐怖视频场景识别方法 |
CN104680144A (zh) * | 2015-03-02 | 2015-06-03 | 华为技术有限公司 | 基于投影极速学习机的唇语识别方法和装置 |
WO2016062095A1 (zh) * | 2014-10-24 | 2016-04-28 | 华为技术有限公司 | 视频分类方法和装置 |
CN106485276A (zh) * | 2016-10-10 | 2017-03-08 | 上海电机学院 | 一种基于内容图像的模糊最小‑最大神经网络聚类方法 |
CN106874939A (zh) * | 2017-01-18 | 2017-06-20 | 中国地质大学(武汉) | 家居环境下的基于视觉信息的氛围场识别方法及识别系统 |
CN107247919A (zh) * | 2017-04-28 | 2017-10-13 | 深圳大学 | 一种视频情感内容的获取方法及系统 |
CN108255876A (zh) * | 2016-12-29 | 2018-07-06 | 中移(苏州)软件技术有限公司 | 一种音频情感可视化的方法及装置 |
CN110222594A (zh) * | 2019-05-20 | 2019-09-10 | 厦门能见易判信息科技有限公司 | 盗版视频识别方法及系统 |
CN110427519A (zh) * | 2019-07-31 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 视频的处理方法及装置 |
CN112836718A (zh) * | 2020-12-08 | 2021-05-25 | 上海大学 | 一种基于模糊知识神经网络的图像情感识别方法 |
-
2009
- 2009-08-13 CN CNA2009100833936A patent/CN101593273A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509084A (zh) * | 2011-11-18 | 2012-06-20 | 中国科学院自动化研究所 | 一种基于多示例学习的恐怖视频场景识别方法 |
CN102509084B (zh) * | 2011-11-18 | 2014-05-07 | 中国科学院自动化研究所 | 一种基于多示例学习的恐怖视频场景识别方法 |
CN102495873A (zh) * | 2011-11-30 | 2012-06-13 | 北京航空航天大学 | 一种基于视频情感特征与会话模型的视频推荐方法 |
CN102495873B (zh) * | 2011-11-30 | 2013-04-10 | 北京航空航天大学 | 一种基于视频情感特征与会话模型的视频推荐方法 |
CN102571437A (zh) * | 2012-01-16 | 2012-07-11 | 广东宏景科技有限公司 | 一种感知层监测节点的模糊可信度评价方法 |
CN102571437B (zh) * | 2012-01-16 | 2014-10-01 | 广东宏景科技有限公司 | 一种感知层监测节点的模糊可信度评价方法 |
CN103473555A (zh) * | 2013-08-26 | 2013-12-25 | 中国科学院自动化研究所 | 基于多视角多示例学习的恐怖视频场景识别方法 |
CN103473555B (zh) * | 2013-08-26 | 2016-09-21 | 中国科学院自动化研究所 | 基于多视角多示例学习的恐怖视频场景识别方法 |
WO2016062095A1 (zh) * | 2014-10-24 | 2016-04-28 | 华为技术有限公司 | 视频分类方法和装置 |
CN104680144A (zh) * | 2015-03-02 | 2015-06-03 | 华为技术有限公司 | 基于投影极速学习机的唇语识别方法和装置 |
CN106485276A (zh) * | 2016-10-10 | 2017-03-08 | 上海电机学院 | 一种基于内容图像的模糊最小‑最大神经网络聚类方法 |
CN108255876A (zh) * | 2016-12-29 | 2018-07-06 | 中移(苏州)软件技术有限公司 | 一种音频情感可视化的方法及装置 |
CN106874939A (zh) * | 2017-01-18 | 2017-06-20 | 中国地质大学(武汉) | 家居环境下的基于视觉信息的氛围场识别方法及识别系统 |
CN106874939B (zh) * | 2017-01-18 | 2020-05-19 | 中国地质大学(武汉) | 家居环境下的基于视觉信息的氛围场识别方法及识别系统 |
CN107247919A (zh) * | 2017-04-28 | 2017-10-13 | 深圳大学 | 一种视频情感内容的获取方法及系统 |
CN110222594A (zh) * | 2019-05-20 | 2019-09-10 | 厦门能见易判信息科技有限公司 | 盗版视频识别方法及系统 |
CN110427519A (zh) * | 2019-07-31 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 视频的处理方法及装置 |
CN112836718A (zh) * | 2020-12-08 | 2021-05-25 | 上海大学 | 一种基于模糊知识神经网络的图像情感识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101593273A (zh) | 一种基于模糊综合评价的视频情感内容识别方法 | |
CN108376267B (zh) | 一种基于类别转移的零样本分类方法 | |
CN106611169B (zh) | 一种基于深度学习的危险驾驶行为实时检测方法 | |
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
CN103268495B (zh) | 计算机系统中基于先验知识聚类的人体行为建模识别方法 | |
CN108629338B (zh) | 一种基于lbp和卷积神经网络的人脸美丽预测方法 | |
CN110464366A (zh) | 一种情绪识别方法、系统及存储介质 | |
CN109101938B (zh) | 一种基于卷积神经网络的多标签年龄估计方法 | |
CN104123545A (zh) | 一种实时表情特征提取及表情识别方法 | |
CN106529503A (zh) | 一种集成卷积神经网络人脸情感识别方法 | |
CN109376610B (zh) | 视频监控中基于图像概念网络的行人不安全行为检测方法 | |
CN105740767A (zh) | 一种基于脸部特征的驾驶员路怒症实时识别和预警方法 | |
CN102422324B (zh) | 年龄估计设备和方法 | |
CN112508077A (zh) | 一种基于多模态特征融合的社交媒体情感分析方法及系统 | |
CN105701504B (zh) | 用于零样本学习的多模态流形嵌入方法 | |
CN105956570B (zh) | 基于唇部特征和深度学习的笑脸识别方法 | |
CN108392213B (zh) | 基于绘画心理学的心理分析方法及装置 | |
CN106897669A (zh) | 一种基于一致迭代多视角迁移学习的行人再辨识方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN112418172A (zh) | 基于多模信息智能处理单元的多模信息融合情感分析方法 | |
CN109871449A (zh) | 一种基于语义描述的端到端的零样本学习方法 | |
CN111985532B (zh) | 一种场景级上下文感知的情感识别深度网络方法 | |
CN110874576A (zh) | 一种基于典型相关分析融合特征的行人再识别方法 | |
CN107045624A (zh) | 一种基于最大加权团的脑电信号预处理与分类方法 | |
CN113553856A (zh) | 一种基于深度神经网络的争议焦点识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Sun Yong Document name: Notification that Application Deemed to be Withdrawn |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20091202 |