CN101241595A - 一种视频情感信息提取方法 - Google Patents
一种视频情感信息提取方法 Download PDFInfo
- Publication number
- CN101241595A CN101241595A CNA2007100636106A CN200710063610A CN101241595A CN 101241595 A CN101241595 A CN 101241595A CN A2007100636106 A CNA2007100636106 A CN A2007100636106A CN 200710063610 A CN200710063610 A CN 200710063610A CN 101241595 A CN101241595 A CN 101241595A
- Authority
- CN
- China
- Prior art keywords
- model
- emotion
- feature
- sigma
- extraction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种视频情感信息提取方法,包括以下步骤:选择目标视频片断;为所选择的目标视频建立情感的兴奋度模型;为所选择的目标视频建立情感的效价模型;将所建立的情感效价模型的正值映射到一个维度,将情感效价模型的负值映射到另一个维度,然后将情感效价模型的正值、负值、情感兴奋度模型三个分量映射到三维空间,得到情感的三维特征;对映射到三维空间的情感模型进行压缩,得到情感三维模型的压缩模型。
Description
技术领域
本发明涉及计算机视频理解与分析,特别涉及视频情感信息的提取。
背景技术
随着数字技术的发展,视频数据也开始呈现爆炸性增长的趋势,电视、电影、家用摄像设备正在不断地提供更多的视频数据。在这种背景下,利用计算机从庞大的视频数据信息中挖掘特定的信息成为一个热点问题。
视频的情感分析指的是利用计算机自动分析视频可能给观众情感上带来的主观反应。比如区分影片中恐怖的、紧张激烈的、浪漫的等不同的感情元素。对视频的情感属性的分析可以帮助观众快速的从视频数据库中找到自己感兴趣的视频,满足不同观众对视频多样化的要求。
视频的情感属性通常可以用效价(valence)和兴奋度(arousal)两个维度表示。效价指情绪的负面性或正面性,从不高兴到高兴;兴奋度指情绪的激烈程度,从十分平静到极度激动。图1是一个情感空间的示意图,例如,对于“极度恐惧”的情感,从效价纬度上来看,它属于负面情绪,从兴奋度纬度上来看,它属于激烈的情绪。
视频所表达的上述情感属性可以由视频中的一些底层特征如颜色、运动、声音等来表示。当建立了视频的情感模型后,可以绘制出效价及兴奋度沿视频时间的曲线图,来表达视频的情感属性。图2为视频情感曲线随时间的分布图,在该图中,显示了兴奋度以及效价随视频时间的变化情况。不少文献都采用上述的视频底层特征进行视频情感信息提取,如Hanjalic博士在″Affective Video Content Representationand Modeling″文章中便采用底层特征建立效价及兴奋度模型。在他的工作中,当情感曲线被绘制后,采用设定阈值的方法获得某段视频的情感描述。其他人的工作通常也是基于某时刻的情感特征,而不是把一段视频整个的情感信息用一个特征描述。而如果想要分析视频的情感特性的话,应该对整段视频提取一个情感特征,则多个视频样本可以在某特征空间中对应一个样本点的集合。如果仅仅是将获得的效价和兴奋度向量罗列的话,依采样频率的不同,一段一个小时的视频通常可以表示成数千至上万维的情感特征。这样,就需要找到一种特征压缩的方法,对情感特征进行降维。
发明内容
本发明的目的是克服现有的视频情感提取方法中,所得到的情感特征维数过高的缺陷,从而提供一种可降维的视频情感信息提取方法。
为了实现上述目的,本发明提供了一种视频情感信息提取方法,具体包括以下步骤:
步骤10)、选择目标视频片断;
步骤20)、为步骤10)所选择的目标视频建立情感的兴奋度模型;
步骤30)、为步骤10)所选择的目标视频建立情感的效价模型;
步骤40)、将步骤30)所建立的情感效价模型的正值映射到一个维度,将情感效价模型的负值映射到另一个维度,然后将情感效价模型的正值、负值、情感兴奋度模型三个分量映射到三维空间,得到情感的三维特征;
步骤50)、对步骤40)中映射到三维空间的情感模型进行压缩,得到情感三维模型的压缩模型。
上述技术方案中,在所述的步骤20)中,所述的情感的兴奋度模型的计算公式如公式(1)所示,
其中,i表示时刻,α是为不同特征所赋的权值,Mij表示前述的运动强度、镜头变换频率、音频能量特征。
所述的对运动强度特征的计算如公式(2)所示,
其中,|vp|为运动向量长度,F为一平滑函数。该公式说明了运动强度特征可用当前时刻所有运动向量的平均幅度表示。
所述的对镜头变换频率特征的计算公式如公式(3)所示:
Ms=F(e(1-(E-B))/δ) (3)
其中,E表示镜头结束帧,B表示镜头开始帧,δ为常数,F为一平滑函数。所述的对音频能量特征的计算如公式(4)所示,
其中,e(n)为短时音频能量,e为采样区间平均能量,N为某时刻音频采样长度,F为一平滑函数。
在所述的步骤30)中,对所述的情感效价按公式(5)计算:
Vi=Risign(β1Mp+β2Mc)+λ(β1Mp+β2Mc) (5)
其中,Ri表示情感的兴奋度模型,sign为符号函数,β为权值,Mp为音频频率特征,Mc代表颜色特征。
所述的音频频率特征是当前频率p(n)与无感情时的音频频率常数N的差,对该特征的计算如公式(6)所示:
Mp=F(p(n)-N) (6)
对所述的颜色特征Mc的计算如公式(7)所示:
Mc=F(0.69b+0.22s) (7)
其中b代表当前时刻视频帧的主颜色区域的亮度,s代表当前时刻视频帧的主颜色区域的饱和度。
上述技术方案中,在所述的步骤50)中,所述的对映射到三维空间的情感模型进行压缩的具体实现步骤包括:
步骤51)、对步骤40)中得到的情感三维特征中的每个点建立模型;
步骤52)、对步骤51)所建立的模型做最大似然估计得到情感压缩模型。
在所述的步骤51)中,用A表示情感三维特征,用矩阵e表示情感三维模型的压缩模型,其中每个点服从均值和方差为{μ,φ)的高斯分布,所述的为情感三维特征上的点Ai建立模型的过程如公式(11)所示:
其中,T代表e到A的映射。
在所述的步骤52)中,所述的对模型做最大似然估计的计算如公式(13)所示:
其中,q(T)为映射分布的估计值。
本发明的优点在于:
提出了一种视频情感信息的提取方法,与现有方法相比,除了建立了情感模型,还利用产生式模型得到了视频经过压缩后的情感特征,为进一步的视频情感研究提供了帮助。
附图说明
图1是二维情感空间的示意图;
图2是视频情感属性沿时间的曲线图;
图3为视频情感信息提取的过程;
图4为本发明的视频情感信息提取方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述。
图3是视频情感信息提取的基本过程,对于一段视频,分别根据兴奋度特征建立兴奋度模型,根据效价特征建立效价模型。在建立兴奋度模型时,所采用的兴奋度特征包括运动强度、镜头变换频率、声音能量特征,在建立效价模型时,所采用的效价特征包括音频频率特征和颜色特征。在得到效价模型后,还要将该模型中的正负值分别映射到两个维度,得到正效价模型和负效价模型。对所得到的兴奋度模型、正效价模型、负效价模型进行压缩,得到视频情感的压缩模型。
下面对视频情感信息的提取做进一步的说明,如图4所示,本发明的视频情感提取方法具体包含以下步骤:
步骤10、选择目标视频片断;在后续步骤中,从所选择的目标视频片断提取视频情感特征;
步骤20、为目标视频建立情感的兴奋度模型;在建立情感的兴奋度模型时,采用了运动强度(用平均运动向量表达)、镜头变换频率、声音能量等特征。所建立的兴奋度模型的计算公式如公式(1)所示,
其中,i表示时刻,α是为不同特征所赋的权值,Mij表示前述的运动强度、镜头变换频率、音频能量等特征。具体计算如下:
对运动强度特征的计算如公式(2)所示,
其中,|vp|为运动向量长度,F为一平滑函数。该公式说明了运动强度特征可用当前时刻所有运动向量的平均幅度表示。
对镜头变换频率特征的计算公式如公式(3)所示:
Ms=F(e(1-(E-B))/δ) (3)
其中,E表示镜头结束帧,B表示镜头开始帧,δ为常数,F为一平滑函数。对音频能量特征的计算如公式(4)所示,
其中,e(n)为短时音频能量,e为采样区间平均能量,N为某时刻音频采样长度,F为一平滑函数。
步骤30、为目标视频建立情感的效价模型;
与Hanjalic的工作类似,为了获得效价和兴奋度的匹配,按如下公式计算情感效价:
Vi=Risign(β1Mp+β2Mc)+λ(β1Mp+β2Mc) (5)
其中,sign为符号函数,β为权值,Mp为音频频率特征,Mc代表颜色特征。
音频频率特征是当前频率p(n)与无感情时的音频频率常数N的差,对该特征的计算如公式(6)所示:
Mp=F(p(n)-N) (6)
颜色特征Mc的计算如公式(7)所示:
Mc=F(0.69b+0.22s) (7)
其中b代表当前时刻视频帧的主颜色区域的亮度,s代表当前时刻视频帧的主颜色区域的饱和度。
步骤40、将步骤20和步骤30中得到的情感兴奋度模型和情感效价模型映射到三维空间中。在本步骤的映射过程中,由于情感效价模型具有正负两种值,为了后续处理的方便,需要将情感效价的值映射到两个维度,一个维度表示效价的正分量,一个维度表示效价的负分量,情感效价映射的实现如公式(8)、公式(9)所示:
上述情感效价的正负分量连同情感兴奋度一维坐标,得到在时刻i的一个三元组{Ri,Vpi,Vni},该三元组用Ai表示。为了可视化的方便,可将该三元组按公式(10)排列在一个矩阵X中:
Xj,i=An(i-1)+j (10)
将矩阵X映射到RGB空间中,则可以得到一个视频情感图。在视频情感图中,每个点的颜色表示了视频当前情感位于情感空间的位置,而纹理则表示了视频中的各种情感如何在时间轴上分布。
步骤50、对步骤40中映射到三维空间的情感模型进行压缩,得到情感压缩模型。在本步骤中,假定情感三维模型中的每一点由情感压缩模型中的某一点映射产生,并假定情感压缩模型中的任一点独立产生且符合高斯分布。然后通过最大似然估计就可得到情感压缩模型。
在具体实现时,对情感三维特征A的每个点建模。假设情感三维模型的压缩模型为一矩阵e,其中每个点服从均值和方差为{μ,φ}的高斯分布.情感三维特征上的点Ai的计算如公式(11)所示:
其中,T代表e到A的映射。
假设情感三维模型上的点是独立产生的,那么联合分布可以表示为下式:
然后利用最大似然估计就可以得到情感压缩模型:
这里q(T)为映射分布的估计值。
通过本步骤实现对情感模型的压缩后,可将一段视频中数万维的情感特征的维数压缩到数百维,有利于对视频情感做进一步分析。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (11)
1. 一种视频情感信息提取方法,具体包括以下步骤:
步骤10)、选择目标视频片断;
步骤20)、为步骤10)所选择的目标视频建立情感的兴奋度模型;
步骤30)、为步骤10)所选择的目标视频建立情感的效价模型;
步骤40)、将步骤30)所建立的情感效价模型的正值映射到一个维度,将情感效价模型的负值映射到另一个维度,然后将情感效价模型的正值、负值、情感兴奋度模型三个分量映射到三维空间,得到情感的三维特征;
步骤50)、对步骤40)中映射到三维空间的情感模型进行压缩,得到情感三维模型的压缩模型。
2. 根据权利要求1所述的视频情感信息提取方法,其特征在于,在所述的步骤20)中,所述的情感的兴奋度模型的计算公式如公式(1)所示,
其中,i表示时刻,α是为不同特征所赋的权值,Mij表示前述的运动强度、镜头变换频率、音频能量特征。
3. 根据权利要求2所述的视频情感信息提取方法,其特征在于,所述的对运动强度特征的计算如公式(2)所示,
其中,|vp|为运动向量长度,F为一平滑函数。该公式说明了运动强度特征可用当前时刻所有运动向量的平均幅度表示。
4. 根据权利要求2所述的视频情感信息提取方法,其特征在于,所述的对镜头变换频率特征的计算公式如公式(3)所示:
Ms=F(e(1-(E-B))/δ) (3)
其中,E表示镜头结束帧,B表示镜头开始帧,δ为常数,F为一平滑函数。
5. 根据权利要求2所述的视频情感信息提取方法,其特征在于,所述的对音频能量特征的计算如公式(4)所示,
其中,e(n)为短时音频能量,e为采样区间平均能量,N为某时刻音频采样长度,F为一平滑函数。
6. 根据权利要求2所述的视频情感信息提取方法,其特征在于,在所述的步骤30)中,对所述的情感效价按公式(5)计算:
Vi=Risign(β1Mp+β2Mc)+λ(β1Mp+β2Mc) (5)
其中,Ri表示情感的兴奋度模型,sign为符号函数,β为权值,Mp为音频频率特征,Mc代表颜色特征。
7. 根据权利要求6所述的视频情感信息提取方法,其特征在于,所述的音频频率特征是当前频率p(n)与无感情时的音频频率常数N的差,对该特征的计算如公式(6)所示:
Mp=F(p(n)-N) (6)
8. 根据权利要求6所述的视频情感信息提取方法,其特征在于,对所述的颜色特征Mc的计算如公式(7)所示:
Mc=F(0.69b+0.22s) (7)
其中b代表当前时刻视频帧的主颜色区域的亮度,s代表当前时刻视频帧的主颜色区域的饱和度。
9. 根据权利要求1所述的视频情感信息提取方法,其特征在于,在所述的步骤50)中,所述的对映射到三维空间的情感模型进行压缩的具体实现步骤包括:
步骤51)、对步骤40)中得到的情感三维特征中的每个点建立模型;
步骤52)、对步骤51)所建立的模型做最大似然估计得到情感压缩模型。
10. 根据权利要求9所述的视频情感信息提取方法,其特征在于,在所述的步骤51)中,用A表示情感三维特征,用矩阵e表示情感三维模型的压缩模型,其中每个点服从均值和方差为{μ,φ}的高斯分布,所述的为情感三维特征上的点Ai建立模型的过程如公式(11)所示:
其中,T代表e到A的映射。
11. 根据权利要求9所述的视频情感信息提取方法,其特征在于,在所述的步骤52)中,所述的对模型做最大似然估计的计算如公式(13)所示:
其中,q(T)为映射分布的估计值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100636106A CN101241595A (zh) | 2007-02-06 | 2007-02-06 | 一种视频情感信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100636106A CN101241595A (zh) | 2007-02-06 | 2007-02-06 | 一种视频情感信息提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101241595A true CN101241595A (zh) | 2008-08-13 |
Family
ID=39933098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007100636106A Pending CN101241595A (zh) | 2007-02-06 | 2007-02-06 | 一种视频情感信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101241595A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102598666A (zh) * | 2009-11-04 | 2012-07-18 | 皇家飞利浦电子股份有限公司 | 用于提供媒体数据和元数据组合的方法和系统 |
CN110750699A (zh) * | 2019-10-18 | 2020-02-04 | 四川大学 | 一种面向票房预测的影评情感可视化方法 |
CN110858913A (zh) * | 2018-08-23 | 2020-03-03 | 北京优酷科技有限公司 | 多媒体内容的处理方法及装置 |
-
2007
- 2007-02-06 CN CNA2007100636106A patent/CN101241595A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102598666A (zh) * | 2009-11-04 | 2012-07-18 | 皇家飞利浦电子股份有限公司 | 用于提供媒体数据和元数据组合的方法和系统 |
CN110858913A (zh) * | 2018-08-23 | 2020-03-03 | 北京优酷科技有限公司 | 多媒体内容的处理方法及装置 |
CN110750699A (zh) * | 2019-10-18 | 2020-02-04 | 四川大学 | 一种面向票房预测的影评情感可视化方法 |
CN110750699B (zh) * | 2019-10-18 | 2021-12-17 | 四川大学 | 一种面向票房预测的影评情感可视化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dhall et al. | Emotion recognition in the wild challenge 2013 | |
CN112015949B (zh) | 视频生成方法和装置、存储介质及电子设备 | |
CN111935537A (zh) | 音乐短片视频生成方法、装置、电子设备和存储介质 | |
CN111581437A (zh) | 一种视频检索方法及装置 | |
CN109271542A (zh) | 封面确定方法、装置、设备及可读存储介质 | |
Mironică et al. | A modified vector of locally aggregated descriptors approach for fast video classification | |
CN112163122A (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
CN113395578A (zh) | 一种提取视频主题文本的方法、装置、设备及存储介质 | |
CN101299241A (zh) | 基于张量表示的多模态视频语义概念检测方法 | |
CN108345385A (zh) | 虚拟陪跑人物建立与交互的方法及装置 | |
CN111368141B (zh) | 视频标签的扩展方法、装置、计算机设备和存储介质 | |
CN107454346B (zh) | 影视数据解析方法、视频制作模板推荐方法、装置及设备 | |
Ottl et al. | Group-level speech emotion recognition utilising deep spectrum features | |
CN111414506A (zh) | 基于人工智能情绪处理方法、装置、电子设备及存储介质 | |
CN112287175B (zh) | 一种视频高亮片段预测方法和系统 | |
CN110516749A (zh) | 模型训练方法、视频处理方法、装置、介质和计算设备 | |
CN104156464A (zh) | 基于微视频特征数据库的微视频检索方法及装置 | |
CN113766299A (zh) | 一种视频数据播放方法、装置、设备以及介质 | |
CN102455906B (zh) | 播放器皮肤变换的方法和系统 | |
CN110610500A (zh) | 基于动态语义特征的新闻视频自适应拆条方法 | |
CN114286171A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN115713257A (zh) | 基于多模态融合的主播表现力评价方法、装置和计算设备 | |
CN111954087A (zh) | 视频中图像的截取方法和装置、存储介质和电子设备 | |
CN109086690A (zh) | 图像特征提取方法、目标识别方法及对应装置 | |
CN101241595A (zh) | 一种视频情感信息提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20080813 |