CN103123619B - 基于情感上下文的视觉语音多模态协同分析方法 - Google Patents

基于情感上下文的视觉语音多模态协同分析方法 Download PDF

Info

Publication number
CN103123619B
CN103123619B CN201210512385.0A CN201210512385A CN103123619B CN 103123619 B CN103123619 B CN 103123619B CN 201210512385 A CN201210512385 A CN 201210512385A CN 103123619 B CN103123619 B CN 103123619B
Authority
CN
China
Prior art keywords
emotion
information
feature
visual
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210512385.0A
Other languages
English (en)
Other versions
CN103123619A (zh
Inventor
毛启容
赵小蕾
詹永照
白李娟
胡素黎
董俊健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201210512385.0A priority Critical patent/CN103123619B/zh
Publication of CN103123619A publication Critical patent/CN103123619A/zh
Application granted granted Critical
Publication of CN103123619B publication Critical patent/CN103123619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于情感上下文的视觉语音多模态协同情感分析方法,所述方法包括:S1、动态提取与分析视觉语音场景中基于情景和分析对象的情感上下文信息;S2、实时提取视觉场景中分析对象的视觉情感特征和语音场景中分析对象的语音情感特征;S3、对情感上下文信息、姿态特征、表情特征和语音情感特征分别进行结构化稀疏表示;S4、采用情感分类代理对多模态的情感信息进行协同分析和识别。本发明利用情感上下文信息、姿态特征、语音情感特征以及表情特征中包含大量情感信息且这些信息互为补充的特性,结合结构化稀疏表示和多情感代理协同分析,解决在部分通道信息丢失的情况下准确分析待分析者情感的问题,可提高自然交互环境下情感分析的准确性和鲁棒性。

Description

基于情感上下文的视觉语音多模态协同分析方法
技术领域
本发明涉及情感识别技术领域,尤其涉及一种基于情感上下文的视觉语音多模态协同分析方法。
背景技术
随着多媒体技术的发展,基于音视频的情感分析、识别研究对于增强计算机的智能化和人性化、开发新型人机环境、以及推动多媒体技术和信号处理等相关领域的发展有着重要的意义。现有的情感识别研究,还存在较多局限性,研究成果主要集中在对单通道的情感分析,现有关于多通道融合的情感分析研究也主要针对表情和语音两个通道,研究的对象局限于实验室内的少数几个表演者范围内,且未考虑活动发生的真实场景,忽略了分析对象所处的上下文环境,从而导致目前的情感识别方法脱离实验环境后识别准确率下降明显,实际应用效果不理想。
在研究中发现,人类情感在一定程度上依赖于所处的具体环境,相同的表情、语音以及姿态在不同的场景中有可能表达不同的情感。因此,情感分析的准确率和待分析对象所处的环境有着密切的关系,有研究者提出了将上下文信息引入情感分析的思想,取得了较好的效果。这一研究成果告诉我们,充分挖掘更丰富、更细微的待分析对象的情感上下文信息可有效地提高情感分析的准确率。为了充分发挥表情信息、语音情感信息、姿态以及情感上下文的作用,提高基于视觉语音的自然交互情感分析的准确率和鲁棒性,必须对多个通道所获得的情感信息进行融合。
有鉴于此,有必要提供一种基于情感上下文的视觉语音多模态协同分析方法及系统以解决上述问题。
发明内容
本发明针对原有多通道情感识别主要集中在表情和语音两个通道,且未考虑情感上下文的问题,充分利用情感上下文,表情、语音以及姿态中所包含的情感信息,对情感特征进行结构化稀疏表示,提供了一种基于情感上下文的视觉语音多模态协同分析方法。
为了实现上述目的,本发明实施例提供的技术方案如下:
一种基于情感上下文的视觉语音多模态协同分析方法,所述方法包括:
S1、动态提取与分析视觉语音场景中基于情景和分析对象的情感上下文信息,所述情感上下文信息包括视觉语音场景所包含的先验情感上下文信息和时空上下文信息;
S2、实时提取视觉场景中分析对象的视觉情感特征和语音场景中分析对象的语音情感特征,所述视觉情感特征包括姿态特征和表情特征;
S3、对情感上下文信息、姿态特征、表情特征和语音情感特征分别进行结构化稀疏表示;
S4、采用情感分类代理对多模态的情感信息进行协同分析和识别。
作为本发明的进一步改进,所述步骤S1中的先验情感上下文信息包括环境上下文信息、情景上下文信息、分析对象个人上下文信息。
作为本发明的进一步改进,所述步骤S2中视觉情感特征的提取具体为:
采用肤色跟踪算法,检测视频帧中分析对象头部、双手的位置;
采用均值偏移目标跟踪算法,跟踪及分析所述分析对象的头部、双手的运动轨迹,确定头部、双手运动的起始帧和结束帧;
提取分析对象头部、双手的运动起始帧和结束帧之间的视频序列的每一帧中头部、双手的运动特征,所述运动特征包括能量、空间范围、运动平滑度、对称性以及头部向前、向后的运动信息;
基于统计学原理,提取分析对象头部、双手的运动特征中的最大值、平均值、标准方差以及最大运动峰值持续时间。
作为本发明的进一步改进,所述步骤S3中采用结构化稀疏表示方法表示所提取的情感特征具体为:
S31、将非线性分类鉴别的准则嵌入到结构化稀疏表示的字典优化求解中;
S32、采用监督学习实现不断优化求解所述稀疏表示的字典;
S33、根据求解出的字典求出情感特征的稀疏化表示形式。
作为本发明的进一步改进,所述步骤S31中非线性分类鉴别的准则嵌入到结构化稀疏表示得到的非线性可鉴别稀疏表示准则为:
m i n D , θ , α ( Σ j = 1 g Σ i = 1 n j ( C ( f ( α , θ ) , y i ) + λ 0 | | x i - D α i | | 2 2 + λ 1 | | α i | | 1 + λ 2 | | α Gj | | 2 ) + λ 3 | | θ | | 2 2 ) ,
其中,X={x1,x2,...xn}为n个情感特征矢量集合,Y=(y1,y2,...ym)为m个情感状态矢量,D为稀疏表示字典,α={α1,α2,...,αm}为m个情感特征稀疏编码的集合,g为特征组的个数,nj为第j个组内情感特征的个数,θ为核鉴别参数;f(α,θ)为将α映射到高维空间,利用核函数K建立的关于稀疏编码α的非线性分类函数,C(f,yi)为损失函数,λ0,λ1,λ2,λ3为惩罚因子。
作为本发明的进一步改进,所述步骤S33前还包括:
采用梯度下降法迭代优化求解D,α,θ,初始时采用随机高斯矩阵生成字典D,以及一个初始的鉴别分类参数θ,所述迭代优化具体为:
采用已有的D、θ,按照建立的基于核的非线性可鉴别稀疏表示准则求解出有标签情感特征X的稀疏编码α;
若更新基于核的非线性可鉴别稀疏表示中的D、θ问题是非凸的,分别建立稀疏表示约束方程关于D、θ的偏微分方程,采用梯度下降法来求解更新稀疏表示字典D和核鉴别参数θ,继续迭代直至收敛;
若更新基于核的非线性可鉴别稀疏表示中的D、θ问题是凸的,更新稀疏表示字典D和核鉴别参数θ。
作为本发明的进一步改进,所述迭代优化采用Alternating Direction Method of Multipliers算法,具体为:
min D , θ , α ( Σ j = 1 g Σ i = 1 n j ( C ( f ( α , θ ) , y i ) + λ 0 | | x i - Dα i | | 2 2 + λ 1 | | β i | | 1 + λ 2 | | β G j | | 2 ) + λ 3 | | θ | | 2 2 ) ,
其中βi,βGi表示αiGj经过迭代后得到的中间值。
作为本发明的进一步改进,所述步骤S4包括:
采用模糊推理规则,建立基于情感上下文信息的情感推理模型
建立语音通道、表情通道、姿态通道,对语音通道、表情通道、姿态通道以及所有通道的结合分别建立情感分类代理;
采用基于动态邻域置信度的情感分类代理分类性能评估方法,采用结合情感上下文推理分析结果的分类置信度敏感的分类代理协商算法对情感信息进行分析和识别。
相应地,一种基于情感上下文的视觉语音多模态协同分析系统,所述系统包括:
情感特征提取单元,用于动态提取与分析视觉语音场景中基于情景和分析对象的情感上下文信息,所述情感上下文信息包括视觉语音场景所包含的先验情感上下文信息和时空上下文信息;实时提取视觉场景中分析对象的视觉情感特征和语音场景中分析对象的语音情感特征,所述视觉情感特征包括姿态特征和表情特征;
情感特征表示单元,用于对情感上下文信息、姿态特征、表情特征和语音情感特征分别进行结构化稀疏表示;
协同决策分析单元,采用情感分类代理对多模态的情感信息进行协同分析和识别。
作为本发明的进一步改进,所述情感分类代理包括:协商控制器、情感分析方法或推理规则模块、情感分析以及情感分类代理协商算法模块、情感分类代理之间的接口以及情感信息输入/分析结果输出模块。
本发明基于情感上下文的视觉语音多模态协同分析方法能动态、准确地提取语音和视觉通道中情景和分析对象的情感上下文信息的方法,并建立情感上下文和情感之间的联系;通过视频跟踪准确、高效地提取更丰富的姿态情感特征,从肢体语言的角度分析对象的情感状态;情感特征经过结构化稀疏表示后更具有分类鉴别能力;同时采用基于情感分类代理的多模态协同情感分析方法更准确地融合来自于各个模态的情感信息,从而更加准确地理解分析对象当时的活动情形,提高情感分析的准确性和鲁棒性。
附图说明
图1为本发明基于情感上下文的视觉语音多模态协同分析方法的流程图;
图2为本发明基于情感上下文的视觉语音多模态协同分析方法的示意图;
图3为本发明一实施方式中基于情感上下文的视觉语音多模态协同分析方法的具体示意图;
图4为本发明本发明基于情感上下文的视觉语音多模态协同分析系统的模块示意图;
图5为本发明一实施方式中情感分类代理的结构示意图。
具体实施方式
以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
参图1、图2所示,本发明的基于情感上下文的视觉语音多模态协同分析方法,其特征在于,所述方法包括:
S1、动态提取与分析视觉语音场景中基于情景和分析对象的情感上下文信息,情感上下文信息包括视觉语音场景所包含的先验情感上下文信息和时空上下文信息(Spatio-temporalcontext),其中,先验情感上下文信息包括环境上下文信息、情景上下文信息、分析对象个人上下文信息;
从情感交互的环境、活动、分析对象的个人信息以及视觉、语音等多个角度动态提取情感上下文信息,并挖掘这些情感上下文信息和情感状态之间的关联关系,使得所提取的上下文情感信息能够随着分析场景和对象变化而及时变化和更新,从而为语音和视觉通道的情感分析和推理提供上下文环境。
S2、实时提取视觉场景中分析对象的视觉情感特征和语音场景中分析对象的语音情感特征,视觉情感特征包括姿态特征和表情特征;
实时提取基于视频的上半身情感姿态特征,包括头部和双手的准确定位、基于视频帧的姿态特征实时提取以及基于视频序列的运动特征的实时提取,检测分析对象肢体运动开始帧、结束帧以及运动轨迹。
S3、对情感上下文信息、姿态特征、表情特征和语音情感特征分别进行结构化稀疏表示;
将非线性分类鉴别的准则嵌入到结构化稀疏表示的字典优化求解中,采用监督学习实现不断优化求解此种稀疏表示的字典,以及采用近似l0范数的贪婪算法根据求解出的字典快速地求出情感特征的稀疏化表示形式。
S4、采用情感分类代理对多模态的情感信息进行协同分析和识别。将分类代理的思想引入多模态协同情感分析中,设计基于情感分类代理的多模态融合情感协同分析模型和各情感分类代理之间的协商和控制策略,使得情感分类代理之间通过信息反馈、共享和协商,相互协作,获得更丰富、全面、准确的情感信息,以提高情感分析的准确性。
基于视觉语音的多通道情感协同分析方法将代理和协作的概念引入多情感分类器融合情感分析环境中,充分利用情感分类代理之间可以进行信息交互、协商和协作的特点,情感分类代理通过信息交互可以获得更丰富、更全面、更细微的情感信息,通过协商后对待分析对象的情感类别达成一致的意见,使最终的分析决策结果尽可能地接近待分析对象的真实情感状态,更有效地提高情感分析的准确性。
进一步地,采用结构化稀疏表示方法表示所提取的情感特征具体为:
S31、将非线性分类鉴别的准则嵌入到结构化稀疏表示的字典优化求解中;
S32、采用监督学习实现不断优化求解所述稀疏表示的字典;
S33、根据求解出的字典求出情感特征的稀疏化表示形式。
具有分类鉴别能力的情感特征结构化稀疏表示方法,通过l2.1范数的表示,从时序和几何两个方面描述情感特征之间的关联关系,同时嵌入一个基于核的非线性分类鉴别的准则,使得求解的稀疏表示更具有类别鉴别能力。并采用梯度下降法和贪婪算法分别求解稀疏字典和特征的稀疏化表示,求解的过程更加快速,且更准确地将基于视觉语音的多通道混合特征进行结构化稀疏化表示,有利于更好地分析情感状态,同时容忍视觉语音信号存在噪声的情形。
参图3所示为本发明一实施方式中基于情感上下文的视觉语音多模态协同分析方法的具体示意图,该方法具体包括:
S1、动态提取与分析视觉语音场景中基于情景和分析对象的情感上下文信息:
采用音视频信息处理技术,动态提取当前所分析的音视频片段中的环境上下文信息,如:光照、天气、温度、噪声等,这些上下文信息可作为情感分析的背景信息;
根据视觉场景和音频信息,通过分析待分析者的穿着、发型、语音等信息,实时提取所分析音视频片段中活动主题、活动目的以及分析对象的性别、年龄、职业、文化背景以及分析对象在活动中所扮演的角色等情景上下文信息。
从统计和时序两个方面分别提取当前所分析的音视频片段的前后片段中的语音情感特征、表情特征以及姿态特征作为基于语音和视觉的情感上下文特征。
采用多元组的形式和特征向量两种表示方式动态记录场景中分析对象所处的情感上下文,所记录的上下文信息随着分析对象以及分析对象所处的环境的变化而动态、及时地变化。
对采用多元组形式表示的情感上下文信息,采用模糊推理技术,根据分析对象的情感上下文,推测出分析对象可能的一种或几种情感状态。对采用特征向量形式表示的情感上下文特征,采用已所设计的结构化稀疏表示方法进行重新描述。
S2、实时提取视觉场景中分析对象的视觉情感特征和语音场景中分析对象的语音情感特征,视觉情感特征包括姿态特征和表情特征。其中实时提取视频信息中的姿态特征具体为:
采用肤色跟踪算法实时、准确地检测视频帧中分析对象头部、双手的位置;
采用均值偏移目标跟踪(Mean Shift Target Detection Algorithm)算法,准确、实时跟踪、分析待分析对象的头部、双手的运动轨迹,确定头部、双手运动的起始帧和结束帧,并使得跟踪算法能够容忍跟踪目标的变形、加速和旋转;
提取分析对象头部、双手的运动起始帧和结束帧之间的视频序列的每一帧中头部、双手的运动特征,这些运动特征包括:能量、空间范围、运动平滑度、对称性以及头部向前、向后的运动等情感姿态特征。这里的空间范围拟采用头部和双手所组成的三角形的形状来表示,它反映了分析者头部和双手之间的相对位置关系;
基于统计学原理,提取分析对象头部、双手的动态特征,这些动态特征是指分析对象头部、双手的运动起始帧和结束帧之间的视频序列帧中,所提取的肢体运动瞬态特征的最大值、平均值、标准方差以及最大运动峰值持续时间等统计特征。这类特征可从时间上反映头部和双手运动的动态性能。
S3、对情感上下文信息、姿态特征、表情特征和语音情感特征分别进行结构化稀疏表示,具体包括:
以基于核的非线性情感特征鉴别性原理,考察经稀疏表示后的情感特征α关于情感类别可鉴别性,不断迭代优化稀疏表示字典D的生成;
根据时空对应关系,对所提取的语音情感特征或视觉情感特征及其情感上下文,在每个情感通道内部或情感通道之间对特征先依据时序关系分组,再依据特征的类型或几何相关性分组,构建具有时空拓扑结构的特征矢量。采用l2.1范数,即组类特征所对应的稀疏表示尽量紧致min||αij||2,其中αi,αj属于同一特征组αij∈αGi,这里的αGi表示第j个特征组,而对于特征组之间尽量稀疏,即采用λ1||αi||12||αGi||212为惩罚因子)惩罚项进行正则化。在同一通道内部,也根据情感特征的不同特性进行分类,如对于面部图像我们可以采用ASM方法取得面部表情图像的特征关键点的包络图,而后根据该包络图划分人脸表情图像的特征组。
嵌入情感特征非线性可鉴别的约束,考虑类内离散度小,类间离散度大的原则,设计鉴别损失函数,对传统的稀疏表示准则进行拓展,设X={x1,x2,...xn}为n个情感特征矢量集合,Y=(y1,y2,...ym)为m个情感状态矢量,建立基于核的非线性可鉴别稀疏表示准则如式(1)所示:
min D , θ , α ( Σ j = 1 g Σ i = 1 n j ( C ( f ( α , θ ) , y i ) + λ 0 | | x i - Dα i | | 2 2 + λ 1 | | α i | | 1 + λ 2 | | α G j | | 2 ) + λ 3 | | θ | | 2 2 ) - - - ( 1 )
其中,D为稀疏表示字典;α={α12,...,αm}为m个情感特征稀疏表示的集合,g为特征组的个数,nj为第j个组内情感特征的个数,θ为核鉴别参数;f(α,θ)为将α映射到高维空间,利用核函数K建立的关于稀疏编码α的非线性分类函数,核函数可取高斯核,核参数可通过训练获得;C(f,yi)为损失函数,该损失函数设计是全局权衡考虑同类别的α类内离散度尽量小,不同类别的α类间离散度尽量大的fisher准则而设计的;λ012,λ3为惩罚因子。
采用梯度下降法迭代优化求解D,α,θ。初始时采用随机高斯矩阵生成字典D,以及一个初始的鉴别分类参数θ。迭代优化过程如下:采用已有的D、θ,按照建立的基于核的非线性可鉴别稀疏表示准则求解出有标签情感特征X的稀疏编码α;由于更新基于核的非线性可鉴别稀疏表示中的D、θ问题可能是非凸的,因此我们分别建立稀疏表示约束方程关于D、θ的偏微分方程,采用梯度下降法来求解更新字典D和鉴别分类参数θ,继续迭代直至收敛。若这种更新问题是凸的,字典D和鉴别分类参数θ可采用类似于K-SVD方法更新。
为了加快算法的速度,采用如式(2)所示的Alternating Direction Method of Multipliers(ADMM)算法进行交替迭代优化。
min D , θ , α ( Σ j = 1 g Σ i = 1 n j ( C ( f ( α , θ ) , y i ) + λ 0 | | x i - Dα i | | 2 2 + λ 1 | | β i | | 1 + λ 2 | | β G j | | 2 ) + λ 3 | | θ | | 2 2 ) , - - - ( 2 )
其中βi,βGi表示αiGj经过迭代后得到的中间值。
对于给定的情感特征矢量X及监督学习得到的具有鉴别能力的字典D,采用近似l0范数的贪婪算法求解得到情感特征的结构化稀疏表示形式α。该贪婪算法逐次迭代估计特征的稀疏表示,然后贪婪地选取绝对值较大的支持集,最后求解支持集上的最小二乘解得到结构化稀疏表示α。
S4、采用情感分类代理对多模态的情感信息进行协同分析和识别:
根据S1中所提取的情景上下文情感特征,采用模糊推理规则,设计基于情感上下文信息的情感推理模型,从而使得情景上下文特征为其它通道的情感分析提供参考,成为基于其它通道情感特征的情感分析的有益补充;
对语音通道、表情通道、姿态通道以及所有通道的结合,分别设计情感分类代理,每个通道以及所有通道的融合分别对应一个情感分类代理。情感分类代理之间的协商采用层次式的协商机制。分析并设计情感分类代理的内部结构、内部各模块的详细功能以及模块之间的信息交互关系;
采用基于动态邻域置信度的情感分类代理分类性能评估方法,并设计一种结合情感上下文推理分析结果的分类置信度敏感的分类代理协商算法;
构建融合多通道和情感上下文的基于情感分类代理的情感协同决策分析模型,进而构建基于视觉语音的融合语音、表情、姿态和情感上下文的基于情感分类代理的情感协同决策分析系统。
参图4所示为本发明基于情感上下文的视觉语音多模态协同分析系统的模块示意图,该系统包括:
情感特征提取单元10,用于动态提取与分析视觉语音场景中基于情景和分析对象的情感上下文信息,情感上下文信息包括视觉语音场景所包含的先验情感上下文信息和时空上下文信息;实时提取视觉场景中分析对象的视觉情感特征和语音场景中分析对象的语音情感特征,视觉情感特征包括姿态特征和表情特征;
情感特征表示单元20,用于对情感上下文信息、姿态特征、表情特征和语音情感特征分别进行结构化稀疏表示;
协同决策分析单元30,采用情感分类代理对多模态的情感信息进行协同分析和识别。
图5为情感分类代理的结构示意图,每个情感分类代理包括:协商控制器41、情感分析方法或推理规则模块42、情感分析以及情感分类代理协商算法模块43、情感分类代理之间的接口44以及情感信息输入/分析结果输出模块45。
本发明基于情感上下文的视觉语音多模态协同分析系统以CALLAS Expressivity Corpus数据库为背景,采用语音情感特征和表情特征的提取方法设计语音情感特征以及表情特征的提取程序。根据情感上下文动态获取与分析方法,设计动态提取情感上下文信息并进行情感分析的程序。采用基于视觉信息的姿态特征实时提取方法,设计程序提取分析对象的姿态信息。同时,根据结构化情感特征稀疏表示方法,设计情感特征的表示程序,采用多通道协同情感分析方法建立多模态协同情感分析程序,对自然交互环境下,来自语音、表情、姿态以及情感上下文多个模态的情感信息进行情感协同分析,以分析出待分析对象的内心的情感状态。
与现有技术相比,本发明基于情感上下文的视觉语音多模态协同分析方法能动态、准确地提取语音和视觉通道中情景和分析对象的情感上下文信息的方法,并建立情感上下文和情感之间的联系;通过视频跟踪准确、高效地提取更丰富的姿态情感特征,从肢体语言的角度分析对象的情感状态;情感特征经过结构化稀疏表示后更具有分类鉴别能力;同时采用基于情感分类代理的多模态协同情感分析方法更准确地融合来自于各个模态的情感信息,从而更加准确地理解分析对象当时的活动情形,提高情感分析的准确性和鲁棒性。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于情感上下文的视觉语音多模态协同情感分析方法,其特征在于,所述方法包括:
S1、动态提取与分析视觉语音场景中基于情景和分析对象的情感上下文信息,所述情感上下文信息包括视觉语音场景所包含的先验情感上下文信息和时空上下文信息;
S2、实时提取视觉场景中分析对象的视觉情感特征和语音场景中分析对象的语音情感特征,所述视觉情感特征包括姿态特征和表情特征;
S3、对情感上下文信息、姿态特征、表情特征和语音情感特征分别进行结构化稀疏表示,采用结构化稀疏表示方法表示所提取的情感特征具体为:
S31、将非线性分类鉴别的准则嵌入到结构化稀疏表示的字典优化求解中;
S32、采用监督学习实现不断优化求解所述稀疏表示的字典;
S33、根据求解出的字典求出情感特征的稀疏化表示形式;
S4、采用情感分类代理对多模态的情感信息进行协同分析和识别。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中的先验情感上下文信息包括环境上下文信息、情景上下文信息、分析对象个人上下文信息。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2中视觉情感特征的提取具体为:
采用肤色跟踪算法,检测视频帧中分析对象头部、双手的位置;
采用均值偏移目标跟踪算法,跟踪及分析所述分析对象的头部、双手的运动轨迹,确定头部、双手运动的起始帧和结束帧;
提取分析对象头部、双手的运动起始帧和结束帧之间的视频序列的每一帧中头部、双手的运动特征,所述运动特征包括能量、空间范围、运动平滑度、对称性以及头部向前、向后的运动信息;
基于统计学原理,提取分析对象头部、双手的运动特征中的最大值、平均值、标准方差以及最大运动峰值持续时间。
4.根据权利要求3所述的方法,其特征在于,所述步骤S31中非线性分类鉴别的准则嵌入到结构化稀疏表示得到的非线性可鉴别稀疏表示准则为:
min D , θ , α ( Σ j = 1 g Σ i = 1 n j ( C ( f ( α , θ ) , y i ) + λ 0 | | x i - D α i | | 2 2 + λ 1 | | α i | | 1 + λ 2 | | α Gj | | 2 ) + λ 3 | | θ | | 2 2 ) ,
其中,X={x1,x2,...xn}为n个情感特征矢量集合,Y=(y1,y2,...ym)为m个情感状态矢量,D为稀疏表示字典,α={α1,α2,...,αm}为m个情感特征稀疏编码的集合,g为特征组的个数,nj为第j个组内情感特征的个数,θ为核鉴别参数;f(α,θ)为将α映射到高维空间,利用核函数K建立的关于稀疏编码α的非线性分类函数,C(f,yi)为损失函数,λ0,λ1,λ2,λ3为惩罚因子。
5.根据权利要求4所述的方法,其特征在于,所述步骤S33前还包括:
采用梯度下降法迭代优化求解D,α,θ,初始时采用随机高斯矩阵生成字典D,以及一个初始的鉴别分类参数θ,所述迭代优化具体为:
采用已有的D、θ,按照建立的基于核的非线性可鉴别稀疏表示准则求解出有标签情感特征X的稀疏编码α;
若更新基于核的非线性可鉴别稀疏表示中的D、θ问题是非凸的,分别建立稀疏表示约束方程关于D、θ的偏微分方程,采用梯度下降法来求解更新稀疏表示字典D和鉴别分类参数θ,继续迭代直至收敛;
若更新基于核的非线性可鉴别稀疏表示中的D、θ问题是凸的,更新稀疏表示字典D和核鉴别参数θ。
6.根据权利要求5所述的方法,其特征在于,所述迭代优化采用Alternating DirectionMethod of Multipliers算法,具体为:
min D , θ , α ( Σ j = 1 g Σ i = 1 n j ( C ( f ( α , θ ) , y i ) + λ 0 | | x i - D α i | | 2 2 + λ 1 | | β i | | 1 + λ 2 | | β Gj | | 2 ) + λ 3 | | θ | | 2 2 ) ,
其中βi,βGi表示αiGj经过迭代后得到的中间值。
7.根据权利要求1所述的方法,其特征在于,所述步骤S4包括:
采用模糊推理规则,建立基于情感上下文信息的情感推理模型
建立语音通道、表情通道、姿态通道,对语音通道、表情通道、姿态通道以及所有通道的结合分别建立情感分类代理;
采用基于动态邻域置信度的情感分类代理分类性能评估方法,采用结合情感上下文推理分析结果的分类置信度敏感的分类代理协商算法对情感信息进行分析和识别。
CN201210512385.0A 2012-12-04 2012-12-04 基于情感上下文的视觉语音多模态协同分析方法 Active CN103123619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210512385.0A CN103123619B (zh) 2012-12-04 2012-12-04 基于情感上下文的视觉语音多模态协同分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210512385.0A CN103123619B (zh) 2012-12-04 2012-12-04 基于情感上下文的视觉语音多模态协同分析方法

Publications (2)

Publication Number Publication Date
CN103123619A CN103123619A (zh) 2013-05-29
CN103123619B true CN103123619B (zh) 2015-10-28

Family

ID=48454599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210512385.0A Active CN103123619B (zh) 2012-12-04 2012-12-04 基于情感上下文的视觉语音多模态协同分析方法

Country Status (1)

Country Link
CN (1) CN103123619B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9412373B2 (en) * 2013-08-28 2016-08-09 Texas Instruments Incorporated Adaptive environmental context sample and update for comparing speech recognition
CN103617263A (zh) * 2013-11-29 2014-03-05 安徽大学 一种基于多模态特征的电视广告片花自动检测方法
CN104102627B (zh) * 2014-07-11 2016-10-26 合肥工业大学 一种多模态的非接触情感分析记录系统
CN105046238A (zh) * 2015-08-17 2015-11-11 华侨大学 一种面部表情机器人多通道信息情感表达映射方法
CN105913039B (zh) * 2016-04-26 2020-08-18 北京光年无限科技有限公司 基于视觉和语音的对话数据交互处理方法及装置
CN105957517A (zh) * 2016-04-29 2016-09-21 中国南方电网有限责任公司电网技术研究中心 基于开源api的语音数据结构化转换方法及其系统
CN106295568B (zh) * 2016-08-11 2019-10-18 上海电力学院 基于表情和行为双模态结合的人类自然状态情感识别方法
CN106503646B (zh) * 2016-10-19 2020-07-10 竹间智能科技(上海)有限公司 多模态情感辨识系统及方法
CN106803098A (zh) * 2016-12-28 2017-06-06 南京邮电大学 一种基于语音、表情与姿态的三模态情感识别方法
CN106991172B (zh) * 2017-04-05 2020-04-28 安徽建筑大学 一种多模态情感交互数据库的建立方法
CN108229540B (zh) * 2017-12-08 2020-08-11 中国科学院自动化研究所 类脑多模态融合方法及装置
CN108536735B (zh) * 2018-03-05 2020-12-15 中国科学院自动化研究所 基于多通道自编码器的多模态词汇表示方法与系统
CN109461188B (zh) * 2019-01-30 2019-04-26 南京邮电大学 一种二维x射线头影测量图像解剖特征点自动定位方法
CN109872728A (zh) * 2019-02-27 2019-06-11 南京邮电大学 基于核典型相关分析的语音和姿态双模态情感识别方法
CN110234018B (zh) * 2019-07-09 2022-05-31 腾讯科技(深圳)有限公司 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN111832651B (zh) * 2020-07-14 2023-04-07 清华大学 视频多模态情感推理方法和装置
CN112346870B (zh) * 2020-11-18 2024-04-16 脸萌有限公司 模型处理方法及系统
CN115496077B (zh) * 2022-11-18 2023-04-18 之江实验室 一种基于模态观察和评分的多模态情感分析方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102188819A (zh) * 2010-03-11 2011-09-21 鼎亿数码科技(上海)有限公司 电子游戏控制装置及方法
CN102354349A (zh) * 2011-10-26 2012-02-15 华中师范大学 提高孤独症儿童社会互动能力的人机互动多模态早期干预系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102188819A (zh) * 2010-03-11 2011-09-21 鼎亿数码科技(上海)有限公司 电子游戏控制装置及方法
CN102354349A (zh) * 2011-10-26 2012-02-15 华中师范大学 提高孤独症儿童社会互动能力的人机互动多模态早期干预系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A survey of Affect Recognition Methods:Audio,Visual,and Spontaneous Expressions;Zhihong Zeng et al.;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20090131;第31卷(第1期);39-54页 *
Speech Emotion Analysis:Exploring the Role of Context;Ashish Tawari et al.;《IEEE TRANSACTIONS ON MULTIMEDIA》;20101031;第12卷(第6期);503页第II部分第3-5段 *

Also Published As

Publication number Publication date
CN103123619A (zh) 2013-05-29

Similar Documents

Publication Publication Date Title
CN103123619B (zh) 基于情感上下文的视觉语音多模态协同分析方法
Hu et al. Video facial emotion recognition based on local enhanced motion history image and CNN-CTSLSTM networks
Zhu et al. Temporal cross-layer correlation mining for action recognition
Mai et al. Locally confined modality fusion network with a global perspective for multimodal human affective computing
Chen et al. K-means clustering-based kernel canonical correlation analysis for multimodal emotion recognition in human–robot interaction
Chen et al. A fuzzy deep neural network with sparse autoencoder for emotional intention understanding in human–robot interaction
CN107609572A (zh) 基于神经网络和迁移学习的多模态情感识别方法、系统
Sun et al. Affect recognition from facial movements and body gestures by hierarchical deep spatio-temporal features and fusion strategy
de Almeida Freitas et al. Grammatical facial expressions recognition with machine learning
Datcu et al. Emotion recognition using bimodal data fusion
Yan et al. Cross-domain facial expression recognition based on transductive deep transfer learning
Rao et al. Recognition of emotions from video using neural network models
Liu et al. Speech emotion recognition based on convolutional neural network with attention-based bidirectional long short-term memory network and multi-task learning
Li et al. Emotion recognition of Chinese paintings at the thirteenth national exhibition of fines arts in China based on advanced affective computing
Radoi et al. An end-to-end emotion recognition framework based on temporal aggregation of multimodal information
Liu Artificial intelligence interactive design system based on digital multimedia technology
Liu et al. Multimodal emotion recognition based on cascaded multichannel and hierarchical fusion
Swain et al. Multilevel feature representation for hybrid transformers-based emotion recognition
Atkar et al. Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier
Shah et al. Articulation constrained learning with application to speech emotion recognition
Zheng et al. Emotion recognition model based on multimodal decision fusion
Pérez et al. Identification of multimodal signals for emotion recognition in the context of human-robot interaction
Li Research on neural network algorithm in artificial intelligence recognition
Shahzad et al. A multi-modal deep learning approach for emotion recognition
Li et al. Cross-people mobile-phone based airwriting character recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant