CN104200804B - 一种面向人机交互的多类信息耦合的情感识别方法 - Google Patents

一种面向人机交互的多类信息耦合的情感识别方法 Download PDF

Info

Publication number
CN104200804B
CN104200804B CN201410482861.8A CN201410482861A CN104200804B CN 104200804 B CN104200804 B CN 104200804B CN 201410482861 A CN201410482861 A CN 201410482861A CN 104200804 B CN104200804 B CN 104200804B
Authority
CN
China
Prior art keywords
words
word
information
text
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410482861.8A
Other languages
English (en)
Other versions
CN104200804A (zh
Inventor
孙晓
陈炜亮
李承程
任福继
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Xinfa Technology Co ltd
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201410482861.8A priority Critical patent/CN104200804B/zh
Publication of CN104200804A publication Critical patent/CN104200804A/zh
Application granted granted Critical
Publication of CN104200804B publication Critical patent/CN104200804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的多类信息耦合的情感识别方法,其特征是按如下步骤进行:1获取人脸表情的视频数据以及语音数据;2对文本内容进行文本特征提取,获得文本信息特征;3提取语音数据的韵律学特征和整体语音特征并进行耦合,获得语音信息特征;3对视频数据进行进行图像特征提取,获得表情信息特征;4对文本信息特征、语音信息特征和表情信息特征进行耦合,获得综合信息特征;5利用深度学习方法对综合信息特征进行数据优化,并利用分类器对优化的综合信息特征进行训练,获得情感识别模型,以情感识别模型实现对多类信息耦合的情感识别。本发明能全面结合文本、语音和视频三个方面的数据信息,从而提高人机交互中的情感状态判断的准确度。

Description

一种面向人机交互的多类信息耦合的情感识别方法
技术领域
本发明属于自然语言处理技术与情感计算领域,具体地说,是一种深度学习的人机交互多信息情感分析方法。
背景技术
情感计算指的是让机器能够有识别理解人类情感的能力。人类表达情感中使用的文本,语音和图像等信息形式中都蕴含着能够代表情感的特征值。通过提取这些特征值,使用机器学习方法,让机器去自己学习特征值中蕴含的情感信息,即让机器能够懂得人类情感。
当前存在的识别方法主要有:单独对文本识别的方法,大多使用了TF-IDF等模型对文本进行情感识别,大多需要对文本进行预处理,同时在多语种和多分类识别中正确率较低;单独对语音识别的方法,多只使用韵律学特征或基于频谱的整体特征,韵律学特征中蕴含强烈情感的特征值较难提取并且受到噪音影响较大,而基于频谱的特征在一些单独反映强烈情感部分的表现较差;在结合多信息识别领域,大多是文本与语音,语音和视频两两结合,没有考虑到人际交互是一个三种信息共同传递交互的过程;因此,仅仅分析其中一两点特征是无法全面的表述人类会话中的情感传递,导致了情感分析不够准确;在特征模型的训练方面,使用一般机器学习的方法,面对大维度大数量级的数据,训练和预测存在着困难。
发明内容
本发明是为了克服现有技术存在的不足之处,提出一种基于深度学习的面向人机交互的多类信息耦合的情感识别方法,能全面结合文本、语音和视频三个方面的数据信息,从而提高人机交互中的情感状态判断的准确度。
本发明为解决技术问题采取如下技术方案:
本发明一种基于深度学习的多类信息耦合的情感识别方法,其特点是按如下步骤进行:
步骤1:利用摄像头装置和麦克风同步获取人脸表情的视频数据以及语音数据,并对所述视频数据进行情感分类;
步骤2:通过语音识别工具对所获得的语音数据进行语音识别,获得与所述语音数据对应的文本内容;
步骤3:利用N-gram算法对所述文本内容进行文本特征提取,获得第一信息特征,即文本信息特征;
步骤4:利用分词工具对所述文本内容进行分词,获得分词结果;利用情感词典找到分词结果中包含的情感词并标记为情感特征词;
步骤5:利用梅尔频率倒谱系数对所述语音数据进行语音特征提取,获得整体语音特征;
步骤6:根据所述分词结果对所述语音数据进行端点检测,获得语音段;
步骤7:提取所述语音段的韵律学特征,所述韵律学特征包括语速、振幅特征、基音周期和共振峰;
步骤8:将所述韵律学特征和整体语音特征进行耦合,获得第二信息特征,即语音信息特征;
步骤9:根据所述语音段对所述视频数据进行划分,获得图像集;并对所述图像集进行图像特征提取,获得第三信息特征,即表情信息特征;
步骤10:对所述本信息特征、语音信息特征和表情信息特征进行耦合,获得综合信息特征;
步骤11:利用深度学习方法对所述综合信息特征进行数据优化,获得优化的综合信息特征;
步骤12:利用分类器对所述优化的综合信息特征进行训练,获得情感识别模型,以所述情感识别模型实现对多类信息耦合的情感识别。
本发明基于深度学习的多类信息耦合的情感识别方法的特点也在于:
所述步骤3是按如下步骤进行:
步骤3.1、选取两个字作为词w的长度l,即l=2,记为两字词w2
步骤3.2、利用式(1)获得在所述文本内容中任意一个两字词的共现概率p(w2),从而获得所有两字词的共现概率:
式(1)中,表示所述两字词w2中的第1个字;表示所述两字词w2中的第2个字;
步骤3.3、按照每个两字词在所述文本内容中的顺序,将所有两字词的共现概率依次排序并存入信息特征向量VT1中;
步骤3.4、选取三个字作为词w的长度l,即l=3,记为三字词w3
步骤3.5、利用式(2)获得在所述文本内容中任意一个三字词的共现概率p(w3),从而获得所有三字词的共现概率:
式(2)中,表示所述三字词w3中的第1个字;表示所述三字词w3中的第2个字;表示所述三字词w3中的第3个字;
步骤3.6、按照每个三字词在所述文本内容中的顺序,将所有三字词的共现概率依次排序并存入信息特征向量VT2中;
步骤3.7、选取四个字作为词w的长度l,即l=4,记为四字词w4
步骤3.8、利用式(3)获得在所述文本内容中任意一个四字词的共现概率p(w4),从而获得所有四字词的共现概率:
式(3)中,表示所述四字词w4中的第1个字;表示所述四字词w4中的第2个字;表示所述四字词w4中的第3个字;表示所述四字词w4中的第4个字;
步骤3.8、按照每个四字词在所述文本内容中的顺序,将所有四字词的共现概率依次排序并存入信息特征向量VT3中;
步骤39、利用式(4)获得第一信息特征VT
VT=VT1+VT2+VT3 (4)。
所述步骤4是按如下步骤进行:
步骤4.1、利用分词工具对所述文本内容进行分词,获得分词结果;所述分词结果为依次排序的词语,将所述分词结果存入本地语音词典库;
步骤4.2、利用情感词典找到分词结果中包含的情感词并标记为情感特征词;对所述情感特征词进行情感标注,获得相应的情感种类并将所述情感特征词和相应的情感种类存入本地语音词典库。
所述步骤5是按如下步骤进行:
步骤5.1、利用高通滤波器对所述语音数据进行预处理,获得平滑的语音信号;
步骤5.2、对所述平滑的语音数据取N个采样点为一帧进行分帧处理,获得分帧后的语音信号S(n);
步骤5.3、利用式(3)所示的加窗函数W(n),通过式(2)对所述分帧后的语音信号S(n)进行加窗处理,获得加窗后的语音信号S′(n);
S′(n)=S(n)+W(n) (2)
式(3)中,a为调整系数,a∈(0,1);
步骤5.4、利用式(4)对所述加窗后的语音信号S′(n)进行快速傅里叶变换,获得倒谱的语音信号Xa(K):
步骤5.5、利用梅尔滤波器组对所述倒谱的语音信号Xa(K)进行滤波,获得加卷的语音信号;
步骤5.6、利用离散余弦变换对所述加卷的语音信号进行解卷,获得静态的梅尔频率倒谱参数SMFCC;
步骤5.7、对所述静态的梅尔频率倒谱参数进行动态差分计算,获得一阶差分的梅尔频率倒谱参数d1MFCC;
步骤5.8、对所述一阶差分的梅尔频率倒谱参数进行动态差分计算,获得二阶差分的梅尔频率倒谱参数d2MFCC;
步骤5.7、利用式(5)对所述静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合,获得整体语音特征MFCC:
所述步骤6是利用双门限端点检测算法,对所述语音数据进行划分,删除语音中的静音和噪音部分,获得语音片段并标记出所述语音片段的起始帧与结束帧,从而获得语音段。
所述步骤9是按如下步骤进行:
步骤9.1、对所述视频数据进行分帧处理,获得逐帧的图像序列;
步骤9.2、利用所述语音片段的起始帧与结束帧对所述图像序列进行划分,获得与所述语音片段相对应的图像序列的起始帧与结束帧,从而获得图象集;
步骤9.3、利用人脸检测方法获得人脸表情的i个特征定位点,利用所述特征定位点对所述图像集中的每一帧图像进行定位,获得每一帧图像中的定位点,从而获得定位点集合Vi=(Vi1,Vi2,…,V);ω表示图象集中的帧数;
步骤9.4、利用式(6)获得所述图象集的任意个定位点的方差从而获得定位点集合中所有定位点的方差:
以所述定位点Vi和定位点集合中所有定位点的方差作为第三类信息特征。
所述深度学习方法是将所述综合信息特征作为RBM模型的输入值,经过RBM模型优化后的输出值再次作为RBM模型的输入值,直到所述综合信息特征的数量级满足分类器的处理能力为止,以最后的输出值作为优化后的综合信息特征。
与现有技术相比,本发明的有益效果体现在:
1、本发明在文本情感识别上,使用N-gram算法对文本内容进行第一信息特征提取,即文本信息特征提取。N-gram算法具有语种无关性,能够处理中英简繁等等文本,同时不需要对文本进行预处理,对拼写错误的容错能力较强,无需提供另外的去词词典和规则。并且使用N-gram算法提取的文本特征值,针对单个词提取整个文本的特征值,能够很好反映整个文本的情感倾向,在多分类识别中也能得到很好的结果。
2、本发明在语音情感识别上,使用梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients,简称MFCC)作为整体语音特征同时结合语音的韵律学特征作为第二信息特征,即语音信息特征。根据人耳听觉机理的研究发现,这种MFCC是基于谱的语音特征,不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比其他语音特征(例如基于声道模型的LPCC)相比具有更好的鲁邦性,而且当信噪比降低时仍然具有较好的识别性能。同时基于谱的特征和韵律学特征相结合,能够弥补两者各自的不足,全面反映语音情感特性。
3、本发明使用文本信息特征,语音信息特征和表情信息特征三者结合作为综合信息特征来识别一个视频信息的情感特性。文本,语音和表情三者结合能够很好考虑到人际交互过程中情感的表达方式,弥补针对单独一者或者两者结合在情感识别实际运用中的缺点,能够全面反映出人类在交互过程中表现出的情感趋势和变迁,能够让机器学习到更好的情感经验。
4、本发明使用深度学习的方法对情感特征值进行优化。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。比起一般的机器学习方法,不仅能够对情感特征值进行很好的优化降维处理,同时能够获得情感特征更高的情感特征值。
具体实施方式
本实施例中,一种基于深度学习的面向人机交互的多(类)信息耦合的情感识别方法,包括如下步骤:
步骤1、利用摄像头装置和麦克风同步获取人脸表情的视频数据以及语音数据,视频数据要求是对说话者脸部进行拍摄;对收集到的视频进行情感分类;具体的分为生气(angry),恐惧(fear),高兴(happy),中立(neutral),悲伤(sad)和惊喜(surprise)这六类情感,并分别用1、2、3、4、5、6表示。每个视频的综合情感特征可以用一个四元组Y表示。
Y=(E,VT,VS,Vi) (1)
式(1)中,E代表本视频的情感分类,VT表示第一信息特征即文本信息特征(TextFeature),VS表示第二信息特征即语音信息特征(Voice Feature),Vi表示第三信息特征即表情信息特征(Image Feathre)。
步骤2、通过语音识别工具对所获得的语音数据进行语音识别,获得与语音数据对应的文本内容;本实施例中,使用讯飞语音识别工具包作为语音识别工具,得到结果为一段连续的,与语音数据匹配的文本数据。
步骤3、利用N-gram算法对文本内容进行文本特征提取,获得第一信息特征,即文本信息特征;利用特定长度的N-gram算法取多种长度的特征词并记录其共现频度,将共现频度按位存入第一类信息特征向量中。
本实施例中,常用表达词语的都为在四字以及四字以下的词汇,因此取两字词、三字词和四字词,具体的步骤如下:
步骤3.1、选取两个字作为词w的长度l,即单个字的个数l=2,记为两字词w2
步骤3.2、利用式(1)获得在文本内容中任意一个两字词的共现概率p(w2),从而获得所有两字词的共现概率:
式(1)中,表示两字词w2中的第1个字;表示两字词w2中的第2个字;并有:
式(2)中,表征为在单个字都出现的情况下,出现的概率。表示为词出现次数。
步骤3.3、按照每个两字词在文本内容中的顺序,将所有两字词的共现概率依次排序并存入信息特征向量VT1中;
步骤3.4、选取三个字作为词w的长度l,即l=3,记为三字词w3
步骤3.5、利用式(3)获得在文本内容中任意一个三字词的共现概率p(w3),从而获得所有三字词的共现概率:
式(3)中,表示三字词w3中的第1个字;表示三字词w3中的第2个字;表示三字词w3中的第3个字;
步骤3.6、按照每个三字词在文本内容中的顺序,将所有三字词的共现概率依次排序并存入信息特征向量VT2中;
步骤3.7、选取四个字作为词w的长度l,即l=4,记为四字词w4
步骤3.8、利用式(4)获得在文本内容中任意一个四字词的共现概率p(w4),从而获得所有四字词的共现概率:
式(4)中,表示四字词w4中的第1个字;表示四字词w4中的第2个字;表示四字词w4中的第3个字;表示四字词w4中的第4个字;
步骤3.8、按照每个四字词在文本内容中的顺序,将所有四字词的共现概率依次排序并存入信息特征向量VT3中;
步骤3.9、利用式(5)获得第一信息特征VT
VT=VT1+VT2+VT3 (5)
步骤4、利用分词工具对文本内容进行分词,获得分词结果;并根据分词结果对语音数据进行端点检测,获得语音段;
步骤4.1、利用分词工具对文本内容进行分词,获得分词结果;分词结果为依次排序的词语,将分词结果存入本地语音词典库;将词按照顺序存入本地语音词典库。本实施例中,使用中科院ICTCLAS分词工具进行分词,例如:对文本内容“上班真是非常累”,得到分词结果为“上班真是非常累”。本地语音词典库包括语音词以及对应词的音频。从语音词典库中提取出分词结果中所有词的音频;
步骤4.2、利用情感词典找到分词结果中包含的情感词并标记为情感特征词;对情感特征词进行情感标注,例如,对表示生气(angry)的词标记上情感标注1,对表示恐惧(fear)的词标记上情感标注2;获得相应的情感种类并将情感特征词和相应的情感种类存入本地语音词典库。将一个词用(词,标记)的数据格式存入语音词典库。
步骤5:利用梅尔频率倒谱系数对语音数据进行语音特征提取,获得整体语音特征;
本实施例中,使用梅尔倒谱系数(mfcc)作为整体语音特征。梅尔倒谱系数实在Mel标度频率域提取出来的倒谱参数,与频率f的关系可以表示式(6):
步骤5.1、利用式(7)所示的一阶激励响应高通滤波器对语音数据进行预处理,可以平缓语音信号中过于起伏的部分,获得平滑的语音信号:
H(S)=1-μS-1 (7)
本实施例中,μ=0.97;
步骤5.2、对平滑的语音数据取N个采样点为一帧进行分帧处理,获得分帧后的语音信号S(n);分帧处理的参数选择与语音信号的采样频率有关,本文取采样频率为8000Hz,一般人类语音信号在10-20ms为稳定的,故取10-20ms为一帧,设置帧长N为256,即隔256个采样点取一帧。分帧后信号为S(n)。为了避免窗边界对信号的遗漏,一般取帧长的一半作为帧移,即每次位移一帧的二分之一长度后再取下一帧,这样可以避免帧与帧之间的特性变化太大。
步骤5.3、对分帧后的语音信号利用式(8)和式(9)进行加窗处理,通过式(9)的海明窗进行加窗之后,能够减少语音信号吉布斯效应的影响,从而获得加窗后的语音信号S′(n):
S′(n)=S(n)+W(n) (8)
式(3)中,a为调整系数,a∈(0,1);本实施例中,a的取值为0.46;
步骤5.4、利用式(10)对加窗后的语音信号S′(n)进行快速傅里叶变换,获得倒谱的语音信号Xa(K):
步骤5.5、利用梅尔滤波器组对倒谱的语音信号Xa(K)进行滤波,获得加卷的语音信号;
Mel滤波器组实质上是满足式(11)的一组三角滤波器:
Mel[f(m)]-Mel[f(m-1)]=Mel[f(m+1)]-Mel[f(m-1)] (11)
式(11)中,f(m)为三角滤波器的中心频率,各f(m)之间的间隔随着m值减小而缩小,随着m值的增大而增宽。定义一个具有24个滤波器的滤波器组,因为每一个三角滤波器的覆盖范围都近似于人耳的一个临界带宽,因此可以来模拟人耳的掩蔽效应。24个滤波器形成满足式(12)的滤波器组,通过这个Mel滤波器组可以得到经过滤波后的Mel频率信号:
步骤5.6、利用离散余弦变换对加卷的语音信号进行解卷,获得静态的梅尔频率倒谱参数SMFCC;将步骤4.5中得到的信号H(k)通过式(13)进行离散余弦变换(DFT),得到需要的静态mfcc参数SMFCC:
L为mfcc的系数阶数,本实施例中L取值为12。
步骤5.7、利用式(14)对静态的梅尔频率倒谱参数进行动态差分,获得一阶差分的梅尔频率倒谱参数;
式(14)中,dt表示第t个一阶差分,St表示第t个倒谱系数,p表示倒谱系数的阶数,k表示一阶导数的时间差,k取值为1。
步骤5.8、对一阶差分的梅尔频率倒谱参数进行动态差分计算,获得二阶差分的梅尔频率倒谱参数d2MFCC,即将步骤5.7中得到的一阶差分参数带入式(14)得到二阶差分参数。
步骤5.9、利用式(15)对静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合,获得整体语音特征MFCC。
步骤6、根据分词结果利用双门限端点检测算法对语音数据进行端点检测,对语音数据进行划分,删除语音中的静音和噪音部分,获得语音片段并标记出语音片段的起始帧与结束帧,从而获得语音段;具体分为:
步骤6.1、从语音数据中提取包含语音的部分;
步骤6.2、利用双门限端点检测算法,标记出语音片段的起点与终点。
设置过零率低门限阈值,过零率高门限阈值,短时能量低门限阈值和短时能量高门限阈值。将语音数据输入,按帧检测,计算每一帧过零率和短时能量,如果过零率或者短时能量超过了低门限阈值,则将该帧标记为语音段起点,若之后连续几帧的过零率与短时能量都没有超过低门限阈值,则取消语音段起点标记。同时若这连续几帧中连续超过过零率或短时能量过零率或短时能量低门限阈值的时间过短,也取消语音段起始点标记点,否则将连续帧结束帧位置标记为语音段终点。继续同样的方法扫描剩余的语音数据,若检测到为语音数据结束位置,将结束位置标记为语音段终点。经过端点检测算法后可以得到去除静音、高频杂音等噪音,划分完的语音段;
步骤6.3、将所有语音片段拼接为待对准语音段,将语音段按顺序存入本地语音词典库;
步骤6.4、使用情感词典对分词结果进行查询,查询到的词标记为情感特征词,对情感特征词进行情感标注,将情感词存入本地语音词典库。本发明中使用情感词典为知网公开情感词典,其中包括情感词以及其情感值。根据情感词典查询得到的分词结果中的情感词,对情感词进行标注,并标记为情感特征词。
步骤6.5、对步骤4中的文本分词结果进行按顺序逐词扫描,从本地语音词典库调出与词对应的单词音频,并标明每个词的起始帧数和结束帧数;
步骤7、提取语音段的韵律学特征,韵律学特征包括语速、振幅特征、基音周期和共振峰;
步骤7.1、对步骤6.2中得到的音频片段计算音频段的持续时间t,同再根据语音本地语音词典库中文本内容的分词结果计算字数Z,利用式(16)得到音频的语速s:
s=Z÷t (16)
步骤7.2、对步骤6中划分的音频段,通过式(17)所示的短时平均幅度函数来衡量音频段的振幅,提取当能量超过阀值的振幅值的平均值作为每一个音频段的振幅特征An,式(17)中x(n)为输入语音段。
式(17)中,W(n)为加窗运算,可以使用矩形窗,也可使用汉明窗。
步骤7.3、使用短时自相关法对步骤5中得到的音频段进行基因周期的估值,提取音频段的基音周期P。
步骤7.3.1、对步骤6.2中得到的每一个语音片段通过式(18)消波函数进行中心消波处理,突出音频段中关于基音周期的信息,得到消波后的音频信号f(x):
式(18)中,xα为削波电平,xα取每帧语音最大幅度的60%。
步骤7.3.2、利用中值平滑处理方法对消波后的音频信号f(x)进行平滑中值处理,把音频信号f(x)通过中值滤波器,采用一个滑动窗口,将窗口中心移动到样点,在样点左右各取M个样点,将这些样点从大到小列,得到中值x,即中值平滑处理后的样点。在实施例中,M取值为5。
步骤7.3.3、计算步骤7.3.2得到的信号x(n)相邻中值峰值之间的距离,即得到音频段的基音周期P。
步骤7.4、使用基于LPC的方法求出步骤6.2中得到音频片段的共振峰R。
步骤7.4.1、利用在LPC模型,将步骤6.2中得到的音频片段用式(19)的函数形式来表示:
式(19)中,u(n)为激励函数,G为增益参数,β为LPC参数;γ表示极点个数。
步骤7.4.2:由式(20)得到相应的数字滤波器传递函数g(n):
同时式(20)也可以表示为式(21)所示的γ个极点的级联形式:
式(21)中,nβ是g(n)在n-平面上的第β个极点,g(n)的所有极点都在z平面的单位圆内。则第β个共振峰的频率和带宽分别为θβ/2πT和ln(rβ)/πT。
步骤7.4.2、对步骤7.4.1得到的信号g(n)进行求根,判断得到共振峰R。
步骤8、将韵律学特征和整体语音特征进行耦合,获得第二信息特征,即语音信息特征;
将步骤5中得到24维语音特征MFCC,以及步骤7中得到的4个韵律学参数——语速s、振幅特征An、周期P和共振峰R结合得到一个27维的特征,即第二类信息特征。
步骤9、根据语音段对视频数据进行划分,获得图像集;并对图像集进行图像特征提取,获得第三信息特征,即图像信息特征;
步骤9.1、对视频数据进行分帧,得到逐帧的图像序列;由步骤6.5得到每个词的起始帧数和结束帧数,得到情感特征词的起始帧数和结束帧数,对每个情感特征词对应的视频数据进行第三信息特征提取。
步骤9.2、利用步骤4和步骤6中得到的分词结果和标记的每个词的起始帧数和结束帧数,查找每个情感特征词对应图像序列的起始帧数和结束帧数,得到图像集;
步骤9.3、针对对应的图像帧序列进行人脸检测,对图像帧序列预处理:尺寸归一化,去噪以及灰度均衡;利用人脸检测方法获得人脸表情的i个特征定位点,利用特征定位点对图像集中的每一帧图像进行定位,获得每一帧图像中的定位点,从而获得定位点集合Vi=(Vi1,Vi2,…,V);ω表示图象序列中的帧数;
步骤9.4、利用式(22)获得图象集的任意个定位点的方差从而获得定位点集合中所有定位点的方差:
式(22)中,Vij表示第j帧图像的第i个定位点位置;方差表征第i个定位点位置变化幅度;为所有点位点方差的集合;以定位点Vi和定位点集合中所有定位点的方差作为第三类信息特征。
步骤10、对本信息特征、语音信息特征和图像信息特征进行耦合,获得综合信息特征;
步骤10.1、将获得的第一信息特征,第二信息特征,第三信息特征,加权链接,获得综合信息特征。本发明中使用耦合方法为加权链接,同时也有矩阵加权相加,通过函数变换耦合等等方法。
步骤10.2、利用式(1)情感类别标注E对步骤10.1中得到的综合信息特征进行标注,得到标注完成的综合信息特征Y。
步骤11:利用深度学习方法对综合信息特征进行数据优化,获得优化的综合信息特征;
深度学习方法是将综合信息特征作为RBM模型的输入值,经过RBM模型优化后的输出值再次作为RBM模型的输入值,直到综合信息特征的数量级满足分类器的处理能力为止,以最后的输出值作为优化后的综合信息特征。从而由多层RBM模型构建出DBM模型。
具体的,本实施例中,采用3层RBM对特征向量进行优化,采用CD算法对每一层RBM进行训练,每层迭代次数设定为100次,3层RBM的节点数目分别为5000,4000,2000。即将综合信息特征向量作为第一层RBM的输入,第一层RBM的输出作为第二层RBM的输入。以此推论,第三层RBM输出即为优化后的综合信息特征。
步骤12、利用分类器对优化的综合信息特征进行训练,获得情感识别模型;
步骤12.1、使用格式转换算法将步骤10中得到的优化后的综合信息特征转换为分类能够处理的形式,得到转换完成的综合信息特征。本发明中使用分类器为Libsvm分类器,分类器所使用的核函数为RBF核函数。
步骤12.2、利用v-折交叉验证以及网络搜索的方法,输入综合信息特征,获得RBF核函数的参数c和的最佳值ρ。v-折交叉验证的做法是先将数据集合划分同样大小的v个集合。将其中的一个集合作为未知的,称为测试集,其他v-1子集作已知的训练集,从“未知”测试集上获得预测准确率可以更精确地反映出分类器在独立数据集合上的效果网络搜索易于实现,并且所花费的时间并没有多出多少。通过设置实数对(c,ρ)的初值,在预测测试集时不断试验不同的实数对(c=2-5,2-3,2-1,21,23…,215,…;ρ=2-15,2-13,2-11,…,23,…),最终能够确定一个实数对(c,ρ)能够给RBF核提供最好的参数。
步骤12.3、利用步骤11.2中获得的最佳参数对和Libsvm对优化的综合信息特征进行训练,得到模型。
步骤13、利用情感识别模型对待识别的人脸表情的视频数据以及语音数据进行多类信息情感识别;
步骤13.1、利用步骤2~10计算预测的人脸表情数据的综合信息特征,获得综合信息特征值。
步骤13.2、利用步骤11中获得的模型,预测综合信息特征值,从而获得待测试人脸表情视频数据的情感种类。

Claims (7)

1.一种基于深度学习的多类信息耦合的情感识别方法,其特征是按如下步骤进行:
步骤1:利用摄像头装置和麦克风同步获取人脸表情的视频数据以及语音数据,并对所述视频数据进行情感分类;
步骤2:通过语音识别工具对所获得的语音数据进行语音识别,获得与所述语音数据对应的文本内容;
步骤3:利用N-gram算法对所述文本内容进行文本特征提取,获得第一信息特征,即文本信息特征;
步骤4:利用分词工具对所述文本内容进行分词,获得分词结果;利用情感词典找到分词结果中包含的情感词并标记为情感特征词;
步骤5:利用梅尔频率倒谱系数对所述语音数据进行语音特征提取,获得整体语音特征;
步骤6:根据所述分词结果对所述语音数据进行端点检测,获得语音段;
步骤7:提取所述语音段的韵律学特征,所述韵律学特征包括语速、振幅特征、基音周期和共振峰;
步骤8:将所述韵律学特征和整体语音特征进行耦合,获得第二信息特征,即语音信息特征;
步骤9:根据所述语音段对所述视频数据进行划分,获得图像集;并对所述图像集进行图像特征提取,获得第三信息特征,即表情信息特征;
步骤10:对所述本信息特征、语音信息特征和表情信息特征进行耦合,获得综合信息特征;
步骤11:利用深度学习方法对所述综合信息特征进行数据优化,获得优化的综合信息特征;
步骤12:利用分类器对所述优化的综合信息特征进行训练,获得情感识别模型,以所述情感识别模型实现对多类信息耦合的情感识别。
2.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法,其特征是:所述步骤3是按如下步骤进行:
步骤3.1、选取两个字作为词w的长度l,即l=2,记为两字词w2
步骤3.2、利用式(1)获得在所述文本内容中任意一个两字词的共现概率p(w2),从而获得所有两字词的共现概率:
P ( w 2 ) = P ( C 1 2 C 2 2 ) = P ( C 1 2 ) P ( C 2 2 | C 1 2 ) - - - ( 1 )
式(1)中,表示所述两字词w2中的第1个字;表示所述两字词w2中的第2个字;
步骤3.3、按照每个两字词在所述文本内容中的顺序,将所有两字词的共现概率依次排序并存入信息特征向量VT1中;
步骤3.4、选取三个字作为词w的长度l,即l=3,记为三字词w3
步骤3.5、利用式(2)获得在所述文本内容中任意一个三字词的共现概率p(w3),从而获得所有三字词的共现概率:
P ( w 3 ) = P ( C 1 3 C 2 3 C 3 3 ) = P ( C 1 3 ) P ( C 2 3 | C 1 3 ) P ( C 3 3 | C 1 3 C 2 3 ) - - - ( 2 )
式(2)中,表示所述三字词w3中的第1个字;表示所述三字词w3中的第2个字;表示所述三字词w3中的第3个字;
步骤3.6、按照每个三字词在所述文本内容中的顺序,将所有三字词的共现概率依次排序并存入信息特征向量VT2中;
步骤3.7、选取四个字作为词w的长度l,即l=4,记为四字词w4
步骤3.8、利用式(3)获得在所述文本内容中任意一个四字词的共现概率p(w4),从而获得所有四字词的共现概率:
P ( w 4 ) = P ( C 1 4 C 2 4 C 3 4 C 4 4 ) = P ( C 1 4 ) P ( C 2 4 | C 1 4 ) P ( C 3 4 | C 1 4 C 2 4 ) P ( C 4 4 | C 1 4 C 2 4 C 3 4 ) - - - ( 3 )
式(3)中,表示所述四字词w4中的第1个字;表示所述四字词w4中的第2个字;表示所述四字词w4中的第3个字;表示所述四字词w4中的第4个字;
步骤3.8、按照每个四字词在所述文本内容中的顺序,将所有四字词的共现概率依次排序并存入信息特征向量VT3中;
步骤3.9、利用式(4)获得第一信息特征VT
VT=VT1+VT2+VT3 (4)。
3.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法,其特征是:所述步骤4是按如下步骤进行:
步骤4.1、利用分词工具对所述文本内容进行分词,获得分词结果;所述分词结果为依次排序的词语,将所述分词结果存入本地语音词典库;
步骤4.2、利用情感词典找到分词结果中包含的情感词并标记为情感特征词;对所述情感特征词进行情感标注,获得相应的情感种类并将所述情感特征词和相应的情感种类存入本地语音词典库。
4.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法,其特征是:所述步骤5是按如下步骤进行:
步骤5.1、利用高通滤波器对所述语音数据进行预处理,获得平滑的语音信号;
步骤5.2、对所述平滑的语音数据取N个采样点为一帧进行分帧处理,获得分帧后的语音信号S(n);
步骤5.3、利用式(3)所示的加窗函数W(n),通过式(2)对所述分帧后的语音信号S(n)进行加窗处理,获得加窗后的语音信号S′(n);
S′(n)=S(n)+W(n) (2)
w ( n ) = ( 1 - a ) - a × cos ( 2 πn N - 1 ) , 0 ≤ n ≤ N - 1 - - - ( 3 )
式(3)中,a为调整系数,a∈(0,1);
步骤5.4、利用式(4)对所述加窗后的语音信号S′(n)进行快速傅里叶变换,获得倒谱的语音信号Xa(K):
X a ( K ) = Σ n = 0 N - 1 W ( n ) e - j 2 πk / N , 0 ≤ k ≤ N - - - ( 4 )
步骤5.5、利用梅尔滤波器组对所述倒谱的语音信号Xa(K)进行滤波,获得加卷的语音信号;
步骤5.6、利用离散余弦变换对所述加卷的语音信号进行解卷,获得静态的梅尔频率倒谱参数SMFCC;
步骤5.7、对所述静态的梅尔频率倒谱参数进行动态差分计算,获得一阶差分的梅尔频率倒谱参数d1MFCC;
步骤5.8、对所述一阶差分的梅尔频率倒谱参数进行动态差分计算,获得二阶差分的梅尔频率倒谱参数d2MFCC;
步骤5.7、利用式(5)对所述静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合,获得整体语音特征MFCC:
MFCC = N 3 d 1 MFCC + N 3 d 2 MFCC + N 3 SMFCC - - - ( 5 ) .
5.根据权利要求3所述的基于深度学习的多类信息耦合的情感识别方法,其特征是:所述步骤6是利用双门限端点检测算法,对所述语音数据进行划分,删除语音中的静音和噪音部分,获得语音片段并标记出所述语音片段的起始帧与结束帧,从而获得语音段。
6.根据权利要求5所述的基于深度学习的多类信息耦合的情感识别方法,其特征是:所述步骤9是按如下步骤进行:
步骤9.1、对所述视频数据进行分帧处理,获得逐帧的图像序列;
步骤9.2、利用所述语音片段的起始帧与结束帧对所述图像序列进行划分,获得与所述语音片段相对应的图像序列的起始帧与结束帧,从而获得图象集;
步骤9.3、利用人脸检测方法获得人脸表情的i个特征定位点,利用所述特征定位点对所述图像集中的每一帧图像进行定位,获得每一帧图像中的定位点,从而获得定位点集合Vi=(Vi1,Vi2,…,V);ω表示图象集中的帧数;
步骤9.4、利用式(6)获得所述图象集的任意个定位点的方差从而获得定位点集合中所有定位点的方差:
V ‾ i = Σ j = 1 ω ( V ij - 1 ω Σ j = 1 ω V ij ) 2 ω - 1 - - - ( 6 )
以所述定位点Vi和定位点集合中所有定位点的方差作为第三类信息特征。
7.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法,其特征是:所述深度学习方法是将所述综合信息特征作为RBM模型的输入值,经过RBM模型优化后的输出值再次作为RBM模型的输入值,直到所述综合信息特征的数量级满足分类器的处理能力为止,以最后的输出值作为优化后的综合信息特征。
CN201410482861.8A 2014-09-19 2014-09-19 一种面向人机交互的多类信息耦合的情感识别方法 Active CN104200804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410482861.8A CN104200804B (zh) 2014-09-19 2014-09-19 一种面向人机交互的多类信息耦合的情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410482861.8A CN104200804B (zh) 2014-09-19 2014-09-19 一种面向人机交互的多类信息耦合的情感识别方法

Publications (2)

Publication Number Publication Date
CN104200804A CN104200804A (zh) 2014-12-10
CN104200804B true CN104200804B (zh) 2017-05-17

Family

ID=52086086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410482861.8A Active CN104200804B (zh) 2014-09-19 2014-09-19 一种面向人机交互的多类信息耦合的情感识别方法

Country Status (1)

Country Link
CN (1) CN104200804B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598644B (zh) * 2015-02-12 2020-10-30 腾讯科技(深圳)有限公司 喜好标签挖掘方法和装置
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN104881685B (zh) * 2015-05-27 2019-04-02 清华大学 基于捷径深度神经网络的视频分类方法
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN105488135B (zh) * 2015-11-25 2019-11-15 广州酷狗计算机科技有限公司 直播内容分类方法及装置
CN105404681A (zh) * 2015-11-25 2016-03-16 广州酷狗计算机科技有限公司 直播情感分类方法及装置
CN105551499A (zh) * 2015-12-14 2016-05-04 渤海大学 面向语音与面部表情信号的情感可视化方法
CN106128475A (zh) * 2016-07-12 2016-11-16 华南理工大学 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法
CN106228977B (zh) * 2016-08-02 2019-07-19 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106886580B (zh) * 2017-01-23 2020-01-17 北京工业大学 一种基于深度学习的图片情感极性分析方法
CN107066583B (zh) * 2017-04-14 2018-05-25 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108305643B (zh) * 2017-06-30 2019-12-06 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN108305642B (zh) * 2017-06-30 2019-07-19 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
WO2019001458A1 (zh) * 2017-06-30 2019-01-03 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备
CN108039181B (zh) * 2017-11-02 2021-02-12 北京捷通华声科技股份有限公司 一种声音信号的情感信息分析方法和装置
CN108446601B (zh) * 2018-02-27 2021-07-13 东南大学 一种基于动静特征融合的人脸识别方法
CN108846128B (zh) * 2018-06-30 2021-09-14 合肥工业大学 一种基于自适应噪音降噪编码器的跨领域文本分类方法
CN110688874B (zh) * 2018-07-04 2022-09-30 杭州海康威视数字技术股份有限公司 人脸表情识别方法及其装置、可读存储介质和电子设备
CN109065184B (zh) * 2018-07-12 2021-10-22 山东建筑大学 基于脑机接口的脑卒中患者语音交流看护控制系统及方法
CN109215678B (zh) * 2018-08-01 2022-10-11 太原理工大学 一种基于情感维度下的深度情感交互模型的构建方法
CN109741732B (zh) * 2018-08-30 2022-06-21 京东方科技集团股份有限公司 命名实体识别方法、命名实体识别装置、设备及介质
CN109308894A (zh) * 2018-09-26 2019-02-05 中国人民解放军陆军工程大学 一种基于Bloomfield’s模型的语音建模方法
CN109408175B (zh) * 2018-09-28 2021-07-27 北京赛博贝斯数据科技有限责任公司 通用高性能深度学习计算引擎中的实时交互方法及系统
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109558935A (zh) * 2018-11-28 2019-04-02 黄欢 基于深度学习的情感识别与交互方法及系统
CN109815903B (zh) * 2019-01-24 2020-10-02 同济大学 一种基于自适应融合网络的视频情感分类方法
CN109784414A (zh) * 2019-01-24 2019-05-21 出门问问信息科技有限公司 一种电话客服中客户情绪检测方法、装置及电子设备
CN109994207B (zh) * 2019-03-25 2021-08-03 广东邮电职业技术学院 心理健康预警方法、服务器与系统
CN110083716A (zh) * 2019-05-07 2019-08-02 青海大学 基于藏文的多模态情感计算方法及系统
CN110363074B (zh) * 2019-06-03 2021-03-30 华南理工大学 一种针对复杂抽象化事物的类人化识别交互方法
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、系统、电子设备及存储介质
CN112418254A (zh) * 2019-08-20 2021-02-26 北京易真学思教育科技有限公司 情感识别方法、装置、设备及存储介质
CN110556129B (zh) * 2019-09-09 2022-04-19 北京大学深圳研究生院 双模态情感识别模型训练方法及双模态情感识别方法
CN111145786A (zh) * 2019-12-17 2020-05-12 深圳追一科技有限公司 语音情感识别方法和装置、服务器、计算机可读存储介质
CN111583968A (zh) * 2020-05-25 2020-08-25 桂林电子科技大学 一种语音情感识别方法和系统
CN111639584A (zh) * 2020-05-26 2020-09-08 深圳壹账通智能科技有限公司 基于多分类器的风险识别方法、装置及计算机设备
CN111882625B (zh) * 2020-07-07 2024-04-05 北京达佳互联信息技术有限公司 生成动态图的方法、装置、电子设备及存储介质
CN112148997B (zh) * 2020-08-07 2023-11-28 江汉大学 一种用于灾害事件检测的多模态对抗模型的训练方法和装置
TWI766463B (zh) * 2020-12-03 2022-06-01 長庚大學 清醒開顱手術輔助系統
CN112418172A (zh) * 2020-12-11 2021-02-26 苏州元启创人工智能科技有限公司 基于多模信息智能处理单元的多模信息融合情感分析方法
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN113506550B (zh) * 2021-07-29 2022-07-05 北京花兰德科技咨询服务有限公司 一种人工智能阅读显示器及显示方法
CN114549711B (zh) * 2022-04-27 2022-07-12 广州公评科技有限公司 一种基于表情肌定位的视频智能渲染方法和系统
CN115113781A (zh) * 2022-06-28 2022-09-27 广州博冠信息科技有限公司 互动图标显示方法、装置、介质与电子设备
TWI830385B (zh) * 2022-09-16 2024-01-21 中華電信股份有限公司 用於語音語句之情緒預測裝置、方法以及其電腦程式產品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN103164691A (zh) * 2012-09-20 2013-06-19 深圳市金立通信设备有限公司 基于手机用户的情绪识别系统及方法
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI430185B (zh) * 2010-06-17 2014-03-11 Inst Information Industry 臉部表情辨識系統及其辨識方法及其電腦程式產品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN103164691A (zh) * 2012-09-20 2013-06-19 深圳市金立通信设备有限公司 基于手机用户的情绪识别系统及方法
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"towards multimodal sentiment analysis:Harvesting opinions from the web";Louis-Philippe Morency等;《Proceedings of the 13th international conference on multimodal interfaces.ACM》;20111118;第4.2节 *
Louis-Philippe Morency等."utterance-level multimodal sentiment analysis".《Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics》.2013, *
徐永华等."语音识别系统中多种特征参数组合的抗噪性".《金陵科技学院学报》.2006,第22卷(第1期), *
曲利新."基于深度信念网络的语音情感识别策略".《中国优秀硕士学位论文全文数据库 信息科技辑》.2014, *

Also Published As

Publication number Publication date
CN104200804A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN106228977B (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN103928023B (zh) 一种语音评分方法及系统
CN103617799B (zh) 一种适应于移动设备的英语语句发音质量检测方法
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN111798874A (zh) 一种语音情绪识别方法及系统
CN105825852A (zh) 一种英语口语朗读考试评分方法
CN101996635B (zh) 基于重音突显度的英语发音质量评价方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN104123934A (zh) 一种构音识别方法及其系统
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
Zhang et al. Using computer speech recognition technology to evaluate spoken English.
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
Gaikwad et al. Feature extraction using fusion MFCC for continuous marathi speech recognition
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation
Farooq et al. Mispronunciation detection in articulation points of Arabic letters using machine learning
Gangonda et al. Speech processing for marathi numeral recognition using MFCC and DTW features
Khan et al. Automatic Arabic pronunciation scoring for computer aided language learning
CN104240699B (zh) 一种简单有效的短语语音识别方法
CN112767961B (zh) 一种基于云端计算的口音矫正方法
CN111210845B (zh) 一种基于改进自相关特征的病理语音检测装置
CN104205214B (zh) 噪声降低方法和装置
Shanmugapriya et al. Deep neural network based speaker verification system using features from glottal activity regions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220606

Address after: 266000 room 504, floor 5, building a, Shinan Software Park, No. 288, Ningxia road, Shinan District, Qingdao, Shandong Province

Patentee after: Shandong Xinfa Technology Co.,Ltd.

Address before: Tunxi road in Baohe District of Hefei city of Anhui Province, No. 193 230009

Patentee before: Hefei University of Technology