CN113469153B - 基于微表情、肢体动作和语音的多模态情感识别方法 - Google Patents
基于微表情、肢体动作和语音的多模态情感识别方法 Download PDFInfo
- Publication number
- CN113469153B CN113469153B CN202111033403.2A CN202111033403A CN113469153B CN 113469153 B CN113469153 B CN 113469153B CN 202111033403 A CN202111033403 A CN 202111033403A CN 113469153 B CN113469153 B CN 113469153B
- Authority
- CN
- China
- Prior art keywords
- network
- expression
- emotion
- voice
- emotion recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 115
- 230000009471 action Effects 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000014509 gene expression Effects 0.000 claims abstract description 144
- 230000008451 emotion Effects 0.000 claims abstract description 62
- 230000001815 facial effect Effects 0.000 claims abstract description 12
- 230000003287 optical effect Effects 0.000 claims description 38
- 230000004927 fusion Effects 0.000 claims description 36
- 241000282414 Homo sapiens Species 0.000 claims description 35
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 7
- 210000000988 bone and bone Anatomy 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 abstract description 5
- 230000005236 sound signal Effects 0.000 abstract description 3
- 230000000638 stimulation Effects 0.000 abstract 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000004590 computer program Methods 0.000 description 9
- 230000008921 facial expression Effects 0.000 description 9
- 230000037007 arousal Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000002087 whitening effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于微表情、肢体动作和语音的多模态情感识别方法,包括:第一步输入受试者接收某种信号的刺激的面部视频,对微表情进行识别;第二步输入受试者接收某种信号的刺激的身体视频,对肢体动作进行识别;第三步输入受试者接收某种信号的刺激的音频信号,对语音情感进行识别。将步骤第一步中的微表情识别结果和步骤第二步中肢体动作识别结果和第三步中的语音情感识别结果相融合,判断当前受试者的连续情感状态。本方法通过微表情识别出的情感和肢体动作识别和语音情感识别结果情感相结合,更准确的预测出受试者的情感状态。本发明的有益效果是:相较于现有技术,本发明可以更加准确的识别出人的真实情感。
Description
技术领域
本发明涉及图像处理与模式识别领域,具体涉及基于微表情、肢体动作和语言的多模态情感识别方法。
背景技术
随着技术的发展,计算机已经成为生活中必不可少的一部分。人类随时随地都会有喜怒哀乐等情感的起伏变化。如何使计算机理解人类的情感成为了一个研究热点。科学家们通过赋予计算机系统类似于人类的观察、识别、理解、表达以及生成各类情感表现的能力,从而令计算机系统具备更高、更全面的智能,能使其如同人类般进行自然、生动且亲切地交流与互动。在很多场景中情感识别是很有必要的,比如在人机交互的过程中,智能服务机器人如果可以准确的识别人们的情感的,那么会带来更好的服务,让人机交互更加自然,顺畅,有温度。
微表情是一种持续时间仅为1/25秒至1/5秒的非常快速的表情, 表达了人试图压抑与隐藏的真正情感。在有些场景下人类会尽力掩饰自己的真实情感,甚至做出与真正情感相反的表情,但是在这种情况下,会产生一种非常快速并且动作幅度非常微弱的表情,这种表情被称为微表情。由于微表情可以表达出人类内心真实的情感,所以在预测情感上具有很大的前景。
肢体动作是人类表达情感的重要组成部分,蕴含了丰富的情感信息,相比于基于面部的情感识别,由于肢体动作变化的规律较难获取,基于肢体动作情感识别的研究较少。但是肢体动作的情感识别在现实复杂生活中的人机交互中会使表述更加生动,所以具有重要作用。
心理学家Albert Mehrabian通过研究发现,人们日常的交流中声音及其特征(例如语调,语速)体现了38%的情感,语音交流是人与人最自然的一种交互方式,有效的识别出语音的情感是实现和谐化人机交互的重要组成部分之一。
在情感分类中,Ekman 将情感分为基本的六类基本表情包括:愤怒(anger)、恐惧(fear)、厌恶(disgust)、惊奇(surprise)、悲伤(sadness)和高兴(happiness)。此外在后续研究中,研究学者加入了中性(neutral)、紧张(nervous)和放松(relaxed)等表情,使表情分类更加完善。
现有技术中公开了,通过拍摄装置获取用户指定身体区域的图像,所述指定身体区域的图像包括肢体图像和面部图像;通过第一处理规则对所述面部图像进行解析,获得用户的微表情特征;通过第二处理规则对所述肢体图像进行解析,获得用户的肢体动作特征;将所述肢体动作特征和微表情特征输入情绪分析模型,获得所述情绪分析模型输出的所述用户的情绪标签。
现有技术中还公开了,通过对目标的行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集。后使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型,其次使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力。
但是,现实生活中,人类的情绪微妙又复杂,这些基于分类的表情识别具有局限性,无法反正完整的反应人类真实的情感。为了弥补上述分类的情感模型的不足和丰富面部表情的表达,本方法使用连续的情感模型来描述人们的情感即Arousal-Valence连续情感维度。它是一个多维度的模型,从心理学上的激励、愉悦等不同角度描述情感,不同的情感角度是相互依赖的,也因此基于维度的情感模型具有更强的表达能力。
发明内容
为了解决以上问题,本发明第一方面提供一种基于微表情、肢体动作和语音的多模态情感识别方法,由摄像头,麦克风和情感处理单元实现,所述方法包括:
S1:微表情的识别方法,
所述摄像头采集情感分析受试者的面部视频数据发送至微表情识别单元,得到基于微表情的情感识别结果;
S2:肢体动作的识别方法,
所述摄像头采集情感分析受试者的肢体动作视频数据并发送至肢体动作识别单元,得到基于肢体动作的情感识别结果;
S3:语音的识别方法,
所述麦克风采集情感分析受试者的语音信号并发射至语音情感识别模块,得到基于语音的情感识别结果;
S4:多模态融合的识别方法,
将所述基于微表情的情感识别结果、基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合,得到多模态融合的识别结果。
在一些实施例中,所述微表情的识别方法,包括:
S11:裁剪出脸部区域图像,并把宏表情与微表情的顶点帧,即动作幅度最大的峰值帧作为一个表情样本的A部分;提取宏表情与微表情的起始帧与顶点帧之间的光流特征,作为表情样本的B部分;
S12:应用所述表情样本的A部分的宏表情数据和所述表情样本的B部分的宏表情的光流特征训练第一深度学习网络,生成预训练网络;
S13:应用所述表情样本的A部分的微表情数据和所述表情样本的B部分的微表情的光流特征输入所述预训练网络,进行再训练,生成微表情识别网络;
S14:应用步骤S11对微表情的预测数据进行数据预处理,将处理后的微表情的预测数据输入所述微表情识别网络,得到基于微表情的情感识别结果。
在一些实施例中,所述肢体动的作识别方法,包括:
S21:获取肢体动作视频,将所述肢体动作视频转化为肢体动作的RGB图像序列;通过人体骨架数据,得到18个人体骨骼关节点的二维坐标;将每个RGB图像序列和人体骨骼关节点作为一个肢体动作样本;
S22:构建双流网络:构建第二深度学习网络提取肢体动作的RGB图像特征和构建图卷积神经网络提取人体骨架特征;将所述肢体动作的RGB图像特征和所述人体骨架特征结合,将得到的特征进行降维至一维,送入支持向量回归模型(Support VectorRegression)SVR来预测Arousal-Valence情感维度,构成肢体动作识别网络;
S23:将所述肢体动作样本输入所述肢体动作识别网络进行训练,得到训练后的肢体动作识别网络;
S24:应用步骤S21对肢体动作的预测数据进行预处理,得到处理后的肢体动作预测数据,将所述处理后的肢体动作预测数据输入所述训练后的肢体动作识别网络,得到基于肢体动作的情感识别结果。
在一些实施例中,语音的识别方法,包括:
S31:从麦克风获取情感分析受试者的语音,通过采样与量化将语音信号转化为计算机识别的数字信号,在一些实施例中,可使用22.05kHz的采样频率对语音信号进行采样;
S32:使用OpenSMILE工具包对所述数字信号进行帧级的低层次声学特征提取,得到语音特征集;在一些实施例中,语音特征集配置文件由“IS10_paraling.conf”提供;
S33:通过opensmile工具提取的将语音特征集转化为1582维语音特征向量,并重塑为1*1582特征向量;
S34:构建CNN-bi-LSTM联合网络并添加注意力机制,将得到的1*1582语音特征向量输入到联合网络中,提取语音特征,将得到的语音特征进行降维至一维,送入支持向量回归模型(Support Vector Regression)SVR来预测语音的Arousal-Valence情感维度,构成语音情感识别网络,得到基于语音的情感识别结果。
在本申请的一种示例性实施例中,所述生成微表情识别网络之后还包括:应用留一交叉验证的方法验证所述微表情识别网络的准确率。
在本申请的一种示例性实施例中,所述得到训练后的肢体动作识别网络之后还包括:将20%的肢体动作样本用来对训练后的肢体动作识别网络进行验证。
在本申请的一种示例性实施例中,得到宏表情的样本的方法还包括:将宏表情数据随机旋转0°,90°,180°或270°。
在本申请的一种示例性实施例中,所述预训练网络的具体结构为双流残差网络,具体结构包括:顶点帧残差网络、光流特征残差网络和全连接层;所述顶点帧残差网络、光流特征残差网络分别与所述全连接层连接。
在本申请的一种示例性实施例中,所述顶点帧残差网络包括:卷积层、池化层和连接层;所述卷积层与所述池化层连接,所述池化层与所述连接层连接;所述光流特征残差网络与所述顶点帧残差网络结构相同。
在本申请的一种示例性实施例中,所述池化层设置为n层,前n-1层采用最大池化,最后一层采用平均池化。
在本申请的一种示例性实施例中,所述第二深度学习网络包括:三维卷积神经网络和长短期记忆神经网络;所述三维卷积神经网络与长短期记忆神经网络连接。
在本申请的一种示例性实施例中,所述第三深度学习网络包括:一维卷积神经网络和双向长短期记忆神经网络;所述一维卷积神经网络与长短期记忆神经网络连接,并添加注意力机制。
在本申请的一种示例性实施例中,将所述基于微表情的情感识别结果、基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合的具体方法为:
E i =α×P m +β×P n +γ×P k ;
其中,
E i :多模态融合Arousal-Valence情感维度的识别结果;
P m :基于微表情的情感识别结果;
P n :基于肢体动作的情感识别结果;
P k :基于语音的情感识别结果;
α:基于微表情的情感识别结果的融合权重,设置参数;
β:基于肢体动作的情感识别结果的融合权重,设置参数。
γ:基于语音的情感识别结果的融合权重,设置参数。
在本申请的一种示例性实施例中,所述基于微表情的情感识别结果的融合权重,基于肢体动作的情感识别结果和基于语音的情感识别结果的融合权重的具体设置为:α=40%,β=30%,γ==30%。
本发明第二方面提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述所述的基于微表情,肢体动作和语音的情感别方法。
本发明第三方面提供一种计算机设备,包括处理器和存储器,其中,所述存储器,用于存放计算机程序;所述处理器,用于执行存储在所述存储器上的计算机程序时,实现上述所述的基于微表情,肢体动作和语音的情感识别方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:识别效果更好,识别率更高,鲁棒性更强。可以有效识别当前人们内心的真实情感。
附图说明
图1为本发明实施例提供的基于微表情与肢体动作的情感识别方法的流程图;
图2为本发明实施例提供的基于微表情与肢体动作的情感识别方法的流程简化示意图;
图3为本发明实施例提供的微表情的识别方法的流程图;
图4为本发明实施例提供的肢体动作的识别方法的流程图;
图5为本发明实施例提供的语音的识别方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例1:
如图1和图2所示,本申请实施例提供的基于微表情与肢体动作的情感识别方法,由摄像头,麦克风和情感处理单元实现,所述方法包括:
S1:微表情的识别方法,
所述摄像头采集情感分析受试者的面部视频数据发送至微表情识别单元,得到基于微表情的情感识别结果;
S2:肢体动作的识别方法,
所述摄像头采集情感分析受试者的肢体动作视频数据并发送至肢体动作识别单元,得到基于肢体动作的情感识别结果;
S3:语音的识别方法,
所述麦克风采集情感分析受试者的语音信号并发射至语音情感识别模块,得到基于语音的情感识别结果;
S4:多模态融合的识别方法,
将所述基于微表情的情感识别结果、基于肢体动作的情感识别结果和基于语音的情感识别结果语音情感识别进行加权融合,得到多模态融合的识别结果。
在一些实施例中,所述微表情的识别方法,包括:
S11:裁剪出脸部区域图像,并把宏表情与微表情的顶点帧,即动作幅度最大的峰值帧作为一个表情样本的A部分;提取宏表情与微表情的起始帧与顶点帧之间的光流特征,作为表情样本的B部分;
S12:应用所述表情样本的A部分的宏表情数据和所述表情样本的B部分的宏表情的光流特征训练第一深度学习网络,生成预训练网络;
S13:应用所述样本的A部分的微表情数据和所述样本的B部分的微表情的光流特征输入所述的预训练网络,进行再训练,生成微表情识别网络;
S14:应用步骤S11对微表情的预测数据进行数据预处理,将处理后的微表情的预测数据输入所述微表情识别网络,得到基于微表情的情感识别结果。
在一些实施例中,所述肢体动作的识别方法,包括:
S21:获取肢体动作视频,将所述肢体动作视频转化为肢体动作的RGB图像序列;通过人体骨架数据,得到18个人体骨骼关节点的二维坐标;将每个RGB图像序列和人体骨骼关节点作为一个肢体动作样本;
S22:构建双流网络:构建第二深度学习网络提取肢体动作的RGB图像特征和构建图卷积神经网络提取人体骨架特征;将所述肢体动作的RGB图像特征和所述人体骨架特征结合,将得到的特征进行降维至一维,送入支持向量回归模型(Support VectorRegression)SVR来预测Arousal-Valence情感维度,构成肢体动作识别网络;
S23:将所述肢体动作样本输入所述肢体动作识别网络进行训练,得到训练后的肢体动作识别网络;
S24:应用步骤S21对肢体动作预测数据进行预处理,得到处理后的肢体动作预测数据,将所述处理后的肢体动作预测数据输入所述训练后的肢体动作识别网络,得到基于肢体动作的情感识别结果。
在一些实施例中,语音的识别方法,包括:
S31:从麦克风获取受试者的语音,通过采样与量化将语音信号转化为计算机可以识别的数字信号;
S32:对所述数字信号进行帧级的低层次声学特征提取,得到语音特征集;
S33;将语音特征集转化为1582维语音特征向量,并重塑为1*1582特征向量;
S34:构建联合网络并添加注意力机制,将得到的1*1582语音特征向量输入到联合网络中,提取语音特征,最后将得到的语音特征进行降维至一维,送入支持向量回归模型(Support Vector Regression)SVR来预测语音的情感维度,构成语音情感识别网络,得到基于语音的情感识别结果。
在本申请的一种示例性实施例中,所述生成微表情识别网络之后还包括:应用留一交叉验证的方法验证所述微表情识别网络的准确率。
在本申请的一种示例性实施例中,所述得到训练后的肢体动作识别网络之后还包括:将20%的肢体动作样本用来对训练后的肢体动作识别网络进行验证。
在本申请的一种示例性实施例中,得到宏表情的样本的方法还包括:将宏表情数据随机旋转0°,90°,180°或270°。
在本申请的一种示例性实施例中,所述预训练网络的具体结构为双流残差网络,具体结构包括:顶点帧残差网络、光流特征残差网络和全连接层;所述顶点帧残差网络、光流特征残差网络分别与所述全连接层连接。
在本申请的一种示例性实施例中,所述顶点帧残差网络包括:卷积层、池化层和连接层;所述卷积层与所述池化层连接,所述池化层与所述连接层连接;所述光流特征残差网络与所述顶点帧残差网络结构相同。
在本申请的一种示例性实施例中,所述池化层设置为n层,前n-1层采用最大池化,最后一层采用平均池化。
在本申请的一种示例性实施例中,所述第二深度学习网络包括:三维卷积神经网络和长短期记忆神经网络;所述三维卷积神经网络与长短期记忆神经网络连接。
在本申请的一种示例性实施例中,所述第三深度学习网络包括:一维卷积神经网络和双向长短期记忆神经网络;所述一维卷积神经网络与长短期记忆神经网络连接,并添加注意力机制。
在本申请的一种示例性实施例中,所述将所述基于微表情的情感识别结果,所述基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合的具体方法为:
E i =α×P m +β×P n +γ×P k ;
其中,
E i :多模态融合A-V情感维度的识别结果;
P m :基于微表情的情感识别结果;
P n :基于肢体动作的情感识别结果;
P k :基于语音的情感识别结果;
α:基于微表情的情感识别结果的融合权重,设置参数;
β:基于肢体动作的情感识别结果的融合权重,设置参数。
γ:基于语音的情感识别结果的融合权重,设置参数。
在本申请的一种示例性实施例中,所述基于微表情的情感识别结果的融合权重,基于肢体动作的情感识别结果和基于语音的情感识别结果的融合权重的具体设置为:α=40%,β=30%,γ==30%。
实施例2:
如图2所示,微表情的识别方法:
S11:裁剪出脸部区域图像,并把宏表情与微表情的顶点帧,即动作幅度最大的峰值帧作为一个表情样本的A部分;提取宏表情与微表情的起始帧与顶点帧之间的光流特征,作为表情样本的B部分;
在一些实施例中,
S111:利用OpenCV的Dlib库来检测每个宏表情和微表情样本68个面部特征点;
S112:根据人脸68个关键点得到面部区域图像,裁剪出脸部区域图像,并把其中宏表情与微表情的顶点帧即动作幅度最大的峰值帧作为一个样本的A部分;宏表情数据集的样本随机旋转0°,90°,180°或270°,以增加样本的多样性;
S113:光流特征提取是对每个宏表情和微表情样本的相邻两帧进行运动估计,提取高层次的面部表情运动特征;提取宏表情与微表情的起始帧与顶点帧之间的光流特征,以便得到宏表情与微表情的时间运动特征;将得到的光流信息作为一个样本的B部分;
S114:分别对所述A部分和B部分通过resize操作进行尺寸变换,使图像大小一致;
S115:将得到人脸图像进行灰度化处理;
在一些实施例中,光流特征使用稠密光流法,在Opencv中,使用calcOpticalFlowFarneback()函数可以用来计算两帧图像之间的稠密光流,使用光流可以提取到表情的动态时间特征;根据所述68个面部特征点位置,将人脸裁剪出来,作为一个样本的A部分,同时将得到的光流特征作为样本的B部分;对所述的样本进行resize操作进行尺寸变换,使图像大小一致,图像的大小为224*224像素,最后对图像进行灰度化具体步骤为:
S12:应用所述表情样本的A部分的宏表情数据和所述表情样本的B部分的宏表情的光流特征训练第一深度学习网络,生成预训练网络;所述预训练网络的具体结构为双流残差网络,具体结构包括:顶点帧残差网络、光流特征残差网络和全连接层;将所述表情样本的A部分的宏表情数据输入所述顶点帧残差网络,提取A部分的人脸表情的空间运动特征;将所述B部分的宏表情的光流特征输入光流特征残差网络B部分的人脸表情的时间运动特征;所述顶点帧残差网络、光流特征残差网络分别与所述全连接层连接;所述顶点帧残差网络包括:卷积层、池化层和连接层;所述卷积层与所述池化层连接,所述池化层与所述连接层连接;所述光流特征残差网络与所述顶点帧残差网络结构相同;所述池化层设置为n层,前n-1层采用最大池化,最后一层采用平均池化;
在一些实施例中,
S121:构建双流残差网络,用于分别提取A部分的人脸表情的空间运动特征和B部分的人脸表情的时间运动特征;
S122:用于特征提取的双流残差网络,由卷积层、池化层、连接层和全连接层组成,其中由卷积层和池化层对人脸表情图像和光流分别提取其特征,在连接层连接;
S123:其中前几个池化层采用最大池化,即通过保留池化窗口内最大元素的方式进行特征降维,从而突出重要的特征;最后一个池化层采用平均池化,使池化窗口内的每个元素都会对降维结果产生影响,防止损失过多的高维特征;
S124:加入了丢弃率=0.5的Dropout层;Dropout层能够以一定的概率使某个神经元的激活值失效,使模型尽可能不依赖一些局部特征,以增强模型的泛化性,并缓解模型的过拟合问题;最后,将得到的特征进行降维至一维,送入SVR来预测Arousal-Valence情感维度;
S125:利用宏表情样本及其光流特征,对双流残差网络进行预训练,初始化学习率为0.001,训练周期epoch = 200,每训练10个epoch,学习率周期下降,batch_size为16;训练结束后得到预训练网络;
在一些实施例中,在训练神经网络时,重要的网络参数值设置如下:输入的大小(224,224,1),卷积层的卷积核大小3*3,池化层窗口3*3,卷积核数量为32,全连接层的输入为1024,选用SVR即支持向量回归对特征进行分类。学习率设置为0.001,共训练200个epoch;在训练神经网络的过程中采用Adam优化器,相比于广泛使用的随机梯度下降法,Adam优化器实现简单,计算高效,对内存需求少。在卷积层后使用BN层和relu激活函数;其中BN层为批量归一化算法(Batch Normalization,BN),能够加速训练,在数据预处理中,白化预训练使特征之间的相关性降低,但是白化计算量过大,而且白化并不是处处可微的,所以使用近似白化处理,其公式具体为:
其中是指某一网络层中某个神经元的输入,=Wh+b, W是该层的权重,h为上一层的输出,b为不确定常数,是对该层神经元在随机梯度下降法中一个批次所有输入数据的均值,是该神经元一个批次所有输入数据的标准差;
Relu激活函数的公式为:
S13:应用所述样本的A部分的微表情数据和所述样本的B部分的微表情的光流特征输入所述的预训练网络,进行再训练,生成微表情识别网络;
S14:应用留一交叉验证的方法验证所述微表情识别网络的准确率;
应用步骤S11对微表情的预测数据进行数据预处理,将处理后的微表情的预测数据输入所述表情识别网络,得到基于微表情的情感识别结果;
在一些实施例中,
S141:在预训练的双流残差网络中,其训练参数为初始化学习率为0.001,训练周期epoch = 200,每训练10个epoch,学习率周期下降,batch_size为16。
S142:使用留一交叉验证(Leave-One-Subject-Out,LOSO)的方法来验证微表情识别的精确度;
如图4所示,肢体动作识别
S21:获取肢体动作视频,将所述肢体动作视频转化为肢体动作的RGB图像序列;通过人体骨架数据,得到18个人体骨骼关节点的二维坐标;将每个RGB图像序列和人体骨骼关节点作为一个肢体动作样本;
在一些实施例中,
S211:获取若干肢体动作视频,转化为若干肢体动作的RGB图像序列样本;
S212:通过OpenPose算法得到人体骨架数据,得到8个人体骨骼关节点的二维坐标;
S213,将每个RGB图像序列和人体骨骼关节点作为一个样本,并将80%的数据作为训练集用于训练双流网络,20%的数据用来对训练好的模型进行测试;
在一些实施例中,为了之后对肢体动作图像进行神经网络的训练,使用时间插值算法(Temporal Interpolation Mode)将每个肢体动作的图像帧序列数统一。并将图像的大小尺度归一化为224*224像素。每个骨架数据均取图像中动作幅度最大的一帧图像来提取数据
S22:构建双流网络;构建第二深度学习网络提取肢体动作的RGB图像特征和构建图卷积神经网络提取人体骨架特征;将所述肢体动作的RGB图像特征和所述人体骨架特征结合,将得到的特征进行降维至一维,送入SVR来预测Arousal-Valence情感维度,构成肢体动作识别网络;所述第二深度学习网络包括:三维卷积神经网络和长短期记忆神经网络;所述三维卷积神经网络与长短期记忆神经网络连接;
在一些实施例中,
S221:构建三维卷积神经网络结合长短期记忆神经网络用于提取肢体动作的RGB图像特征;
S222:构建图卷积神经网络提取由OpenPose得到的人体骨架特征;
S223:将所述的提取肢体动作的RGB图像和图卷积神经网络提取到的二维特征相结合,作为肢体动作的特征,并使用SVR得到最后的连续情感维度结果;
S23:将所述肢体动作样本输入所述肢体动作识别网络进行训练,得到训练后的肢体动作识别网络;
在一些实施例中,同提取微表情的特征相同,为了避免由于数据集较小,而神经网络的参数较多而导致的过拟合的现象,所以加入Dropout算法和BN层来缓解过拟合现象;
在一些实施例中,图卷积神经网络参数为16,三维卷积层卷积核大小3*3*3,最大池化层大小3*3*3,长短期神经网络的参数为1024;学习率设置为0.01,共训练500个epoch;使用OpenPose提取到的人体骨架关节点的向量作为图卷积神经网络的输入;通过图卷积神经网络输出1*1024维度特征,同时由三维卷积网络和长短期神经网络提取的RGB图像输出1*1024维度特征,在全连接层将这两个特征相连接,得到肢体动作特征,并分类;
S24:应用步骤S21对肢体动作预测数据进行预处理,得到处理后的肢体动作预测数据,将所述处理后的肢体动作预测数据输入所述练后的肢体动作识别网络,得到基于肢体动作的情感识别结果;
在一些具体的实施例中,如图5所示,语音的识别方法,包括:
S31:从麦克风获取受试者的语音,通过采样与量化将语音信号转化为计算机可以识别的数字信号,使用22.05kHz的采样频率对语音信号进行采样;
S32:使用OpenSMILE工具包,音频进行帧级的低层次声学特征(LLDs)提取,语音特征集配置文件由“IS10_paraling.conf”提供;
S33:将opensmile工具提取的1582维语音特征向量重塑为1*1582特征向量;
S34:构建CNN-bi-LSTM联合网络并添加注意力机制,将得到的1*1582语音特征输入到联合网络中,提取语音特征,最后将得到的特征进行降维至一维,送入SVR来预测语音的Arousal-Valence情感维度,构成语音情感识别网络,得到基于语音的情感识别结果;
在一些实施例中,使用对音频信号加噪,拉伸等方法将音频的数据进行扩增,防止数据的不均衡。然后将由OpenSMILE得到的音频信号输入到一维CNN网络中,得到128*1维特征,在bi-LSTM即双向长短期神经网络中添加自注意力机制,即添加attention-layer;得到整句的音频特征,最后使用SVR分类器得到连续的情感结果。
多模态融合:将微表情识别结果,肢体动作识别结果和语音识别结果相融合,得到情绪识别结果;根据实验结果发现,微表情,肢体和语音识别结果的精确度不同,所以微表情,肢体动作和语音的权值不相同;
S4:将所述将所述基于微表情的情感识别结果,所述基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合的具体方法为:
E i =α×P m +β×P n +γ×P k ;
其中,
E i :多模态融合Arousel-Valence情感维度的识别结果;
P m :基于微表情的情感识别结果;
P n :基于肢体动作的情感识别结果;
P k :基于语音的情感识别结果;
α:基于微表情的情感识别结果的融合权重,设置参数;
β:基于肢体动作的情感识别结果的融合权重,设置参数。
γ:基于语音的情感识别结果的融合权重,设置参数。
在本申请的一种示例性实施例中,所述基于微表情的情感识别结果的融合权重,基于肢体动作的情感识别结果的融合权重和基于语音的情感识别结果的融合权重的具体设置为:α=40%,β=30%,γ=30%
本发明还提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述所述的基于微表情,肢体动作和语音的情感别方法。
本发明还提供一种计算机设备,包括处理器和存储器,其中,所述存储器,用于存放计算机程序;所述处理器,用于执行存储在所述存储器上的计算机程序时,实现上述所述的基于微表情,肢体动作和语音的情感识别方法的步骤。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (11)
1.基于微表情、肢体动作和语音的多模态情感识别方法,由摄像头,麦克风和情感处理单元实现,其特征在于,所述方法包括:
S1:微表情的识别方法,
所述摄像头采集情感分析受试者的面部视频数据发送至微表情识别单元,得到基于微表情的情感识别结果;
所述微表情的识别方法,包括:
S11:裁剪出脸部区域图像,并把宏表情与微表情的顶点帧作为一个表情样本的A部分;提取宏表情与微表情的起始帧与顶点帧之间的光流特征,作为表情样本的B部分;
S12:应用所述表情样本的A部分的宏表情数据和所述表情样本的B部分的宏表情的光流特征训练第一深度学习网络,生成预训练网络;
S13:应用所述表情样本的A部分的微表情数据和所述表情样本的B部分的微表情的光流特征输入所述预训练网络,进行再训练,生成微表情识别网络;
S14:应用步骤S11对微表情的预测数据进行数据预处理,将处理后的微表情的预测数据输入所述微表情识别网络,得到基于微表情的情感识别结果;
S2:肢体动作的识别方法,
所述摄像头采集情感分析受试者的肢体动作视频数据并发送至肢体动作识别单元,得到基于肢体动作的情感识别结果;
所述肢体动作的识别方法,包括:
S21:获取肢体动作视频,将所述肢体动作视频转化为肢体动作的RGB图像序列;通过人体骨架数据,得到18个人体骨骼关节点的二维坐标;将每个RGB图像序列和人体骨骼关节点作为一个肢体动作样本;
S22:构建双流网络,具体为:构建第二深度学习网络提取肢体动作的RGB图像特征和构建卷积神经网络提取人体骨架特征;将所述肢体动作的RGB图像特征和所述人体骨架特征结合,将得到的特征进行降维至一维,送入支持向量回归模型来预测情感维度,构成肢体动作识别网络;
S23:将所述肢体动作样本输入所述肢体动作识别网络进行训练,得到训练后的肢体动作识别网络;
S24:应用步骤S21对肢体动作的预测数据进行预处理,得到处理后的肢体动作预测数据,将所述处理后的肢体动作预测数据输入所述训练后的肢体动作识别网络,得到基于肢体动作的情感识别结果;
S3:语音的识别方法,
所述麦克风采集情感分析受试者的语音信号并发射至语音情感识别模块,得到基于语音的情感识别结果;
S4:多模态融合的识别方法,
将所述基于微表情的情感识别结果、基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合,得到多模态融合的识别结果。
2.根据权利要求1所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述语音的识别方法,包括:
S31:从麦克风获取情感分析受试者的语音,通过采样与量化将语音信号转化为计算机识别的数字信号;
S32:对所述数字信号进行帧级的低层次声学特征提取,得到语音特征集;
S33:将提取的语音特征集转化为1582维语音特征向量,并重塑为1*1582语音特征向量;
S34:构建联合网络并添加注意力机制,将得到的1*1582语音特征向量输入到联合网络中,提取语音特征,将得到的语音特征进行降维至一维,送入支持向量回归模型来预测语音的情感维度,构成语音情感识别网络,得到基于语音的情感识别结果。
3.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述生成微表情识别网络之后还包括:应用留一交叉验证的方法验证所述微表情识别网络的准确率。
4.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述得到训练后的肢体动作识别网络之后还包括:将20%的肢体动作样本用来对训练后的肢体动作识别网络进行验证。
5.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述宏表情对应有宏表情的样本,具体获得宏表情的样本的具体方法还包括:将宏表情数据随机旋转0°,90°,180°或270°。
6.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述预训练网络的具体结构为双流残差网络,具体结构包括:顶点帧残差网络、光流特征残差网络和全连接层;所述顶点帧残差网络、光流特征残差网络分别与所述全连接层连接。
7.根据权利要求6所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述顶点帧残差网络包括:卷积层、池化层和连接层;所述卷积层与所述池化层连接,所述池化层与所述连接层连接;所述光流特征残差网络与所述顶点帧残差网络结构相同。
8.根据权利要求7所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述池化层设置为n层,前n-1层采用最大池化,最后一层采用平均池化。
9.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述第二深度学习网络包括:三维卷积神经网络和长短期记忆神经网络;所述三维卷积神经网络与长短期记忆神经网络连接。
10.根据权利要求2所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述将所述基于微表情的情感识别结果、基于肢体动作的情感识别结果和基于语音的情感识别结果进行加权融合的具体方法为:
E i =α×P m +β×P n +γ×P k ;
其中,
E i :多模态融合情感维度的识别结果;
P m :基于微表情的情感识别结果;
P n :基于肢体动作的情感识别结果;
P k :基于语音的情感识别结果;
α:基于微表情的情感识别结果的融合权重,设置参数;
β:基于肢体动作的情感识别结果的融合权重,设置参数;
γ:基于语音的情感识别结果的融合权重,设置参数。
11.根据权利要求10所述的基于微表情、肢体动作和语音的多模态情感识别方法,其特征在于,所述基于微表情的情感识别结果的融合权重,基于肢体动作的情感识别结果的融合权重和基于语音的情感识别结果的融合权重的具体设置为:α=40%,β=30%,γ=30%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111033403.2A CN113469153B (zh) | 2021-09-03 | 2021-09-03 | 基于微表情、肢体动作和语音的多模态情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111033403.2A CN113469153B (zh) | 2021-09-03 | 2021-09-03 | 基于微表情、肢体动作和语音的多模态情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469153A CN113469153A (zh) | 2021-10-01 |
CN113469153B true CN113469153B (zh) | 2022-01-11 |
Family
ID=77867366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111033403.2A Active CN113469153B (zh) | 2021-09-03 | 2021-09-03 | 基于微表情、肢体动作和语音的多模态情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469153B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170585B (zh) * | 2021-11-16 | 2023-03-24 | 广西中科曙光云计算有限公司 | 危险驾驶行为的识别方法、装置、电子设备及存储介质 |
CN114550675A (zh) * | 2022-03-01 | 2022-05-27 | 哈尔滨理工大学 | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 |
CN115035438A (zh) * | 2022-05-27 | 2022-09-09 | 中国科学院半导体研究所 | 情绪分析方法、装置及电子设备 |
CN115457981A (zh) * | 2022-09-05 | 2022-12-09 | 安徽康佳电子有限公司 | 一种便于听障人士观看视频的方法和基于该方法的电视 |
CN115271002B (zh) * | 2022-09-29 | 2023-02-17 | 广东机电职业技术学院 | 识别方法、急救决策方法、介质及生命健康智能监护系统 |
CN116766207B (zh) * | 2023-08-02 | 2024-05-28 | 中国科学院苏州生物医学工程技术研究所 | 一种基于多模态信号运动意图识别的机器人控制方法 |
CN117414135A (zh) * | 2023-10-20 | 2024-01-19 | 郑州师范学院 | 一种行为心理异常检测方法、系统及存储介质 |
CN117809354A (zh) * | 2024-02-29 | 2024-04-02 | 华南理工大学 | 基于头部可穿戴设备感知的情感识别方法、介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
CN112101096A (zh) * | 2020-08-02 | 2020-12-18 | 华南理工大学 | 一种基于语音和微表情的多模态融合的自杀情绪感知方法 |
CN112101097A (zh) * | 2020-08-02 | 2020-12-18 | 华南理工大学 | 融合肢体语言、微表情和语言的抑郁和自杀倾向识别方法 |
CN112307975A (zh) * | 2020-10-30 | 2021-02-02 | 江西理工大学 | 融合语音与微表情的多模态情感识别方法及系统 |
CN112766159A (zh) * | 2021-01-20 | 2021-05-07 | 重庆邮电大学 | 一种基于多特征融合的跨数据库微表情识别方法 |
-
2021
- 2021-09-03 CN CN202111033403.2A patent/CN113469153B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
CN112101096A (zh) * | 2020-08-02 | 2020-12-18 | 华南理工大学 | 一种基于语音和微表情的多模态融合的自杀情绪感知方法 |
CN112101097A (zh) * | 2020-08-02 | 2020-12-18 | 华南理工大学 | 融合肢体语言、微表情和语言的抑郁和自杀倾向识别方法 |
CN112307975A (zh) * | 2020-10-30 | 2021-02-02 | 江西理工大学 | 融合语音与微表情的多模态情感识别方法及系统 |
CN112766159A (zh) * | 2021-01-20 | 2021-05-07 | 重庆邮电大学 | 一种基于多特征融合的跨数据库微表情识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113469153A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113469153B (zh) | 基于微表情、肢体动作和语音的多模态情感识别方法 | |
Khalil et al. | Speech emotion recognition using deep learning techniques: A review | |
US20190341025A1 (en) | Integrated understanding of user characteristics by multimodal processing | |
Ariav et al. | An end-to-end multimodal voice activity detection using wavenet encoder and residual networks | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
Kumar et al. | Multilayer Neural Network Based Speech Emotion Recognition for Smart Assistance. | |
US11423884B2 (en) | Device with convolutional neural network for acquiring multiple intent words, and method thereof | |
Dhuheir et al. | Emotion recognition for healthcare surveillance systems using neural networks: A survey | |
KR101984283B1 (ko) | 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체 | |
CN115631267A (zh) | 生成动画的方法及装置 | |
Atkar et al. | Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier | |
Kadyrov et al. | Speaker recognition from spectrogram images | |
Naas et al. | Real-time emotion recognition for sales | |
Arya et al. | Speech based emotion recognition using machine learning | |
Singh | Deep bi-directional LSTM network with CNN features for human emotion recognition in audio-video signals | |
Sidorov et al. | Feature and decision level audio-visual data fusion in emotion recognition problem | |
Chelali | Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 | |
Pai et al. | Dual-input control interface for deep neural network based on image/speech recognition | |
Li | Robotic emotion recognition using two-level features fusion in audio signals of speech | |
Matsui et al. | Speech enhancement system using lip-reading | |
Bird et al. | Lstm and gpt-2 synthetic speech transfer learning for speaker recognition to overcome data scarcity | |
Li | Deep Learning of Human Emotion Recognition in Videos | |
Bhanusree et al. | Capsule networks based acoustic emotion recognition using Mel cepstral features | |
Sandi et al. | Significance of Convolutional Neural Network in View of Lip Reading for Speech-Impaired People |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |