CN108805089A

CN108805089A - 基于多模态的情绪识别方法

Info

Publication number: CN108805089A
Application number: CN201810613472.2A
Authority: CN
Inventors: 俞旸; 凌志辉
Original assignee: Nanjing Yun Si Powerise Mdt Infotech Ltd
Current assignee: Nanjing Yun Si Powerise Mdt Infotech Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-11-13
Anticipated expiration: 2038-06-14
Also published as: CN108805089B

Abstract

本发明的基于多模态的情绪识别方法，包括数据采集设备、输出设备、情绪分析软件系统，情绪分析软件系统通过对数据采集设备得到的数据进行综合分析推理，最终把结果输出至输出设备上；具体步骤为：基于面部图像表情情绪识别步骤、基于语音信号情绪识别步骤、基于文本语义情感分析步骤、基于人体姿态情绪识别步骤、基于生理信号情绪识别步骤，以及基于多轮对话语义理解步骤和基于时序多模态情绪语义融合关联判断步骤。本发明突破性的打通了五大单模态的情绪识别，创新性的利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断，大幅度的提高了准确率，适用于绝大多数一般问询互动类应用场景。

Description

基于多模态的情绪识别方法

技术领域

本发明涉及情绪设别技术领域，具体而言，尤其涉及机器学习、深度学习、计算机视觉、自然语言处理、语音识别、人体动作识别、非接触式生理检测等基于多模态的情绪识别方法。

背景技术

情绪识别，是一种判断人的情绪变化的技术，主要是通过收集人的外在表情和行为变化，对人的心理状态进行推断。在现代社会，情绪识别技术以及被广泛应用于智能设备开发、销售导购机器人、健康管理、广告营销等方面。情绪是一种综合了人的感觉、思想和行为的状态，它包括人对外界或自身刺激的心理反应，也包括伴随这种心理反应的生理反应。在各种人-机交互系统(比如机器人，审讯系统等)里，如果系统能识别出人的情绪状态，人与机器的交互就会变得更加友好和自然。因此，对情绪进行分析和识别是神经科学、心理学、认知科学、计算机科学和人工智能等领域的一项重要的交叉学科研究课题。

对于情绪的研究由来已久，使用的方法也各不相同。近年来，随着脑电信号采集设备的应用和推广，信号处理和机器学习技术的快速发展，以及计算机数据处理能力的大幅提高，基于脑电的情绪识别研究已经成为神经工程和生物医学工程领域的热门课题。

对应于不同的情绪诱发方法，情绪识别方法也各不相同，常见的情绪识别方法主要分为两大类:基于非生理信号的识别和基于生理信号的识别。基于非生理信号的情绪识别方法主要包括对面部表情和语音语调的识别。面部表情识别方法是根据表情与情绪间的对应关系来识别不同的情绪，在特定情绪状态下人们会产生特定的面部肌肉运动和表情模式，如心情愉悦时嘴角会上翘，眼部会出现环形褶皱；愤怒时会皱眉，睁大眼睛等。目前，面部表情识别多采用图像识别的方法来实现。语音语调识别方法是根据不同情绪状态下人们的语言表达方式的不同来实现的，如心情愉悦时说话的语调会比较欢快，烦躁时语调会比较沉闷。基于非生理信号识别方法的优点是操作简单，不需要特殊设备。缺点是不能保证情绪识别的可靠性，因为人们可以通过伪装面部表情和语音语调来掩饰自己的真实情绪，而这种伪装往往不易被发现。其次，对于患有某些特殊疾病的残疾人来说，基于非生理信号识别的方法往往难以实现。

由于脑电信号十分微弱，因此在采集过程中，必须通过高放大倍数的放大器对脑电信号进行信号放大。目前商业化的脑电信号放大器的体积普遍较大，不利于便携式使用。最近出现了芯片化的脑电信号放大器，可以有效解决放大器体积过大问题，但是成本仍然较高，离实用化还有一定的距离。

所以很显然，基于生理信号的情绪识别方法都需要复杂和昂贵的信号测量采集系统去得到较准确的生物信号，无法在广泛的场景中应用，特别是在一些特殊场景，比如刑侦、审讯等中，需要隐秘测量时，这些方法都不可用。

因为情绪是个体对外界刺激的主观的有意识的体验和感受，具有心理和生理反应的特征，人们希望不需要直接观测内在的感受，但是我们能够通过其外显的行为或生理变化来进行推断，这就是现在更加推崇的情绪识别方法。而在这一类方法里，大部分情绪识别主要是对表情意义的识别。其识别方法主要是借助于面部大的肌肉群的运动进行的。但没有综合人的表情、说的文字、体态、语音语调和生理特征等。

现有技术中，例如：《多模态智能情绪感知系统》，公开号：CN 107220591 A。该技术提及了一种多模态智能情绪感知系统，包括采集模块、识别模块、融合模块，所述识别模块包括基于表情的情绪识别单元、基于语音的情绪识别单元、基于行为的情绪识别单元、以及基于生理信号的情绪识别单元，所述识别模块中的各情绪识别单元对多模态信息进行识别，从而获得情绪分量，所述情绪分量包含情绪类型和情绪强度，所述融合模块将所述识别模块的情绪分量进行融合实现人体情绪的准确感知。

发明内容

针对现有技术中存在的问题，本发明就创新性的提出综合人的表情、文字、语音、体态和生理信号5大模态的情绪识别方法。相比较过去的类似发明专利(例如：公开号CN107220591 A)，本发明在以下几个方面有着根本上的突破。

1.本发明中可穿戴设备不是必须设备，我们创新性的提出只需要获取视频录像以及声音信号即可。

2.本发明针对生理信号的特征提取是通过创新的非接触式微特征放大方式去获得，该创新点大大降低了成本和提高了产品的使用方便性。

3.本发明在基本的文本情绪分析基础上，还提出了多轮对话的综合情绪分析。该创新点不仅提高了每个局部对话单元的情绪分析，还提供了对整个对话过程的情绪综合把握。

4.本发明还在动作识别的基础上，创新性的发明了基于人体姿态的情绪识别。并且本发明提出的体态情绪识别是把人的主要体态识别为关键节点的变化。

5.本发明在综合每个单模态为总的情绪识别时，创新性的提出了基本神经网络RNN的基于时序的情绪对应、关联和推理。

为了实现上述发明目的，本发明采用的技术方案为：一种基于多模态的情绪识别方法，它包括数据采集设备、输出设备、情绪分析软件系统，情绪分析软件系统通过对数据采集设备得到的数据进行综合分析推理，最终把结果输出至输出设备上，其特征在于，具体步骤为：

基于面部图像表情情绪识别步骤，在特定的情绪状态下人们会产生特定的表情模式，基于动态图像序列和表情图像的运动信息，基于区域的光流模型和基准光流算法从复杂背景和多姿态表情序列中有效地获得运动场信息；

基于语音信号情绪识别步骤，基频、时长、音质和清晰度声学参数作为情绪的语音特征量，建立情绪语音数据库，不断提取新的语音特征量对语音情绪进行识别；

基于文本语义情感分析步骤，文本情绪分析分为词语、句子、篇章三个级别，基于词语的方法是分析情绪特征词，根据阈值判断词语极性或者计算词汇语义的相似度；基于句子的方法是对每个句子采样情绪标签，抽取评价词语或者获取评价短语进行分析；基于篇章的方法是在句子情绪倾向分析的基础上进行篇章的整体情绪倾向性分析；

基于人体姿态情绪识别步骤，提取身体各种情绪状态下的典型样例，对每个姿势进行判别分析出相近情绪的细微差别，建立特征库，根据人体动作的持续时间、频率等运动性质作为评判依据，从中提取物理运动信息来进行识别；

基于生理信号情绪识别步骤，情绪的生理机制包括情绪感知和情绪的身体生理反应，情绪感知是情绪的主要产生机制，通过脑电信号反映大脑的不同生理反应，由于其信号的特殊性，通过时域、频域和时频域三种特征进行识别，时频均谱熵值、分形维数等都作为衡量脑部活动的特征量；

基于多轮对话语义理解步骤，对当前轮的输入话语在传统seq2seq的语言生成模型基础上加入了情绪识别的注意力机制，对话管理里加入了时间序列上前面多轮对话里的情绪跟踪；每个当前的用户说的话语被输入到一个双向的LSTM编码器(encoder)里，接着把当前甄别到不同的情绪状态输入与刚才产生的用户话语的编码器输出合并，共同输入到解码器里，这样解码器既有了用户的话语也有了当前的情绪，之后生成的系统对话响应就是个性化、特定于当前用户情绪状态的输出；情绪感知的信息状态更新(Sentiment AwareInformation State Update,ISU)策略，对对话状态进行更新的时机是，任意有新信息的时刻；对话状态更新时，每次更新都是确定的，对于前一时刻同一系统状态、同一系统行为，和相同的当前时刻用户情绪状态，必然产生，相同的当前时刻系统状态；

基于时序多模态情绪语义融合关联判断步骤，每个RNN递归神经网络把每个单模态情绪理解的中间神经网络表示形式按时间序列组织起来，其中每个时间点上的一个神经网络单元都来自单模态系统的神经网络的中间层的对应时间点的输出；经过每个RNN递归神经网络的单一时间点的神经网络后的输出被输送到多模态融合关联判断RNN递归神经网络，多模态RNN递归神经网络的每个时间点汇集了每个单模态的RNN递归神经网络的当前时间点上的神经网络输出，在综合了多模态后，每个时间点的输出即是最终该时间点的情绪判断结果。

上述的基于多模态的情绪识别方法，其进一步特征在于：以时序为基准将单模态下的情绪语义在时序对齐后进行训练，从而实现时序上跨模态的自动关联对应以及最终融合的综合情绪识别、理解和推理判断。

上述的基于多模态的情绪识别方法，其进一步特征在于：基于面部图像表情情绪识别步骤，是基于VGG16和RESNET50为基础的ensemble模型。

上述的基于多模态的情绪识别方法，其进一步特征在于：基于语音信号情绪识别步骤，是基于神经网络多层感知模型MLP的对语音信号进行情绪识别的模型，首先，对连续的语音信号进行切分(segmentation)，从而得到离散的声音细小单元，这些细小单元有部分重叠，从而让模型更加好的分析当前单元，并且了解前后的上下文语音单元；之后模型提取语音能量(energy)曲线信息；再下一步，系统提取基频(pitch)曲线信息，音调特征由基频特征来刻画和构造，通过采用autocorrelation方法去提取基频曲线。

上述的基于多模态的情绪识别方法，其进一步特征在于：基于文本语义情感分析步骤，是基于深度卷积神经网络CNN改进的一个情绪识别方法，系统利用在目标领域内产生的词汇语义向量对问题领域内的文本进行情绪分类，它的输入是以矩阵表示的句子或者文档，矩阵的每一行对应于一个分词元素，每一行是表示一个单词的向量，这些向量都是一种高维度向量表示(word embeddings)的形式，从上一步骤获得，或者根据词在词表中的索引；

步骤的第二层是卷积神经网络层；

步骤的第三层是基于时间的聚会层，从前一个卷积层提取出的特征信息当中，找出它们在时间轴上的关联关系，将前一层中的每个特征矩阵中的时间维度上的相应变化总结归纳，从而形成更加浓缩的特征信息；

步骤的第四层是最后的全连接预测层，首先是将前一层得到的浓缩的特征信息，进行全排列和组合并搜索所有可能的相应权重组合，从而发现它们之间的共同作用的方式；下一个内部层是Dropout层，指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点暂时认为不是网络结构的一部分，但是它的权重得保留下来(只是暂时不更新而已)，因为下次样本输入时它可能又得工作了，再下一个内部层是tanh(双曲线函数)，这是一个非线性的逻辑转化，最后一个内部层是softmax，它是多分类中常用的激活函数，是基于逻辑回归的，它将每个需要需要预测的可能类别的概率进行锐化，从而使得预测的类别脱颖而出。

上述的基于多模态的情绪识别方法，其进一步特征在于：基于人体姿态情绪识别步骤，基于动作识别的情绪提取是指根据数据输入源，首先进行运动数据的表征和建模，再进行情绪的建模，得到关于动作和情绪的两套表征数据；之后运用现有的基于运动数据的动作识别方法，将其连续的动作准确地识别出来，得到该数据的动作信息；再将之前获得的情绪模型与情绪数据库进行匹配对应，过程中加以动作信息的辅助，最终提取出输入数据的情绪；具体为：

●人体建模

首先是对于人体的关节点进行建模，把人体看作是一个有着内在联系的刚性系统，它包含骨骼以及关节点，骨骼和关节点的相对运动构成了人体姿态的变化，即平时所说的描述动作，在人体众多关节点中，根据对情绪影响的轻重，忽略手指与脚趾，将人体的脊柱抽象为颈、胸和腹部三个关节，总结出一个人体模型，其中上半身包括头、颈、胸部、腹部、两个大臂和两个小臂，而下半身包括两个大腿、两个小腿；

●情绪状态提取

对于选择的多种情绪状态，分别选取了人体正常情况下进行每种情绪状态的表达，并对肢体反应进行详细分析；由于人体被抽象成为了刚体模型，首先是人体重心的移动，分为向前、向后和自然态；除了重心的移动之外，其次是关节点的转动，人体发生动作变化，并且和情绪相关的关节点包括头、胸腔、肩膀和肘部，对应的动作为头部的弯曲、胸腔的转动、上臂的摆动和伸展方向，以及肘部的弯曲，这些参数结合上重心的移动，总共包括了七个自由度的移动，表达出一个人上半身的动作。

上述的基于多模态的情绪识别方法，其进一步特征在于：基于生理信号情绪识别步骤，在生理信号的情绪识别中利用了血液在人体内流动时光线的变化：心脏跳动时血液会通过血管，通过血管的血液量越大，被血液吸收的光线也越多，人皮肤表面反射的光线就越少，通过对图像的时频分析估算出心率；

第一步是对视频序列进行空间滤波，以得到不同的空间频率的基带；

第二步是对每个基带都进行时域上的带通滤波，提取感兴趣的那部分变化信号；

第三步放大和合成，统计信号变化的峰值个数，即近似该人的生理心率。

有益效果：本发明突破性的打通了5大单模态的情绪识别，创新性的利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断，从而大幅度的提高了准确率，并且对环境和硬件的要求降低了，最终拓宽到了适用于绝大多数一般应用场景，特别是一些特殊场景，例如刑侦、审讯等。

附图说明

图1为本发明实施例的基于多模态的情绪识别系统示意图。

图2为本发明实施例的基于多模态的情绪识别方法流程图。

图3为本发明实施例的VGG16模型架构图。

图4为本发明实施例的RESNET50模型中的核心残差架构图。

图5为本发明实施例的综合ensemble模型架构图。

图6为本发明在对连续的语音信号进行切分得到离散的声音细小单元示意图。

图7为本发明的short term energy(STE)在声波中的变化示意图。

图8为本发明一个人生气时的基频信息示意图。

图9为本发明采用的MLP(multi-layer perception)神经网络进行深度学习模型架构图。

图10为本发明采用的基于一个深度卷积神经网络的核心步骤做文本情绪分析图。

图11为本发明提出的结合语法树的卷积神经网络在情绪分析中的应用图。

图12为本发明提出的人体姿态检测的总体流程图。

图13为本发明在人体姿态检测中识别的13段人体主要模型图。

图14为本发明基于的人体现象：血管的血液量越大，被血液吸收的光线也越多，人皮肤表面反射的光线就越少形象图。

图15为本发明在人体生物特征检测过程中，使用的方法将一个余弦波放大α倍的过程和结果图。

图16为本发明在多轮交互情绪识别中的总体的流程图(一个循环式的多轮交互理解的一个过程)。

图17为本发明对当前轮的输入话语在传统seq2seq的语言生成模型基础上加入了情绪识别的注意力机制架构图。

图18为本发明在多轮对话中，对对话状态进行基于前面多轮的情绪感知的更新示意图。

图19为本发明利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断的主体架构图。

图20该发明整体产品系统图。

具体实施方式

以下结合附图和具体实施例对本发明创造进一步详细阐述。

因为任何情绪的产生都伴随着身体上的某些变化，如面部表情、肌肉紧张、内脏活动等。利用这些信号的变化直接进行情绪识别就是所谓的基本识别方法，也称做单模态情绪识别方法，目前的主要方法包括面部图像、语言、文本、姿态和生理信号等。本发明提出将以下每一个单模态里的计算机对情绪的理解进行融合、对应和推理得出更加完整、准确的情绪识别方法。

本实施例提出的基于多模态的情绪识别方法，其系统由以下几部分组成(图1为本发明实施例的基于多模态的情绪识别系统示意图)：

-硬件部分：数据采集设备包括摄像头、麦克风，检测心跳的手环，人体姿态多点检测传感器，机器人传感器采集系统等，输出设备包括显示器，音箱、耳机、打印机、机器人互动系统等。

-软件部分：通过对数据采集设备得到的数据进行综合分析推理。该系统共有7个子系统(7个步骤如图1所示)构成包括基于面部图像表情、基于语音信号、基于文本语义、基于人体姿态、基于生理信号的多模态情绪识别，以及基于多轮对话语义理解和基于时序的多模态情绪语义融合关联判断。

1.基于面部表情图像情绪识别步骤。

面部表情识别方法的依据是在特定的情绪状态下人们会产生特定的表情模式。基于模板和利用神经网络两类方法都是静态图像表情识别中最常见的途径，但由于是单幅图片识别，识别率必然不高。本发明提出一个全新神经网络，它是基于动态图像序列，方法考虑了表情图像的运动信息，基于区域的光流模型和基准光流算法都可从复杂背景和多姿态表情序列中有效地获得运动场信息。

2.基于语音信号情绪识别步骤。

言语是人类特有的表达情绪的重要手段，基频、时长、音质和清晰度等声学参数是情绪语音的主要特征量。建立情绪语音数据库，不断提取新的语音特征量是语音情绪识别的基本方法。支持向量机和基于Dempster–Shafer证据理论也可作为语音情绪特征提取的方法。语音信号的个体差异比较明显，传统语音分析方法需要建立庞大的语音库，这会给识别带来一定难度。本发明提出了一个在传统语音识别类型神经网络基础上加强的语音信号的情绪识别。

3.基于文本情绪识别步骤。

文本情绪分析在研究过程中可以分为词语、句子、篇章三个级别。基于词语的方法主要是分析情绪特征词，根据阈值判断词语极性或者计算词汇语义的相似度；基于句子的方法是对每个句子采样情绪标签，抽取评价词语或者获取评价短语进行分析；基于篇章的方法是在句子情绪倾向分析的基础上进行篇章的整体情绪倾向性分析。在基于文本的情绪识别中，比较依赖情绪特征词的选择，建立语料库虽然可以给每个词语贴定情感标签，但是许多词语有多种释义，建立语料库时就必须考虑这些问题。许多新兴词汇的出现，也会大大干扰文本情绪倾向识别的准确性。因此这些传统的基于语料库的方法虽然较为简单准确，但需要大量的人力事先构建语料库，所以不适合跨领域的迁移。本发明提出的基于深度学习的方法，一个模型可以在不同的领域和场景中通过对不同数据的自动深度学习，从而进行自动的情绪识别。

4.基于人体姿态情绪识别步骤。

人的肢体运动特征中包含有丰富的情绪信息。基于人体姿势的情绪识别主要是提取身体各种情绪状态下的典型样例，对每个姿势进行判别分析出相近情绪的细微差别，建立特征库。基于人体运动特性的情绪识别主要是根据人体动作的持续时间、频率等运动性质作为评判依据，从中提取物理运动信息来进行识别。许多姿势或动作都不具备明显的情绪特征，在识别过程中往往不能进行全面的分辨，因而这种方法具有较大的局限性。所以本发明提出将人体姿态和与其他信号相融合进行的更深层次的情绪识别。

5.基于生理信号情绪识别步骤。

生理变化很少受人的主观控制，因而应用生理信号进行情绪识别所获得的结果更加客观。情绪的生理机制包括情绪感知(脑电)和情绪的身体生理反应(心电、心率、肌电、皮肤电反应、呼吸、血管压力等)。情绪感知是情绪的主要产生机制，通过脑电信号可以反映大脑的不同生理反应，由于其信号的特殊性，可以通过时域、频域和时频域三种特征进行识别，另外时频均谱熵值、分形维数等都可作为衡量脑部活动的特征量。尽管生理信号携带着准确的情绪信息，但是信号强度十分微弱，如在采集心电信号时，会存在较大的肌电电位干扰，所以在提取过程中要求较高。而在实际中干扰源非常多，因此很难有效地去除生理信号中的伪迹。本发明提出基于人脸的血液和肤色的变化自动检测出一些生理反应，比如心跳、呼吸等。

有了以上5种单模态的情绪识别步骤为基础，本发明提出了以时序为基准将单模态下的情绪语义在时序对齐后进行训练，从而实现时序上跨模态的自动关联对应以及最终融合的综合情绪识别、理解和推理判断。图2为本发明实施例的基于多模态的情绪识别方法流程图。

下面逐一步骤进行详细介绍。

1.基于面部表情图像情绪识别步骤：

基于计算机视觉对面部表情图像识别的传统方法大致可以归为以下流程。

第一图像预处理主要是进行人脸检测、人脸灰度化等消除干扰因素。第二表情特征提取主要是基于静态图像的特征提取和动态序列的图像特征提取，在进行表情识别之前要先进行特征降维。最后的表情识别主要是选择合适的分类算法对降维后的表情特征进行分类。

传统的分类算法包括：

●基于肤色的检测方法

基于高斯模型、基于混合高斯模型、基于直方图模型，实验表明，混合高斯模型比高斯模型好。

●基于统计模型的方法

人工神经网络：采用多个神经网络进行不同角度人脸检测。

基于概率模型：通过估计人脸图像和非人脸图像的条件概率来检测人脸。

支持向量机：采用支持向量机的超平面进行人脸和非人脸的判断。

●基于启发式模型的检测方法

变形模型：采用变形模板与头顶轮廓线和左右两条脸轮廓线相匹配。

镶嵌图：将人脸区域划分为多个马赛克块，利用一组规则及边缘特征进行验证。

最近由于大规模数据的更加容易获取和大规模GPU计算加速了用人工神经网络的深度学习方法得到的极大的提高，并且被证明优于以上的大部分传统方法。本实施例提出了基于VGG16和RESNET50为基础的以下ensemble模型。

首先本实施例的VGG16模型架构如图3所示：

其次本实施例的RESNET50模型中的核心残差架构如图4所示：

最后本实施例提出的基于以上2个架构的综合ensemble模型架构如图5所示：

经过在公开实验数据上的结果统计(如下表所示)，本实施例提出的模型达到了当前最先进水平，并且运行效率极高。

	准确率	精确度	召回率
				基于SVM的基线系统	31.8％	43.7％	54.2％
基于VGG16的业界主流系统	59.2％	70.1％	69.5％
				基于RESNET50的业界主流系统	65.1％	76.5％	74.8％
本发明提出的算法	67.2％	79.4％	78.2％

2.基于语音信号情绪识别步骤：

传统语音情感识别研究的开展离不开情感语音数据库的支撑。情感语音库的质量高低直接决定了由它训练得到的情感识别系统的性能好坏。目前，领域内存在的情感语音库类型多样，并没有统一的建立标准，按照激发情感的类型可分为表演型、引导型、自然型这3个类别；按照应用目标可分为识别型和合成型两个类别；按照语种不同可分为英语、德语、汉语等。

在这些方法中，用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这3种类型，这些特征常常以帧为单位进行提取，却以全局特征统计值的形式参与情感的识别。全局统计的单位一般是听觉上独立的语句或者单词，常用的统计指标有极值、极值范围、方差等。常用的特征有：

●韵律特征是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化，是对语音流表达方式的一种结构性安排。它的存在与否并不影响我们对字、词、句的听辨，却决定着一句话是否听起来自然顺耳、抑扬顿挫.韵律学特征又被称为“超音段特征”或“超语言学特征”，它的情感区分能力已得到语音情感识别领域研究者们的广泛认可，使用非常普遍，其中最为常用的韵律特征有时长(duration)、基频(pitch)、能量(energy)等。

●基于谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movement)之间相关性的体现，已在包括语音识别、话者识别等在内的语音信号处理领域有着成功的运用。Nwe等人通过对情感语音的相关谱特征进行研究发现，语音中的情感内容对频谱能量在各个频谱区间的分布有着明显的影响.例如，表达高兴情感的语音在高频段表现出高能量，而表达悲伤的语音在同样的频段却表现出差别明显的低能量。近年来，有越来越多的研究者们将谱相关特征运用到语音情感的识别中来，并起到了改善系统识别性能的作用，相关谱特征的情感区分能力是不可忽视的。在语音情感识别任务中使用的线性谱特征。

●声音质量特征是人们赋予语音的一种主观评价指标，用于衡量语音是否纯净、清晰、容易辨识等。对声音质量产生影响的声学表现有喘息、颤音、哽咽等，并且常常出现在说话者情绪激动、难以抑制的情形之下。语音情感的听辨实验中，声音质量的变化被听辨者们一致认定为与语音情感的表达有着密切的关系。在语音情感识别研究中，用于衡量声音质量的声学特征一般有：共振峰频率及其带宽(format frequency and bandwidth)、频率微扰和振幅微扰(jitter and shimmer)、声门参数(glottal parameter)等。

本次发明在此基础上提出了一个基于神经网络MLP(多层感知模型)的对语音信号进行情绪识别的模型。首先，本次发明对连续的语音信号进行切分(segmentation)，从而得到离散的声音细小单元(如图6所示)。这些单元有部分重叠，从而可以让模型更加好的分析当前单元，并且了解前后的上下文语音单元。之后模型提取语音能量(energy)曲线信息。因为能量信息在语音识别里起着非常重要的作用，也在情绪识别里同样重要。比如高兴和生气时，人的语音能量会显著高于悲伤。图7显示了利用在short term energy(STE)在声波中的变化捕捉人的高兴和生气等情绪变化时，人的语音能量变化。

再下一步，系统提取基频(pitch)曲线信息。音调特征在大部分语言的语音识别中起着非常重要的作用。而音调特征可以由基频特征来刻画和构造。因此在实际的环境中寻找到一种可靠的、有效的基频提取方法是一件很困难的事情。本实施例采用了autocorrelation方法去提取基频曲线。如图8显示了本实施例的采用了autocorrelation方法去提取基频曲线中，一个人生气的基频信息。

此外本次发明提出的系统还从语音中提取了Mel Frequency CepstralCoefficients(MFCC)和Formant Frequencies等重要的信息。最后系统利用了神经网络的MLP(multi-layer perception)进行深度学习(模型架构如图9所示：本实施例采用的MLP(multi-layer perception)神经网络进行声纹情绪的深度学习)。

3.基于文本情绪识别步骤：

本实施例提出的基于深度卷积神经网络CNN改进的一个情绪识别方法。该步骤利用在目标领域内产生的词汇语义向量对问题领域内的文本进行情绪分类。该步骤的核心也是一个深度卷积神经网络系统(如图10所示)。

它的输入是以矩阵表示的句子或者文档。矩阵的每一行对应于一个分词元素，一般是一个单词，也可以是一个字符。也就是说每一行是表示一个单词的向量。通常，这些向量都是word embeddings(一种高维度向量表示)的形式，从上一步骤获得，但是也可以用one-hot向量的形式，也即根据词在词表中的索引。若是用100维的词向量表示一句10个单词的句子，将得到一个10x100维的矩阵作为输入。

该步骤的第二层是卷积神经网络层。本实施例中将此步骤做了一个重要改进。传统的操作为(图10中黄色卷积窗口)，假如卷积窗口宽度为m(图中用了窗口大小3)，那么取m个连续的词(图10中的一个例子是“订北京”)，将他们对应的词向量连接在一起得到一个m*d维的向量xi:i+m-1(d表示词向量维度)。然后向量xi:i+m-1与卷积核w相乘(w也是一个向量)，ci＝f(w·xi:i+m-1+b)，窗口滑动得到c＝[c1,c2,…,cn-m+1]，再对c做最大值选取得到一个值，假设现在又K个卷积核，那么最后得到K维的向量。这些传统的卷积窗口只针对连续的m个词。所以，这里做选取操作的目的就是处理不同长度的句子，使得无论句子长度为多少，卷积核宽度是多少，最终到得到定长的向量表示，同时最大值选取也是去提炼最重要的特征信息，它的假设是最大值代表了某个特征上最显著。通过大量的实验证明了卷积神经网络模型适用于多种任务，而且效果非常显著，相比于传统方法不用进行繁琐的特征工程而且也不需要语法解析树。另外该模型输入预先训练好的词向量比随机初始化词向量效果要好很多，目前大家使用深度学习都会输入预先训练好的词向量。相比常用的传统的卷积窗口，本实施例提出对在语法上连续的m个词也做卷积。这些m个词可能不是实际连续的(图10中的例子是红色标示的“订酒店”)，但在语法上它们是一个连续的语义结构。比如图11所示句子“John hit the ball”，如果选择使用卷积窗口大小为3，则会有“John hitthe”和“hit the ball”两个完整的3个词的窗口。但是显然，没有一个体现了该句子完整核心语义。而如果从语法分析树出发，去决定“连续”的窗口中的词，则有“John hit ball”和“hit the ball”两个卷积窗口。所以，很显然，这2个卷积窗口都更体现了完整的合理的语义。有了这两个新的基于语法分析树的卷积窗口，结合以前的传统的卷积窗口，共同做最大值选取。这样所获得的特征信息将使模型更容易的掌握一段文字的含义。

该步骤的第三层是基于时间的聚会层。文本字和词的输入是具有前后或时间顺序上的强烈关联性的。这层的主要目标就是从前一个卷积层提取出的特征信息当中，找出它们在时间轴上的关联关系。主要的发掘过程是将前一层中的每个特征矩阵中的时间维度上的相应变化总结归纳。从而形成更加浓缩的特征信息。

该步骤的第四层是最后的全连接预测层。该层实际上包含很多细小的内部层次。首先是将前一层得到的浓缩的特征信息，进行全排列和组合并搜索所有可能的相应权重组合，从而发现它们之间的共同作用的方式。下一个内部层是Dropout层。Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来(只是暂时不更新而已)，因为下次样本输入时它可能又得工作了。再下一个内部层是tanh(双曲线函数)。这是一个非线性的逻辑转化。最后一个内部层是softmax，它是多分类中常用的激活函数，是基于逻辑回归的。它将每个需要预测的可能类别的概率进行锐化，从而使得预测的类别脱颖而出。

4.基于人体姿态情绪识别步骤：

本次发明提出了基于人体姿态动作和变化的情绪提取方法。基于动作识别的情绪提取技术是指根据数据输入源，首先进行运动数据的表征和建模，再进行情绪的建模，得到关于动作和情绪的2套表征数据。之后运用现有的基于运动数据的动作识别方法，将其连续的动作准确地识别出来，得到该数据的动作信息。再将之前获得的情绪模型与情绪数据库进行匹配对应，过程中加以动作信息的辅助，最终提取出输入数据的情绪。具体流程如图12所示。

该系统主要有以下几个步骤。

●人体建模

首先是对于人体的关节点进行建模，人体可以被看作是一个有着内在联系的刚性系统。它包含骨骼以及关节点，骨骼和关节点的相对运动构成了人体姿态的变化，即平时所说的描述动作。在人体众多关节点中，根据对情绪影响的轻重，对其进行如下处理：

1)忽略手指与脚趾。手部信息只有在握拳的时候表示愤怒，而普通的运动数据在没有压力传感器的情况下无法进行力量的模拟与估算，可认为手部的信息量较小，重要性较低，须进行适当的简化。对于脚趾，相关信息量几乎为零。因此，本实施例将手与脚简化成为一个点，以便降低无关干扰。

2)将人体的脊柱抽象为颈、胸和腹部3个关节。脊柱可以活动的范围比较大，而且骨头的组成比较复杂和繁琐。在脊柱上选取的这3个有着明显位置区分的点来做脊柱的模拟。

由以上步骤可以总结出一个人体模型，其中上半身包括头、颈、胸部、腹部、2个大臂和2个小臂，而下半身包括2个大腿、2个小腿。这个模型包括13段的刚体和9个自由度，如图13所示。

●情绪状态提取

对于选择的多种情绪状态，分别选取了人体正常情况下进行每种情绪状态的表达，并对肢体反应进行详细分析。

由于人体被抽象成为了刚体模型，因此首先想到的参数是人体重心的移动。人体重心的移动极其丰富，可以进行多种多样的描述，可是情绪所需的描述应该比重心移动的描述更加具体，更加准确。可以将重心编码为3种情况———向前、向后和自然态。除了重心的移动之外，接下来要考虑的是关节点的转动，人体可以发生动作变化，并且和情绪相关的关节点包括头、胸腔、肩膀和肘部(人体下半身的情绪表达极为有限，所以暂时先不作处理)。对应的动作为头部的弯曲、胸腔的转动、上臂的摆动和伸展方向，以及肘部的弯曲，这些参数结合上重心的移动，总共包括了7个自由度的移动，就可以表达出一个人上半身的动作。可以用这个参数的集合来做一个简易的情绪评价标准。参照艾克曼所做的样本量为61人的实验，针对于情绪集合中的每种情绪，可以根据转动参数和重心移动的参数进行表示。数字的正负值表示的是该部位相对于坐标系的运动方向，而正数数值表示在右手定则坐标系中，该部位是向前运动的，而负数数值表示该部位的运动方向为负向。

5.基于生理信号情绪识别步骤：

在生理信号的情绪识别中利用了血液在人体内流动时光线的变化：心脏跳动时血液会通过血管，通过血管的血液量越大，被血液吸收的光线也越多，人皮肤表面反射的光线就越少。因此，通过对图像的时频分析就可以估算出心率(如图14所示：基于的人体现象：血管的血液量越大，被血液吸收的光线也越多，人皮肤表面反射的光线就越少形象图)。

所谓拉格朗日视角，就是从跟踪图像中感兴趣的像素(粒子)的运动轨迹的角度着手分析。2005年，Liu等人最早提出了一种针对影像的动作放大技术，该方法首先对目标的特征点进行聚类，然后跟踪这些点随时间的运动轨迹，最后将这些点的运动幅度加大。然而，拉格朗日视角的方法存在以下几点不足：

●需要对粒子的运动轨迹进行精确的跟踪和估计，需要耗费较多的计算资源；

●对粒子的跟踪是独立进行的，缺乏对整体图像的考虑，容易出现图像没有闭合，从而影响放大后的效果；

●对目标物体动作的放大就是修改粒子的运动轨迹，由于粒子的位置发生了变化，还需要对粒子原先的位置进行背景填充，同样会增加算法的复杂度。

不同于拉格朗日视角，欧拉视角并不显式地跟踪和估计粒子的运动，而是将视角固定在一个地方，例如整幅图像。之后，假定整幅图像都在变，只是这些变化信号的频率、振幅等特性不同，而本实施例所感兴趣的变化信号就身处其中。这样，对“变”的放大就变成了对感兴趣频段的析出和增强。下面详细阐述技术细节。

1)空间滤波

本实施例提出的欧拉影像放大技术(以下简称EVM)的第一步是对视频序列进行空间滤波，以得到不同的空间频率的基带。这么做是因为：

●有助于减少噪声。图像在不同空间频率下呈现出不同的SNR(信噪比)。一般来说，空间频率越低，信噪比反而越高。因此，为了防止失真，这些基带应该使用不同的放大倍数。最顶层的图像，即空间频率最低、信噪比最高的图像，可使用最大的放大倍数，下一层的放大倍数依次减小；

●便于对图像信号的逼近。空间频率较高的图像(如原视频图像)可能难以用泰勒级数展开来逼近。因为在这种情况下，逼近的结果就会出现混淆，直接放大就会出现明显失真。对于这种情况，本实施例通过引入一个空间波长下限值来减少失真。如果当前基带的空间波长小于这个下限值，就减少放大倍数。

由于空间滤波的目的只是简单的将多个相邻的像素“拼”成一块，所以可以使用低通滤波器来进行。为了加快运算速度，还可以顺便进行下采样操作。熟悉图像处理操作的朋友应该很快可以反应出来：这两个东西的组合就是金字塔。实际上，线性的EVM就是使用拉普拉斯金字塔或高斯金字塔来进行多分辨率分解。

2)时域滤波

得到了不同空间频率的基带后，接下来对每个基带都进行时域上的带通滤波，目的是提取感兴趣的那部分变化信号。例如，如果要放大的心率信号，那么可以选择0.4～4Hz(24～240bpm)进行带通滤波，这个频段就是人的心率的范围。不过，带通滤波器有很多种，常见的就有理想带通滤波器、巴特沃斯(Butterworth)带通滤波器、高斯带通滤波器，等等。应该选择哪个呢？这得根据放大的目的来选择。如果需要对放大结果进行后续的时频分析(例如提取心率、分析乐器的频率)，则应该选择窄通带的滤波器，如理想带通滤波器，因为这类滤波器可以直接截取出感兴趣的频段，而避免放大其他频段；如果不需要对放大结果进行时频分析，可以选择宽通带的滤波器，如Butterworth带通滤波器，二阶IIR滤波器等，因为这类滤波器可以更好的减轻振铃现象。

3)放大和合成

经过前面两步，已经找出了“变”的部分，即解决了何为“变”这个问题。接下来探讨如何放大“变”这个问题。一个重要的依据是：上一步带通滤波的结果，就是对感兴趣的变化的逼近。

图15演示了使用上面的方法将一个余弦波放大α倍的过程和结果。其中，黑色的曲线表示原信号f(x)，蓝色的曲线表示变化后的信号f(x+δ)，青色的曲线表示对这个信号的泰勒级数逼近绿色的曲线表示我们分离出来的变化的部分。将这个部分放大α倍再加回原信号就得到放大后的信号，图15中红色的曲线表示这个放大后的信号f(x)+(1+α)B(x,t))。

最后利用深度学习优化时空滤波效果，假设心跳带来的信号变化的频率和心率接近，将RGB空间的信息转化成YIQ(ntsc)空间后，对两颜色空间处理以及用合适的带通滤波器找出信号。统计信号变化的峰值个数，即近似该人的生理心率。

6.基于多轮对话语义和情绪理解步骤：

传统的语义理解大部分是没有考虑交互环境或者说是最多单轮提问回答型的。目前，情感分析在传统机器学习上的主要研究方法还是基于一些传统算法，例如，SVM、信息熵、CRF等。基于机器学习的情感分析，其优势在于具有对多种特征建模的能力。要用人工标注的单个词作为特征，而语料的不足往往就是性能的瓶颈。

一旦有了“交互”，情感和情绪分析就变得难很多。第一：交互是一个持续的过程而不是短时固定的。而这从本质上改变了情感判断的评价方式。在无交互的时候，比如商品评论，若判断这段话是什么情感分类后就可以实现价值了，是清晰的分类任务。但用在对话上就不太一样了，情感状态持续在变，分析任何单一的一句话是没有很大意义的，这不再是一个简单的分类任务了。对于持续的过程，简单的解决方案是加一个增益和衰减的函数，但这个函数非常难精确，理论依据不多，评价这个函数写得好不好也困难。第二：交互的存在将大部分的状态信息都隐藏了起来。在明面上能看到的不到5％，只是冰山一角(用类似于隐马尔可夫的方式去理解)。并且交互的双方都默认对方知道很多信息。比如沟通主客体之间的关系状态、彼此的需求目的、情绪状态、社会关系、环境、之前聊到的内容，以及都具备的常识，性格，三观等等。然后会发现以下一些现象：两个人之间共同的信息越多就越难，因为隐藏状态的作用越大，隐藏状态的维度越多。不同的人之间存在着不同的交流范式。这个范式的变化取决于其他的各种环境信息(包括时间，地点，关系状态，彼此的情绪，共同的经历，自己的聊天习惯等等)。即便是相同的人，他们之间的交流范式也是一个动态变化的过程，比如两个人在恋爱的过程中，他们之间的交流方式会因为感情的升温和降温而有所不同。第三：交互涉及到信息的跳跃。当一个人自己说什么的时候往往都是比较有逻辑的，连贯的。但聊天和个人陈述完全是两件事，聊天会有较大的跳跃性。这种不确定的信息跳跃性指数级地增大了情感分析的难度。

以上3个主要方面就是为什么加入了交互因素情感分析变得这么难判断的原因，首先是评价方式改变了，而且这个评价方式很复杂，没有什么可借鉴的。再从第二第三原因可以看到，这对于机器学习来说数据维度太稀疏了(显性的状态就只有文本，表情等，多数状态都是隐藏的)，再加上跳跃性，因此这种靠统计的方式，想把准确率做高，其困难程度可想而知。

因此本次发明提出重点改进对话管理，加强语言的理解和对情感词的注意力机制，可以有效的把握多轮对话中的基本语义和情绪捕捉。总体的流程(如图16所示)是一个循环式的多轮交互理解的一个过程。

其中本实施例的创新点主要在2个方面：一个是对当前轮的输入话语在传统seq2seq的语言生成模型基础上加入了情绪识别的注意力机制，另一个是在对话管理里加入了时间序列上前面多轮对话里的情绪跟踪。

在第一个步骤里，架构如图17所示：对当前轮的输入话语在传统seq2seq的语言生成模型基础上加入了情绪识别的注意力机制。

在该架构里，每个当前的用户说的话语被输入到一个双向的LSTM编码器(encoder)里，然后不同于传统的语言生成模型，这里加入了对当前句子里的情绪的注意力。接着把当前甄别到不同的情绪状态输入与刚才产生的用户话语的编码器输出合并，共同输入到解码器里，这样解码器既有了用户的话语也有了当前的情绪，之后生成的系统对话响应就是个性化、特定于当前用户情绪状态的输出。

本次发明提出针对多轮对话情绪识别的第2个创新是一种简单的对话状态更新的方法：情绪感知的信息状态更新(Sentiment Aware Information State Update,ISU)策略。SAISU策略对对话状态进行更新的时机是，任意有新信息的时刻；具体而言，当用户，或者系统，或者对话中的任何参与者，如果有新的信息产生，那么，就会对对话状态进行更新。该更新是基于前面多轮的情绪感知的。详见图18。

图18表示，t+1时刻的对话状态s_t+1，依赖于之前时刻t的状态s_t，和之前时刻t的系统行为a_t，以及当前时刻t+1对应的用户行为和情绪o_t+1。可以写成如下方式：

s_t+1←s_t+a_t+o_t+1

对话状态更新时，假设，每次更新都是确定的。因此，这一假设，就导致了，对于前一时刻同一系统状态、同一系统行为，和相同的当前时刻用户情绪状态，必然产生，相同的当前时刻系统状态。

7.基于时序多模态情绪语义融合步骤：

近年来，随着多源异类信息融合处理领域的发展，可以将来自多类别参考情绪状态的特征进行融合。利用不同类别的信号相互支持，通过对互补信息进行融合处理，信息处理质量并不是对多个数据源的简单折中平衡，而往往比任何成员都要好，可以得到很大改善。在最近的国际情绪计算及智能交互学术会议中，就涉及了情绪多模态分析这一概念。因此，人们开始利用人脸表情、语音、眼动、姿态和生理信号等多个通道的情绪信息之间的互补性来研究识别问题，即基于多模态的情绪识别。多模态信息融合识别相对于单一信号识别，无疑是可以提高识别准确率的。为了提高情绪的识别率和识别的鲁棒性，有必要根据不同的应用环境选择不同的数据源；针对不同的数据源，采用有效的理论和方法，研究高效、稳定的情绪识别算法等，这些也是该领域未来研究的热点。

目前少数系统开始综合1到2个单模态来进行情绪检测。比如以下几个类别：

●基于视听觉的情绪识别

最常见的多模态识别方法是基于视、听觉的方法，这两类特征获取信息比较方便，同时语音情绪识别与人脸表情识别在识别性能上具有互补性，所以最为普遍。日本振兴学会支持的跨文化多模态感知研究中，关注的就是情绪表达时面部表情和情绪声音的关系。该系统在双模态情绪识别中，自适应地调整语音和人脸动作特征参数的权重，该方法对于情绪识别率达84％以上。在其中，将视觉和听觉作为输入状态，在状态层进行异步约束，这种融合方法分别将识别率提高了12.5％和11.6％。

●基于多生理信号的情绪识别

多生理信号融合也有大量应用，在2004年，Lee等人就利用包括心率、皮肤温度变化、皮肤电活动在内的多生理信号对人们的压力状态进行监视。文献主要从心电、心率信号提取有用的特征进行种类识别。吴雪奎等人将心电、呼吸、体温三种生理信号进行特征提取和特征分类。Canentol等人将心电、血容量脉冲、皮肤电活动、呼吸等多种情绪生理特征相结合进行情绪识别。Wagner等人通过融合肌动电流、心电、皮肤电阻和呼吸四个通道的生理参数获得了92％的融合识别率。文献中通过多生理信号融合，将识别准确率从30％提高到了97.5％。

●基于语音心电结合的情绪识别

在语音和心电结合方面，文献利用加权融合和特征空间变换的方法对语音信号与心电信号进行融合。基于心电信号和基于语音信号的单模态情绪分类器获得的平均识别率分别为71％和80％，而多模态分类器的识别率则达到90％以上。

本实施例突破性的打通了5大单模态的情绪识别，创新性的利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断，从而大幅度的提高了准确率，并且对环境和硬件的要求降低了，最终拓宽到了适用于绝大多数一般应用场景，特别是一些特殊场景，例如刑侦、审讯等。

模型的主体架构如图19所示：本实施例利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断。

总体架构考虑了情绪识别是在一个连续时间轴上，根据前后相关的所有表情、动作、文字、语音和生理做出对当前时间点的一个判断。因此在经典seq2seq神经网络的基础上发明了该方法。Seq2Seq被提出于2014年，最早由两篇文章独立地阐述了它主要思想，分别是Google Brain团队的《Sequence to Sequence Learning with Neural Networks》和Yoshua Bengio团队的《Learning Phrase Representation using RNN Encoder-Decoderfor Statistical Machine Translation》。这两篇文章针对机器翻译的问题不谋而合地提出了相似的解决思路，Seq2Seq由此产生。Seq2Seq解决问题的主要思路是通过深度神经网络模型(常用的是LSTM，长短记忆网络，一种循环神经网络)将一个作为输入的序列映射为一个作为输出的序列，这一过程由编码输入与解码输出两个环节组成。seq2seq基础模型当被应用于基于连续时间轴上的情绪识别分析时，它需要有独特的创新的变化，才能更好的解决特定问题。那么在情绪识别时，除了通常的seq2seq模型需要处理的问题以外，还需要以下注意几个关键特点：1、多个单模态的各自的不同时间点之间的关系；2、多模态之间相同时间点上的内在影响和关系；3、综合多模态的情绪总体识别辨认。这些现有技术中都没有得以解决。

具体说模型首先包含5个recurrent neural network(RNN、递归神经网络)。在实际系统中本发明才用long-short term memory(LSTM)这种RNN的代表。每个RNN把每个单模态情绪理解的中间神经网络表示形式按时间序列组织起来。其中每个时间点上(图19中的一个蓝色长条)的一个神经网络单元都来自前面介绍的单模态子系统的神经网络的中间层的对应时间点的输出。经过每个RNN的单一时间点的神经网络(图19中的一个蓝色长条)后的输出被输送到多模态融合关联判断RNN。因此多模态RNN的每个时间点汇集了每个单模态的RNN的当前时间点上的神经网络输出。在综合了多模态后，每个时间点的输出即是最终该时间点的情绪判断结果(图19中橙色箭头)。

本发明的软硬件系统设计应用场景是为了给心理咨询领域中专业分析师提供人物表情与心理情绪变化的分析研判软件工具。整体系统包括以下四个部分组成：微表情分析研判软件、专用分析设备、高清摄像头、打印机。

图20为本发明整体产品系统架构图。

通过“高清摄像头”对被分析人物的面部进行实时录制，并提供通过网络可访问的视频流。“专用分析设备”部署了该发明的产品，只需要双击软件快捷图标就可打开软件界面；程序运行过程中，可根据需要对视频地址与表情告警值进行配置管理。该发明在心理辅导咨询过程中记录、分析、研判人物的面部表情和心率数据，在结束的时候，提供“数据分析结果报表”。操作员可将“数据分析结果报表”通过“打印机”将本次分析结果打印成文档，以便于存档。

以上所述，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更改或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改，等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于多模态的情绪识别方法，它包括数据采集设备、输出设备、情绪分析软件系统，情绪分析软件系统通过对数据采集设备得到的数据进行综合分析推理，最终把结果输出至输出设备上，其特征在于，具体步骤为：

2.根据权利要求1所述的基于多模态的情绪识别方法，其特征在于：以时序为基准将单模态下的情绪语义在时序对齐后进行训练，从而实现时序上跨模态的自动关联对应以及最终融合的综合情绪识别、理解和推理判断。

3.根据权利要求1所述的基于多模态的情绪识别方法，其特征在于：基于面部图像表情情绪识别步骤，是基于VGG16和RESNET50为基础的ensemble模型。

4.根据权利要求1所述的基于多模态的情绪识别方法，其特征在于：基于语音信号情绪识别步骤，是基于神经网络多层感知模型MLP的对语音信号进行情绪识别的模型，首先，对连续的语音信号进行切分(segmentation)，从而得到离散的声音细小单元，这些细小单元有部分重叠，从而让模型更加好的分析当前单元，并且了解前后的上下文语音单元；之后模型提取语音能量(energy)曲线信息；再下一步，系统提取基频(pitch)曲线信息，音调特征由基频特征来刻画和构造，通过采用autocorrelation方法去提取基频曲线。

5.根据权利要求1所述的基于多模态的情绪识别方法，其特征在于：基于文本语义情感分析步骤，是基于深度卷积神经网络CNN改进的一个情绪识别方法，系统利用在目标领域内产生的词汇语义向量对问题领域内的文本进行情绪分类，它的输入是以矩阵表示的句子或者文档，矩阵的每一行对应于一个分词元素，每一行是表示一个单词的向量，这些向量都是一种高维度向量表示(word embeddings)的形式，从上一步骤获得，或者根据词在词表中的索引；

系统的第二层是卷积神经网络层；

系统的第三层是基于时间的聚会层，从前一个卷积层提取出的特征信息当中，找出它们在时间轴上的关联关系，将前一层中的每个特征矩阵中的时间维度上的相应变化总结归纳，从而形成更加浓缩的特征信息；

系统的第四层是最后的全连接预测层，首先是将前一层得到的浓缩的特征信息，进行全排列和组合并搜索所有可能的相应权重组合，从而发现它们之间的共同作用的方式；下一个内部层是Dropout层，指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点暂时认为不是网络结构的一部分，但是它的权重得保留下来(只是暂时不更新而已)，因为下次样本输入时它可能又得工作了，再下一个内部层是tanh(双曲线函数)，这是一个非线性的逻辑转化，最后一个内部层是softmax，它是多分类中常用的激活函数，是基于逻辑回归的，它将每个需要需要预测的可能类别的概率进行锐化，从而使得预测的类别脱颖而出。

6.根据权利要求1所述的基于多模态的情绪识别方法，其特征在于：基于人体姿态情绪识别步骤，基于动作识别的情绪提取是指根据数据输入源，首先进行运动数据的表征和建模，再进行情绪的建模，得到关于动作和情绪的两套表征数据；之后运用现有的基于运动数据的动作识别方法，将其连续的动作准确地识别出来，得到该数据的动作信息；再将之前获得的情绪模型与情绪数据库进行匹配对应，过程中加以动作信息的辅助，最终提取出输入数据的情绪；具体为：

●人体建模

●情绪状态提取

7.根据权利要求1所述的基于多模态的情绪识别方法，其特征在于：基于生理信号情绪识别步骤，在生理信号的情绪识别中利用了血液在人体内流动时光线的变化：心脏跳动时血液会通过血管，通过血管的血液量越大，被血液吸收的光线也越多，人皮肤表面反射的光线就越少，通过对图像的时频分析估算出心率；

8.根据权利要求1所述的基于多模态的情绪识别方法，其特征在于：数据采集设备包括摄像头、麦克风，检测心跳的手环，人体姿态多点检测传感器，机器人传感器采集系统，输出设备包括显示器，音箱/扬声器、耳机、打印机、机器人互动系统。