CN113887365A

CN113887365A - 一种基于多模态数据融合的特殊人员情感识别方法及系统

Info

Publication number: CN113887365A
Application number: CN202111126655.XA
Authority: CN
Inventors: 翟超; 倪志祥; 李玉军; 杨阳
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-01-04

Abstract

本发明涉及一种基于多模态数据融合的特殊人员情感识别方法及系统，包括步骤如下：(1)对获取的特殊人员的生理参数、姿态参数、音频、视频进行预处理，并提取对应的空时特征矢量；(2)融合生理参数、姿态参数、音频、视频的空时特征矢量，提取联合特征矢量；(3)将联合特征矢量输入训练好的情感识别模型进行情感识别。本发明实现多模态数据的采集、处理及融合，提高特殊人员情感识别准确率。本发明有助于监管人员及时把握特殊人员的情感状况，采取针对性的监管矫治策略，减少极端事件的发生，维护特殊场所的安全和稳定。

Description

一种基于多模态数据融合的特殊人员情感识别方法及系统

技术领域

本发明涉及一种基于多模态数据融合的特殊人员情感识别方法及系统，属于人工智能、信号处理技术领域。

背景技术

深度学习技术能够充分挖掘数据所蕴含的深层次空时特征，通过构建基于深度学习的神经网络，采用基于后向传播的随机梯度下降法以监督方式训练网络，可对关注对象进行智能识别分类。数据融合技术能够利用不同模态数据之间的互补性和冗余性，弥补单一模态数据质量较低、不同对象类别的特征区分不明显等缺陷，通过多模态数据的融合分析，有效提高对象识别分类的准确率。

在特殊场所中，了解特殊人员真实的情感状态对于降低监管风险、调整矫治方案、提升矫治效果具有重要的意义。在问询时，特殊人员具有较强的防范意识，往往隐藏其真实情感。需要从日常表现中研判特殊人员的真实情感状态，比如可以分析监控视频，但是这会带来很大的工作量，极易引发疲劳并且识别效果不佳。因此，有必要采用智能的方式实现情感状态的识别分类。通过给特殊人员佩戴物联终端采集其生理参数(心率、呼吸率、体温、皮电、心电、脑电等)和姿态参数(加速度、角速度等)，捕捉其不同情感下的生理参数和姿态参数变化；通过拾音器采集特殊人员的音频数据，捕捉其不同情感下的声音特征；通过摄像头采集特殊人员的视频数据，捕捉其面部表情及肢体动作等信息。如何将生理、姿态、音频、视频等不同模态的数据融合在一起，充分挖掘不同模态数据之间的互补信息，是提高情感识别准确率的关键。

在特殊场所中，目前还没有针对特殊人员的智能情感识别系统，特别是在亲情会见场景和谈话问询场景。因此，构建基于深度学习的情感识别模型及系统，智能融合多模态数据，精准识别特殊人员的情感状态具有紧迫的需求。

发明内容

本发明针对特殊人员情感状态隐匿性强的特点，提供了一种基于多模态数据融合的特殊人员情感识别方法，采集特殊人员在特定场景下的生理、姿态、音频、视频等多模态数据，提取数据深层次的空时特征并实现混合融合，精准识别特殊人员的情感状态；构建了特殊人员情感识别系统，可灵活配置系统参数，实现多种场景下的数据采集和存储，可直观显示特殊人员的情感状态及变化轨迹。

本发明的目的在于提供一种基于深度学习的特殊人员情感识别方法和系统，实现多模态数据的采集、处理及融合，提高特殊人员情感识别准确率。本发明有助于监管人员及时把握特殊人员的情感状况，采取针对性的监管矫治策略，减少极端事件的发生，维护特殊场所的安全和稳定。

术语解释：

1、数据清洗：数据采集和传输过程中难免会出现一些差错，因此需要对所获得的数据进行一定的处理，包括筛选并清除重复和多余的数据，插补缺失的数据，纠正或删除异常数据，滤除数据上附加的噪音，提高数据质量，降低神经网络处理数据过程中的错误率。

2、数据对齐：不同物联终端的数据采集频率和数据量可能不同，在对多模态数据进行融合分析时，需要按照一定的对应关系截取同一时间段内的多模态数据。

3、数据规范化：不同传感器采集的数据取值范围不同，数值间的差别较大，需要将所采集的数据按照一定的规则进行缩放，使其数值落在一个特定的区域内，比如[-1，1]或[0,1]之内，使神经网络在训练时更快地收敛。常用的方法有最小-最大规范化、零均值规范化、小数定标规范化等。

4、音频滤波：采用数字滤波器滤除音频信号中的噪音，提高音频信号的纯净性，然后加重音信号的高频成分，增加语音的高频分辨率，弥补口唇辐射过程中声音的衰弱，提高音频信号的质量。

5、视频解码：各种监控视频或离线视频的格式、码率和分辨率可能不一致，需要针对不同的视频格式采用不同的解码器，将一段视频分解成连续的帧图像，然后对连续帧进行神经网络运算。

6、短时傅里叶变换技术：采用时间窗的方式截取一段时间内的信号，进行傅里叶变换获取这段时间内的频谱特征，将所有时间段的频谱特征拼接成二维矩阵的形式。时间窗的长度决定频谱图的时间分辨率和频率分辨率，应该根据具体需求进行取舍。

7、梅尔倒频谱系数：人类听觉的感知只聚焦在某些特定的频率分量上，采用梅尔刻度的滤波器组将短时傅里叶变换后的频谱转换为梅尔非线性频谱，可获得与人耳听觉特性相符的频域数据，然后进行倒谱分析，获得频谱的包络，则提取到了语音特征，即为梅尔倒谱系数。

本发明的技术方案如下：

一种基于多模态数据融合的特殊人员情感识别方法，包括步骤如下：

(1)对获取的特殊人员的生理参数、姿态参数、音频、视频进行预处理，并提取对应的生理参数、姿态参数、音频、视频的空时特征矢量；

(2)融合步骤(1)生理参数、姿态参数、音频、视频的空时特征矢量，提取联合特征矢量；

(3)将步骤(2)提取的联合特征矢量输入训练好的情感识别模型进行情感识别。

根据本发明优选的，通过可穿戴设备采集特殊人员的生理参数和姿态参数，生理参数包括心率、呼吸率、体温、皮电、心电、脑电；姿态参数包括X轴加速度，Y轴加速度、Z轴加速度、X轴角速度、Y轴角速度、Z轴角速度；通过拾音器采集音频；通过摄像头采集视频。

根据本发明优选的，步骤(1)中，对获取的特殊人员的生理参数、姿态参数、音频、视频进行预处理，是指：对获取的特殊人员的生理参数和姿态参数进行数据清洗，对音频进行音频滤波，对视频进行视频解码；将获取的特殊人员的同一时间段内的生理参数、姿态参数、音频、视频进行数据规范化和数据对齐操作。

根据本发明优选的，步骤(1)中，求取生理参数的空时特征矢量，具体是指：

将每个采样时刻所采集的生理参数拼接成矢量；将不同采样时刻所采集的生理参数拼接成二维矩阵，每一行表示每个采样时刻所采集的生理参数；

将二维矩阵输入12层2D残差卷积网络进行运算，提取生理参数的空时特征图；12层2D残差卷积网络中，每层均采用3x3卷积，默认步幅为1，卷积核步幅为2，前4层的卷积核均为64个，中间4层卷积核均为128个，后4层卷积核均为256个，最终获得生理参数的空时特征图。

根据本发明优选的，步骤(1)中，求取姿态参数的空时特征矢量，具体是指：

将每个采样时刻所采集的姿态参数拼接成矢量；将不同采样时刻所采集的姿态参数拼接成二维矩阵，每一行表示每个采样时刻所采集的姿态参数；

将二维矩阵输入12层2D残差卷积网络进行运算，提取姿态参数的空时特征图；12层2D残差卷积网络中，每层均采用3x3卷积，默认步幅为1，卷积核步幅为2，前4层的卷积核均为64个，中间4层卷积核均为128个，后4层卷积核均为256个，最终获得姿态参数的空时特征图。

根据本发明优选的，步骤(1)中，求取音频的空时特征矢量，具体是指：

将每个音频片段等分成多个音频短片段；

采用短时傅里叶变换技术，得到每个音频短片段的时频域特征；

计算梅尔倒频谱系数，得到多个音频片段的二维频谱矩阵；

将二维频谱矩阵输入12层2D残差卷积网络进行运算，提取音频的空时特征图；12层2D残差卷积网络中，每层均采用3x3卷积，默认步幅为1，卷积核步幅为2，前4层的卷积核均为64个，中间4层卷积核均为128个，后4层卷积核均为256个，最终获得音频的空时特征图。

根据本发明优选的，步骤(1)中，求取视频的空时特征矢量，具体是指：

将视频片段分解成不同的帧，每帧包括R、G、B三个堆叠通道；

将不同的帧输入12层(2+1)D残差卷积网络提取视频的空时特征矢量；

12层(2+1)D残差卷积网络包含12个残差块，每个残差块中采用1x3x3卷积，提取空间特征，默认步幅为1，卷积核由少到多过渡时步幅为2，前4层的卷积核均为64个，中间4层卷积核均为 128个，后4层卷积核均为256个，最终获得视频的特征图。

根据本发明优选的，步骤(2)的具体实现过程如下：

将生理参数、姿态参数、音频、视频的特征图分别压平为特征矢量，然后将所有的特征矢量串接在一起，组成全局特征矢量，实现特征层的融合；

采用多层全连接网络实现联合特征矢量提取，并暂存该时间段内的特征矢量；具体是指：将全局特征矢量输入多层全连接网络，多层全连接网络每层的神经元均与下一层的所有神经元按照权值相连，每层神经元的取值为上层所有神经元输出值的加权求和，经ReLU激活函数运算后作为该神经元的输出值，最终提取到多模数据中所蕴含的联合特征矢量。

根据本发明优选的，情感识别模型为多层门控循环单元。

根据本发明优选的，步骤(3)中，获得所有时间段内的特征矢量，输入训练好的情感识别模型进行计算，最终以概率方式输出情感识别结果，情感识别结果是指情感类别，包括正常、悲伤、恐惧、惊奇、厌恶、愤怒、高兴共七类情感状态。

根据本发明优选的，情感识别模型的训练过程为：

A、构建多模态情感数据集：

在亲情会见及谈话问询场景下，采集特殊人员的生理参数、姿态参数、音频、视频，由若干问询人员共同识别并标注特殊人员的情感类别，构建多模态情感数据集；

或者，采用情感诱导范式，给特殊人员观看不同情感类的视听材料或完成特定任务，采集特殊人员的生理参数、姿态参数、音频、视频，并标注特殊人员的情感类别，构建多模态情感数据集；

采用数据增强方式扩充部分情感类样本，针对某个样本，可随机选择开始时间截取其一定时间段内的多模态数据作为新的样本；将数据集划分为训练集、验证集、测试集；

B、预处理多模态情感数据集；

将步骤A构建的多模态情感数据集依次进行步骤(1)、步骤(2)的处理；

C、训练情感识别模型

将步骤B处理后的多模态情感数据集输入情感识别模型进行迭代训练，采用随机梯度下降法训练情感识别模型的网络参数，采用验证集选择合适的超参数，采用测试集评估网络性能，得到训练好的情感识别模型。

一种基于多模态数据融合的特殊人员情感识别系统，包括数据采集和处理单元、情感智能识别单元、前端交互单元、系统管理单元；

所述数据采集和处理单元用于：通过互联网或着以蓝牙/Wifi等方式采集物联终端的生理参数、姿态参数、音频、视频，对离线或在线数据进行预处理；

所述情感智能识别单元用于：调用基于多模态数据融合的特殊人员情感识别方法，识别特殊人员的情感类别；

所述前端交互单元用于：直观显示特殊人员的情感识别结果及情感轨迹；

所述系统管理单元用于：构建一个管理页面，包括注册和登陆功能，提供安全认证和身份鉴权机制，构建并管理特殊人员的生理参数、姿态参数、音频、视频的数据库。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于多模态数据融合的特殊人员情感识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于多模态数据融合的特殊人员情感识别方法的步骤。

本发明的有益效果为：

1、在特殊场所亲情会见和谈话问询场景下，本发明采集特殊人员的多模态数据，包括生理参数、姿态参数、音频、视频(表情和肢体动作)，提取了每类数据的深层次语义特征，同时提取了多模态数据的联合时空特征，实现了多模异构数据的融合分析。

2、本发明构造了(2+1)D残差卷积网络模型实现监控视频空时特征的提取，相比传统3D卷积降低了参数量，提高了计算效率，同时有利于信息的跨层传递，减少了梯度消失问题的发生。

3、本发明将特殊人员整个亲情会见或谈话问询过程划分成等间隔的时间端，在每段时间内都进行多模态数据的融合分析，提取联合空时特征，针对多个时间段的特征矢量采用多层GRU实现了情感状态的分类，相比基于短时数据的情感分类，能更充分地评估整个过程中的情感。

4、单评估量表或问询人员主观判断方式难以突破特殊人员的隐匿性，本发明方法基于客观的传感数据和音视频数据，能够深入挖掘特殊人员的真实情感波动，对症采取监管矫治措施。

附图说明

图1为本发明基于多模态数据融合的特殊人员情感识别方法的流程框图；

图2为本发明情感识别模型的训练过程的示意图；

图3为12层2D残差卷积网络的结构示意图；

图4为12层(2+1)D残差卷积网络的结构示意图；

图5为多层全连接网络联合特征提取示意图；

图6为七层GRU网络模型的结构示意图。

具体实施方式

下面结合具体实施方式，对本发明进行进一步的说明，但不限于此例。

实施例1

一种基于多模态数据融合的特殊人员情感识别方法，该方法采用深度学习技术挖掘数据的深层次语义特征并实现跨模态融合，以概率化的方式输出特殊人员的情感类别，构建深度学习网络，实现多模态数据的混合融合及情感精准识别，如图1所示，包括步骤如下：

通过可穿戴设备采集特殊人员一段时间(比如3秒)内的生理参数和姿态参数，生理参数包括心率、呼吸率、体温、皮电、心电、脑电；姿态参数包括X轴加速度，Y轴加速度、Z轴加速度、X 轴角速度、Y轴角速度、Z轴角速度；通过拾音器采集音频；通过摄像头采集视频。

(3)将步骤(2)提取的联合特征矢量输入训练好的情感识别模型进行情感识别，包括正常、悲伤、恐惧、惊奇、厌恶、愤怒、高兴等七类情感。

实施例2

根据实施例1所述的一种基于多模态数据融合的特殊人员情感识别方法，其区别在于：

步骤(1)中，对获取的特殊人员的生理参数、姿态参数、音频、视频进行预处理，是指：对获取的特殊人员的生理参数和姿态参数进行数据清洗，对音频进行音频滤波，对视频进行视频解码；将获取的特殊人员的同一时间段内的生理参数、姿态参数、音频、视频进行数据规范化和数据对齐操作。

步骤(1)中，求取生理参数的空时特征矢量，具体是指：将每个采样时刻所采集的生理参数拼接成矢量；如果采样频率不一致，以最高采样频率为基准，插补低采样频率的数据。将不同采样时刻所采集的生理参数拼接成二维矩阵，每一行表示每个采样时刻所采集的生理参数；

将二维矩阵输入12层2D残差卷积网络进行运算，提取生理参数的空时特征图；如图3所示， 12层2D残差卷积网络中，每层均采用3x3卷积，默认步幅(Stride)为1，卷积核由少到多过渡时的步幅为2，前4层的卷积核均为64个，中间4层卷积核均为128个，后4层卷积核均为256 个，最终获得生理参数的空时特征图。

步骤(1)中，求取姿态参数的空时特征矢量，具体是指：将每个采样时刻所采集的姿态参数拼接成矢量；将不同采样时刻所采集的姿态参数拼接成二维矩阵，每一行表示每个采样时刻所采集的姿态参数；

步骤(1)中，求取音频的空时特征矢量，具体是指：

将每个音频片段等分成多个音频短片段；

计算梅尔倒频谱系数，得到多个音频片段的二维频谱矩阵；

步骤(1)中，求取视频的空时特征矢量，具体是指：

如图4所示，12层(2+1)D残差卷积网络包含12个残差块，每个残差块采用1xSxS(在对网络进行监督训练时，基于验证集选择合适的超参数S，一般取值为3)卷积运算提取空间特征，紧跟 Tx1x1(在对网络进行监督训练时，基于验证集选择合适的超参数T，一般取值为3)卷积运算提取时间特征，在空间和时间域上分别采用2D和1D卷积实现了3D卷积的效果，相比3D卷积减少了网络参数，提高了计算效率。每个残差块中采用1x3x3卷积，提取空间特征，默认步幅为1，卷积核由少到多过渡时步幅为2，前4层的卷积核均为64个，中间4层卷积核均为128个，后4层卷积核均为256个，最终获得视频的特征图。

实施例3

根据实施例1或2所述的一种基于多模态数据融合的特殊人员情感识别方法，其区别在于：

步骤(2)的具体实现过程如下：

将生理参数、姿态参数、音频、视频的特征图分别压平(Flatten)为特征矢量，然后将所有的特征矢量串接在一起，组成全局特征矢量，实现特征层的融合；

采用多层全连接网络实现联合特征矢量提取，并暂存该时间段内的特征矢量；如图5所示，具体是指：将全局特征矢量输入多层全连接网络，多层全连接网络每层的神经元均与下一层的所有神经元按照一定的权值相连，每层神经元的取值为上层所有神经元输出值的加权求和，经ReLU激活函数运算后作为该神经元的输出值，最终提取到多模数据中所蕴含的联合特征矢量。

情感识别模型为多层门控循环单元(GRU网络模型)。

如图6所示，GRU较长短期记忆网络(LSTM)的结构更加简单，而且效果也很好，可以解决循环神经网络长依赖问题。在GRU模型中有两个门：分别是更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集上，重置门越小，前一状态的信息被写入的越少。本方法采用多层GRU网络，提取不同时段全局特征矢量的时序关系，识别情感类别。

步骤(3)中，获得所有时间段内的特征矢量，输入训练好的情感识别模型进行计算，最终以概率方式输出情感识别结果，情感识别结果是指情感类别，包括正常、悲伤、恐惧、惊奇、厌恶、愤怒、高兴共七类情感状态。

如图2所示，情感识别模型的训练过程为：

A、构建多模态情感数据集：

在亲情会见及谈话问询场景下，采集特殊人员的生理参数、姿态参数、音频、视频，由若干共同识别并标注特殊人员的情感类别，构建多模态情感数据集；

或者，采用情感诱导范式，给特殊人员观看不同情感类的视听材料或完成特定任务等，采集特殊人员的生理参数、姿态参数、音频、视频，并标注特殊人员的情感类别，构建多模态情感数据集；

采用数据增强方式扩充部分情感类样本；比如，重叠切割视频和音频数据片段，并截取相应的生理参数、姿态参数，或者采用两个案例加权构造一个案例等方式扩充样本数。也可以对视频中每帧图像同步旋转、平移和缩放等以扩充数据集。将数据集划分为训练集、验证集、测试集；将多模态情感数据集中所有的样本按照7类情感进行标注，按照6：2：2的比例划分为训练集、验证集、测试集。

B、预处理多模态情感数据集；

C、训练情感识别模型

将步骤B处理后的多模态情感数据集输入情感识别模型进行迭代训练，采用随机梯度下降法训练情感识别模型的网络参数，采用正则化、dropout、学习率动态调整等方法避免过拟合问题，采用验证集选择合适的超参数，采用测试集评估网络性能，得到训练好的情感识别模型。具体的，针对每个Epoch,将验证集按照随机等量的方式划分为批(Batch)，对于每个批集合，采用基于反向传播的随机梯度下降法计算并调整网络参数。其中，采用滑动时间窗口的方式将每个样本的多模态数据分为等长的N个时段，然后按照网络的模型进行训练。需要训练多个Epoch，每经过一次Epoch 训练后，采用验证集计算损失函数和准确率，以选择合适的超参数值，包括正则化参数、dropout 参数、动态学习率等，避免过拟合的发生。

在实际场景下，按照等间隔时间采集特殊人员多模态数据，并进行预处理，调用情感识别算法，实现跨模态数据特征提取和融合，并暂存每个时间段的特征矢量。

判断是否完成了指定时间长度的数据采集，或者谈话过程是否结束。如果还未完成，则重复前面步骤的数据采集和融合分析，如果已经完成，则进入下一步。

采用多层门控循环单元(GRU)实现不同时间段特征矢量的联合时间特征提取，识别整个会谈过程中特殊人员所体现出的情感状态，系统前端直观显示，并存储数据。

总结情感识别过程中的案例，做好标注，归入数据集，对网络进行增量训练，优化网络参数。

实施例4

数据采集和处理单元用于：通过互联网或着以蓝牙/Wifi等方式采集物联终端的生理参数、姿态参数、音频、视频，对离线或在线数据进行预处理；情感智能识别单元用于：调用基于多模态数据融合的特殊人员情感识别方法，识别特殊人员的情感类别；前端交互单元用于：直观显示特殊人员的情感识别结果及情感轨迹；管理人员能够配置系统参数、对特殊人员进行搜索归类、打印报表、修改数据等；系统管理单元用于：构建一个管理页面，包括注册和登陆功能，提供安全认证和身份鉴权机制，构建并管理特殊人员的生理参数、姿态参数、音频、视频的数据库。

实施例5

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-3任一所述的基于多模态数据融合的特殊人员情感识别方法的步骤。

实施例6

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1-3任一所述的基于多模态数据融合的特殊人员情感识别方法的步骤。

Claims

1.一种基于多模态数据融合的特殊人员情感识别方法，其特征在于，包括步骤如下：

2.根据权利要求1所述的一种基于多模态数据融合的特殊人员情感识别方法，其特征在于，步骤(1)中，求取生理参数的空时特征矢量，具体是指：

将二维矩阵输入12层2D残差卷积网络进行运算，提取生理参数的空时特征图；12层2D残差卷积网络中，每层均采用3x3卷积，默认步幅为1，卷积核步幅为2，前4层的卷积核均为64个，中间4层卷积核均为128个，后4层卷积核均为256个，最终获得生理参数的空时特征图；

步骤(1)中，求取姿态参数的空时特征矢量，具体是指：

将二维矩阵输入12层2D残差卷积网络进行运算，提取姿态参数的空时特征图；

步骤(1)中，求取音频的空时特征矢量，具体是指：

将每个音频片段等分成多个音频短片段；

计算梅尔倒频谱系数，得到多个音频片段的二维频谱矩阵；

将二维频谱矩阵输入12层2D残差卷积网络进行运算，提取音频的空时特征图。

3.根据权利要求1所述的一种基于多模态数据融合的特殊人员情感识别方法，其特征在于，步骤(1)中，求取视频的空时特征矢量，具体是指：

12层(2+1)D残差卷积网络包含12个残差块，每个残差块中采用1x3x3卷积，提取空间特征，默认步幅为1，卷积核由少到多过渡时步幅为2，前4层的卷积核均为64个，中间4层卷积核均为128个，后4层卷积核均为256个，最终获得视频的特征图。

4.根据权利要求1所述的一种基于多模态数据融合的特殊人员情感识别方法，其特征在于，通过可穿戴设备采集特殊人员的生理参数和姿态参数，生理参数包括心率、呼吸率、体温、皮电、心电、脑电；姿态参数包括X轴加速度，Y轴加速度、Z轴加速度、X轴角速度、Y轴角速度、Z轴角速度；通过拾音器采集音频；通过摄像头采集视频；

步骤(1)中，对获取的特殊人员的生理参数、姿态参数、音频、视频进行预处理，是指：

对获取的特殊人员的生理参数和姿态参数进行数据清洗，对音频进行音频滤波，对视频进行视频解码；将获取的特殊人员的同一时间段内的生理参数、姿态参数、音频、视频进行数据规范化和数据对齐操作。

5.根据权利要求1所述的一种基于多模态数据融合的特殊人员情感识别方法，其特征在于，步骤(2)的具体实现过程如下：

6.根据权利要求1所述的一种基于多模态数据融合的特殊人员情感识别方法，其特征在于，情感识别模型为多层门控循环单元，情感识别模型的训练过程为：

A、构建多模态情感数据集：

采集特殊人员的生理参数、姿态参数、音频、视频，识别并标注特殊人员的情感类别，构建多模态情感数据集；将数据集划分为训练集、验证集、测试集；

B、预处理多模态情感数据集；

C、训练情感识别模型

将步骤B处理后的多模态情感数据集输入情感识别模型进行迭代训练，采用随机梯度下降法训练情感识别模型的网络参数，得到训练好的情感识别模型。

7.根据权利要求1所述的一种基于多模态数据融合的特殊人员情感识别方法，其特征在于，步骤(3)中，获得所有时间段内的特征矢量，输入训练好的情感识别模型进行计算，最终以概率方式输出情感识别结果，情感识别结果是指情感类别，包括正常、悲伤、恐惧、惊奇、厌恶、愤怒、高兴共七类情感状态。

8.一种基于多模态数据融合的特殊人员情感识别系统，用于实现权利要求1-7任一所述的基于多模态数据融合的特殊人员情感识别方法，其特征在于，包括数据采集和处理单元、情感智能识别单元、前端交互单元、系统管理单元；

所述数据采集和处理单元用于：通过互联网或着以蓝牙/Wifi方式采集物联终端的生理参数、姿态参数、音频、视频，对离线或在线数据进行预处理；

所述系统管理单元用于：构建管理页面，包括注册和登陆功能，提供安全认证和身份鉴权机制，构建并管理特殊人员的生理参数、姿态参数、音频、视频的数据库。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现基于多模态数据融合的特殊人员情感识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现基于多模态数据融合的特殊人员情感识别方法的步骤。