CN116671921A

CN116671921A - 智能设备的情感识别方法及其系统

Info

Publication number: CN116671921A
Application number: CN202310647627.5A
Authority: CN
Inventors: 蒋海飞; 吴成中; 毛建旭; 詹朝军; 张斌; 郭晨; 夏雨辰; 周显恩; 刘世福; 王飞文
Original assignee: Jiangxi Communication Terminal Industry Technology Research Institute Co ltd
Current assignee: Jiangxi Communication Terminal Industry Technology Research Institute Co ltd
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-09-01

Abstract

本申请涉及情感识别的领域，其具体地公开了一种智能设备的情感识别方法及其系统，其通过具有三维卷积核的卷积神经网络来从人脸监控视频的图像帧中提取出在时间维度上的隐含特征分布信息，并从脑电信号的时频关联特征中提取出时序上的高维关联特征信息，这样，在融合这两个特征信息时，引入了用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数，以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化，从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力，提高了分类准确性。这样，就可以对情感标签的类别进行有效地识别。

Description

智能设备的情感识别方法及其系统

技术领域

本发明涉及情感识别的领域，且更为具体地，涉及一种智能设备的情感识别方法及其系统。

背景技术

情感是人们进行认知、决策处理和人际互动的重要组成部分，在人们的日常交流和社会活动中起着重要的作用，医学、神经学、心理学和情感计算等领域的研究人员希望通过计算机系统识别和理解人类情感。随着科技的发展和社会的进步，人机交互（Human-Computer Interaction，HCI）技术引起了人们越来越多的关注。HCI 有着广阔的应用前景，比如在人机对话领域中，情感识别可以使机器感知人的情感心理状态，从而使机器更加了解对话对象，提供更加人性化的回答。提高人机对话体验具有重要的现实意义，在医疗领域中，情感识别可以辅助医生进行自闭症、焦虑症和一些脑功能障碍疾病的治疗；在航空航天领域，通过监控航天员的情感状态可以实时掌握航天员的生理状态，帮助航天员顺利完成航天任务。因此，对情感识别进行研究有着重大的意义。因此，期望一种智能设备的情感识别方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种智能设备的情感识别方法及其系统，其通过具有三维卷积核的卷积神经网络来从人脸监控视频的图像帧中提取出在时间维度上的隐含特征分布信息，并从脑电信号的时频关联特征中提取出时序上的高维关联特征信息，这样，在融合这两个特征信息时，引入了用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数，以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化，从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力，提高了分类准确性。这样，就可以对情感标签的类别进行有效地识别。

根据本申请的一个方面，提供了一种智能设备的情感识别方法，其包括：

获取预定时间段的人脸监控视频和所述预定时间段的脑电信号；

将所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图；

以预设采样窗从所述脑电信号的波形图中沿时序截取多个采样窗；

分别从各个所述采样窗中提取时域特征和频域特征；

将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵；

将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图；

分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数，其中，所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；

分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图；

融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图，并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图；以及

将所述分类特征图通过分类器以获得分类结果，其中，所述分类结果为情感标签。

根据本申请的另一方面，提供了一种智能设备的情感识别系统，其包括：

脑电信号获取单元，用于获取预定时间段的人脸监控视频和所述预定时间段的脑电信号；

第一特征图生成单元，用于将所述脑电信号获取单元获得的所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图；

采样窗截取单元，用于以预设采样窗从所述脑电信号获取单元获得的所述脑电信号的波形图中沿时序截取多个采样窗；

特征提取单元，用于分别从各个所述采样窗截取单元获得的所述采样窗中提取时域特征和频域特征；

关联矩阵生成单元，用于将各个所述特征提取单元获得的所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵；

第二特征图生成单元，用于将各个所述关联矩阵生成单元获得的所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图；

迭代互加权系数计算单元，用于分别将所述第一特征图生成单元获得的所述第一特征图和所述第二特征图生成单元获得的所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数，其中，所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；

加权单元，用于分别以所述迭代互加权系数计算单元获得的所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述迭代互加权系数计算单元获得的所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图；

融合单元，用于融合所述加权单元获得的所述第一修正后特征图和所述加权单元获得的所述第二修正后特征图以获得分类特征图；以及

分类单元，用于将所述融合单元获得的所述分类特征图通过分类器以获得分类结果，其中，所述分类结果为情感标签。

根据本申请的再又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的智能设备的情感识别方法。

与现有技术相比，本申请提供的智能设备的情感识别方法及其系统，其通过具有三维卷积核的卷积神经网络来从人脸监控视频的图像帧中提取出在时间维度上的隐含特征分布信息，并从脑电信号的时频关联特征中提取出时序上的高维关联特征信息，这样，在融合这两个特征信息时，引入了用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数，以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化，从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力，提高了分类准确性。这样，就可以对情感标签的类别进行有效地识别。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的智能设备的情感识别方法的应用场景图；

图2为根据本申请实施例的智能设备的情感识别方法的流程图；

图3为根据本申请实施例的智能设备的情感识别方法的系统架构示意图；

图4为根据本申请实施例的智能设备的情感识别系统的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如前所述，情感是人们进行认知、决策处理和人际互动的重要组成部分，在人们的日常交流和社会活动中起着重要的作用，医学、神经学、心理学和情感计算等领域的研究人员希望通过计算机系统识别和理解人类情感。随着科技的发展和社会的进步，人机交互（Human-Computer Interaction，HCI）技术引起了人们越来越多的关注。

HCI 有着广阔的应用前景，比如在人机对话领域中，情感识别可以使机器感知人的情感心理状态，从而使机器更加了解对话对象，提供更加人性化的回答。提高人机对话体验具有重要的现实意义，在医疗领域中，情感识别可以辅助医生进行自闭症、焦虑症和一些脑功能障碍疾病的治疗；在航空航天领域，通过监控航天员的情感状态可以实时掌握航天员的生理状态，帮助航天员顺利完成航天任务。因此，对情感识别进行研究有着重大的意义。因此，期望一种智能设备的情感识别方案。

目前，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。

深度学习以及神经网络的发展为智能设备的情感识别提供了新的解决思路和方案。

应可以理解，情感识别在不同的应用领域中都发挥着巨大的价值，因此对于情感识别的研究有着重大的意义，而这本质上是一个分类的问题，也就是，基于人脸的监控视频的图像特征和脑电信号的时频特征来综合对情感的标签进行分类识别，这里可以利用深度神经网络模型来进行特征的提取，并使用分类器来进行情感标签的分类。

基于此，在本申请的技术方案中，首先将人脸的监控视频通过3D卷积神经网络中进行处理，以提取出人脸监控视频中的各个图像帧在时序维度上的关联特征信息，从而获得第一特征图。

接着，以采样窗从脑电信号的原始波形图中截取多个采样窗，分别统计各个采样窗的时域特征和频域特征。

应可以理解，由于原始的EEG信号就是一个时域上的数据。时域分析关注的是EEG波幅随时间进程的变化情况，事件相关电位（ERP）分析就是最常用的时域分析方法，能够快速得到由某个事件（刺激）所引起的波幅值的变化。时域分析的优点在于其计算简单和快速，而且由于不需要进行滤波处理，相较于频域分析具有更高的时间精度和准确性。然而，时域分析并不足以全面反映EEG信号中所蕴藏的信息。

因此，还需要频域分析来进行辅助，频域分析实现的是EEG信号从时域到频域的转换，频域分析的结果为各个频率上的能量值分布，也就是我们常说的power值，实际处理中频域分析常使用的是傅里叶变换。由于脑电信号可以看成就是由不同的正弦信号混壘而成的混合信号，通过傅里叶变换，就能够将这个混合信号重新分解成具有不同频率的正弦波，从而获得频域上的信息。

然后，将各个采样窗的时域特征向量与频域特征向量的转置进行相乘以获得时-频域关联矩阵。进一步将时-频域关联矩阵的序列通过3D卷积神经网络，以提取出时频特征信息在时序上的关联特征分布，从而获得第二特征图。

但是，考虑到在融合第一特征图和第二特征图时，为了避免融合后的特征图在某个位置陷入局部最优，导致神经网络的参数更新不再能够迭代优化，因此首先引入用于对特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数，表示为：

其中和/>分别是第一特征图和第二特征图的转换到概率空间的每个位置的特征值，且/>是第一特征图和第二特征图共享的转换到概率空间后的最大特征值。

然后，以迭代互加权系数和/>分别对第一特征图和第二特征图的各个位置的特征值/>和/>进行加权，得到修正后的第一特征图和第二特征图。

这样，再融合修正后的第一特征图和第二特征图，就可以在一定程度上避免特征图在某些位置陷入局部最优而无法继续优化，从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力，提高了分类准确性。

另外，为了避免融合后的特征图的各个特征矩阵之间的高维特征流形的流形几何一致性差，分别计算所述融合后的特征图的每个特征矩阵的基于凸分解的特征几何度量的逐片近似因数，表示为：

其中，是每个特征矩阵/>的第/>个行向量或者列向量，/>表示将各个向量级联，且/>表示向量的二范数的平方。

具体地，所述基于凸分解的特征几何度量的逐片近似因数可以通过的平滑最大函数来定义每个特征矩阵的高维特征流形的局部几何形状间的符号化距离度量，以基于高维特征流形的凸多面体（convex polytope）分解来获得每个凸多面体对象的可微的凸指示符（convex indicator），并进而以/>函数确定用于表达高维特征流形的可学习的逐片凸分解的超平面距离参数，以近似地度量特征几何。这样，通过以所述基于凸分解的特征几何度量的逐片近似因数对各个特征矩阵进行加权，就可以提升所述融合后的特征图的各个特征矩阵的高维特征流形的流形几何一致性，从而提升其通过分类器进行分类回归时的收敛难度，以改进训练速度和收敛到的分类结果的准确性。

基于此，本申请提出了一种智能设备的情感识别方法，其包括：获取预定时间段的人脸监控视频和所述预定时间段的脑电信号；将所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图；以预设采样窗从所述脑电信号的波形图中沿时序截取多个采样窗；分别从各个所述采样窗中提取时域特征和频域特征；将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵；将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图；分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数，其中，所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图；融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图，并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图；以及，将所述分类特征图通过分类器以获得分类结果，其中，所述分类结果为情感标签。

图1图示了根据本申请实施例的智能设备的情感识别方法的应用场景图。如图1所示，在该应用场景中，首先，通过部署于智能设备（例如，如图1中所示意的智能手机H）中的摄像头（例如，如图1中所示意的C）获取预定时间段的人脸（例如，如图1中所示意的F）监控视频，以及通过脑电信号采集系统（例如，如图1中所示意的P）获取被测对象在所述预定时间段的脑电信号。然后，将获得的所述预定时间段的人脸监控视频以及所述预定时间段的脑电信号输入至部署有智能设备的情感识别算法的服务器中（例如，如图1中所示意的S），其中，所述服务器能够以智能设备的情感识别算法对所述预定时间段的人脸监控视频以及所述预定时间段的脑电信号进行处理，以生成情感标签。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2图示了智能设备的情感识别方法的流程图。如图2所示，根据本申请实施例的智能设备的情感识别方法，包括：S110，获取预定时间段的人脸监控视频和所述预定时间段的脑电信号；S120，将所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图；S130，以预设采样窗从所述脑电信号的波形图中沿时序截取多个采样窗；S140，分别从各个所述采样窗中提取时域特征和频域特征；S150，将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵；S160，将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图；S170，分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数，其中，所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；S180，分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图；S190，融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图，并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图；以及，S200，将所述分类特征图通过分类器以获得分类结果，其中，所述分类结果为情感标签。

图3图示了根据本申请实施例的智能设备的情感识别方法的架构示意图。如图3所示，在所述智能设备的情感识别方法的网络架构中，首先，将所述人脸监控视频（例如，如图3中所示意的P1）通过具有三维卷积核的卷积神经网络（例如，如图3中所示意的CNN）以获得第一特征图（例如，如图3中所示意的F1）；接着，以预设采样窗从所述脑电信号的波形图（例如，如图3中所示意的P2）中沿时序截取多个采样窗（例如，如图3中所示意的SW）；然后，分别从各个所述采样窗中提取时域特征（例如，如图3中所示意的Q1）和频域特征（例如，如图3中所示意的Q2）；接着，将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量（例如，如图3中所示意的V1）和第二输入向量（例如，如图3中所示意的V2）后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵（例如，如图3中所示意的M）；然后，将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络（例如，如图3中所示意的CNN）以获得第二特征图（例如，如图3中所示意的F2）；接着，分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图（例如，如图3中所示意的F3）和第二概率化特征图（例如，如图3中所示意的F4）后计算所述第一概率化特征图中各个位置的第一迭代互加权系数（例如，如图3中所示意的CW1）以及所述第二概率化特征图中各个位置的第二迭代互加权系数（例如，如图3中所示意的CW2）；然后，分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图（例如，如图3中所示意的FC1）和第二修正后特征图（例如，如图3中所示意的FC2）；接着，融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图，并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图（例如，如图3中所示意的F）；以及，最后，将所述分类特征图通过分类器（例如，如图3中所示意的分类器）以获得分类结果，其中，所述分类结果为情感标签。

在步骤S110和步骤S120中，获取预定时间段的人脸监控视频和所述预定时间段的脑电信号，并将所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图。如前所述，应可以理解，情感识别在不同的应用领域中都发挥着巨大的价值，因此对于情感识别的研究有着重大的意义，而这本质上是一个分类的问题，也就是，基于人脸的监控视频的图像特征和脑电信号的时频特征来综合对情感的标签进行分类识别，这里可以利用深度神经网络模型来进行特征的提取，并使用分类器来进行情感标签的分类。

也就是，在本申请的技术方案中，首先，通过部署于智能设备中的摄像头获取预定时间段的人脸监控视频，以及通过人体佩戴的电子设备中的传感器获取所述预定时间段的脑电信号。然后，将所述人脸的监控视频通过3D卷积神经网络中进行处理，以提取出所述人脸监控视频中的各个图像帧在时序维度上的关联特征信息，从而获得第一特征图。

在步骤S130和步骤S140中，以预设采样窗从所述脑电信号的波形图中沿时序截取多个采样窗，并分别从各个所述采样窗中提取时域特征和频域特征。也就是，在本申请的技术方案中，进一步以采样窗从所述脑电信号的原始波形图中截取多个采样窗，分别统计所述各个采样窗的时域特征和频域特征。相应地，在一个具体示例中，分别从各个所述采样窗中提取X1，X2....Xn作为所述时域特征以及y1，y2...yn作为所述频域特征。

应可以理解，由于所述原始的EEG信号就是一个时域上的数据。时域分析关注的是EEG波幅随时间进程的变化情况，在实际的应用中，事件相关电位（ERP）分析就是最常用的时域分析方法，能够快速得到由某个事件（刺激）所引起的波幅值的变化。所述时域分析的优点在于其计算简单和快速，而且由于不需要进行滤波处理，相较于频域分析具有更高的时间精度和准确性。然而，所述时域分析并不足以全面反映所述EEG信号中所蕴藏的信息。

因此，在本申请的技术方案中，还需要使用频域分析来辅助进行特征提取，所述频域分析实现的是EEG信号从时域到频域的转换，频域分析的结果为各个频率上的能量值分布，也就是我们常说的power值，实际处理中所述频域分析常使用的是傅里叶变换。由于所述脑电信号可以看成就是由不同的正弦信号混壘而成的混合信号，通过傅里叶变换，就能够将这个混合信号重新分解成具有不同频率的正弦波，从而获得频域上的信息。

在步骤S150和步骤S160中，将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵，并将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图。也就是，在本申请的技术方案中，在得到所述各个采样窗的时序特征和频域特征后，进一步将这两个特征分别排列为第一输入向量和第二输入向量，这样就可以将所述第一输入向量的转置与所述第二输入向量之间的向量相乘，以获得具有时频关联特征信息的各个所述采样窗的时-频域关联矩阵。然后，将得到的各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络中进行处理，以提取出时频特征信息在时序上的隐含关联特征分布，从而获得第二特征图。

在步骤S170中，分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数，其中，所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值。应可以理解，考虑到在融合所述第一特征图和所述第二特征图时，为了避免融合后的特征图在某个位置陷入局部最优，导致神经网络的参数更新不再能够迭代优化。因此，在本申请的技术方案中，首先引入用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数。

也就是，具体地，首先分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图。相应地，在一个具体示例中，以如下公式分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图；

其中，所述公式为：

x`=(x-μ)/σ

其中x是归一化前的所述第一特征图和第二特征图的各个位置的特征值，而x`是归一化后的所述第一特征图和第二特征图的各个对应位置的特征值，μ的每个位置的值是所述第一特征图和所述第二特征图中相应位置的特征值的均值，σ的每个位置的值是所述第一特征图和所述第二特征图的相应位置的特征值的方差。

然后，计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数。

具体地，在本申请的技术方案中，分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数，包括：分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后以如下公式计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数；

其中，所述公式为：

其中和/>分别是所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值，且/>是所述第一特征图和所述第二特征图共享的转换到概率空间后的最大特征值。

在步骤S180和步骤S190中，分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图，并融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图，并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图。应可以理解，在本申请的技术方案中，进一步以所述迭代互加权系数和/>分别对所述第一概率化特征图和所述第二概率化特征图的各个位置的特征值/>和/>进行加权，得到修正后的第一特征图和第二特征图。这样，再融合所述修正后的第一特征图和第二特征图，就可以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化，从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力，提高了分类准确性。

具体地，在本申请实施例中，融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图的过程，包括：以如下公式融合所述第一修正后特征图和所述第二修正后特征图以获得所述融合特征图；

其中，所述公式为：

F=+/>

其中，和/>分别表示所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值，/>和/>分别表示所述第二概率化特征图和所述第三概率化特征图的按位置迭代互加权系数。

在步骤S200中，将所述分类特征图通过分类器以获得分类结果，其中，所述分类结果为情感标签。特别地，在一个具体示例中，所述分类器以如下公式对所述分类特征图进行处理以生成分类结果，其中，所述公式为：，其中表示将所述分类特征图投影为向量，/>至/>为各层全连接层的权重矩阵，/>至表示各层全连接层的偏置矩阵。

综上，本申请实施例的智能设备的情感识别方法被阐明，其通过具有三维卷积核的卷积神经网络来从人脸监控视频的图像帧中提取出在时间维度上的隐含特征分布信息，并从脑电信号的时频关联特征中提取出时序上的高维关联特征信息，这样，在融合这两个特征信息时，引入了用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数，以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化，从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力，提高了分类准确性。这样，就可以对情感标签的类别进行有效地识别。

示例性系统

图4图示了根据本申请实施例的智能设备的情感识别系统的框图。如图4所示，根据本申请实施例的智能设备的情感识别系统 400，包括：脑电信号获取单元 410，用于获取预定时间段的人脸监控视频和所述预定时间段的脑电信号；第一特征图生成单元 420，用于将所述脑电信号获取单元 410获得的所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图；采样窗截取单元 430，用于以预设采样窗从所述脑电信号获取单元 410获得的所述脑电信号的波形图中沿时序截取多个采样窗；特征提取单元 440，用于分别从各个所述采样窗截取单元 430获得的所述采样窗中提取时域特征和频域特征；关联矩阵生成单元 450，用于将各个所述特征提取单元 440获得的所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵；第二特征图生成单元 460，用于将各个所述关联矩阵生成单元 450获得的所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图；迭代互加权系数计算单元 470，用于分别将所述第一特征图生成单元 420获得的所述第一特征图和所述第二特征图生成单元 460获得的所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数，其中，所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值；加权单元 480，用于分别以所述迭代互加权系数计算单元 470获得的所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述迭代互加权系数计算单元470获得的所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图；融合单元 490，用于融合所述加权单元 480获得的所述第一修正后特征图和所述加权单元 480获得的所述第二修正后特征图以获得分类特征图；以及，分类单元 500，用于将所述融合单元 490获得的所述分类特征图通过分类器以获得分类结果，其中，所述分类结果为情感标签。

在一个示例中，在上述智能设备的情感识别系统 400中，分别从各个所述采样窗中提取X1，X2....Xn作为所述时域特征以及y1，y2...yn作为所述频域特征。

在一个示例中，在上述智能设备的情感识别系统 400中，所述迭代互加权系数计算单元 470，进一步用于：以如下公式分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图；

其中，所述公式为：

x`=(x-μ)/σ

在一个示例中，在上述智能设备的情感识别系统 400中，所述迭代互加权系数计算单元 470，进一步用于：分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后以如下公式计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数；

其中，所述公式为：

在一个示例中，在上述智能设备的情感识别系统 400中，所述融合单元 490，进一步用于：以如下公式融合所述第一修正后特征图和所述第二修正后特征图以获得所述融合特征图；

其中，所述公式为：

F=+/>

其中，和/>分别表示所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值，/>和/>分别表示所述第二概率化特征图和所述第三概率化特征图的按位置迭代互加权系数；

以如下公式计算所述融合特征图的各个特征矩阵的基于凸分解的特征几何度量的逐片近似因数；

其中，所述公式为：

其中，是所述融合特征图的各个特征矩阵/>的第/>个行向量或者列向量，/>表示将各个向量级联，且/>表示向量的二范数的平方，/>是基于凸分解的特征几何度量的逐片近似因数；以及

以所述基于凸分解的特征几何度量的逐片近似因数对所述融合特征图的各个特征矩阵进行加权以得到分类特征图。

在一个示例中，在上述智能设备的情感识别系统 400中，所述分类单元 500，进一步用于：所述分类器以如下公式对所述分类特征图进行处理以生成分类结果，其中，所述公式为：，其中/>表示将所述分类特征图投影为向量，/>至/>为各层全连接层的权重矩阵，/>至/>表示各层全连接层的偏置矩阵。

这里，本领域技术人员可以理解，上述智能设备的情感识别系统 400中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的智能设备的情感识别方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的智能设备的情感识别系统 400可以实现在各种终端设备中，例如智能设备的情感识别算法的服务器等。在一个示例中，根据本申请实施例的智能设备的情感识别系统 400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该智能设备的情感识别系统 400可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该智能设备的情感识别系统 400同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该智能设备的情感识别系统 400与该终端设备也可以是分立的设备，并且该智能设备的情感识别系统 400可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的智能设备的情感识别方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的智能设备的情感识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种智能设备的情感识别方法，其特征在于，包括：

分别从各个所述采样窗中提取时域特征和频域特征；

2.根据权利要求1所述的智能设备的情感识别方法，其中，分别从各个所述采样窗中提取时域特征和频域特征，包括：

分别从各个所述采样窗中提取X1，X2....Xn作为所述时域特征以及y1，y2...yn作为所述频域特征。

3.根据权利要求2所述的智能设备的情感识别方法，其中，分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图，包括：

以如下公式分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图；

其中，所述公式为：

x`=(x-μ)/σ

4.根据权利要求3所述的智能设备的情感识别方法，其中，分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数，包括：

分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后以如下公式计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数；

其中，所述公式为：

5.根据权利要求4所述的智能设备的情感识别方法，其中，融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图，并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图，包括：

以如下公式融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图；

其中，所述公式为：

F=+/>其中，/>和/>分别表示所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值，/>和/>分别表示所述第二概率化特征图和所述第三概率化特征图的按位置迭代互加权系数；

其中，所述公式为：

其中，是所述融合特征图的各个特征矩阵/>的第/>个行向量，/>表示将各个向量级联，且/>表示向量的二范数的平方，/>是基于凸分解的特征几何度量的逐片近似因数；以及

6.根据权利要求5所述的智能设备的情感识别方法，其中，将所述分类特征图通过分类器以获得分类结果，包括：

所述分类器以如下公式对所述分类特征图进行处理以生成分类结果，其中，所述公式为：，其中/>表示将所述分类特征图投影为向量，/>至/>为各层全连接层的权重矩阵，/>至/>表示各层全连接层的偏置矩阵。

7.一种智能设备的情感识别系统，其特征在于，包括：

8.根据权利要求7所述的智能设备的情感识别系统，其中，所述迭代互加权系数计算单元，进一步用于：

其中，所述公式为：

x`=(x-μ)/σ

9.根据权利要求7所述的智能设备的情感识别系统，其中，所述迭代互加权系数计算单元，进一步用于：

其中，所述公式为：

10.根据权利要求7所述的智能设备的情感识别系统，其中，所述融合单元，进一步用于：

其中，所述公式为：