CN106529504A

CN106529504A - 一种复合时空特征的双模态视频情感识别方法

Info

Publication number: CN106529504A
Application number: CN201611096937.9A
Authority: CN
Inventors: 王晓华; 侯登永; 彭穆子; 李艳秋; 胡敏; 任福继
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2017-03-22
Anticipated expiration: 2036-12-02
Also published as: CN106529504B

Abstract

本发明公开了一种复合时空特征的双模态视频情感识别方法，包括如下步骤：1对现有体积局部二值模式算法扩展成时空三值模式，获取人脸表情和上身姿态的时空局部三值模式矩纹理特征；2为弥补纹理特征缺乏图像边缘和方向信息的表达，本发明进一步融合三维梯度方向直方图特征来增强对情感视频的描述，将两种特征组合成复合时空特征；3使用D‑S证据联合规则将两种模态的信息进行融合，获得情感识别结果。本发明利用复合时空特征对情感视频进行充分描述，降低时间复杂度，提高情感识别的准确率。

Description

一种复合时空特征的双模态视频情感识别方法

技术领域

本发明涉及到特征提取方法和分类判别，属于模式识别领域，具体地说是一种基于多特征描述及D-S证据融合的情感识别方法。

背景技术

现如今，计算机视觉和人工智能发展相当迅速，人机交互应运而生，人类迫切希望计算机具有同人类一样的感情，可以理解人类的情感，这就要求将情感维度引入人机交互，使计算机具有情感感知和识别能力。

情感的表达可以通过多种方式实现，主要包括面部表情、姿势动作、言语等。其中，面部表情是通过采集人脸面部图像获得，姿势动作是通过手部、头部等运动产生，言语也是情感表达的一个重要渠道。人类通过多种模态与外界进行情感交流，与此同时，外界也通过不同方式获知人类的情感状态。

既然人类的情感状态是通过多种方式表达的，那么仅通过单模态进行情感识别就会存在一定的局限性，双模态或者多种模态的情感识别正逐渐成为目前研究的主流趋势。

体积局部二值模式(Volume Local Binary Pattern，VLBP)是一种被广泛应用于视频纹理提取的描述算法，具有对光照及情感变化的鲁棒性。但是VLBP特征是由二进制序列的十进制编码得到的，这样会使得语义上相似的特征经十进制编码后相差很大，导致相似的特征无法落入直方图邻近的区域，最终导致直方图分布过于稀疏。同时，VLBP特征的维数也比较大，特征维数随邻域个数呈指数增长。这些因素都会使得VLBP特征的性能大大降低。

发明内容

本发明为避免上述现有技术存在的不足之处，提出一种复合时空特征的双模态视频情感识别方法，以期利用复合时空特征对情感视频进行充分描述，降低时间复杂度，提高情感识别的准确率。

本发明为解决技术问题采用如下技术方案：

本发明一种复合时空特征的双模态视频情感识别方法的特点是按如下步骤进行：

步骤1、对人脸表情与上身姿态数据库中已知情感类别的Q个情感视频进行预处理

步骤1.1、获得任意第q个情感视频的每一帧图像，并进行归一化处理和直方图均衡化处理，从而得到像素为L₁×W₁的第i个上身姿态图像集，从而获得包含Q个上身姿态图像集的集合；1≤q≤Q；

步骤1.2、利用Haar-like小波特征和积分图方法对所述第q个上身姿态图像集中的每一幅图像进行人脸区域检测，并对检测到的人脸区域采用双向灰度积分投影法进行眼睛定位，再对定位后的人脸区域进行归一化处理和直方图均衡化处理，从而获得像素为L₂×W₂的第q个人脸表情图像集；从而获得包含Q个人脸表情图像集的集合；

步骤1.3、利用k-means聚类算法将所述第q个上身姿态图像集中的所有图像聚为k类，分别选取k类的k幅中心图像组成第q个上身姿态图像序列，从而获得包含Q个上身姿态图像序列的集合；k≥3；

利用k-means聚类算法将所述第q个人脸表情图像集中的所有图像聚为k类，分别选取k类的k幅中心图像组成第q个人脸表情图像序列，从而获得包含Q个人脸表情图像序列的集合；

步骤1.4、以所述第q个上身姿态图像序列作为第q个上身姿态样本，以包含Q个上身姿态图像序列的集合作为上身姿态样本集；

以所述第q个人脸表情图像序列作为第q个人脸表情样本，以包含Q个人脸表情图像序列的集合作为人脸表情样本集；

从所述上身姿态样本集中选取N个上身姿态样本作为上身姿态训练集；剩余Q-N作为上身姿态测试集；1＜N＜Q；

从所述人脸表情样本集中选取N个上身姿态样本作为人脸表情训练集；剩余Q-N作为人脸表情测试集；

步骤2、时空局部三值模式矩的特征提取

步骤2.1、以所述上身姿态测试集和所述人脸表情测试集中的任意一个包含k幅中心图像的样本作为一个时空体；

将所述时空体中的每一幅中心图像进行相同大小的均匀分块，得到W个分块；并将每一幅中心图像的相同位置上的分块组成包含k个分块的子时空体，从而W个子时空体；

步骤2.2、计算任意一个子时空体中第t个分块的中心像素值g_t(i,j)的能量值E_ASM，从而获得任意一个子时空体的第t个分块的所有中心像素值的能量值；进而获得所有子时空体的所有分块的所有中心像素值的能量值，i＝1,2,…,L₁或i＝1,2,…,L₂；j＝1,2,…,W₁或j＝1,2,…,W₂；t＝2,3,…,k-1；

步骤2.2.1、以中心像素值g_t(i,j)为中心的p邻域窗口及第t-1个和第t+1个分块的像素窗口构成p邻域像素值向量0≤p≤7；

步骤2.2.2、利用式(1)计算第m个分块上的p邻域窗口中第n个邻域的像素值与中心像素值g_t(i,j)之间的对比度值

式(1)中，表示第m个分块上的p邻域窗口的第n个邻域的像素值；n＝0,1,…,p-1；

m＝t-1,t,t+1；

步骤2.2.3、统计中心像素值g_t(i,j)的对比度值，并利用式(2)求取均值

步骤2.2.4、利用式(3)计算方差S：

步骤2.2.5、利用式(4)近似估计阈值ε：

步骤2.2.6、利用式(5)将所述p邻域像素值向量T进行二值化处理，获得像素二值向量：

式(5)中，s(x)表示自变量为x的三值化函数，并有：

步骤2.2.7、利用式(7)将所述像素二值向量V表示成一个3×p矩阵M：

步骤2.2.8、对所述矩阵M纵向统计字符的跳变次数，得到矩阵M的灰度共生矩阵其中，a_u,v表示从u跳变到v的次数；u,v＝{-1,0,1}；

步骤2.2.9、利用式(8)计算能量表达式E_ASM：

步骤2.3、获得所述时空体的TSLTPM直方图特征；

步骤2.3.1、定义内循环变量w，初始化t＝2；

步骤2.3.2、初始化w＝1；

步骤2.3.3、对第w个子时空体的第t分块的中心像素值的能量值按升序进行排序，并对排序后的每一种能量值的个数进行统计，从而获得第w个子时空体中第t个分块的TSLTPM直方图特征；

步骤2.3.4、判断w＝1是否成立，若成立，则将w+1赋值给w后，返回步骤2.3.3执行，否则，将第w个子时空体的第t个分块的TSLTPM直方图特征与第w-1个子时空体的第t个分块的TSLTPM直方图特征进行级联后，再执行步骤2.3.5；

步骤2.3.5、将w+1赋值给w后，判断w＞W是否成立，若成立，执行步骤2.3.6；否则，返回步骤2.3.3；

步骤2.3.6、将t+1赋值给t后，判断t＞k-1是否成立，若成立，则执行步骤2.3.7；否则，返回步骤2.3.2；

步骤2.3.7、判断t＝2是否成立，若成立，则将t+1赋值给t后，返回步骤2.3.2执行，否则，将W个子时空体的第t个分块的TSLTPM直方图特征与W个子时空体的第t-1个分块的TSLTPM直方图特征进行级联后，再执行步骤2.3.8；

步骤2.3.8、将t+1赋值给t后，判断t＞k-1是否成立，若成立，执行步骤2.4；否则，返回步骤2.3.2；

步骤2.4、重复步骤2.1～步骤2.3，从而获得所述上身姿态样本集和所述人脸表情样本集中所有样本的TSLTPM直方图特征；

步骤3、三维梯度方向直方图的特征提取；

步骤3.1、计算任意一个子时空体中第t个分块的中心像素点的灰度值g(i,j,t)的HOG特征值，从而获得任意一个子时空体的第t个分块的所有中心像素点的灰度值的HOG特征值；进而获得所有子时空体的所有分块的所有中心像素点的灰度值的HOG特征值；

步骤3.1.1、计算任意一个子时空体中第t个分块的中心像素点的灰度值g(i,j,t)g(i,j,t)的梯度值；

步骤3.1.2、计算中心像素点的灰度值g(i,j,t)的梯度幅值；

步骤3.1.3、计算中心像素点的灰度值g(i,j,t)的梯度方向；

步骤3.2、获得所述时空体的3DHOG直方图特征；

步骤3.2.1、将[0,360°]平均划分为N个方向，并初始化t＝2；

步骤3.2.2、初始化w＝1；

步骤3.2.3、按照N×3个方向量化区间对第w个子时空体的第t分块的中心像素点的灰度值g(i,j,t)的梯度幅值进行投票统计，从而得到第w个子时空体中第t个分块的3DHOG直方图特征；

步骤3.2.4、判断w＝1是否成立，若成立，则将w+1赋值给w后，返回步骤3.2.3执行，否则，将第w个子时空体的第t个分块的3DHOG直方图特征与第w-1个子时空体的第t个分块的3DHOG直方图特征进行级联后，再执行步骤3.2.5；

步骤3.2.5；将w+1赋值给w后，判断w＞W是否成立，若成立，执行步骤3.2.6；否则，返回步骤3.2.3；

步骤3.2.6、将t+1赋值给t后，判断t＞k-1是否成立，若成立，则执行步骤3.2.7；否则，返回步骤3.2.2；

步骤3.2.7、判断t＝2是否成立，若成立，则将t+1赋值给t后，返回步骤3.2.2执行，否则，将W个子时空体的第t个分块的3DHOG直方图特征与W个子时空体的第t-1个分块的3DHOG直方图特征进行级联后，再执行步骤3.2.8；

步骤3.2.8、将t+1赋值给t后，判断t＞k-1是否成立，若成立，执行步骤3.3；否则，返回步骤3.2.2；

步骤3.3、重复步骤3.1和步骤3.2，从而获得所述上身姿态样本集和所述人脸表情样本集中所有样本的3DHOG直方图特征；

步骤4、上身姿态复合时空特征集和人脸表情复合时空特征集的构造；

步骤4.1、将所述上身姿态样本集中的任一样本的TSLTPM直方图特征和3DHOG直方图特征进行级联，从而构成相应样本的上身姿态复合时空特征；进而获得上身姿态复合时空特征集；

步骤4.2、将所述人脸表情样本集中的任一样本的TSLTPM直方图特征和3DHOG直方图特征进行级联，从而构成相应样本的人脸表情复合时空特征；进而获得人脸表情复合时空特征集；

步骤5、使用D-S证据理论判决规则对复合时空特征测试集进行分类；

步骤5.1、计算所述上身姿态复合时空特征测试集中任意一个测试样本的上身姿态复合时空特征与所述上身姿态复合时空特征训练集中每一个训练样本的上身姿态复合时空特征的欧式距离；从而获得每一类情感类别的上身姿态最小欧式距离；

步骤5.2、对每一类情感类别的上身姿态最小欧式距离进行归一化处理，得到归一化后的上身姿态最小欧式距离；

步骤5.3、将每一类情感类别的归一化后的上身姿态最小欧式距离作为每一类情感类别的上身姿态基本概率分配值；

步骤5.4、重复步骤5.1～步骤5.3，同样获得每一类情感类别的人脸表情基本概率分配值；

步骤5.5、将所有情感类别的上身姿态基本概率分配值和人脸表情基本概率分配值用D-S证据理论进行融合，得到融合后的每一类情感类别的基本概率分配函数值；

步骤5.6、选取最大基本概率分配函数值所对应的情感类别作为测试样本的情感类别。

与已有技术相比，本发明的有益效果体现在：

1、本发明从时间和空间角度进行考虑，将视频中的人脸表情和上身姿态看成由每帧图像沿时间轴堆叠而成的三维时空体；提出人脸表情结合上身姿态的双模态情感识别方法，克服了单一模态情感识别的局限性，从而得到更加可靠的情感识别结果。

2、本发明从视频帧的原始图像中提取出表情序列和姿态序列，可以不用对其进行目标追踪、分割等一系列常规视频图像处理的环节，就可以达到较好的实验效果，从而极大地降低了时间复杂度和计算复杂度。

3、本发明从视频帧序列中直接提取时空特征，不需要对视频帧时间对齐，避免了视频帧序列持续时间不同所造成的后果，同时特征维数小，极大地减少了计算量，对光照表现一定的鲁棒性等特性。

4、本发明针对视频情感识别中存在运算复杂度高的缺点，提出一种基于时空局部二值模式矩的视频特征提取方法；该方法可以快速提取视频图像的时空特征，维数低，且能有效识别情感状态。同时，与三维方向梯度直方图特征组合成复合时空特征来描述情感视频，可以有效提取图像边缘和方向信息，弥补了单一特征的局限性，形成很好的互补模式。

5、本发明利用D-S证据理论对来自人脸表情和上身姿态两种模态的数据信息进行融合，并使用曲线拟合来构造基本概率分配函数(BPA)，能够有效弱化信息的不完整性及错误数据对识别的不良影响，克服了单一模态的局限性，使得系统最终获得了较高的识别率和可靠性。

附图说明

图1为本发明系统流程图；

图2为现有技术中人脸检测示意图；

图3为现有技术直方图均衡化示意图；

图4a为本发明面部表情TSLTPM特征计算过程示意图；

图4b为本发明面部表情3DHOG特征计算过程示意图。

图5为现有技术中FABO双模态情感数据库的部分样本图；

图6为本发明帧集合大小与平均识别率关系图；

图7为本发明分块大小与平均识别率关系图。

具体实施方式

本实施例中，如图1所示，一种复合时空特征的双模态视频情感识别方法，包括如下步骤：1对现有体积局部二值模式算法扩展成时空三值模式，获取人脸表情和上身姿态的时空局部三值模式矩纹理特征；2为弥补纹理特征缺乏图像边缘和方向信息的表达，本发明进一步融合三维梯度方向直方图特征来增强对情感视频的描述，将两种特征组合成复合时空特征；3使用D-S证据联合规则将两种模态的信息进行融合，获得情感识别结果。具体的说是按如下步骤进行：

步骤1.2、利用Haar-like小波特征和积分图方法对第q个上身姿态图像集中的每一幅图像进行人脸区域检测，并对检测到的人脸区域采用双向灰度积分投影法进行眼睛定位，再对定位后的人脸区域进行归一化处理和直方图均衡化处理，从而获得像素为L₂×W₂的第q个人脸表情图像集；从而获得包含Q个人脸表情图像集的集合如图2和图3所示；

步骤1.3、利用k-means聚类算法将第q个上身姿态图像集中的所有图像聚为k类，分别选取k类的k幅中心图像组成第q个上身姿态图像序列，从而获得包含Q个上身姿态图像序列的集合；k≥3；

利用k-means聚类算法将第q个人脸表情图像集中的所有图像聚为k类，分别选取k类的k幅中心图像组成第q个人脸表情图像序列，从而获得包含Q个人脸表情图像序列的集合；

步骤1.4、以第q个上身姿态图像序列作为第q个上身姿态样本，以包含Q个上身姿态图像序列的集合作为上身姿态样本集；

以第q个人脸表情图像序列作为第q个人脸表情样本，以包含Q个人脸表情图像序列的集合作为人脸表情样本集；

从上身姿态样本集中选取N个上身姿态样本作为上身姿态训练集；剩余Q-N作为上身姿态测试集；1＜N＜Q；

从人脸表情样本集中选取N个上身姿态样本作为人脸表情训练集；剩余Q-N作为人脸表情测试集；

步骤2、时空局部三值模式矩的特征提取

现有技术体积局部二值模式应用到视频帧特征提取上，特征维数大，对光照及噪声鲁棒性差等问题，本发明提出一种新的特征描述算法-时空局部三值模式矩(temporal-spatial local ternary pattern moment,TSLTPM)；

步骤2.1、以上身姿态测试集和人脸表情测试集中的任意一个包含k幅中心图像的样本作为一个时空体；

将时空体中的每一幅中心图像进行相同大小的均匀分块，得到W个分块；并将每一幅中心图像的相同位置上的分块组成包含k个分块的子时空体，从而W个子时空体；

m＝t-1,t,t+1；

步骤2.2.4、利用式(3)计算方差S：

步骤2.2.5、利用式(4)近似估计阈值ε：

步骤2.2.6、利用式(5)将p邻域像素值向量T进行二值化处理，获得像素二值向量：

式(5)中，s(x)表示自变量为x的三值化函数，并有：

步骤2.2.7、利用式(7)将像素二值向量V表示成一个3×p矩阵M：

步骤2.2.8、对矩阵M纵向统计字符的跳变次数，得到矩阵M的灰度共生矩阵其中，a_u,v表示从u跳变到v的次数；u,v＝{-1,0,1}；

步骤2.2.9、利用式(8)计算能量表达式E_ASM：

步骤2.3、获得时空体的TSLTPM直方图特征；

步骤2.3.1、定义内循环变量w，初始化t＝2；

步骤2.3.2、初始化w＝1；

步骤2.3.3、对第w个子时空体的第t分块的中心像素值的能量值按升序进行排序，并对排序后的每一种能量值的个数进行统计，从而获得第w个子时空体中第t个分块的TSLTPM直方图特征，如图4a和图4b所示；

步骤2.4、重复步骤2.1～步骤2.3，从而获得上身姿态样本集和人脸表情样本集中所有样本的TSLTPM直方图特征；包括：

由上身姿态训练集中所有样本的TSLTPM直方图特征构成上身姿态TSLTPM训练特征集；由人脸表情训练集中所有样本的TSLTPM直方图特征构成人脸表情TSLTPM训练特征集；

由上身姿态测试集中所有样本的TSLTPM直方图特征构成上身姿态TSLTPM测试特征集；由人脸表情测试集中所有样本的TSLTPM直方图特征构成人脸表情TSLTPM测试特征集；

步骤3、三维梯度方向直方图的特征提取；

考虑到TSLTPM特征缺乏对图像边缘和方向信息的表达，三维方向梯度直方图用来描述时空域局部像素的分布，可以有效提取图像边缘和方向信息；

步骤3.1.1、计算任意一个子时空体中第t个分块的中心像素点的灰度值g(i,j,t)的梯度：

步骤3.1.2、计算中心像素点的灰度值g(i,j,t)在三个平面上的梯度幅值m_xy(i,j,t)、m_xt(i,j,t)、m_yt(i,j,t)：

步骤3.1.3、计算中心像素点的灰度值g(i,j,t)在三个平面上的梯度方向θ_xy(i,j,t)、θ_xt(i,j,t)、θ_yt(i,j,t)：

步骤3.2、获得时空体的3DHOG直方图特征将[0,360°]平均划分为N个方向，按照N×3

个方向量化区间对梯度幅值m_xy(i,j,t)、m_xt(i,j,t)、m_yt(i,j,t)进行投票统计；这样使得子

时空体可以得到3个一维方向梯度向量h＝[h_xy,h_xt,h_yt]，其中

h_xy＝[k₁,k₂,…,k_n],h_xt＝[k_n+1,k_n+2,…,k_2n]，h_yt＝[k_2n+1,k_2n+2,…,k_3n]；k_i为任一方向下梯度幅

值的和值；1≤i≤3n；具体计算步骤如下：

步骤3.2.1、初始化t＝2；

步骤3.2.2、初始化w＝1；

步骤3.2.3、按照N×3个方向量化区间对第w个子时空体的第t分块的中心像素点的灰度值g(i,j,t)的梯度幅值进行投票统计，从而得到第w个子时空体中第t个分块的3DHOG直方图特征，如图5所示；

步骤3.3、重复步骤3.1和步骤3.2，从而获得上身姿态样本集和人脸表情样本集中所有样本的3DHOG直方图特征；包括：

由上身姿态训练集中所有样本的3DHOG直方图特征构成上身姿态3DHOG训练特征集；由人脸表情训练集中所有样本的3DHOG直方图特征构成人脸表情3DHOG训练特征集；

由上身姿态测试集中所有样本的3DHOG直方图特征构成上身姿态3DHOG测试特征集；由人脸表情测试集中所有样本的3DHOG直方图特征构成人脸表情3DHOG测试特征集；

步骤4.1、将上身姿态样本集中的任一样本的TSLTPM直方图特征和3DHOG直方图特征进行级联，从而构成相应样本的上身姿态复合时空特征；进而获得上身姿态复合时空特征集；包括：

由上身姿态测试集中所有样本的上身姿态复合时空特征构成上身姿态复合时空特征测试集；由上身姿态训练集中所有样本的上身姿态复合时空特征构成上身姿态复合时空特征训练集；

步骤4.2、将人脸表情样本集中的任一样本的TSLTPM直方图特征和3DHOG直方图特征进行级联，从而构成相应样本的人脸表情复合时空特征；进而获得人脸表情复合时空特征集；包括：

由人脸表情测试集中所有样本人脸表情复合时空特征构成人脸表情复合时空特征测试集；由人脸表情训练集中所有样本的人脸表情复合时空特征构成人脸表情复合时空特征训练集；

步骤5.1、计算上身姿态复合时空特征测试集中任意一个测试样本的上身姿态复合时空特征与上身姿态复合时空特征训练集中每一个训练样本的上身姿态复合时空特征的欧式距离；从而获得每一类情感类别的上身姿态最小欧式距离，计算公式如下：

步骤5.2、对每一类情感类别的上身姿态最小欧式距离进行归一化处理，得到归一化后的上身姿态最小欧式距离，归一化公式如下：

式(13)中：α＝{人脸表情，上身姿态}，β表情情感的类别，Z表情情感的类别总数；

步骤5.3、构造指数函数y＝exp(-13(x+0.06)²)+0.074，将每一类情感类别的归一化后的上身姿态最小欧式距离作为x带入指数函数，完成归一化后的最终欧式距离d‘_α，β到基本概率分配值的映射，即如下式：

m_α(μ_β)＝exp(-13(d_α,β+0.06)²)+0.074 (14)

由上述(14)式基本概率分配函数构造的不确定性分配函数m_i(θ)如下：

步骤5.5、将所有情感类别的上身姿态基本概率分配值和人脸表情基本概率分配值用D-S证据理论进行融合，得到融合后的每一类情感类别的基本概率分配函数值，公式如下计算；

式(16)中，m₁(A_α)和m₂(B_β)分别表示上身姿态模态和人脸表情的基本概率分配值，

K称为矛盾因子，反映了每个证据之间的冲突程度；

步骤5.6、选取融合后的最大基本概率分配函数值所对应的情感类别作为测试样本的情感类别。

实施例：

为了验证本发明的有效性，实验采用目前唯一公开的双模态数据库：FABO表情和姿态双模态数据库。由于该数据库本身未完全进行标注，所以本发明在实验过程中选择样本数较多且情感类别相对均匀的12个人进行相关实验。所选样本共包括高兴、害怕、生气、厌烦和不确定5类情感，全部已进行标注，其中姿态和表情各有238个样本。本文实验是在Windows XP系统下(双核CPU2.53GHz内存2G)，使用VC6.0+OpenCV1.0实现的。实验中将人脸表情图片帧和上身姿态图片帧分别统一大小为96×96像素和128×96像素。表情图片和姿态图片统一大小后的部分图像如图6所示。

实验1视频帧集合大小测试

在情感判别的预处理过程中，k均值聚类视频帧集合的大小直接影响后续的特征提取和判别。视频帧选择较少，会造成表情和姿态特征提取不充分；若选择较多，则会增加时间复杂度，同时产生过多的冗余信息，直接影响后续的情感识别。当帧集合大小为3～7时，本发明的识别性能如图7所示。

实验2分块大小测试

对表情和姿态提取复合特征时，图像的分块数会对识别性能产生一定的影响。图3给出了分块大小与平均识别率的大小关系。从图7可以看出，表情取6×6分块，姿态取4×4分块时，识别效果最优。

实验3单模态情感识别实验

在将表情和姿态两种模态进行融合判别前，首先对其进行单独的情感识别实验。由于FABO数据库中不同情感类别数大小不均匀，本发明在实验中保证测试每种样本类别个数的情况下随机选取测试样本，训练样本库和测试样本数库中5种情感(高兴，害怕，生气，厌烦，不确定)的样本数分别为(26,13,46,6,44)和(20,15,30,8,30)，表情序列和姿态序列相对应。为了增加实验结果的可信度，每组实验进行3次，最终结果取平均值。表1和表2分别给出表情和姿态两种单模态在3次实验下对5种不同情感的识别性能对比。

表1表情单模态情感识别的实验结果

表2姿态单模态情感识别的实验结果

为了进一步验证复合特征的有效性，将其分别与融合之前的特征算法和其他论文中的方法进行对比，比较结果如表3所示。

表3基于单模态的不同特征提取方法的平均识别率比较

实验4双模态情感识别实验

表4给出表情和姿态两种单模态利用D-S证据理论进行融合之后的识别率为96.86％，高于表情单模态的83.06％和姿态单模态的94.78％(来自表3数据)，说明了融合表情和姿态进行情感识别的有效性。在情感识别中，表情和姿态对情感识别具有不同的贡献，表情主要表现为人脸面部的情感，而姿态主要表现为人体动作的情感，两种情感表达方式具有相互辅助相互补充的作用，将两种模态相融合，准确率和稳定性得到明显提高。另外，本发明利用D-S证据理论，以欧氏距离构造BPA，根据组合规则，融合来自表情和姿态两种模态的识别信息，能够实现较弱分类(单模态)决策对较强分类(双模态)决策的有效支持，从而可以进一步提高识别准确率和可靠性。

表4不同融合方法的平均识别率对比

综上，本方法从人脸表情和上身姿态两个角度进行情感识别，对人脸表情和上身姿态提取复合时空特征，首先然后利用D-S证据理论融合两种模态的情感信息，弥补了单一模态进行情感识别的局限性，将视频中的面部表情和上身姿态看成由每帧图像沿时间轴堆叠而成的三维时空体，从而得到更为可靠、准确的结果。

Claims

1.一种复合时空特征的双模态视频情感识别方法，其特征是按如下步骤进行：

步骤2、时空局部三值模式矩的特征提取

{Δg}_{m}^{n} = g_{m}^{n} - g_{t} (i, j) - - - (1)

式(1)中，表示第m个分块上的p邻域窗口的第n个邻域的像素值；n＝0,1,…,p-1；m＝t-1,t,t+1；

\overset{&OverBar;}{Δ g} = (Σ_{n = 0}^{p - 1} Σ_{m = t - 1}^{t + 1} {Δg}_{m}^{n}) / 3 p - - - (2)

步骤2.2.4、利用式(3)计算方差S：

S = (Σ_{n = 0}^{p - 1} Σ_{m = t - 1}^{t + 1} {({Δg}_{m}^{n} - \overset{&OverBar;}{Δ g}))}^{2}) / 3 p - - - (3)

步骤2.2.5、利用式(4)近似估计阈值ε：

ϵ = \sqrt{S} - - - (4)

V = (\begin{matrix} s (g_{t - 1}^{0} - g_{t} (i, j)), s (g_{t - 1}^{1} - g_{t} (i, j)), ... s (g_{t - 1}^{p - 1} - g_{t} (i, j)), s (g_{t}^{0} - g_{t} (i, j)), \\ ..., s (g_{t}^{p - 1} - g_{t} (i, j), s (g_{t + 1}^{0} - g_{t} (i, j)), s (g_{t + 1}^{1} - g_{t} (i, j)), ... s (g_{t + 1}^{p - 1} - g_{t} (i, j)) \end{matrix}) - - - (5)

式(5)中，s(x)表示自变量为x的三值化函数，并有：

s (x) = \{\begin{matrix} 1 & x &GreaterEqual; ϵ \\ 0 & | x | < ϵ \\ - 1 & x \leq - ϵ \end{matrix} - - - (6)

M = [\begin{matrix} s (g_{t - 1}^{0} - g_{t} (i, j)) & s (g_{t - 1}^{1} - g_{t} (i, j)) & ... & s (g_{t - 1}^{p - 1} - g_{t} (i, j)) \\ s (g_{t}^{0} - g_{t} (i, j)) & s (g_{t}^{1} - g_{t} (i, j)) & ... & s (g_{t}^{p - 1} - g_{t} (i, j)) \\ s (g_{t + 1}^{0} - g_{t} (i, j)) & s (g_{t + 1}^{1} - g_{t} (i, j)) & ... & s (g_{t + 1}^{p - 1} - g_{t} (i, j)) \end{matrix}] - - - (7)

步骤2.2.9、利用式(8)计算能量表达式E_ASM：

E_{A S M} = Σ_{u = - 1}^{1} Σ_{v = - 1}^{1} {(a_{u, v})}^{2} - - - (8)

步骤2.3、获得所述时空体的TSLTPM直方图特征；

步骤2.3.1、定义内循环变量w，初始化t＝2；

步骤2.3.2、初始化w＝1；

步骤3、三维梯度方向直方图的特征提取；

步骤3.1.2、计算中心像素点的灰度值g(i,j,t)的梯度幅值；

步骤3.1.3、计算中心像素点的灰度值g(i,j,t)的梯度方向；

步骤3.2、获得所述时空体的3DHOG直方图特征；

步骤3.2.1、将[0,360°]平均划分为N个方向，并初始化t＝2；

步骤3.2.2、初始化w＝1；