CN111310672A

CN111310672A - 基于时序多模型融合建模的视频情感识别方法、装置及介质

Info

Publication number: CN111310672A
Application number: CN202010103312.0A
Authority: CN
Inventors: 李弘�; 曾晓南; 张金喜
Original assignee: Guangzhou Shurui Intelligent Technology Co ltd
Current assignee: Guangzhou Shurui Intelligent Technology Co ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-19

Abstract

本发明公开了一种基于时序多模型融合建模的视频情感识别方法，包括选择视频情感数据库中的数据集作为训练数据集，并对所述训练数据集进行预处理；根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型；根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型；将所述卷积神经网络模型和所述长短时记忆网络模型进行融合，得到视频情感识别模型。本发明实施例提供的基于时序多模型融合建模的视频情感识别方法通过融合时序特征建模等模型构建的视频情感识别模型，能够有效地提高视频情感识别的准确率。

Description

基于时序多模型融合建模的视频情感识别方法、装置及介质

技术领域

本发明涉及数据挖掘技术领域，尤其是涉及一种基于时序多模型融合建模的视频情感识别方法、装置及存储介质。

背景技术

人工智能技术在计算机视觉、语音识别、自然语言处理等领域取得的突破性进展促进了人机情感交互领域的发展。对具有情感理解和表达能力的人机情感交互方式的探索逐渐成为了人机交互领域的研究热点。作为跨领域的研究课题，视频情感识别研究对于促进人机情感交互技术的发展以及海量视频数据的情感价值挖掘具有重要意义。

在对现有技术的研究和实践中，本发明的发明人发现，现有的视频情感识别方法，主要面临以下问题：

1)主要集中在视频空间特征建模和多模态特征融合建模上，对于视频时序特征建模研究仍存在较大的提升空间；

2)频片段通常具有较多的冗余视频帧，视频单帧图像具有较多的干扰信息，容易造成情感识别的准确率低下的问题。

发明内容

本发明提供一种基于时序多模型融合建模的视频情感识别方法，以解决现有的视频情感识别的准确率低的技术问题，本发明通过融合时序特征建模等模型构建的视频情感识别模型，能够有效地提高视频情感识别的准确率。

为了解决上述技术问题，本发明实施例提供了一种基于时序多模型融合建模的视频情感识别方法，至少包括以下步骤：

选择视频情感数据库中的数据集作为训练数据集，并对所述训练数据集进行预处理；

根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型；

根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型；

将所述卷积神经网络模型和所述长短时记忆网络模型进行融合，得到视频情感识别模型。

作为优选方案，所述选择视频情感数据库中的数据集作为训练数据集，并对所述训练数据集进行预处理，具体为：

选择视频情感数据库中的CHEAVD数据集；

将所述CHEAVD数据集作为训练数据集，并对所述训练数据集进行预处理，所述预处理包括：

从所述训练数据集的视频片段中提取视频单帧图像序列；

利用人脸检测、人脸对齐和图像裁剪方法，从所述视频单帧图像序列中提取人脸图像序列，并将所述人脸图像序列的人脸图像大小处理为预设的图像尺寸。

作为优选方案，所述根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型，具体为：

通过预设的人脸图像数据集，预训练卷积神经网络；

在预训练完成的卷积神经网络上，采用从预处理后的训练数据集获得从视频提取的人脸图像序列，重新训练卷积神经网络以调整网络的全连接层权重；

将最终训练完成的卷积神经网络隐含层输出并作为视频的空间底层特征。

作为优选方案，所述根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型，具体为：

在采用所述卷积神经网络模型提取的视频的空间底层特征基础上，基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模。

作为优选方案，所述将所述卷积神经网络模型和所述长短时记忆网络模型进行融合，得到视频情感识别模型，具体为：

以预设的第一公式对所述卷积神经网络模型和所述长短时记忆网络模型的输出进行决策融合，得到融合模型，所述第一公式为：

o_f＝soft max(W_lo_l+W_po_p)

其中，o_f为融合方法的输出结果，o_l为基于注意力机制的所述长短时记忆网络模型的输出结果，o_p为基于特征采样的所述卷积神经网络模型的输出结果，W_l和W_p为权重系数；

通过将所述人脸图像序列作为所述融合模型的输入，并分别采用卷积神经网络模型和长短时记忆网络模型进行空间建模和时序建模；

采用融合建模方法构建所述视频情感识别模型。

作为优选方案，所述人脸检测、人脸对齐方法，具体为：

对所述训练数据集使用Viola-Jones检测器和IntraFace开源工具对视频进行人脸检测和人脸对齐处理；

并采用MTCNN检测器对所述训练数据集的视频重新检测。

本发明实施例还提供了一种基于时序多模型融合建模的视频情感识别装置，包括：

第一处理模块，用于选择视频情感数据库中的数据集作为训练数据集，并对所述训练数据集进行预处理；

第二处理模块，用于根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型；

第三处理模块，用于根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型；

第四处理模块，用于将所述卷积神经网络模型和所述长短时记忆网络模型进行融合，得到视频情感识别模型。

作为优选方案，所述第一处理模块，具体用于：

选择视频情感数据库中的CHEAVD数据集；

从所述训练数据集的视频片段中提取视频单帧图像序列；

作为优选方案，所述第二处理模块，具体用于：

通过预设的人脸图像数据集，预训练卷积神经网络；

作为优选方案，所述第三处理模块，具体用于：

o_f＝soft max(W_lo_l+W_po_p)

采用融合建模方法构建所述视频情感识别模型。

作为优选方案，所述第一处理模块，具体用于：

并采用MTCNN检测器对所述训练数据集的视频重新检测。

本发明实施例还提供了一种基于时序多模型融合建模的视频情感识别终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于时序多模型融合建模的视频情感识别方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于时序多模型融合建模的视频情感识别方法。

相比于现有技术，本发明实施例的有益效果在于，在提取的视频空间特征序列基础上，分别采用基于特征采样结构的卷积神经网络模型和基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模，这样通过两种模型从不同的角度对视频时序特征进行建模，能够避免冗余视频帧信息的干扰，从而提升了视频情感识别模型的识别能力。

附图说明

图1是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的流程示意图；

图2是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的框架结构图；

图3是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的视频单帧图像序列数据预处理示例图；

图4是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的MTCNN框架的流程图；

图5是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的RNN网络结构图；

图6是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的基于注意力机制的LSTM模型图；

图7是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的视频情感识别系统流程图；

图8是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的框架图；

图9是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的最大特征采样结构与局部特征采样结构示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1和图2，本发明优选实施例提供了一种基于时序多模型融合建模的视频情感识别方法，至少包括以下步骤：

S101、选择视频情感数据库中的数据集作为训练数据集，并对所述训练数据集进行预处理。其中，所述预处理为对输入的原始图像数进行数据预处理，包括去均值、归一化等处理。

作为进一步的，所述步骤S101、选择视频情感数据库中的数据集作为训练数据集，并对所述训练数据集进行预处理，具体为：

选择视频情感数据库中的CHEAVD数据集；

从所述训练数据集的视频片段中提取视频单帧图像序列；

关于本发明实施例的数据集选择，采用了CHEAVD(Chinese natural emotionalaudio-visual database)数据集，其来源于中国科学院自动化研究所构建的视频情感数据库，该数据库数据来源主要是影视剧中所截取的视频片段，每一个视频片段分别标注为一种常见情感(高兴、悲伤、生气、惊讶、厌恶、担心、焦虑)或中性情感中的一种。

视频总长度为141分钟，包含了从电影、电视剧、脱口秀中的238个说话者提取的自然环境下的情感视频片段。每一个视频片段的长度大约为1到19秒。整个情感数据库包括2852个视频片段，其中，训练集1981个，验证集243个，测试集628个。

本发明实施例将验证集数据作为测试数据使用，并从训练集数据中提取部分视频作为验证集数据。训练集和测试集中每种情感类型的视频样本数量如表1所示。

表1数据集中不同情感类型的视频样本数量

Tab 1 The number of video samples in different emotional categories

在实验中对视频情感数据集进行如下处理，其中包括：

(1)从视频片段中提取视频单帧图像序列；

(2)利用人脸检测、人脸对齐和图像裁剪方法，从视频单帧图像序列从提取人脸图像序列，并将人脸图像大小处理为100*100。

视频情感识别任务属于多分类问题，如表1所示，数据集中不同情感类别的数据十分不平衡，因此主要采用MAP(Macro Average Precision)作为预测结果的衡量标准，其次采用正确率(Accuracy)作为预测结果的衡量标准，两种评估方式的计算方法为：

其中，s为情感类型标签，TP_i表示样本数据集中属于类别i且被分类到类别i的数量，FN_i表示样本数据集中属于类别i但被分类到其他类别的数量，P_i为类别i的正确率(Precision)。

在本实施例中，原始数据集使用Viola-Jones检测器和IntraFace开源工具对数据进行预处理。在数据预处理阶段，从视频中提取视频帧序列，由于视频是由若干视频单帧图像组成，视频单帧图像具有较多的干扰信息，如图3所示，本发明采用从原始视频单帧图像序列中提取的人脸图像序列作为模型输入。

从视频中提取视频帧序列，通过人脸检测和对齐算法提取人脸图像序列；其中IntraFace开源工具采用OpenCV的Viola-Jones检测器进行视频单帧图像的人脸检测，并作为IntraFace跟踪库的初始化。

根据IntraFace生成的人脸特征点对人脸图像进行仿射变换处理，实现人脸对齐，并调整人脸图像大小为100*100个像素。

作为优选方案，所述人脸检测、人脸对齐方法，具体为：

并采用MTCNN检测器对所述训练数据集的视频重新检测。

在本实施例中，应当说明的是，由于部分视频中的人脸图像无法使用IntraFace开源工具提取，针对这些无法检测的视频，采用MTCNN模型重新进行人脸检测、人脸对齐等处理。

如图4所示，其具体检测流程包括：

(1)对图像进行缩放处理，形成图像金字塔；

(2)第一阶段采用P-Net网络产生候选区域的边框，然后通过非极大值抑制算法，筛选出满足设定阈值的候选区域的边框；

(3)第二阶段采用R-Net网络对第一阶段生成的结果做进一步检测以及采用非极大值抑制处理，产生更精确的候选区域的边框；

(4)第三阶段采用O-Net网络对第二阶段生成的候选区域做最后的检测并采用NMS做最后的筛选，最终输出检测图像中的人脸边框以及人脸特征点。

这样，通过人脸检测器得到的人脸图像，通常存在一定的偏转角度。不同角度的人脸图像构成的序列数据会对后续模型的判断产生不必要的干扰，因此，有必要对人脸图像进行人脸对齐操作。人脸对齐的一般做法是根据检测得到的人脸特征点，以定义的标准人脸图像特征点为基准进行二维仿射变换操作。其中，二维仿射变换包括旋转、平移和缩放三种变换方式。

通过IntraFace开源工具和MTCNN检测器，可以计算得到标准人脸的特征点坐标和待对齐人脸的特征点坐标，设

为标准人脸的第i个特征点的坐标，(x_i,y_j)^T为待对齐人脸的第i个特征点的坐标，二维仿射变换计算公式为：

假设已知人脸的个特征点坐标，可以通过线性变换的方式对仿射矩阵进行求解。如二维仿射变换计算公式2.1所示，根据求解得到的仿射矩阵，再进一步对人脸图像进行仿射变换处理，即可得到对齐后的人脸图像。

为了探索更有效地提取视频时序特征的方法，以及考虑了上述提出的冗余视频帧对视频情感识别的影响。本发明提出了两种模型，分别是基于特征采样结构的CNN模型和基于注意力机制的LSTM模型，具体如下步骤S102、步骤S103：

S102、根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型。

本实施例通过额外的人脸图像数据集，训练卷积神经网络；在预训练好的卷积神经网络上，采用从视频提取的人脸图像序列，重新训练调整网络的全连接层权重，将训练完成的卷积神经网络隐含层输出作为视频的空间底层特征。

则所述步骤S102、根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型，具体为：

通过预设的人脸图像数据集，预训练卷积神经网络；

S103、根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型。

本实施例在提取的视频空间特征序列基础上，分别采用基于特征采样结构的卷积神经网络模型和基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模。

则作为优选方案，所述步骤S103、根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型，具体为：

在采用ConvNet提取的视频空间特征基础上，本发明采用了普通RNN模型、LSTM模型以及基于注意力机制的LSTM模型对视频进行时序特征建模。如表2所示，LSTM模型的实验结果优于普通的RNN模型，同时在训练的过程RNN会出现梯度消失等问题，LSTM模型则几乎不会出现类似的问题。

基于注意力机制的LSTM模型相比基本的LSTM模型提升了2.1％，通过采用注意力机制让模型更加关注视频关键帧信息，有助于模型学习到视频的关键帧信息，避免冗余视频帧信息的干扰，从而提升了视频情感识别模型的识别能力。

表2在验证集上不同时间递归神经网络模型的实验结果

Tab 2 Experimental results of different RNN models in the validationdataset

通过以上两种模型从不同的角度对视频时序特征进行建模，其中基于特征采样结构的CNN模型对视频时序特征进行采样处理，本发明在卷积神经网络上加入了特征采样的方法，将时序特征采样作为神经网络层加入到卷积神经网络的训练中，用于视频时序特征的建模。

卷积神经网络(Convolutional Neural Network，CNN)结构是一种常见的深度神经网络模型，其采用了局部感知和共享权重的网络结构方式，能够有效地减少权重参数的数量以及降低了网络模型过拟合的风险。CNN最大的优势在于特征提取上，可以直接将图像作为网络的输入，并有效地提取与任务相关的图像特征，避免了传统算法中复杂的显示特征提取。

CNN是一种多层的有监督学习神经网络模型，其层级结构包括数据输入层，卷积计算层，激活函数层，池化层，全连接层和输出层。数据输入层，以图像作为输入，通常对输入的原始图像数进行数据预处理，包括去均值、归一化等处理。

卷积计算层，作为CNN网络结构的核心，其主要特点是局部连接和参数共享。卷积层的神经元只和上一网络层的一个局部区域相连接，通过卷积计算得到特征图输出。ReLU激活函数层，对卷积层的输出结果进行非线性映射。ReLu激活函数能够缓解过拟合问题的出现。池化层，通常包括平均池化和最大池化，用于对输入的特征图进行压缩，其作用是提取主要特征和简化模型计算复杂度。全连接层，与上一层所有神经元的权重相连接，其输出作为网络输出层的输入。输出层，根据任务可以选择不同函数层，通常分类任务采用Softmax函数层。

通过上述的网络层级结构，可以构造相应的CNN网络，接着对CNN网络进行训练求解。

CNN网络的训练过程主要包括四个步骤：

(1)对网络权重参数进行初始化；

(2)利用前向传播算法计算损失函数值；

(3)利用反向传播算法计算逐层反向计算权重参数的梯度；

(4)更新网络权重参数值。

CNN网络训练过程主要涉及网络的前向传播和反向传播计算，前向传播用于特征信息的前向传递，而反向传播则用于反向修正模型的权重参数值。

前向传播计算，假设l表示当前层，x^l表示当前层的输出，W^l和b^l分别表示当前层的权值和偏置，f表示激活函数，前向传播的计算公式为：

x^l＝f(W^lx^l+b^l) (2.2)

反向传播(Backpropagation，简称BP)计算。对网络进行反向传播计算之前，需要先选择一个损失函数，来衡量训练样本的预测结果和训练样本的真实结果之间的损失值。常用的损失函数有平方误差函数、交叉熵函数等。以平方差函数作为损失函数，其计算公式如下：

其中，a^L为第L层的输出，y为训练样本的真实结果。

在确定损失函数后，采用梯度下降法逐层求解网络层的权重参数。对于第L层的输出，满足下列公式：

z^L＝W^La^L-1+b^L (2.4)

a^L＝σ(z^L) (2.5)

其中，W，b为第L层的权重和偏置，σ为激活函数。

根据公式2.4，得到损失函数公式如下：

根据损失函数J分别对W，b求梯度，计算公式如下：

其中σ^L的计算公式如下：

假设已知第L+1层的σ^L+1计算结果，根据式2.7和式2.8，即可求解第L层中W^L，b^L的梯度值。最后，根据计算得到的梯度值更新对应网络层的权重参数值。

传统的神经网络模型一般无法处理有关序列数据的问题，例如，自然语言处理中预测句子下一个单词的问题。时间递归神经网络(Recurrent neural network，简称RNN)的设计初衷正是为了解决序列数据问题，其被广泛的应用于语音识别，文本翻译，视频描述等问题。

如图5所示，RNN网络结构中当前时刻的输出不仅和当前的输入有关，还与过去时刻的输入有关，可以将RNN网络看作是具有记忆能力的网络结构，它能够记忆已经学习过的信息。这是RNN网络能够处理序列数据问题的关键原因。

理论上，RNN可以处理任意长度的序列数据，但实际应用中RNN只能够记忆上几个时刻的信息。

相较于一般的神经网络结构，RNN网络模型的训练求解计算练较大。与基本的BP算法原理相同，RNN网络模型采用BPTT(Backpropagation Through Time)算法，其训练过程主要包括以下三个步骤：

(1)利用前向传播方法，计算网络结构中每个神经元的输出；

(2)利用反向传播方法，计算机每个神经元的误差项；

(3)计算网络结构中每个权重的梯度，根据梯度下降法更新网络权重值。

标准RNN训练过程中存在梯度消失或者梯度爆炸问题，同时，由于采用BPTT算法，反向传播过程中容易造成信息丢失，使得RNN无法实现较长距离时间的记忆。

因此，国内外的很多相关研究在原先的基础上提出了更好的RNN网络架构，例如双向RNN、GRU(Gated Recurrent Units)和LSTM(Long Short Term Memory)等。与标准RNN网络相比，LSTM网络采用了不同的记忆单元来存储和输出信息，有利于发现更长范围的时序信息。

LSTM网络模型是一种特殊的RNN网络结构，相比标准RNN网络，它可以更好地存储和学习序列信息。

为了探索更有效地提取视频时序特征的方法，以及考虑了上述提出的冗余视频帧对视频情感识别的影响。本发明提出了两种模型，分别是基于特征采样结构的CNN模型和基于注意力机制的LSTM模型。

LSTM模型能够从序列信息中学习视频的时序特征。本发明将卷积神经网络与递归神经网络相结合，将卷积神经网络输出的所有视频单帧人脸图像特征向量所组成的序列数据作为LSTM模型的输入，构建视频情感识别模型。

LSTM网络由包含门结构的记忆单元组成，其计算公式为：

其中，σ为激活函数，i，f，o和c分别为输入门、忘记门、输出门和单元激活向量，W为权重矩阵(例如，w_hi表示隐含层与输入门之间的权重矩阵)，b表示偏置向量(例如，b_i表示输入门的偏置向量)。

本发明借鉴了注意力机制的思想，在视频情感识别研究上采用了基于注意力机制的LSTM模型。

如图6所示，设H∈R^d×N为LSTM模型生成的隐含层输出向量[h₁,…,h_N]组成的矩阵，其中d为隐含层输出向量的维度，N为隐含层输出向量的个数。注意力机制将产生一个注意力权重向量α和带权重的隐含层特征表达r。

其中，M∈R^d×N，α∈R^N，r∈R^d，W_h∈R^d×d，ω∈R^d为相应的。

最后输出的隐含层特征向量计算式为：

h^*＝tanh(W_pr+W_xh_N) (3.3)

其中，h^*∈R^d，W_p∈R^d×d，W_x∈R^d×d为相应的权重矩阵。

h^*可以看作是视频时序信息的特征表达，输出的视频时序特征向量作为Softmax函数层的输入，最终输出视频情感识别的预测结果的概率分布向量为：

y＝softmax(W_sh^*+b_s) (3.4)

其中，W_s和b_s分别为Softmax层的权重和偏置。

S104、将所述卷积神经网络模型和所述长短时记忆网络模型进行融合，得到视频情感识别模型。

在本实施例中，不同时序特征模型具有不同的优势，通过融合机制，可以结合不同时序特征模型所具有的优势，构建更有效的视频情感识别模型。本文在CHEAVD数据集上进行了实验，通过实验得到了不同模型下的预测结果。

表3给出了不同模型在训练集上的实验结果，可以看出两种不同的时序特征建模方法相比Baseline方法有较大的提升，而融合模型取得了最好的预测结果。为了验证不同的时序建模方法所具有的不同优势，本文通过融合两种不同的时序建模方法得到最终实验结果。

结合图2、图7至9所示，融合模型的结果相比单一的时序建模方法得到模型更优。融合建模方法有利于发挥不同模型的优势，构建更有效的视频情感识别模型，从而实现更高的识别率。

表3在验证集上不同模型的实验结果比较

Tab3 The experimental results of different models in the validationdataset

综上，本实施例在提取的视频空间特征序列基础上，分别采用基于特征采样结构的卷积神经网络模型和基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模，这样通过两种模型从不同的角度对视频时序特征进行建模，能够避免冗余视频帧信息的干扰，从而提升了视频情感识别模型的识别能力。

本发明实施例通过两种不同的时序特征建模方法，构建视频时空特征空间与视频情感类型空间的关系模型。不同的时序特征建模方法具有不同的优势，通常，在很多判别任务中使用融合方法来提高最后的判别效果。基于上述的想法，本发明采用了融合的方法，构建了基于时序多模型融合建模的视频情感识别模型。不同的时序特征建模方法具有不同的特性，为了充分利用不同模型预测结果的优势，本发明采用决策融合的方法。

通过训练基于特征采样结构的CNN模型以及基于注意力机制的LSTM模型，保留训练中实验结果最优的模型参数。类似于多层感知器的想法，设计如下的结构，对两种模型结的输出进行决策融合。作为优选方案，所述将所述卷积神经网络模型和所述长短时记忆网络模型进行融合，得到视频情感识别模型，具体为：

o_f＝soft max(W_lo_l+W_po_p)(3.5)

采用融合建模方法构建所述视频情感识别模型。

对融合模型进行训练，固定除了和之外的权重参数，进行迭代，直到结果收敛。

通过提取视频的人脸图像序列数据作为模型的输入，接着分别采用CNN模型和LSTM进行空间建模和时序建模，最后采用融合建模方法构建最终的视频情感识别模型。

对应上述的方法，本发明实施例还提供了一种基于时序多模型融合建模的视频情感识别装置，包括：

作为优选方案，所述第一处理模块，具体用于：

选择视频情感数据库中的CHEAVD数据集；

从所述训练数据集的视频片段中提取视频单帧图像序列；

作为优选方案，所述第二处理模块，具体用于：

通过预设的人脸图像数据集，预训练卷积神经网络；

作为优选方案，所述第三处理模块，具体用于：

o_f＝soft max(W_lo_l+W_po_p)

采用融合建模方法构建所述视频情感识别模型。

作为优选方案，所述第一处理模块，具体用于：

并采用MTCNN检测器对所述训练数据集的视频重新检测。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于时序多模型融合建模的视频情感识别方法，其特征在于，至少包括以下步骤：

2.如权利要求1所述的基于时序多模型融合建模的视频情感识别方法，其特征在于，所述选择视频情感数据库中的数据集作为训练数据集，并对所述训练数据集进行预处理，具体为：

选择视频情感数据库中的CHEAVD数据集；

从所述训练数据集的视频片段中提取视频单帧图像序列；

3.如权利要求2所述的基于时序多模型融合建模的视频情感识别方法，其特征在于，所述根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型，具体为：

通过预设的人脸图像数据集，预训练卷积神经网络；

4.如权利要求3所述的基于时序多模型融合建模的视频情感识别方法，其特征在于，所述根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型，具体为：

5.如权利要求4所述的基于时序多模型融合建模的视频情感识别方法，其特征在于，所述将所述卷积神经网络模型和所述长短时记忆网络模型进行融合，得到视频情感识别模型，具体为：

o_f＝softmax(W_lo_l+W_po_p)

采用融合建模方法构建所述视频情感识别模型。

6.如权利要求2所述的基于时序多模型融合建模的视频情感识别方法，其特征在于，所述人脸检测、人脸对齐方法，具体为：

并采用MTCNN检测器对所述训练数据集的视频重新检测。

7.一种基于时序多模型融合建模的视频情感识别装置，其特征在于，包括：

8.如权利要求7所述的基于时序多模型融合建模的视频情感识别装置，其特征在于，所述第一处理模块，具体用于：

选择视频情感数据库中的CHEAVD数据集；

从所述训练数据集的视频片段中提取视频单帧图像序列；

9.一种基于时序多模型融合建模的视频情感识别终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于时序多模型融合建模的视频情感识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5任一项所述的基于时序多模型融合建模的视频情感识别方法。