CN108171176B

CN108171176B - 一种基于深度学习的地铁司机情绪辨识方法及装置

Info

Publication number: CN108171176B
Application number: CN201711481094.9A
Authority: CN
Inventors: 王经纬; 唐海川; 龚明; 田寅
Original assignee: CRRC Industry Institute Co Ltd
Current assignee: CRRC Industry Institute Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2020-04-24
Anticipated expiration: 2037-12-29
Also published as: CN108171176A

Abstract

本发明提供一种基于深度学习的地铁司机情绪辨识方法及装置，所述方法包括：获取司机情绪状态数据库，包括人脸图像及其对应的情绪状态；构建用于情绪状态辨识的深度学习网络模型；利用所述司机情绪状态数据库对所述深度学习网络模型进行训练，将训练完成的所述深度学习网络模型的结构和参数进行固化，获得情绪状态辨识模型采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将所述连续多帧图像输入所述情绪状态辨识模型，获得所述地铁司机的情绪状态辨识结果。本发明采用基于3D卷积神经网络和堆叠自编码器的深度学习网络模型对地铁司机的情绪状态进行实时监测，识别精度高，能及早发现司机异常工作状态，确保行车安全。

Description

一种基于深度学习的地铁司机情绪辨识方法及装置

技术领域

本发明涉及人工智能领域，更具体地，涉及一种基于深度学习的地铁司机情绪辨识方法及装置。

背景技术

近年来，城市轨道交通列车的平均运行速度和行车密度不断提高，虽然列车行车安全装备和司机标准化作业水平有了很大提升，但司机在值乘过程中可能出现的注意力不集中、疲劳驾驶、意外伤病引发的丧失操纵能力等严重威胁列车安全运行的概率仍然存在。

目前我国城市轨道交通既有的列车行车安全装备基本不具备司机警惕控制的功能，对司机个人工作时的情绪状态没有识别、报警，系统功能不能满足实际运营要求。各种型号地铁、轻轨使用的车辆运行监控记录装置都是在车辆运行时，将采集到的各种运行数据存入该装置的存储器内，到车辆停站时由专人将信息下载，然后交给地面管理部门，最后由技术人员通过地面信息处理系统对数据进行储存和分析。

因此，亟需提供一种能够对司机工作时的情绪状态进行识别、报警，以满足城市轨道交通列车的实际运营要求的方法或系统。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于深度学习的地铁司机情绪辨识方法及装置。

根据本发明的一个方面，提供一种基于深度学习的地铁司机情绪辨识方法，包括：

S1，获取司机情绪状态数据库，包括人脸图像及其对应的情绪状态；

S2，构建用于情绪状态辨识的深度学习网络模型，所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器；

S3，利用所述司机情绪状态数据库对所述深度学习网络模型进行训练，将训练完成的所述深度学习网络模型的结构和参数进行固化，获得情绪状态辨识模型；

S4，采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将所述连续多帧图像输入所述情绪状态辨识模型，获得所述地铁司机的情绪状态辨识结果。

其中，所述步骤S1进一步包括：

使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取和/或将多个公开的人脸数据库中的人脸图像进行合并，得到大规模数据集，从所述大规模数据集中筛选出可辨别人脸情绪状态的有效图片进行保存，生成司机情绪状态数据库。

其中，步骤S2中构建的所述用于情绪状态辨识的深度学习网络模型具体包括：

顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层、第七卷积层、第八卷积层、第五池化层、全连接层、Softmax输出层和堆叠自编码器。

其中，所述步骤S3进一步包括：

S31，从所述司机情绪状态数据库中提取出连续多帧图片，将所述连续多帧图片输入所述第一卷积层开始进行卷积计算；

S32，将所述全连接层的输出向量经激活函数计算得到最后的预测值，使用交叉熵损失函数计算所述预测值与真实值的损失函数值，并最小化损失函数值；

S33，通过随机梯度下降法不断调整网络权重和偏置，重新计算损失函数值，直至损失函数值趋于稳定或到达设定的迭代次数，获得分类后的图片特征；

S34，将分类后的图片特征输入所述堆叠自编码器进行编码压缩，抽象出深度特征，再通过解码重构所述分类后的图片特征，通过反向传播算法不断迭代训练，直至所述堆叠自编码器学习的误差小于预设阈值时停止训练；

S35，将训练完成的所述深度学习网络模型的结构和参数固化，获得情绪状态辨识模型。

根据本发明的另一个方面，提供一种基于深度学习的地铁司机情绪辨识装置，包括：

样本集获取模块，用于获取司机情绪状态数据库，包括人脸图像及其对应的情绪状态；

辨识模型构建模块，用于构建情绪状态辨识的深度学习网络模型，所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器；

训练模块，用于利用所述司机情绪状态数据库对所述深度学习网络模型进行训练，将训练完成的所述深度学习网络模型的结构和参数进行固化，获得情绪状态辨识模型；

识别模块，用于采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将所述连续多帧图像输入所述情绪状态辨识模型，获得所述地铁司机的情绪状态辨识结果。

其中，样本集获取模块具体用于：

其中，所述用于情绪状态辨识的深度学习网络模型具体包括：

其中，所述训练模块具体用于：

从所述司机情绪状态数据库中提取出连续多帧图片，将所述连续多帧图片输入所述第一卷积层开始进行卷积计算；

将所述全连接层的输出向量经激活函数计算得到最后的预测值，使用交叉熵损失函数计算所述预测值与真实值的损失函数值，并最小化损失函数值；

通过随机梯度下降法不断调整网络权重和偏置，重新计算损失函数值，直至损失函数值趋于稳定或到达设定的迭代次数，获得分类后的图片特征；

将分类后的图片特征输入所述堆叠自编码器进行编码压缩，抽象出深度特征，再通过解码重构所述分类后的图片特征，通过反向传播算法不断迭代训练，直至所述堆叠自编码器学习的误差小于预设阈值时停止训练；

将训练完成的所述深度学习网络模型的结构和参数固化，获得情绪状态辨识模型。

根据本发明的又一个方面，提供一种基于深度学习的地铁司机情绪辨识设备，包括：存储器、处理器以及总线；

所述处理器和存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述存储器中的程序指令，以执行如前所述的方法。

根据本发明的又一个方面，提供一种非暂态计算机可读存储介质，存储有计算机指令，所述计算机指令使所述计算机执行如前所述的方法。

本发明提出的一种基于深度学习的地铁司机情绪辨识方法及装置，采用基于3D卷积神经网络和堆叠自编码器的深度学习网络模型对地铁司机工作时的情绪状态进行实时监测和识别，识别精度高，有助于及早发现可能的人为操作失误，确保行车安全。

附图说明

图1为根据本发明一实施例提供的一种基于深度学习的地铁司机情绪辨识方法的流程示意图；

图2为根据本发明另一实施例提供的基于图1中步骤S3的流程示意图；

图3为根据本发明另一实施例提供的一种基于深度学习的地铁司机情绪辨识装置的结构示意图；

图4为根据本发明另一实施例提供的一种基于深度学习的地铁司机情绪辨识设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明保护的范围。

如图1所示，为本发明一实施例提供的一种基于深度学习的地铁司机情绪辨识方法的流程示意图，包括：

本发明主要通过识别地铁司机驾驶过程中的面部特征进行情绪辨识，当司机出现疲劳、精神不集中或突发疾病等异常情绪时，其面部表情特征关键点与正常状态不一致，通过对大量不同驾驶情绪状态图片进行收集作为训练样本，构建情绪状态辨识模型，将所收集的大量不同驾驶情绪状态图片输入所构建的情绪状态辨识模型中进行训练，使所述情绪状态辨识模型具有辨别不同情绪状态图片的能力，然后再利用训练完成的情绪状态辨识模型对实时监控到的地铁司机的工作图像进行面部情绪状态的辨识，从而识别出司机是处于正常工作状态还是异常工作状态。

具体地，S1，目前几乎所有的人脸识别研究工作都是在国际公认的人脸数据库上进行的，便于进行算法间的比较，但是数据库中的人脸表情非常丰富，需要从中筛选出一部分能够适用于本发明应用场景的图片，因此本发明还需要自行构建数据库，通过使用摄像头进行长时间的记录获得大量的司机驾驶行为数据，从而扩充训练和测试样本，所构建的司机情绪状态数据库，包括人脸图像及其所对应的情绪状态。

其中，所述步骤S1进一步包括：

即本发明实施例中的司机情绪状态数据库，可以通过使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取获得，也可以将现有多个公开的人脸数据库中的人脸图像进行合并后获得，还可以将上述两种方式综合起来，然后从所采集的数据集中筛选出可辨识人脸情绪状态的有效图片，所述有效图片是指人脸情绪清晰可辨，这些有效图片应尽可能的包含较多的情绪状态类别，并进行分类存储，即生成了司机情绪状态数据库。

S2，在获得了训练样本数据后，构建用于情绪状态辨识的深度学习网络模型。本发明改进性的提供了一种融合3D卷积神经网络(3DCNN)与堆叠自编码器(VAE)，与普通的深度学习网络不同，本发明提供的网络一次接受连续25帧图片的输入，能够在3D卷积神经网络进行识别分类的基础上，再使用自编码器对特征进行深度学习、抽象，从而实现高效精准的情绪辨识效果。

进一步地，步骤S2中构建的所述用于情绪状态辨识的深度学习网络模型具体包括：

Conv1→Pool1→Conv2→Pool2→Conv3a→Conv3b→Pool3→Conv4a→Conv4b

→Pool4→Conv5a→Conv5b→Pool5→fc6→Softmax→AE

所述深度学习网络模型中共包含8个卷积层(Conv)、5个池化层(Pool)、1个全连接层(fc)、1个Softmax输出层以及1个自编码器。其中，卷积层的卷积核与池化层的池化核都是三维结构，自编码器可实时处理图片，因此可以对连续的图像帧进行处理。

首层是卷积层Conv1，接受128*128*16*1的输入，其中128*128是指输入图片的宽度和高度，16是指连续16帧图，1是指图片为单通道。对于普通卷积层，其输出结果是单特征图的集合，本发明采用改进的3D卷积神经网络，能输出的多特征图的集合，称为特征体。因此，Conv1将会输出64个128*128*16*1的特征体。Conv2输出128个，Conv3输出256个，Conv4输出512个，Conv5输出512个。其中，所有卷积核大小为3*3*3，其权值都采用均值为0、方差为1的正太分布初始化，移动步长为1，输入边界填充为0，激活函数为Relu函数，其公式如下：

f(x)＝max(0，x) (1)；

对于池化层，Pooll的池化核大小为2*2*1，其余层都为2*2*2，池化核权值都采用均值为0、方差为1的正太分布初始化，移动步长为1，进行最大值池化。

对于全连接层，fc6接受Pool5的512个4*4*1*1的特征体输入。每个全连接层都有4096个节点，权值采用均值为0、方差为1的正太分布初始化，并使用Relu激活函数。fc6输出4096个参数给自编码器。

对于Softmax层，其有N个节点，每个节点对应一种面部状态，并输出目标为该类别的概率，对于节点n，Softmax的公式如下：

y_n＝f(W_n，x_n) (3)；

其中，

为Softmax输出该样本为第n类的概率，y_n为该节点从前一层网络获取的值。

对于堆叠自编码器，将分类后的图片特征输入1024个节点的隐藏层进行编码压缩，抽象出深度特征，再通过解码重构输入的特征。

S3，利用所述司机情绪状态数据库对所述深度学习网络模型进行训练，将训练完成的所述深度学习网络模型的结构和参数进行固化，获得情绪状态辨识模型。

训练的过程如下，如图2所示，为本发明实施例提供的基于图1中步骤S3的流程示意图，包括：

具体地，对于样本库的一个样本i，属于类型j，该样本是包含一个动作的视频，假设共有a帧图像。首先将其分割成

(

为向下取整)份片段，每个片段内包含25帧，若最后一个片段不足25帧则舍弃该片段，并将每一帧的分辨率调整到128*128。同时，将该样本的标签进行独热编码(One-HotEncoding)编码。最后，将样本数据输入网络。

训练过程使用交叉熵损失函数，考虑数值计算稳定性情况后，所述交叉熵损失函数的公式如下：

对所有样本引入L1正则化惩罚后，损失函数的公式为：

训练过程使用随机梯度下降法，B为批量数，取30个样本为一个批量，学习率开始设为0.001，然后每经过10w次迭代计算后减半，每次迭代都会反向更新网络每层的权重。根据损失函数得到的最终梯度方向为：

P_i，N是样本i的标签独热向量，维度是N*1，第j个元素值为1，其它的元素值为0。P_N是网络模型输出的样本i在N个分类上的概率。当损失变化随训练过程趋于稳定之后或到达设定的迭代次数，则停止训练，获得分类后的图片特征。

然后，将分类后的图片特征输入堆叠自编码器进行编码压缩，抽象出深度特征，再通过解码重构输入的图片特征，对损失函数进行正则、最小化操作，通过反向传播算法不断迭代训练，直至堆叠自编码器学习的误差小于预设阈值时停止训练，

最后，将训练完成的所述深度学习网络模型的结构和参数固化，获得情绪状态辨识模型。

将实时采集的地铁司机的工作图像输入所述训练好的情绪状态辨识模型，就可得到司机面部情绪状态识别结果。

若所述地铁司机的情绪状态辨识结果中概率最大的是异常状态类型，则说明司机处于异常状态。若所述司机状态识别模型输出的分类结果中概率最大的是正常状态类型，则说明司机的面部状态是正常的。

如图3所示，为本发明另一实施例提供的一种基于深度学习的地铁司机情绪辨识装置的结构示意图，包括：样本集获取模块31、辨识模型构建模块32、训练模块33和识别模块34，其中，

所述样本集获取模块31，用于获取司机情绪状态数据库，包括人脸图像及其对应的情绪状态；

所述辨识模型构建模块32，用于构建用于情绪状态辨识的深度学习网络模型，所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器；

所述训练模块33，用于利用所述司机情绪状态数据库对所述深度学习网络模型进行训练，将训练完成的所述深度学习网络模型的结构和参数进行固化，获得情绪状态辨识模型；

所述识别模块34，用于采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将所述连续多帧图像输入所述情绪状态辨识模型，获得所述地铁司机的情绪状态辨识结果。

具体地，所述样本集获取模块31用于获取司机情绪状态数据库，包括人脸图像及其对应的情绪状态，目前几乎所有的人脸识别研究工作都是在国际公认的人脸数据库上进行的，便于进行算法间的比较，但是数据库中的人脸表情非常丰富，需要从中筛选出一部分能够适用于本发明应用场景的图片，因此本发明还需要自行构建数据库，通过使用摄像头进行长时间的记录获得大量的司机驾驶行为数据，从而扩充训练和测试样本，所构建的司机情绪状态数据库，包括人脸图像及其所对应的情绪状态。

进一步地，样本集获取模块31具体用于：

在获得了训练样本数据后，辨识模型构建模块32构建用于情绪状态辨识的深度学习网络模型。本发明改进性的提供了一种融合3D卷积神经网络(3DCNN)与堆叠自编码器(VAE)，与普通的深度学习网络不同，本发明提供的网络一次接受连续25帧图片的输入，能够在3D卷积神经网络进行识别分类的基础上，再使用自编码器对特征进行深度学习、抽象，从而实现高效精准的情绪辨识效果。

进一步地，所述用于情绪状态辨识的深度学习网络模型具体包括：

顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层、第七卷积层、第八卷积层、第五池化层、全连接层、Softmax输出层和堆叠自编码器。即所示深度学习网络模型具有如下结构：

Conv1→Pool1→Conv2→Pool2→Conv3a→Conv3b→Pool3→Conv4a→Conv4b

→Pool4→Conv5a→Conv5b→Pool5→fc6→Softmax→AE

f(x)＝max(0，x) (1)；

对于池化层，Pool1的池化核大小为2*2*1，其余层都为2*2*2，池化核权值都采用均值为0、方差为1的正太分布初始化，移动步长为1，进行最大值池化。

y_n＝f(W_n，x_n) (3)；

其中，

然后，训练模块33利用所述司机情绪状态数据库对所述深度学习网络模型进行训练，将训练完成的所述深度学习网络模型的结构和参数进行固化，获得情绪状态辨识模型。

训练模块33具体用于：

(

对所有样本引入L1正则化惩罚后，损失函数的公式为：

然后，将分类后的图片特征输入所述自编码器进行编码压缩，抽象出深度特征，再通过解码重构输入的图片特征，对损失函数进行正则、最小化操作，通过反向传播算法不断迭代训练，直至自编码器学习的误差小于预设阈值时停止训练，

如图4所示，为本发明另一实施例提供的一种基于深度学习的地铁司机情绪辨识设备的结构示意图，包括：存储器41、处理器42以及总线43；

所述处理器42和存储器41通过所述总线43完成相互间的通信；

所述存储器41存储有可被所述处理器42执行的程序指令，所述处理器42调用所述存储器41中的程序指令，以执行如上述各实施例所述的基于深度学习的地铁司机情绪辨识方法，例如包括：S1，构建司机情绪状态数据库，包括人脸图像及其对应的情绪状态；S2，构建用于情绪状态辨识的深度学习网络模型，所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器；S3，利用所述司机情绪状态数据库对所述深度学习网络模型进行训练，将训练完成的所述深度学习网络模型的结构和参数进行固化，获得情绪状态辨识模型；S4，采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将所述连续多帧图像输入所述情绪状态辨识模型，获得所述地铁司机的情绪状态辨识结果。

根据本发明的又一个方面，提供一种非暂态计算机可读存储介质，存储有计算机指令，所述计算机指令使所述计算机执行如前所述的以执行如上述各实施例所述的基于深度学习的地铁司机情绪辨识方法，例如包括：S1，构建司机情绪状态数据库，包括人脸图像及其对应的情绪状态；S2，构建用于情绪状态辨识的深度学习网络模型，所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器；S3，利用所述司机情绪状态数据库对所述深度学习网络模型进行训练，将训练完成的所述深度学习网络模型的结构和参数进行固化，获得情绪状态辨识模型；S4，采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将所述连续多帧图像输入所述情绪状态辨识模型，获得所述地铁司机的情绪状态辨识结果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的一种基于深度学习的地铁司机情绪辨识设备实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本发明的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的地铁司机情绪辨识方法，其特征在于，包括：

S4，采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将所述多帧图像输入所述情绪状态辨识模型，获得所述地铁司机的情绪状态辨识结果；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1进一步包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤S3进一步包括：

4.一种基于深度学习的地铁司机情绪辨识装置，其特征在于，包括：

辨识模型构建模块，用于构建用于情绪状态辨识的深度学习网络模型，所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器；

识别模块，用于采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将所述多帧图像输入所述情绪状态辨识模型，获得所述地铁司机的情绪状态辨识结果；

5.根据权利要求4所述的装置，其特征在于，样本集获取模块具体用于：

6.根据权利要求4所述的装置，其特征在于，所述训练模块具体用于：

7.一种基于深度学习的地铁司机情绪辨识设备，其特征在于，包括：存储器、处理器以及总线；

所述处理器和存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述存储器中的程序指令，以执行如权利要求1至3中任一所述的方法。

8.一种非暂态计算机可读存储介质，存储有计算机指令，所述计算机指令使所述计算机执行如权利要求1至3任一所述的方法。