CN108171176B - 一种基于深度学习的地铁司机情绪辨识方法及装置 - Google Patents

一种基于深度学习的地铁司机情绪辨识方法及装置 Download PDF

Info

Publication number
CN108171176B
CN108171176B CN201711481094.9A CN201711481094A CN108171176B CN 108171176 B CN108171176 B CN 108171176B CN 201711481094 A CN201711481094 A CN 201711481094A CN 108171176 B CN108171176 B CN 108171176B
Authority
CN
China
Prior art keywords
deep learning
driver
layer
emotion
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711481094.9A
Other languages
English (en)
Other versions
CN108171176A (zh
Inventor
王经纬
唐海川
龚明
田寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CRRC Industry Institute Co Ltd
Original Assignee
CRRC Industry Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CRRC Industry Institute Co Ltd filed Critical CRRC Industry Institute Co Ltd
Priority to CN201711481094.9A priority Critical patent/CN108171176B/zh
Publication of CN108171176A publication Critical patent/CN108171176A/zh
Application granted granted Critical
Publication of CN108171176B publication Critical patent/CN108171176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种基于深度学习的地铁司机情绪辨识方法及装置,所述方法包括:获取司机情绪状态数据库,包括人脸图像及其对应的情绪状态;构建用于情绪状态辨识的深度学习网络模型;利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述连续多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果。本发明采用基于3D卷积神经网络和堆叠自编码器的深度学习网络模型对地铁司机的情绪状态进行实时监测,识别精度高,能及早发现司机异常工作状态,确保行车安全。

Description

一种基于深度学习的地铁司机情绪辨识方法及装置
技术领域
本发明涉及人工智能领域,更具体地,涉及一种基于深度学习的地铁司机情绪辨识方法及装置。
背景技术
近年来,城市轨道交通列车的平均运行速度和行车密度不断提高,虽然列车行车安全装备和司机标准化作业水平有了很大提升,但司机在值乘过程中可能出现的注意力不集中、疲劳驾驶、意外伤病引发的丧失操纵能力等严重威胁列车安全运行的概率仍然存在。
目前我国城市轨道交通既有的列车行车安全装备基本不具备司机警惕控制的功能,对司机个人工作时的情绪状态没有识别、报警,系统功能不能满足实际运营要求。各种型号地铁、轻轨使用的车辆运行监控记录装置都是在车辆运行时,将采集到的各种运行数据存入该装置的存储器内,到车辆停站时由专人将信息下载,然后交给地面管理部门,最后由技术人员通过地面信息处理系统对数据进行储存和分析。
因此,亟需提供一种能够对司机工作时的情绪状态进行识别、报警,以满足城市轨道交通列车的实际运营要求的方法或系统。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于深度学习的地铁司机情绪辨识方法及装置。
根据本发明的一个方面,提供一种基于深度学习的地铁司机情绪辨识方法,包括:
S1,获取司机情绪状态数据库,包括人脸图像及其对应的情绪状态;
S2,构建用于情绪状态辨识的深度学习网络模型,所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器;
S3,利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型;
S4,采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述连续多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果。
其中,所述步骤S1进一步包括:
使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取和/或将多个公开的人脸数据库中的人脸图像进行合并,得到大规模数据集,从所述大规模数据集中筛选出可辨别人脸情绪状态的有效图片进行保存,生成司机情绪状态数据库。
其中,步骤S2中构建的所述用于情绪状态辨识的深度学习网络模型具体包括:
顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层、第七卷积层、第八卷积层、第五池化层、全连接层、Softmax输出层和堆叠自编码器。
其中,所述步骤S3进一步包括:
S31,从所述司机情绪状态数据库中提取出连续多帧图片,将所述连续多帧图片输入所述第一卷积层开始进行卷积计算;
S32,将所述全连接层的输出向量经激活函数计算得到最后的预测值,使用交叉熵损失函数计算所述预测值与真实值的损失函数值,并最小化损失函数值;
S33,通过随机梯度下降法不断调整网络权重和偏置,重新计算损失函数值,直至损失函数值趋于稳定或到达设定的迭代次数,获得分类后的图片特征;
S34,将分类后的图片特征输入所述堆叠自编码器进行编码压缩,抽象出深度特征,再通过解码重构所述分类后的图片特征,通过反向传播算法不断迭代训练,直至所述堆叠自编码器学习的误差小于预设阈值时停止训练;
S35,将训练完成的所述深度学习网络模型的结构和参数固化,获得情绪状态辨识模型。
根据本发明的另一个方面,提供一种基于深度学习的地铁司机情绪辨识装置,包括:
样本集获取模块,用于获取司机情绪状态数据库,包括人脸图像及其对应的情绪状态;
辨识模型构建模块,用于构建情绪状态辨识的深度学习网络模型,所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器;
训练模块,用于利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型;
识别模块,用于采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述连续多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果。
其中,样本集获取模块具体用于:
使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取和/或将多个公开的人脸数据库中的人脸图像进行合并,得到大规模数据集,从所述大规模数据集中筛选出可辨别人脸情绪状态的有效图片进行保存,生成司机情绪状态数据库。
其中,所述用于情绪状态辨识的深度学习网络模型具体包括:
顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层、第七卷积层、第八卷积层、第五池化层、全连接层、Softmax输出层和堆叠自编码器。
其中,所述训练模块具体用于:
从所述司机情绪状态数据库中提取出连续多帧图片,将所述连续多帧图片输入所述第一卷积层开始进行卷积计算;
将所述全连接层的输出向量经激活函数计算得到最后的预测值,使用交叉熵损失函数计算所述预测值与真实值的损失函数值,并最小化损失函数值;
通过随机梯度下降法不断调整网络权重和偏置,重新计算损失函数值,直至损失函数值趋于稳定或到达设定的迭代次数,获得分类后的图片特征;
将分类后的图片特征输入所述堆叠自编码器进行编码压缩,抽象出深度特征,再通过解码重构所述分类后的图片特征,通过反向传播算法不断迭代训练,直至所述堆叠自编码器学习的误差小于预设阈值时停止训练;
将训练完成的所述深度学习网络模型的结构和参数固化,获得情绪状态辨识模型。
根据本发明的又一个方面,提供一种基于深度学习的地铁司机情绪辨识设备,包括:存储器、处理器以及总线;
所述处理器和存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述存储器中的程序指令,以执行如前所述的方法。
根据本发明的又一个方面,提供一种非暂态计算机可读存储介质,存储有计算机指令,所述计算机指令使所述计算机执行如前所述的方法。
本发明提出的一种基于深度学习的地铁司机情绪辨识方法及装置,采用基于3D卷积神经网络和堆叠自编码器的深度学习网络模型对地铁司机工作时的情绪状态进行实时监测和识别,识别精度高,有助于及早发现可能的人为操作失误,确保行车安全。
附图说明
图1为根据本发明一实施例提供的一种基于深度学习的地铁司机情绪辨识方法的流程示意图;
图2为根据本发明另一实施例提供的基于图1中步骤S3的流程示意图;
图3为根据本发明另一实施例提供的一种基于深度学习的地铁司机情绪辨识装置的结构示意图;
图4为根据本发明另一实施例提供的一种基于深度学习的地铁司机情绪辨识设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
如图1所示,为本发明一实施例提供的一种基于深度学习的地铁司机情绪辨识方法的流程示意图,包括:
S1,获取司机情绪状态数据库,包括人脸图像及其对应的情绪状态;
S2,构建用于情绪状态辨识的深度学习网络模型,所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器;
S3,利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型;
S4,采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述连续多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果。
本发明主要通过识别地铁司机驾驶过程中的面部特征进行情绪辨识,当司机出现疲劳、精神不集中或突发疾病等异常情绪时,其面部表情特征关键点与正常状态不一致,通过对大量不同驾驶情绪状态图片进行收集作为训练样本,构建情绪状态辨识模型,将所收集的大量不同驾驶情绪状态图片输入所构建的情绪状态辨识模型中进行训练,使所述情绪状态辨识模型具有辨别不同情绪状态图片的能力,然后再利用训练完成的情绪状态辨识模型对实时监控到的地铁司机的工作图像进行面部情绪状态的辨识,从而识别出司机是处于正常工作状态还是异常工作状态。
具体地,S1,目前几乎所有的人脸识别研究工作都是在国际公认的人脸数据库上进行的,便于进行算法间的比较,但是数据库中的人脸表情非常丰富,需要从中筛选出一部分能够适用于本发明应用场景的图片,因此本发明还需要自行构建数据库,通过使用摄像头进行长时间的记录获得大量的司机驾驶行为数据,从而扩充训练和测试样本,所构建的司机情绪状态数据库,包括人脸图像及其所对应的情绪状态。
其中,所述步骤S1进一步包括:
使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取和/或将多个公开的人脸数据库中的人脸图像进行合并,得到大规模数据集,从所述大规模数据集中筛选出可辨别人脸情绪状态的有效图片进行保存,生成司机情绪状态数据库。
即本发明实施例中的司机情绪状态数据库,可以通过使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取获得,也可以将现有多个公开的人脸数据库中的人脸图像进行合并后获得,还可以将上述两种方式综合起来,然后从所采集的数据集中筛选出可辨识人脸情绪状态的有效图片,所述有效图片是指人脸情绪清晰可辨,这些有效图片应尽可能的包含较多的情绪状态类别,并进行分类存储,即生成了司机情绪状态数据库。
S2,在获得了训练样本数据后,构建用于情绪状态辨识的深度学习网络模型。本发明改进性的提供了一种融合3D卷积神经网络(3DCNN)与堆叠自编码器(VAE),与普通的深度学习网络不同,本发明提供的网络一次接受连续25帧图片的输入,能够在3D卷积神经网络进行识别分类的基础上,再使用自编码器对特征进行深度学习、抽象,从而实现高效精准的情绪辨识效果。
进一步地,步骤S2中构建的所述用于情绪状态辨识的深度学习网络模型具体包括:
顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层、第七卷积层、第八卷积层、第五池化层、全连接层、Softmax输出层和堆叠自编码器。
Conv1→Pool1→Conv2→Pool2→Conv3a→Conv3b→Pool3→Conv4a→Conv4b
→Pool4→Conv5a→Conv5b→Pool5→fc6→Softmax→AE
所述深度学习网络模型中共包含8个卷积层(Conv)、5个池化层(Pool)、1个全连接层(fc)、1个Softmax输出层以及1个自编码器。其中,卷积层的卷积核与池化层的池化核都是三维结构,自编码器可实时处理图片,因此可以对连续的图像帧进行处理。
首层是卷积层Conv1,接受128*128*16*1的输入,其中128*128是指输入图片的宽度和高度,16是指连续16帧图,1是指图片为单通道。对于普通卷积层,其输出结果是单特征图的集合,本发明采用改进的3D卷积神经网络,能输出的多特征图的集合,称为特征体。因此,Conv1将会输出64个128*128*16*1的特征体。Conv2输出128个,Conv3输出256个,Conv4输出512个,Conv5输出512个。其中,所有卷积核大小为3*3*3,其权值都采用均值为0、方差为1的正太分布初始化,移动步长为1,输入边界填充为0,激活函数为Relu函数,其公式如下:
f(x)=max(0,x) (1);
对于池化层,Pooll的池化核大小为2*2*1,其余层都为2*2*2,池化核权值都采用均值为0、方差为1的正太分布初始化,移动步长为1,进行最大值池化。
对于全连接层,fc6接受Pool5的512个4*4*1*1的特征体输入。每个全连接层都有4096个节点,权值采用均值为0、方差为1的正太分布初始化,并使用Relu激活函数。fc6输出4096个参数给自编码器。
对于Softmax层,其有N个节点,每个节点对应一种面部状态,并输出目标为该类别的概率,对于节点n,Softmax的公式如下:
Figure BDA0001533769830000081
yn=f(Wn,xn) (3);
其中,
Figure BDA0001533769830000082
为Softmax输出该样本为第n类的概率,yn为该节点从前一层网络获取的值。
对于堆叠自编码器,将分类后的图片特征输入1024个节点的隐藏层进行编码压缩,抽象出深度特征,再通过解码重构输入的特征。
S3,利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型。
训练的过程如下,如图2所示,为本发明实施例提供的基于图1中步骤S3的流程示意图,包括:
S31,从所述司机情绪状态数据库中提取出连续多帧图片,将所述连续多帧图片输入所述第一卷积层开始进行卷积计算;
S32,将所述全连接层的输出向量经激活函数计算得到最后的预测值,使用交叉熵损失函数计算所述预测值与真实值的损失函数值,并最小化损失函数值;
S33,通过随机梯度下降法不断调整网络权重和偏置,重新计算损失函数值,直至损失函数值趋于稳定或到达设定的迭代次数,获得分类后的图片特征;
S34,将分类后的图片特征输入所述堆叠自编码器进行编码压缩,抽象出深度特征,再通过解码重构所述分类后的图片特征,通过反向传播算法不断迭代训练,直至所述堆叠自编码器学习的误差小于预设阈值时停止训练;
S35,将训练完成的所述深度学习网络模型的结构和参数固化,获得情绪状态辨识模型。
具体地,对于样本库的一个样本i,属于类型j,该样本是包含一个动作的视频,假设共有a帧图像。首先将其分割成
Figure BDA0001533769830000095
(
Figure BDA0001533769830000096
为向下取整)份片段,每个片段内包含25帧,若最后一个片段不足25帧则舍弃该片段,并将每一帧的分辨率调整到128*128。同时,将该样本的标签进行独热编码(One-HotEncoding)编码。最后,将样本数据输入网络。
训练过程使用交叉熵损失函数,考虑数值计算稳定性情况后,所述交叉熵损失函数的公式如下:
Figure BDA0001533769830000091
对所有样本引入L1正则化惩罚后,损失函数的公式为:
Figure BDA0001533769830000092
训练过程使用随机梯度下降法,B为批量数,取30个样本为一个批量,学习率开始设为0.001,然后每经过10w次迭代计算后减半,每次迭代都会反向更新网络每层的权重。根据损失函数得到的最终梯度方向为:
Figure BDA0001533769830000093
Figure BDA0001533769830000094
Pi,N是样本i的标签独热向量,维度是N*1,第j个元素值为1,其它的元素值为0。PN是网络模型输出的样本i在N个分类上的概率。当损失变化随训练过程趋于稳定之后或到达设定的迭代次数,则停止训练,获得分类后的图片特征。
然后,将分类后的图片特征输入堆叠自编码器进行编码压缩,抽象出深度特征,再通过解码重构输入的图片特征,对损失函数进行正则、最小化操作,通过反向传播算法不断迭代训练,直至堆叠自编码器学习的误差小于预设阈值时停止训练,
最后,将训练完成的所述深度学习网络模型的结构和参数固化,获得情绪状态辨识模型。
将实时采集的地铁司机的工作图像输入所述训练好的情绪状态辨识模型,就可得到司机面部情绪状态识别结果。
S4,采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述连续多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果。
若所述地铁司机的情绪状态辨识结果中概率最大的是异常状态类型,则说明司机处于异常状态。若所述司机状态识别模型输出的分类结果中概率最大的是正常状态类型,则说明司机的面部状态是正常的。
如图3所示,为本发明另一实施例提供的一种基于深度学习的地铁司机情绪辨识装置的结构示意图,包括:样本集获取模块31、辨识模型构建模块32、训练模块33和识别模块34,其中,
所述样本集获取模块31,用于获取司机情绪状态数据库,包括人脸图像及其对应的情绪状态;
所述辨识模型构建模块32,用于构建用于情绪状态辨识的深度学习网络模型,所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器;
所述训练模块33,用于利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型;
所述识别模块34,用于采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述连续多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果。
具体地,所述样本集获取模块31用于获取司机情绪状态数据库,包括人脸图像及其对应的情绪状态,目前几乎所有的人脸识别研究工作都是在国际公认的人脸数据库上进行的,便于进行算法间的比较,但是数据库中的人脸表情非常丰富,需要从中筛选出一部分能够适用于本发明应用场景的图片,因此本发明还需要自行构建数据库,通过使用摄像头进行长时间的记录获得大量的司机驾驶行为数据,从而扩充训练和测试样本,所构建的司机情绪状态数据库,包括人脸图像及其所对应的情绪状态。
进一步地,样本集获取模块31具体用于:
使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取和/或将多个公开的人脸数据库中的人脸图像进行合并,得到大规模数据集,从所述大规模数据集中筛选出可辨别人脸情绪状态的有效图片进行保存,生成司机情绪状态数据库。
即本发明实施例中的司机情绪状态数据库,可以通过使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取获得,也可以将现有多个公开的人脸数据库中的人脸图像进行合并后获得,还可以将上述两种方式综合起来,然后从所采集的数据集中筛选出可辨识人脸情绪状态的有效图片,所述有效图片是指人脸情绪清晰可辨,这些有效图片应尽可能的包含较多的情绪状态类别,并进行分类存储,即生成了司机情绪状态数据库。
在获得了训练样本数据后,辨识模型构建模块32构建用于情绪状态辨识的深度学习网络模型。本发明改进性的提供了一种融合3D卷积神经网络(3DCNN)与堆叠自编码器(VAE),与普通的深度学习网络不同,本发明提供的网络一次接受连续25帧图片的输入,能够在3D卷积神经网络进行识别分类的基础上,再使用自编码器对特征进行深度学习、抽象,从而实现高效精准的情绪辨识效果。
进一步地,所述用于情绪状态辨识的深度学习网络模型具体包括:
顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层、第七卷积层、第八卷积层、第五池化层、全连接层、Softmax输出层和堆叠自编码器。即所示深度学习网络模型具有如下结构:
Conv1→Pool1→Conv2→Pool2→Conv3a→Conv3b→Pool3→Conv4a→Conv4b
→Pool4→Conv5a→Conv5b→Pool5→fc6→Softmax→AE
所述深度学习网络模型中共包含8个卷积层(Conv)、5个池化层(Pool)、1个全连接层(fc)、1个Softmax输出层以及1个自编码器。其中,卷积层的卷积核与池化层的池化核都是三维结构,自编码器可实时处理图片,因此可以对连续的图像帧进行处理。
首层是卷积层Conv1,接受128*128*16*1的输入,其中128*128是指输入图片的宽度和高度,16是指连续16帧图,1是指图片为单通道。对于普通卷积层,其输出结果是单特征图的集合,本发明采用改进的3D卷积神经网络,能输出的多特征图的集合,称为特征体。因此,Conv1将会输出64个128*128*16*1的特征体。Conv2输出128个,Conv3输出256个,Conv4输出512个,Conv5输出512个。其中,所有卷积核大小为3*3*3,其权值都采用均值为0、方差为1的正太分布初始化,移动步长为1,输入边界填充为0,激活函数为Relu函数,其公式如下:
f(x)=max(0,x) (1);
对于池化层,Pool1的池化核大小为2*2*1,其余层都为2*2*2,池化核权值都采用均值为0、方差为1的正太分布初始化,移动步长为1,进行最大值池化。
对于全连接层,fc6接受Pool5的512个4*4*1*1的特征体输入。每个全连接层都有4096个节点,权值采用均值为0、方差为1的正太分布初始化,并使用Relu激活函数。fc6输出4096个参数给自编码器。
对于Softmax层,其有N个节点,每个节点对应一种面部状态,并输出目标为该类别的概率,对于节点n,Softmax的公式如下:
Figure BDA0001533769830000131
yn=f(Wn,xn) (3);
其中,
Figure BDA0001533769830000132
为Softmax输出该样本为第n类的概率,yn为该节点从前一层网络获取的值。
对于堆叠自编码器,将分类后的图片特征输入1024个节点的隐藏层进行编码压缩,抽象出深度特征,再通过解码重构输入的特征。
然后,训练模块33利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型。
训练模块33具体用于:
S31,从所述司机情绪状态数据库中提取出连续多帧图片,将所述连续多帧图片输入所述第一卷积层开始进行卷积计算;
S32,将所述全连接层的输出向量经激活函数计算得到最后的预测值,使用交叉熵损失函数计算所述预测值与真实值的损失函数值,并最小化损失函数值;
S33,通过随机梯度下降法不断调整网络权重和偏置,重新计算损失函数值,直至损失函数值趋于稳定或到达设定的迭代次数,获得分类后的图片特征;
S34,将分类后的图片特征输入所述堆叠自编码器进行编码压缩,抽象出深度特征,再通过解码重构所述分类后的图片特征,通过反向传播算法不断迭代训练,直至所述堆叠自编码器学习的误差小于预设阈值时停止训练;
S35,将训练完成的所述深度学习网络模型的结构和参数固化,获得情绪状态辨识模型。
具体地,对于样本库的一个样本i,属于类型j,该样本是包含一个动作的视频,假设共有a帧图像。首先将其分割成
Figure BDA0001533769830000141
(
Figure BDA0001533769830000142
为向下取整)份片段,每个片段内包含25帧,若最后一个片段不足25帧则舍弃该片段,并将每一帧的分辨率调整到128*128。同时,将该样本的标签进行独热编码(One-HotEncoding)编码。最后,将样本数据输入网络。
训练过程使用交叉熵损失函数,考虑数值计算稳定性情况后,所述交叉熵损失函数的公式如下:
Figure BDA0001533769830000143
对所有样本引入L1正则化惩罚后,损失函数的公式为:
Figure BDA0001533769830000144
训练过程使用随机梯度下降法,B为批量数,取30个样本为一个批量,学习率开始设为0.001,然后每经过10w次迭代计算后减半,每次迭代都会反向更新网络每层的权重。根据损失函数得到的最终梯度方向为:
Figure BDA0001533769830000145
Figure BDA0001533769830000146
Pi,N是样本i的标签独热向量,维度是N*1,第j个元素值为1,其它的元素值为0。PN是网络模型输出的样本i在N个分类上的概率。当损失变化随训练过程趋于稳定之后或到达设定的迭代次数,则停止训练,获得分类后的图片特征。
然后,将分类后的图片特征输入所述自编码器进行编码压缩,抽象出深度特征,再通过解码重构输入的图片特征,对损失函数进行正则、最小化操作,通过反向传播算法不断迭代训练,直至自编码器学习的误差小于预设阈值时停止训练,
最后,将训练完成的所述深度学习网络模型的结构和参数固化,获得情绪状态辨识模型。
将实时采集的地铁司机的工作图像输入所述训练好的情绪状态辨识模型,就可得到司机面部情绪状态识别结果。
所述识别模块34,用于采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述连续多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果。
若所述地铁司机的情绪状态辨识结果中概率最大的是异常状态类型,则说明司机处于异常状态。若所述司机状态识别模型输出的分类结果中概率最大的是正常状态类型,则说明司机的面部状态是正常的。
如图4所示,为本发明另一实施例提供的一种基于深度学习的地铁司机情绪辨识设备的结构示意图,包括:存储器41、处理器42以及总线43;
所述处理器42和存储器41通过所述总线43完成相互间的通信;
所述存储器41存储有可被所述处理器42执行的程序指令,所述处理器42调用所述存储器41中的程序指令,以执行如上述各实施例所述的基于深度学习的地铁司机情绪辨识方法,例如包括:S1,构建司机情绪状态数据库,包括人脸图像及其对应的情绪状态;S2,构建用于情绪状态辨识的深度学习网络模型,所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器;S3,利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型;S4,采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述连续多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果。
根据本发明的又一个方面,提供一种非暂态计算机可读存储介质,存储有计算机指令,所述计算机指令使所述计算机执行如前所述的以执行如上述各实施例所述的基于深度学习的地铁司机情绪辨识方法,例如包括:S1,构建司机情绪状态数据库,包括人脸图像及其对应的情绪状态;S2,构建用于情绪状态辨识的深度学习网络模型,所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器;S3,利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型;S4,采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述连续多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的一种基于深度学习的地铁司机情绪辨识设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的地铁司机情绪辨识方法,其特征在于,包括:
S1,获取司机情绪状态数据库,包括人脸图像及其对应的情绪状态;
S2,构建用于情绪状态辨识的深度学习网络模型,所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器;
S3,利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型;
S4,采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果;
其中,步骤S2中构建的所述用于情绪状态辨识的深度学习网络模型具体包括:
顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层、第七卷积层、第八卷积层、第五池化层、全连接层、Softmax输出层和堆叠自编码器。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:
使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取和/或将多个公开的人脸数据库中的人脸图像进行合并,得到大规模数据集,从所述大规模数据集中筛选出可辨别人脸情绪状态的有效图片进行保存,生成司机情绪状态数据库。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括:
S31,从所述司机情绪状态数据库中提取出连续多帧图片,将所述连续多帧图片输入所述第一卷积层开始进行卷积计算;
S32,将所述全连接层的输出向量经激活函数计算得到最后的预测值,使用交叉熵损失函数计算所述预测值与真实值的损失函数值,并最小化损失函数值;
S33,通过随机梯度下降法不断调整网络权重和偏置,重新计算损失函数值,直至损失函数值趋于稳定或到达设定的迭代次数,获得分类后的图片特征;
S34,将分类后的图片特征输入所述堆叠自编码器进行编码压缩,抽象出深度特征,再通过解码重构所述分类后的图片特征,通过反向传播算法不断迭代训练,直至所述堆叠自编码器学习的误差小于预设阈值时停止训练;
S35,将训练完成的所述深度学习网络模型的结构和参数固化,获得情绪状态辨识模型。
4.一种基于深度学习的地铁司机情绪辨识装置,其特征在于,包括:
样本集获取模块,用于获取司机情绪状态数据库,包括人脸图像及其对应的情绪状态;
辨识模型构建模块,用于构建用于情绪状态辨识的深度学习网络模型,所述深度学习网络模型融合3D卷积神经网络与堆叠自编码器;
训练模块,用于利用所述司机情绪状态数据库对所述深度学习网络模型进行训练,将训练完成的所述深度学习网络模型的结构和参数进行固化,获得情绪状态辨识模型;
识别模块,用于采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像,将所述多帧图像输入所述情绪状态辨识模型,获得所述地铁司机的情绪状态辨识结果;
其中,所述用于情绪状态辨识的深度学习网络模型具体包括:
顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层、第七卷积层、第八卷积层、第五池化层、全连接层、Softmax输出层和堆叠自编码器。
5.根据权利要求4所述的装置,其特征在于,样本集获取模块具体用于:
使用摄像机无间断拍摄地铁司机的工作视频并按预设的帧率对所述视频进行截取和/或将多个公开的人脸数据库中的人脸图像进行合并,得到大规模数据集,从所述大规模数据集中筛选出可辨别人脸情绪状态的有效图片进行保存,生成司机情绪状态数据库。
6.根据权利要求4所述的装置,其特征在于,所述训练模块具体用于:
从所述司机情绪状态数据库中提取出连续多帧图片,将所述连续多帧图片输入所述第一卷积层开始进行卷积计算;
将所述全连接层的输出向量经激活函数计算得到最后的预测值,使用交叉熵损失函数计算所述预测值与真实值的损失函数值,并最小化损失函数值;
通过随机梯度下降法不断调整网络权重和偏置,重新计算损失函数值,直至损失函数值趋于稳定或到达设定的迭代次数,获得分类后的图片特征;
将分类后的图片特征输入所述堆叠自编码器进行编码压缩,抽象出深度特征,再通过解码重构所述分类后的图片特征,通过反向传播算法不断迭代训练,直至所述堆叠自编码器学习的误差小于预设阈值时停止训练;
将训练完成的所述深度学习网络模型的结构和参数固化,获得情绪状态辨识模型。
7.一种基于深度学习的地铁司机情绪辨识设备,其特征在于,包括:存储器、处理器以及总线;
所述处理器和存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述存储器中的程序指令,以执行如权利要求1至3中任一所述的方法。
8.一种非暂态计算机可读存储介质,存储有计算机指令,所述计算机指令使所述计算机执行如权利要求1至3任一所述的方法。
CN201711481094.9A 2017-12-29 2017-12-29 一种基于深度学习的地铁司机情绪辨识方法及装置 Active CN108171176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711481094.9A CN108171176B (zh) 2017-12-29 2017-12-29 一种基于深度学习的地铁司机情绪辨识方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711481094.9A CN108171176B (zh) 2017-12-29 2017-12-29 一种基于深度学习的地铁司机情绪辨识方法及装置

Publications (2)

Publication Number Publication Date
CN108171176A CN108171176A (zh) 2018-06-15
CN108171176B true CN108171176B (zh) 2020-04-24

Family

ID=62516556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711481094.9A Active CN108171176B (zh) 2017-12-29 2017-12-29 一种基于深度学习的地铁司机情绪辨识方法及装置

Country Status (1)

Country Link
CN (1) CN108171176B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192275A (zh) 2018-08-06 2019-01-11 百度在线网络技术(北京)有限公司 人物精神状态的确定方法、装置及服务器
WO2020034902A1 (zh) * 2018-08-11 2020-02-20 昆山美卓智能科技有限公司 具有状态监控功能的智能桌、监控系统服务器及监控方法
CN109213975B (zh) * 2018-08-23 2022-04-12 重庆邮电大学 一种基于字符层级卷积变分自编码的推特文本表示方法
CN109190564A (zh) * 2018-09-05 2019-01-11 厦门集微科技有限公司 一种图像分析的方法、装置、计算机存储介质及终端
CN109222966A (zh) * 2018-10-09 2019-01-18 山东大学 一种基于变分自编码器的脑电信号情感分类方法
JP7014129B2 (ja) * 2018-10-29 2022-02-01 オムロン株式会社 推定器生成装置、モニタリング装置、推定器生成方法及び推定器生成プログラム
CN109712228B (zh) * 2018-11-19 2023-02-24 中国科学院深圳先进技术研究院 建立三维重建模型的方法、装置、电子设备及存储介质
CN109784188A (zh) * 2018-12-18 2019-05-21 深圳壹账通智能科技有限公司 驾驶疲劳度评价方法、装置、计算机设备和存储介质
CN111582896A (zh) * 2019-02-15 2020-08-25 普罗文化股份有限公司 数据辨识定义与迭加系统
CN109726771B (zh) * 2019-02-27 2023-05-02 锦图计算技术(深圳)有限公司 异常驾驶检测模型建立方法、装置及存储介质
CN110084182A (zh) * 2019-04-24 2019-08-02 贵州理工学院 一种基于3d卷积神经网络的分心驾驶识别方法
CN110210456A (zh) * 2019-06-19 2019-09-06 贵州理工学院 一种基于3d卷积神经网络的头部姿态估计方法
CN110321651A (zh) * 2019-07-11 2019-10-11 福州大学 一种基于正则化svae的暂态稳定性判别方法
CN110472512B (zh) * 2019-07-19 2022-08-05 河海大学 一种基于深度学习的人脸状态识别方法及其装置
CN110458206A (zh) * 2019-07-24 2019-11-15 东北师范大学 一种基于深度学习的注意行为模型
CN111553209B (zh) * 2020-04-15 2023-05-12 同济大学 一种基于卷积神经网络和时间序列图的司机行为识别方法
CN111582042A (zh) * 2020-04-15 2020-08-25 五邑大学 一种校园安全管理方法、系统、装置和存储介质
CN111884336B (zh) * 2020-07-14 2021-12-28 广西电网有限责任公司钦州供电局 一种基于大数据的实时监控系统
CN112053224B (zh) * 2020-09-02 2023-08-18 中国银行股份有限公司 业务处理监控实现方法、装置及系统
CN112036328B (zh) * 2020-09-02 2024-02-27 中国银行股份有限公司 银行客户满意度计算方法及装置
CN112163459A (zh) * 2020-09-04 2021-01-01 三峡大学 采用3d卷积的特征融合网络的人脸异常情绪识别方法
CN112800874A (zh) * 2021-01-14 2021-05-14 上海汽车集团股份有限公司 一种人脸检测和识别方法及相关装置
CN112801403A (zh) * 2021-02-10 2021-05-14 武汉科技大学 基于ssa-bp的空中目标潜在威胁度预测方法及系统
CN113034112A (zh) * 2021-03-31 2021-06-25 清华大学深圳国际研究生院 基于深度学习的公交车安全隐患排查系统及方法
US20220332326A1 (en) * 2021-04-14 2022-10-20 Toyota Jidosha Kabushiki Kaisha Information processing apparatus, non-transitory storage medium, and information processing method
CN114565964A (zh) * 2022-03-03 2022-05-31 网易(杭州)网络有限公司 情绪识别模型的生成方法、识别方法、装置、介质和设备
CN114863636A (zh) * 2022-03-25 2022-08-05 吉林云帆智能工程有限公司 一种轨道车辆司机情绪识别算法
CN116758479B (zh) * 2023-06-27 2024-02-02 汇鲲化鹏(海南)科技有限公司 一种基于编码深度学习的智能体活动识别方法及系统
CN117540326B (zh) * 2024-01-09 2024-04-12 深圳大学 钻爆法隧道施工装备的施工状态异常辨识方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654049A (zh) * 2015-12-29 2016-06-08 中国科学院深圳先进技术研究院 人脸表情识别的方法及装置
CN105913025A (zh) * 2016-04-12 2016-08-31 湖北工业大学 一种基于多特征融合的深度学习人脸识别方法
CN107292256A (zh) * 2017-06-14 2017-10-24 西安电子科技大学 基于辅任务的深度卷积小波神经网络表情识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654049A (zh) * 2015-12-29 2016-06-08 中国科学院深圳先进技术研究院 人脸表情识别的方法及装置
CN105913025A (zh) * 2016-04-12 2016-08-31 湖北工业大学 一种基于多特征融合的深度学习人脸识别方法
CN107292256A (zh) * 2017-06-14 2017-10-24 西安电子科技大学 基于辅任务的深度卷积小波神经网络表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的人体动作识别;耿驰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第02期);正文第3-4章 *

Also Published As

Publication number Publication date
CN108171176A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN108171176B (zh) 一种基于深度学习的地铁司机情绪辨识方法及装置
CN108216252B (zh) 一种地铁司机车载驾驶行为分析方法、车载终端及系统
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
Luo et al. Remembering history with convolutional lstm for anomaly detection
Engelcke et al. Vote3deep: Fast object detection in 3d point clouds using efficient convolutional neural networks
CN111798456A (zh) 一种实例分割模型的训练方法、装置、实例分割方法
CN112580523A (zh) 行为识别方法、装置、设备及存储介质
CN111539290A (zh) 视频动作识别方法、装置、电子设备及存储介质
CN109635791A (zh) 一种基于深度学习的视频取证方法
KR102540208B1 (ko) 딥러닝을 이용한 화재감지방법
Henrio et al. Anomaly detection in videos recorded by drones in a surveillance context
Atto et al. Timed-image based deep learning for action recognition in video sequences
Anala et al. Anomaly detection in surveillance videos
CN112906631A (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN105046720A (zh) 基于人体运动捕捉数据字符串表示的行为分割方法
US20200311962A1 (en) Deep learning based tattoo detection system with optimized data labeling for offline and real-time processing
CN111046213B (zh) 一种基于图像识别的知识库构建方法
Gadhavi et al. Transfer learning approach for recognizing natural disasters video
CN115410119A (zh) 一种基于训练样本自适应生成的剧烈运动检测方法及系统
KR20210040604A (ko) 행위 인식 방법 및 장치
CN112862023B (zh) 对象密度确定方法、装置、计算机设备和存储介质
Anees et al. Deep learning framework for density estimation of crowd videos
CN115546491A (zh) 一种跌倒报警方法、系统、电子设备及存储介质
Aqeel et al. Detection of anomaly in videos using convolutional autoencoder and generative adversarial network model
Xu et al. Unusual scene detection using distributed behaviour model and sparse representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant