CN112784695B

CN112784695B - 一种基于图像及语音识别的司机异常状态检测方法

Info

Publication number: CN112784695B
Application number: CN202011635033.5A
Authority: CN
Inventors: 张兵; 周金明
Original assignee: Nanjing Inspector Intelligent Technology Co ltd
Current assignee: Nanjing Inspector Intelligent Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-02-20
Anticipated expiration: 2040-12-31
Also published as: CN112784695A

Abstract

本发明公开了一种基于图像及语音识别的司机异常状态检测方法，该方法包括：步骤1，通过图像模块实时监控驾驶员的状态并分析；步骤2，通过交互模块与驾驶员进行语音交互，采集驾驶员声音状态，语音系统会随机从语音库中抽取一组简短对话与驾驶员进行交互，步骤3，通过语音分析模块分析驾驶员的语音信息，判断驾驶员的状态，步骤4，通过告警模块进行告警。该方法可以实时监测驾驶员的驾驶状态，可以有效减少因为驾驶员异常导致的交通安全事故的发生。

Description

一种基于图像及语音识别的司机异常状态检测方法

技术领域

本发明涉及图像识别和语音识别研究领域，具体涉及一种基于图像及语音识别的司机异常状态检测方法。

背景技术

近年来，由于驾驶员主观原因，如酒驾，毒驾或情绪不稳定等司机异常状态，所导致的安全事故时有发生，造成了很严重的后果。对于酒驾毒驾的现象，目前常规的做法是交警设卡检查，需要很大的人力投入，且收效较低；目前驾驶员异常行为的检测需要驾驶人员穿戴特定的传感器设备，使用成本较高，无法后装；或需要检测人员手持设备进行检测，耗费人工；现有的智能检测方法检测之后直接进行干预，缺乏确认的手段，若发生误报，会影响驾驶员的驾驶体验，也可能导致安全事故的发生。

发明内容

为了克服现有技术的不足，本公开实施例提供了一种基于图像及语音识别的司机异常状态检测方法，可以实时监测驾驶员的驾驶状态，可以有效减少因为驾驶员异常导致的交通安全事故的发生。技术方案如下：

提供了一种基于图像及语音识别的司机异常状态检测方法，主要包括以下步骤：

步骤1，通过图像模块实时监控驾驶员的状态并分析；

通过深度学习的方式根据摄像头获取到的司机图像，判断当前司机的情绪状态；具体为:采用人脸检测网络获取到司机的人脸位置，进行基于人脸状态分析；基于当前的司机的人脸图片，分析司机是否处于酒驾，毒驾，情绪异常等危险驾驶状态，若根据图像判断出司机当前的状态为危险驾驶，则会触发交互模块进行二次确认；

步骤2，通过交互模块与驾驶员进行语音交互，采集驾驶员声音状态，语音系统会随机从语音库中抽取一组简短对话与驾驶员进行交互，触发该模块后，若在规定时间内没有收到驾驶员的语音响应信息，则跳过语音分析模块，直接进行告警，若在规定时间内收到驾驶员的语音响应信息，则进入语音分析模块；

步骤3，通过语音分析模块分析驾驶员的语音信息，判断驾驶员的状态

语音分析模块采用基于深度学习的语音情绪识别系统，先将采集到的语音通过FIR滤波器进行滤波，保留在人声频率范围内的声音信息，然后将滤波后的声音信号转化为宽带频谱图，最后将转化后的宽带频谱图输入训练好的深度卷积神经网络中，提取其中的情绪信息；若提取到的情绪信息在负面状态，则触发告警系统；

步骤4，通过告警模块进行告警

优选的，步骤4具体为:通过声音提醒等手段对驾驶员进行告警，通过网络向运营平台发送告警信息等。

优选的，步骤1人脸检测网络使用改进的MTCNN检测算法，具体改进为:

(1)修改了MTCNN算法内的卷积方式，将原始的卷积层修改为深度卷积层，并在此基础上，使用自研数据集进行重新调整训练；

(2)在MTCNN检测网络的基础上，增加了MTCNN跟踪网络；将算法当前帧的人脸检测位置扩大A倍后，作为下一帧预测的输入,传给MTCNN跟踪网络,跟踪网络直接根据上一帧目标所在位置，提取ROI区域图片进行人脸细节检测，用目标检测网络进行跟踪。

优选的，步骤1进行基于人脸状态分析，使用基于OSnet结构训练的人脸情绪分析算法模型，来计算输入人脸的情绪状态；将目标人脸位置的图片，和MTCNN人脸检测网络基于该图片提取到的级联特征，一起作为人脸状态检测网络的输入；OSnet特征提取网络在提取图片特征的同时以MTCNN检测网络的特征为参考，使用双特征共同预测当前司机的情绪状态；其中MTCNN检测网络的特征为检测目标时的特征，其特征关注点有效锁定在人脸区域。

优选的，步骤2通过交互模块与驾驶员进行语音交互采用基于动态时间规整的语音识别算法，具体为：交互模块发出语音问答后，通过麦克风获取司机回答的音频数据；通过语音处理的双门极限点算法，判断出驾驶员回答的开始和结束时间，截取该开始和结束时间内的音频数据作为司机回答的音频基准数据；使用梅尔倒谱的方式对基准数据进行特征提取，与题库中的答案特征进行相似度判断，若相似度大于阈值，则认为其回答正确，进入语音分析模块，否则回答错误，进入告警模块。

优选的，步骤3深度循环卷积神经网络使用FasterRcnn网络为backbone骨架，将每层的参数量减少到原始大小的1/4以提升其速度，网络输入为音频基准数据的频谱图，将声音信号转化为图像信号，然后将图像信号作为输入传给深度学习网络，计算出该段音频所包含的情绪信息。

优选的，深度循环卷积神经网络在训练时，采用开源的标注好的语音数据库，将数据库中的音频转化为图像信号，使用转化后的数据关联其标注标签的方式，制作出频谱图-情绪标签的情绪数据集，使用该情绪数据集训练得到训练好的深度循环卷积神经网络，即语音情绪识别网络。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：先通过图像识别的方式发现驾驶员可能存在异常驾驶的情况，再通过语音交互，智能语音分析的方式确认驾驶员的驾驶状态，最终进行实时告警，可以实时监测驾驶员的驾驶状态，可以有效减少因为驾驶员异常导致的交通安全事故的发生。

本发明通过图像识别的方法进行检测，无接触，不需要驾驶员进行任何干预，装置简单，成本低，可以在营运车辆，两客一危上进行批量安装统一管理，方便管理机构进行监控。通过智能语音沟通，再通过分析驾驶员语音特征的方式进行二次确认，简单方便，解决了通过智能检测手段可能存在的误判问题，且准确率高，在保障驾驶员驾驶体验的基础上，有效减少误判情况，也能提醒驾驶员安全驾驶。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。

本公开实施例提供了一种基于图像及语音识别的司机异常状态检测方法：主要包括以下步骤：

步骤1，通过图像模块实时监控驾驶员的状态并分析；

优选的，步骤1人脸检测网络使用改进的MTCNN检测算法，针对司机驾驶场景，本发明对MTCNN算法做了两点改进。

具体改进为:

(1)修改了MTCNN算法内的卷积方式，将原始的卷积层修改为深度卷积层，并在此基础上，使用适用于本场景的自研数据集进行重新调整训练，同时提高了模型的速度和精度；

(2)在MTCNN检测网络的基础上，增加了MTCNN跟踪网络；MTCNN网络为三模型级联网络，其速度瓶颈在于第一层的图像金字塔操作，该操作在全图场景上检出目标人脸区域,时长约为40ms(RK3399),时间成本占三层网络总计算时间的80％。为了提升本模块的性能，本发明调整了算法实现部分的逻辑，将算法当前帧的人脸检测位置扩大A倍后，作为下一帧预测的输入,传给MTCNN跟踪网络,跟踪网络直接根据上一帧目标所在位置，提取ROI区域图片进行人脸细节检测，用目标检测网络进行跟踪，比传统的跟踪算法更有针对性，准确性更高，在确保检测而精度的前提下，大幅提升了人脸检测的速度。

优选的，步骤1进行基于人脸状态分析，使用基于OSnet结构训练的人脸情绪分析算法模型，来计算输入人脸的情绪状态；与一般人脸状态识别算法仅使用图片作为输入的做法不同，本发明同时将目标人脸位置的图片，和MTCNN人脸检测网络基于该图片提取到的级联特征，一起作为人脸状态检测网络的输入；OSnet特征提取网络在提取图片特征的同时以MTCNN检测网络的特征为参考，使用双特征共同预测当前司机的情绪状态；使用双网络特征共同进行人脸情绪状态分析，其中MTCNN检测网络的特征为检测目标时的特征，其特征关注点有效锁定在人脸区域，可以有效的提高模型人脸情绪状态检测的精度。若检测发现司机情绪存在异常，则进入语音交互模块进行二次确认；

本发明使用语音交互模块进行司机情绪状态的二次确认；优选的，步骤2通过交互模块与驾驶员进行语音交互采用基于动态时间规整的语音识别算法，采用该算法的原因是，交互模块是一个简单问答系统，需要识别的语音内容比较简略，为内容明确的问题答案，使用轻量的基于动态时间规整的语音识别算法即可满足该模块的要求。具体为：交互模块发出语音问答后，通过麦克风获取司机回答的音频数据；通过语音处理的双门极限点算法，判断出驾驶员回答的开始和结束时间，截取该开始和结束时间内的音频数据作为司机回答的音频基准数据；使用梅尔倒谱的方式对基准数据进行特征提取，与题库中的答案特征进行相似度判断，若相似度大于阈值，则认为其回答正确，进入语音分析模块，否则回答错误，进入告警模块；

其中，语音情绪分析模块根据语音识别模块提取到的司机回答的基准音频数据，通过深度循环卷积神经网络进行情绪分析。

优选的，深度循环卷积神经网络使用FasterRcnn网络为backbone骨架，将每层的参数量减少到原始大小的1/4以提升其速度，网络输入为音频基准数据的频谱图，将声音信号转化为图像信号，从而提高信号所携带的信息量，然后将图像信号作为输入传给深度学习网络，计算出该段音频所包含的情绪信息；

步骤4，通过告警模块进行告警

以上对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于图像及语音识别的司机异常状态检测方法，其特征在于，包括以下步骤：

步骤1，通过图像模块实时监控驾驶员的状态并分析；

通过深度学习的方式根据摄像头获取到的司机图像，判断当前司机的情绪状态；具体为:采用人脸检测网络获取到司机的人脸位置，使用基于OSnet结构训练的人脸情绪分析算法模型，来计算输入人脸的情绪状态，将目标人脸位置的图片，和MTCNN人脸检测网络基于该图片提取到的级联特征，一起作为人脸状态检测网络的输入；OSnet特征提取网络在提取图片特征的同时以MTCNN检测网络的特征为参考，使用双特征共同预测当前司机的情绪状态；其中MTCNN检测网络的特征为检测目标时的特征，其特征关注点有效锁定在人脸区域；基于当前的司机的人脸图片，分析司机是否处于酒驾，毒驾，情绪异常危险驾驶状态，若根据图像判断出司机当前的状态为危险驾驶，则会触发交互模块进行二次确认；

步骤2，通过交互模块与驾驶员进行语音交互，采用基于动态时间规整的语音识别算法，具体为：交互模块发出语音问答后，通过麦克风获取司机回答的音频数据；通过语音处理的双门极限点算法，判断出驾驶员回答的开始和结束时间，截取该开始和结束时间内的音频数据作为司机回答的音频基准数据；使用梅尔倒谱的方式对基准数据进行特征提取，与题库中的答案特征进行相似度判断，若相似度大于阈值，则认为其回答正确，进入语音分析模块，否则回答错误，进入告警模块；

采集驾驶员声音状态，语音系统会随机从语音库中抽取一组简短对话与驾驶员进行交互，触发该模块后，若在规定时间内没有收到驾驶员的语音响应信息，则跳过语音分析模块，直接进行告警，若在规定时间内收到驾驶员的语音响应信息，则进入语音分析模块；

步骤4，通过声音提醒手段对驾驶员进行告警，通过网络向运营平台发送告警信息。

2.根据权利要求1所述的一种基于图像及语音识别的司机异常状态检测方法，其特征在于，步骤1人脸检测网络使用改进的MTCNN检测算法，具体改进为:

(2) 在MTCNN检测网络的基础上，增加了MTCNN跟踪网络;将算法当前帧的人脸检测位置扩大A倍后，作为下一帧预测的输入,传给MTCNN跟踪网络,跟踪网络直接根据上一帧目标所在位置，提取ROI区域图片进行人脸细节检测，用目标检测网络进行跟踪。

3.根据权利要求1所述的一种基于图像及语音识别的司机异常状态检测方法，其特征在于，步骤3深度循环卷积神经网络使用FasterRcnn网络为backbone骨架，将每层的参数量减少到原始大小的1/4以提升其速度，网络输入为音频基准数据的频谱图，将声音信号转化为图像信号，然后将图像信号作为输入传给深度学习网络，计算出该段音频所包含的情绪信息。

4.根据权利要求1所述的一种基于图像及语音识别的司机异常状态检测方法，其特征在于，深度循环卷积神经网络在训练时，采用开源的标注好的语音数据库，将数据库中的音频转化为图像信号，使用转化后的数据关联其标注标签的方式，制作出频谱图-情绪标签的情绪数据集，使用该情绪数据集训练得到训练好的深度循环卷积神经网络，即语音情绪识别网络。