CN113901871A

CN113901871A - 一种驾驶员危险动作识别方法、装置以及设备

Info

Publication number: CN113901871A
Application number: CN202111045770.4A
Authority: CN
Inventors: 姜英豪; 朱星
Original assignee: Wuhan Future Phantom Technology Co Ltd
Current assignee: Wuhan Future Phantom Technology Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2022-01-07

Abstract

本申请提供了一种驾驶员危险动作识别方法、装置以及设备，用于提高对驾驶员危险动作的识别效率。方法包括：通过部署于车辆上的摄像头，采集车辆内驾驶位置的初始图像；将初始图像导入目标物体识别模型，使得目标物体识别模型进行目标物体识别处理；当目标物体识别模型识别到目标物体时，将初始图像导入人脸识别模型，使得人脸识别模型进行人脸识别处理；计算在图像区域上，初始图像的目标物体识别结果与初始图像的人脸识别结果之间的重叠度；若重叠度达到重叠度阈值，则确定初始图像对应的驾驶员存在危险动作。

Description

一种驾驶员危险动作识别方法、装置以及设备

技术领域

本申请涉及车辆领域，具体涉及一种驾驶员危险动作识别方法、装置以及设备。

背景技术

随着生活水平的提高，汽车已经进入平常百姓家庭，成为人们的日常出行工具，但是它给人们带来便利的同时，也出现了越来越多的交通事故，造成大量人员伤亡。

目前大量事故的产生，都与驾驶员不规范的动作，或者说危险动作相关，比如开车时打电话、喝水、抽烟等，这些都会带来极大的安全隐患。因此，监测驾驶员的动作，是非常有必要的。

而在现有的相关技术的研究过程中，本申请发明人发现，在通过神经网络模型对输入图像进行危险动作的识别处理时，偶尔出现识别效率较低的情况，而这对于处于行驶状态的车辆来说，危险动作提示的滞后，会存在一定程度的安全风险。

发明内容

本申请提供了一种驾驶员危险动作识别方法、装置以及设备，用于提高对驾驶员危险动作的识别效率。

第一方面，本申请提供了一种驾驶员危险动作识别方法，方法包括：

通过部署于车辆上的摄像头，采集车辆内驾驶位置的初始图像；

将初始图像导入目标物体识别模型，使得目标物体识别模型进行目标物体识别处理，目标物体识别模型是初始模型通过标注有对应目标物体识别结果的样本图像训练得到的，目标物体识别模型用于识别输入图像中包含的目标物体；

当目标物体识别模型识别到目标物体时，将初始图像导入人脸识别模型，使得人脸识别模型进行人脸识别处理，人脸识别模型是初始模型通过标注有对应人脸识别结果的样本图像训练得到的，人脸识别模型用于识别输入图像中包含的人脸；

计算在图像区域上，初始图像的目标物体识别结果与初始图像的人脸识别结果之间的重叠度；

若重叠度达到重叠度阈值，则确定初始图像对应的驾驶员存在危险动作。

结合本申请第一方面，在本申请第一方面第一种可能的实现方式中，若重叠度达到重叠度阈值，则确定初始图像对应的驾驶员存在危险动作，包括：

若在预设时长范围内，存在连续时间点识别出的多个重叠度达到重叠度阈值，则确定初始图像对应的驾驶员存在危险动作。

结合本申请第一方面，在本申请第一方面第二种可能的实现方式中，计算在图像区域上，初始图像的目标物体识别结果与初始图像的人脸识别结果之间的重叠度，包括：

根据初始图像的目标物体识别结果，确定对应的脸部区域；

从初始图像的人脸识别结果中提取属于脸部区域的目标识别结果；

计算在图像区域上，初始图像的目标物体识别结果与脸部区域的目标识别结果之间的重叠度。

结合本申请第一方面第二种可能的实现方式，在本申请第一方面第三种可能的实现方式中，目标物体包括水杯、手机、香烟、饮料瓶、眼镜以及食物中的至少一种。

结合本申请第一方面第二种可能的实现方式，在本申请第一方面第四种可能的实现方式中，脸部区域包括嘴唇区域、耳朵区域以及眼睛区域中的至少一种。

结合本申请第一方面，在本申请第一方面第五种可能的实现方式中，目标物体识别模型在模型训练过程中，采用动态的随机调整方式，调整模型中卷积层的个数N以及每个卷积层的通道数C，当识别精度与识别效率达到预设的平衡条件时，完成调整。

结合本申请第一方面，在本申请第一方面第六种可能的实现方式中，确定初始图像对应的驾驶员存在危险动作之后，方法还包括：

向驾驶员输出危险动作提示；

或者，对车辆的行驶状态执行预设的危险动作响应策略。

第二方面，本申请提供了一种驾驶员危险动作识别装置，装置包括：

采集单元，用于通过部署于车辆上的摄像头，采集车辆内驾驶位置的初始图像；

目标物体识别单元，用于将初始图像导入目标物体识别模型，使得目标物体识别模型进行目标物体识别处理，目标物体识别模型是初始模型通过标注有对应目标物体识别结果的样本图像训练得到的，目标物体识别模型用于识别输入图像中包含的目标物体；

人脸识别单元，用于当目标物体识别模型识别到目标物体时，将初始图像导入人脸识别模型，使得人脸识别模型进行人脸识别处理，人脸识别模型是初始模型通过标注有对应人脸识别结果的样本图像训练得到的，人脸识别模型用于识别输入图像中包含的人脸；

计算单元，用于计算在图像区域上，初始图像的目标物体识别结果与初始图像的人脸识别结果之间的重叠度，若重叠度达到重叠度阈值，则触发确定单元；

确定单元，用于确定初始图像对应的驾驶员存在危险动作。

结合本申请第二方面，在本申请第二方面第一种可能的实现方式中，确定单元，具体用于：

结合本申请第二方面，在本申请第二方面第二种可能的实现方式中，计算单元，具体用于：

根据初始图像的目标物体识别结果，确定对应的脸部区域；

结合本申请第二方面第二种可能的实现方式，在本申请第二方面第三种可能的实现方式中，目标物体包括水杯、手机、香烟、饮料瓶、眼镜以及食物中的至少一种。

结合本申请第二方面第二种可能的实现方式，在本申请第二方面第四种可能的实现方式中，脸部区域包括嘴唇区域、耳朵区域以及眼睛区域中的至少一种。

结合本申请第二方面，在本申请第二方面第五种可能的实现方式中，目标物体识别模型在模型训练过程中，采用动态的随机调整方式，调整模型中卷积层的个数N以及每个卷积层的通道数C，当识别精度与识别效率达到预设的平衡条件时，完成调整。

结合本申请第二方面，在本申请第二方面第六种可能的实现方式中，装置还包括响应单元，用于：

向驾驶员输出危险动作提示；

或者，对车辆的行驶状态执行预设的危险动作响应策略。

第三方面，本申请提供了一种驾驶员危险动作识别设备，包括处理器和存储器，存储器中存储有计算机程序，处理器调用存储器中的计算机程序时执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

从以上内容可得出，本申请具有以下的有益效果：

针对于车辆上驾驶员的危险动作的检测，本申请在通过部署于车辆上的摄像头，采集到车辆内驾驶位置的初始图像后，仅当目标物体识别模型识别到目标物体时，再对初始图像进行人脸识别处理，后续结合在图像区域上，初始图像的目标物体识别结果与初始图像的人脸识别结果之间的重叠度，确定初始图像对应的驾驶员是否存在危险动作，在这过程中，整体的图像识别处理是以识别到目标物体作为触发条件，来触发后续的人脸识别处理以及重叠度的计算的，由此相比于采用危险动作的动作本身作为图像识别处理的识别目标，不仅实现了更为简单的识别处理，并且还可大大减少无效的识别处理，由此显著提高对驾驶员危险动作的识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请驾驶员危险动作识别方法的一种流程示意图；

图2为本申请计算重叠度的一种流程示意图；

图3为本申请驾驶员危险动作识别装置的一种结构示意图；

图4为本申请驾驶员危险动作识别设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

本申请中所出现的模块的划分，是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

在介绍本申请提供的驾驶员危险动作识别方法之前，首先介绍本申请所涉及的背景内容。

本申请提供的驾驶员危险动作识别方法、装置以及计算机可读存储介质，可应用于驾驶员危险动作识别设备，用于提高对驾驶员危险动作的识别效率。

本申请提及的驾驶员危险动作识别方法，其执行主体可以为驾驶员危险动作识别装置，或者集成了该驾驶员危险动作识别装置的服务器、物理主机或者用户设备(UserEquipment，UE)等类型的驾驶员危险动作识别设备。其中，驾驶员危险动作识别装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备，驾驶员危险动作识别设备可以通过设备集群的方式设置。

举例而言，本申请驾驶员危险动作识别设备，适于实用的，具体可以为车辆上的车载终端，甚至直接为车辆本身，从而在车辆的行驶过程中，可在车辆本地，判断所搭载的驾驶员是否做出危险行为，若做出危险行为可直接发出提醒，或者执行减速等预先配置的危险动作响应策略。

或者，本申请驾驶员危险动作识别设备也可以为服务器、UE，通过与摄像头或者车辆之间建立的通信连接，获取对应图像判断所搭载的驾驶员是否做出危险动作，若做出危险动作可进行证据存证，或者发出提醒。

下面，开始介绍本申请提供的驾驶员危险动作识别方法。

首先，参阅图1，图1示出了本申请驾驶员危险动作识别方法的一种流程示意图，本申请提供的驾驶员危险动作识别方法，具体可包括如下步骤：

步骤S101，通过部署于车辆上的摄像头，采集车辆内驾驶位置的初始图像；

可以理解，摄像头，其视角一般是面向驾驶位置的，如此当驾驶员坐在驾驶位置时，可拍摄到驾驶员。

当然，摄像头的视野中也并不一定只包含驾驶位置的内容，也可包含驾驶位置以外，例如车门、旁边车座、甚至后面车座等空间位置的内容。

在步骤S101中，对于初始图像的获取，在危险动作识别场景下，由于一般是实时的检测，所以初始图像一般是实时且直接获取的处理，即，摄像头包含于驾驶员危险动作识别设备，直接从摄像头直接读取图像；当然，也可以是实时且间接获取的处理，即，从驾驶员危险动作识别设备以外的摄像头或者设备实时进行图像的调取；甚至，在一些实现方式中，还可以为非实时且间接获取的处理，从本地、摄像头或者其他设备调取存储的历史图像。

显然，具体的获取处理，可随驾驶员危险动作识别设备的具体设备形式或者说应用场景调整，在此不做具体限制。

步骤S102，将初始图像导入目标物体识别模型，使得目标物体识别模型进行目标物体识别处理，目标物体识别模型是初始模型通过标注有对应目标物体识别结果的样本图像训练得到的，目标物体识别模型用于识别输入图像中包含的目标物体；

可以理解，在本申请中，对于初始图像的图像处理，是从识别其包含的目标物体开始的，该目标物体，为危险动作识别场景下通常是与危险动作的动作行为相关的物体。

例如，在实际应用中，喝水动作意味着存在水杯、饮料瓶，打电话动作意味着存在手机、抽烟动作意味着存在香烟、摘取眼镜动作意味着存在眼镜、吃饭动作意味着存在食物。

显然，在本申请中，所涉及的危险动作，都是基于一个或者多个的特定物体做出的，也因此，本申请可以针对危险动作相关的水杯、手机、香烟、饮料瓶、眼镜以及食物等不同各类型的目标物体，触发相应的图像处理。

其中，该目标物体识别模型，也就是识别对象为目标物体的神经网络模型，在模型的训练过程中，可将预先配置的标注有对应目标物体识别结果的样本图像依次导入模型，使得模型进行目标物体识别，输出目标物体识别结果，完成正向传播，再根据目标物体识别结果计算损失函数，并根据损失函数计算结果优化模型的参数，实现反向传播，当达到训练此时、训练时长、识别精度等训练要求时则可完成模型的训练，此时的模型可投入实际应用。

模型其在目标物体识别过程中具体涉及的算法类型或者模型类型，具体可随实际需要配置或者调整，可以理解，本申请在此不做具体限制。

步骤S103，当目标物体识别模型识别到目标物体时，将初始图像导入人脸识别模型，使得人脸识别模型进行人脸识别处理，人脸识别模型是初始模型通过标注有对应人脸识别结果的样本图像训练得到的，人脸识别模型用于识别输入图像中包含的人脸；

可以理解，在本申请中，图像处理还涉及到对初始图像进行的人脸识别处理。

此时，需要说明的是，本申请所涉及的危险动作，除了是与目标物体相关的，同时，也是与人脸相关的，即，相比于具体的触碰、握持等动作，本申请关注的是，这些危险动作可与驾驶员的脸部之间产生了一个“互动”的过程。

举例而言，喝水动作需要水杯、饮料瓶与驾驶员的嘴唇进行所谓的“互动”，抽烟动作也需要与驾驶员的嘴唇进行所谓的“互动”，吃饭动作也需要与驾驶员的嘴唇产生所谓的“互动”，打电话动作需要手机与驾驶员的耳朵进行所谓的“互动”，摘取眼镜动作需要眼镜与驾驶员的眼睛进行所谓的“互动”。

其中，此处所称的“互动”，可以理解为两个事物之间在驾驶员的人为操作下产生的接触行为。

此外，对于步骤S103，可以看出，其人脸识别处理，是以识别到目标物体作为触发条件进行触发的，若步骤S102未识别到目标物体，则不会触发人脸识别处理，由此在实际操作中可减少大量的、无效的人脸识别处理。

人脸识别模型的说明，包括模型的训练、所涉及的算法、模型类型等，其说明与上述的目标物体识别模型类似，具体在此不再赘述。

步骤S104，计算在图像区域上，初始图像的目标物体识别结果与初始图像的人脸识别结果之间的重叠度，若重叠度达到重叠度阈值，则触发步骤S105；

可以理解，相比于现有技术中在图像处理中，直接根据危险动作的行为动作特征进行图像识别，本申请则是以目标物体识别结果与人脸识别结果之间的“互动”，作为危险动作的识别，其中，具体可以将两者之间的重叠度作为“互动”的判断依据，若是重叠度较高，显然，可以认为其在驾驶员的车辆驾驶过程中，必然存在一个接触性的动作，例如喝水动作、抽烟动作等，此时，则可确定驾驶员存在危险动作。

其中，需要强调的是，在实际应用中，由于受到不同驾驶员的体型、衣着、行为习惯的个人因素影响，或者受到车辆内饰、环境光线等影响，若是以危险动作的行为动作特征进行图像识别来识别危险动作，则存在识别精度不稳定的情况，并且，由于大量的不确定因素，也会带来较长的处理时长。

在该情况下，本申请则是针对物体本身通常不变或者较为规范的目标物体，以及容易检测出的人脸，两者在每一帧图像的图像处理中，都是一个处理规模较为简单的、静态的图像识别处理，也因此，可保证高效、精确的识别，并借助简单的重叠度计算来确定危险动作的发生。

步骤S105，确定初始图像对应的驾驶员存在危险动作。

可以理解，在步骤S104确定重叠度达到重叠度阈值时，则可确定了危险动作的发生，此时则可根据预设的确定机制，确定初始图像对应的驾驶员存在危险动作。

此处所涉及的确定处理，可以理解为在系统上记录或者输出对应驾驶员处做出危险动作，例如为初始图像标记“危险动作”。

后续的，则还可根据为驾驶员的危险动作事件所配置的响应策略，执行其响应处理，例如向驾驶员发出语音提示等危险动作提示，或者，还可对车辆的行驶状态执行如减速等预设的危险动作响应策略。

其中，可以理解的是，在本申请对危险动作的识别过程中，其主要是用于确定是否存在危险动作，而在进一步的实际应用中，在当确定了存在危险动作时，还可根据对应的目标物体，确定其具体的危险动作，也就是说，可从是否发生危险动作到确定发生了什么危险动作，该处理，具体可随实际需要配置。

从图1所示实施例可看出，针对于车辆上驾驶员的危险动作的检测，本申请在通过部署于车辆上的摄像头，采集到车辆内驾驶位置的初始图像后，仅当目标物体识别模型识别到目标物体时，再对初始图像进行人脸识别处理，后续结合在图像区域上，初始图像的目标物体识别结果与初始图像的人脸识别结果之间的重叠度，确定初始图像对应的驾驶员是否存在危险动作，在这过程中，整体的图像识别处理是以识别到目标物体作为触发条件，来触发后续的人脸识别处理以及重叠度的计算的，由此相比于采用危险动作的动作本身作为图像识别处理的识别目标，不仅实现了更为简单的识别处理，并且还可大大减少无效的识别处理，由此显著提高对驾驶员危险动作的识别效率。

进一步的，在上述内容的基础上，本申请所做的危险动作的识别，在实际应用中还可以存在不同的具体优化方案。

作为一种示例性的实现方式，本申请输出的最终的危险动作的确定结果，可以是一个动态的确定机制，也就是说，在一个单位时长范围内，需要存在一定比例或者数量的单次危险动作确定结果，方可输出最终的危险动作确认结果。

此外，本申请还考虑到实际应用中，每个危险动作都是一个连续的动作，同时模型的误差较低，因此，还可将其具体设置为需要符合连续性的特点。

即，若要输出一个危险动作的确定结果，意味着一个单位时长范围内，每个初始图像都检测出危险动作。

若在预设时长范围内，存在连续时间点识别出的多个重叠度达到重叠度阈值，则确定初始图像对应的驾驶员做出危险动作。

可以理解，一般的，多个的初始图像，为拍摄过程中涉及的逐帧的图像，具有连续的特性，从而不论是在模型的训练过程中，还是在实际的危险动作识别处理中，都可以在一个动态的确定机制下，最终确定驾驶员是否做出危险动作。

本申请所涉及的重叠度，可以用交并比(Intersection Over Union，IOU)的作为具体表示的指标参数，其可以理解为产生的候选框(candidate bound)与原标记框(groundtruth bound)的交叠率，即它们的交集与并集的比值，最理想情况是完全重叠，即比值为1。

也就是说，对于目标物体识别结果以及人脸识别结果，可以根据两者的检测框之间的IOU参数，量化它们之间的重叠度。

结合本申请所涉及的危险动作识别场景，一般情况，目标物体识别结果与人脸识别结果之间的IOU若小于阈值I，则当前帧的初始图像，统计有效，即，单次确定驾驶员存在危险动作，危险动作确定次数累计值+1，若在连续的时长T内。

其次，作为又一种示例性的实现方式，在计算目标物体识别结果与人脸识别结果之间的重叠度时，本申请具体还可继续优化其计算范围，例如，在前面内容已提及，每个危险动作都对应一次目标物体与驾驶员的脸部之间的“互动”，而每个“互动”，都意味具体与驾驶员的脸部的某个部位产生了联系，在该情况下，则可将人脸识别结果中与目标物体识别结果向匹配的脸部区域，作为计算重叠度的具体图像区域。

参阅图2示出的本申请计算重叠度的一种流程示意图，本申请计算在图像区域上，初始图像的目标物体识别结果与初始图像的人脸识别结果之间的重叠度时，具体可包括：

步骤S201，根据初始图像的目标物体识别结果，确定对应的脸部区域；

可以理解，作为重叠度计算的目标之一-具体的脸部区域的人脸识别结果，是以之前识别出的目标物体进行匹配得到的。

例如，若是识别出了香烟，则可匹配到抽烟动作对应的嘴唇区域；若是识别出了手机，则可匹配到打电话动作对应的耳朵区域…等等。

此时，确定的具体脸部区域，仅是理论上的区域，还未确定在人脸识别处理中得到的该脸部区域的具体参数，此时，则可由下面的步骤S202进行获取。

步骤S202，从初始图像的人脸识别结果中提取属于脸部区域的目标识别结果；

在人脸识别过程中，其是以人脸的特征为基础进行识别的，也因此，当识别出了人脸后，其人脸识别结果还可包含不同脸部区域的识别结果。

此时，在上面确定了本次待确认危险动作的脸部区域后，则可从整体的人脸识别结果中提取该脸部区域对应的具体的目标识别结果。

步骤S203，计算在图像区域上，初始图像的目标物体识别结果与脸部区域的目标识别结果之间的重叠度。

此时，则可在目标物体识别结果以及具体的脸部区域的目标识别结果的基础上，计算重叠度，例如计算IOU，后续则可根据重叠度确定当前图像是否存在危险动作。

其中，举例而言，一方面，目标物体可以包括水杯、手机、香烟、饮料瓶、眼镜以及食物中的至少一种，另一方面，脸部区域具体可包括嘴唇区域、耳朵区域以及眼睛区域中的至少一种。

进一步的，对于本申请特别配置的目标物体识别模型，其在实际应用中，也可存在多种的优化策略。

对于其输入，在模型训练过程中，以及实际应用中，都可对输入图像预先进行归一化处理，以使得输入图像统一，具有统一的长宽，即具有固定的大小，方便处理以及识别，例如将图片缩放至640*640的分辨率。

对于模型训练过程中涉及的样本图像，还可通过数据增强处理，例如随机缩放、随机采集、随机排布、Mosaic数据增强、自适应锚框计算等处理，增强样本图像的样本量，方便提高模型的训练范围，进而提高其完成训练时的识别精度。

此外，在模型内部，可设计Neck模型结构，根据模型的BackBone骨干网络所提取的不同特征，使用FPN+PAN的模型结构进行特征融合。

进一步的，对于模型本身，其在模型训练过程中，还可采用动态的随机调整方式，调整模型中卷积层的个数N以及每个卷积层的通道数C，当识别精度与识别效率达到预设的平衡条件时，完成调整，显然，在该设置下，训练得到的模型，由于对于卷积层的个数N以及每个卷积层的通道数C的自主学习，还可具有更为平衡的识别精度以及识别效率，从而具有更佳的实用性。

以上是本申请提供驾驶员危险动作识别方法的介绍，为便于更好的实施本申请提供的驾驶员危险动作识别方法，本申请还从功能模块角度提供了一种驾驶员危险动作识别装置。

参阅图3，图4为本申请驾驶员危险动作识别装置的一种结构示意图，在本申请中，驾驶员危险动作识别置300具体可包括如下结构：

采集单元301，用于通过部署于车辆上的摄像头，采集车辆内驾驶位置的初始图像；

目标物体识别单元302，用于将初始图像导入目标物体识别模型，使得目标物体识别模型进行目标物体识别处理，目标物体识别模型是初始模型通过标注有对应目标物体识别结果的样本图像训练得到的，目标物体识别模型用于识别输入图像中包含的目标物体；

人脸识别单元303，用于当目标物体识别模型识别到目标物体时，将初始图像导入人脸识别模型，使得人脸识别模型进行人脸识别处理，人脸识别模型是初始模型通过标注有对应人脸识别结果的样本图像训练得到的，人脸识别模型用于识别输入图像中包含的人脸；

计算单元304，用于计算在图像区域上，初始图像的目标物体识别结果与初始图像的人脸识别结果之间的重叠度，若重叠度达到重叠度阈值，则触发确定单元305；

确定单元305，用于确定初始图像对应的驾驶员存在危险动作。

在一种示例性的实现方式中，确定单元305，具体用于：

在又一种示例性的实现方式中，计算单元304，具体用于：

根据初始图像的目标物体识别结果，确定对应的脸部区域；

在又一种示例性的实现方式中，目标物体包括水杯、手机、香烟、饮料瓶、眼镜以及食物中的至少一种。

在又一种示例性的实现方式中，脸部区域包括嘴唇区域、耳朵区域以及眼睛区域中的至少一种。

在又一种示例性的实现方式中，目标物体识别模型在模型训练过程中，采用动态的随机调整方式，调整模型中卷积层的个数N以及每个卷积层的通道数C，当识别精度与识别效率达到预设的平衡条件时，完成调整。

在又一种示例性的实现方式中，装置还包括响应单元306，用于：

向驾驶员输出危险动作提示；

或者，对车辆的行驶状态执行预设的危险动作响应策略。

本申请还从硬件结构角度提供了一种驾驶员危险动作识别设备，参阅图4，图4示出了本申请驾驶员危险动作识别设备的一种结构示意图，具体的，本申请驾驶员危险动作识别设备可包括处理器401、存储器402以及输入输出设备403，处理器401用于执行存储器402中存储的计算机程序时实现如图1对应实施例中驾驶员危险动作识别方法的各步骤；或者，处理器401用于执行存储器402中存储的计算机程序时实现如图3对应实施例中各单元的功能，存储器402用于存储处理器401执行上述图1对应实施例中驾驶员危险动作识别方法所需的计算机程序。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器402中，并由处理器401执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

驾驶员危险动作识别设备可包括，但不仅限于处理器401、存储器402、输入输出设备403。本领域技术人员可以理解，示意仅仅是驾驶员危险动作识别设备的示例，并不构成对驾驶员危险动作识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如驾驶员危险动作识别设备还可以包括网络接入设备、总线等，处理器401、存储器402、输入输出设备403等通过总线相连。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是驾驶员危险动作识别设备的控制中心，利用各种接口和线路连接整个设备的各个部分。

存储器402可用于存储计算机程序和/或模块，处理器401通过运行或执行存储在存储器402内的计算机程序和/或模块，以及调用存储在存储器402内的数据，实现计算机装置的各种功能。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据驾驶员危险动作识别设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器401用于执行存储器402中存储的计算机程序时，具体可实现以下功能：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的驾驶员危险动作识别装置、设备及其相应单元的具体工作过程，可以参考如图1对应实施例中方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1对应实施例中驾驶员危险动作识别方法的步骤，具体操作可参考如图1对应实施例中驾驶员危险动作识别方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(Read Only Memory，ROM)、随机存取记忆体(Random Access Memory，RAM)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1对应实施例中驾驶员危险动作识别方法的步骤，因此，可以实现本申请如图1对应实施例中驾驶员危险动作识别方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请提供的驾驶员危险动作识别方法、装置、设备以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种驾驶员危险动作识别方法，其特征在于，所述方法包括：

通过部署于车辆上的摄像头，采集所述车辆内驾驶位置的初始图像；

将所述初始图像导入目标物体识别模型，使得所述目标物体识别模型进行目标物体识别处理，所述目标物体识别模型是初始模型通过标注有对应目标物体识别结果的样本图像训练得到的，所述目标物体识别模型用于识别输入图像中包含的目标物体；

当所述目标物体识别模型识别到所述目标物体时，将所述初始图像导入人脸识别模型，使得所述人脸识别模型进行人脸识别处理，所述人脸识别模型是初始模型通过标注有对应人脸识别结果的样本图像训练得到的，所述人脸识别模型用于识别输入图像中包含的人脸；

计算在图像区域上，所述初始图像的目标物体识别结果与所述初始图像的人脸识别结果之间的重叠度；

若所述重叠度达到重叠度阈值，则确定所述初始图像对应的驾驶员存在危险动作。

2.根据权利要求1所述的方法，其特征在于，所述若所述重叠度达到重叠度阈值，则确定所述初始图像对应的驾驶员存在危险动作，包括：

若在预设时长范围内，存在连续时间点识别出的多个所述重叠度达到所述重叠度阈值，则确定所述初始图像对应的驾驶员存在危险动作。

3.根据权利要求1所述的方法，其特征在于，所述计算在图像区域上，所述初始图像的目标物体识别结果与所述初始图像的人脸识别结果之间的重叠度，包括：

根据所述初始图像的目标物体识别结果，确定对应的脸部区域；

从所述初始图像的人脸识别结果中提取属于所述脸部区域的目标识别结果；

计算在图像区域上，所述初始图像的目标物体识别结果与所述脸部区域的目标识别结果之间的重叠度。

4.根据权利要求3所述的方法，其特征在于，所述目标物体包括水杯、手机、香烟、饮料瓶、眼镜以及食物中的至少一种。

5.根据权利要求3所述的方法，其特征在于，所述脸部区域包括嘴唇区域、耳朵区域以及眼睛区域中的至少一种。

6.根据权利要求1所述的方法，其特征在于，所述目标物体识别模型在模型训练过程中，采用动态的随机调整方式，调整模型中卷积层的个数N以及每个所述卷积层的通道数C，当识别精度与识别效率达到预设的平衡条件时，完成调整。

7.根据权利要求1所述的方法，其特征在于，所述确定所述初始图像对应的驾驶员存在危险动作之后，所述方法还包括：

向所述驾驶员输出危险动作提示；

或者，对车辆的行驶状态执行预设的危险动作响应策略。

8.一种驾驶员危险动作识别装置，其特征在于，所述装置包括：

采集单元，用于通过部署于车辆上的摄像头，采集所述车辆内驾驶位置的初始图像；

目标物体识别单元，用于将所述初始图像导入目标物体识别模型，使得所述目标物体识别模型进行目标物体识别处理，所述目标物体识别模型是初始模型通过标注有对应目标物体识别结果的样本图像训练得到的，所述目标物体识别模型用于识别输入图像中包含的目标物体；

人脸识别单元，用于当所述目标物体识别模型识别到所述目标物体时，将所述初始图像导入人脸识别模型，使得所述人脸识别模型进行人脸识别处理，所述人脸识别模型是初始模型通过标注有对应人脸识别结果的样本图像训练得到的，所述人脸识别模型用于识别输入图像中包含的人脸；

计算单元，用于计算在图像区域上，所述初始图像的目标物体识别结果与所述初始图像的人脸识别结果之间的重叠度，若所述重叠度达到重叠度阈值，则触发确定单元；

所述确定单元，用于确定所述初始图像对应的驾驶员存在危险动作。

9.一种驾驶员危险动作识别设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的方法。