CN112528940B

CN112528940B - 驾驶员行为识别模型的训练方法、识别方法及装置

Info

Publication number: CN112528940B
Application number: CN202011539703.3A
Authority: CN
Inventors: 牛群遥; 葛鹤银; 郭旭
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-07-01
Anticipated expiration: 2040-12-23
Also published as: CN112528940A

Abstract

本发明涉及图像处理技术领域，具体涉及驾驶员行为识别模型的训练方法、识别方法及装置，所述训练方法包括获取正样本图像以及负样本图像，以得到训练数据集以及检验数据集；对初始驾驶员行为识别模型进行压缩，得到第一驾驶员行为识别模型；利用训练数据集对第一驾驶员行为识别模型进行训练得到第二驾驶员行为识别模型，并利用检验数据集对第二驾驶员行为识别模型的准确性进行检验，得到第二驾驶员行为识别模型的准确性；基于第二驾驶员行为识别模型的准确性，对第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型。在训练过程中通过对驾驶员行为识别模型进行压缩，使得目标驾驶员行为识别模型能够满足实时性识别的需求。

Description

驾驶员行为识别模型的训练方法、识别方法及装置

技术领域

本发明涉及图像处理技术领域，具体涉及驾驶员行为识别模型的训练方法、识别方法及装置。

背景技术

随着汽车行业和道路交通的不断发展，人们越来越多地选择汽车作为代步工具，汽车安全驾驶问题成为道路交通相关部门重点关注的内容。在行驶过程中，驾驶员如果存在接听电话、看手机、抽烟等危险行为，容易分散驾驶人的注意力，影响其对行驶环境的判断；遇到突发状况时，无法及时做出反应，容易引发严重的交通事故，对自身与他人的身体甚至生命造成无法估测的各种后果。

近年来，基于深度学习的驾驶员开车打电话检测，司乘人员未系安全带检测等被应用到道路交通场景中，协助交管部门对这些违反安全驾驶的行为进行抓拍。现有的技术方法检测方法，一般是将采集到的图像输入检测模型中，检测采集到的图像中驾驶员的行为。然而，当将检测模型移植到前端设备中时，由于检测网络的模型参数量较大，前端设备的算力较低，就会导致检测效率较低，难以满足实时性要求。

发明内容

有鉴于此，本发明实施例提供了一种驾驶员行为识别模型的训练方法、识别方法及装置，以解决现有驾驶员行为的检测效率低的问题。

根据第一方面，本发明实施例提供了一种驾驶员行为识别模型的训练方法，包括：

获取正样本图像以及负样本图像，以得到训练数据集以及检验数据集；

对初始驾驶员行为识别模型进行压缩，得到第一驾驶员行为识别模型，所述初始驾驶员行为识别模型是利用所述训练数据集训练得到的；

利用所述训练数据集对所述第一驾驶员行为识别模型进行训练得到第二驾驶员行为识别模型，并利用所述检验数据集对所述第二驾驶员行为识别模型的准确性进行检验，得到所述第二驾驶员行为识别模型的识别准确性；

基于所述第二驾驶员行为识别模型的识别准确性，对所述第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型。

本发明实施例提供的驾驶员行为识别模型的训练方法，在训练过程中通过对驾驶员行为识别模型进行压缩，在压缩时同时兼顾模型识别的准确性，大大减少了模型参数量，使得最终得到的目标驾驶员行为识别模型的计算效率得到提升，其不仅对硬件设备的算力要求非常低，且能够满足实时性识别的需求。

结合第一方面，在第一方面第一实施方式中，所述基于所述第二驾驶员行为识别模型的识别准确性，对所述第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型，包括：

判断所述第二驾驶员行为识别模型的识别准确性是否满足预设条件；

当所述第二驾驶员行为识别模型的识别准确性满足预设条件时，对所述第二驾驶行为识别模型进行压缩，以确定所述目标驾驶员行为模型，所述压缩包括减小卷积核的尺寸、缩减每层的滤波器数量、删除预设模块以及删除预设步长的池化层中的至少一种。

本发明实施例提供的驾驶员行为识别模型的训练方法，通过减少减小卷积核的尺寸、缩减每层的滤波器数量、删除预设模块以及删除预设步长的池化层中至少一种的压缩方式对驾驶员识别模型进行压缩，大大减少了模型参数量，且通过删除预设步长的池化层使得输入分辨率可以降低，计算效率得到进一步提升。

结合第一方面第一实施方式，在第一方面第二实施方式中，所述对所述第二驾驶行为识别模型进行压缩，以确定所述目标驾驶员行为模型，包括：

基于所述第二驾驶行为识别模型中卷积核的尺寸，确定当前卷积核的尺寸；

按照预设倍数缩减所述第二驾驶行为识别模型中每层的滤波器数量、删除所述第二驾驶行为识别模型中预设数量的所述预设模块并删除所述第二驾驶行为识别模型中预设步长的池化层，以得到第三驾驶行为识别模型；

利用所述训练数据集训练所述第三驾驶员行为识别模型得到第四驾驶员行为识别模型，并利用所述检验数据集对所述第四驾驶员行为识别模型的识别准确性进行检验，得到所述第四驾驶员行为识别模型的识别准确性；

基于所述第四驾驶员行为识别模型的识别准确性，对所述第四驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型。

本发明实施例提供的驾驶员行为识别模型的训练方法，在对驾驶员识别模型压缩后，利用训练数据集对其训练，再利用检验数据集检验其准确性，只有在准确性满足预设条件时才可以进行再一次的压缩，保证了最终得到的目标驾驶员行为识别模型的准确性；进一步地，在对驾驶员识别模型进行压缩时，采用均是对模型压缩以及网络修改的方式，而避免了采用复杂算法确定压缩哪些模块，提高了驾驶员识别模型的训练效率。

结合第一方面，或第一方面第一实施方式或第二实施方式，在第一方面第三实施方式中，所述获取正样本图像以及负样本图像，包括：

获取原始样本图像；

对所述原始样本图像进行样本处理，以使得所述训练数据集中所述正样本图像与所述负样本图像的比例满足预设比例。

本发明实施例提供的驾驶员行为识别模型的训练方法，通过对获取到的原始样本数据进行样本处理，使得正样本图像与负样本图像的比例满足预设比例，能够避免样本不均衡问题，保证了训练数据集中的样本均衡，避免了由于数据严重不均衡造成训练过程不收敛的现象。

结合第一方面第三实施方式，在第一方面第四实施方式中，所述获取原始样本图像，包括：

获取原始图像；

检测所述原始图像中的人脸区域；

基于检测出的人脸区域，确定所述原始图像中的驾驶员行为区域；

提取所述原始图像中的驾驶员行为区域，得到所述原始样本图像。

本发明实施例提供的驾驶员行为识别模型的训练方法，通过检测原始图像中的人脸区域，利用人脸区域确定驾驶员行为区域，提取出原始图像中的驾驶员行为区域即可得到原始样本图像，由于原始样本图像中包括的是驾驶员行为区域，而避免了采用全图进行训练，保证了驾驶员行为识别模型的输入层的图片尺寸较小，降低了计算量，识别效率高；且，由于原始样本图像中去除了背景的干扰，识别效果较好。

结合第一方面第四实施方式，在第一方面第五实施方式中，所述基于检测出的人脸区域，确定所述原始图像中的驾驶员行为区域，包括：

获取人脸宽度并确定检测出的人脸区域的中心；

基于检测出的人脸区域的中心以及所述人脸宽度，分别在所述原始图像中进行区域扩展，确定所述原始图像中的驾驶员行为区域。

本发明实施例提供的驾驶员行为识别模型的训练方法，由于驾驶员行为是与人脸相关，利用人脸区域的中心以及人脸宽度确定驾驶员行为区域，一方面能够保证驾驶员行为区域的识别准确性，另一方面提高了确定驾驶员行为区域的效率。

根据第二方面，本发明实施例还提供了一种驾驶员行为识别方法，包括：

获取目标驾驶员的待识别图像；

确定所述待识别图像中的驾驶员行为区域，并从所述待识别图像中提取所述驾驶员行为区域；

将所述驾驶员行为区域输入目标驾驶员行为识别模型中，确定所述目标驾驶员是否存在预设驾驶行为，所述目标驾驶员行为识别模型是根据本发明第一方面，或第一方面任一项实施方式中所述的驾驶员行为识别模型的训练方法训练得到的。

本发明实施例提供的驾驶员行为识别方法，由于目标驾驶员行为识别模型的模型参数量大大减少，其可以在前端设备上运行，从而能够实现待识别图像的实时处理，提高了识别效率。

根据第三方面，本发明实施例还提供了一种驾驶员行为识别模型的训练装置，包括：

第一获取模块，用于获取正样本图像以及负样本图像，以得到训练数据集以及检验数据集；

第一压缩模块，用于对初始驾驶员行为识别模型进行压缩，得到第一驾驶员行为识别模型，所述初始驾驶员行为识别模型是利用所述训练数据集训练得到的；

检验模块，用于利用所述训练数据集对所述第一驾驶员行为识别模型进行训练得到第二驾驶员行为识别模型，并利用所述检验数据集对所述第二驾驶员行为识别模型的准确性进行检验，得到所述第二驾驶员行为识别模型的识别准确性；

第二压缩模块，用于基于所述第二驾驶员行为识别模型的识别准确性，对所述第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型。

本发明实施例提供的驾驶员行为识别模型的训练装置，在训练过程中通过对驾驶员行为识别模型进行压缩，在压缩时同时兼顾模型识别的准确性，大大减少了模型参数量，使得最终得到的目标驾驶员行为识别模型的计算效率得到提升，其不仅对硬件设备的算力要求非常低，且能够满足实时性识别的需求。

根据第四方面，本发明实施例还提供了一种驾驶员行为识别装置，包括：

第二获取模块，用于获取目标驾驶员的待识别图像；

检测模块，用于确定所述待识别图像中的驾驶员行为区域，并从所述待识别图像中提取所述驾驶员行为区域；

识别模块，用于将所述驾驶员行为区域输入目标驾驶员行为识别模型中，确定所述目标驾驶员是否存在预设驾驶行为，所述目标驾驶员行为识别模型是根据本发明第一方面，或第一方面任一项实施方式中所述的驾驶员行为识别模型的训练方法训练得到的。

本发明实施例提供的驾驶员行为识别装置，由于目标驾驶员行为识别模型的模型参数量大大减少，其可以在前端设备上运行，从而能够实现待识别图像的实时处理，提高了识别效率。

根据第五方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的驾驶员行为识别模型的训练方法，或执行第二方面所述的驾驶员行为识别方法。

根据第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的驾驶员行为识别模型的训练方法，或执行第二方面所述的驾驶员行为识别方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的驾驶员行为识别模型的训练方法的流程图；

图2是根据本发明实施例的驾驶员行为识别模型的训练方法的流程图；

图3是根据本发明实施例的驾驶员行为识别模型的训练方法的流程图；

图4是根据本发明实施例的驾驶员行为区域的示意图；

图5是根据本发明实施例的驾驶员行为识别方法的流程图；

图6是根据本发明实施例的驾驶员行为识别模型的训练装置的结构框图；

图7是根据本发明实施例的驾驶员行为识别装置的结构框图；

图8是本发明实施例提供的电子设备的硬件结构示意图；

图9是根据本发明实施例的压缩前后的驾驶员行为识别模型的对比示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例提供的驾驶员行为识别模型，是用于识别驾驶员是否存在预设行为的。例如，若训练该模型所用的样本是驾驶员看手机的图像以及驾驶员没有看手机的图像，那么训练得到的模型是用于识别驾驶员是否存在开车看手机的行为；若训练该模型所用的样本是驾驶员双手离开方向盘的图像以及正常驾驶的图像，那么训练得到的模型是用于识别驾驶员的双手是否离开方向的行为，等等。此处对训练得到的驾驶员行为识别模型所能够识别出的行为并不做任何限定，具体可以根据实际情况选择相应的样本图像对驾驶员行为识别模型进行训练即可。

在下文的描述中，以驾驶员行为识别模型用于识别驾驶员是否存在开车看手机为例进行详细描述。

根据本发明实施例，提供了一种驾驶员行为识别模型的训练方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种驾驶员行为识别模型的训练方法，可用于电子设备，如智能摄像机、电脑、手机、平板电脑等，图1是根据本发明实施例的驾驶员行为识别模型的训练方法的流程图，如图1所示，该流程包括如下步骤：

S11，获取正样本图像以及负样本图像，以得到训练数据集以及检验数据集。

以驾驶员开车看手机为例，所述的正样本图像为驾驶员开车看手机的图像，负样本图像为不存在开车看手机的图像。对于正样本图像以及负样本图像的获取，可以是从视频监控设备中获取到，也可以从其他地方获取到，在此对电子设备获取正样本图像以及负样本图像的方式并不做任何限制。

电子设备在在获取到正样本图像以及负样本图像之后，可以将其划分为训练数据集以及检验数据集。其中，训练数据集用于对模型进行训练，检验数据集用于对训练后的模型的准确性进行检验。

可选地，所述的正样本图像可以是采集到的原始图像中的驾驶员看手机识别区域，而不是完整的原始图像。

关于该步骤具体将在下文中进行详细描述。

S12，对初始驾驶员行为识别模型进行压缩，得到第一驾驶员行为识别模型。

其中，所述初始驾驶员行为识别模型是利用训练数据集训练得到的。

电子设备在获取到训练数据集之后，可以利用训练数据集对驾驶员行为识别模型进行训练，得到初始驾驶员行为识别模型。所述的初始驾驶员行为识别模型为分类模型，输入为图像，输出为该图像中是否为某种驾驶行为。所述的初始驾驶员行为识别模型可以是DenseNet网络，例如，DenseNet-121、DenseNet-169、DenseNet-201等等。关于初始驾驶员行为识别模型可以根据实际情况进行相应的选择，在此并不作任何限制。

对于初始驾驶员行为识别模型而言，电子设备对其进行压缩，例如，删除初始驾驶员行为识别模型中的预设模块，或者减小卷积核尺寸等等。通过对初始驾驶员行为识别模型进行压缩，减少初始驾驶员行为识别模型的网络参数量，得到第一驾驶员行为识别模型。

S13，利用训练数据集对第一驾驶员行为识别模型进行训练得到第二驾驶员行为识别模型，并利用检验数据集对第二驾驶员行为识别模型的准确性进行检验，得到第二驾驶员行为识别模型的识别准确性。

电子设备得到第一驾驶员行为识别模型之后，利用上述S11中的训练数据集对其进行训练，调整第一驾驶员行为识别模型中的参数，得到第二驾驶员行为识别模型。

再利用检验数据集对第二驾驶员行为识别模型的准确性进行检验，具体地，将检验数据集中的正样本图像输入第二驾驶员行为识别模型中，确定其检验准确率，或者，将检验数据集中的负样本图像输入第二驾驶员行为识别模型中，确定其检验准确率，或者，同时利用正样本图像以及负样本图像检验其准确率等等。具体采用何种方式检验识别准确性，可以根据实际情况进行相应的设置即可。

S14，基于第二驾驶员行为识别模型的识别准确性，对第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型。

电子设备在得到第二驾驶员行为识别模型的识别准确性之后，可以将识别准确性与预设值进行比较，确定其是否能够满足实际需求；若能够满足实际需求，则电子设备继续对第二驾驶员行为识别模型进行再次压缩，并对压缩后的模型的进行训练，检验训练后的模型的准确性，最终确定目标驾驶员行为识别模型。

关于该步骤具体将在下文中进行详细描述。

本实施例提供的驾驶员行为识别模型的训练方法，在训练过程中通过对驾驶员行为识别模型进行压缩，在压缩时同时兼顾模型识别的准确性，大大减少了模型参数量，使得最终得到的目标驾驶员行为识别模型的计算效率得到提升，其不仅对硬件设备的算力要求非常低，且能够满足实时性识别的需求。

在本实施例中提供了一种驾驶员行为识别模型的训练方法，可用于电子设备，如智能摄像机、电脑、手机、平板电脑等，图2是根据本发明实施例的驾驶员行为识别模型的训练方法的流程图，如图2所示，该流程包括如下步骤：

S21，获取正样本图像以及负样本图像，以得到训练数据集以及检验数据集。

详细请参见图1所示实施例的S11，在此不再赘述。

S22，对初始驾驶员行为识别模型进行压缩，得到第一驾驶员行为识别模型。

对于初始驾驶员行为识别模型的压缩方式与下述S24的处理方式类型，详细请参见下述S24的详细描述，在此不再赘述。

S23，利用训练数据集对第一驾驶员行为识别模型进行训练得到第二驾驶员行为识别模型，并利用检验数据集对第二驾驶员行为识别模型的准确性进行检验，得到第二驾驶员行为识别模型的识别准确性。

详细请参见图1所示实施例的S13，在此不再赘述。

S24，基于第二驾驶员行为识别模型的识别准确性，对第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型。

具体地，上述S24可以包括如下步骤：

S241，判断第二驾驶员行为识别模型的识别准确性是否满足预设条件。

其中，预设条件为满足当前场景需求的准确性条件，例如，准确率的范围，准确率的阈值等等，具体数值根据实际需求进行相应的设置即可。

电子设备将第二驾驶员行为识别模型的识别准确性与预设条件进行比较，判断其是否满足该预设条件。当第二驾驶员行为识别模型的识别准确性满足预设条件时，执行S242；否则，执行S243。

S242，对第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为模型。

其中，所述压缩包括减小卷积核的尺寸、缩减每层的滤波器数量、删除预设模块以及删除预设步长的池化层中的至少一种。

在第二驾驶员行为识别模型的准确性满足预设条件时，电子设备继续对第二驾驶员行为识别模型进行压缩、训练以及检验等处理。

例如，驾驶员行为识别模型是以稠密卷积神经网络为基础网络，在基础网络中是通过堆叠不同数量的Dense Block和Translation layer模块，相应得到DenseNet-121、DenseNet-169、DenseNet-201等等。在本实施例中，以初始驾驶员行为识别模型采用DenseNet-121为例进行后续的压缩处理。

如上文所述，网络压缩可以通过减小卷积核尺寸大小、缩减每层的滤波器数量以及删除预设模块。其中，减小卷积核尺寸大小，可以将7×7的卷积核尺寸修改为3×3的卷积核尺寸；缩减每层的滤波器数量，可以将每层32个滤波器缩减为16个；删除预设模块，可以是删除Dense Block和Translation layer模块进行的，其中，每个Dense Block模块包含两个卷积层(convolutional layer)和一个连接层(concat layer)，每个Translation layer模块包含一个卷积层(convolutional layer)和一个平均池化层(average pool layer)，因此，每删减一个Dense Block模块共删掉相应的3层，每删掉一个Translation layer模块，共删掉相应的2层。

网络修改主要是通过删除预设步长的池化层，例如，删除步长为2的池化层，降低网络的总步长大小，因此，网络输入大小可以采用较低的分辨率。

在本实施例的一些可选实施方式中，上述S242可以包括如下步骤：

(1)基于第二驾驶行为识别模型中卷积核的尺寸，确定当前卷积核的尺寸。

电子设备确定第二驾驶行为识别模型中卷积核的尺寸，将卷积核的尺寸进行减少，例如，第二驾驶行为识别模型中卷积核的尺寸为7×7，确定当前卷积核的尺寸为3×3。

(2)按照预设倍数缩减第二驾驶行为识别模型中每层的滤波器数量、删除第二驾驶行为识别模型中预设数量的预设模块并删除第二驾驶行为识别模型中预设步长的池化层，以得到第三驾驶行为识别模型。

电子设备每次在对驾驶员行为识别模型进行压缩时，均是按照预设倍数缩减驾驶员行为识别模型中每层滤波器数量，例如，第一次压缩时，将每层滤波器数量为32；第二次压缩时，每层滤波器数量为16；依次类推。

此外，还可以删除预设数量的预设模块，例如，第一次压缩时，删除3个DenseBlock模块，第二次压缩时，删除3个Dense Block模块等等。

进一步地，还可以依次删除预设步长的池化层等等。在对第二驾驶行为识别模型进行压缩处理后，得到第三驾驶行为识别模型

电子设备所采用的压缩方法是通过减小卷积核尺寸大小、缩减每层滤波器个数与网络层数直接进行压缩。其中，缩减滤波器格式与网络层数是逐步进行的，如滤波器个数由32到16再到8依次缩减，网络层数按模块个数依次减小。

在进行模型压缩处理后，每层卷积核个数均是2个倍数，且不同层之间也是整数倍的关系，在将最终确定的目标驾驶员行为识别模型移植到硬件设备上时，不会出现因字节对齐问题而运行效率降低的情况。

以DenseNet-121模型压缩为例，原模型参数量为7.53M，压缩后的参数量仅为0.15M，参数量降低的百分比为98.01％。

(3)利用训练数据集训练第三驾驶员行为识别模型得到第四驾驶员行为识别模型，并利用检验数据集对第四驾驶员行为识别模型的识别准确性进行检验，得到第四驾驶员行为识别模型的识别准确性。

电子设备在对第二驾驶员行为识别模型进行压缩处理后，得到第三驾驶员行为识别模型。此时，利用训练数据集对其进行训练，调整第三驾驶员行为识别模型中的参数，得到第四驾驶员行为识别模型；再利用检验数据集对第三驾驶员行为识别模型的识别准确性进行检验，得到第四驾驶员行为识别模型的识别准确性。

(4)基于第四驾驶员行为识别模型的识别准确性，对第四驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型。

电子设备将第四驾驶员行为识别模型的识别准确性与预设条件进行比较，若满足预设条件，则表示可以再次对第四驾驶员行为识别模型进行压缩；若不满足，表示不能再进行压缩，而是将第二驾驶员行为识别模型确定为目标驾驶员行为识别模型。

在对驾驶员识别模型压缩后，利用训练数据集对其训练，再利用检验数据集检验其准确性，只有在准确性满足预设条件时才可以进行再一次的压缩，保证了最终得到的目标驾驶员行为识别模型的准确性；进一步地，在对驾驶员识别模型进行压缩时，采用均是对模型压缩以及网络修改的方式，而避免了采用复杂算法确定压缩哪些模块，提高了驾驶员识别模型的训练效率。

S243，确定初始驾驶行为识别模型为目标驾驶行为识别模型。

在第二驾驶员行为识别模型的识别准确性不能满足预设条件时，将初始驾驶员行为识别模型确定为目标驾驶行为识别模型。

本实施例提供的驾驶员行为识别模型的训练方法，通过减少减小卷积核的尺寸、缩减每层的滤波器数量、删除预设模块以及删除预设步长的池化层的方式对驾驶员识别模型进行压缩，大大减少了模型参数量，且通过删除预设步长的池化层使得输入分辨率可以降低，计算效率得到进一步提升。

在本实施例中提供了一种驾驶员行为识别模型的训练方法，可用于电子设备，如智能摄像机、电脑、手机、平板电脑等，图3是根据本发明实施例的驾驶员行为识别模型的训练方法的流程图，如图3所示，该流程包括如下步骤：

S31，获取正样本图像以及负样本图像，以得到训练数据集以及检验数据集。

具体地，上述S31可以包括如下步骤：

S311，获取原始样本图像。

所述的原始正样本图像为具有预设驾驶行为的驾驶员行为识别区域的图像，例如，具有开车看手机这一预设驾驶行为的驾驶员行为识别区域的图像；相应地，原始负样本图像为不具有预设驾驶行为的驾驶员行为识别区域的图像。电子设备可以从监控设备中获取到上述图像，也可以从其他地方获取上述图像，在此对电子设备获取上述图像的方式并不做任何限定。

作为本实施例的一种可选实施方式，上述S311可以包括如下步骤：

(1)获取原始图像。

例如，监控设备采集不同交通场景的视频数据，然后以一定帧率截取为图片数据，即可得到所述的原始图像。

(2)检测原始图像中的人脸区域。

电子设备在获取到原始图像之后，可以利用人脸检测网络，检测原始图像中的人脸区域。在本实施例中对人脸检测网络的具体结构细节并不做任何限制，具体可以根据实际情况进行相应的选择。

(3)基于检测出的人脸区域，确定原始图像中的驾驶员行为区域。

电子设备在检测出各个原始图像中的人脸区域之后，可以基于人脸区域确定驾驶员行为区域。例如，以人脸区域对应的矩形候选框为边界，分别向外扩展一定的距离，得到驾驶员行为区域。当然，也可以利用其它方式确定驾驶员行为区域。

例如，如图4所示，上述步骤(3)可以包括如下步骤：

3.1)获取人脸宽度并确定检测出的人脸区域的中心。

人脸宽度可以是人脸的平均宽度，也可以是基于人脸区域的尺寸确定出的人脸宽度。进一步地，电子设备还在人脸区域中确定出该人脸区域的中心，将人脸区域的中心作为驾驶员行为区域识别的基准。

3.2)基于检测出的人脸区域的中心以及人脸宽度，在原始图像中进行区域扩展，得到原始图像中的驾驶员行为区域。

以人脸中心为基准，以人脸宽度为度量单位，即可得到原始图像中的驾驶员行为区域。具体地，道路上安装的相机一般采集的画面包括车、马路等背景，驾驶员手部手势识别区域只占整个画面的局部很小区域，如果整张图进行识别，图中背景会对识别看手机的行为形成干扰。基于此，本实施例通过人脸检测网络先检测原始图像中的人脸区域，再以人脸区域为中心为基准，以人脸宽度为度量单位，向下截取包含驾驶员手势的识别区域，从而避免了不相干背景的干扰，同时在训练时，使得输入驾驶员行为识别模型中的图像尺寸大大减小，效率明显提升。

由于驾驶员行为是与人脸相关，利用人脸区域的中心以及人脸宽度确定驾驶员行为区域，一方面能够保证驾驶员行为区域的识别准确性，另一方面提高了确定驾驶员行为区域的效率。

(4)提取原始图像中的驾驶员行为区域，得到原始样本图像。

电子设备在确定出原始图像中的驾驶员行为区域之后，从原始图像中截取这部分区域，即可得到原始样本图像。

通过检测原始图像中的人脸区域，利用人脸区域确定驾驶员行为区域，提取出原始图像中的驾驶员行为区域即可得到原始样本图像，由于原始样本图像中包括的是驾驶员行为区域，而避免了采用全图进行训练，保证了驾驶员行为识别模型的输入层的图片尺寸较小，降低了计算量，识别效率高；且，由于原始样本图像中去除了背景的干扰，识别效果较好。

S312，对原始样本图像进行样本处理，以使得训练数据集中正样本图像与负样本图像的比例满足预设比例。

电子设备在得到原始样本图像之后，可以先对原始样本图像进行标注，以是否具有预设驾驶行为为分类标准，将原始样本图像分为正样本图像以及负样本图像。例如，正样本图像表示开车看手机，负样本图像表示开车未看手机。

在数据标注完成之后，正负样本数量严重不均衡，即负样本数量远远多于正样本数量。为了解决样本不均衡的问题，分别对正负样本进行数据预处理。例如，一方面，通过人工筛查的方法，剔除负样本中相似的冗余样本，减少负样本的数量；另一方面，通过离线数据增强的方法，扩充正样本的数量。例如，可以采用镜像、随机平移、随机旋转、随机亮度变换、随机对比度变换、通道顺序打乱等数据增强方式，对正样本进行单种或多种增强方式组合的方法来变换图像数据，大大增加了正样本的数量。经过数据预处理后，正样本图像与负样本图像的数量比例大约为1:3。

在本实施例中，直接在前期样本筛选就解决了样本不均衡的问题，无需引入特定损失函数约束样本均衡问题，简化了训练，开发周期短，效率效果都比较高。

S32，对初始驾驶员行为识别模型进行压缩，得到第一驾驶员行为识别模型。

详细请参见图2所示实施例的S22，在此不再赘述。

S33，利用训练数据集对第一驾驶员行为识别模型进行训练得到第二驾驶员行为识别模型，并利用检验数据集对第二驾驶员行为识别模型的准确性进行检验，得到第二驾驶员行为识别模型的识别准确性。

详细请参见图2所示实施例的S23，在此不再赘述。

S34，基于第二驾驶员行为识别模型的识别准确性，对所述第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型。

详细请参见图2所示实施例的S24，在此不再赘述。

本实施例提供的驾驶员行为识别模型的训练方法，通过对获取到的原始样本数据进行样本处理，使得正样本图像与负样本图像的比例满足预设比例，能够避免样本不均衡问题，保证了训练数据集中的样本均衡，避免了由于数据严重不均衡造成训练过程不收敛的现象。

根据本发明实施例，提供了一种驾驶员行为识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种驾驶员行为识别方法，可用于电子设备，如智能摄像机、电脑、手机、平板电脑等，图5是根据本发明实施例的驾驶员行为识别方法的流程图，如图5所示，该流程包括如下步骤：

S41，获取目标驾驶员的待识别图像。

待识别图像可以是电子设备从监控设备中获取到的，也可以是将驾驶员行为识别方法直接移植到前端的监控设备中，监控设备对采集到的待识别图像直接进行后续的检测，而不需要发送给第三方进行检测。

S42，确定待识别图像中的驾驶员行为区域，并从待识别图像中提取驾驶员行为区域。

该步骤与上述图3所示实施例的S311中类似，不同的是，本实施例中的处理对象为待识别图像，而S311中的处理对象为原始图像。详细请参见图3所示实施例的S311的详细描述，在此不再赘述。

S43，将驾驶员行为区域输入目标驾驶员行为识别模型中，确定目标驾驶员是否存在预设驾驶行为。

其中，所述目标驾驶员行为识别模型是根据上述任一项实施方式中所述的驾驶员行为识别模型的训练方法训练得到的。关于目标驾驶员行为识别模型的细节请参见上文实施例的描述，在此不再赘述。

电子设备将驾驶员行为区域的图像输入目标驾驶员行为识别模型中，由于该目标驾驶员行为识别模型为分类网络模型，可以直接确定待识别图像中的目标驾驶员是否存在预设驾驶行为。

本实施例中通过驾驶员行为区域的选取，大大减少了不相干背景的干扰，且通过人脸位置定位到手部所在区域，直接可以采用分类网络实现对驾驶员看手机行为的识别。基于分类网络的目标驾驶员行为识别模型，算法复杂度明显低于基于检测网络，简单高效，且分类模型大小也明显小于检测模型大小，更易移植到前端设备，例如监控相机中。

本实施例提供的驾驶员行为识别方法，由于目标驾驶员行为识别模型的模型参数量大大减少，其可以在前端设备上运行，从而能够实现待识别图像的实时处理，提高了识别效率。

作为本实施例的一个具体应用实例，以驾驶员开车看手机行为进行识别为例，所述的驾驶员行为识别模型的训练，以及识别过程可以包括如下步骤：

(1)数据采集与标注

采集不同交通场景的视频数据，然后以25帧间隔截取图片数据。利用人脸检测模块获取驾驶员人脸检测框，然后以人脸中心为基准，向上取1个人脸宽，向下取2个人脸宽，向左取1.5个人脸宽，向右取1.5个人脸宽，如图4所示，截取驾驶员行为区域，并保存为图像样本。标注驾驶员行为区域中驾驶员是否有开车看手机的行为，将图像样本分为正负样本图像两类。

(2)数据预处理

经标注后样本共计21万张左右，其中负样本图像约20万张，正样本图像约1万张。通过人工筛查的方法，剔除负样本图像中相似的冗余样本，减少负样本图像的数量为10万张左右；通过离线数据增强的方法，扩充正样本图像的数量为3万张左右。

(3)网络压缩与修改

基于DenseNet-121网络进行压缩与修改。将第一个卷积层的卷积核尺寸由7×7改为3×3；将所有层的滤波器个数缩减为原来的一半；将第一个Dense Block模块由6个缩减为3个，第二个Dense Block模块由12个缩减为6个，第三个Dense Block模块和第三个Transition Layer模块全部删减，第四个Dense Block模块由16个缩减为8个；将第一个最大池化层(max pool layer)删减。DenseNet-121网络压缩与修改前后的网络结构如图9所示。

(4)网络训练

设置图片输入尺寸为96×96×1(其中，96×96为图片的尺寸，1表示颜色通道，比如：1表示灰度图像，3表示彩色图像等)、基础学习率为0.001、训练批次量(batch size)为256、迭代轮数(epoch)为400、损失函数为MSE(Mean Square Error)。将样本集按8:2的比例划分为训练集和验证集，然后基于随机梯度下降法(SGD,stochastic gradient descent)进行迭代训练，同时每训练一轮后，在验证集上计算准确率。

(5)网络预测

选取不同交通场景3560张样本(包含1025张正样本，2535张负样本)作为测试集，通过网络预测后，经统计在该测试集上：准确率(抓拍正样本数/抓拍总数)为98.35％，抓拍率(抓拍正样本数/正样本总数)97.62％，在海思平台Hisi3559A上，前向计算一张图片的时间约为2.8ms。

本实施例提供的驾驶员行为识别方法，从开发移植角度而言，实现简单易操作，训练时没有额外增加大量复杂算法，也能达到同等甚至超出的效果，移植到硬件时没有不支持的复杂算法，平台兼容性好，且模型字节对齐，对运行效率也没有太大影响，对硬件要求不高。从效率角度，由于驾驶员行为区域的定位截取，使得模型输入最终可以缩小为96×96×1，模型参数量由7.53M压缩为0.15M，计算量非常小，满足各种嵌入式硬件平台实时性需求，识别效率非常高。从效果角度，在模拟环境下的交通场景中对所述的驾驶员行为识别方法进行测试，其测试结果表明，该方法的抓拍率达95％以上，误检率在5％以内，识别效果反应良好，打破了传统人工审查监控方法的局限，大大减少了交管部门相关工作量，能够节约时间成本和人工成本。

在本实施例中还提供了一种驾驶员行为识别模型的训练装置以及驾驶员行为识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种驾驶员行为识别模型的训练装置，如图6所示，包括：

第一获取模块51，用于获取正样本图像以及负样本图像，以得到训练数据集以及检验数据集；

第一压缩模块52，用于对初始驾驶员行为识别模型进行压缩，得到第一驾驶员行为识别模型，所述初始驾驶员行为识别模型是利用所述训练数据集训练得到的；

检验模块53，用于利用所述训练数据集对所述第一驾驶员行为识别模型进行训练得到第二驾驶员行为识别模型，并利用所述检验数据集对所述第二驾驶员行为识别模型的准确性进行检验，得到所述第二驾驶员行为识别模型的识别准确性；

第二压缩模块54，用于基于所述第二驾驶员行为识别模型的识别准确性，对所述第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型。

本实施例提供的驾驶员行为识别模型的训练装置，在训练过程中通过对驾驶员行为识别模型进行压缩，在压缩时同时兼顾模型识别的准确性，大大减少了模型参数量，使得最终得到的目标驾驶员行为识别模型的计算效率得到提升，其不仅对硬件设备的算力要求非常低，且能够满足实时性识别的需求。

本实施例提供一种驾驶员行为识别装置，如图7所示，包括：

第二获取模块61，用于获取目标驾驶员的待识别图像；

检测模块62，用于确定所述待识别图像中的驾驶员行为区域，并从所述待识别图像中提取所述驾驶员行为区域；

识别模块63，用于将所述驾驶员行为区域输入目标驾驶员行为识别模型中，确定所述目标驾驶员是否存在预设驾驶行为，所述驾目标驶员行为识别模型是根据上述任一项实施方式中所述的驾驶员行为识别模型的训练方法训练得到的。

本实施例提供的驾驶员行为识别装置，由于目标驾驶员行为识别模型的模型参数量大大减少，其可以在前端设备上运行，从而能够实现待识别图像的实时处理，提高了识别效率。

本实施例中的驾驶员行为识别模型的训练装置以及驾驶员行为识别装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图6所示的驾驶员行为识别模型的训练装置，或图7所示的驾驶员行为识别装置。

请参阅图8，图8是本发明可选实施例提供的一种电子设备的结构示意图，如图8所示，该电子设备可以包括：至少一个处理器71，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口73，存储器74，至少一个通信总线72。其中，通信总线72用于实现这些组件之间的连接通信。其中，通信接口73可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中处理器71可以结合图6或图7所描述的装置，存储器74中存储应用程序，且处理器71调用存储器74中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线72可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器74可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器74还可以包括上述种类的存储器的组合。

其中，处理器71可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器74还用于存储程序指令。处理器71可以调用程序指令，实现如本申请图1至3实施例中所示的驾驶员行为识别模型的训练方法，或图5实施例中所示的驾驶员行为识别方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的驾驶员行为识别模型的训练方法，或驾驶员行为识别方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种驾驶员行为识别模型的训练方法，其特征在于，包括：

基于所述第二驾驶员行为识别模型的识别准确性，对所述第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型；

其中，所述基于所述第二驾驶员行为识别模型的识别准确性，对所述第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型，包括：

当所述第二驾驶员行为识别模型的识别准确性满足预设条件时，对所述第二驾驶行为识别模型进行压缩，以确定所述目标驾驶员行为模型，所述压缩包括减小卷积核的尺寸、缩减每层的滤波器数量、删除预设模块以及删除预设步长的池化层中的至少一种；

所述当所述第二驾驶员行为识别模型的识别准确性满足预设条件时，对所述第二驾驶行为识别模型进行压缩，以确定所述目标驾驶员行为模型，包括：

利用所述训练数据集训练所述第三驾驶员行为识别模型得到第四驾驶员行为识别模型，并利用所述检验数据集对所述第四驾驶员行为识别模型的准确性进行检验，得到所述第四驾驶员行为识别模型的识别准确性；

2.根据权利要求1所述的训练方法，其特征在于，所述获取正样本图像以及负样本图像，包括：

获取原始样本图像；

3.根据权利要求2所述的训练方法，其特征在于，所述获取原始样本图像，包括：

获取原始图像；

检测所述原始图像中的人脸区域；

分别提取所述原始图像中的驾驶员行为区域，得到所述原始样本图像。

4.根据权利要求3所述的训练方法，其特征在于，所述基于检测出的人脸区域，确定所述原始图像中的驾驶员行为区域，包括：

获取人脸宽度并确定检测出的人脸区域的中心；

基于检测出的人脸区域的中心以及所述人脸宽度，在所述原始图像中进行区域扩展，确定所述原始图像中的驾驶员行为区域。

5.一种驾驶员行为识别方法，其特征在于，包括：

获取目标驾驶员的待识别图像；

将所述驾驶员行为区域输入目标驾驶员行为识别模型中，确定所述目标驾驶员是否存在预设驾驶行为，所述目标驾驶员行为识别模型是根据权利要求1-4中任一项所述的驾驶员行为识别模型的训练方法训练得到的。

6.一种驾驶员行为识别模型的训练装置，其特征在于，包括：

第二压缩模块，用于基于所述第二驾驶员行为识别模型的识别准确性，对所述第二驾驶行为识别模型进行压缩，以确定目标驾驶员行为识别模型；

7.一种驾驶员行为识别装置，其特征在于，包括：

第二获取模块，用于获取目标驾驶员的待识别图像；

识别模块，用于将所述驾驶员行为区域输入目标驾驶员行为识别模型中，确定所述目标驾驶员是否存在预设驾驶行为，所述目标驾驶员行为识别模型是根据权利要求1-4中任一项所述的驾驶员行为识别模型的训练方法训练得到的。

8.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-4中任一项所述的驾驶员行为识别模型的训练方法，或权利要求5所述的驾驶员行为识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-4中任一项所述的驾驶员行为识别模型的训练方法，或权利要求5所述的驾驶员行为识别方法。