CN112132070B

CN112132070B - 驾驶行为分析方法、装置、设备及存储介质

Info

Publication number: CN112132070B
Application number: CN202011032896.3A
Authority: CN
Inventors: 韦立庆
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2024-06-04
Anticipated expiration: 2040-09-27
Also published as: CN112132070A

Abstract

本公开实施例公开了一种驾驶行为分析方法、装置、设备及存储介质，属于图像处理技术领域。所述方法包括：从第一图像中提取出包含方向盘的局部图像，得到第二图像，第一图像是针对驾驶员所处的区域进行拍摄得到的图像；对第二图像进行图像分割处理，以标记出第二图像中的方向盘区域和驾驶员手部区域；将标记出方向盘区域和驾驶员手部区域的第二图像作为行为分析网络模型的输入，通过行为分析网络模型确定驾驶员的驾驶行为。也即是，本公开实施例是通过分析第一图像确定驾驶员的驾驶行为，不受硬件设备和成本的影响。而且，驾驶行为是通过对图像中方向盘区域和驾驶员手部区域进行分析确定的，如此可以对复杂的驾驶行为进行分析和确定。

Description

驾驶行为分析方法、装置、设备及存储介质

技术领域

本公开实施例涉及图像处理技术领域，特别涉及一种驾驶行为分析方法、装置、设备及存储介质。

背景技术

在正常驾驶的情况下，驾驶员的手是一直握住方向盘的。为了保证驾驶安全，驾驶员在驾驶车辆的过程中，需要对驾驶员的驾驶行为进行分析，确定驾驶员的驾驶行为是否为正常驾驶。

相关技术中，在方向盘上安装多个传感器(比如：压力传感器)，根据传感器产生的不同信号判断驾驶员的双手是否握住方向盘。也即是，通过检测驾驶员的手是否触碰方向盘，可以确定驾驶过程中驾驶员是否存在手部脱离方向盘的驾驶行为。

采用传感器等硬件设备来确定驾驶行为时，容易受硬件设备复杂程度和成本的影响。同时，无法对驾驶员复杂的驾驶行为(比如：拐弯，看手机等)进一步区分，分析结果不够准确。

发明内容

本公开实施例提供了一种驾驶行为分析方法、装置、设备及存储介质，可以用于解决相关技术中无法对驾驶员复杂的驾驶行为进行分析，导致分析结果不够准确的问题。所述技术方案如下：

一方面，提供了一种驾驶行为分析方法，所述方法包括：

从第一图像中提取出包含方向盘的局部图像，得到第二图像，所述第一图像是针对驾驶员所处的区域进行拍摄得到的图像；

对所述第二图像进行图像分割处理，以标记出所述第二图像中的方向盘区域和驾驶员手部区域；

将标记出方向盘区域和驾驶员手部区域的所述第二图像作为行为分析网络模型的输入，通过所述行为分析网络模型确定所述驾驶员的驾驶行为。

可选地，所述对所述第二图像进行图像分割处理，以标记出所述第二图像中的方向盘区域和驾驶员手部区域，包括：

将所述第二图像作为图像分割网络模型的输入，通过所述图像分割网络模型确定所述第二图像中每个像素点属于多个类别的概率；

基于所述第二图像中每个像素点属于所述多个类别的概率，确定所述第二图像中每个像素点所属的类别；

根据所述每个像素点所属的类别，标记出所述第二图像中的方向盘区域和驾驶员手部区域。

可选地，所述行为分析网络模型包括特征提取网络子模型和特征融合网络子模型；

所述将标记出方向盘区域和驾驶员手部区域的所述第二图像作为行为分析网络模型的输入，通过所述行为分析网络模型确定所述驾驶员的驾驶行为，包括：

将标记出方向盘区域和驾驶员手部区域的所述第二图像作为所述特征提取网络子模型的输入，通过所述特征提取网络子模型确定所述第二图像的高阶特征，所述高阶特征用于指示所述驾驶员的手部和所述方向盘之间的相对姿态；

将所述第二图像的高阶特征和缓存的N帧历史图像的高阶特征作为所述特征融合网络子模型的输入，通过所述特征融合网络子模型确定所述驾驶员的驾驶行为，所述N帧历史图像与所述第二图像连续，所述N为大于1的整数。

可选地，在将标记出方向盘区域和驾驶员手部区域的所述第二图像作为行为分析网络模型的输入，通过所述行为分析网络模型确定所述驾驶员的驾驶行为之前，所述方法还包括：

获取多帧第一样本图像以及每帧第一样本图像的高阶特征，所述多帧第一样本图像均为驾驶员驾驶车辆且经过图像分割处理后的图像；

将所述多帧第一样本图像作为初始特征提取网络子模型的输入，将所述多帧第一样本图像的高阶特征作为所述初始特征提取网络子模型的输出，对所述初始特征提取网络子模型进行训练，得到所述特征提取网络子模型。

获取连续的多帧第二样本图像的高阶特征以及每帧第二样本图像的样本标签，所述样本标签用于指示相应样本图像中驾驶员的驾驶行为；

将所述多帧第二样本图像划分为M组样本图像，每组样本图像包括连续的N+1帧第二样本图像；

将所述M组样本图像中每组样本图像的高阶特征作为初始特征融合网络子模型的输入，将相应一组样本图像中最后一帧第二样本图像的样本标签作为所述初始特征融合网络子模型的输出，对所述初始特征融合网络子模型进行训练，得到所述特征融合网络子模型。

可选地，所述从第一图像中提取出包含方向盘的局部图像，得到第二图像，包括：

从所述第一图像中识别出所述方向盘的位置；

基于所述方向盘的位置，从所述第一图像中提取以所述方向盘为中心且向四周扩展目标尺寸后的局部图像，得到所述第二图像。

可选地，在所述第一图像中，所述方向盘位于第一对角线的左上方和第二对角线的左下方之间，所述第一对角线穿过车门，且与所述车门保持同一水平线。

另一方面，提供了一种驾驶行为分析装置，所述装置包括：

图像提取模块，用于从第一图像中提取出包含方向盘的局部图像，得到第二图像，所述第一图像是针对驾驶员所处的区域进行拍摄得到的图像；

部件分割模块，用于对所述第二图像进行图像分割处理，以标记出所述第二图像中的方向盘区域和驾驶员手部区域；

行为确定模块，用于将标记出方向盘区域和驾驶员手部区域的所述第二图像作为行为分析网络模型的输入，通过所述行为分析网络模型确定所述驾驶员的驾驶行为。

可选地，所述部件分割模块，包括：

第一确定子模块，用于将所述第二图像作为图像分割网络模型的输入，通过所述图像分割网络模型确定所述第二图像中每个像素点属于多个类别的概率；

第二确定子模块，用于基于所述第二图像中每个像素点属于所述多个类别的概率，确定所述第二图像中每个像素点所属的类别；

标记子模块，用于根据所述每个像素点所属的类别，标记出所述第二图像中的方向盘区域和驾驶员手部区域。

所述行为确定模块，包括：

第三确定子模块，用于将标记出方向盘区域和驾驶员手部区域的所述第二图像作为所述特征提取网络子模型的输入，通过所述特征提取网络子模型确定所述第二图像的高阶特征，所述高阶特征用于指示所述驾驶员的手部和所述方向盘之间的相对姿态；

第四确定子模块，用于将所述第二图像的高阶特征和缓存的N帧历史图像的高阶特征作为所述特征融合网络子模型的输入，通过所述特征融合网络子模型确定所述驾驶员的驾驶行为，所述N帧历史图像与所述第二图像连续，所述N为大于1的整数。

可选地，所述装置还包括：

第一获取模块，用于获取多帧第一样本图像以及每帧第一样本图像的高阶特征，所述多帧第一样本图像均为驾驶员驾驶车辆且经过图像分割处理后的图像；

第一训练模块，用于将所述多帧第一样本图像作为初始特征提取网络子模型的输入，将所述多帧第一样本图像的高阶特征作为所述初始特征提取网络子模型的输出，对所述初始特征提取网络子模型进行训练，得到所述特征提取网络子模型。

可选地，所述装置还包括：

第二获取模块，用于获取连续的多帧第二样本图像的高阶特征以及每帧第二样本图像的样本标签，所述样本标签用于指示相应样本图像中驾驶员的驾驶行为；

分组模块，用于将所述多帧第二样本图像划分为M组样本图像，每组样本图像包括连续的N+1帧第二样本图像；

第二训练模块，用于将所述M组样本图像中每组样本图像的高阶特征作为初始特征融合网络子模型的输入，将相应一组样本图像中最后一帧第二样本图像的样本标签作为所述初始特征融合网络子模型的输出，对所述初始特征融合网络子模型进行训练，得到所述特征融合网络子模型。

可选地，所述图像提取模块，还用于：

从所述第一图像中识别出所述方向盘的位置；

另一方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行上述任一方面所述的驾驶行为分析方法的步骤。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述任一方面所述的驾驶行为分析方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一方面所述的驾驶行为分析方法的步骤。

本公开实施例提供的技术方案带来的有益效果至少包括：

在本公开实施例中，在对驾驶员所处的区域进行拍摄的第一图像进行局部图像提取和图像分割处理后，通过行为分析网络模型可以直接确定驾驶员的驾驶行为。也即是，本公开实施例是通过对拍摄的图像进行处理和分析，确定驾驶员的驾驶行为，不受硬件设备复杂程度和成本的影响，提高了驾驶行为分析的灵活性。而且，图像经过分割处理后，标记出了图像中方向盘区域和驾驶员手部区域，因此，在确定驾驶员的驾驶行为时，是通过对图像中方向盘区域和驾驶员手部区域进行分析确定的，可以对复杂的驾驶行为进行分析和确定，进而提高了确定驾驶行为的精确性。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种驾驶行为分析系统的示意图；

图2是本公开实施例提供的一种驾驶行为分析方法的流程图；

图3是本公开实施例提供的一种第一图像的示意图；

图4是本公开实施例提供的一种图像分割网络模型的示意图；

图5是本公开实施例提供的一种图像分割处理后的图像的示意图；

图6是本公开实施例提供的一种特征提取网络子模型的示意图；

图7是本公开实施例提供的一种特征融合网络子模型的示意图；

图8是本公开实施例提供的一种驾驶行为分析装置的结构示意图；

图9是本公开实施例提供的一种图像采集设备的结构框图；

图10是本公开实施例提供的一种服务器的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施例方式作进一步地详细描述。

在对本公开实施例进行详细地解释说明之前，先对本公开实施例的应用场景予以说明。

交通事故的发生和驾驶员不正当的驾驶行为有密切关系，一些驾驶行为容易被驾驶员忽略，但却容易造成严重后果。当驾驶员存在双手脱离方向盘、单手脱离方向盘，以及在驾驶的过程中玩手机等不安全的驾驶行为时，如果此时车辆发生爆胎、路况发生变化或者前方突遇车辆，则驾驶员难以对车辆进行快速有效的控制，易导致交通事故发生。

因此，本公开实施例提供的驾驶行为分析方法应用于监测驾驶员的驾驶行为，以保证安全驾驶的场景中。当检测到驾驶员存在不安全的驾驶行为时，可以及时提醒驾驶员注意行车安全，也可以在检测到不安全的驾驶行为时，控制车辆减速等，本公开实施例对驾驶员存在不安全驾驶行为时的应对措施不作限制。当然，随着科技的发展，本公开实施例提供的驾驶行为分析方法也可能应用于其他场景中，本公开实施例对此不做限定。

图1是本公开实施例提供的一种驾驶行为分析系统的示意图，如图1所示，该驾驶行为分析系统100包括多个图像采集设备101和服务器102，任一图像采集设备101和服务器102之间通过有线或者无线的方式连接以进行通信。

对于多个图像采集设备101中任一图像采集设备101，图像采集设备101已经安装在驾驶员驾驶的车辆中，且可以准确清楚地拍摄到驾驶员所处区域。图像采集设备101可以将拍摄的驾驶视频发送给服务器102。服务器102对接收到的驾驶视频中的每帧画面进行驾驶行为分析，确定该驾驶视频中的驾驶员是否存在不安全的驾驶行为。

其中，图像采集设备101可以在拍摄的过程中实时地将拍摄视频发送给服务器102，也可以周期性发送，比如：每分钟发送一次。本公开实施例对发送拍摄视频的时间不做限制。

需要说明的是，随着技术的发展，图像采集设备101在拍摄驾驶视频后，也可以自行对驾驶视频进行分析处理，以确定驾驶员的驾驶行为，无需将驾驶视频发送给服务器102，减少了通信时间，进而提高了驾驶行为的确定效率。

也即是，本公开实施例的驾驶行为分析方法可以由上述图像采集设备101单独执行，也可以由上述图像采集设备101和服务器102配合执行，本公开实施例对此不做限制。

此外，图像采集设备101或服务器102在确定驾驶员的驾驶行为后，还可以执行如下操作：在确定驾驶员的驾驶行为存在安全隐患时，向驾驶员发送提醒消息，提醒驾驶员注意驾驶安全。此外，还可以在确定驾驶员的驾驶行为存在安全隐患的情况下，控制车辆减速，以避免交通事故的发生。

作为一个示例，该提醒消息可以通过图像采集设备101语音广播的形式告知驾驶员，本公开实施例对提醒消息的内容不做限制。

在通过上述图像采集设备101单独确定驾驶行为的情况下，图像采集设备101通过对驾驶视频进行分析处理，确定驾驶员存在不安全的驾驶行为时，语音广播“当前驾驶行为不安全，请双手握住方向盘”的提醒消息，提醒驾驶员调整驾驶姿势，注意驾驶安全。

在图像采集设备101和服务器102配合确定驾驶行为的情况下，服务器102对驾驶视频进行分析处理，确定驾驶员存在不安全的驾驶行为时，向发送该驾驶视频的图像采集设备101发送提醒消息，提醒消息可以为“当前驾驶行为不安全，请双手握住方向盘”。在图像采集设备101在接收到提醒消息后，语音广播该提醒消息，提醒驾驶员调整驾驶姿势，注意驾驶安全。

在本公开实施例中，图像采集设备101可以为球机等各种包含有摄像头且可以拍摄视频的任一电子设备，图1中仅仅是以2个球机作为图像采集设备举例进行说明，并不构成对本公开实施例的限定。

在介绍完本公开实施例的应用场景和实施环境后，接下来，对本公开实施例提供的驾驶行为分析方法进行解释说明。需要说明的是，根据上面的描述，在确定驾驶行为时，存在两种可能的实现方式，一种是图像采集设备101对驾驶视频进行分析处理，确定驾驶行为。另一种是服务器102对驾驶视频进行分析处理，确定驾驶行为。但是，对于上述两种实现方式而言，确定驾驶行为的方法相同，仅仅是执行主体不同而已。这里以服务器作为执行主体为例，对本公开实施例提供的驾驶行为分析方法进行详细说明。

参见图2，图2是本公开实施例提供的一种驾驶行为分析方法的流程图，该方法用于上述图1所示的服务器102中，该方法包括：

步骤201：从第一图像中提取出包含方向盘的局部图像，得到第二图像。

其中，第一图像是针对驾驶员所处的区域进行拍摄得到的图像。

需要说明的是，本公开主要是通过驾驶员手部和方向盘的相对姿态，确定驾驶员的驾驶行为，且通常情况下，驾驶员的手部位于方向盘的周围，所以，在获取的第一图像中，重点关注的是第一图像中方向盘所在的区域，根据该区域来进行驾驶行为分析。也即是，需要从第一图像中选取出包含方向盘的局部区域，这样能更加快速和准确的确定需要进行后续图像处理的局部区域，通过该局部区域，分析驾驶员的驾驶行为。

在一种可能的实现方式中，在针对驾驶员所处的区域进行拍摄得到的第一图像中，通过ROI(Region Of Interest，图像感兴趣区域)图像提取技术在第一图像中识别出方向盘的位置，并从第一图像中提取包含方向盘的局部图像。也即是，将包含方向盘的局部图像从第一图像中裁剪出来，作为第二图像。

其中，ROI图像提取技术是一种从原始图像中检测并提取目标区域的算法，ROI图像提取主要使用掩模进行。掩模是二值图像，感兴趣区域的掩模值设置为255，非感兴趣区域的掩模值设置为0，将感兴趣区域从第一图像中提取出来，作为后续针对性处理的第二图像。

需要说明的是，第二图像可以是包含方向盘区域的圆形图像，也可以是包含该方向盘的矩形图像，本公开实施例对此不做限制。

在另一种可能的实现方式中，在针对驾驶员所处的区域进行拍摄得到的第一图像中，通过ROI图像提取技术从第一图像中识别出方向盘的位置，然后基于该方向盘的位置，从第一图像中提取以方向盘为中心且向四周扩展目标尺寸后的局部图像，得到第二图像。如此，得到的第二图像中既包括了方向盘，还可能包含驾驶员的手部姿态，根据包含更多信息的第二图像，确定驾驶行为的精确度更高。

其中，目标尺寸可以是设定的任一数值，本公开实施例对此不做限制。当局部图像是包含方向盘区域的圆形图像时，目标尺寸是指扩展半径，也即是，将该局部图像的半径向外延伸目标尺寸后，得到第二图像。当局部图像是包含方向盘区域的矩形图像时，目标尺寸是指扩展长度和扩展宽度，也即是，将该局部图像的每条边按照目标尺寸分别向外延伸之后，得到第二图像。

此外，为了确保拍摄的第一图像可以清楚拍摄到驾驶员当前的驾驶行为，在车辆内安装包含摄像头的图像采集设备101时，应该基于一个合适的角度和位置进行安装，以保证拍摄的每一帧第一图像中，都包括方向盘、驾驶员和车门等位置信息。因此，本公开实施例中的图像采集设备均采用统一的安装方式安装在车辆内，如此，在该图像采集设备拍摄的第一图像中，方向盘位于一个特定的区域内。

在一种可能的实现方式中，在基于本公开实施例安装的终端所拍摄的第一图像中，方向盘位于第一对角线的左上方和第二对角线的左下方之间，第一对角线穿过车门，且与车门保持同一水平线。

作为一个示例，参见图3，图3是本公开实施例提供的一种第一图像的示意图。在该第一图像中，方向盘位于第一对角线的左上方和第二对角线的左下方之间，即为图3中的区域A。

步骤202：对第二图像进行图像分割处理，以标记出第二图像中的方向盘区域和驾驶员手部区域。

需要说明的是，图像分割(image segmentation)是指将图像分成若干具有相似性质的区域的过程，从数学角度来看，图像分割是将图像划分成互不相交的区域的过程。图像分割技术从算法演进历程上，大体可划分为基于图论的方法、基于像素聚类的方法和基于深度语义的方法这三大类。

在本公开实施例中，为了准确判断驾驶行为，结合图像提供的中高层内容信息以辅助图像分割，本公开中所提及的图像分割可以是基于深度语义的图像语义分割。其中，图像语义分割可以采用训练得到的图像分割网络模型执行。

其中，图像分割网络模型可以为：CNN(Convolutional Neural Networks，卷积神经网络)模型、FCN(Fully Convolutional Networks，完全卷积网络)模型或SegNet(Semantic Segmentation，语义分割神经网络)模型等。本公开实施例对此不作限制。

作为一个示例，如图4所示，图4是本公开实施例提供的一种图像分割网络模型的示意图，该图像分割网络模型为SegNet模型，该图像分割网络模型包括卷积层、pooling(池化)层、反卷积层、upsampling(上采样)层和softmax层。

卷积层用于对输入的第二图像进行特征提取，得到第一图像特征，pooling层用于对第一图像特征进行降维操作，得到第二图像特征。其中，通过对第一图像特征进行降维操作，可以改变对应图像的高度和宽度，使第二图像的尺寸变小。

反卷积层用于对第二图像特征进行反卷积处理，upsampling层用于对反卷积层输出的数据进行还原，softmax层用于对upsampling层输出的数据进行概率转换，得到第二图像中每个像素点属于多个类别中每个类别的概率。

因此，在一种可能的实现方式中，步骤202的实现过程可以为：将第二图像作为图像分割网络模型的输入，通过图像分割网络模型确定第二图像中每个像素点属于多个类别的概率，基于第二图像中每个像素点属于多个类别的概率，确定第二图像中每个像素点所属的类别，根据每个像素点所属的类别，标记出第二图像中的方向盘区域和驾驶员手部区域。

其中，多个类别包括但不限于以下几种：方向盘、手、手臂、手机和背景。因此，上述标记出的方向盘区域包括所有属于方向盘类别的像素点，上述手部区域可以包括：左手所在区域和右手所在区域，进一步地，还可以包括左手手臂所在区域和右手手臂所在区域。

作为一个示例，通过该图像分割网络模型确定第二图像中每个像素点属于多个类别的概率之后，对于第二图像中的参考像素点，将参考像素点属于多个类别的概率中的最大概率对应的类别，确定为参考像素点所属的类别，参考像素点为第二图像中的任一像素点。也即是，对于第二图像中的所有像素点，都采用上述确定参考像素点所属的类别的过程，确定每个像素点的类别。

比如，若参考像素点属于方向盘的概率为0.8，属于手臂的概率为0.2，则可以确定参考像素点属于方向盘。

作为一个示例，在确定出第二图像中每个像素点所属的类别之后，基于第二图像中每个像素点所属的类别，对第二图像进行分割处理，图像分割处理后的第二图像为包含多个连通区域的图像，每个连通区域通过不同的方式标记，同一标记方式的连同区域内的像素点所属的类别相同。

比如，如图5所示，图5是本公开实施例提供的一种图像分割处理后的第二图像的示意图。其中连通区域A用黑色进行标记，连通区域A中的所有像素点所属的类别为方向盘，连通区域B用白色进行标记，连通区域B中的所有像素点所属的类别为手，连通区域C用网格线进行标记，连通区域C中的所有像素点所属的类别为手臂，其他区域为背景区域，用斜线对背景区域进行标记。

基于上述步骤202可以确定第二图像中哪些像素点为方向盘，哪些像素点为手，还需要进一步判断方向盘和手的高阶特征，以根据高阶特征确定驾驶员的驾驶行为。接下来对此进行介绍。

步骤203：将标记出方向盘区域和驾驶员手部区域的第二图像作为行为分析网络模型的输入，通过行为分析网络模型确定驾驶员的驾驶行为。

其中，驾驶员的驾驶行为包括：双手脱离方向盘、单手脱离方向盘、看手机、转弯打方向盘和正常驾驶等，本公开实施例对此不做限制。

行为分析网络模型包括特征提取网络子模型和特征融合网络子模型。在一种可能的实现方式中，步骤203的实现过程可以包括下述(1)和(2)。

(1)将标记出方向盘区域和驾驶员手部区域的第二图像作为特征提取网络子模型的输入，通过特征提取网络子模型确定第二图像的高阶特征。

其中，高阶特征用于指示驾驶员的手部和方向盘之间的相对姿态。由于标记的方向盘区域中包括车辆的方向盘，标记的驾驶员手部区域包括驾驶员的单手或双手，特征提取网络子模型可以进一步提取特征，确定方向盘区域和驾驶员手部的精确位置，如此可以确定驾驶员手部和方向盘之间的相位姿态。

作为一个示例，如图6所示，图6是公开实施例提供的一种特征提取网络子模型的示意图，该特征提取网络子模型可以为包括多个卷积层的CNN模型。针对第二图像，CNN模型并不能准确地知道分割处理后的第二图像中每个分割区域和原图的匹配度，也即是，需要对图像分割处理后的第二图像中的每个分割区域进一步提取特征，以确定驾驶员更细致的驾驶动作(驾驶员手部和方向盘之间的相位姿态)，进而根据驾驶动作确定驾驶行为。

其中，分割区域为图像分割处理后的第二图像中指示不同像素类别的区域。比如，如图5所示，分割区域可以为指示方向盘连通区域A、指示驾驶员手部的连通区域B、指示驾驶员手臂的连通区域C和背景区域。

需要说明的是，本申请实施例主要是根据驾驶员手部和方向盘之间的相位姿态，确定驾驶行为，因此，重点关注的是方向盘区域和驾驶员手部区域，在第二图像中可以标记出方向盘区域A和驾驶员手部区域B即可，对其他区域的标记不作限制。

卷积就是将图像分割处理后的每个分割区域作为一个特征，在第二图像中图中把每一个可能的位置都进行尝试，相当于把这个特征(feature)变成了一个过滤器。上述用来匹配的过程就被称为卷积操作。

因此，特征提取网络子模型对标记出方向盘区域和驾驶员手部区域的第二图像中的方向盘区域和驾驶员手部区域进行卷积操作，得到该分割区域的高阶特征。每进行一次卷积操作，都会得到一个新的二维数组，称之为特征图(feature map)，将最后一次卷积得到的特征图作为该图像分割处理后的第二图像的高阶特征。二维数组中的值越接近1，表示对应位置和该分割区域的匹配越完整；越是接近-1，表示对应位置和该分割区域的反面匹配越完整，而值接近0的表示对应位置和和该分割区域没有关联。

也即是，高阶特征是分割区域经过卷积处理后得到的二维数组，该二维数组中的值和第二图像中对应位置的像素值之间的匹配度更高。通过卷积对分割区域的原始特征进一步浓缩，得到的高阶特征可以更加精确的描述该图像分割处理后的第二图像的图像特征。

此外，为了保证特征提取的精度，可以采用3*3的卷积核，也可以采用5*5的卷积核，甚至其他的卷积核，本公开实施例对此不做限制。此外，特征提取网络子模型可以包括一个卷积层，也可以包括多个卷积层，本公开实施例对此不做限制。

需要说明的是，在使用特征提取网络子模型对标记出方向盘区域和驾驶员手部区域的第二图像进行特征提取之前，需要预先对初始特征提取网络子模型进行训练，直至初始特征提取网络子模型的输出在预设的误差范围内，即可结束训练，得到特征提取网络子模型。

在一种可能的实现方式中，特征提取网络子模型的训练过程可以为：获取多帧第一样本图像以及每帧第一样本图像的高阶特征，多帧第一样本图像均为驾驶员驾驶车辆且经过图像分割处理后的图像。再将多帧第一样本图像作为初始特征提取网络子模型的输入，将多帧第一样本图像的高阶特征作为初始特征提取网络子模型的输出，对初始特征提取网络子模型进行训练，得到特征提取网络子模型。

特征提取网络子模型获取每一帧图像分割处理后的第二图像的高阶特征，特征融合网络子模型根据第二图像的高阶特征和缓存的N帧历史图像的高阶特征，确定第二图像中驾驶员的驾驶行为，接下来对特征融合网络子模型进行信息融合，确定驾驶行为的实现过程进行解释说明。

(2)将第二图像的高阶特征和缓存的N帧历史图像的高阶特征作为特征融合网络子模型的输入，通过特征融合网络子模型确定驾驶员的驾驶行为，N帧历史图像与第二图像连续，N为大于1的整数。

其中，高阶特征用于指示驾驶员的手部和方向盘之间的相对姿态，特征提取网络子模型在对N帧历史图像进行高阶特征提取后，将提取的高阶特征缓存在内存中，也即是，将N帧历史图像中驾驶员的手部和方向盘之间的相对姿态缓存在内存中。当需要判断第二图像对应的驾驶行为时，该特征融合网络子模型可以从内存中获取缓存的高阶特征，进而根据N+1帧图像中驾驶员的驾驶动作(驾驶员的手部和方向盘之间的相对姿态)，通过特征融合网络子模型确定驾驶员的驾驶行为。

作为一个示例，N可以为15，也即是，内存中缓存了15帧历史图像的高阶特征，当特征提取网络子模型接收到的图像分割处理后的第二图像是继上述15帧图像后的第16帧图像时，特征融合网络子模型从内存中获取前15帧历史图像的高阶特征，根据16帧图像的高阶特征，确定第二图像中驾驶员的驾驶行为。

作为一个示例，如图7所示，图7是本公开实施例提供的一种特征融合网络子模型的示意图，该特征融合网络子模型可以为CNN模型，该CNN模型包括至少一个卷积层、池化层和全连接层。

在一种可能的实现方式中，特征融合网络子模型结合N+1帧图像的高阶特征，对N+1帧图像中指示相同类别的分割区域进行卷积操作，得到至少一个高阶特征图。池化层对每个高阶特征图进行降维操作，得到池化结果。通过对高阶特征图进行降维操作，可以改变对应图像的高度和宽度，使图像变小，图像信息更为集中。将每个分割区域的池化结果串联起来，通过全连接层对上述结果进行识别分类，得到第二图像中驾驶员的驾驶行为。

需要说明的是，在使用该特征融合网络子模型对N+1帧图像的高阶特征进行信息融合之前，需要预先对初始特征融合网络子模型进行训练，直至初始特征融合网络子模型的输出在预设的误差范围内，即可结束训练，得到特征融合网络子模型。

在一种可能的实现方式中，特征融合网络子模型的训练过程可以为：获取连续的多帧第二样本图像的高阶特征以及每帧第二样本图像的样本标签，样本标签用于指示相应样本图像中驾驶员的驾驶行为；将多帧第二样本图像划分为M组样本图像，每组样本图像包括连续的N+1帧第二样本图像；将M组样本图像中每组样本图像的高阶特征作为初始特征融合网络子模型的输入，将相应一组样本图像中最后一帧第二样本图像的样本标签作为初始特征融合网络子模型的输出，对初始特征融合网络子模型进行训练，得到特征融合网络子模型。

作为一个示例，可以获取连续的160帧第二样本图像的高阶特征，将160帧第二样本图像分为10组，每组包括连续的16帧图像，样本标签为每组中第16帧图像对应的驾驶行为。

此外，需要说明的是，由于特征提取网络子模型和特征融合网络子模型是行为分析网络模型中的子模型，因此也可以直接对初始行为分析网络模型进行训练，得到行为分析网络模型。

作为一个示例，将行为分析网络模型作为一个整体进行训练，获取L组第一样本图像以及每组第一样本图像的样本标签，每组第一样本图像均为连续的P帧驾驶员驾驶车辆且经过图像分割处理后的图像，样本标签用于指示相应样本图像中驾驶员的驾驶行为。再将L组第一样本图像作为初始行为分析网络模型的输入，将相应一组样本图像中最后一帧第二样本图像的样本标签作为初始行为分析网络模型的输出，对初始行为分析网络模型进行训练，直至初始行为分析网络模型的输出在预设的误差范围内，则认为该初始行为分析网络模型已经训练完毕，得到可以用于确定驾驶员驾驶行为的行为分析网络模型。

也即是，步骤203中的行为分析网络模型可以是作为一个整体训练得到的网络模型，也可以是对子模型分别进行训练得到的行为分析网络模型，本公开实施例对此不做限制。

参见图8，本申请实施例提供了一种驾驶行为分析装置的结构示意图，该装置800包括：提取模块801、分割模块802和确定模块803。

图像提取模块801，用于从第一图像中提取出包含方向盘的局部图像，得到第二图像，第一图像是针对驾驶员所处的区域进行拍摄得到的图像；

部件分割模块802，用于对第二图像进行图像分割处理，以标记出第二图像中的方向盘区域和驾驶员手部区域；

行为确定模块803，用于将标记出方向盘区域和驾驶员手部区域的第二图像作为行为分析网络模型的输入，通过行为分析网络模型确定驾驶员的驾驶行为。

可选地，部件分割模块802，包括：

第一确定子模块，用于将第二图像作为图像分割网络模型的输入，通过图像分割网络模型确定第二图像中每个像素点属于多个类别的概率；

第二确定子模块，用于基于第二图像中每个像素点属于多个类别的概率，确定第二图像中每个像素点所属的类别；

标记子模块，用于根据每个像素点所属的类别，标记出第二图像中的方向盘区域和驾驶员手部区域。

可选地，行为分析网络模型包括特征提取网络子模型和特征融合网络子模型；

行为确定模块803，包括：

第三确定子模块，用于将标记出方向盘区域和驾驶员手部区域的第二图像作为特征提取网络子模型的输入，通过特征提取网络子模型确定第二图像的高阶特征，所述高阶特征用于指示所述驾驶员的手部和所述方向盘之间的相对姿态；

第四确定子模块，用于将第二图像的高阶特征和缓存的N帧历史图像的高阶特征作为特征融合网络子模型的输入，通过特征融合网络子模型确定驾驶员的驾驶行为，N帧历史图像与第二图像连续，N为大于1的整数。

可选地，装置800还包括：

第一获取模块，用于获取多帧第一样本图像以及每帧第一样本图像的高阶特征，多帧第一样本图像均为驾驶员驾驶车辆且经过图像分割处理后的图像；

第一训练模块，用于将多帧第一样本图像作为初始特征提取网络子模型的输入，将多帧第一样本图像的高阶特征作为初始特征提取网络子模型的输出，对初始特征提取网络子模型进行训练，得到特征提取网络子模型。

可选地，装置800还包括：

第二获取模块，用于获取连续的多帧第二样本图像的高阶特征以及每帧第二样本图像的样本标签，样本标签用于指示相应样本图像中驾驶员的驾驶行为；

分组模块，用于将多帧第二样本图像划分为M组样本图像，每组样本图像包括连续的N+1帧第二样本图像；

第二训练模块，用于将M组样本图像中每组样本图像的高阶特征作为初始特征融合网络子模型的输入，将相应一组样本图像中最后一帧第二样本图像的样本标签作为初始特征融合网络子模型的输出，对初始特征融合网络子模型进行训练，得到特征融合网络子模型。

可选地，图像提取模块801，还用于：

从第一图像中识别出方向盘的位置；

基于方向盘的位置，从第一图像中提取以方向盘为中心且向四周扩展目标尺寸后的局部图像，得到第二图像。

可选地，在第一图像中，方向盘位于第一对角线的左上方和第二对角线的左下方之间，第一对角线穿过车门，且与车门保持同一水平线。

在本申请实施例中，在对驾驶员所处的区域进行拍摄的第一图像进行局部图像提取和图像分割处理后，通过行为分析网络模型可以直接确定驾驶员的驾驶行为。也即是，本公开实施例是通过对拍摄的图像进行处理和分析，确定驾驶员的驾驶行为，不受硬件设备复杂程度和成本的影响，提高了驾驶行为分析的灵活性。而且，图像经过分割处理后，标记出了图像中方向盘区域和驾驶员手部区域，因此，在确定驾驶员的驾驶行为时，是通过对图像中方向盘区域和驾驶员手部区域进行分析确定的，可以对复杂的驾驶行为进行分析和确定，进而提高了确定驾驶行为的精确性。

需要说明的是：上述实施例提供的驾驶行为分析装置在确定驾驶员的驾驶行为时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的驾驶行为分析装置与驾驶行为分析方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种图像采集设备900的结构框图。该图像采集设备900可以是：球机、手机、智能手机、平板电脑、摄像机等具有拍摄功能的电子设备。

通常，图像采集设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、9核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的驾驶行为分析方法。

在一些实施例中，图像采集设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件909和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它图像采集设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

摄像头组件905用于采集图像或视频。可选地，摄像头组件905包括前置摄像头和后置摄像头。通常，前置摄像头设置在图像采集设备的前面板，后置摄像头设置在图像采集设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件905还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路906可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在图像采集设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路906还可以包括耳机插孔。

定位组件907用于定位图像采集设备900的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件907可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源908用于为图像采集设备900中的各个组件进行供电。电源908可以是交流电、直流电、一次性电池或可充电电池。当电源908包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图9中示出的结构并不构成对图像采集设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10是本申请实施例提供的一种服务器1000的结构框图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1001和一个或一个以上的存储器1002，其中，所述存储器1002中存储有至少一条指令，所述至少一条指令由所述处理器1001加载并执行以实现上述各个方法实施例提供的驾驶行为分析方法。当然，该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性的实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述驾驶行为分析方法。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述驾驶行为分析方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开实施例的保护范围之内。

Claims

1.一种驾驶行为分析方法，其特征在于，所述方法包括：

从第一图像中提取出包含方向盘的局部图像，得到第二图像，所述第一图像是针对驾驶员所处的区域进行拍摄得到的图像，且在所述第一图像中，所述方向盘位于第一对角线的左上方和第二对角线的左下方之间，所述第一对角线穿过车门，且与所述车门保持同一水平线；

将标记出方向盘区域和驾驶员手部区域的所述第二图像作为行为分析网络模型的输入，通过所述行为分析网络模型确定所述驾驶员的驾驶行为；

其中，所述行为分析网络模型包括特征提取网络子模型和特征融合网络子模型，所述将标记出方向盘区域和驾驶员手部区域的所述第二图像作为行为分析网络模型的输入，通过所述行为分析网络模型确定所述驾驶员的驾驶行为，包括：

将标记出方向盘区域和驾驶员手部区域后的所述第二图像作为所述特征提取网络子模型的输入，通过所述特征提取网络子模型确定所述第二图像的高阶特征，所述高阶特征用于指示所述驾驶员的手部和所述方向盘之间的相对姿态；

将所述第二图像的高阶特征和缓存的N帧历史图像的高阶特征作为所述特征融合网络子模型的输入，通过所述特征融合网络子模型对所述第二图像的高阶特征和所述N帧历史图像的高阶特征中指示相同类别的分割区域进行卷积操作，得到至少一个高阶特征图，并对每个高阶特征图进行降维操作，以得到池化结果，并将每个相同类别的分割区域的池化结果串联起来进行识别分类，以确定所述驾驶员的驾驶行为，所述N帧历史图像与所述第二图像连续，所述N为大于1的整数。

2.如权利要求1所述的方法，其特征在于，所述对所述第二图像进行图像分割处理，以标记出所述第二图像中的方向盘区域和驾驶员手部区域，包括：

3.如权利要求1所述的方法，其特征在于，在将标记出方向盘区域和驾驶员手部区域的所述第二图像作为行为分析网络模型的输入，通过所述行为分析网络模型确定所述驾驶员的驾驶行为之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，在将标记出方向盘区域和驾驶员手部区域的所述第二图像作为行为分析网络模型的输入，通过所述行为分析网络模型确定所述驾驶员的驾驶行为之前，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，所述从第一图像中提取出包含方向盘的局部图像，得到第二图像，包括：

从所述第一图像中识别出所述方向盘的位置；

6.一种驾驶行为分析装置，其特征在于，所述装置包括：

图像提取模块，用于从第一图像中提取出包含方向盘的局部图像，得到第二图像，所述第一图像是针对驾驶员所处的区域进行拍摄得到的图像，且在所述第一图像中，所述方向盘位于第一对角线的左上方和第二对角线的左下方之间，所述第一对角线穿过车门，且与所述车门保持同一水平线；

行为确定模块，用于将标记出方向盘区域和驾驶员手部区域的所述第二图像作为行为分析网络模型的输入，通过所述行为分析网络模型确定所述驾驶员的驾驶行为；

其中，所述行为分析网络模型包括特征提取网络子模型和特征融合网络子模型，所述行为确定模块，包括：

第三确定子模块，用于将标记出方向盘区域和驾驶员手部区域后的所述第二图像作为所述特征提取网络子模型的输入，通过所述特征提取网络子模型确定所述第二图像的高阶特征，所述高阶特征用于指示所述驾驶员的手部和所述方向盘之间的相对姿态；

第四确定子模块，用于将所述第二图像的高阶特征和缓存的N帧历史图像的高阶特征作为所述特征融合网络子模型的输入，通过所述特征融合网络子模型对所述第二图像的高阶特征和所述N帧历史图像的高阶特征中指示相同类别的分割区域进行卷积操作，得到至少一个高阶特征图，并对每个高阶特征图进行降维操作，以得到池化结果，并将每个相同类别的分割区域的池化结果串联起来进行识别分类，以确定所述驾驶员的驾驶行为，所述N帧历史图像与所述第二图像连续，所述N为大于1的整数。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行权利要求1-5任一项所述的方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-5任一项所述的方法的步骤。