CN115641570B

CN115641570B - 驾驶行为确定方法、装置、电子设备和存储介质

Info

Publication number: CN115641570B
Application number: CN202211670220.6A
Authority: CN
Inventors: 王镭; 孟健; 郁淑聪; 朱向雷; 孟菲; 郝斌; 张渤; 李亚楠; 贺子宸; 檀浩琛
Original assignee: Sinotruk Data Co ltd; China Automotive Technology and Research Center Co Ltd; Automotive Data of China Tianjin Co Ltd
Current assignee: Sinotruk Data Co ltd; China Automotive Technology and Research Center Co Ltd; Automotive Data of China Tianjin Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-06-23
Anticipated expiration: 2042-12-26
Also published as: CN115641570A

Abstract

本发明公开了一种驾驶行为确定方法、装置、电子设备和存储介质。该方法包括：获取驾驶图像数据并输入至人体关键点检测模型，以得到每个视频帧的关键点热图和向量图，基于所述关键点热图和所述向量图计算得到骨骼姿态特征，得到最符合当前驾驶员姿态的骨骼姿态特征。再将驾驶图像数据输入至视觉检测模型，以得到驾驶图像数据中每个视频帧的视觉特征，通过检测视觉特征得到骨骼关键点检测中无法关注到的分心驾驶相关特征。将骨骼姿态特征和视觉特征进行融合后输入至时域卷积网络模型，识别得到至少一个驾驶行为。将融合特征输入时域卷积网络模型检测得到的驾驶行为更为精确，实现对于分心驾驶行为的准确识别。

Description

驾驶行为确定方法、装置、电子设备和存储介质

技术领域

本发明涉及车辆技术领域，尤其涉及一种驾驶行为确定方法、装置、电子设备和存储介质。

背景技术

随着人们生活水平的提高，汽车的数量也在飞速上涨，交通事故发生的数量随之增加，而造成交通事故的主要原因之一是驾驶员的分心驾驶行为。

当驾驶员在行车过程中存在分心驾驶行为时，会对交通安全以及自身的生命财产安全造成严重的危害。因此，对分心驾驶行为进行检测和识别尤为重要。但是目前对于分心驾驶行为的检测和识别较为缺乏，且识别精确度较低。

有鉴于此，特提出本发明。

发明内容

为了解决上述技术问题，本发明提供了一种驾驶行为确定方法、装置、电子设备和存储介质，实现分心驾驶行为的准确识别。

本发明实施例提供了一种驾驶行为确定方法，该方法包括：

获取驾驶图像数据；

将所述驾驶图像数据输入至预先经过训练的人体关键点检测模型，经由所述人体关键点检测模型输出所述驾驶图像数据中每个视频帧的关键点热图和向量图；

基于所述关键点热图和所述向量图计算得到骨骼姿态特征；

将所述驾驶图像数据输入至预先经过训练的视觉检测模型，经由所述视觉检测模型输出所述驾驶图像数据中每个视频帧的视觉特征；

分别将每个视频帧对应的所述骨骼姿态特征与所述视觉特征进行融合，得到融合特征；

将所述融合特征输入至预先经过训练的时域卷积网络模型，经由所述时域卷积网络模型输出与所述驾驶图像数据对应的至少一个驾驶行为。

本发明实施例提供了一种驾驶行为确定装置，该装置包括：

获取模块，被配置为获取驾驶图像数据；

第一检测模块，被配置为将所述驾驶图像数据输入至预先经过训练的人体关键点检测模型，经由所述人体关键点检测模型输出所述驾驶图像数据中每个视频帧的关键点热图和向量图；

计算模块，被配置为基于所述关键点热图和所述向量图计算得到骨骼姿态特征；

第二检测模块，被配置为将所述驾驶图像数据输入至预先经过训练的视觉检测模型，经由所述视觉检测模型输出所述驾驶图像数据中每个视频帧的视觉特征；

融合模块，被配置为分别将每个视频帧对应的所述骨骼姿态特征与所述视觉特征进行融合，得到融合特征；

输出模块，被配置为将所述融合特征输入至预先经过训练的时域卷积网络模型，经由所述时域卷积网络模型输出与所述驾驶图像数据对应的至少一个驾驶行为。

本发明实施例提供了一种电子设备，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行任一实施例所述的驾驶行为确定方法的步骤。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行任一实施例所述的驾驶行为确定方法的步骤。

本发明实施例具有以下技术效果：

获取驾驶图像数据并输入至人体关键点检测模型，以得到驾驶图像数据中每个视频帧的关键点热图和向量图，准确识别驾驶员的骨骼关键点，基于所述关键点热图和所述向量图计算得到骨骼姿态特征，得到最符合当前驾驶员姿态的骨骼姿态特征。再将驾驶图像数据输入至视觉检测模型，以得到驾驶图像数据中每个视频帧的视觉特征，通过视觉特征捕捉更加细微和全面的分心驾驶行为信息。将骨骼姿态特征和视觉特征进行融合后输入至时域卷积网络模型检测得到的驾驶行为更为精确，时域卷积网络模型输出至少一个驾驶行为。通过时域卷积网络模型能够输出驾驶图像数据中包含的全部驾驶行为，实现对于分心驾驶行为的准确识别，辅助提升驾驶员的驾驶安全性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种驾驶行为确定方法的流程图；

图2是本发明实施例提供的人体关键点检测模型的训练方法的流程图；

图3是本发明实施例提供的视觉检测模型的训练方法的流程图；

图4是本发明实施例提供的时域卷积网络模型的训练方法的流程图；

图5是本发明实施例提供的驾驶行为确定装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

相关技术中，对于分心驾驶行为的检测方式较为单一，例如只是通过检测驾驶员的骨骼姿态判断当前驾驶员是否为分心驾驶，对于驾驶员的面部特征关注较少，导致检测准确率不高，进而无法及时提示用户小心驾驶。在实际驾驶过程中，即使驾驶员的驾驶姿态为正常姿态，可能由于目光未直视前方、视线偏离等情况，也会产生分心驾驶行为，容易造成交通事故。因此，需要采集关于驾驶员面部相关的特征，帮助判断驾驶员是否存在分心驾驶行为。有鉴于此，本发明实施例提供了一种驾驶行为确定方法，主要适用于在驾驶过程中及时准确判断驾驶员是否存在分心驾驶的情况。

图1是本发明实施例提供的一种驾驶行为确定方法的流程图。参见图1，该驾驶行为确定方法具体包括：

步骤110、获取驾驶图像数据。驾驶图像数据为驾驶员在驾驶过程中通过车载摄像设备采集的图像数据，摄像设备可以安装在汽车座舱仪表盘上方，以便于对驾驶员的驾驶行为进行拍摄。通过摄像设备采集的驾驶图像数据可以上传至云端处理器进行检测识别，也可以传输至车端相关处理器进行识别处理，此处不做具体限制。

步骤120、将所述驾驶图像数据输入至预先经过训练的人体关键点检测模型，经由所述人体关键点检测模型输出所述驾驶图像数据中每个视频帧的关键点热图和向量图。

获取到驾驶图像数据后，将其输入至预先经过训练的人体关键点检测模型中，通过人体关键点检测模型输出包括骨骼关键点的热图和向量图。人体关键点检测模型输出的是驾驶图像数据中每一视频帧的关键点热图和向量图，每一视频帧中的关键点分布不同，通过连续多个视频帧中的关键点变化趋势可以显示驾驶员在一段时间内的驾驶行为变化。例如，从双手驾驶方向盘转变为单手驾驶方向盘，产生分心驾驶行为。

人体关键点检测主要是检测人体的一些关键点，如关节、五官等，通过关键点描述人体骨骼信息。由于人体具有相当的柔性，会出现各种姿态和形状，人体任何一个部位的微小变化都会产生一种新的姿态，因此，通过人体骨骼关键点检测可以识别人体的动作。热图中，每一类坐标用一个概率图来表示，对图片中的每个像素位置都给一个概率，表示该点属于对应类别关键点的概率。距离关键点位置越近的像素点的概率越接近于1，距离关键点越远的像素点的概率越接近于0，一般使用高斯函数来模拟。热图中每个关键点对应一个通道。在向量图中，每个关键点对应两个通道，分别表示水平方向和竖直方向。

人体关键点检测模型为神经网络模型，神经网络模型可以更好的利用输入信息进行关键点的检测。示例性的，人体关键点检测模型可以为具有多尺度输入的基于GoogLeNet的网络，或是具有反卷积层的基于ResNet的网络等。

步骤130、基于所述关键点热图和所述向量图计算得到骨骼姿态特征。通过上述步骤得到的所述关键点热图和所述向量图计算得到最符合驾驶员当前姿态的骨骼姿态特征，为后续分析分心驾驶行为提供数据基础。

步骤140、将所述驾驶图像数据输入至预先经过训练的视觉检测模型，经由所述视觉检测模型输出所述驾驶图像数据中每个视频帧的视觉特征。经过训练的视觉检测模型能够识别驾驶图像数据中的行为类别，还能够识别行为的开始时间和结束时间。通过视觉检测模型能够检测到驾驶员更为细微的行为变化，尤其是面部特征的变化，例如眼球的转动，嘴角的位置变化等等。所述视觉检测模型为Resnet-I3D网络模型。

步骤150、分别将每个视频帧对应的所述骨骼姿态特征与所述视觉特征进行融合，得到融合特征。将骨骼姿态特征与视觉特征进行融合得到的融合特征既包括了骨骼姿态信息也包括了视觉特征的信息，有利于进一步提高对于驾驶员分心驾驶行为判断的准确率。将每个视频帧对应的所述骨骼姿态特征与所述视觉特征进行拼接融合，能够得到每个视频帧的融合信息，进而确定驾驶员每个时刻的动作姿态，对于帧级别的驾驶图像数据进行检测，能够进一步提升分心驾驶行为识别的精确度。

步骤160、将所述融合特征输入至预先经过训练的时域卷积网络模型，经由所述时域卷积网络模型输出与所述驾驶图像数据对应的至少一个驾驶行为。

时域卷积网络（Temporal Convolutional Network，TCN）由具有相同输入和输出长度的扩展(dilated)/因果(causal)一维卷积层组成，是一种可以用来解决时间序列预测的算法。经过训练的时域卷积网络模型能够准确识别驾驶员的驾驶行为，当驾驶图像数据中包括多个驾驶行为时，通过时域卷积网络模型可以输出每个驾驶行为以及每个驾驶行为对应的开始时间和结束时间，以对驾驶行为进行精确的检测和识别。

基于上述步骤110至步骤160，获取驾驶图像数据并输入至人体关键点检测模型，以得到驾驶图像数据中每个视频帧的关键点热图和向量图，准确识别驾驶员的骨骼关键点，基于所述关键点热图和所述向量图计算得到骨骼姿态特征，得到最符合当前驾驶员姿态的骨骼姿态特征。再将驾驶图像数据输入至视觉检测模型，以得到驾驶图像数据中每个视频帧的视觉特征，通过视觉特征捕捉更加细微和全面的分心驾驶行为信息。将骨骼姿态特征和视觉特征进行融合后输入至时域卷积网络模型检测得到的驾驶行为更为精确，时域卷积网络模型输出至少一个驾驶行为。通过时域卷积网络模型能够输出驾驶图像数据中包含的全部驾驶行为，实现对于分心驾驶行为的准确识别，辅助提升驾驶员的驾驶安全性。

在一些实施例中，所述人体关键点检测模型为ResNet-50网络模型；所述步骤120包括：通过ResNet-50模型的两个逆卷积层分别输出所述关键点热图和所述向量图。

ResNet-50 网络中包含了 49 个卷积层和一个全连接层。将驾驶图像数据输入至ResNet-50 网络模型中，ResNet-50 网络模型对驾驶图像数据进行深度特征提取，通过一个逆卷积层输出关键点热图，通过另一个逆卷积层输出向量图。

在一些实施例中，所述基于所述关键点热图和所述向量图计算得到骨骼姿态特征，包括：

基于所述关键点热图和所述向量图采用openpose算法计算得到骨骼关键点连接结果；基于所述骨骼关键点连接结果采用最小生成树算法得到所述骨骼姿态特征。

具体的，openpose算法是一种自底向上的算法，可以实现人体动作、面部表情、手指运动等姿态估计。OpenPose 首先检测出图像中所有人的关节（关键点），然后将检出的关键点分配给每个对应的人。通过OpenPose算法计算关键点置信度、预测关键点亲和度、统计关键点匹配亲和度，最终计算得到关键点连接结果。通过最小生成树算法能够优化关键点连接结果，以得到最佳的骨骼姿态特征。

在一些实施例中，所述人体关键点检测模型的训练方法，包括以下步骤：

步骤210、获取原始驾驶图像样本。原始驾驶图像样本是通过采集不同驾驶员在不同驾驶时间、不同驾驶状态下的图像数据。将摄像设备安装在汽车座舱仪表盘上方对驾驶员进行驾驶视频的拍摄，用于对模型进行训练和测试。

步骤220、对所述原始驾驶图像样本中的每个视频帧的人体关键点进行标注。对采集得到的驾驶图像样本进行关键点的标注，对于每一视频帧，对所有人体的关键点进行标注，人体的关键点包括双眼、鼻子、嘴角、肩膀、左右手、左右手肘等。

步骤230、基于经过标注的原始驾驶图像样本构建第一训练集，通过所述第一训练集对所述人体关键点检测模型进行训练。将经过关键点标注的原始驾驶图像样本划分为第一训练集和第一测试集，通过第一训练集对人体关键点检测模型进行训练，通过第一测试集对人体关键点检测模型进行测试，如果达到预设的测试标准，则停止对人体关键点检测模型的训练，如果未达到预设的测试标准，对人体关键点检测模型继续执行迭代训练，直至达到预设的测试标准为止。

在一些实施例中，所述视觉检测模型的训练方法，包括以下步骤：

步骤310、获取原始驾驶图像样本。原始驾驶图像样本是通过采集不同驾驶员在不同驾驶时间、不同驾驶状态下的图像数据。将摄像设备安装在汽车座舱仪表盘上方对驾驶员进行驾驶视频的拍摄，用于对模型进行训练和测试。

步骤320、对所述原始驾驶图像样本中的每个视频帧的驾驶行为的名称、驾驶行为的开始时间和结束时间进行标注。示例性的，驾驶行为的名称可以为低头、侧身转头、单手驾驶等等，驾驶行为的开始时间可以为第3个视频帧，结束时间可以为第10个视频帧。对原始驾驶图像样本中的每一视频帧均进行上述标注。

步骤330、基于经过标注的原始驾驶图像样本构建第二训练集，通过所述第二训练集对所述视觉检测模型进行训练。将经过驾驶行为标注的原始驾驶图像样本划分为第二训练集和第二测试集，通过第二训练集对视觉检测模型进行训练，通过第二测试集对视觉检测模型进行测试，如果达到预设的测试标准，则停止对视觉检测模型的训练，如果未达到预设的测试标准，对视觉检测模型继续执行迭代训练，直至达到预设的测试标准为止。通过经过训练的视觉检测模型，可以检测到驾驶员更微小的驾驶行为变化，包括面部特征的捕捉，有助于提升对于驾驶行为识别的全面性和精确性。

在一些实施例中，所述时域卷积网络模型的训练方法，包括以下步骤：

步骤410、获取原始驾驶图像样本。原始驾驶图像样本是通过采集不同驾驶员在不同驾驶时间、不同驾驶状态下的图像数据。将摄像设备安装在汽车座舱仪表盘上方对驾驶员进行驾驶视频的拍摄，用于对模型进行训练和测试。

步骤420、将原始驾驶图像样本输入至经过预先训练的人体关键点检测模型，经由所述人体关键点检测模型输出所述原始驾驶图像样本中每个视频帧的关键点热图和向量图。对于时域卷积网络模型的训练需要在完成对人体关键点检测模型和视觉检测模型训练的基础上才能完成，将原始驾驶图像样本输入至人体关键点检测模型得到关键点热图和向量图。

步骤430、基于所述关键点热图和所述向量图计算得到骨骼姿态特征。通过openpose算法和最小生成树算法计算得到骨骼姿态信息。

步骤440、将所述原始驾驶图像样本输入至预先经过训练的视觉检测模型，经由所述视觉检测模型输出所述原始驾驶图像样本中每个视频帧的视觉特征。视觉特征中包括驾驶行为的名称、驾驶行为的开始时间和结束时间的相关信息。

步骤450、分别将每个视频帧对应的所述骨骼姿态特征与所述视觉特征进行融合，构建融合特征训练集。将每个视频帧中的骨骼姿态特征与视觉特征进行拼接，得到融合特征，并构建融合特征训练集。

步骤460、基于所述融合特征训练集对所述时域卷积网络模型进行训练。将融合特征训练集划分为第三训练集和第三测试集，通过第三训练集对时域卷积网络模型进行训练，通过第三测试集对时域卷积网络模型进行测试，如果达到预设的测试标准，则停止对时域卷积网络模型的训练，如果未达到预设的测试标准，对时域卷积网络模型继续执行迭代训练，直至达到预设的测试标准为止。

本申请还提供了一种驾驶行为确定装置，包括：

获取模块510，被配置为获取驾驶图像数据；

第一检测模块520，被配置为将所述驾驶图像数据输入至预先经过训练的人体关键点检测模型，经由所述人体关键点检测模型输出所述驾驶图像数据中每个视频帧的关键点热图和向量图；

计算模块530，被配置为基于所述关键点热图和所述向量图计算得到骨骼姿态特征；

第二检测模块540，被配置为将所述驾驶图像数据输入至预先经过训练的视觉检测模型，经由所述视觉检测模型输出所述驾驶图像数据中每个视频帧的视觉特征；

融合模块550，被配置为分别将每个视频帧对应的所述骨骼姿态特征与所述视觉特征进行融合，得到融合特征；

输出模块560，被配置为将所述融合特征输入至预先经过训练的时域卷积网络模型，经由所述时域卷积网络模型输出与所述驾驶图像数据对应的至少一个驾驶行为。

在一些实施例中，所述人体关键点检测模型为ResNet-50网络模型；所述第二检测模块540还被配置为通过ResNet-50网络模型的两个逆卷积层分别输出所述关键点热图和所述向量图。

在一些实施例中，所述计算模块530还被配置为基于所述关键点热图和所述向量图采用openpose算法计算得到骨骼关键点连接结果；

基于所述骨骼关键点连接结果采用最小生成树算法得到所述骨骼姿态特征。

在一些实施例中，还包括训练模块570，所述训练模块570被配置为获取原始驾驶图像样本；对所述原始驾驶图像样本中的每个视频帧中的的人体关键点进行标注；基于经过标注的原始驾驶图像样本构建第一训练集，通过所述第一训练集对所述人体关键点检测模型进行训练。

在一些实施例中，所述训练模块570还被配置为获取原始驾驶图像样本；对所述原始驾驶图像样本中的每个视频帧中的的驾驶行为进行标注，包括标注驾驶行为的名称、驾驶行为的开始时间和结束时间；

基于经过标注的原始驾驶图像样本构建第二训练集，通过所述第二训练集对所述视觉检测模型进行训练。

在一些实施例中，所述训练模块570还被配置为获取原始驾驶图像样本；将原始驾驶图像样本输入至经过预先训练的人体关键点检测模型，经由所述人体关键点检测模型输出所述原始驾驶图像样本中每个视频帧的关键点热图和向量图；基于所述关键点热图和所述向量图计算得到骨骼姿态特征；将所述原始驾驶图像样本输入至预先经过训练的视觉检测模型，经由所述视觉检测模型输出所述原始驾驶图像样本中每个视频帧的视觉特征；分别将每个视频帧对应的所述骨骼姿态特征与所述视觉特征进行融合，构建融合特征训练集；基于所述融合特征训练集对所述时域卷积网络模型进行训练。

在一些实施例中，所述视觉检测模型为Resnet-I3D网络模型。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的驾驶行为确定方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图6为本发明实施例提供的一种电子设备的结构示意图。如图6所示，电子设备400包括一个或多个处理器401和存储器402。

处理器401可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备400中的其他组件以执行期望的功能。

存储器402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行所述程序指令，以实现上文所说明的本发明任意实施例的驾驶行为确定方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如初始外参、阈值等各种内容。

在一个示例中，电子设备400还可以包括：输入装置403和输出装置404，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。该输入装置403可以包括例如键盘、鼠标等等。该输出装置404可以向外部输出各种信息，包括预警提示信息、制动力度等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备400中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备400还可以包括任何其他适当的组件。

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的驾驶行为确定方法的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的驾驶行为确定方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，本发明所用术语仅为了描述特定实施例，而非限制本申请范围。如本发明说明书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

还需说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”等应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案。

Claims

1.一种驾驶行为确定方法，其特征在于，包括：

获取驾驶图像数据；

将所述驾驶图像数据输入至预先经过训练的人体关键点检测模型，所述人体关键点检测模型为ResNet-50网络模型，经由所述人体关键点检测模型输出所述驾驶图像数据中每个视频帧的关键点热图和向量图，包括：通过ResNet-50网络模型的两个逆卷积层分别输出所述关键点热图和所述向量图；

基于所述关键点热图和所述向量图计算得到骨骼姿态特征，包括：基于所述关键点热图和所述向量图采用openpose算法计算得到骨骼关键点连接结果；基于所述骨骼关键点连接结果采用最小生成树算法得到所述骨骼姿态特征；

将所述驾驶图像数据输入至预先经过训练的视觉检测模型，经由所述视觉检测模型输出所述驾驶图像数据中每个视频帧的视觉特征，其中，所述视觉检测模型为Resnet-I3D网络模型，所述视觉特征中包括驾驶行为的名称、驾驶行为的开始时间和结束时间的相关信息；

2.根据权利要求1所述的方法，其特征在于，所述人体关键点检测模型的训练方法，包括：

获取原始驾驶图像样本；

对所述原始驾驶图像样本中的每个视频帧的人体关键点进行标注；

基于经过标注的原始驾驶图像样本构建第一训练集，通过所述第一训练集对所述人体关键点检测模型进行训练。

3.根据权利要求1所述的方法，其特征在于，所述视觉检测模型的训练方法，包括：

获取原始驾驶图像样本；

对所述原始驾驶图像样本中的每个视频帧的驾驶行为的名称、驾驶行为的开始时间和结束时间进行标注；

4.根据权利要求1所述的方法，其特征在于，所述时域卷积网络模型的训练方法，包括：

获取原始驾驶图像样本；

将所述原始驾驶图像样本输入至经过预先训练的人体关键点检测模型，经由所述人体关键点检测模型输出所述驾驶图像数据中每个视频帧的关键点热图和向量图；

基于所述关键点热图和所述向量图计算得到骨骼姿态特征；

将所述原始驾驶图像样本输入至预先经过训练的视觉检测模型，经由所述视觉检测模型输出所述原始驾驶图像样本中每个视频帧的视觉特征；

分别将每个视频帧对应的所述骨骼姿态特征与所述视觉特征进行融合，构建融合特征训练集；

基于所述融合特征训练集对所述时域卷积网络模型进行训练。

5.一种驾驶行为确定装置，其特征在于，包括：

获取模块，被配置为获取驾驶图像数据；

第一检测模块，被配置为将所述驾驶图像数据输入至预先经过训练的人体关键点检测模型，所述人体关键点检测模型为ResNet-50网络模型，经由所述人体关键点检测模型输出所述驾驶图像数据中每个视频帧的关键点热图和向量图，包括：通过ResNet-50网络模型的两个逆卷积层分别输出所述关键点热图和所述向量图；

计算模块，被配置为基于所述关键点热图和所述向量图计算得到骨骼姿态特征，包括：基于所述关键点热图和所述向量图采用openpose算法计算得到骨骼关键点连接结果；基于所述骨骼关键点连接结果采用最小生成树算法得到所述骨骼姿态特征；

第二检测模块，被配置为将所述驾驶图像数据输入至预先经过训练的视觉检测模型，经由所述视觉检测模型输出所述驾驶图像数据中每个视频帧的视觉特征，其中，所述视觉检测模型为Resnet-I3D网络模型，所述视觉特征中包括驾驶行为的名称、驾驶行为的开始时间和结束时间的相关信息；

6.一种电子设备，其特征在于，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至4任一项所述的驾驶行为确定方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至4任一项所述的驾驶行为确定方法的步骤。