CN113283286A

CN113283286A - 一种驾驶员异常行为检测方法和装置

Info

Publication number: CN113283286A
Application number: CN202110314655.6A
Authority: CN
Inventors: 钟虹
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-08-20
Anticipated expiration: 2041-03-24
Also published as: CN113283286B

Abstract

本申请实施例提供了一种驾驶员异常行为检测方法和装置，获取第一图像采集设备采集的第一时间段内的第一待检测监控视频和第二图像采集设备采集的第一时间段内的第二待检测监控视频；第一图像采集设备用于从目标驾驶员的前方采集目标驾驶员的图像；第二图像采集设备用于从目标驾驶员的上方采集目标驾驶员的图像；对第一待检测监控视频进行图像处理，得到表示第一待检测监控视频包含预设异常行为的概率的第一置信度，对第二待检测监控视频进行图像处理，得到表示第二待检测监控视频包含预设异常行为的概率的第二置信度；基于第一置信度和第二置信度，生成表示第一时间段内目标驾驶员是否存在预设异常行为的最终检测结果，能够提高检测的有效性。

Description

一种驾驶员异常行为检测方法和装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种驾驶员异常行为检测方法和装置。

背景技术

随着车辆的不断普及，对驾驶员的行为进行检测也越来越重要。例如，驾驶员在驾驶过程中打电话，会分散驾驶员的注意力，带来安全隐患。另外，驾驶员的手离开方向盘、驾驶员疲劳驾驶等行为，均有可能导致交通事故。

相关技术中，可以在驾驶员的前方设置图像采集设备，以采集驾驶员的图像，进而，可以基于采集到的图像进行分析，以检测驾驶员是否存在异常行为。

然而，从驾驶员前方采集的图像具有一定的局限性。例如，由于成像角度的限制，从驾驶员前方采集的图像中不包含方向盘，因此，基于采集到的图像，无法检测出驾驶员脱把驾驶、以及将手机放置于腿部或方向盘上玩手机的异常行为，导致检测的有效性较低。

发明内容

本申请实施例的目的在于提供一种驾驶员异常行为检测方法和装置，以提高异常行为检测的有效性。具体技术方案如下：

第一方面，为了达到上述目的，本申请实施例公开了一种驾驶员异常行为检测方法，所述方法包括：

获取第一图像采集设备采集的第一时间段内的第一待检测监控视频，以及第二图像采集设备采集的所述第一时间段内的第二待检测监控视频；其中，所述第一图像采集设备用于从目标驾驶员的前方采集所述目标驾驶员的图像；所述第二图像采集设备用于从所述目标驾驶员的上方采集所述目标驾驶员的图像；

对所述第一待检测监控视频进行图像处理，得到表示所述第一待检测监控视频包含预设异常行为的概率的第一置信度；

对所述第二待检测监控视频进行图像处理，得到表示所述第二待检测监控视频包含预设异常行为的概率的第二置信度；

基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果。

可选的，所述对所述第一待检测监控视频进行图像处理，得到表示所述第一待检测监控视频包含预设异常行为的概率的第一置信度，包括：

基于所述第一待检测监控视频和预先训练的第一检测网络模型，确定所述第一待检测监控视频包含预设异常行为的概率，作为第一置信度；其中，所述第一检测网络模型为基于从驾驶员的前方采集的第一样本监控视频进行训练得到的；所述第一样本监控视频具有表示包含预设异常行为的概率的标签；

所述对所述第二待检测监控视频进行图像处理，得到表示所述第二待检测监控视频包含预设异常行为的概率的第二置信度，包括：

基于所述第二待检测监控视频和预先训练的第二检测网络模型，确定所述第二待检测监控视频包含预设异常行为的概率，作为第二置信度；其中，所述第二检测网络模型为基于从驾驶员的上方采集的第二样本监控视频进行训练得到的，所述第二样本监控视频具有表示包含预设异常行为的概率的标签。

可选的，所述第一检测网络模型包括：第一轻量化网络、第一特征融合网络和第一全连接层；

所述基于所述第一待检测监控视频和预先训练的第一检测网络模型，确定所述第一待检测监控视频包含预设异常行为的概率，作为第一置信度，包括：

在实时获取所述第一待检测监控视频中的每一待检测监控视频帧后，通过所述第一轻量化网络对该待检测监控视频帧进行特征提取，得到该待检测监控视频帧的图像特征；

通过所述第一特征融合网络，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征；

将所述第一融合图像特征输入至所述第一全连接层，得到表示所述第一待检测监控视频包含预设异常行为的概率，作为第一置信度；

所述第二检测网络模型包括：第二轻量化网络、第二特征融合网络和第二全连接层；

所述基于所述第二待检测监控视频和预先训练的第二检测网络模型，确定所述第二待检测监控视频包含预设异常行为的概率，作为第二置信度，包括：

在实时获取所述第二待检测监控视频中的每一待检测监控视频帧后，通过所述第二轻量化网络对该待检测监控视频帧进行特征提取，得到该待检测监控视频帧的图像特征；

通过所述第二特征融合网络，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征；

将所述第二融合图像特征输入至所述第二全连接层，得到表示所述第二待检测监控视频包含预设异常行为的概率，作为第二置信度。

可选的，所述第一特征融合网络包括第一卷积层；

所述通过所述第一特征融合网络，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征，包括：

将所述第一卷积层的卷积核的元素，确定为所述第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

按照各自的权重，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征；

所述第二特征融合网络包括第二卷积层；

所述通过所述第二特征融合网络，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征，包括：

将所述第二卷积层的卷积核的元素，确定为所述第二待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

按照各自的权重，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征。

可选的，所述第一特征融合网络包括第一SENet(Squeeze-and-ExcitationNetworks，压缩和激活网络)；

所述通过所述第一特征融合网络，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征，包括；

分别将所述第一待检测监控视频包含的各待检测监控视频帧的图像特征，输入至所述第一SENet，得到所述第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

所述第二特征融合网络包括第二SENet；

所述通过所述第二特征融合网络，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征，包括；

分别将所述第二待检测监控视频包含的各待检测监控视频帧的图像特征，输入至所述第二SENet，得到所述第二待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

可选的，所述第一特征融合网络包括第一ECA-Net(Efficient ChannelAttention for Deep Convolutional Neural Networks，有效通道注意力-深度卷积神经网络)；

将所述第一待检测监控视频包含的各待检测监控图像帧的图像特征，分别输入至所述第一ECA-Net，得到所述第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

所述第二特征融合网络包括第二ECA-Net；

将所述第二待检测监控视频包含的各待检测监控图像帧的图像特征，分别输入至所述第二ECA-Net，得到所述第二待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

可选的，所述按照各自的权重，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征，包括：

按照各自的权重，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行池化处理，得到第一融合图像特征；

或者，

按照各自的权重，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行拼接处理，得到第一融合图像特征。

可选的，所述按照各自的权重，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征，包括：

按照各自的权重，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行池化处理，得到第二融合图像特征；

或者，

按照各自的权重，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行拼接处理，得到第二融合图像特征。

可选的，所述基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果，包括：

基于所述第一置信度、所述第二置信度和预设计算公式，计算表示所述第一时间段内所述目标驾驶员存在预设异常行为的概率，作为目标概率；

基于目标概率和预设阈值，确定表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果。

将所述第一置信度和所述第二置信度，输入至预先训练的第一策略自动化网络模型，得到表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果；

其中，所述第一策略自动化网络模型为基于第二时间段内，从驾驶员的前方采集的第三样本监控视频和上方采集的第四样本监控视频进行训练得到的；所述第三样本监控视频和所述第四样本监控视频具有：表示包含预设异常行为的概率的标签，以及表示所述第二时间段内驾驶员存在预设异常行为的概率的标签。

可选的，在基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果之前，所述方法还包括：

在实时获取所述第一待检测监控视频和所述第二待检测监控视频包含的每一待检测监控视频帧后，基于对该待检测监控视频帧进行目标检测，确定该待检测监控视频帧中置信度大于预设置信度的目标图像区域，其中，一个目标图像区域的置信度表示该目标图像区域包含预设对象的概率；

所述基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果，包括：

将所述第一置信度、所述第二置信度、所述第一待检测监控视频和所述第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度，输入至预先训练的第二策略自动化网络模型，得到表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果；

其中，所述第二策略自动化网络模型为基于第三时间段内，从驾驶员的前方采集的第五样本监控视频和上方采集的第六样本监控视频进行训练得到的；所述第五样本监控视频和所述第六样本监控视频具有：表示包含预设异常行为的概率的标签、表示所述第三时间段内驾驶员存在预设异常行为的概率的标签，以及表示包含的各样本监控视频帧中包含预设对象的概率的标签。

获取所述第一待检测监控视频和所述第二待检测监控视频包含的，各待检测监控视频帧中目标图像区域的位置信息；

所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果，包括：

将所述第一置信度、所述第二置信度、所述第一待检测监控视频和所述第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度和位置信息，输入至预先训练的第三策略自动化网络模型，得到表示所述第一时间段内，所述目标驾驶员是否存在所述预设异常行为的最终检测结果；

其中，所述第三策略自动化网络模型为基于第四时间段内，从驾驶员的前方采集的第七样本监控视频和上方采集的第八样本监控视频进行训练得到的；所述第七样本监控视频和所述第八样本监控视频具有：表示包含预设异常行为的概率的标签、表示所述第四时间段内驾驶员存在预设异常行为的概率的标签、表示包含的各样本监控视频帧中包含预设对象的概率的标签，以及包含的各样本监控视频帧中包含预设对象的图像区域的位置信息。

第二方面，为了达到上述目的，本申请实施例公开了一种驾驶员异常行为检测装置，所述装置包括：

待检测监控视频获取模块，用于获取第一图像采集设备采集的第一时间段内的第一待检测监控视频，以及第二图像采集设备采集的所述第一时间段内的第二待检测监控视频；其中，所述第一图像采集设备用于从目标驾驶员的前方采集所述目标驾驶员的图像；所述第二图像采集设备用于从所述目标驾驶员的上方采集所述目标驾驶员的图像；

第一图像处理模块，用于对所述第一待检测监控视频进行图像处理，得到表示所述第一待检测监控视频包含预设异常行为的概率的第一置信度；

第二图像处理模块，用于对所述第二待检测监控视频进行图像处理，得到表示所述第二待检测监控视频包含预设异常行为的概率的第二置信度；

异常行为检测模块，用于基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果。

可选的，所述第一图像处理模块，具体用于基于所述第一待检测监控视频和预先训练的第一检测网络模型，确定所述第一待检测监控视频包含预设异常行为的概率，作为第一置信度；其中，所述第一检测网络模型为基于从驾驶员的前方采集的第一样本监控视频进行训练得到的；所述第一样本监控视频具有表示包含预设异常行为的概率的标签；

所述第二图像处理模块，具体用于基于所述第二待检测监控视频和预先训练的第二检测网络模型，确定所述第二待检测监控视频包含预设异常行为的概率，作为第二置信度；其中，所述第二检测网络模型为基于从驾驶员的上方采集的第二样本监控视频进行训练得到的，所述第二样本监控视频具有表示包含预设异常行为的概率的标签。

所述第一图像处理模块，包括：

第一特征提取子模块，用于在实时获取所述第一待检测监控视频中的每一待检测监控视频帧后，通过所述第一轻量化网络对该待检测监控视频帧进行特征提取，得到该待检测监控视频帧的图像特征；

第一特征融合子模块，用于通过所述第一特征融合网络，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征；

第一概率预测子模块，用于将所述第一融合图像特征输入至所述第一全连接层，得到表示所述第一待检测监控视频包含预设异常行为的概率，作为第一置信度；

所述第二图像处理模块，包括：

第二特征提取子模块，用于在实时获取所述第二待检测监控视频中的每一待检测监控视频帧后，通过所述第二轻量化网络对该待检测监控视频帧进行特征提取，得到该待检测监控视频帧的图像特征；

第二特征融合子模块，用于通过所述第二特征融合网络，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征；

第二概率预测子模块，用于将所述第二融合图像特征输入至所述第二全连接层，得到表示所述第二待检测监控视频包含预设异常行为的概率，作为第二置信度。

可选的，所述第一特征融合网络包括第一卷积层；

所述第一特征融合子模块，包括：

第一权重确定单元，用于将所述第一卷积层的卷积核的元素，确定为所述第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

第一特征融合单元，用于按照各自的权重，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征；

所述第二特征融合网络包括第二卷积层；

所述第二特征融合子模块，包括：

第二权重确定单元，用于将所述第二卷积层的卷积核的元素，确定为所述第二待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

第二特征融合单元，用于按照各自的权重，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征。

可选的，所述第一特征融合网络包括第一压缩和激活网络SENet；

所述第一特征融合子模块，包括；

第三权重确定单元，用于分别将所述第一待检测监控视频包含的各待检测监控视频帧的图像特征，输入至所述第一SENet，得到所述第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

所述第二特征融合网络包括第二SENet；

所述第二特征融合子模块，包括；

第四权重确定单元，用于分别将所述第二待检测监控视频包含的各待检测监控视频帧的图像特征，输入至所述第二SENet，得到所述第二待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

可选的，所述第一特征融合网络包括第一有效通道注意力-深度卷积神经网络ECA-Net；

所述第一特征融合子模块，包括；

第五权重确定单元，用于将所述第一待检测监控视频包含的各待检测监控图像帧的图像特征，分别输入至所述第一ECA-Net，得到所述第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

所述第二特征融合网络包括第二ECA-Net；

所述第二特征融合子模块，包括；

第六权重确定单元，用于将所述第二待检测监控视频包含的各待检测监控图像帧的图像特征，分别输入至所述第二ECA-Net，得到所述第二待检测监控视频包含的各待检测监控视频帧的图像特征的权重；

可选的，所述第一特征融合单元，具体用于按照各自的权重，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行池化处理，得到第一融合图像特征；

或者，

可选的，所述第二特征融合单元，具体用于按照各自的权重，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行池化处理，得到第二融合图像特征；

或者，

可选的，所述异常行为检测模块，包括：

计算子模块，用于基于所述第一置信度、所述第二置信度和预设计算公式，计算表示所述第一时间段内所述目标驾驶员存在预设异常行为的概率，作为目标概率；

异常行为检测子模块，用于基于目标概率和预设阈值，确定表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果。

可选的，所述异常行为检测模块，具体用于将所述第一置信度和所述第二置信度，输入至预先训练的第一策略自动化网络模型，得到表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果；

可选的，所述装置还包括：

目标检测模块，用于在基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果之前，在实时获取所述第一待检测监控视频和所述第二待检测监控视频包含的每一待检测监控视频帧后，基于对该待检测监控视频帧进行目标检测，确定该待检测监控视频帧中置信度大于预设置信度的目标图像区域，其中，一个目标图像区域的置信度表示该目标图像区域包含预设对象的概率；

所述异常行为检测模块，具体用于将所述第一置信度、所述第二置信度、所述第一待检测监控视频和所述第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度，输入至预先训练的第二策略自动化网络模型，得到表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果；

可选的，所述装置还包括：

位置信息获取模块，用于获取所述第一待检测监控视频和所述第二待检测监控视频包含的，各待检测监控视频帧中目标图像区域的位置信息；

所述异常行为检测模块，具体用于将所述第一置信度、所述第二置信度、所述第一待检测监控视频和所述第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度和位置信息，输入至预先训练的第三策略自动化网络模型，得到表示所述第一时间段内，所述目标驾驶员是否存在所述预设异常行为的最终检测结果；

在本申请实施的另一方面，为了达到上述目的，本申请实施例还公开了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上述第一方面所述的驾驶员异常行为检测方法。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，实现如上述第一方面所述的驾驶员异常行为检测方法。

在本申请实施的又一方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的驾驶员异常行为检测方法。

本申请实施例提供了一种驾驶员异常行为检测方法，获取第一图像采集设备采集的第一时间段内的第一待检测监控视频，以及第二图像采集设备采集的第一时间段内的第二待检测监控视频；其中，第一图像采集设备用于从目标驾驶员的前方采集目标驾驶员的图像；第二图像采集设备用于从目标驾驶员的上方采集目标驾驶员的图像；对第一待检测监控视频进行图像处理，得到表示第一待检测监控视频包含预设异常行为的概率的第一置信度，以及对第二待检测监控视频进行图像处理，得到表示第二待检测监控视频包含预设异常行为的概率的第二置信度；基于第一置信度和第二置信度，生成表示第一时间段内，目标驾驶员是否存在预设异常行为的最终检测结果。

基于上述处理，结合了从驾驶员的前方采集的图像和从驾驶员的上方采集的图像进行异常行为检测，从驾驶员的前方采集的图像中无法获取的图像信息，例如，方向盘和驾驶员的腿部的图像信息，均可以在从驾驶员的上方采集的图像中获取，进而，基于本申请实施例的方法，也就能够检测出驾驶员脱把驾驶、以及将手机放置于腿部或方向盘上玩手机的异常行为，能够提高检测的有效性。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种驾驶员异常行为检测方法的流程图；

图2为本申请实施例提供的另一种驾驶员异常行为检测方法的流程图；

图3为本申请实施例提供的另一种驾驶员异常行为检测方法的流程图；

图4为本申请实施例提供的一种检测网络模型的结构图；

图5为本申请实施例提供的一种基于SENet进行特征融合的示意图；

图6为本申请实施例提供的一种基于ECA-Net进行特征融合的示意图；

图7为本申请实施例提供的一种驾驶员异常行为检测装置的结构图；

图8为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

从驾驶员前方采集的图像具有一定的局限性，相关技术中，仅仅基于从驾驶员前方采集到的图像，无法检测出驾驶员脱把驾驶、以及将手机放置于腿部或方向盘上玩手机的异常行为，导致检测的有效性较低。

为了解决上述问题，本申请实施例提供了一种驾驶员异常行为检测方法，参见图1，该方法可以包括以下步骤：

S101：获取第一图像采集设备采集的第一时间段内的第一待检测监控视频，以及第二图像采集设备采集的第一时间段内的第二待检测监控视频。

其中，第一图像采集设备用于从目标驾驶员的前方采集目标驾驶员的图像；第二图像采集设备用于从目标驾驶员的上方采集目标驾驶员的图像。

S102：对第一待检测监控视频进行图像处理，得到表示第一待检测监控视频包含预设异常行为的概率的第一置信度。

S103，对第二待检测监控视频进行图像处理，得到表示第二待检测监控视频包含预设异常行为的概率的第二置信度。

S104：基于第一置信度和第二置信度，生成表示第一时间段内，目标驾驶员是否存在预设异常行为的最终检测结果。

本申请实施例提供的驾驶员异常行为检测方法，结合了从驾驶员的前方采集的图像和从驾驶员的上方采集的图像进行异常行为检测，从驾驶员的前方采集的图像中无法获取的图像信息，例如，方向盘和驾驶员的腿部的图像信息，均可以在从驾驶员的上方采集的图像中获取，进而，基于本申请实施例的方法，也就能够检测出驾驶员脱把驾驶、以及将手机放置于腿部或方向盘上玩手机的异常行为，能够提高检测的有效性。

在一个实施例中，针对步骤S101，第一图像采集设备可以安装于车辆前方的中控台、仪表盘或者A柱等位置，进而，可以从目标驾驶员的前方采集图像。第二图像采集设备则可以安装于目标驾驶员头顶侧车厢，进而，可以从目标驾驶员的上方采集图像。

另外，第一图像采集设备和第二图像采集设备可以具有补光功能。例如，第一图像采集设备和第二图像采集设备可以包含红外补光灯。当检测到光照强度低于预设强度时，则可以打开红外补光灯，进而，能够提高采集到的图像的清晰度。

第一待检测监控视频和第二待检测监控视频，均可以包含多个视频帧。

第一时间段可以为当前时刻之前的历史时间段。

在一个实施例中，还可以基于车速确定第一时间段。例如，当车速大于预设车速时，可以获取第一图像采集设备和第二图像采集设备采集的监控视频，用于进行检测。预设车速可以为5千米/小时，或者，也可以为10千米/小时，但并不限于此。也就是说，可以在车速大于预设车速时，基于采集的监控视频对目标驾驶员的行为进行检测，确定是否存在异常行为。或者，也可以在车速持续大于预设车速的时长达到预设时长时，基于采集的监控视频对目标驾驶员的行为进行检测，确定是否存在异常行为。

在一个实施例中，也可以定时采集目标驾驶员的监控视频，进而，基于采集的监控视频对目标驾驶员的行为进行检测，确定是否存在异常行为。

针对步骤S102和S103，预设异常行为可以为一种行为，也可以为多种行为。如果预设异常行为为多种行为，则可以得到待检测监控视频包含每一预设异常行为的概率。例如，预设异常行为可以为开车时打电话、开车时吃东西或脱把驾驶等行为。针对步骤S102和S103的执行顺序，并不进行限定。

在一个实施例中，可以基于检测网络模型对第一待检测监控视频进行处理，得到第一置信度，也可以基于检测网络模型对第二待检测监控视频进行处理，得到第二置信度。

在一个实施例中，参见图2，上述步骤S102可以包括：

S1021：基于第一待检测监控视频和预先训练的第一检测网络模型，确定第一待检测监控视频包含预设异常行为的概率，作为第一置信度。

其中，第一检测网络模型为基于从驾驶员的前方采集的第一样本监控视频进行训练得到的。第一样本监控视频具有表示包含预设异常行为的概率的标签。

在本申请实施例中，可以获取从驾驶员的前方采集的样本监控视频(即第一样本监控视频)，进而，可以将第一样本监控视频包含的监控视频帧作为初始结构的第一检测网络模型的输入参数，将表示第一样本监控视频包含预设异常行为的概率的标签作为输出参数，对初始结构的第一检测网络模型的模型参数进行调整，直至收敛，得到训练好的第一检测网络模型。

例如，第一样本监控视频包含预设异常行为，则表示第一样本监控视频包含预设异常行为的概率的标签可以为1；第一样本监控视频不包含预设异常行为，则表示第一样本监控视频包含预设异常行为的概率的标签可以为0。

如果预设异常行为为多个，则针对每一预设异常行为，第一样本监控视频均具有对应的，表示包含该预设异常行为的概率的标签。

进而，则可以将第一待检测监控视频包含的各待检测监控视频帧输入至训练好的第一检测网络模型，第一检测网络模型可以输出第一待检测监控视频包含预设异常行为的概率(即第一置信度)。

相应的，如果预设异常行为为多个，则针对每一预设异常行为，第一检测网络模型可以输出第一待检测监控视频包含该预设异常行为的概率。

上述步骤S103可以包括：

S1031：基于第二待检测监控视频和预先训练的第二检测网络模型，确定第二待检测监控视频包含预设异常行为的概率，作为第二置信度。

其中，第二检测网络模型为基于从驾驶员的上方采集的第二样本监控视频进行训练得到的。第二样本监控视频具有表示包含预设异常行为的概率的标签。

在本申请实施例中，第二待检测网络模型与第一待检测网络模型的模型结构可以相同，也可以不同。

对第二待检测网络模型进行训练的过程，与对第一待检测网络模型进行训练的过程类似，可以参考上述实施例中的相关介绍。

在一个实施例中，为了提高对视频进行处理的速度，进而，提高异常行为的检测效率，第一检测网络模型可以包括：第一轻量化网络、第一特征融合网络和第一全连接层。

相应的，参见图3，S1021可以包括以下步骤：

S10211：在实时获取第一待检测监控视频中的每一待检测监控视频帧后，通过第一轻量化网络对该待检测监控视频帧进行特征提取，得到该待检测监控视频帧的图像特征。

S10212：通过第一特征融合网络，对第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征。

S10213：将第一融合图像特征输入至第一全连接层，得到表示第一待检测监控视频包含预设异常行为的概率，作为第一置信度。

在本申请实施例中，第一轻量化网络可以为2D卷积网络，或者，也可以为MobileNet(移动网络)，但并不限于此。

在通过第一图像采集设备实时获取第一待检测监控视频中的每一待检测监控视频帧后，可以通过第一轻量化网络对该待检测监控视频帧进行特征提取，得到该待检测监控视频帧的图像特征。然后，可以将该待检测监控视频帧的图像特征存储在内存中，得到的图像特征也可以称为特征图。

后续，当对第一待检测监控视频中的最后一个待检测监控视频帧进行特征提取，得到图像特征后，可以从内存中获取第一待检测监控视频包含的其他待检测监控视频帧的图像特征，并进行特征融合。

基于上述处理，可以实时对获取的每一待检测监控视频帧进行特征提取，并进行缓存，而不是在接收到所有待检测监控视频帧后，再进行特征提取，能够提高获取图像特征的效率，进而，提高异常行为检测的效率。

另外，在对每一待检测监控视频帧进行特征提取之前，还可以对该待检测监控视频帧进行目标检测，确定出该待检测监控视频中包含预设对象的图像区域(可以称为前景区域)，进而，可以只对前景区域进行特征提取，以提高提取到的图像特征的有效性，以及提高特征提取的效率。其中，预设对象可以包括人脸、手机和食物等。

例如，当需要检测开车玩手机的异常行为时，则预设对象可以包括人脸、人手和手机；当需要检测开车吃东西的异常行为时，则预设对象可以包括人脸和食物；当需要检测脱把驾驶的异常行为时，则预设对象可以包括人手和方向盘；当需要检测疲劳驾驶的异常行为时，则预设对象可以包括人脸。

在一个实施例中，第二检测网络模型可以包括：第二轻量化网络、第二特征融合网络和第二全连接层，相应的，S1031可以包括以下步骤：

S10311：在实时获取第二待检测监控视频中的每一待检测监控视频帧后，通过第二轻量化网络对该待检测监控视频帧进行特征提取，得到该待检测监控视频帧的图像特征。

S10312：通过第二特征融合网络，对第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征。

S10313：将第二融合图像特征输入至第二全连接层，得到表示第二待检测监控视频包含预设异常行为的概率，作为第二置信度。

在本申请实施例中，步骤S10311-S10313，与上述步骤S10211-S10213类似，可以参考上述实施例中的相关介绍。

参见图4，图4为本申请实施例提供的一种检测网络模型的结构图。图3所示实施例中的第一检测网络模型和第二检测网络模型可以相同，具体的，如图 4所示，可以包括轻量化网络401、特征融合网络402和全连接层403。

在实时获取待检测监控视频(第一待检测监控视频或第二待检测监控视频) 中的每一待检测监控视频帧后，通过轻量化网络401对该待检测监控视频帧进行特征提取，得到该待检测监控视频帧的图像特征，并存储至内存。

在得到待检测监控视频中最后一个待检测监控视频帧的图像特征后，可以从内存中获取各待检测监控视频帧的图像特征。通过特征融合网络402，对各待检测监控视频帧的图像特征进行特征融合，得到融合图像特征。

将融合图像特征输入至全连接层403，得到待检测监控视频包含预设异常行为的概率。可以理解的是，如果预设异常行为为多个，则全连接层403可以输出待检测监控视频包含每一预设异常行为的概率。

图3所示实施例中，第一检测网络模型中的第一特征融合网络至少有如下三种方式实现：

方式一：基于特征融合网络中卷积层的卷积核的元素，进行特征融合。

在一个实施例中，第一特征融合网络可以包括卷积层(即第一卷积层)，相应的，步骤S10212可以包括以下步骤：

将第一卷积层的卷积核的元素，确定为第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重；按照各自的权重，对第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征。

在本申请实施例中，第一卷积层的卷积核的大小可以为N×1，N的数值可以是预先设置的，N可以表示第一待检测监控视频包括的待检测监控视频帧的数目。相应的，在第一检测网络模型完成训练后，可以获取第一卷积层的卷积核的元素，分别作为第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重，用于进行特征融合。例如：卷积核的大小可以为5×1，卷积核的元素为[0.2、0.3、0.1、0.3、0.1]，那么第一待检测监控视频包括的5帧待检测监控视频帧的图像特征的权重分别是0.2、0.3、0.1、0.3、0.1。

方式二：基于特征融合网络中SENet，进行特征融合。

在一个实施例中，第一特征融合网络可以包括SENet(即第一SENet)，相应的，步骤S10212可以包括以下步骤：

分别将第一待检测监控视频包含的各待检测监控视频帧的图像特征，输入至第一SENet，得到第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重；按照各自的权重，对第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征。

参见图5，图5为本申请实施例提供的一种基于SENet进行特征融合的示意图。

X表示待检测监控视频帧，大小为W’×H’×C’，W’表示待检测监控视频帧的宽度，H’表示待检测监控视频帧的高度，C’表示待检测监控视频帧的通道的数目，例如，待检测监控视频帧为RGB图像，则通道的数目为3；Ftr表示进行卷积处理；U表示卷积处理得到的图像特征(可以称为特征图)，大小为W× H×C，W表示特征图的宽度，H表示特征图的高度，C表示特征图的通道的数目。

然后，可以对特征图进行全局平均池化处理。具体的，全局平均池化处理可以参考公式(1)。

Fs_q(μ)表示对特征图进行全局平均池化处理的处理结果，μ(i，j)表示特征图中坐标为(i，j)的特征值。

然后，可以将F_sq(μ)输入至全连接层(可以称为第三全连接层)，并将第三全连接层的输出结果输入激活函数层(可以称为第一激活函数层)，进而，将第一激活函数层的输出结果输入至全连接层(可以称为第四全连接层)，并将第四全连接层的输出结果输入至激活函数层(可以称为第二激活函数层)，得到F_ex，作为该待检测监控视频帧的图像特征的权重。其中，第一激活函数层可以为ReLU层，第二激活函数层可以sigmoid函数层。

具体的，可以基于公式(2)和F_sq(μ)计算每一帧待检测监控视频帧的图像特征的权重。

F_ex＝σ(W₂δ(W₁F_sq(μ))) (2)

F_ex表示待检测监控视频帧的图像特征的权重，W₁表示第三全连接层的参数，W₂表示第四全连接层的参数，δ表示第一激活函数层、σ表示第二激活函数层。

然后，可以基于公式(3)计算加权后的图像特征。

表示加权后的图像特征，F_scale表示基于F_sa对U进行加权。

方式三：基于特征融合网络中ECA-Net，进行特征融合。

在一个实施例中，第一特征融合网络可以包括ECA-Net(即第一ECA-Net)，相应的，步骤S10212可以包括以下步骤：

将第一待检测监控视频包含的各待检测监控图像帧的图像特征，输入至第一ECA-Net，得到第一待检测监控视频包含的各待检测监控视频帧的图像特征的权重；按照各自的权重，对第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征。

参见图6，图6为本申请实施例提供的一种基于ECA-Net进行特征融合的示意图。

χ表示待检测监控视频帧的图像特征(即特征图)，大小为W×H×C，W表示特征图的宽度，H表示特征图的高度，C表示特征图的通道大小。可以基于上述公式(1)对特征图进行全局平均池化处理，得到F_sq(μ)。

然后，通过大小为K的1D卷积核对F_sq(μ)进行卷积处理，K的值可以由技术人员根据经验进行设置，例如，K可以为5，或者，也可以为6，但并不限于此。

然后，可以将卷积处理结果输入激活函数层(可以称为第三激活函数层)，得到ω，作为该待检测监控视频帧的图像特征的权重。其中，第三激活函数层可以为sigmoid函数层。

具体的，基于公式(4)和F_sq(μ)计算每一帧待检测监控视频帧的图像特征的权重。

ω＝σ(W₃F_sq(μ)) (4)

ω表示该待检测监控视频帧的图像特征的权重，W₃表示1D卷积层的元素，卷积核的大小可以为K×1，σ表示第三激活函数层。

然后，可以基于确定出的权重，计算加权后的图像特征

与第一检测网络模型中的第一特征融合网络相同，第二检测网络模型中的第二特征融合网络也有三种实现方式：

在一个实施例中，第二特征融合网络可以包括第二卷积层，相应的，步骤 S10312可以包括以下步骤：将第二卷积层的卷积核的元素，确定为第二待检测监控视频包含的各待检测监控视频帧的图像特征的权重；按照各自的权重，对第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征。

本步骤可以参考上述实施例中第一特征融合网络包括第一卷积层时的相关介绍。

方式二：基于特征融合网络中SENet，进行特征融合。

在一个实施例中，第二特征融合网络可以包括第二SENet，相应的，步骤 S10312可以包括以下步骤：分别将第二待检测监控视频包含的各待检测监控视频帧的图像特征，输入至第二SENet，得到第二待检测监控视频包含的各待检测监控视频帧的图像特征的权重；按照各自的权重，对第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征。

本步骤可以参考上述实施例中第一特征融合网络包括第一SENet时的相关介绍。

方式三：基于特征融合网络中ECA-Net，进行特征融合。

在一个实施例中，第二特征融合网络可以包括第二ECA-Net，相应的，步骤S10312可以包括以下步骤：将第二待检测监控视频包含的各待检测监控图像帧的图像特征，分别输入至第二ECA-Net，得到第二待检测监控视频包含的各待检测监控视频帧的图像特征的权重；按照各自的权重，对第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征。

本步骤可以参考上述实施例中第一特征融合网络包括第一ECA-Net时的相关介绍。

在一个实施例中，可以采取不同的方式，对第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合。

方式一：按照各自的权重，对第一待检测监控视频包含的各待检测监控视频帧的图像特征进行池化处理，得到第一融合图像特征。

在本申请实施例中，可以按照各自的权重，对各待检测监控视频帧的图像特征进行池化(pooling)处理，实现特征融合。例如，可以基于双线性池化 (Bilinear Pooling)，按照各自的权重，计算各待检测监控视频帧的图像特征的向量外积，得到第一融合图像特征。

方式二：按照各自的权重，对第一待检测监控视频包含的各待检测监控视频帧的图像特征进行拼接处理，得到第一融合图像特征。

例如，也可以按照各自的权重，对各待检测监控视频帧的图像特征进行拼接(concat)，实现特征融合。即，将各待检测监控视频帧的图像特征分别与各自的权重相乘，并将各乘积在维度上进行拼接。

在一个实施例中，也可以采取不同的方式，对第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合。

方式1：按照各自的权重，对第二待检测监控视频包含的各待检测监控视频帧的图像特征进行池化处理，得到第二融合图像特征。

方式2：按照各自的权重，对第二待检测监控视频包含的各待检测监控视频帧的图像特征进行拼接处理，得到第二融合图像特征。

方式1和方式2，可以分别参考上述实施例中方式一和方式二的相关介绍。

在一个实施例中，上述步骤S104可以包括以下步骤：

步骤一：基于第一置信度、第二置信度和预设计算公式，计算表示第一时间段内目标驾驶员存在预设异常行为的概率，作为目标概率。

步骤二：基于目标概率和预设阈值，确定表示第一时间段内，目标驾驶员是否存在预设异常行为的最终检测结果。

在本申请实施例中，可以基于预设权重，计算第一置信度和第二置信度的加权和，作为目标概率。

进而，当判定目标概率大于预设阈值时，则可以确定第一时间段内目标驾驶员存在预设异常行为；当判定目标概率不大于预设阈值时，则可以确定第一时间段内目标驾驶员不存在预设异常行为。

图3所示的实施例中，为了提高检测结果的精确度，可以基于网络模型对第一置信度和第二置信度进行处理，得到检测结果。一种实现方式中，基于策略自动化网络模型得到表示第一时间段内，目标驾驶员是否存在预设异常行为的最终检测结果，具体的，可以有三种实现方式：

方式一：基于第一置信度、第二置信度和第一策略自动化网络模型，得到检测结果。

上述步骤S104可以包括以下步骤：将第一置信度和第二置信度，输入至预先训练的第一策略自动化网络模型，得到表示第一时间段内，目标驾驶员是否存在预设异常行为的最终检测结果。

其中，第一策略自动化网络模型为基于第二时间段内，从驾驶员的前方采集的第三样本监控视频和上方采集的第四样本监控视频进行训练得到的。第三样本监控视频和第四样本监控视频具有：表示包含预设异常行为的概率的标签，以及表示第二时间段内驾驶员存在预设异常行为的概率的标签。

例如，第二时间段内驾驶员存在预设异常行为，则表示第二时间段内驾驶员存在预设异常行为的概率的标签可以为1；第二时间段内驾驶员不存在预设异常行为，则表示第二时间段内驾驶员存在预设异常行为的概率的标签可以为 0。

在本申请实施例中，第一策略自动化网络模型可以包含多个全连接层。

在一个实施例中，可以获取第二时间段内，从驾驶员的前方采集的样本监控视频(即第三样本监控视频)，以及上方采集的样本监控视频(即第四样本监控视频)。进而，可以将第三样本监控视频和第四样本监控视频包含预设异常行为的概率作为初始结构的第一策略自动化网络模型的输入参数，将表示第二时间段内驾驶员存在预设异常行为的概率的标签作为输出参数，对初始结构的第一策略自动化网络模型的模型参数进行调整，直至收敛，得到训练好的第一策略自动化网络模型。

进而，则可以将第一置信度和第二置信度输入至训练好的第一策略自动化网络模型，第一策略自动化网络模型可以输出表示第一时间段内，目标驾驶员存在预设异常行为的概率。

方式二：基于第一置信度、第二置信度、第一待检测监控视频和第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度，以及第二策略自动化网络模型，得到检测结果。

在步骤S104之前，该方法还可以包括以下步骤：

在实时获取第一待检测监控视频和第二待检测监控视频包含的每一待检测监控视频帧后，基于对该待检测监控视频帧进行目标检测，确定该待检测监控视频帧中置信度大于预设置信度的目标图像区域。

其中，一个目标图像区域的置信度表示该目标图像区域包含预设对象的概率。

相应的，步骤S104可以包括以下步骤：

将第一置信度、第二置信度、第一待检测监控视频和第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度，输入至预先训练的第二策略自动化网络模型，得到表示第一时间段内，目标驾驶员是否存在预设异常行为的最终检测结果。

其中，第二策略自动化网络模型为基于第三时间段内，从驾驶员的前方采集的第五样本监控视频和上方采集的第六样本监控视频进行训练得到的。第五样本监控视频和第六样本监控视频具有：表示包含预设异常行为的概率的标签、表示第三时间段内驾驶员存在预设异常行为的概率的标签，以及表示包含的各样本监控视频帧中包含预设对象的概率的标签。

例如，针对开车玩手机的异常行为，则预设对象可以包括人脸、人手和手机；重难点开车吃东西的异常行为，则预设对象可以包括人脸和食物；针对脱把驾驶的异常行为时，则预设对象可以包括人手和方向盘；针对疲劳驾驶的异常行为时，则预设对象可以包括人脸。

例如，样本监控视频帧中包含预设对象，则表示样本监控视频帧中包含预设对象的概率的标签可以为1；样本监控视频帧中不包含预设对象，则表示样本监控视频帧中包含预设对象的概率的标签可以为0。

在本申请实施例中，第二策略自动化网络模型可以包含多个全连接层。

在一个实施例中，可以获取第三时间段内，从驾驶员的前方采集的样本监控视频(即第五样本监控视频)，以及上方采集的样本监控视频(即第六样本监控视频)，进而，可以将第五样本监控视频和第六样本监控视频包含预设异常行为的概率，以及表示包含的各样本监控视频帧中包含预设对象的概率的标签作为初始结构的第二策略自动化网络模型的输入参数，将表示第三时间段内驾驶员存在预设异常行为的概率的标签作为输出参数，对初始结构的第二策略自动化网络模型的模型参数进行调整，直至收敛，得到训练好的第二策略自动化网络模型。

进而，则可以将第一置信度、第二置信度，以及第一待检测监控视频和第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度，输入至训练好的第二策略自动化网络模型，第二策略自动化网络模型可以输出表示第一时间段内，目标驾驶员存在预设异常行为的概率。

方式三：基于第一置信度、第二置信度、第一待检测监控视频和第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度和位置信息以及第三策略自动化网络模型，得到检测结果。

在步骤S104之前，该方法还可以包括以下步骤：

步骤一：在实时获取第一待检测监控视频和第二待检测监控视频包含的每一待检测监控视频帧后，基于对该待检测监控视频帧进行目标检测，确定该待检测监控视频帧中置信度大于预设置信度的目标图像区域。

步骤二：获取第一待检测监控视频和第二待检测监控视频包含的，各待检测监控视频帧中目标图像区域的位置信息。

相应的，步骤S104可以包括以下步骤：

将第一置信度、第二置信度、第一待检测监控视频和第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度和位置信息，输入至预先训练的第三策略自动化网络模型，得到表示第一时间段内，目标驾驶员是否存在预设异常行为的最终检测结果。

其中，第三策略自动化网络模型为基于第四时间段内，从驾驶员的前方采集的第七样本监控视频和上方采集的第八样本监控视频进行训练得到的。第七样本监控视频和所述第八样本监控视频具有：表示包含预设异常行为的概率的标签、表示第四时间段内驾驶员存在预设异常行为的概率的标签、表示包含的各样本监控视频帧中包含预设对象的概率的标签，以及包含的各样本监控视频帧中包含预设对象的图像区域的位置信息。

在本申请实施例中，第三策略自动化网络模型可以包含多个全连接层。

在一个实施例中，可以获取第四时间段内，从驾驶员的前方采集的样本监控视频(即第七样本监控视频)，以及上方采集的样本监控视频(即第八样本监控视频)，进而，可以将第七样本监控视频和第八样本监控视频包含预设异常行为的概率、表示包含的各样本监控视频帧中包含预设对象的概率的标签，以及包含的各样本监控视频帧中包含预设对象的图像区域的位置信息作为初始结构的第三策略自动化网络模型的输入参数，将表示第四时间段内驾驶员存在预设异常行为的概率的标签作为输出参数，对初始结构的第三策略自动化网络模型的模型参数进行调整，直至收敛，得到训练好的第三策略自动化网络模型。

进而，则可以将第一置信度、第二置信度，以第一待检测监控视频和第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度和位置信息，输入至训练好的第三策略自动化网络模型，第三策略自动化网络模型可以输出表示第一时间段内，目标驾驶员存在预设异常行为的概率。

在一个实施例中，在确定出表示第一时间段内，目标驾驶员存在预设异常行为的概率之后，则可以基于该概率和预设概率，确定第一时间段内，目标驾驶员是否存在预设异常行为。

例如，当判定该概率大于预设概率阈值时，则可以确定第一时间段内目标驾驶员存在预设异常行为；当判定该概率不大于预设概率阈值时，则可以确定第一时间段内目标驾驶员不存在预设异常行为。

在一个实施例中，如果基于最终检测结果，确定第一时间段内，目标驾驶员存在预设异常行为，则可以发送报警消息。

示例性地，当需要检测开车玩手机、脱把驾驶以及疲劳驾驶异常行为时，可以预先设置预设对象包括：人脸、烟、手机、人手和方向盘。对第一时间段内目标驾驶员的第一待检测监控视频和第二待检测监控视频进行目标检测，得到包含上述预设对象的目标图像区域的置信度和位置信息，并将第一待检测监控视频和第二待检测监控视频分别输入第一检测网络模型和第二检测网络模型，得到第一置信度和第二置信度。

其中，第一置信度包括：表示第一待检测监控视频包含开车玩手机的概率的置信度、表示第一待检测监控视频包含脱把驾驶的概率的置信度，以及表示第一待检测监控视频包含疲劳驾驶的概率的置信度；第二置信度包括：表示第二待检测监控视频包含开车玩手机的概率的置信度、表示第二待检测监控视频包含脱把驾驶的概率的置信度，以及表示第二待检测监控视频包含疲劳驾驶的概率的置信度。

然后，可以将第一置信度、第二置信度、第一待检测监控视频和第二待检测监控视频中包含上述预设对象的目标图像区域的置信度和位置信息，输入至策略自动化网络模型，得到最终检测结果。

最终检测结果包括：第一时间段内目标驾驶员存在开车玩手机行为的概率、第一时间段内目标驾驶员存在脱把驾驶行为的概率、第一时间段内目标驾驶员存在疲劳驾驶行为的概率。

进而，如果最终检测结果中存在大于预设概率阈值的概率，则可以发送报警消息。

基于相同的发明构思，本申请实施还提供了一种驾驶员异常行为检测装置，参见图7，图7为本申请实施例提供的一种驾驶员异常行为检测装置的结构图，该装置可以包括：

待检测监控视频获取模块701，用于获取第一图像采集设备采集的第一时间段内的第一待检测监控视频，以及第二图像采集设备采集的所述第一时间段内的第二待检测监控视频；其中，所述第一图像采集设备用于从目标驾驶员的前方采集所述目标驾驶员的图像；所述第二图像采集设备用于从所述目标驾驶员的上方采集所述目标驾驶员的图像；

第一图像处理模块702，用于对所述第一待检测监控视频进行图像处理，得到表示所述第一待检测监控视频包含预设异常行为的概率的第一置信度；

第二图像处理模块703，用于对所述第二待检测监控视频进行图像处理，得到表示所述第二待检测监控视频包含预设异常行为的概率的第二置信度；

异常行为检测模块704，用于基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果。

可选的，所述第一图像处理模块702，具体用于基于所述第一待检测监控视频和预先训练的第一检测网络模型，确定所述第一待检测监控视频包含预设异常行为的概率，作为第一置信度；其中，所述第一检测网络模型为基于从驾驶员的前方采集的第一样本监控视频进行训练得到的；所述第一样本监控视频具有表示包含预设异常行为的概率的标签；

所述第二图像处理模块703，具体用于基于所述第二待检测监控视频和预先训练的第二检测网络模型，确定所述第二待检测监控视频包含预设异常行为的概率，作为第二置信度；其中，所述第二检测网络模型为基于从驾驶员的上方采集的第二样本监控视频进行训练得到的，所述第二样本监控视频具有表示包含预设异常行为的概率的标签。

所述第一图像处理模块702，包括：

所述第二图像处理模块703，包括：

可选的，所述第一特征融合网络包括第一卷积层；

所述第一特征融合子模块，包括：

所述第二特征融合网络包括第二卷积层；

所述第二特征融合子模块，包括：

所述第一特征融合子模块，包括；

所述第二特征融合网络包括第二SENet；

所述第二特征融合子模块，包括；

所述第一特征融合子模块，包括；

所述第二特征融合网络包括第二ECA-Net；

所述第二特征融合子模块，包括；

或者，

可选的，所述异常行为检测模块704，包括：

可选的，所述异常行为检测模块704，具体用于将所述第一置信度和所述第二置信度，输入至预先训练的第一策略自动化网络模型，得到表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果；

可选的，所述装置还包括：

所述异常行为检测模块704，具体用于将所述第一置信度、所述第二置信度、所述第一待检测监控视频和所述第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度，输入至预先训练的第二策略自动化网络模型，得到表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果；

可选的，所述装置还包括：

所述异常行为检测模块704，具体用于将所述第一置信度、所述第二置信度、所述第一待检测监控视频和所述第二待检测监控视频包含的各待检测监控视频帧中目标图像区域的置信度和位置信息，输入至预先训练的第三策略自动化网络模型，得到表示所述第一时间段内，所述目标驾驶员是否存在所述预设异常行为的最终检测结果；

本申请实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本申请实施例提供的驾驶员异常行为检测方法。

具体的，上述驾驶员异常行为检测方法，包括：

需要说明的是，上述驾驶员异常行为检测方法的其他实现方式与前述方法实施例部分相同，这里不再赘述。

本申请实施例还提供了另一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请实施例提供的驾驶员异常行为检测方法。

具体的，上述驾驶员异常行为检测方法，包括：

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种驾驶员异常行为检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一待检测监控视频进行图像处理，得到表示所述第一待检测监控视频包含预设异常行为的概率的第一置信度，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一检测网络模型包括：第一轻量化网络、第一特征融合网络和第一全连接层；

4.根据权利要求3所述的方法，其特征在于，所述第一特征融合网络包括第一卷积层；

所述第二特征融合网络包括第二卷积层；

5.根据权利要求3所述的方法，其特征在于，所述第一特征融合网络包括第一压缩和激活网络SENet；

所述第二特征融合网络包括第二SENet；

6.根据权利要求3所述的方法，其特征在于，所述第一特征融合网络包括第一有效通道注意力-深度卷积神经网络ECA-Net；

所述第二特征融合网络包括第二ECA-Net；

7.根据权利要求4-6任一项所述的方法，其特征在于，所述按照各自的权重，对所述第一待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第一融合图像特征，包括：

或者，

8.根据权利要求4-6任一项所述的方法，其特征在于，所述按照各自的权重，对所述第二待检测监控视频包含的各待检测监控视频帧的图像特征进行特征融合，得到第二融合图像特征，包括：

或者，

9.根据权利要求1所述的方法，其特征在于，所述基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果，包括：

基于目标概率和预设阈值，确定表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果；

或者

10.根据权利要求1所述的方法，其特征在于，在基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果之前，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，在基于所述第一置信度和所述第二置信度，生成表示所述第一时间段内，所述目标驾驶员是否存在预设异常行为的最终检测结果之前，所述方法还包括：

12.一种驾驶员异常行为检测装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-11任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-11任一所述的方法步骤。