CN112163480B

CN112163480B - 一种行为识别方法及装置

Info

Publication number: CN112163480B
Application number: CN202010972882.3A
Authority: CN
Inventors: 王强; 杜恒晨; 雷振东; 栗家傲
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-09-13
Anticipated expiration: 2040-09-16
Also published as: CN112163480A

Abstract

本发明实施例提供了一种行为识别方法及装置，可以获取包含有目标对象的多个目标视频帧；针对每一目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息；基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息；基于多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定多个目标视频帧中目标对象的驾驶行为。基于上述处理，可以提高行为识别的准确度。

Description

一种行为识别方法及装置

技术领域

本发明涉及视频监控技术领域，特别是涉及一种行为识别方法及装置。

背景技术

随着汽车的普及，道路交通压力越来越大，交通事故频繁发生。驾驶员不规范的驾驶行为可能会导致交通事故。因此，需要对驾驶员的驾驶行为进行识别，确定不规范的驾驶行为，以减少交通事故的发生。例如，可以识别出驾驶员的驾驶行为是正常驾驶，或者驾驶员的驾驶行为是驾驶时打电话等。

现有技术中，对驾驶员的驾驶行为进行识别的方法可以包括以下步骤：获取包含驾驶员的多张二维图像，针对每一二维图像，基于预先训练的特征提取网络模型，对该二维图像进行特征提取，得到该二维图像的时间特征和该二维图像中驾驶员的各个关键点的二维坐标，并输入至预先训练的分类网络模型，分类网络模型可以输出该二维图像中驾驶员的驾驶行为是预设各驾驶行为的概率，然后，可以确定预设各驾驶行为中最大的概率对应的驾驶行为，作为该二维图像中驾驶员的驾驶行为。

然而，二维图像只能体现驾驶员的驾驶行为的时间特征，因此，仅仅利用二维图像进行行为识别，可能会导致行为识别的准确度较低。

发明内容

本发明实施例的目的在于提供一种行为识别方法及装置，以实现提高行为识别的准确度。具体技术方案如下：

第一方面，为了达到上述目的，本发明实施例提供了一种行为识别方法，所述方法包括：

获取包含有目标对象的多个目标视频帧；针对每一所述目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息；其中，一个对象的二维图像信息包含该对象的各个关键点在该目标视频帧中的二维坐标，以及该对象的各个关键点之间的连接关系；基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息；其中，一个对象的三维图像信息包含该对象的各个关键点在该目标视频帧中的三维坐标；所述深度信息表示该目标视频帧中各对象之间的位置关系；基于所述多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定所述多个目标视频帧中所述目标对象的驾驶行为。

可选的，所述获取包含有目标对象的多个目标视频帧，包括：基于预先训练的视频提取网络模型中的双流网络，对待处理视频进行采样，并对采样得到的采样视频帧进行特征提取，得到每一采样视频帧的特征向量；针对每一采样视频帧，将该采样视频帧的特征向量输入至所述视频提取网络模型中的第一卷积网络，得到该采样视频帧中所述目标对象的动作属于动作开始的第一概率，以及该采样视频帧中所述目标对象的动作属于动作结束的第二概率；从各个采样视频帧中确定第一采样视频帧；其中，所述第一采样视频帧的第一概率大于预设概率阈值；或者，所述第一采样视频帧的第一概率，大于所述第一采样视频帧的前一采样视频帧的第一概率，且所述第一采样视频帧的第一概率，大于所述第一采样视频帧的后一采样视频帧的第一概率；从各个采样视频帧中确定第二采样视频帧；其中，所述第二采样视频帧的第二概率大于所述预设概率阈值；或者，所述第二采样视频帧的第二概率，大于所述第二采样视频帧的前一采样视频帧的第二概率，且所述第二采样视频帧的第二概率，大于所述第二采样视频帧的后一采样视频帧的第二概率；针对每一所述第一采样视频帧，确定位于该第一采样视频帧之后的第二采样视频帧，作为该第一采样视频帧对应的第三采样视频帧；计算该第一采样视频帧与对应的每一所述第三采样视频帧之间时长，作为待处理时长；从该第一采样视频帧对应的第三采样视频帧中，确定所对应的待处理时长属于预设时长范围的第三采样视频帧，作为该第一采样视频帧对应的第四采样视频帧；确定该第一采样视频帧对应的备选视频，其中，该第一采样视频帧对应的一个备选视频包括：该第一采样视频帧、该第一采样视频帧对应的一个第四采样视频帧，以及该第一采样视频帧与该第四采样视频帧之间的视频帧；针对每一所述备选视频，对该备选视频进行特征提取，得到该备选视频的特征向量；将该备选视频的特征向量，输入至所述视频提取网络模型的多层感知器，得到该备选视频的置信度；确定各所述备选视频中置信度最大的备选视频包含的视频帧，作为目标视频帧。

可选的，所述二维坐标提取网络模型包括：第一卷积层、第二卷积网络和第三卷积网络；所述针对每一所述目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息，包括：针对每一所述目标视频帧，通过所述第一卷积层对该目标视频帧进行特征提取，得到该目标视频帧的特征图；将该目标视频帧的特征图输入至所述第二卷积网络，得到该目标视频帧对应的多个热图；其中，每一所述热图中包含该目标视频帧中各对象的一个关键点的二维坐标；将该目标视频帧的特征图输入至所述第三卷积网络，得到该目标视频帧对应的亲和场，其中，所述亲和场表示该目标视频帧中各对象各自的关键点之间的连接关系。

可选的，所述三维坐标提取网络模型包括：第一残差模块和第二残差模块；所述基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息，包括：对该目标视频帧中各对象的关键点的二维坐标进行归一化处理，得到归一化后的该目标视频帧中各对象的关键点的二维坐标；对归一化后的该目标视频帧中各对象的关键点的二维坐标构成的二维坐标矩阵，和所述深度信息进行拼接，得到第一特征矩阵；将所述第一特征矩阵输入至所述第一残差模块，得到第二特征矩阵；计算所述第二特征矩阵与所述第一特征矩阵的和值，并将得到的和值输入至所述第二残差模块，得到该目标视频帧中各对象的三维图像信息。

可选的，所述行为预测网络模型包括：第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和全连接层；所述基于所述多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定所述多个目标视频帧中所述目标对象的驾驶行为，包括：针对每一所述目标视频帧，将该目标视频帧中各对象的三维图像信息输入至预先训练的图卷积网络模型，得到该目标视频帧对应的多维特征矩阵；针对每两个相邻的目标视频帧，计算该两个相邻的目标视频帧对应的多维特征矩阵的差值，得到差值矩阵；将各所述差值矩阵输入至所述第二卷积层，得到第三特征矩阵；将所述第三特征矩阵输入至所述第三卷积层，得到第四特征矩阵；将所述多个目标视频帧各自对应的多维特征矩阵输入至所述第四卷积层，得到第五特征矩阵；将所述第五特征矩阵输入至所述第五卷积层，得到第六特征矩阵；对所述第四特征矩阵和所述第六特征矩阵进行拼接，并将拼接得到的特征矩阵输入至所述第六卷积层，得到第七特征矩阵；将所述第七特征矩阵输入至所述全连接层，得到所述目标对象的驾驶行为是预设各驾驶行为的概率；确定对应的概率最大的预设驾驶行为，作为所述目标对象的驾驶行为。

第二方面，为了达到上述目的，本发明实施例提供了一种行为识别装置，所述装置包括：

获取模块，用于获取包含有目标对象的多个目标视频帧；第一确定模块，用于针对每一所述目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息；其中，一个对象的二维图像信息包含该对象的各个关键点在该目标视频帧中的二维坐标，以及该对象的各个关键点之间的连接关系；第二确定模块，用于基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息；其中，一个对象的三维图像信息包含该对象的各个关键点在该目标视频帧中的三维坐标；所述深度信息表示该目标视频帧中各对象之间的位置关系；第三确定模块，用于基于所述多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定所述多个目标视频帧中所述目标对象的驾驶行为。

可选的，所述获取模块，具体用于基于预先训练的视频提取网络模型中的双流网络，对待处理视频进行采样，并对采样得到的采样视频帧进行特征提取，得到每一采样视频帧的特征向量；针对每一采样视频帧，将该采样视频帧的特征向量输入至所述视频提取网络模型中的第一卷积网络，得到该采样视频帧中所述目标对象的动作属于动作开始的第一概率，以及该采样视频帧中所述目标对象的动作属于动作结束的第二概率；从各个采样视频帧中确定第一采样视频帧；其中，所述第一采样视频帧的第一概率大于预设概率阈值；或者，所述第一采样视频帧的第一概率，大于所述第一采样视频帧的前一采样视频帧的第一概率，且所述第一采样视频帧的第一概率，大于所述第一采样视频帧的后一采样视频帧的第一概率；从各个采样视频帧中确定第二采样视频帧；其中，所述第二采样视频帧的第二概率大于所述预设概率阈值；或者，所述第二采样视频帧的第二概率，大于所述第二采样视频帧的前一采样视频帧的第二概率，且所述第二采样视频帧的第二概率，大于所述第二采样视频帧的后一采样视频帧的第二概率；针对每一所述第一采样视频帧，确定位于该第一采样视频帧之后的第二采样视频帧，作为该第一采样视频帧对应的第三采样视频帧；计算该第一采样视频帧与对应的每一所述第三采样视频帧之间时长，作为待处理时长；从该第一采样视频帧对应的第三采样视频帧中，确定所对应的待处理时长属于预设时长范围的第三采样视频帧，作为该第一采样视频帧对应的第四采样视频帧；确定该第一采样视频帧对应的备选视频，其中，该第一采样视频帧对应的一个备选视频包括：该第一采样视频帧、该第一采样视频帧对应的一个第四采样视频帧，以及该第一采样视频帧与该第四采样视频帧之间的视频帧；针对每一所述备选视频，对该备选视频进行特征提取，得到该备选视频的特征向量；将该备选视频的特征向量，输入至所述视频提取网络模型的多层感知器，得到该备选视频的置信度；确定各所述备选视频中置信度最大的备选视频包含的视频帧，作为目标视频帧。

可选的，所述二维坐标提取网络模型包括：第一卷积层、第二卷积网络和第三卷积网络；所述第一确定模块，具体用于针对每一所述目标视频帧，通过所述第一卷积层对该目标视频帧进行特征提取，得到该目标视频帧的特征图；将该目标视频帧的特征图输入至所述第二卷积网络，得到该目标视频帧对应的多个热图；其中，每一所述热图中包含该目标视频帧中各对象的一个关键点的二维坐标；将该目标视频帧的特征图输入至所述第三卷积网络，得到该目标视频帧对应的亲和场，其中，所述亲和场表示该目标视频帧中各对象各自的关键点之间的连接关系。

可选的，所述三维坐标提取网络模型包括：第一残差模块和第二残差模块；所述第二确定模块，具体用于对该目标视频帧中各对象的关键点的二维坐标进行归一化处理，得到归一化后的该目标视频帧中各对象的关键点的二维坐标；对归一化后的该目标视频帧中各对象的关键点的二维坐标构成的二维坐标矩阵，和所述深度信息进行拼接，得到第一特征矩阵；将所述第一特征矩阵输入至所述第一残差模块，得到第二特征矩阵；计算所述第二特征矩阵与所述第一特征矩阵的和值，并将得到的和值输入至所述第二残差模块，得到该目标视频帧中各对象的三维图像信息。

可选的，所述行为预测网络模型包括：第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和全连接层；所述第三确定模块，具体用于针对每一所述目标视频帧，将该目标视频帧中各对象的三维图像信息输入至预先训练的图卷积网络模型，得到该目标视频帧对应的多维特征矩阵；针对每两个相邻的目标视频帧，计算该两个相邻的目标视频帧对应的多维特征矩阵的差值，得到差值矩阵；将各所述差值矩阵输入至所述第二卷积层，得到第三特征矩阵；将所述第三特征矩阵输入至所述第三卷积层，得到第四特征矩阵；将所述多个目标视频帧各自对应的多维特征矩阵输入至所述第四卷积层，得到第五特征矩阵；将所述第五特征矩阵输入至所述第五卷积层，得到第六特征矩阵；对所述第四特征矩阵和所述第六特征矩阵进行拼接，并将拼接得到的特征矩阵输入至所述第六卷积层，得到第七特征矩阵；将所述第七特征矩阵输入至所述全连接层，得到所述目标对象的驾驶行为是预设各驾驶行为的概率；确定对应的概率最大的预设驾驶行为，作为所述目标对象的驾驶行为。

本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任一所述的行为识别方法步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的行为识别方法。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的行为识别方法。

本发明实施例提供的一种行为识别方法，可以获取包含有目标对象的多个目标视频帧；针对每一目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息；基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息；基于多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定多个目标视频帧中目标对象的驾驶行为。

基于上述处理，可以获取目标视频帧的深度信息，并基于深度信息和目标视频帧中各对象的二维图像信息，确定目标视频帧中各对象的三维图像信息。由于深度信息表示目标视频帧中各对象之间的位置关系，二维图像信息可以体现目标对象的驾驶行为的时间特征，因此，三维图像信息也可以体现目标对象的驾驶行为的时间特征，以及目标视频帧中各对象之间的位置关系，进而，基于目标视频帧中各对象的三维图像信息，确定出的目标对象的驾驶行为的准确度较高，进而，可以提高行为识别的准确度。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的一种行为识别方法的流程图；

图2为本发明实施例提供的一种获取多个目标视频帧的方法的流程图；

图3为本发明实施例提供的一种视频提取网络模型的结构图；

图4为本发明实施例提供的另一种行为识别方法的流程图；

图5为本发明实施例提供的一种二维坐标提取网络模型的结构图；

图6为本发明实施例提供的另一种行为识别方法的流程图；

图7为本发明实施例提供的一种三维坐标提取网络模型的结构图；

图8为本发明实施例提供的另一种行为识别方法的流程图；

图9为本发明实施例提供的一种行为预测网络模型的结构图；

图10为本发明实施例提供的另一种行为识别方法的流程图；

图11为本发明实施例提供的一种行为识别装置的结构图；

图12为本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，二维图像只能体现驾驶员的驾驶行为的时间特征，因此，仅仅利用二维图像进行行为识别，可能会导致行为识别的准确度较低。

为了解决上述问题，参见图1，图1为本发明实施例提供的一种行为识别方法的流程图，该方法应用于电子设备，该电子设备可以进行行为识别。

该方法可以包括以下步骤：

S101：获取包含有目标对象的多个目标视频帧。

S102：针对每一目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息。

其中，一个对象的二维图像信息包含该对象的各个关键点在该目标视频帧中的二维坐标，以及该对象的各个关键点之间的连接关系。

S103：基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息。

其中，一个对象的三维图像信息包含该对象的各个关键点在该目标视频帧中的三维坐标。深度信息表示该目标视频帧中各对象之间的位置关系。

S104：基于多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定多个目标视频帧中目标对象的驾驶行为。

基于本发明实施例提供的行为识别方法，可以获取目标视频帧的深度信息，并基于深度信息和目标视频帧中各对象的二维图像信息，确定目标视频帧中各对象的三维图像信息。由于深度信息表示目标视频帧中各对象之间的位置关系，二维图像信息可以体现目标对象的驾驶行为的时间特征，因此，三维图像信息也可以体现目标对象的驾驶行为的时间特征，以及目标视频帧中各对象之间的位置关系，进而，基于目标视频帧中各对象的三维图像信息，确定出的目标对象的驾驶行为的准确度较高，进而，可以提高行为识别的准确度。

在步骤S101中，目标视频帧可以为车辆内部的图像采集设备拍摄的视频帧，或者，也可以为交通管理系统的图像采集设备拍摄的视频帧。图像采集设备能够拍摄RGB-D(RedGreen Blue-Deep，红绿蓝-深度)视频。

相应的，目标对象可以为驾驶员。获取的多个目标视频帧对应目标对象的一个驾驶行为。例如，目标对象的驾驶行为可以为驾驶时打电话，该驾驶行为对应的目标视频帧可以包括：目标对象拿起电话对应的视频帧、目标对象放下电话的视频帧，以及从目标对象拿起电话对应的视频帧至目标对象放下电话的视频帧之间的所有视频帧。

由于图像采集设备拍摄的视频(即后续实施例中的待处理视频)中可能包含目标对象的多个驾驶行为，也可能包含不存在目标对象的视频帧。因此，可以从待处理视频中提取目标对象的一个驾驶行为对应的多个视频帧(即目标视频帧)。

在本发明的一个实施例中，参见图2，图2为本发明实施例提供的一种获取多个目标视频帧的方法的流程图，该方法可以包括以下步骤：

S201：基于预先训练的视频提取网络模型中的双流网络，对待处理视频进行采样，并对采样得到的采样视频帧进行特征提取，得到每一采样视频帧的特征向量。

S202：针对每一采样视频帧，将该采样视频帧的特征向量输入至视频提取网络模型中的第一卷积网络，得到该采样视频帧中目标对象的动作属于动作开始的第一概率，以及该采样视频帧中目标对象的动作属于动作结束的第二概率。

S203：从各个采样视频帧中确定第一采样视频帧。

其中，第一采样视频帧的第一概率大于预设概率阈值；或者，第一采样视频帧的第一概率，大于第一采样视频帧的前一采样视频帧的第一概率，且第一采样视频帧的第一概率，大于第一采样视频帧的后一采样视频帧的第一概率。

S204：从各个采样视频帧中确定第二采样视频帧。

其中，第二采样视频帧的第二概率大于预设概率阈值；或者，第二采样视频帧的第二概率，大于第二采样视频帧的前一采样视频帧的第二概率，且第二采样视频帧的第二概率，大于第二采样视频帧的后一采样视频帧的第二概率。

S205：针对每一第一采样视频帧，确定位于该第一采样视频帧之后的第二采样视频帧，作为该第一采样视频帧对应的第三采样视频帧。

S206：计算该第一采样视频帧与对应的每一第三采样视频帧之间时长，作为待处理时长。

S207：从该第一采样视频帧对应的第三采样视频帧中，确定所对应的待处理时长属于预设时长范围的第三采样视频帧，作为该第一采样视频帧对应的第四采样视频帧。

S208：确定该第一采样视频帧对应的备选视频。

其中，该第一采样视频帧对应的一个备选视频包括：该第一采样视频帧、该第一采样视频帧对应的一个第四采样视频帧，以及该第一采样视频帧与该第四采样视频帧之间的视频帧。

S209：针对每一备选视频，对该备选视频进行特征提取，得到该备选视频的特征向量。

S2010：将该备选视频的特征向量，输入至视频提取网络模型的多层感知器，得到该备选视频的置信度。

S2011：确定各备选视频中置信度最大的备选视频包含的视频帧，作为目标视频帧。

在步骤S201中，视频提取网络模型可以为用于进行动作时序检测的网络模型，例如，视频提取网络模型可以为BSN(Boundary Sensitive Network，边界敏感网络)模型，或者，视频提取网络模型可以为P-GCN(Proposal Graph Convolutional Network，提议图卷积网络)模型，但并不限于此。

一种实现方式中，在基于预先训练的视频提取网络模型，获取目标视频帧之前，电子设备还可以基于第一训练样本，对初始视频提取网络模型进行训练，得到训练好的视频提取网络模型。

第一训练样本可以包括：包含目标对象的多个驾驶行为的样本视频，该样本视频中的样本视频帧(可以称为第一样本视频帧)具有驾驶行为标签，一个第一样本视频帧的驾驶行为标签表示该样本视频帧包含的驾驶行为。

一种实现方式中，电子设备可以将样本视频输入至初始视频提取网络模型，得到每一驾驶行为对应的样本视频帧(可以称为预测视频帧)。然后，针对每一驾驶行为，可以确定该驾驶行为对应的预测视频帧，与具有该驾驶行为对应的驾驶行为标签的第一样本视频帧中相同的视频帧。然后，基于确定出的相同的视频帧计算损失函数值，并基于计算得到的损失函数值，对初始视频提取网络模型的模型参数进行调整，当视频提取网络模型达到第一收敛条件时，得到训练好的视频提取网络模型。

其中，第一收敛条件可以由技术人员根据经验设置。一种实现方式中，第一收敛条件可以为对初始视频提取网络模型的训练次数大于预设次数阈值。预设次数阈值可以由技术人员根据经验设置。

另一种实现方式中，为了提高训练好的视频提取网络模型确定的目标视频帧的准确性，第一收敛条件可以为本次训练后计算得到的损失函数值，与前预设数目次计算得到的损失函数值的差值均小于预设差值。预设数目、预设差值均可以由技术人员根据经验设置。

参见图3，图3为本发明实施例提供的一种视频提取网络模型的结构图，该视频提取网络模型可以包括：双流网络、第一卷积网络和多层感知器。其中，第一卷积网络可以包括：3个卷积层，该3个卷积层分别为：第七卷积层、第八卷积层和第九卷积层。

电子设备可以将待处理视频输入至训练好的视频提取网络模型，基于视频提取网络模型中的双流网络，按照预设采样间隔，对待处理视频进行采样，可以得到多个采样视频帧。然后，对每一采样视频帧分别进行特征提取，得到每一采样视频帧的特征向量，并将得到的特征向量输入至第一卷积网络。预设采样间隔可以由技术人员根据经验设置。例如，预设采样间隔为3帧，待处理视频中各视频帧可以包括：第1帧至第10帧。可以得到采样视频帧包括：第3帧、第6帧、第9帧。

在步骤S202中，针对每一采样视频帧，可以通过第一卷积网络中的第七卷积层、第八卷积层和第九卷积层，分别对该采样视频帧的特征向量进行时序卷积，可以得到该采样视频帧中目标对象的动作属于动作开始的概率(即第一概率)，以及该采样视频帧中目标对象的动作属于动作结束的概率(即第二概率)。另外，第一卷积网络还可以确定该采样视频帧中目标对象的动作属于动作进行的概率。

针对步骤S203和步骤S204，在确定每一采样视频帧的第一概率之后，电子设备可以比较各个采样视频帧各自的第一概率，从各采样视频帧中，确定第一采样视频帧。其中，预设概率阈值可以由技术人员根据经验设置。同理，电子设备还可以从各采样视频帧中，确定第二采样视频帧。

可以理解的是，各采样视频帧之间的排列顺序，是基于采集到的待处理视频包含的视频帧的先后顺序确定的。例如，待处理视频中各视频帧可以包括：第1帧至第10帧。采样视频帧包括：第3帧、第6帧和第9帧，则各采样视频帧的排列顺序为：第3帧、第6帧、第9帧。

针对步骤S205、步骤S206和步骤S207，在确定出第一采样视频帧之后，针对每一第一采样视频帧，还可以确定位于该第一采样视频帧之后的第二采样视频帧，作为对应第三采样视频帧，并计算该第一采样视频帧与对应的每一第三采样视频帧之间时长，作为待处理时长。

确定出的第三采样视频帧可以为多个。进而，可以从多个第三采样视频帧中，确定对应的待处理时长属于预设时长范围的采样视频帧，作为该第一采样视频帧对应的第四采样视频帧。其中，预设时长范围可以由技术人员根据经验设置。

针对步骤S208和步骤S209，针对每一第一采样视频帧，在确定出该第一采样视频帧对应的第四采样视频帧之后，可以确定包含从该第一采样视频帧至一个第四采样视频帧的各视频帧的备选视频。然后，可以对每一备选视频的进行特征提取，确定该备选视频的特征向量。例如，第一采样视频帧为待处理视频的第5帧，第四采样视频帧为待处理视频的第8帧，则可以确定包含第5帧、第6帧、第7帧和第8帧的备选视频。

针对步骤S2010和步骤S2011，可将各备选视频各自的特征向量输入至多层感知器，多层感知器可以确定各备选视频各自的置信度。然后，可以确定置信度最大的备选视频包含的视频帧，作为目标视频帧。

在步骤S102中，二维坐标提取网络模型可以为用于确定图像的二维图像信息的网络模型，例如，二维坐标提取网络模型可以为OpenPose(二维坐标提取)网络模型。

在确定出多个目标视频帧之后，针对每一目标视频帧，电子设备可以基于预先训练的二维坐标提取网络模型，确定该目标视频帧中各对象的二维图像信息。

一种实现方式中，在基于预先训练的二维坐标提取网络模型，获取确定目标视频帧中各对象的二维图像信息之前，电子设备还可以基于第二训练样本，对初始二维坐标提取网络模型进行训练，得到训练好的二维坐标提取网络模型。

第二训练样本可以包括：第二样本视频帧、第二样本视频帧中各对象各自的二维图像信息(可以称为样本二维图像信息)。

一种实现方式中，电子设备可以将第二样本视频帧输入至初始二维坐标提取网络模型，得到第二样本视频帧中各对象的二维图像信息(可以称为预测二维图像信息)。然后，电子设备可以确定表示样本二维图像信息，与预测二维图像信息的差异性的损失函数值，并基于计算得到的损失函数值，对初始二维坐标提取网络模型的模型参数进行调整，当二维坐标提取网络模型达到第二收敛条件时，得到训练好的二维坐标提取网络模型。

其中，第二收敛条件与第一收敛条件类似，可以参考前述实施例中关于第一收敛条件的介绍。

然后，电子设备可以基于训练好的二维坐标提取网络模型，确定每一目标视频帧中各对象的二维图像信息。在本发明的一个实施例中，二维坐标提取网络模型包括：第一卷积层、第二卷积网络和第三卷积网络。相应的，参见图4，步骤S102可以包括以下步骤：

S1021：针对每一目标视频帧，通过第一卷积层对该目标视频帧进行特征提取，得到该目标视频帧的特征图。

S1022：将该目标视频帧的特征图输入至第二卷积网络，得到该目标视频帧对应的多个热图。

其中，每一热图中包含该目标视频帧中各对象的一个关键点的二维坐标。

S1023：将该目标视频帧的特征图输入至第三卷积网络，得到该目标视频帧对应的亲和场。

其中，亲和场表示该目标视频帧中各对象各自的关键点之间的连接关系。

参见图5，图5为本发明实施例提供的一种二维坐标提取网络模型的结构图，该二维坐标提取网络模型包括：第一卷积层、第二卷积网络和第三卷积网络。第二卷积网络包括3个3×3的卷积层和2个1×1的卷积层。第三卷积网络包括5个7×7的卷积层和2个1×1的卷积层。

针对步骤S1021、步骤S1022和步骤S1023，针对每一目标视频帧，电子设备可以通过第一卷积层对该目标视频帧进行特征提取，得到该目标视频帧的特征图。然后，可以将该目标视频帧的特征图输入至第二卷积网络，第二卷积网络可以确定该目标视频帧对应的多个热图。电子设备还可以将该目标视频帧的特征图输入至二维坐标提取网络模型中的第三卷积网络，第三卷积网络可以确定该目标视频帧对应的亲和场。进而，可以得到该目标视频帧中各对象的二维图像信息。

针对步骤S103，在获取目标视频帧之后，电子设备还可以确定目标视频帧的深度信息。一种实现方式中，针对每一目标视频帧，电子设备可以以该目标视频帧中的目标对象为原点建立坐标系，并确定各对象在该坐标系中的坐标。然后，确定包含各对象各自的坐标的矩阵，该矩阵用于表示该目标视频帧的深度信息。

可以理解的是，由于各目标视频帧中各对象相同，因此，各目标视频帧中各对象之间的位置关系是相同的，也就是说，各目标视频帧的深度信息相同。

三维坐标提取网络模型可以为用于确定图像的三维图像信息的网络模型，例如，三维坐标提取网络模型可以为CNN(Convolutional Neural Networks，卷积神经网络)模型。

一种实现方式中，在基于预先训练的三维坐标提取网络模型，确定目标视频帧中各对象的三维图像信息之前，电子设备还可以基于第三训练样本，对初始三维坐标提取网络模型进行训练，得到训练好的三维坐标提取网络模型。

第三训练样本可以包括：第三样本视频帧的深度信息、第三样本视频帧中各对象的二维图像信息，以及第三样本视频帧中各对象的三维图像信息(可以称为样本三维图像信息)。

一种实现方式中，电子设备可以将第三样本视频帧的深度信息，和第三样本视频帧中各对象的二维图像信息，输入至初始三维坐标提取网络模型，得到第三样本视频帧中各对象的三维图像信息(可以称为预测三维图像信息)。然后，电子设备可以确定表示样本三维图像信息与预测三维图像信息的差异性的损失函数值，并基于计算得到的损失函数值，对初始三维坐标提取网络模型的模型参数进行调整，当三维坐标提取网络模型达到第三收敛条件时，得到训练好的三维坐标提取网络模型。

其中，第三收敛条件与第一收敛条件类型，可以参考前述实施例中对第一收敛条件的介绍。

然后，电子设备可以基于训练好的三维坐标提取网络模型，确定每一目标视频帧中各对象的三维图像信息。在本发明的一个实施例中，三维坐标提取网络模型包括：第一残差模块和第二残差模块。相应的，参见图6，步骤S103可以包括以下步骤：

S1031：对该目标视频帧中各对象的关键点的二维坐标进行归一化处理，得到归一化后的该目标视频帧中各对象的关键点的二维坐标。

S1032：对归一化后的该目标视频帧中各对象的关键点的二维坐标构成的二维坐标矩阵，和深度信息进行拼接，得到第一特征矩阵。

S1033：将第一特征矩阵输入至第一残差模块，得到第二特征矩阵。

S1034：计算第二特征矩阵与第一特征矩阵的和值，并将得到的和值输入至第二残差模块，得到该目标视频帧中各对象的三维图像信息。

在步骤S1031中，当采集样本视频帧的图像采集设备(可以称为第一图像采集设备)，与采集目标视频帧的图像采集设备(可以称为第二图像采集设备)是不同的图像采集设备时，会导致确定出目标视频帧中各对象的关键点的三维坐标的准确度较低。因此，为了避免上述问题，电子设备可以对每一目标视频帧中各对象的关键点的二维坐标进行归一化处理，例如，针对每一目标视频帧，电子设备可以计算该目标视频帧中各对象的关键点的二维坐标，与第二图像采集设备的内部参数的乘积，可以得到归一化后的该目标视频帧中各对象的关键点的二维坐标。

参见图7，图7为本发明实施例提供的一种三维坐标提取网络模型的结构图，该三维坐标提取网络模型包括：第一残差模型和第二残差模块。第一残差模型和第二残差模块均包括：全连接层(Fully Connected Layer)、归一化层(Batch Normalization Layer)、激活函数层(ReLU)和正则化层(Dropout Layer)。

针对步骤S1032和步骤S1033，针对每一目标视频帧，电子设备可以按照归一化后的该目标视频帧中各对象的关键点的二维坐标构成的二维坐标矩阵在前，深度信息在后的顺序，对二维坐标矩阵和深度信息进行拼接，得到第一特征矩阵。然后，将第一特征矩阵输入至第一残差模块，可以得到第二特征矩阵。

在步骤S1034中，可以计算第二特征矩阵和第一特征矩阵的和值，并将得到和值输入至的第二残差模块，可以得到该目标视频帧中各对象的三维图像信息。

在步骤S104中，预设各驾驶行为可以由技术人员根据经验设置，例如，预设各驾驶行为可以包括：正常驾驶、驾驶时打电话、双手脱离方向盘、驾驶员与乘客发生冲突等。

行为预测网络模型可以为用于进行分类的网络模型，例如，行为预测网络模型可以为HCN(Hybrid Code Networks，混合编码网络)模型。

一种实现方式中，在基于预先训练的行为预测网络模型，确定目标对象的驾驶行为之前，电子设备还可以基于第四训练样本，对初始行为预测网络模型进行训练，得到训练好的行为预测网络模型。

第四训练样本可以包括：多个第四样本视频帧各自的多维特征矩阵、多个第四样本视频帧中目标对象的驾驶行为是预设各驾驶行为的概率(可以称为第三概率)。

一种实现方式中，电子设备可以将多个第四样本视频帧各自的多维特征矩阵，输入至初始行为预测网络模型，得到第四样本视频帧中目标对象的驾驶行为是预设各驾驶行为的概率(可以称为预测概率)。然后，电子设备可以确定表示第三概率与预测概率的差异性的损失函数值，并基于计算得到的损失函数值，对初始行为预测网络模型的模型参数进行调整，当行为预测网络模型达到第四收敛条件时，得到训练好的行为预测网络模型。

其中，第四收敛条件与第一收敛条件类似，可以参考前述实施例中关于第一收敛条件的介绍。

然后，电子设备可以基于训练好的行为预测网络模型，确定目标对象的驾驶行为。在本发明的一个实施例中，行为预测网络模型可以包括：第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和全连接层。相应的，参见图8，步骤S104可以包括以下步骤：

S1041：针对每一目标视频帧，将该目标视频帧中各对象的三维图像信息输入至预先训练的图卷积网络模型，得到该目标视频帧对应的多维特征矩阵。

S1042：针对每两个相邻的目标视频帧，计算该两个相邻的目标视频帧对应的多维特征矩阵的差值，得到差值矩阵。

S1043：将各差值矩阵输入至第二卷积层，得到第三特征矩阵。

S1044：将第三特征矩阵输入至第三卷积层，得到第四特征矩阵。

S1045：将多个目标视频帧各自对应的多维特征矩阵输入至第四卷积层，得到第五特征矩阵。

S1046：将第五特征矩阵输入至第五卷积层，得到第六特征矩阵。

S1047：对第四特征矩阵和第六特征矩阵进行拼接，并将拼接得到的特征矩阵输入至第六卷积层，得到第七特征矩阵。

S1048：将第七特征矩阵输入至全连接层，得到目标对象的驾驶行为是预设各驾驶行为的概率。

S1049：确定对应的概率最大的预设驾驶行为，作为目标对象的驾驶行为。

在步骤S1041中，图卷积网络模型为GCN(Graph Convolutional Network，图卷积网络)模型。

参见图9，图9为本发明实施例提供的一种行为预测网络模型的结构图，该行为预测网络模型包括：第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和全连接层。

在步骤S1042中，在得到各目标视频帧各自对应的多维特征矩阵之后，电子设备可以将各多维特征矩阵输入至行为预测网络模型，并通过行为预测网络模型针对每两个相邻的目标视频帧，计算该两个相邻的目标视频帧对应的多维特征矩阵的差值，得到差值矩阵。

针对步骤S1043和步骤S1044，电子设备可以将各差值矩阵输入至第二卷积层，得到第三特征矩阵，并将第三特征矩阵输入至第三卷积层，得到第四特征矩阵。

针对步骤S1045和步骤S1046，电子设备还可以将多个目标视频帧各自对应的多维特征矩阵输入至第四卷积层，得到第五特征矩阵，并将第五特征矩阵输入至第五卷积层，得到第六特征矩阵。

针对步骤S1047、步骤S1048和步骤S1049，可以按照第六特征在前，且第四特征在后的顺序，对第四特征矩阵和第六特征矩阵进行拼接，并将拼接得到的特征矩阵输入至第六卷积层，可以得到第七特征矩阵，并将第七特征矩阵输入至全连接层，可以得到目标对象的驾驶行为是预设各驾驶行为的概率。电子设备可以确定对应的概率最大的预设驾驶行为，作为目标对象的驾驶行为。

参见图10，图10为本发明实施例提供的另一种行为识别方法的流程图。

电子设备可以通过BSN模型从待处理视频中提取属于同一驾驶行为的多个目标视频帧。针对每一目标视频帧，电子设备可以基于OpenPose模型，确定该目标视频帧中各对象各自的关键点的二维图像信息。

针对每一目标视频帧，电子设备还可以基于该目标视频帧的深度信息、该目标视频帧中各对象各自的关键点的二维图像信息，以及3D PoseNet(三维图像信息提取)模型，确定该目标视频帧中各对象各自的关键点的三维图像信息。

3D PoseNet模型可以包括：归一化模块和CNN模型，归一化模块可以对该目标视频帧中各对象各自的关键点的二维坐标进行归一化处理，得到归一化后的该目标视频帧中各对象各自的关键点的二维坐标。CNN模型可以对归一化后的该目标视频帧中各对象各自的关键点的二维坐标，和该目标视频帧的深度信息进行处理，确定该目标视频帧中各对象各自的关键点的三维图像信息。

然后，电子设备可以基于GCN模型和该目标视频帧中各对象各自的关键点的三维图像信息，确定该目标视频帧的多维特征矩阵。进而，电子设备可以基于HCN模型和各目标视频帧各自的多维特征矩阵，确定目标对象的驾驶行为。

与图1的方法实施例相对应，参见图11，图11为本发明实施例提供的一种行为识别装置的结构图，所述装置包括：

获取模块1101，用于获取包含有目标对象的多个目标视频帧；

第一确定模块1102，用于针对每一所述目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息；其中，一个对象的二维图像信息包含该对象的各个关键点在该目标视频帧中的二维坐标，以及该对象的各个关键点之间的连接关系；

第二确定模块1103，用于基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息；其中，一个对象的三维图像信息包含该对象的各个关键点在该目标视频帧中的三维坐标；所述深度信息表示该目标视频帧中各对象之间的位置关系；

第三确定模块1104，用于基于所述多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定所述多个目标视频帧中所述目标对象的驾驶行为。

可选的，所述获取模块1101，具体用于基于预先训练的视频提取网络模型中的双流网络，对待处理视频进行采样，并对采样得到的采样视频帧进行特征提取，得到每一采样视频帧的特征向量；

针对每一采样视频帧，将该采样视频帧的特征向量输入至所述视频提取网络模型中的第一卷积网络，得到该采样视频帧中所述目标对象的动作属于动作开始的第一概率，以及该采样视频帧中所述目标对象的动作属于动作结束的第二概率；

从各个采样视频帧中确定第一采样视频帧；其中，所述第一采样视频帧的第一概率大于预设概率阈值；或者，所述第一采样视频帧的第一概率，大于所述第一采样视频帧的前一采样视频帧的第一概率，且所述第一采样视频帧的第一概率，大于所述第一采样视频帧的后一采样视频帧的第一概率；

从各个采样视频帧中确定第二采样视频帧；其中，所述第二采样视频帧的第二概率大于所述预设概率阈值；或者，所述第二采样视频帧的第二概率，大于所述第二采样视频帧的前一采样视频帧的第二概率，且所述第二采样视频帧的第二概率，大于所述第二采样视频帧的后一采样视频帧的第二概率；

针对每一所述第一采样视频帧，确定位于该第一采样视频帧之后的第二采样视频帧，作为该第一采样视频帧对应的第三采样视频帧；

计算该第一采样视频帧与对应的每一所述第三采样视频帧之间时长，作为待处理时长；

从该第一采样视频帧对应的第三采样视频帧中，确定所对应的待处理时长属于预设时长范围的第三采样视频帧，作为该第一采样视频帧对应的第四采样视频帧；

确定该第一采样视频帧对应的备选视频，其中，该第一采样视频帧对应的一个备选视频包括：该第一采样视频帧、该第一采样视频帧对应的一个第四采样视频帧，以及该第一采样视频帧与该第四采样视频帧之间的视频帧；

针对每一所述备选视频，对该备选视频进行特征提取，得到该备选视频的特征向量；

将该备选视频的特征向量，输入至所述视频提取网络模型的多层感知器，得到该备选视频的置信度；

确定各所述备选视频中置信度最大的备选视频包含的视频帧，作为目标视频帧。

可选的，所述二维坐标提取网络模型包括：第一卷积层、第二卷积网络和第三卷积网络；

所述第一确定模块1102，具体用于针对每一所述目标视频帧，通过所述第一卷积层对该目标视频帧进行特征提取，得到该目标视频帧的特征图；

将该目标视频帧的特征图输入至所述第二卷积网络，得到该目标视频帧对应的多个热图；其中，每一所述热图中包含该目标视频帧中各对象的一个关键点的二维坐标；

将该目标视频帧的特征图输入至所述第三卷积网络，得到该目标视频帧对应的亲和场，其中，所述亲和场表示该目标视频帧中各对象各自的关键点之间的连接关系。

可选的，所述三维坐标提取网络模型包括：第一残差模块和第二残差模块；

所述第二确定模块1103，具体用于对该目标视频帧中各对象的关键点的二维坐标进行归一化处理，得到归一化后的该目标视频帧中各对象的关键点的二维坐标；

对归一化后的该目标视频帧中各对象的关键点的二维坐标构成的二维坐标矩阵，和所述深度信息进行拼接，得到第一特征矩阵；

将所述第一特征矩阵输入至所述第一残差模块，得到第二特征矩阵；

计算所述第二特征矩阵与所述第一特征矩阵的和值，并将得到的和值输入至所述第二残差模块，得到该目标视频帧中各对象的三维图像信息。

可选的，所述行为预测网络模型包括：第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和全连接层；

所述第三确定模块1104，具体用于针对每一所述目标视频帧，将该目标视频帧中各对象的三维图像信息输入至预先训练的图卷积网络模型，得到该目标视频帧对应的多维特征矩阵；

针对每两个相邻的目标视频帧，计算该两个相邻的目标视频帧对应的多维特征矩阵的差值，得到差值矩阵；

将各所述差值矩阵输入至所述第二卷积层，得到第三特征矩阵；

将所述第三特征矩阵输入至所述第三卷积层，得到第四特征矩阵；

将所述多个目标视频帧各自对应的多维特征矩阵输入至所述第四卷积层，得到第五特征矩阵；

将所述第五特征矩阵输入至所述第五卷积层，得到第六特征矩阵；

对所述第四特征矩阵和所述第六特征矩阵进行拼接，并将拼接得到的特征矩阵输入至所述第六卷积层，得到第七特征矩阵；

将所述第七特征矩阵输入至所述全连接层，得到所述目标对象的驾驶行为是预设各驾驶行为的概率；

确定对应的概率最大的预设驾驶行为，作为所述目标对象的驾驶行为。

基于本发明实施例提供的行为识别装置，可以获取目标视频帧的深度信息，并基于深度信息和目标视频帧中各对象的二维图像信息，确定目标视频帧中各对象的三维图像信息。由于深度信息表示目标视频帧中各对象之间的位置关系，二维图像信息可以体现目标对象的驾驶行为的时间特征，因此，三维图像信息也可以体现目标对象的驾驶行为的时间特征，以及目标视频帧中各对象之间的位置关系，进而，基于目标视频帧中各对象的三维图像信息确定出的目标对象的驾驶行为的准确度较高，进而，可以提高行为识别的准确度。

本发明实施例还提供了一种电子设备，如图12所示，包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信，

存储器1203，用于存放计算机程序；

处理器1201，用于执行存储器1203上所存放的程序时，实现上述实施例中任一所述的行为识别方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一行为识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一行为识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

获取包含有目标对象的多个目标视频帧；

针对每一所述目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息；其中，一个对象的二维图像信息包含该对象的各个关键点在该目标视频帧中的二维坐标，以及该对象的各个关键点之间的连接关系；

基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息；其中，一个对象的三维图像信息包含该对象的各个关键点在该目标视频帧中的三维坐标；所述深度信息表示该目标视频帧中各对象之间的位置关系；

基于所述多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定所述多个目标视频帧中所述目标对象的驾驶行为。

2.根据权利要求1所述的方法，其特征在于，所述获取包含有目标对象的多个目标视频帧，包括：

基于预先训练的视频提取网络模型中的双流网络，对待处理视频进行采样，并对采样得到的采样视频帧进行特征提取，得到每一采样视频帧的特征向量；

从各个采样视频帧中确定第一采样视频帧；

其中，所述第一采样视频帧的第一概率大于预设概率阈值；或者，

所述第一采样视频帧的第一概率，大于所述第一采样视频帧的前一采样视频帧的第一概率，且所述第一采样视频帧的第一概率，大于所述第一采样视频帧的后一采样视频帧的第一概率；

从各个采样视频帧中确定第二采样视频帧；

其中，所述第二采样视频帧的第二概率大于所述预设概率阈值；或者，

所述第二采样视频帧的第二概率，大于所述第二采样视频帧的前一采样视频帧的第二概率，且所述第二采样视频帧的第二概率，大于所述第二采样视频帧的后一采样视频帧的第二概率；

3.根据权利要求1所述的方法，其特征在于，所述二维坐标提取网络模型包括：第一卷积层、第二卷积网络和第三卷积网络；

所述针对每一所述目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息，包括：

针对每一所述目标视频帧，通过所述第一卷积层对该目标视频帧进行特征提取，得到该目标视频帧的特征图；

4.根据权利要求1所述的方法，其特征在于，所述三维坐标提取网络模型包括：第一残差模块和第二残差模块；

所述基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息，包括：

对该目标视频帧中各对象的关键点的二维坐标进行归一化处理，得到归一化后的该目标视频帧中各对象的关键点的二维坐标；

5.根据权利要求1所述的方法，其特征在于，所述行为预测网络模型包括：第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和全连接层；

所述基于所述多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定所述多个目标视频帧中所述目标对象的驾驶行为，包括：

针对每一所述目标视频帧，将该目标视频帧中各对象的三维图像信息输入至预先训练的图卷积网络模型，得到该目标视频帧对应的多维特征矩阵；

6.一种行为识别装置，其特征在于，所述装置包括：

获取模块，用于获取包含有目标对象的多个目标视频帧；

第一确定模块，用于针对每一所述目标视频帧，将该目标视频帧输入至预先训练的二维坐标提取网络模型，得到该目标视频帧中各对象的二维图像信息；其中，一个对象的二维图像信息包含该对象的各个关键点在该目标视频帧中的二维坐标，以及该对象的各个关键点之间的连接关系；

第二确定模块，用于基于该目标视频帧的深度信息和该目标视频帧中各对象的二维图像信息，以及预先训练的三维坐标提取网络模型，确定该目标视频帧中各对象的三维图像信息；其中，一个对象的三维图像信息包含该对象的各个关键点在该目标视频帧中的三维坐标；所述深度信息表示该目标视频帧中各对象之间的位置关系；

第三确定模块，用于基于所述多个目标视频帧中各对象的三维图像信息，以及预先训练的行为预测网络模型，确定所述多个目标视频帧中所述目标对象的驾驶行为。

7.根据权利要求6所述的装置，其特征在于，所述获取模块，具体用于基于预先训练的视频提取网络模型中的双流网络，对待处理视频进行采样，并对采样得到的采样视频帧进行特征提取，得到每一采样视频帧的特征向量；

从各个采样视频帧中确定第一采样视频帧；

从各个采样视频帧中确定第二采样视频帧；

8.根据权利要求6所述的装置，其特征在于，所述二维坐标提取网络模型包括：第一卷积层、第二卷积网络和第三卷积网络；

所述第一确定模块，具体用于针对每一所述目标视频帧，通过所述第一卷积层对该目标视频帧进行特征提取，得到该目标视频帧的特征图；

9.根据权利要求6所述的装置，其特征在于，所述三维坐标提取网络模型包括：第一残差模块和第二残差模块；

所述第二确定模块，具体用于对该目标视频帧中各对象的关键点的二维坐标进行归一化处理，得到归一化后的该目标视频帧中各对象的关键点的二维坐标；

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。