CN114882597A

CN114882597A - 一种目标行为的识别方法、装置及电子设备

Info

Publication number: CN114882597A
Application number: CN202210807163.5A
Authority: CN
Inventors: 刘智辉; 王亚运; 余言勋; 吴成路; 段富治; 赵梦娜
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-08-09
Anticipated expiration: 2042-07-11
Also published as: CN114882597B

Abstract

本申请实施例提供了一种目标行为的识别方法、装置及电子设备，涉及图像信息技术领域，用以目标行为的识别。该方法中，获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标；根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性；根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为；所述第一目标为所述至少一个目标中所述第一类别为人的目标。

Description

一种目标行为的识别方法、装置及电子设备

技术领域

本申请涉及图像信息技术领域，特别涉及一种目标行为的识别方法、装置及电子设备。

背景技术

随着当前社会的快速发展，机动车为人们的出行带来了极大的便利。因此，市面上的机动车保有量也在逐年递增，随之而来的是每年对机动车的年检需求也在不断的增加，导致代检、替检或车辆检测站工作人员有意疏漏的情况也时有发生。这就使得原本不允许上路的车辆在路面上行驶，为人们的行车安全带来了很大的风险。那么为了检验车辆检验站工作人员检验车辆的行为是否规范，如何识别工作人员的行为就亟待解决。

发明内容

本申请实施例提供了一种目标行为的识别方法、装置及电子设备，用以识别目标场景中的目标的行为。

第一方面，本申请实施例提供了一种目标行为的识别方法，包括：

获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标；根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性；根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为；所述第一目标为所述至少一个目标中所述第一类别为人的目标。

基于上述方案，通过各个步骤之间的约束，如通过位置坐标的约束可以使得对目标的类别和属性进行识别时，只能识别获取到位置坐标的目标的类别和属性。在识别第一目标的行为时，通过目标的位置坐标、目标的类别和属性的约束，可以实现仅识别第一类别为人的目标的行为，从而可以提高行为识别的准确率。

在一种可能的实现方式中，获取针对目标场景采集的多帧图像和预设的数据库中存储的参考行为；所述根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为，具体包括：根据所述多帧图像、所述多帧图像中各个目标的第一位置坐标、所述多帧图像中各个目标的第一类别和所述多帧图像中各个目标的第一属性确定所述第一目标的N个第一行为，所述N为正整数；根据所述参考行为以及所述第一目标的N个第一行为，确定所述目标场景的工作是否准确。

基于上述方案，通过对比参考行为和第一目标的N个第一行为，可以判断出第一目标的行为中是否存在检验疏忽或者有意规避的情况，从而确定目标场景的工作是否准确。

在一种可能的实现方式中，所述根据所述参考行为以及所述第一目标的N个第一行为，确定所述目标场景的工作是否准确，具体包括：确定所述N个第一行为中包括的所述参考行为的第一数量；当所述第一数量与所述参考行为的数量的比值大于或等于预设比值时，确定所述目标场景的工作准确；当所述第一数量与所述参考行为的数量的比值小于预设比值时，确定所述目标场景的工作不准确。

基于上述方案，可以根据实际情况，设置预设比值，从而可以更加灵活地判断目标场景的工作是否准确。

在一种可能的实现方式中，所述至少一个目标的第一类别还包括设备，所述第一类别为设备的目标的第一属性包括所述设备的型号为目标型号；所述获取预设的数据库中存储的参考行为，具体包括：获取所述数据库中存储的所述目标型号对应的参考行为。

基于上述方案，由于运用不同的设备检测车辆时，检验车辆的行为会有不同。因此，可以在目标场景出现不同设备时，通过不同的参考行为对第一目标的行为进行检验，可以提高检验目标场景工作的准确性。

在一种可能的实现方式中，获取针对所述目标场景采集的图像中检验区域的第一位置坐标；所述根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性，具体包括：根据所述图像、所述各个目标的第一位置坐标和所述检验区域的第一位置坐标确定所述检验区域内的各个目标的第一类别和所述检验区域内的各个目标的第一属性；所述根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为，具体包括：根据所述图像、所述检验区域的第一位置坐标、所述各个目标的第一位置坐标、所述检验区域内的各个目标的第一类别和所述检验区域内的各个目标的第一属性确定所述检验区域内的第一目标的第一行为。

基于上述方案，通过检验区域的位置坐标可以对第一属性的识别、第一类别的识别以及目标行为的识别任务加以约束，只识别检验区域内的目标的第一属性、第一类别以及行为，从而可以更加准确地识别目标的行为。

在一种可能的实现方式中，所述第一目标的第一属性包括目标为工作人员；所述第一行为包括所述工作人员检验车辆的行为。

基于上述方案，可以只识别目标场景中工作人员检验车辆的行为，来确定目标场景的工作是否准确。不必将所有第一目标的行为均识别出来，这样可以降低工作量，提高识别效率。

在一种可能的实现方式中，所述获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标，具体包括：将所述图像输入至所述训练后的第一神经网络，得到所述至少一个目标的第一位置坐标；所述根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性，具体包括：将所述图像和所述各个目标的第一位置坐标输入至训练后的第二神经网络，得到所述各个目标的第一类别和所述各个目标的第一属性；所述根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为，具体包括：将所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性输入至训练后的第三神经网络，得到所述第一目标的第一行为。

基于上述方案，可以通过训练后的第一神经网络、训练后的第二神经网络和训练后的第三神经网络识别图像中第一目标的第一行为，从而确定目标场景的工作是否准确。并且训练后的第一神经网络、训练后的第二神经网络和训练后的第三神经网络之间相互约束，相比于通过单一神经网络识别目标的行为，通过本申请实施例提供的目标行为的识别方法对目标的行为进行识别时具有更高的准确率。

在一种可能的实现方式中，所述训练后的第一神经网络、所述训练后的第二神经网络和所述训练后的第三神经网络是通过以下方法训练的：获取训练样本集；所述训练样本集包括至少一帧图像以及每帧图像的标签，所述标签包括所述每帧图像中各个目标的第二位置坐标、所述每帧图像中的所述各个目标的第二类别、所述每帧图像中的所述各个目标的第二属性和所述每帧图像中的第二目标的第二行为；所述第二目标为所述每帧图像中所述第二类别为人的目标；将第一图像输入至第一神经网络，得到所述各个目标的预测位置坐标；所述第一图像为所述至少一帧图像中的任一帧图像；根据所述各个目标的预测位置坐标和所述各个目标的第二位置坐标计算第一损失值；将所述第一图像和所述各个目标的预测位置坐标输入至第二神经网络，得到所述各个目标的预测类别和预测属性；根据所述各个目标的预测类别和所述各个目标的预测属性以及所述各个目标的所述第二类别和所述各个目标的第二属性计算第二损失值；将所述第一图像、所述各个目标的预测位置坐标、所述各个目标的预测属性和所述各个目标的预测类别输入至第三神经网络得到第三目标的预测行为；所述第三目标为所述预测类别为人的目标；根据所述预测行为和所述第二行为计算第三损失值；根据所述第一损失值、所述第二损失值和所述第三损失值确定第四损失值；根据所述第四损失值调整所述第一神经网络的参数、第二神经网络的参数和第三神经网络的参数，直到所述第四损失值达到预设的目标损失值时结束训练，获得所述训练后的第一神经网络、所述训练后的第二神经网络和所述训练后的第三神经网络。

基于上述方案，通过该方法训练第一神经网络、第二神经网络和第三神经网络可以使得训练后的第一神经网络执行目标检测的任务，训练后的第二神经网络执行类别和属性的识别任务以及训练后的第三神经网络能够使得整体网络结构简单、逻辑清晰、分工明确并且信息共享，可以很大限度地发挥各个神经网络的效果。

第二方面，本申请实施例提供了一种目标行为的识别装置，包括：获取单元，用于获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标；处理单元，用于根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性；根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为；所述第一目标为所述至少一个目标中所述第一类别为人的目标。

在一种可能的实现方式中，所述获取单元，用于获取针对目标场景采集的多帧图像和预设的数据库中存储的参考行为；

所述处理单元根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为时，具体用于：根据所述多帧图像、所述多帧图像中各个目标的第一位置坐标、所述多帧图像中各个目标的第一类别和所述多帧图像中各个目标的第一属性确定所述第一目标的N个第一行为，所述N为正整数；根据所述参考行为以及所述第一目标的N个第一行为，确定所述目标场景的工作是否准确。

在一种可能的实现方式中，所述处理单元根据所述参考行为以及所述第一目标的N个第一行为，确定所述目标场景的工作是否准确时，具体用于：确定所述N个第一行为中包括的所述参考行为的第一数量；当所述第一数量与所述参考行为的数量的比值大于或等于预设比值时，确定所述目标场景的工作准确；当所述第一数量与所述参考行为的数量的比值小于预设比值时，确定所述目标场景的工作不准确。

在一种可能的实现方式中，所述至少一个目标的第一类别还包括设备，所述第一类别为设备的目标的第一属性包括所述设备的型号为目标型号；所述获取单元获取预设的数据库中存储的参考行为时，具体用于：获取所述数据库中存储的所述目标型号对应的参考行为。

在一种可能的实现方式中，所述获取单元还用于获取针对所述目标场景采集的图像中检验区域的第一位置坐标；所述处理单元根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性时，具体用于：根据所述图像、所述各个目标的第一位置坐标和所述检验区域的第一位置坐标确定所述检验区域内的各个目标的第一类别和所述检验区域内的各个目标的第一属性；所述处理单元根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为时，具体用于：根据所述图像、所述检验区域的第一位置坐标、所述各个目标的第一位置坐标、所述检验区域内的各个目标的第一类别和所述检验区域内的各个目标的第一属性确定所述检验区域内的第一目标的第一行为。

在一种可能的实现方式中，所述获取单元获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标时，具体用于：将所述图像输入至所述训练后的第一神经网络，得到所述至少一个目标的第一位置坐标；所述处理单元根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性时，具体用于：将所述图像和所述各个目标的第一位置坐标输入至训练后的第二神经网络，得到所述各个目标的第一类别和所述各个目标的第一属性；所述处理单元根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为时，具体用于：将所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性输入至训练后的第三神经网络，得到所述第一目标的第一行为。

第三方面，本申请实施例提供了一种电子设备，包括：

存储器，用于存储计算机指令；

处理器，与所述存储器连接，用于执行所述存储器中的计算机指令，且在执行所述计算机指令时实现如第一方面中任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括：

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面中任一项所述的方法。

上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1为本申请实施例提供的目标行为的识别方法可适用的系统结构示意图；

图2为本申请实施例提供的一种目标行为的识别方法的示例性流程图之一；

图3为本申请实施例提供的图像检测效果示意图；

图4为本申请实施例提供的检验区域和车辆区域示意图；

图5为本申请实施例提供的整体网络结构示意图；

图6为本申请实施例提供的车辆属性对比结果示意图；

图7为本申请实施例提供的一种目标行为的识别方法的示例性流程图之一；

图8为本申请实施例提供的多工位的目标行为的识别示意图；

图9为本申请实施例提供的一种神经网络的训练方法的示例性流程图；

图10为本申请实施例提供的网络训练信息流动图；

图11为本申请实施例提供的一种目标行为的识别装置示意图；

图12为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请实施例中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

车辆年检时，一般需要车主将车辆开到车辆检验站，配合车辆检验站的工作人员对车辆进行各项检验。在以前的流程中，车辆检验站只负责将车辆检验照片提交至车管所，由车管所审核人员对车辆检验照片进行审核，在车管所审核人员确定上述车辆检测照片没有问题后，通知检验站向对应车辆发放车辆合格标志。这就导致代检、替检或车辆检验站工作人员有意疏漏的情况时有发生。使得原本不允许上路的车辆在路面上行驶，为人们的行车安全带来了很大的风险。那么为了检验车辆检验站工作人员检验车辆的行为是否规范，如何识别工作人员的行为亟待解决。

有鉴于此，本申请提供了一种目标行为的识别方法、装置及电子设备。该方法包括：通过对目标场景的图像中包括的车辆、人、设备等目标的检测，以及对各个目标的类别和属性的识别，来识别图像中工作人员用于检验车辆的行为。从而通过与数据库中工作人员的参考行为进行比对判断工作人员的行为是否准确，进一步检验目标场景的工作是否规范。

参见图1为本申请实施例提供的目标行为的识别方法可适用的系统结构示意图，该系统架构可以为服务器100，包括存储器110、处理器120和通信接口130。其中，通信接口130可以用于采集目标场景的图像，例如可以采集车辆检验站中包含车辆检验过程的视频或图像。处理器120是服务器100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在存储器110内的软件程序或模块，以及调用存储在存储器110内的数据，执行服务器100的各种功能和处理数据。可选的，处理器120可以包括一个或多个处理单元。存储器110可以为高速随机存取存储器，还可以为非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。需要说明的是，上述图1所示的结构仅是一种示例，本申请实施例对此不做限定。

参阅图2为本申请实施例提供的一种目标行为的识别方法的示例性流程图之一，该方法可应用于服务器，可包括以下流程：

S201，服务器获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标。

服务器可以通过图像识别算法获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标。其中，目标可以包括人、设备、车辆、车牌等。例如，可以先对图像进行预处理，然后通过特征提取和分类识别确定图像中各个目标的第一位置坐标。其中预处理方法可以包括均值滤波等图像降噪方法以及直方图均衡化等图像增强方法。特征提取方法可以包括尺度不变特征变换（Scale-Invariant Feature Transform，SIFT）等算法。分类识别算法可以包括支持向量机等算法。

在一个示例中，针对目标场景采集的图像可以是服务器通过图1所示通信接口130获取到的。如，服务器可以与摄像设备相连，并通过通信接口获取摄像设备拍摄的目标场景的视频中的一帧或多帧图像。可选的，服务器还可以通过通信接口获取摄像设备拍摄的图像。

在另一个示例中，针对目标场景采集的图像还可以是目标场景的工作人员将车辆检验过程的视频或图像传输到服务器中的。服务器可以将传输的图像或视频中的一帧或多帧图像本申请对图像的获取方式不作限定。

在一种可能的实现方式中，服务器还可以通过上述用于获取各个目标的第一位置坐标的图像识别算法获取检验区域的第一位置坐标，以及车辆区域的第一位置坐标。

在又一种可能的实现方式中，服务器可以将图像输入至训练后的第一神经网络，训练后的第一神经网络可以用于检测图像中的一个或多个目标，并输出每个目标的第一位置坐标。服务器还可以通过训练后的第一神经网络检测检验区域的第一位置坐标，以及车辆区域的第一位置坐标。应了解，训练后的第一神经网络可以为基于图像或视频进行目标检测或关键点检测中的任意一种网络或任意一种衍生改进网络。例如，第一神经网络可以是CenterNet网络结构，本申请对此不作限定。

例如，参见图3为本申请实施例提供的图像检测效果示意图。图3中包括设备1、设备2、人员1、车辆区域和检验区域。服务器可以检测到图像中的设备1、设备2、人员1、车辆区域和检验区域，并获取设备1的第一位置坐标、设备2的第一位置坐标、人员1的第一位置坐标、车辆区域的第一位置坐标和检验区域的第一位置坐标。可选的，服务器可以将车辆区域的第一位置坐标作为车辆的第一位置坐标。

在一个示例中，参见图4为本申请实施例提供的检验区域和车辆区域示意图。以训练后的第一神经网络为CenterNet网络结构为例，通过该网络可以检测出一系列对应目标的关键点的位置坐标。由于在实际场景中车辆区域可能为一个封闭的平行四边形，因此可以将车辆区域的四个顶点用A₀，B₀，C₀，D₀进行表示，训练后的第一神经网络可以检测到A₀，B₀，C₀，D₀的横纵坐标，则车辆区域的中心点O的横纵坐标可以满足公式（1）。

公式（1）

其中, x _o为车辆区域的中心点O的横坐标，y _o为车辆区域的中心点O的纵坐标。

为A ₀点的横坐标，

为A ₀点的纵坐标。

为B₀点的横坐标，

为B₀点的纵坐标。

为C₀ 点的横坐标，

为C₀点的纵坐标。

为D₀点的横坐标，

为D₀点的纵坐标。

此外，检验区域也可为一个封闭的平行四边形，根据车辆区域的顶点和中心点的位置坐标，可以确定检验区域的四个顶点A₁，B₁，C₁，D₁的横纵坐标满足公式（2）。

公式（2）

其中，

为A ₁点的横坐标，

为A ₁点的纵坐标。

为B₁点的横坐标，

为B₁点的纵坐标。

为C₁点的横坐标，

为C₁点的纵坐标。

为D₁点的横坐标，

为D₁点的纵坐标。λ为检验区域在车辆区域X轴方向的扩展系数，μ为检验区域在车辆区域Y轴负半轴方向的扩展系数，θ为检验区域在车辆区域Y轴正半轴方向的扩展系数，且λ,θ,μ>0。

在另一种可能的实现方式中，训练后的第一神经网络可以包括多个用于目标检测或关键点检测的神经网络。举例来说，训练后的第一神经网络可以包括训练后的神经网络1、训练后的神经网络2和训练后的神经网络3。其中，训练后的神经网络1可以用于检测图像中的人，并输出检测到的人的第一位置坐标。训练后的神经网络2可以用于检测图像中的设备，并输出检测到的设备的第一位置坐标。训练后的神经网络3可以用于检测图像中的检验区域，并输出检测到的检验区域的第一位置坐标。

S202，服务器根据图像和各个目标的第一位置坐标确定各个目标的第一类别和各个目标的第一属性。

服务器可以基于图像识别算法，根据图像和S201获取的各个目标的第一位置坐标确定各个目标的第一类别和各个目标的第一属性。

其中，目标的第一类别可以包括人、车辆、车牌和设备等。目标的第一类别为人时，该目标的第一属性可以为工作人员或非工作人员等属性。例如，服务器可以通过识别第一类别为人的目标是否身穿指定工作服来确定该目标的第一属性为工作人员还是非工作人员。当该目标身穿指定工作服时可以确定该目标为的第一属性为工作人员，当该目标未穿着指定工作服时可以确定该目标为的第一属性为非工作人员。第一类别为车辆时，第一属性可以为车辆的颜色、车辆的车型、车辆的款式以及车辆的品牌等车辆属性。第一类别为设备时，第一属性可以为设备的名称以及设备的型号等属性。第一类别为车牌时，第一属性可以为车牌号码。

一种可能的实现方式中，服务器可以通过神经网络确定各个目标的第一类别和各个目标的第一属性。可以将图像以及S201得到的各个目标的第一位置坐标输入至训练后的第二神经网络，得到每个目标的第一类别和第一属性。应了解，训练后的第二神经网络可以为基于图像识别或分类的任意一种网络或任意一种衍生改进网络。例如，训练后的第二神经网络可以是卷积神经网络或深层聚合网络（Deep Layer Aggregation，DLA），本申请对此不做限定。

在一个示例中，服务器将图像以及S201得到的每个目标的第一位置坐标输入至训练后的第二神经网络后，训练后的第二神经网络可以根据S201得到的目标的第一位置坐标，去识别图像中该第一位置坐标处的目标的第一类别和第一属性。举例来说，假设训练后的第一神经网络检测到图像中存在A、B、C、D四个顶点构成的四边形目标框以及四个顶点的位置坐标。将A、B、C、D的第一位置坐标和图像输入至训练后的第二神经网络后，训练后的第二神经网络可以识别该目标框中的目标的第一类别和该目标的第一属性。

另一种可能的实现方式中，当训练后的第一神经网络可以用于检测检验区域的第一位置坐标，以及车辆区域的第一位置坐标时，训练后的第二神经网络可以根据检验区域的第一位置坐标，识别图像中检验区域内每个目标的第一类别和第一属性。训练后的第二神经网络还可以根据车辆区域的第一位置坐标识别车辆区域中的目标，并识别第一类别为车辆的目标的第一属性以及第一类别为车牌的第一属性。

举例来说，当训练后的第一神经网络检测到检验区域为图像中以E、F、G、H为顶点的平行四边形区域，并得到E、F、G、H四个顶点的第一位置坐标。此外训练后的第一神经网络还检测到检验区域内包括目标1、目标2、目标3和目标4，图像中检验区域外还包括目标5。训练后的第一神经网络检测到车辆区域为图像中以I、J、K、L为顶点的平行四边形区域，并得到I、J、K、L四个顶点的第一位置坐标。其中，车辆区域内包括目标3和目标4。则将图像、目标1的第一位置坐标、目标2的第一位置坐标、目标3的第一位置坐标、目标4的第一位置坐标、目标5的第一位置坐标、检验区域的四个顶点的第一位置坐标以及车辆区域的四个顶点的第一位置坐标输入至训练后的第二神经网络。则训练后的第二神经网络可以输出检验区域内每个目标的第一类别和第一属性。如：训练后的第二神经网络可以输出检验区域内包括的目标1的第一类别为人，目标1的第一属性为非工作人员。目标2的第一类别为设备，目标2的第一属性为该设备的名称为滚轮。目标3的第一类别为车辆，目标3的第一属性为该车辆的品牌为P、该车辆的颜色为灰色。目标4的第一类别为车牌，目标4的第一属性为车牌号码为XXXXXXX。还可以输出车辆区域内每个目标的第一类别，以及车辆区域内第一类别为车辆和车牌的目标的第一属性。如：车辆区域内包含的目标3的第一属性为该车辆的品牌为P、该车辆的颜色为灰色。目标4的第一类别为车牌，目标4的第一属性为车牌号码为XXXXXXX。此外，由于目标5在检验区域外，因此训练后的第二神经网络不会识别目标5的第一类别和第一属性。

可选的，训练后的第二神经网络还可以识别在检验区域内但不在车辆区域内的目标的第一类别，并在该目标的第一类别不为车辆和车牌时，识别该目标的第一属性。则上述示例中，训练后的第二神经网络可以输出以下识别结果：目标1的第一类别为人，目标1的第一属性为工作人员。目标2的第一类别为设备，目标2的第一属性为该设备的名称为滚轮。目标3的第一类别为车辆。目标4的第一类别为车牌。

在另一种可能的实现方式中，训练后的第二神经网络可以包括多个用于图像识别或分类的神经网络。举例来说，训练后的第二神经网络可以包括训练后的神经网络4和训练后的神经网络5。其中，训练后的神经网络4可以用于识别图像中每个目标的第一类别。训练后的神经网络5可以用于识别图像中每个目标的第一属性。本申请对此不作限定。

S203，服务器根据图像、各个目标的第一位置坐标、各个目标的第一类别和各个目标的第一属性确定第一目标的第一行为。

服务器可以基于行为识别算法，根据图像、S201获取的各个目标的第一位置坐标、S202得到的各个目标的第一类别和各个目标的第一属性确定第一目标的第一行为。其中，第一目标为第一类别为人的目标。第一行为可以包括目标场景的工作人员用于检验车辆的行为。行为识别算法可以包括改进的密集轨迹算法（Improved Dense Trajectories，IDT）等。本申请对此不作限定。

一种可能的实现方式中，服务器可以通过神经网络识别第一目标的第一行为。将S201得到的各个目标的第一位置坐标、S202得到的各个目标的第一属性和各个目标的第一类别以及图像输入至训练后的第三神经网络，并输出第一目标的第一行为。应了解，训练后的第三神经网络可以为基于图像或视频的行为识别网络或者基于图像或视频的行为理解网络中的任意一种网络或任意一种衍生改进网络。例如，训练后的第三神经网络可以为PoseC3D网络结构，本申请对此不作限定。

在一些示例中，服务器将图像、S201得到的各个目标的第一位置坐标、S202得到的各个目标的第一属性和各个目标的第一类别输入至训练后的第三神经网络后，训练后的第三神经网络可以根据第一目标的第一位置坐标识别第一目标的第一行为。进一步地，训练后的第三神经网络还可以根据第一属性为工作人员的第一目标的第一位置坐标识别该第一目标的第一行为。

一种可能的实现方式中，当训练后的第一神经网络可以用于检测检验区域的第一位置坐标时，训练后的第三神经网络可以根据检验区域的第一位置坐标，识别图像中检验区域内第一属性为工作人员的第一目标的第一行为。举例来说，当检验区域中包括目标6和目标7，图像中检验区域外包括目标8。其中，训练后的第二神经网络识别到目标6的第一类别为人，第一属性为该人员为工作人员。目标7的第一类别为设备，第一属性为滚轮。则训练后的第三神经网络可以根据目标6的第一位置坐标识别目标6的第一行为。其中，第一行为可以包括打开引擎盖、打开车门等行为。

参见图5为本申请实施例提供的整体网络结构示意图。服务器利用神经网络确定图像中第一目标的第一行为时，可以采用如图5所示的网络结构进行识别。服务器将图像输入至训练后的第一神经网络可以得到目标的第一位置坐标。然后服务器还可以将图像以及目标的第一位置坐标输入至训练后的第二神经网络得到目标的第一类别和第一属性。服务器再将图像、目标的第一位置坐标、目标的第一类别和第一属性输入至训练后的第三神经网络可以得到目标的第一行为。

基于上述方案，通过训练后的第一神经网络执行目标检测的任务，通过训练后的第二神经网络执行类别和属性的识别任务以及通过训练后的第三神经网络能够使得整体网络结构简单、逻辑清晰、分工明确并且信息共享，可以很大限度地发挥各个神经网络的效果。

在一种可能的实现方式中，服务器可以获取针对目标场景采集的多帧图像和预设的数据库中存储的参考行为。服务器可以根据多帧图像、多帧图像中各个目标的第一位置坐标、多帧图像中各个目标的第一类别、多帧图像中各个目标的第一属性确定多帧图像中第一目标的N个第一行为，其中N为正整数。然后将第一目标的N个第一行为与参考行为进行比对，确定目标场景的工作是否准确。可选的，服务器还可以通过训练后的第三神经网络识别多帧图像中第一目标的N个第一行为。

在一些示例中，服务器可以确定第一目标的N个第一行为中包括的参考行为的第一数量。服务器还可以确定数据库中包括的参考行为的数量。当第一数量与参考行为的数量的比值大于或等于预设比值时，服务器可以确定目标场景的工作准确。当第一数量与参考行为的数量的比值小于预设比值时，服务器可以确定目标场景的工作不准确。

在另一种可能的实现方式中，服务器还可以确定第一属性为工作人员的第一目标的M个第一行为，M为正整数。例如，服务器可以通过训练后的第三神经网络识别多帧图像中工作人员用于检验车辆的M个第一行为，并将工作人员的N个第一行为与参考行为进行比对确定目标场景的工作是否准确。

进一步地，服务器可以确定第一属性为工作人员的第一目标的M个第一行为中包括的参考行为的第二数量。当第二数量与参考行为的数量的比值大于或等于预设比值时，服务器可以确定目标场景的工作准确。当第二数量与参考行为的数量的比值小于预设比值时，服务器可以确定目标场景的工作不准确。

在另一些示例中，服务器还可以根据预设数据库存储的参考行为，判断第一目标的N个第一行为中是否包含该参考行为。参见表1为本申请实施例提供的参考行为与第一行为对照表。例如，服务器将表1中“有”的数量作为上述第一数量，从而根据上述方法确定目标场景的工作是否准确。

表1 参考行为与第一行为对照表

基于上述方案，通过对比参考行为和第一目标的N个的第一行为，可以判断出检验人员是否存在检验疏忽或者有意规避的情况。

在一种可能的实现方式中，由于工作人员使用不同的设备检验车辆时，检验车辆的项目可能不同，行为也会有所不同，因此服务器还可以确定第一类别为设备的目标的第一属性，根据该第一属性获取预设的数据库中存储的参考行为。如识别到的第一类别为设备的目标的第一属性为设备的型号为目标型号，则可以获取预设数据库中该目标型号对应的参考行为。从而确定目标场景的工作是否准确。

进一步地，服务器可以通过训练后的第二神经网络识别到第一类别为设备的目标的第一属性。通过该第一属性获取预设的数据库中该第一属性对应的参考行为，服务器可以将训练后的第三神经网络识别到的第一属性为工作人员的第一目标的M个第一行为与该第一属性对应的参考行为进行比对确定目标场景的工作是否准确。举例来说，训练后的第二神经网络识别到图像中的目标9的第一类别为设备，目标9的第一属性为该设备的型号为型号A，则服务器可以获取预设的数据库中型号A对应的参考行为。然后将训练后的第三神经网络识别到的第一属性为工作人员的第一目标的M个第一行为与型号A对应的参考行为进行比对确定目标场景的工作是否准确。

可选的，服务器还可以根据训练后的第二神经网络识别到的第一类别为设备的目标的第一属性确定车辆检验的项目的种类，根据车辆检验的项目的种类获取预设的数据库中该项目种类对应的参考行为。然后服务器可以将训练后的第三神经网络识别到的工作人员用于检验车辆的至少一个第一行为与该项目种类对应的参考行为进行比对确定目标场景的工作是否准确。

基于上述方案，通过训练后的第一神经网络、训练后的第二神经网络和训练后的第三神经网络之间相互约束，相比于通过单一神经网络检验工作人员的工作是否规范，通过本申请实施例提供的目标行为的识别方法检验车辆检验站工作人员的工作时具有更高的准确率。

一种可能的实现方式中，为了避免车辆的替检，服务器通过训练后的第二神经网络识别到第一类别为车牌的第一属性，如车牌号码。根据车牌号码可以获取预设的数据库中该车牌号码对应的车辆的第三属性。第三属性可以包括车辆的颜色、车辆的品牌、车辆的型号等属性。并将获取的第三属性与训练后的第二神经网络识别到的第一类别为车辆的目标的第一属性进行对比确定该车辆是否为数据库中的登记车辆。可选的，服务器可以确定当车辆的第一属性与第三属性均相同时，确定该车辆为登记车辆，否则，可以确定该车辆不为登记车辆。举例来说，参见图6为本申请实施例提供的车辆属性对比结果示意图。如图6所示，该车辆的第一属性与数据库中该车辆车牌号码对应的车辆的第三属性均相同。因此可以确定该车辆为数据库中的登记车辆。

下面，为了能够更加清晰地理解本申请实施例提出的方案，将结合具体地实施例对本申请提供的一种目标行为的识别方法进行介绍。

参阅图7，为本申请实施例提供的一种目标行为的识别方法的示例性流程图之一，包括：首先服务器获取图像，并将该图像输入训练后的第一神经网络输出车辆区域的第一位置坐标以及图像中各个目标的第一位置坐标。服务器将车辆区域的第一位置坐标和图像中各个目标的第一位置坐标输入至训练后的第二神经网络，可以对车辆区域内的目标的第一类别和第一属性进行识别。可以得到第一类别为车牌的目标的第一属性，也就是该车牌的车牌号码。还可以得到第一类别为车辆的第一属性。服务器通过该车牌号码获取数据库中预存的该车牌号码对应的车辆的第三属性。服务器可以将车辆的第一属性和车辆的第三属性进行比对确定车辆比对结果。其中，车辆比对结果可以包括该车辆为数据库中的登记车辆或该车辆不为数据库中的登记车辆。

此外，训练后的第一神经网络还可以输出检验区域的第一位置坐标。服务器还可以将检验区域的第一位置坐标输入至训练后的第二神经网络，可以得到检验区域中第一类别为设备的目标的第一属性也就是图7中的设备属性，以及第一类别为人的目标的第一属性也就是图7中的人员属性。服务器可以根据设备属性获取预设数据库中设备属性对应的参考行为。服务器还可以将图像、检验区域的第一位置坐标、第一类别为人的目标的位置坐标输入训练后的第三神经网络可以得到第一类别为人的目标的第一行为也就是图7中的人员行为。然后服务器可以确定人员行为中第一属性为工作人员的目标的第一行为。服务器可以再将第一属性为该人员为工作人员的目标的第一行为与获取到的设备属性对应的参考行为进行比对确定行为检验结果。其中，行为检验结果可以为工作人员的行为准确或工作人员的行为不准确，确定行为检验结果的方法可以参见图2所示方法实施例中的相关描述，在此不再赘述。

最后服务器可以根据车辆比对结果和行为检验结果确定目标场景的工作检验结果。其中目标场景的工作检验结果可以为目标场景的工作准确或目标场景的工作不准确。

基于上述方案，通过对车辆比对结果不仅可以辅助工作人员对检验车辆进行快速的检验和核对，提高检验效率还可以预防替检的情况发生。通过行为检验结果可以监督检验员是否按照指定流程完成检验工作，防止检验疏漏或作弊行为的发生，可以为后续的行车安全带来保障。

在又一种可能的实现方式中，由于目标场景中，例如在实际的车辆检验站场景下，可能是在一条检验流水线上的各个不同的工位上对不同的车辆进行检验工作。因此基于本申请实施例提供的目标行为的识别方法，还可以实现对图像中多个不同工位分别确定不同工位的工作是否准确。

参见图8为本申请实施例提供的多工位的目标行为的识别示意图。图8中包括流水线1和流水线2，其中，流水线1包括检验区域1和检验区域2，流水线2包括检验区域3和检验区域4。每个检验区域中均可以包括车辆、设备、人等目标，可以根据如图2所示的方法实施例中的方法或如图7所示的方法实施例中的方法对每个检验区域进行分别检验，在此不再赘述。应了解，每个检验区域可以执行相同的检验工作，也可以执行不同的检验工作，图8中所示的工位数量以及流水线数量均为示例性的，本申请对此不作限定。

基于上述方案，由于每个检验区域内有各自的车辆、人员以及设备，各个检验区域之间相互独立。可以提高对车辆检验站工作进行检验的效率。

参阅图9为本申请实施例提供的一种神经网络的训练方法的示例性流程图，上述训练后的第一神经网络、训练后的第二神经网络和训练后的第三神经网络可以是通过该方法训练的。该方法可包括以下流程：

S901，获取训练样本集。

其中，训练样本集包括至少一帧图像以及每帧图像的标签，标签包括每帧图像中各个目标的第二位置坐标、每帧图像中的目标的第二类别、每帧图像中各个目标的第二属性和每帧图像中的第二目标的第二行为，第二目标为每帧图像中第二类别为人的目标。

一种可能的实现方式中，每帧图像的标签还可以包括每帧图像中检验区域的第二位置坐标以及每帧图像中车辆区域的第二位置坐标。

S902，训练第一神经网络、第二神经网络和第三神经网络。

参见图10为本申请实施例提供的网络训练信息流动图。如图10所示将训练样本集中的第一图像输入至第一神经网络，可以得到第一输出，其中，第一输出包括各个目标的预测位置坐标。然后可以根据第一输出和第一图像的标签计算第一损失值，也就是可以根据各个目标的预测位置坐标和各个目标的第二位置坐标计算第一损失值。将第一图像和第一输出输入至第二神经网络，可以得到第二输出。其中，第二输出包括目标的预测类别和预测属性。根据第二输出和第一图像的标签可以计算第二损失值，也就是根据各个目标的预测类别和各个目标的预测属性以及各个目标的第二类别和各个目标的第二属性可以计算第二损失值。然后将第一图像、第一输出以及第二输出输入至第三神经网络，可以得到第三输出。其中，第三输出可以包括第三目标的行，第三目标为预测类别为人的目标。根据第三输出和第一图像的标签可以计算第三损失值，也就是根据第二行为和预测行为可以计算第三损失值。应了解，用于计算第一损失值、第二损失值以及第三损失值的损失函数可以根据实际情况以及经验进行设置，本申请对此不作限定。

一种可能的实现方式中，每帧图像的标签包括每帧图像中检验区域的第二位置坐标以及每帧图像中车辆区域的第二位置坐标时，将训练样本集中的第一图像输入至第一神经网络，还可以得到检验区域的预测位置坐标和车辆区域的预测位置坐标。从而可以根据检验区域的预测位置坐标和检验区域的第二位置坐标计算第一损失值。还可以根据车辆区域的预测位置坐标和检验区域的第二位置坐标计算第一损失值。从而使得训练后的第一神经网络可以用于检测检验区域的第一位置坐标和车辆区域的第一位置坐标。

S903，计算第四损失值。

可以通过第一损失值、第二损失值和第三损失值的加权结果计算第四损失值，第四损失值可以满足公式（3）。

loss _t =α·loss ₁ +β·loss ₂ +γ·loss ₃ 公式（3）

其中，loss _t表示第四损失值，loss ₁表示第一损失值，loss ₂表示第二损失值，loss ₃表示第三损失值，并且loss ₁∈(0,1)、loss ₂∈(0,1)、loss ₃∈(0,1)、loss _t∈[0,1]。α为第一损失值的权重，β为第二损失值的权重，γ为第三损失值的权重，并且满足α+β+γ=1。应了解，α、β、γ均为根据实际情况以及经验预设的本申请对此不作限定。

S905，判断第四损失值是否达到预设的目标损失值。

当第四损失值达到预设的目标损失值时执行S906，当第四损失值未达到预设的目标损失值时执行S902。

S906，结束训练。

当第四损失值达到预设的目标损失值时结束训练获得训练后的第一神经网络、训练后的第二神经网络和训练后的第三神经网络。

基于上述方法的同一构思，参见图11，为本申请实施例提供的一种目标行为的识别装置1100，装置1100能够执行上述方法中的各个步骤，为了避免重复，此处不再详述。该装置1100包括获取单元1101和处理单元1102。在一种场景下：

获取单元1101，用于获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标；处理单元1102，用于根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性；根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为；所述第一目标为所述至少一个目标中所述第一类别为人的目标。

在一种可能的实现方式中，所述获取单元1101，用于获取针对目标场景采集的多帧图像和预设的数据库中存储的参考行为；

所述处理单元1102根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为时，具体用于：根据所述多帧图像、所述多帧图像中各个目标的第一位置坐标、所述多帧图像中各个目标的第一类别和所述多帧图像中各个目标的第一属性确定所述第一目标的N个第一行为，所述N为正整数；根据所述参考行为以及所述第一目标的N个第一行为，确定所述目标场景的工作是否准确。

在一种可能的实现方式中，所述处理单元1102根据所述参考行为以及所述第一目标的N个第一行为，确定所述目标场景的工作是否准确时，具体用于：确定所述N个第一行为中包括的所述参考行为的第一数量；当所述第一数量与所述参考行为的数量的比值大于或等于预设比值时，确定所述目标场景的工作准确；当所述第一数量与所述参考行为的数量的比值小于预设比值时，确定所述目标场景的工作不准确。

在一种可能的实现方式中，所述至少一个目标的第一类别还包括设备，所述第一类别为设备的目标的第一属性包括所述设备的型号为目标型号；所述获取单元1101获取预设的数据库中存储的参考行为时，具体用于：获取所述数据库中存储的所述目标型号对应的参考行为。

在一种可能的实现方式中，所述获取单元1101还用于获取针对所述目标场景采集的图像中检验区域的第一位置坐标；所述处理单元1102根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性时，具体用于：根据所述图像、所述各个目标的第一位置坐标和所述检验区域的第一位置坐标确定所述检验区域内的各个目标的第一类别和所述检验区域内的各个目标的第一属性；所述处理单元1102根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为时，具体用于：根据所述图像、所述检验区域的第一位置坐标、所述各个目标的第一位置坐标、所述检验区域内的各个目标的第一类别和所述检验区域内的各个目标的第一属性确定所述检验区域内的第一目标的第一行为。

在一种可能的实现方式中，所述获取单元1101获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标时，具体用于：将所述图像输入至所述训练后的第一神经网络，得到所述至少一个目标的第一位置坐标；所述处理单元1102根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性时，具体用于：将所述图像和所述各个目标的第一位置坐标输入至训练后的第二神经网络，得到所述各个目标的第一类别和所述各个目标的第一属性；所述处理单元1102根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为时，具体用于：将所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性输入至训练后的第三神经网络，得到所述第一目标的第一行为。

基于上述方法的同一构思，参见图12，为本申请实施例提供电子设备，该电子设备包括处理器1201和存储器1202。存储器1202，用于存储计算机指令，处理器1201，与所述存储器连接，用于执行所述存储器中的计算机指令，且在执行所述计算机指令时实现上述任一方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行上述任一方法的步骤。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

虽然以上描述了本申请的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本申请的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本申请的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本申请的保护范围。尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种目标行为的识别方法，其特征在于，包括：

获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标；

根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性；

根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定第一目标的第一行为；所述第一目标为所述至少一个目标中所述第一类别为人的目标。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取针对目标场景采集的多帧图像和预设的数据库中存储的参考行为；

所述根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定所述第一目标的第一行为，具体包括：

根据所述多帧图像、所述多帧图像中各个目标的第一位置坐标、所述多帧图像中各个目标的第一类别和所述多帧图像中各个目标的第一属性确定所述第一目标的N个第一行为，所述N为正整数；

根据所述参考行为以及所述第一目标的N个第一行为，确定所述目标场景的工作是否准确。

3.根据权利要求2所述的方法，其特征在于，所述根据所述参考行为以及所述第一目标的N个第一行为，确定所述目标场景的工作是否准确，具体包括：

确定所述N个第一行为中包括的所述参考行为的第一数量；

当所述第一数量与所述参考行为的数量的比值大于或等于预设比值时，确定所述目标场景的工作准确；

当所述第一数量与所述参考行为的数量的比值小于预设比值时，确定所述目标场景的工作不准确。

4.根据权利要求2或3所述的方法，其特征在于，所述至少一个目标的第一类别还包括设备，所述第一类别为设备的目标的第一属性包括所述设备的型号为目标型号；

所述获取预设的数据库中存储的参考行为，具体包括：

获取所述数据库中存储的所述目标型号对应的参考行为。

5.根据权利要求1所述的方法，其特征在于，还包括：

获取针对所述目标场景采集的图像中检验区域的第一位置坐标；

所述根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性，具体包括：

根据所述图像、所述各个目标的第一位置坐标和所述检验区域的第一位置坐标确定所述检验区域内的各个目标的第一类别和所述检验区域内的各个目标的第一属性；

根据所述图像、所述检验区域的第一位置坐标、所述各个目标的第一位置坐标、所述检验区域内的各个目标的第一类别和所述检验区域内的各个目标的第一属性确定所述检验区域内的第一目标的第一行为。

6.根据权利要求1所述的方法，其特征在于，所述第一目标的第一属性包括目标为工作人员；所述第一行为包括所述工作人员检验车辆的行为。

7.根据权利要求1所述的方法，其特征在于，所述获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标，具体包括：

将所述图像输入至训练后的第一神经网络，得到所述至少一个目标的第一位置坐标；

将所述图像和所述各个目标的第一位置坐标输入至训练后的第二神经网络，得到所述各个目标的第一类别和所述各个目标的第一属性；

将所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性输入至训练后的第三神经网络，得到所述第一目标的第一行为。

8.根据权利要求7所述的方法，其特征在于，所述训练后的第一神经网络、所述训练后的第二神经网络和所述训练后的第三神经网络是通过以下方法训练的：

获取训练样本集；所述训练样本集包括至少一帧图像以及每帧图像的标签，所述标签包括所述每帧图像中各个目标的第二位置坐标、所述每帧图像中的所述各个目标的第二类别、所述每帧图像中的所述各个目标的第二属性和所述每帧图像中的第二目标的第二行为；所述第二目标为所述每帧图像中所述第二类别为人的目标；

将第一图像输入至第一神经网络，得到所述各个目标的预测位置坐标；所述第一图像为所述至少一帧图像中的任一帧图像；

根据所述各个目标的预测位置坐标和所述各个目标的第二位置坐标计算第一损失值；

将所述第一图像和所述各个目标的预测位置坐标输入至第二神经网络，得到所述各个目标的预测类别和预测属性；

根据所述各个目标的预测类别和所述各个目标的预测属性以及所述各个目标的所述第二类别和所述各个目标的第二属性计算第二损失值；

将所述第一图像、所述各个目标的预测位置坐标、所述各个目标的预测属性和所述各个目标的预测类别输入至第三神经网络得到第三目标的预测行为；所述第三目标为所述预测类别为人的目标；

根据所述预测行为和所述第二行为计算第三损失值；

根据所述第一损失值、所述第二损失值和所述第三损失值确定第四损失值；

根据所述第四损失值调整所述第一神经网络的参数、第二神经网络的参数和第三神经网络的参数，直到所述第四损失值达到预设的目标损失值时结束训练，获得所述训练后的第一神经网络、所述训练后的第二神经网络和所述训练后的第三神经网络。

9.一种目标行为的识别装置，其特征在于，包括：

获取单元，用于获取针对目标场景采集的图像中包含的至少一个目标中各个目标的第一位置坐标；

处理单元，用于根据所述图像和所述各个目标的第一位置坐标确定所述各个目标的第一类别和所述各个目标的第一属性；根据所述图像、所述各个目标的第一位置坐标、所述各个目标的第一类别和所述各个目标的第一属性确定第一目标的第一行为；所述第一目标为所述至少一个目标中所述第一类别为人的目标。

10.一种电子设备，其特征在于，包括：

存储器，用于存储计算机指令；

处理器，与所述存储器连接，用于执行所述存储器中的计算机指令，且在执行所述计算机指令时实现如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，包括：

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1至8中任一项所述的方法。