CN113901895B

CN113901895B - 一种车辆的开门动作识别方法、装置以及处理设备

Info

Publication number: CN113901895B
Application number: CN202111110284.6A
Authority: CN
Inventors: 姜英豪; 朱星
Original assignee: Wuhan Future Phantom Technology Co Ltd
Current assignee: Wuhan Future Phantom Technology Co Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-09-27
Anticipated expiration: 2041-09-18
Also published as: CN113901895A

Abstract

本申请提供了一种车辆的开门动作识别方法、装置以及处理设备，用于高效且高精度地识别车辆的开门动作，提供强有力的数据依据。方法包括：处理设备获取在车辆内部采集到的初始监控视频；处理设备对初始监控视频包含的每个视频帧进行人脸识别处理；处理设备筛选出相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果，并将对应的视频帧确定为起始视频帧；处理设备将多个人脸识别结果对应的最后一个视频帧的下一个视频帧确定为结束视频帧；处理设备以起始视频帧为起点、以结束视频帧为终点，确定视频帧集合，并对视频帧集合中的每个视频帧进行开门动作识别处理；处理设备根据多个初始开门动作识别结果，确定目标开门动作识别结果。

Description

一种车辆的开门动作识别方法、装置以及处理设备

技术领域

本申请涉及车辆领域，具体涉及一种车辆的开门动作识别方法、装置以及处理设备。

背景技术

对于车辆上驾驶员的驾驶状态的识别，可应用于驾驶员状态监控、无人驾驶甚至驾考评估等方面，且随着国内车辆持有量的不断增长，对于海量驾驶员的管理也存在一定的难度，因此在该背景下，自动且精确地识别车辆上驾驶员的驾驶状态，存在其市场需求。

如今，引入图像识别来识别车辆上驾驶员的驾驶状态，为一大解决方案，在人工智能(Artificial Intelligence，AI)的基础上，通过训练深度学习模型来完成对输入图像中的驾驶员的驾驶状态的识别。

而在现有的相关技术的研究过程中，发明人发现，现有的识别模型在应用过程中，存在一定的识别效率低下的问题，而这一定程度上还会影响到识别精度。

发明内容

本申请提供了一种车辆的开门动作识别方法、装置以及处理设备，用于高效且高精度地识别车辆的开门动作，提供强有力的数据依据。

第一方面，本申请提供了一种车辆的开门动作识别方法，方法包括：

处理设备获取在车辆内部采集到的初始监控视频，初始监控视频是通过部署在车辆内部的摄像头采集得到的；

处理设备对初始监控视频包含的每个视频帧进行人脸识别处理，得到多个人脸识别结果，多个人脸识别结果对应连续的视频帧；

处理设备对多个人脸识别结果，筛选出相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果，并将对应的视频帧确定为起始视频帧；

处理设备将多个人脸识别结果对应的最后一个视频帧的下一个视频帧确定为结束视频帧；

处理设备以起始视频帧为起点、以结束视频帧为终点，确定视频帧集合，并对视频帧集合中的每个视频帧进行开门动作识别处理；

处理设备根据视频帧集合中的每个视频帧得到的多个初始开门动作识别结果，确定目标开门动作识别结果。

结合本申请第一方面，在本申请第一方面第一种可能的实现方式中，处理设备对视频帧集合中的每个视频帧进行开门动作识别，包括：

处理设备将视频帧集合中的每个视频帧依次输入目标神经网络模型，使得目标神经网络模型对输入的视频帧进行开门动作识别处理，目标神经网络是通过标注有对应开门动作识别结果的视频帧训练MobileNetV3模型得到的。

结合本申请第一方面第一种可能的实现方式，在本申请第一方面第二种可能的实现方式中，在训练的过程中，包括：

在MobileNetV3模型中调整多个Mobile Block模型结构中的卷积层的通道数以及对MobileNetV3模型中的模型结构进行剪枝处理，完成模型的优化改进。

结合本申请第一方面，在本申请第一方面第三种可能的实现方式中，处理设备根据视频帧集合中的每个视频帧得到的多个初始开门动作识别结果，确定目标开门动作识别结果，包括：

处理设备检测多个初始开门动作识别结果中是否包含连续的、不小于预设数量的目标开门动作识别结果；

若是，则处理设备确定目标开门动作识别结果。

结合本申请第一方面，在本申请第一方面第四种可能的实现方式中，人脸识别处理和/或开门动作识别处理，由处理设备配置的AI加速单元执行。

结合本申请第一方面，在本申请第一方面第五种可能的实现方式中，开门动作识别结果包括左手开门识别结果、右手开门识别结果或者双手开门识别结果。

结合本申请第一方面，在本申请第一方面第六种可能的实现方式中，确定目标开门动作识别结果之后，方法还包括：

处理设备结合目标开门动作识别结果，以及车辆在当前驾考场景中除目标开门动作识别结果以外的驾考数据，生成并输出车辆的驾考结果；

或者，

处理设备将目标开门动作识别结果输出至当前驾考场景涉及的计算设备，使得计算设备根据目标开门动作识别结果，以及车辆在当前驾考场景中除开门动作识别结果以外的驾考数据，生成并输出车辆的驾考结果。

第二方面，本申请提供了一种车辆的开门动作识别装置，装置包括：

获取单元，用于获取在车辆内部采集到的初始监控视频，初始监控视频是通过部署在车辆内部的摄像头采集得到的；

人脸识别单元，用于对初始监控视频包含的每个视频帧进行人脸识别处理，得到多个人脸识别结果，多个人脸识别结果对应连续的视频帧；

确定单元，用于对多个人脸识别结果，筛选出相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果，并将对应的视频帧确定为起始视频帧；

确定单元，还用于将多个人脸识别结果对应的最后一个视频帧的下一个视频帧确定为结束视频帧；

确定单元，还用于以起始视频帧为起点、以结束视频帧为终点，确定视频帧集合；

开门动作识别单元，用于对视频帧集合中的每个视频帧进行开门动作识别处理；

确定单元，还用于根据视频帧集合中的每个视频帧得到的多个初始开门动作识别结果，确定目标开门动作识别结果。

结合本申请第二方面，在本申请第二方面第一种可能的实现方式中，开门动作识别单元，具体用于：

将视频帧集合中的每个视频帧依次输入目标神经网络模型，使得目标神经网络模型对输入的视频帧进行开门动作识别处理，目标神经网络是通过标注有对应开门动作识别结果的视频帧训练MobileNetV3模型得到的。

结合本申请第二方面第一种可能的实现方式，在本申请第二方面第二种可能的实现方式中，在训练的过程中，包括：

结合本申请第二方面，在本申请第二方面第三种可能的实现方式中，确定单元，具体用于：

检测多个初始开门动作识别结果中是否包含连续的、不小于预设数量的目标开门动作识别结果；

若是，则确定目标开门动作识别结果。

结合本申请第二方面，在本申请第二方面第四种可能的实现方式中，人脸识别处理和/或开门动作识别处理，由处理设备配置的AI加速单元执行。

结合本申请第二方面，在本申请第二方面第五种可能的实现方式中，开门动作识别结果包括左手开门识别结果、右手开门识别结果或者双手开门识别结果。

结合本申请第二方面，在本申请第二方面第六种可能的实现方式中，装置还包括输出单元，用于：

结合目标开门动作识别结果，以及车辆在当前驾考场景中除目标开门动作识别结果以外的驾考数据，生成并输出车辆的驾考结果；

或者，

将目标开门动作识别结果输出至当前驾考场景涉及的计算设备，使得计算设备根据目标开门动作识别结果，以及车辆在当前驾考场景中除开门动作识别结果以外的驾考数据，生成并输出车辆的驾考结果。

第三方面，本申请提供了一种处理设备，包括处理器和存储器，存储器中存储有计算机程序，处理器调用存储器中的计算机程序时执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

从以上内容可得出，本申请具有以下的有益效果：

针对于车辆的开门动作识别，相比于现有技术中对监控视频全局进行笼统的动作识别处理来识别出开门动作，本申请先执行较为成熟的人脸识别处理，并筛选出相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果，以其对应的视频帧确定为起始视频帧，再以多个人脸识别结果对应的最后一个视频帧的下一个视频帧确定为结束视频帧，接着以这两者确定视频帧集合并对视频帧集合中的每个视频帧进行本申请特别配置的开门动作识别处理，在上这过程中，由于通过较为成熟的人脸识别处理进行了初步的视频帧筛选，不仅数据处理难度较低，并且有效地降低了后续开门动作识别处理的数据处理量，而后开门动作识别处理为本申请特别配置的处理，因此又可高精度地识别出开门动作，如此完成高效且高精度地识别车辆的开门动作，提供强有力的数据依据。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种车辆的开门动作识别方法的一种流程示意图；

图2为本申请一种车辆的开门动作识别装置的一种结构示意图；

图3为本申请一种车辆的开门动作识别方法的又一种流程示意图；

图4为本申请处理设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

本申请中所出现的模块的划分，是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

在介绍本申请提供的车辆的开门动作识别方法之前，首先介绍本申请所涉及的背景内容。

本申请提供的车辆的开门动作识别方法、装置以及计算机可读存储介质，可应用于处理设备，用于高效且高精度地识别车辆的开门动作，提供强有力的数据依据。

本申请提及的车辆的开门动作识别方法，其执行主体可以为车辆的开门动作识别装置，或者集成了该车辆的开门动作识别装置的服务器、物理主机或者用户设备(UserEquipment，UE)、车载终端甚至为车辆等不同类型的处理设备。其中，装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备，处理设备可以通过设备集群的方式设置。

下面，开始介绍本申请提供的方法。

首先，参阅图1，图1示出了本申请车辆的开门动作识别方法的一种流程示意图，本申请提供的车辆的开门动作识别方法，具体可包括如下步骤：

步骤S101，处理设备获取在车辆内部采集到的初始监控视频，初始监控视频是通过部署在车辆内部的摄像头采集得到的；

可以理解，在本申请中，摄像头可以为车辆内部本身配置的摄像头，也可以为本申请所提供的处理设备包含的摄像头，或者也可以为应用本申请所配置的摄像头，具体在此不做限定。

该摄像头，对应于本申请的开门动作识别处理，其视野中是包含了车门位置的，调整其安装位置以及摄像头姿态即可；其次，由于本申请还涉及了人脸识别处理，因此摄像头的安装位置以及摄像头姿态，应当还满足驾驶员在正常行驶过程中或者开门动作过程中还可拍摄到其人脸的要求。

可以理解，摄像头其采集的监控视频，是包含了多张且连续的视频帧的。

此外，对于初始监控视频的获取，其既可以是从摄像头处直接获取的，也可以是从本地存储空间获取的，还可以是从其他存储有监控视频的设备处获取的，具体可随实际情况调整。

举例而言，摄像头可以为成本较为低廉的单目摄像头(单目相机)，而对于初始监控图像，其在实际应用中，基于数据精简化的目的，还可能是压缩得到的，即，按照一定的帧间隔，从原始的监控视频包含的所有视频帧中，抽取出视频帧，这些抽取出的视频帧则可作为新的监控视频。

步骤S102，处理设备对初始监控视频包含的每个视频帧进行人脸识别处理，得到多个人脸识别结果，多个人脸识别结果对应连续的视频帧；

可以理解，在获取到监控视频后，本申请在执行开门动作识别处理之前，引入了人脸识别处理，用于在监控视频中过滤未存在人脸，即未存在驾驶员或者其他人员的视频帧。

本申请认为，当存在车辆内部的人员发起开门动作时，其在监控视频中应当出现人脸。

需要说明的是，在步骤S102中，人脸识别处理，一般是通过深度学习模型，或者说神经网络模型实现的，在本申请中，考虑到采用现有的人脸识别技术较为成熟，因此可直接采用，当然，也存在对现有的人脸识别技术进行优化甚至应用全新的人脸识别技术的可能。

其中，人脸识别处理，不仅是可以识别出视频帧中包含的完整人脸，在一些应用场景中，也可识别出部分人脸，甚至还可能出现未存在人脸的情况。

可以理解，在本申请中，人脸识别处理的识别目标是为了识别出视频帧中是否包含人脸，因此，除了基于人脸的面部特征，也可基于脸部、头部的轮廓特征等其他特征，来间接确定是否存在人脸，即，若确定了存在用户的头部，显然，也可间接确定存在用户的人脸。

步骤S103，处理设备对多个人脸识别结果，筛选出相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果，并将对应的视频帧确定为起始视频帧；

在获得人脸识别结果后，则可根据这些人脸识别结果，发起开门动作识别处理。

可以理解，本申请引入人脸识别处理的目的，是为了有效地精简化开门动作识别处理的数据处理规模，因此其还可有效地配置其识别范围。

对于识别范围的起始位置，本申请具体配置为相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果所对应的视频帧。

可以理解，本申请还结合了实际应用场景，进一步的认为，当车辆中的驾驶员或者其他用户存在开门并且施加开门动作时，其还存在着转头、扭头等头部的活动动作，在这过程中，存在着姿态的变化，甚至人脸、头部也可能存在着空间位置的变化，而这本申请通过人脸摆动幅度来量化。

该人脸摆动幅度，既可以是人脸的姿态变化幅度，也可以是人脸的空间位置变化幅度。

其中，该数量N，不小于1，具体数值可随实际情况调整，在此不做限定。

步骤S104，处理设备将多个人脸识别结果对应的最后一个视频帧的下一个视频帧确定为结束视频帧；

而对于开门动作识别处理的结束位置，本申请则配置为多个人脸识别结果对应的最后一个视频帧的下一个视频帧，可以理解，该结束视频帧，本身未识别出人脸。

步骤S105，处理设备以起始视频帧为起点、以结束视频帧为终点，确定视频帧集合，并对视频帧集合中的每个视频帧进行开门动作识别处理；

此时，在确定了起始视频帧以及结束视频帧后，则可从原来的初始监控视频包含的、连续的视频帧中，确定出以起始视频帧为起点、以结束视频帧为终点的连续视频帧，得到一视频帧集合。

此时，该视频帧集合所包含的视频帧，即为本申请开门动作识别处理的目标，因此，可针对这些视频帧在图像处理层面上，执行开门动作识别处理。

与上述的人脸识别处理类似的，此处的开门动作识别处理也是通过的深度学习模型，或者说神经网络模型实现。

可以理解的是，在现有技术中，对于车辆内驾驶员或者其他用户的动作识别，一般是针对所有的视频帧进行的动作识别，而非如本申请专门针对存在人脸的视频帧执行的动作识别，因此其具有大量的无效识别。

并且，本申请是直接针对开门动作识别，对应于模型，则直接配置的开门动作识别模型，因此，本申请执行的开门动作识别处理，对于开门动作的识别，具有更高的针对性，即，具有更高的识别精度。

步骤S106，处理设备根据视频帧集合中的每个视频帧得到的多个初始开门动作识别结果，输出目标开门动作识别结果。

此时，当得到视频帧集合中的每个视频帧对应的开门动作识别结果后，则可结合这些识别结果，进行分析，得到可以进行输出的一目标开门动作识别结果。

从图1所示实施例可看出，针对于车辆的开门动作识别，相比于现有技术中对监控视频全局进行笼统的动作识别处理来识别出开门动作，本申请先执行较为成熟的人脸识别处理，并筛选出相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果，以其对应的视频帧确定为起始视频帧，再以多个人脸识别结果对应的最后一个视频帧的下一个视频帧确定为结束视频帧，接着以这两者确定视频帧集合并对视频帧集合中的每个视频帧进行本申请特别配置的开门动作识别处理，在上这过程中，由于通过较为成熟的人脸识别处理进行了初步的视频帧筛选，不仅数据处理难度较低，并且有效地降低了后续开门动作识别处理的数据处理量，而后开门动作识别处理为本申请特别配置的处理，因此又可高精度地识别出开门动作，如此完成高效且高精度地识别车辆的开门动作，提供强有力的数据依据。

继续对上述图1所示实施例的各个步骤及其在实际应用中可能的实现方式进行详细阐述。

对于本申请涉及的人脸识别处理以及开门动作识别处理，其涉及的识别模型的训练过程，以开门动作识别模型为例，其可预先配置训练集，训练集中包含在不同场景不同用户在开门动作过程中采集到的图像，此外还可包含未在开门动作过程中采集到的图像，这些图像标注其对应的开门动作识别结果，然后将训练集中的图像依次输入至初始模型，通过配置的参数，使得模型对输入图像进行开门动作的识别，完成模型的正向传播；再根据开门动作识别结果计算损失函数，并根据损失函数计算结果优化模型参数，完成模型的反向传播。如此达到训练时长、训练次数或者识别精度等训练条件时完成模型的训练。

作为一种适于实用的实现方式，本申请在开门动作识别处理中涉及的模型，具体可以为MobileNetV3模型。

即，在步骤S105的开门动作识别处理中，可包括：

可以理解，MobileNetV3模型是在MobileNetV1、MobileNetV2的基础上改进得到的神经网络模型，其存在两大特点，(1)，互补搜索技术组合：由资源受限的NAS执行模块级搜索，NetAdapt执行局部搜索；(2)，网络结构改进：将最后一步的平均池化层前移并移除最后一个卷积层，引入h-swish激活函数，由此在满足高精度的计算量少、参数少的骨干网的需求下，带来更为突出的轻量化网络特征。

进一步的，本申请在模型的训练过程中，还可对MobileNetV3模型进行优化，也就是说，初始模型可以为MobileNetV3模型，在输入图像进行训练时，可以对其模型进行优化，或者，初始模型也可以直接为经过本申请优化过的MobileNetV3模型。

对于MobileNetV3模型的优化，在本申请中，具体可以为：在MobileNetV3模型中调整多个Mobile Block模型结构中的卷积层的通道数以及对MobileNetV3模型中的模型结构进行剪枝处理，完成模型的优化改进。

可以理解，通道数的优化设置，是以提高识别精度的目的进行的，通道数越多，则可带来更为细腻的特征提取，由此对于最终的开门动作识别，可提供更为更富的数据依据，从而模型可融合、输出得到一个更为精确的识别结果；剪枝处理的设置，则是以精简化模型结构的目的进行的，模型结构更精简化，其处理效率则可更高。

在优化过程中，两者具体可以采用随机的方式设置，并通过最终的识别效果(可通过识别精度、识别效率等指标来量化)确定最终的优化方案，在这过程中，优选地采用在识别精度以及识别效率之间取得最佳平衡的方案作为最终的优化方案。

此外，为方便训练，针对于训练集的配置，还可引入数据增广处理，即在最初配置的训练集的基础上，通过随机小角度旋转、图像按一定的比例范围随机缩放、图像平移等图像处理，扩大样本图像的数量，进而达到扩大样本规模的效果，方便更为完善地对模型进行训练，提高模型识别精度。

对于训练集中的样本图像，其标注的开门动作识别结果具体可以标注有左手开门识别结果、右手开门识别结果或者双手开门识别结果共3类开门动作识别结果，对应的，模型可以识别的开门动作具体为左手开门动作(例如左手扣车门把手)、右手开门动作(例如右手扣车门把手)以及双手开门动作(例如右手扣车门把手的同时，左手扶住车门区域)，模型输出的开门动作识别结果具体可以为左手开门动作识别结果、右手开门动作识别结果或者双手开门动作识别结果。

此外，本申请涉及的人脸识别处理和/或开门动作识别处理，除了可以由处理设备的中央处理器(Central Processing Unit，CPU)或者图形处理器(Graphics ProcessingUnit，GPU)执行，作为本申请又一种适于实用的实现方式，具体还可以由处理设备配置的AI加速单元执行。

AI加速单元，也可以称为AI加速器、AI芯片，为专用用于执行AI运算的硬件产品，其从硬件设计到软件设计，又或者从物理接口设计等方面，为AI运算的加速进行了一系列的优化设置，因此，本申请将人脸识别处理和/或开门动作识别处理涉及的模型搭载于AI加速单元后，对应的人脸识别处理和/或开门动作识别处理可得到更为稳定且高效的处理效果，利于实时监测，且还可释放处理设备的CPU、GPU的计算压力。

对于开门动作识别结果，其本身可以只指示开门动作是否识别到，例如通过“是”与“否”来指示是否识别到了开门动作，进一步的，开门动作识别处理输出的开门动作识别结果，还可附上对应的输入图像、识别有效概率等内容，具体可随实际需要配置。

而在融合多个视频帧的开门动作识别结果以确定目标开门动作识别结果的过程中，可以采用基于比例的方式来确定目标开门动作识别结果，例如将取得最高比例(数量占比)的开门动作识别结果选定为目标开门动作识别结果，又例如将比例大于预设比例的首个开门动作识别结果选定为目标开门动作识别结果，还可以采用动态的方式来确定目标开门动作识别结果。

举例而言，处理设备可检测多个初始开门动作识别结果中是否包含连续的、不小于预设数量的目标开门动作识别结果；

若是，则处理设备输出目标开门动作识别结果。

可以理解，本申请认为，在实际应用中，若用户做出了某一真实的开门动作，其反映到监控视频中，必然存在于连续的视频帧中，并且存在多个连续的开门动作识别结果，因此，本申请则可结合实际情况，配置该场景下数量的阈值，即预设数量，以此来限定目标开门动作识别结果的确定，进一步避免了识别异常或者识别有误导致错误输出开门动作识别结果的情况，保障了识别精度。

进一步的，处理设备在目标开门动作识别结果的输出过程中，其除了可以是基础的目标开门动作识别结果的展示，例如通过自身或者其他设备的显示屏进行展示，或者通过短信、文件、震动(震动马达)、语音(扬声器)等方式进行输出，在实际应用中，还可以结合具体的应用场景配置对应的输出策略。

以驾考场景为例，无论是真实驾考场景还是驾考练习场景，其都可涉及到对驾考人员的开门动作的监控，因此可通过应用本申请所提供的车辆的开门动作识别方法，捕捉驾考人员的开门动作，辅助驾考的监控以及驾考结果的评估。

在该情况下，若处理设备本身是驾考场景中用于完成驾考结果评估的设备，则其自身可结合目标开门动作识别结果，以及车辆在当前驾考场景中除目标开门动作识别结果以外的驾考数据，生成并输出车辆的驾考结果；

或者，若处理设备不是驾考场景中用于完成驾考结果评估的设备，则其可将目标开门动作识别结果输出至当前驾考场景涉及的计算设备，使得计算设备根据开门动作识别结果，以及车辆在当前驾考场景中除目标开门动作识别结果以外的驾考数据，生成并输出车辆的驾考结果。

显然，在驾考场景中，本申请所提供车辆的开门动作识别方法，可以为驾考人员甚至车辆上其他人员的开门动作的监控提供精确的数据支持，从而以自动化、数字化的方式促使驾考更好的进行。

作为一种实例，可参考图3示出的本申请车辆的开门动作识别方法的又一种流程示意图，在结合了上述提及的AI计算单元等示例性实现方式后，对于监控视频的开门动作识别处理，其在实际应用中主要可包括下面内容：

前期准备：

1.确定单目摄像头安装位置并固定，单目摄像头跟AI计算单元相连；

2.数据采集、筛选和模型训练；

3.将训练后的模型部署到AI计算单元；

具体应用：

4.AI计算单元服务程序加载模型，进行必要的初始化(涉及到AI算法SDK的调用)；

5.AI计算单元服务程序创建子线程，打开单目摄像头，实时获取单目摄像头(可以为USB相机)的视频流；

6.AI计算单元服务程序子线程，从视频流序列中获取到每帧图像数据；

7.AI计算单元服务程序子线程，调用AI算法SDK提供的API，通过深度学习进行前向推理计算，得到动作类别；

8.逻辑处理单元根据连续n帧(n可配置，n>＝2)识别结果相同，则认为是某个动作，如果是左手开门、右手开门或者双手开门，则进行语音提示。

以上是本申请提供车辆的开门动作识别方法的介绍，为便于更好的实施本申请提供的车辆的开门动作识别方法，本申请还从功能模块角度提供了一种车辆的开门动作识别装置。

参阅图3，图3为本申请车辆的开门动作识别装置的一种结构示意图，在本申请中，车辆的开门动作识别装置300具体可包括如下结构：

获取单元301，用于获取在车辆内部采集到的初始监控视频，初始监控视频是通过部署在车辆内部的摄像头采集得到的；

人脸识别单元302，用于对初始监控视频包含的每个视频帧进行人脸识别处理，得到多个人脸识别结果，多个人脸识别结果对应连续的视频帧；

确定单元303，用于对多个人脸识别结果，筛选出相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果，并将对应的视频帧确定为起始视频帧；

确定单元303，还用于将多个人脸识别结果对应的最后一个视频帧的下一个视频帧确定为结束视频帧；

确定单元303，还用于以起始视频帧为起点、以结束视频帧为终点，确定视频帧集合；

开门动作识别单元304，用于对视频帧集合中的每个视频帧进行开门动作识别处理；

确定单元303，还用于根据视频帧集合中的每个视频帧得到的多个初始开门动作识别结果，确定目标开门动作识别结果。

在又一种示例性的实现方式中，开门动作识别单元304，具体用于：

在又一种示例性的实现方式中，在训练的过程中，包括：

在又一种示例性的实现方式中，确定单元303，具体用于：

若是，则确定目标开门动作识别结果。

在又一种示例性的实现方式中，人脸识别处理和/或开门动作识别处理，由处理设备配置的AI加速单元执行。

在又一种示例性的实现方式中，装置还包括输出单元305，用于：

或者，

本申请还从硬件结构角度提供了一种处理设备，参阅图4，图4示出了本申请处理设备的一种结构示意图，具体的，本申请处理设备可包括处理器401、存储器402以及输入输出设备403，处理器401用于执行存储器402中存储的计算机程序时实现如图1对应实施例中一种车辆的开门动作识别方法的各步骤；或者，处理器401用于执行存储器402中存储的计算机程序时实现如图3对应实施例中各单元的功能，存储器402用于存储处理器401执行上述图1对应实施例中一种车辆的开门动作识别方法所需的计算机程序。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器402中，并由处理器401执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

处理设备可包括，但不仅限于处理器401、存储器402、输入输出设备403。本领域技术人员可以理解，示意仅仅是处理设备的示例，并不构成对处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如处理设备还可以包括网络接入设备、总线等，处理器401、存储器402、输入输出设备403等通过总线相连。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是处理设备的控制中心，利用各种接口和线路连接整个设备的各个部分。

存储器402可用于存储计算机程序和/或模块，处理器401通过运行或执行存储在存储器402内的计算机程序和/或模块，以及调用存储在存储器402内的数据，实现计算机装置的各种功能。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据处理设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器401用于执行存储器402中存储的计算机程序时，具体可实现以下功能：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的一种车辆的开门动作识别装置、处理设备及其相应单元的具体工作过程，可以参考如图1对应实施例中一种车辆的开门动作识法方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1对应实施例中一种车辆的开门动作识别方法的步骤，具体操作可参考如图1对应实施例中一种车辆的开门动作识别方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(Read Only Memory，ROM)、随机存取记忆体(Random Access Memory，RAM)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1对应实施例中一种车辆的开门动作识别方法的步骤，因此，可以实现本申请如图1对应实施例中一种车辆的开门动作识别方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请提供的一种车辆的开门动作识别方法、装置、处理设备以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种车辆的开门动作识别方法，其特征在于，所述方法包括：

处理设备获取在车辆内部采集到的初始监控视频，所述初始监控视频是通过部署在所述车辆内部的摄像头采集得到的；

所述处理设备对所述初始监控视频包含的每个视频帧进行人脸识别处理，得到多个人脸识别结果，所述多个人脸识别结果对应连续的视频帧；

所述处理设备对所述多个人脸识别结果，筛选出相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果，并将对应的视频帧确定为起始视频帧；

所述处理设备将所述多个人脸识别结果对应的最后一个视频帧的下一个视频帧确定为结束视频帧；

所述处理设备以所述起始视频帧为起点、以所述结束视频帧为终点，确定视频帧集合，并对所述视频帧集合中的每个视频帧进行开门动作识别处理；

所述处理设备根据所述视频帧集合中的每个视频帧得到的多个初始开门动作识别结果，确定目标开门动作识别结果；

所述开门动作识别结果包括左手开门识别结果、右手开门识别结果或者双手开门识别结果。

2.根据权利要求1所述的方法，其特征在于，所述处理设备对所述视频帧集合中的每个视频帧进行开门动作识别，包括：

所述处理设备将所述视频帧集合中的每个视频帧依次输入目标神经网络模型，使得所述目标神经网络模型对输入的视频帧进行开门动作识别处理，所述目标神经网络是通过标注有对应开门动作识别结果的视频帧训练MobileNetV3模型得到的。

3.根据权利要求2所述的方法，其特征在于，在训练的过程中，包括：

在所述MobileNetV3模型中调整多个Mobile Block模型结构中的卷积层的通道数以及对所述MobileNetV3模型中的模型结构进行剪枝处理，完成模型的优化改进。

4.根据权利要求1所述的方法，其特征在于，所述处理设备根据所述视频帧集合中的每个视频帧得到的多个初始开门动作识别结果，确定目标开门动作识别结果，包括：

所述处理设备检测所述多个初始开门动作识别结果中是否包含连续的、不小于预设数量的目标开门动作识别结果；

若是，则所述处理设备确定所述目标开门动作识别结果。

5.根据权利要求1所述的方法，其特征在于，所述人脸识别处理和/或所述开门动作识别处理，由所述处理设备配置的人工智能AI加速单元执行。

6.根据权利要求1所述的方法，其特征在于，所述确定目标开门动作识别结果之后，所述方法还包括：

所述处理设备结合所述目标开门动作识别结果，以及所述车辆在当前驾考场景中除所述目标开门动作识别结果以外的驾考数据，生成并输出所述车辆的驾考结果；

或者，

所述处理设备将所述目标开门动作识别结果输出至所述当前驾考场景涉及的计算设备，使得所述计算设备根据所述目标开门动作识别结果，以及所述车辆在所述当前驾考场景中除所述开门动作识别结果以外的驾考数据，生成并输出所述车辆的驾考结果。

7.一种车辆的开门动作识别装置，其特征在于，所述装置包括：

获取单元，用于获取在车辆内部采集到的初始监控视频，所述初始监控视频是通过部署在所述车辆内部的摄像头采集得到的；

人脸识别单元，用于对所述初始监控视频包含的每个视频帧进行人脸识别处理，得到多个人脸识别结果，所述多个人脸识别结果对应连续的视频帧；

确定单元，用于对所述多个人脸识别结果，筛选出相较于前N个的视频帧存在人脸摆动幅度大于预设幅度的人脸识别结果，并将对应的视频帧确定为起始视频帧；

所述确定单元，还用于将所述多个人脸识别结果对应的最后一个视频帧的下一个视频帧确定为结束视频帧；

所述确定单元，还用于以所述起始视频帧为起点、以所述结束视频帧为终点，确定视频帧集合；

开门动作识别单元，用于对所述视频帧集合中的每个视频帧进行开门动作识别处理；

确定单元，还用于根据所述视频帧集合中的每个视频帧得到的多个初始开门动作识别结果，确定目标开门动作识别结果；

8.一种处理设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至6任一项所述的方法。