CN117392649A

CN117392649A - 一种车辆部件指示操作的识别方法、装置以及处理设备

Info

Publication number: CN117392649A
Application number: CN202311685405.9A
Authority: CN
Inventors: 姜英豪; 朱星
Original assignee: Wuhan Future Phantom Technology Co Ltd
Current assignee: Wuhan Future Phantom Technology Co Ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-01-12
Anticipated expiration: 2043-12-11
Also published as: CN117392649B

Abstract

本申请提供了一种车辆部件指示操作的识别方法、装置以及处理设备，用于结合图像处理和语音响应，来实现自动化的车辆部件指示操作确认处理，以此可以更为高效、高质量地满足学员对于车辆部件的认知学习需求，同时也可以满足驾校在这方面高效、高质量的培训需求。方法包括：获取部署于车辆内部车顶的摄像头所采集得到的初始图像；对初始图像进行方向盘识别处理，得到方向盘检测框；将初始图像划分成第一图像区域、第二图像区域和第三图像区域；对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理，以识别用户是否向对应部件做出了指示操作；根据识别结果，进行对应的语音响应。

Description

一种车辆部件指示操作的识别方法、装置以及处理设备

技术领域

本申请涉及驾校培训领域，具体涉及一种车辆部件指示操作的识别方法、装置以及处理设备。

背景技术

对于科目二的驾校培训内容，可以理解，是在实车条件下学员对车辆部件充分熟悉的情况下再进行实车驾驶练习的。

而在进行实车驾驶练习之前，教练通常会让学员挨个手指车辆部件并说出对应名称，或者挨个手指车辆部件，让学员说出对应的名称及如何使用，以此确认学员对于每个车辆部件的认知情况。

然而从上述内容中也可发现，针对于车辆部件的询问环节是依赖于人工操作，由教练发起的，这就容易导致在实际情况下该环节的执行效果并不稳定，一方面容易受到部分教练个人教学风格的影响，导致学员的参与度不佳，另一方面通常也只在前期执行，后期基本不会执行，显然，依赖于人工的传统处理方式，一定程度上限制了培训效率、培训质量。

与此同时，如科目二考场车辆对于考试人员是否拨动了车辆部件，则是需要软硬件方面的特别配置，这类方案并不适合部署在驾校车辆上，难以应用于驾校培训场景中，又如现今较为智能化的车辆电子系统，是可以从系统后台获悉到车辆部件是否存在拨动情况的，但是这类方案受限于软硬件条件，也是难以普及到驾校车辆上的，因此，亟需一种在软硬件条件上要求更低的车辆部件指示操作的识别方案，来便捷地部署于驾校车辆上以辅助学员的教学培训。

发明内容

本申请提供了一种车辆部件指示操作的识别方法、装置以及处理设备，用于结合图像处理和语音响应，来实现自动化的车辆部件指示操作确认处理，以此可以更为高效、高质量地满足学员对于车辆部件的认知学习需求，同时也可以满足驾校在这方面高效、高质量的培训需求。

第一方面，本申请提供了一种车辆部件指示操作的识别方法，方法包括：

获取部署于车辆内部车顶的摄像头所采集得到的初始图像；

对初始图像进行方向盘识别处理，得到方向盘检测框；

以初始图像的底边为横轴，在方向盘检测框底边端点所在的两个横轴坐标的基础上，将初始图像划分成第一图像区域、第二图像区域和第三图像区域，其中，第一图像区域包括左后视镜，第二图像区域包括方向盘、仪表盘、灯光拨杆、雨刷拨杆和钥匙，第三图像区域包括档杆和中控屏；

对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理，以识别用户是否向对应部件做出了指示操作；

根据识别结果，进行对应的语音响应。

结合本申请第一方面，在本申请第一方面第一种可能的实现方式中，执行对第一图像区域、第二图像区域和第三图像区域分别进行部件触摸操作识别处理的部件指示操作识别模型，在通用squeezenet网络的基础上，将fire模块原来由四个3x3卷积核组成的单个通道，改成两组，第一组为一个3x3卷积核的双通道，第二组为两个3x3卷积核的双通道级联，并将3x3卷积核原来采用的Relu激活函数改成Leaky Relu激活函数，将两个通道的输出进行通道混洗。

结合本申请第一方面，在本申请第一方面第二种可能的实现方式中，执行对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理的部件指示操作识别模型，在训练过程中采用的样本图像数据，通过对不同条件下采集得到的初始样本图像进行数据增强操作得到，数据增强操作包括随机颜色变换、随机剪切、高斯模糊、随机擦除和随机椒盐噪声，初始样本图像包括未进行遮挡物遮挡处理的图像和进行遮挡物遮挡处理的图像。

结合本申请第一方面第二种可能的实现方式，在本申请第一方面第三种可能的实现方式中，部件指示操作识别模型在训练过程中采用Focal Loss损失函数。

结合本申请第一方面，在本申请第一方面第四种可能的实现方式中，在初始图像为多帧的连续图像时，以初始图像的底边为横轴，在方向盘检测框底边端点所在的两个横轴坐标的基础上，将初始图像划分成第一图像区域、第二图像区域和第三图像区域，包括：

以第一帧图像的底边为横轴，在方向盘检测框底边端点所在的两个横轴坐标的基础上，将第一帧图像划分成第一图像区域、第二图像区域和第三图像区域；

对第一帧图像后面的图像，复用第一帧图像划分第一图像区域、第二图像区域和第三图像区域的图像区域位置，来进行图像区域的划分。

结合本申请第一方面，在本申请第一方面第五种可能的实现方式中，在初始图像为多帧的连续图像时，对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理，包括：

在第一部件指示操作识别环节，对第一图像区域进行手指左后视镜识别，并根据识别结果确定用户是否做出了手指左后视镜操作；

在第二部件指示操作识别环节，对第二图像区域进行手指仪表盘识别，并根据识别结果确定用户是否做出了手指仪表盘操作；

在第三部件指示操作识别环节，对第二图像区域进行方向盘动态活动、灯光拨杆动态活动、雨刷拨杆动态活动和钥匙动态活动的识别，并根据识别结果确定用户是否做出了手握方向盘操作、手拨灯光拨杆操作、手拨雨刷拨杆操作和手拧钥匙操作；

在第四部件指示操作识别环节，对第三图像区域进行档杆动态活动和中控屏动态活动的识别，并根据识别结果确定用户是否做出了手握档杆动态活动和手指中控屏动态活动。

结合本申请第一方面任一种可能的实现方式，在本申请第一方面第六种可能的实现方式中，摄像头具体为单个配置的2d摄像头。

第二方面，本申请提供了一种车辆部件指示操作的识别装置，装置包括：

获取单元，用于获取部署于车辆内部车顶的摄像头所采集得到的初始图像；

第一识别单元，用于对初始图像进行方向盘识别处理，得到方向盘检测框；

划分单元，用于以初始图像的底边为横轴，在方向盘检测框底边端点所在的两个横轴坐标的基础上，将初始图像划分成第一图像区域、第二图像区域和第三图像区域，其中，第一图像区域包括左后视镜，第二图像区域包括方向盘、仪表盘、灯光拨杆、雨刷拨杆和钥匙，第三图像区域包括档杆和中控屏；

第二识别单元，用于对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理，以识别用户是否向对应部件做出了指示操作；

响应单元，用于根据识别结果，进行对应的语音响应。

结合本申请第二方面，在本申请第二方面第一种可能的实现方式中，执行对第一图像区域、第二图像区域和第三图像区域分别进行部件触摸操作识别处理的部件指示操作识别模型，在通用squeezenet网络的基础上，将fire模块原来由四个3x3卷积核组成的单个通道，改成两组，第一组为一个3x3卷积核的双通道，第二组为两个3x3卷积核的双通道级联，并将3x3卷积核原来采用的Relu激活函数改成Leaky Relu激活函数，将两个通道的输出进行通道混洗。

结合本申请第二方面，在本申请第二方面第二种可能的实现方式中，执行对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理的部件指示操作识别模型，在训练过程中采用的样本图像数据，通过对不同条件下采集得到的初始样本图像进行数据增强操作得到，数据增强操作包括随机颜色变换、随机剪切、高斯模糊、随机擦除和随机椒盐噪声，初始样本图像包括未进行遮挡物遮挡处理的图像和进行遮挡物遮挡处理的图像。

结合本申请第二方面第二种可能的实现方式，在本申请第二方面第三种可能的实现方式中，部件指示操作识别模型在训练过程中采用Focal Loss损失函数。

结合本申请第二方面，在本申请第二方面第四种可能的实现方式中，在初始图像为多帧的连续图像时，划分单元，具体用于：

结合本申请第二方面，在本申请第二方面第五种可能的实现方式中，在初始图像为多帧的连续图像时，第二识别单元，具体用于：

结合本申请第二方面任一种可能的实现方式，在本申请第二方面第六种可能的实现方式中，摄像头具体为单个配置的2d摄像头。

第三方面，本申请提供了一种处理设备，包括处理器和存储器，存储器中存储有计算机程序，处理器调用存储器中的计算机程序时执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

从以上内容可得出，本申请具有以下的有益效果：

针对于车辆部件指示操作的自动识别需求，本申请获取部署于车辆内部车顶的摄像头所采集得到的初始图像后，对初始图像进行方向盘识别处理，得到方向盘检测框，接着以初始图像的底边为横轴，在方向盘检测框底边端点所在的两个横轴坐标的基础上，将初始图像划分成第一图像区域、第二图像区域和第三图像区域，其中，第一图像区域包括左后视镜，第二图像区域包括方向盘、仪表盘、灯光拨杆、雨刷拨杆和钥匙，第三图像区域包括档杆和中控屏，此时对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理，以识别用户是否向对应部件做出了指示操作，并根据识别结果，进行对应的语音响应，在这过程中，结合图像处理和语音响应，来实现自动化的车辆部件指示操作确认处理，以此可以更为高效、高质量地满足学员对于车辆部件的认知学习需求，同时也可以满足驾校在这方面高效、高质量的培训需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请车辆部件指示操作的识别方法的一种流程示意图；

图2为本申请车辆部件指示操作的识别装置的一种结构示意图；

图3为本申请处理设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

本申请中所出现的模块的划分，是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

在介绍本申请提供的车辆部件指示操作的识别方法之前，首先介绍本申请所涉及的背景内容。

本申请提供的车辆部件指示操作的识别方法、装置以及计算机可读存储介质，可应用于处理设备，用于结合图像处理和语音响应，来实现自动化的车辆部件指示操作确认处理，以此可以更为高效、高质量地满足学员对于车辆部件的认知学习需求，同时也可以满足驾校在这方面高效、高质量的培训需求。

本申请提及的车辆部件指示操作的识别方法，其执行主体可以为车辆部件指示操作的识别装置，或者集成了该车辆部件指示操作的识别装置的车载终端或者用户设备（User Equipment，UE）等不同类型的处理设备。其中，车辆部件指示操作的识别装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、台式电脑或者个人数字助理（Personal Digital Assistant，PDA）等终端设备。

其中，可以理解的是，本申请主要适用于驾校场景下驾校学员的前期学习阶段，具体针对的车辆部件指示操作的识别问题，为学员提供车辆部件指示操作的自动识别服务，对此，搭载本申请所提供的车辆部件指示操作的识别方法的应用程序的处理设备，通常可以直接为驾校车辆本身的车载终端，或者在更灵活点的应用需求下，处理设备也可以是车上的其他设备，例如学员、教练自身的UE，或者驾校随车配置的UE。

下面，开始介绍本申请提供的车辆部件指示操作的识别方法。

首先，参阅图1，图1示出了本申请车辆部件指示操作的识别方法的一种流程示意图，本申请提供的车辆部件指示操作的识别方法，具体可包括如下步骤S101至步骤S105：

步骤S101，获取部署于车辆内部车顶的摄像头所采集得到的初始图像；

可以理解，本申请为解决车辆部件指示操作的自动识别问题，是考虑从图像识别方面着手解决的，对此，针对于学员在车辆内部针对车辆部件所做出的指示操作，可以通过车辆内部车顶配置的摄像头来采集该场景下的图像，并记为初始图像，供后面的图像处理使用。

对于部署于车辆内部车顶的摄像头，可以理解，其具体的部署位置是较为随意的，可以将本申请在设计时所要识别出的指示操作的对应车辆部件纳入到视野中即可满足要求。

作为一个实例，本申请涉及到车辆驾驶位置旁边的左后视镜的指示操作的图像识别，因此摄像头可以在车辆内部车顶的右侧，即车辆中轴线远离方向盘的一侧，如此可以更为方便地拍摄到不同学员对于左前车窗外的左后视镜的不同指示动作。

步骤S102，对初始图像进行方向盘识别处理，得到方向盘检测框；

可以看到，本申请在对于车辆部件指示操作的整体图像识别过程中，并不是直接对输入图像也就是前面获得的初始图像展开指示操作的图像识别的（对于常规的技术研发思路而言，通常就是直接展开用户手指的图像识别，在此基础上再根据手的关键点去识别所指示方向，再去确定指示方向所指示的车辆部件），而是设计了一套灵活的图像识别架构，先是识别出图像中的方向盘，接着以方向盘进行三个图像区域的分割，再分别从中识别用户的指示操作，如此在可以高精度识别学员对于车辆部件的指示操作的情况下，还有助于显著降低所需的数据处理负荷，从而能够在更低的软硬件条件下快速获得识别结果。

对此，在通过步骤S101获得了初始图像后，则可以通过方向盘的目标检测算法（方向盘识别模型），从中识别所包含的方向盘，并获得方向盘检测框（方向盘检测结果）。

其中，可以理解，方向盘检测框是以描述初始图像中包括方向盘的矩形框的坐标位置的方式，来指示所识别出的方向盘的，例如，可以在初始图像的基础上构建坐标系，并以对角顶点或者所有顶点的方式，指示方向盘检测框的坐标位置，如此基于该方向盘检测框，后续则可以在初始图像中展开精确的定位。

步骤S103，以初始图像的底边为横轴，在方向盘检测框底边端点所在的两个横轴坐标的基础上，将初始图像划分成第一图像区域、第二图像区域和第三图像区域，其中，第一图像区域包括左后视镜，第二图像区域包括方向盘、仪表盘、灯光拨杆、雨刷拨杆和钥匙，第三图像区域包括档杆和中控屏；

可以看到，本申请所采集的初始图像，具体摄入了左后视镜、方向盘、仪表盘、灯光拨杆、雨刷拨杆、钥匙、档杆和中控屏，这些也就是本申请所设计的可以成功识别对应指示操作的车辆部件。

而本申请在获得了方向盘检测框，确定了在初始图像中方向盘的位置/区域后，则可以触发本申请所设计的图像分割处理，以方向盘检测框为基础配置两条竖直的分割线（分割线为方向盘检测框底边端点所在的两个横轴坐标的基础上得到），将初始图像划分成左边的第一图像区域（第一部分）、中间的第二图像区域（第二部分）和右边的第三图像区域（第三部分），其中，第一图像区域包括左后视镜，第二图像区域包括方向盘、仪表盘、灯光拨杆、雨刷拨杆和钥匙（方向盘检测框就位于在第二图像区域中），第三图像区域包括档杆和中控屏。

如此，通过图像的分割，为后续的指示操作的具体识别，细分了识别区域/范围，并有助于以所处位置区域为参考展开更为快速、高效的识别处理。

步骤S104，对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理，以识别用户是否向对应部件做出了指示操作；

可以理解，针对于输入图像所做的部件指示操作识别处理，本申请可以预先配置有相应的识别算法，以此可以针对每个图像区域，展开可能的车辆部件指示操作的识别处理，以车辆部件有两个的第三图像为例，其图像内容中包括了档杆和中控屏，对应的，只需要针对学员（用户）是否有向档杆和中控屏做出对应指示操作，而无需对其他类型的车辆部件的指示操作进行识别，如此对每一张图像展开图像识别的过程中，在已经明显降低了图像识别范围的情况下，可以对更多的局部/细节信息展开识别，具有高效高精度的识别特点。

其中，此处基于三者所展开的指示操作识别处理，可以直接沿用现有技术中的办法，先识别用户手指，再根据手的关键点去识别所指示方向，再确定指示方向所指示的车辆部件，而在通过前面步骤S102和步骤S103的数据准备之后，可以理解的是，总共所取得的处理时长，可以获得明显的降低，此外，在精度上也能得到明显的提高。

或者，此处基于三者所展开的指示操作识别处理，还可以继续根据本申请对输入图像的改进，配置更为细腻的、适配的识别方案，以此进一步提高识别精度、识别效率。

步骤S105，根据识别结果，进行对应的语音响应。

而在获得了学员（用户）对车辆部件的具体指示操作的识别结果后，显然，则可以在练车场景下，对当前情况以语音的方式进行响应，完成一次指示操作的自动确认。

举例而言，之前系统可以以语音的方式要求用户对档杆进行指认，若用户对中控屏做出了指示操作，而未对档杆做出指示操作，则可以语音播报：“指示错误”、“将中控屏错误认为是档杆”等。

可以理解，具体的语音响应方式，是会受到具体的应用需求而进行适应性调整的，但是其语音响应内容都是会以直接或者间接的方式，来表明当前用户是否做出了应有的指示操作，从而符合学员指认车辆部件这一场景的要求，辅助学员对车辆部件进行熟悉，为后续的实车驾驶练习做好充分的准备。

从图1所示实施例可看出，针对于车辆部件指示操作的自动识别需求，本申请获取部署于车辆内部车顶的摄像头所采集得到的初始图像后，对初始图像进行方向盘识别处理，得到方向盘检测框，接着以初始图像的底边为横轴，在方向盘检测框底边端点所在的两个横轴坐标的基础上，将初始图像划分成第一图像区域、第二图像区域和第三图像区域，其中，第一图像区域包括左后视镜，第二图像区域包括方向盘、仪表盘、灯光拨杆、雨刷拨杆和钥匙，第三图像区域包括档杆和中控屏，此时对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理，以识别用户是否向对应部件做出了指示操作，并根据识别结果，进行对应的语音响应，在这过程中，结合图像处理和语音响应，来实现自动化的车辆部件指示操作确认处理，以此可以更为高效、高质量地满足学员对于车辆部件的认知学习需求，同时也可以满足驾校在这方面高效、高质量的培训需求。

继续对上述图1所示实施例的各个步骤及其在实际应用中可能的实现方式进行详细阐述。

可以理解的是，从上面内容可以获悉，本申请所提供的方案，在执行上具有高效、高精度的识别效果，也因此，本申请并不需要涉及到深度信息/32信息来辅助对于车辆部件的指示操作的识别，也并不需要涉及到结合多视觉来辅助对于车辆部件的指示操作的识别，对此，作为一种适于实用的实现方式，本申请在车辆内部车顶所部署的摄像头，具体可以为单个配置的2d摄像头，对应的，所采集的初始图像，为平面图像/2d图像。

容易理解，单个配置的2d摄像头，相较于上述的其他摄像头部署方案，在硬件部署成本上具有较为低廉的优势，并且，在数据处理上本身也较为简单，适配于本申请高效、高精度的方案目标。

而对于初始图像所展开的方向盘识别处理，其所需的目标检测算法，可以采用yolov5s等类型的网络来进行配置。

所识别出的方向盘检测结果，具体可以通过两个对角顶点的坐标来指示，例如，方向盘检测结果具体可以为所识别出的方向盘在初始图像中的左上角（x0,y0）和右下角坐标（x1,y1），两者就构成了一个长度为（x1-x0）、宽度为（y1-y0）的矩形检测框。

而在基于方向盘检测结果（矩形检测框）之后，则可以投入到本申请所设计的图像分割出来。

举例而言，可以以矩形检测框的左侧位置和右侧位置的坐标（x1、x2）为基础，进行分割线的配置，并以此将初始图像分割为三个部分，中间部分（第二图像区域）的中间就是矩形检测框的区域，两者的边重叠，中间部分（第二图像区域）除了包含了中间的矩形检测框，还包含了矩形检测框上方和下方的矩形区域（与矩形检测框的同样的长（左侧位置和右侧位置的坐标也为x1、x2），宽度则会随实际情况做变化）。

又或者，在基于矩形检测框做图像区域的分割处理时，还可以考虑引入调节因素，通过调节系数来对三个图像区域进行调节，如此，矩形检测框的边并不会与第二图像区域（中间部分）直接重叠，而是直接包含在第二图像区域（中间部分）中。

举例而言，调节系数可以用方向盘的宽度来确定，方向盘的宽度可以用w表示，w=x2-x1，初始图像的高度用height标识，初始图像的宽度用width表示，第一图像区域的左上角和右下角坐标分别为（0,0）、（x1-w/25,height），第二图像区域的左上角和右下角坐标分别为（x1-w/25,0）、（x2+w/4,height），第三图像区域的左上角和右下角的坐标分别为（x2+w/4,0）、（width,height）。

可以看到，此处设置中调节系数具体由w/25、w/4来配置，以此调节分割而成的各图像区域在水平方向上的跨度（长度），同时也可以看到，三个图像区域之间是存在紧邻的关系，两两靠近的边是重叠的。

此外，可以理解的是，在采用同一机位进行图像的采集时，或者说，在初始图像为多帧的连续图像（视频解析得到或者直接采集得到）时，这些图像之间还可以采用相同的图像区域分割方案。

对此，作为又一种适于实用的实现方式，步骤S103以初始图像的底边为横轴，在方向盘检测框底边端点所在的两个横轴坐标的基础上，将初始图像划分成第一图像区域、第二图像区域和第三图像区域，包括：

可以看到，在此处设置中，在同一摄像头同一机位的情况下，可以直接重复使用同一图像区域分割方案（复用划分第一图像区域、第二图像区域和第三图像区域的图像区域位置），以此达到显著降低N帧图像所涉及图像区域分割处理所需的数据处理成本，显著提高处理效率。

此外，还可以理解的是，若判断/默认当前的初始图像，与历史图像也存在同一摄像头同一机位的情况，则还可以直接复用历史图像的图像区域分割方案，同样道理，可以进一步降低数据处理成本、提高处理效率。

通过图像区域分割处理获得了第一、第二和第三图像区域后，则可以开展本申请所设计的部件指示操作识别处理。

可以理解，对于此处执行对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理的部件指示操作识别模型，其在模型网络的部署过程中，还可以涉及到训练环节，主要包括：

在样本图像数据标注好对应的指示操作识别结果后，送入模型，让模型进行指示操作的识别处理，实现正向传播，接着按照模型输出的指示操作识别结果结合标注结果计算损失函数，并根据损失函数计算结果优化模型参数，实现反向传播，如此当满足训练时长、训练次数、识别精度等预设的训练要求时，则可以完成模型的训练，可以投入实际使用。

其中，所采用的具体模型架构还有损失函数，既可以采用现有方案，或者，也可以对现有方案进行改进，下面，这对本申请所做的改进设置进行示例性说明。

具体的，作为又一种适于实用方式，在本申请中，执行对第一图像区域、第二图像区域和第三图像区域分别进行部件触摸操作识别处理的部件指示操作识别模型，在通用squeezenet网络的基础上，将fire模块原来由四个3x3卷积核组成的单个通道，改成两组，第一组为一个3x3卷积核的双通道，第二组为两个3x3卷积核的双通道级联，并将3x3卷积核原来采用的Relu激活函数改成Leaky Relu激活函数，将两个通道的输出进行通道混洗（channel shuffle）。

在该设置下，可以获得更多的特征信息，可以增加通道信息交流，这样可以提高模型的表达能力和效率，因为每个子通道可以专门处理不同的特征，在图像分类任务中，本申请一方面将卷积层的通道分成多个通道，每个子通道的深度不同，可以分别提取图像的纹理、形状和颜色等特征，最终将子通道拼接得到完整的不同深度的特征，另一方面，我们对比了LeakyRelu和Relu，发现LeakyRelu激活函数时，模型训练更稳定，且最终精度有提升。。

对此，作为又一种适于实用的实现方式，本申请在训练过程中采用的样本图像数据，具体可以通过对不同条件下采集得到的初始样本图像进行数据增强操作得到，其中，数据增强操作可以包括随机颜色变换、随机剪切、高斯模糊、随机擦除和随机椒盐噪声等操作，而初始样本图像也可以包括未进行遮挡物遮挡处理的图像和进行遮挡物遮挡处理的图像。

可以理解的是，对于此处的相关设置，都是为了提高样本图像数据的样本多样性的，以此可以使得训练得到的模型，在不同情况下都可以取得更为稳定、精确的识别效果，可以避免受到各种情况带来的干扰，具有更好的泛化能力。

其中，随机颜色变换主要是增加车内光线变化较大这一方面的样本多样性，随机剪切主要是增加摄像头部署机位的偏差这一方面的样本多样性，高斯模糊主要是增加图像模糊程度这一方面的样本多样性，随机擦除主要是增加物品遮挡这一方面的样本多样性，随机椒盐噪声主要是增加图像处理过程中图像信号这一方面的样本多样性。

而在采集图像之前，是否通过遮挡物对车辆部件进行遮挡，则可以在实际情况下增加物品遮挡这一方面的样本多样性。

对于初始样本图像，作为一个实例，本申请采集了负样本35万张，正样本每一类都有20w张，主要在不同天气（晴天、雨天、阴天）、顺光和逆光条件下采集，采集要求是使用手指指向正确的车辆部件就为正样本，指向其他地方则为负样本。

此外，对于模型训练过程中采用的损失函数，作为又一种适于实用的实现方式，本申请部件指示操作识别模型在训练过程中具体可以采用Focal Loss损失函数。

可以理解，Focal loss为基于二分类交叉熵的一种损失函数，也是一个动态缩放的交叉熵损失，其通过一个动态缩放因子，可以动态降低训练过程中易于区分样本的权重，将重心快速聚焦在难以区分样本的部分，进而可以较佳地辅助模型的训练。

此外，对于数据处理层面，本申请也对具体的处理逻辑做出了优化设置。

此外，在具体的训练过程中，考虑到将三种图像区域的样本图像依次送入模型会比较慢，本申请还可以将属于同一张初始图像的三种图像区域的样本图像同时送入模型进行识别处理（bazchsize=3），如此进一步提高训练效率。

作为又一种适于实用的实现方式，步骤S104在初始图像为多帧的连续图像时，对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理，具体可以包括：

1）在第一部件指示操作识别环节，对第一图像区域进行手指左后视镜识别，并根据识别结果确定用户是否做出了手指左后视镜操作；

2）在第二部件指示操作识别环节，对第二图像区域进行手指仪表盘识别，并根据识别结果确定用户是否做出了手指仪表盘操作；

3）在第三部件指示操作识别环节，对第二图像区域进行方向盘动态活动、灯光拨杆动态活动、雨刷拨杆动态活动和钥匙动态活动的识别，并根据识别结果确定用户是否做出了手握方向盘操作、手拨灯光拨杆操作、手拨雨刷拨杆操作和手拧钥匙操作；

4）在第四部件指示操作识别环节，对第三图像区域进行档杆动态活动和中控屏动态活动的识别，并根据识别结果确定用户是否做出了手握档杆动态活动和手指中控屏动态活动。

其中，上述4个方面的处理之间，并没有特别的时序限定关系，仅为方便而做的分段说明和序号标识。

在此处设置中可以看到，本申请对于指示操作还采用了间接的识别方式，约束学员来指认方向盘、灯光拨杆、雨刷拨杆、钥匙、档杆和中控屏时，需要直接进行部件的触摸操作，让其进行活动或者响应（动态过程，对应多帧的连续图像），以此代替原来的用手指在空中指示或者触摸指示，而左后视镜和仪表盘则可以按照依赖于手指识别的方式来完成其指示识别。

在前面有提及过，本申请对于车辆部件的指示操作的识别，可以采用现有技术中基于手指识别的方案，而先识别用户手指，再根据手的关键点去识别所指示方向，再确定指示方向所指示的车辆部件这一现有识别方案，首先手的关键点数据很难实现较好的标注效果，这就会影响到模型的训练效果，进而影响模型的识别效率还有识别精度，并且若是采集图像的摄像头为单个的2d摄像头，由于所采集到的图像缺少深度信息，也很难判别手指是否指向了车辆部件，相较之下，在此处设置中，本申请规定左后视镜和仪表盘手指才需要通过手指的方式进行指认，而方向盘、灯光拨杆、雨刷拨杆、钥匙、档杆和中控屏这些车辆部件则按照正常的操作动作、进行部件活动，来达到指认的目的，如此，在数据处理层面上，本申请从细节方面出发，可以更为快速且精确地完成具体指示操作的识别。

如此，该设置与前面基于图像分割的识别处理相结合，在实际情况下，可以更符合实际项目的开发需求，在较低软硬件条件的情况下，更适合在车辆终端这类嵌入式开发板上部署，具有更佳的实际应用价值。

而对应于前面样本图像数据的配置，为了提高样本的多样性，本申请对于不同车辆部件的指示操作的样本，还具体配置了手握方向盘（含单手和双手）、手握挡杆、手指后视镜、手指仪表盘、手操作中控屏、手拨灯光拨杆、手拨雨刷拨杆、手拧钥匙的正样本，以及在附近做各种其他动作或未包含手部的负样本，这样做是为了模型更加区分出手是在指向这些车辆部件，还是不是在指向这些车辆部件。

而对于上述各示例性设置对于识别精度方面的贡献，还可以参考本申请通过实际试验所得到的一组数据（表1），来进行更为形象的理解。

表1-不同配置条件下的识别精度

网络的不同配置条件	识别准确率
		原始图像+原始squeezenet网络	90%
分割图像+原始squeezenet网络	93.7%
		分割图像+squeezenet改进网络	95%
分割图像+squeezenet改进网络+Focal_loss损失函数+数据增强操作	98.6%

应当注意的是，对于以上的试验数据，为方便更为清晰地展示其余示例性设置对于识别精度所带来的贡献，并未涉及前面部件指示操作识别处理中举例的具体识别逻辑的内容（可以带来较大贡献，容易模糊其他设置所带来的贡献）。

可以看到，本申请在上面内容中所涉及的示例性设置，都可以为识别精度做出有效的贡献，在多个设置的效果叠加下，已经能够使得精确度从原来的90%不断地逼近100%，并且在处理效率上也能得到对应的提升。

以上是本申请提供的车辆部件指示操作的识别方法的介绍，为便于更好的实施本申请提供的车辆部件指示操作的识别方法，本申请还从功能模块角度提供了一种车辆部件指示操作的识别装置。

参阅图2，图2为本申请车辆部件指示操作的识别装置的一种结构示意图，在本申请中，车辆部件指示操作的识别装置200具体可包括如下结构：

获取单元201，用于获取部署于车辆内部车顶的摄像头所采集得到的初始图像；

第一识别单元202，用于对初始图像进行方向盘识别处理，得到方向盘检测框；

划分单元203，用于以初始图像的底边为横轴，在方向盘检测框底边端点所在的两个横轴坐标的基础上，将初始图像划分成第一图像区域、第二图像区域和第三图像区域，其中，第一图像区域包括左后视镜，第二图像区域包括方向盘、仪表盘、灯光拨杆、雨刷拨杆和钥匙，第三图像区域包括档杆和中控屏；

第二识别单元204，用于对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理，以识别用户是否向对应部件做出了指示操作；

响应单元205，用于根据识别结果，进行对应的语音响应。

在一种示例性的实现方式中，执行对第一图像区域、第二图像区域和第三图像区域分别进行部件触摸操作识别处理的部件指示操作识别模型，在通用squeezenet网络的基础上，将fire模块原来由四个3x3卷积核组成的单个通道，改成两组，第一组为一个3x3卷积核的双通道，第二组为两个3x3卷积核的双通道级联，并将3x3卷积核原来采用的Relu激活函数改成Leaky Relu激活函数，将两个通道的输出进行通道混洗。

在又一种示例性的实现方式中，执行对第一图像区域、第二图像区域和第三图像区域分别进行部件指示操作识别处理的部件指示操作识别模型，在训练过程中采用的样本图像数据，通过对不同条件下采集得到的初始样本图像进行数据增强操作得到，数据增强操作包括随机颜色变换、随机剪切、高斯模糊、随机擦除和随机椒盐噪声，初始样本图像包括未进行遮挡物遮挡处理的图像和进行遮挡物遮挡处理的图像。

在又一种示例性的实现方式中，部件指示操作识别模型在训练过程中采用FocalLoss损失函数。

在又一种示例性的实现方式中，在初始图像为多帧的连续图像时，划分单元203，具体用于：

在又一种示例性的实现方式中，在初始图像为多帧的连续图像时，第二识别单元204，具体用于：

在第三部件指示操作识别环节，对第二图像区域进行方向盘动态活动、灯光拨杆动态活动、雨刷拨杆动态活动和钥匙动态活动的识别，并根据识别结果确定用户是否做出了手握方向盘操作、手指灯光拨杆操作、手指雨刷拨杆操作和手拧钥匙操作；

在又一种示例性的实现方式中，摄像头具体为单个配置的2d摄像头。

本申请还从硬件结构角度提供了一种处理设备，参阅图3，图3示出了本申请处理设备的一种结构示意图，具体的，本申请处理设备可包括处理器301、存储器302以及输入输出设备303，处理器301用于执行存储器302中存储的计算机程序时实现如图1对应实施例中车辆部件指示操作的识别方法的各步骤；或者，处理器301用于执行存储器302中存储的计算机程序时实现如图2对应实施例中各单元的功能，存储器302用于存储处理器301执行上述图1对应实施例中车辆部件指示操作的识别方法所需的计算机程序。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器302中，并由处理器301执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

处理设备可包括，但不仅限于处理器301、存储器302、输入输出设备303。本领域技术人员可以理解，示意仅仅是处理设备的示例，并不构成对处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如处理设备还可以包括网络接入设备、总线等，处理器301、存储器302、输入输出设备303等通过总线相连。

处理器301可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是处理设备的控制中心，利用各种接口和线路连接整个设备的各个部分。

存储器302可用于存储计算机程序和/或模块，处理器301通过运行或执行存储在存储器302内的计算机程序和/或模块，以及调用存储在存储器302内的数据，实现计算机装置的各种功能。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据处理设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（SecureDigital，SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器301用于执行存储器302中存储的计算机程序时，具体可实现以下功能：

获取部署于车辆内部车顶的摄像头所采集得到的初始图像；

对初始图像进行方向盘识别处理，得到方向盘检测框；

根据识别结果，进行对应的语音响应。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的车辆部件指示操作的识别装置、处理设备及其相应单元的具体工作过程，可以参考如图1对应实施例中车辆部件指示操作的识别方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1对应实施例中车辆部件指示操作的识别方法的步骤，具体操作可参考如图1对应实施例中车辆部件指示操作的识别方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（Read Only Memory，ROM）、随机存取记忆体（Random Access Memory，RAM）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1对应实施例中车辆部件指示操作的识别方法的步骤，因此，可以实现本申请如图1对应实施例中车辆部件指示操作的识别方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请提供的车辆部件指示操作的识别方法、装置、处理设备以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种车辆部件指示操作的识别方法，其特征在于，所述方法包括：

驾校场景下，获取部署于车辆内部车顶的摄像头所采集得到的初始图像；

对所述初始图像进行方向盘识别处理，得到方向盘检测框；

以所述初始图像的底边为横轴，在所述方向盘检测框底边端点所在的两个横轴坐标的基础上，将所述初始图像划分成第一图像区域、第二图像区域和第三图像区域，其中，所述第一图像区域包括左后视镜，所述第二图像区域包括方向盘、仪表盘、灯光拨杆、雨刷拨杆和钥匙，所述第三图像区域包括档杆和中控屏；

对所述第一图像区域、所述第二图像区域和所述第三图像区域分别进行部件指示操作识别处理，以识别用户是否向对应部件做出了指示操作；

根据识别结果，进行对应的语音响应；

执行对所述第一图像区域、所述第二图像区域和所述第三图像区域分别进行部件触摸操作识别处理的部件指示操作识别模型，在通用squeezenet网络的基础上，将fire模块原来由四个3x3卷积核组成的单个通道，改成两组，第一组为一个所述3x3卷积核的双通道，第二组为两个所述3x3卷积核的双通道级联，并将所述3x3卷积核原来采用的Relu激活函数改成Leaky Relu激活函数，将所述两个通道的输出进行通道混洗。

2.根据权利要求1所述的方法，其特征在于，执行对所述第一图像区域、所述第二图像区域和所述第三图像区域分别进行部件指示操作识别处理的部件指示操作识别模型，在训练过程中采用的样本图像数据，通过对不同条件下采集得到的初始样本图像进行数据增强操作得到，所述数据增强操作包括随机颜色变换、随机剪切、高斯模糊、随机擦除和随机椒盐噪声，所述初始样本图像包括未进行遮挡物遮挡处理的图像和进行遮挡物遮挡处理的图像。

3.根据权利要求2所述的方法，其特征在于，所述部件指示操作识别模型在训练过程中采用Focal Loss损失函数。

4.根据权利要求1所述的方法，其特征在于，在所述初始图像为多帧的连续图像时，所述以所述初始图像的底边为横轴，在所述方向盘检测框底边端点所在的两个横轴坐标的基础上，将所述初始图像划分成第一图像区域、第二图像区域和第三图像区域，包括：

以第一帧图像的底边为横轴，在所述方向盘检测框底边端点所在的两个横轴坐标的基础上，将所述第一帧图像划分成所述第一图像区域、所述第二图像区域和所述第三图像区域；

对所述第一帧图像后面的图像，复用所述第一帧图像划分所述第一图像区域、所述第二图像区域和所述第三图像区域的图像区域位置，来进行图像区域的划分。

5.根据权利要求1所述的方法，其特征在于，在所述初始图像为多帧的连续图像时，所述对所述第一图像区域、所述第二图像区域和所述第三图像区域分别进行部件指示操作识别处理，包括：

在第一部件指示操作识别环节，对所述第一图像区域进行手指左后视镜识别，并根据识别结果确定用户是否做出了手指左后视镜操作；

在第二部件指示操作识别环节，对所述第二图像区域进行手指仪表盘识别，并根据识别结果确定用户是否做出了手指仪表盘操作；

在第三部件指示操作识别环节，对所述第二图像区域进行方向盘动态活动、灯光拨杆动态活动、雨刷拨杆动态活动和钥匙动态活动的识别，并根据识别结果确定用户是否做出了手握方向盘操作、手拨灯光拨杆操作、手拨雨刷拨杆操作和手拧钥匙操作；

在第四部件指示操作识别环节，对所述第三图像区域进行档杆动态活动和中控屏动态活动的识别，并根据识别结果确定用户是否做出了手握档杆动态活动和手指中控屏动态活动。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述摄像头具体为单个配置的2d摄像头。

7.一种车辆部件指示操作的识别装置，其特征在于，所述装置包括：

获取单元，用于驾校场景下，获取部署于车辆内部车顶的摄像头所采集得到的初始图像；

第一识别单元，用于对所述初始图像进行方向盘识别处理，得到方向盘检测框；

划分单元，用于以所述初始图像的底边为横轴，在所述方向盘检测框底边端点所在的两个横轴坐标的基础上，将所述初始图像划分成第一图像区域、第二图像区域和第三图像区域，其中，所述第一图像区域包括左后视镜，所述第二图像区域包括方向盘、仪表盘、灯光拨杆、雨刷拨杆和钥匙，所述第三图像区域包括档杆和中控屏；

第二识别单元，用于对所述第一图像区域、所述第二图像区域和所述第三图像区域分别进行部件指示操作识别处理，以识别用户是否向对应部件做出了指示操作；

响应单元，用于根据识别结果，进行对应的语音响应；

8.一种处理设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至6任一项所述的方法。