CN114170559A

CN114170559A - 车载设备的控制方法、装置和车辆

Info

Publication number: CN114170559A
Application number: CN202111542472.6A
Authority: CN
Inventors: 杨聪; 孔祥斌
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-11

Abstract

本公开实施例公开了一种车载设备的控制方法、装置和车辆，其中，该方法包括：从摄像装置采集的视频帧中，获取包括有车内人员的图像帧序列；对图像帧序列的各图像帧进行识别处理，得到各图像帧中车内人员的身体部位区域；基于各图像帧中车内人员的身体部位区域，确定各图像帧中包括身体部位区域中的感兴趣区域；提取感兴趣区域所在的图像块，得到车内人员的图像块序列；基于图像块序列进行行为识别，得到车内人员的预设行为的识别结果；若识别结果表示车内人员执行了预设行为，控制车载设备执行与预设行为相对应的响应动作。本公开实施例可以在识别出执行预设行为时，通过控制车载设备执行与预设行为相对应的响应动作，用户体验好。

Description

车载设备的控制方法、装置和车辆

技术领域

本公开涉及车辆技术领域，尤其是一种车载设备的控制方法、装置和车辆。

背景技术

随着人民生活水平的提高和车辆技术的发展，车辆的普及率越来越高，且车辆的娱乐功能越来越丰富。

当前，一些车辆上设置有车载中控屏和车载音响。车内人员可以通过车载中控屏打开唱歌应用，通过车载音响播放歌曲，且有时候会随着音乐进行唱歌。如果可以在检测到车内人员进行唱歌时，通过车载设备提升氛围，则可以极大地可以提升用户体验。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种车载设备的控制方法、装置和车辆。

根据本公开实施例的第一方面，提供了一种车载设备的控制方法，包括：

从摄像装置采集的视频帧中，获取包括有车内人员的图像帧序列；

对所述图像帧序列的各图像帧进行识别处理，得到所述各图像帧中所述车内人员的身体部位区域；

基于所述各图像帧中所述车内人员的身体部位区域，确定所述各图像帧中包括所述身体部位区域中的感兴趣区域；

提取所述感兴趣区域所在的图像块，得到所述车内人员的图像块序列；

基于所述图像块序列进行行为识别，得到所述车内人员的预设行为的识别结果；

若所述识别结果表示所述车内人员执行了所述预设行为，控制车载设备执行与所述预设行为相对应的响应动作。

根据本公开实施例的第二方面，提供了一种车载设备的控制装置，包括：

图像帧序列获取模块，用于从摄像装置采集的视频帧中，获取包括有车内人员的图像帧序列；

图像识别定位模块，用于对所述图像帧序列的各图像帧进行识别处理，得到所述各图像帧中所述车内人员的身体部位区域；

感兴趣区域确定模块，用于基于所述各图像帧中所述车内人员的身体部位区域，确定所述各图像帧中包括所述身体部位区域中的感兴趣区域；

图像块序列获取模块，用于提取所述感兴趣区域所在的图像块，得到所述车内人员的图像块序列；

行为识别模块，用于基于所述图像块序列进行行为识别，得到所述车内人员的预设行为的识别结果；

控制模块，用于若所述识别结果表示所述车内人员执行了所述预设行为，控制车载设备执行与所述预设行为相对应的响应动作。

根据本公开实施例的第三方面，提供了一种车辆，包括上述第二方面的车载设备的控制装置。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的车载设备的控制方法。

根据本公开实施例的第五方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的车载设备的控制方法。

基于本公开上述实施例提供的车载设备的控制方法、装置和车辆，从摄像装置采集的视频帧中，获取包括有车内人员的图像帧序列，进而确定图像帧序列的各图像帧中的感兴趣区域，再提取各图像帧的感兴趣区域所在的图像块得到图像块序列，基于图像块序列进行行为识别，可以得到车内人员针对预设行为的识别结果，进而可以在识别出执行预设行为(例如唱歌)时，通过控制车载设备(例如车载中控屏、车载音响和车载氛围灯等)执行与预设行为相对应的响应动作，用户体验好。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一个实施例中车载设备的控制方法的流程示意图；

图2是本公开一个实施例中步骤S3的流程示意图；

图3是本公开一个实施例中步骤S3-4的流程示意图；

图4是本公开一个示例中确定一个图像帧中感兴趣区域的示意图；

图5是本公开一个实施例中步骤S5的流程示意图；

图6是本公开一个实施例中车载设备的控制装置的结构框图；

图7是本公开一个实施例中感兴趣区域确定模块300的结构框图；

图8是本公开一个实施例中行为识别模块500的结构框图；

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本公开一个实施例中车载设备的控制方法的流程示意图。如图1所示，包括如下步骤：

S1：从摄像装置采集的视频帧中，获取包括有车内人员的图像帧序列。

在车内安装有摄像装置，通过摄像装置拍摄车内的视频图像。在开启摄像装置拍摄车图视频图像时，可以从摄像装置采集的视频帧中，通过图像识别技术识别出包括有车内人员的图像帧。其中，从视频帧中通过图像识别技术识别出包括有车内人员的图像帧的方式，可以包括对某个视频帧仅识别出人体某个部位(例如人脸或人手等)，即判定该图像帧包括有车内人员；还可以包括对某个视频帧识别出人体(例如包括头部、手部和上身)，才判定该图像帧包括有车内人员。需要说明的是，本领域技术人员还可以通过其他的图像识别方式确定图像帧中是否包括有车内人员。

在摄像装置采集的视频帧中，确定包括有车内人员的图像帧之后，按照图像帧的采集时间顺序对图像帧进行排序，得到包括有车内人员的图像帧序列。

S2：对图像帧序列的各图像帧进行识别处理，得到各图像帧中车内人员的身体部位区域。

利用图像识别技术对图像帧序列的各图像帧进行识别处理，可以准确地确定各图像帧中车内人员的身体部位区域。需要说明的是，S1采用粗略的图像识别，目的是在可以确定出图像帧中是否有车内人员的前提下，尽可能提升识别效率。S2中采用的图像识别方式，相较于S1的图像识别方式而言，图像识别精度更高，需要确定各图像帧中车内人员的身体区域，以便后续步骤基于各图像帧中车内人员的身体区域进行进一步的处理。

需要说明的是，在本公开的实施例中，除非特意说明，车内人员的数量可以为一个或多个。当车内人员为多个时，需要对每个车内人员进行类似地操作。例如当车内人员为多个时，需要识别出每个车内人员的身体部位区域。再例如当需要确定车内人员的身体部位区域中的感兴趣区域时，则需要确定每个车内人员的身体部位区域中的感兴趣区域。再例如当需要基于车内人员的身体部位区域中的感兴趣区域进行行为识别时，则需要提取各图像帧中每个车内人员的身体部位区域中的感兴趣区域的图像块，对每个车内人员对应的图像块分别组成图像块序列，进而分别进行行为识别。为了减少冗余，不对所有情况进行枚举。

S3：基于各图像帧中车内人员的身体部位区域，确定各图像帧中包括身体部位区域中的感兴趣区域。

感兴趣区域根据需要检测的内容而定。例如当需要进行唱歌行为的识别时，各图像帧中的感兴趣区域可以包括车内人员的嘴部和手部的图像区域；当需要进行手势识别时，各图像帧中的感兴趣区域可以包括车内人员的手臂的图像区域；当需要进行唇语识别时，各图像帧中的感兴趣区域可以包括车内人员的嘴部的图像区域。

S4：提取感兴趣区域所在的图像块，得到车内人员的图像块序列。

可以在图像帧序列的各图像帧中，将一个图像帧中的感兴趣区域的尺寸(例如n像素*m像素，n和m均为大于1的整数)作为标准尺寸，对图像帧序列的剩余图像帧中，基于标准尺寸提取感兴趣区域所在的图像。再基于图像帧序列中各图像帧的排列顺序，对每图像帧提取出的图像块进行排序，得到图像块序列。

在本公开的一个示例中，图像帧序列包括100帧图像。将100帧图像中尺寸最大的感兴趣区域的尺寸，作为标准尺寸。对尺寸最大的感兴趣区域所在的图像帧，提取该图像帧中的感兴趣区域所在的图像块。对100帧图像中剩余的图像帧，按照标准尺寸对感兴趣区域进行外扩，得到剩余的图像帧对应的图像块。在提取出将100帧图像中对应的图像块之后，基于图像帧序列中各图像帧的排列顺序，对每图像帧提取出的图像块进行排序，得到图像块序列。

需要说明的是，在S4中，对图像帧序列的各图像帧提取尺寸相同的图像块，是因为用于进行行为识别的神经网络，其输入通常需要尺寸相同的图像块序列。如果采用不需要输入不需要尺寸相同的图像块序列即可实现行为识别的终端(例如包括有神经网络的终端，由神经网络自身对输入的图像块序列进行尺寸统一处理)，则可以直接提取图像帧序列的各图像帧中感兴趣区域所在的图像块，生成图像块序列。

S5：基于图像块序列进行行为识别，得到车内人员的预设行为的识别结果。

可以利用训练好的、用于进行行为识别神经网络对图像块序列进行行为识别，得到车内人员的预设行为的识别结果。

S6：若识别结果表示车内人员执行了预设行为，控制车载设备执行与预设行为相对应的响应动作。

在本公开的一个示例中，当预设行为包括唱歌行为时，可以控制车载中控屏中的唱歌应用程序(例如唱歌类APP)执行与唱歌行为相对应的响应动作(例如开启唱歌应用，进入唱歌模式)，可以控制车载音频输出设备(例如车载音响)执行与唱歌行为相对应的响应动作(例如开启预设等级的音效模式)，还可以控制开启车载氛围灯，提升唱歌氛围，进而提升用户体验。

在本公开的另一个示例中，当预设行为包括预设手势动作时，可以控制对预设手势动作相对应的车载设备，按照预设手势动作进行相应的响应动作。例如预设手势动作为驾驶员或副驾驶员单手伸向前车窗且左右摆动，且驾驶员或副驾驶员单手伸向前车窗且左右摆动对应的响应动作包括通过雨刷器对前车窗进行刮拭。当图像识别结果表示驾驶员或副驾驶员单手伸向前车窗且左右摆动时，控制雨刷器对前车窗进行刮拭。

在本实施例中，从摄像装置采集的视频帧中，获取包括有车内人员的图像帧序列，进而确定图像帧序列的各图像帧中的感兴趣区域，再提取各图像帧的感兴趣区域所在的图像块得到图像块序列，基于图像块序列进行行为识别，可以得到车内人员针对预设行为的识别结果，进而可以在识别出执行预设行为(例如唱歌)时，通过控制车载设备(例如车载中控屏、车载音响和车载氛围灯等)执行与预设行为相对应的响应动作，用户体验好。

图2是本公开一个实施例中步骤S3的流程示意图。如图2，步骤S3包括：

S3-1：获取各图像帧中车内人员的嘴部区域内的嘴部关键点。

在一种可选的方式中，在步骤S2中对各图像帧进行识别处理后，可以同时输出各图像帧中车内人员的身体部位区域，以及各图像帧中车内人员的脸部区域和手部区域。此时在步骤S3-1中，可以从各图像帧中车内人员的人脸区域内确定嘴部区域，进而获取嘴部区域内的嘴部关键点。在获取嘴部关键点之后，还需要确定获取的嘴部关键点是对应哪个身体区域的，即获取的嘴部关键点是对应哪个车内人员的。其中，当车内人员为多个时，需要对多个人员分别提取嘴部关键点，并确定提取的嘴部关键点与车内人员之间的对应关系。

在另一种可选的方式中，通过步骤S2得到各图像帧中车内人员的身体部位区域之后，在步骤S3-1中可以对各图像帧中车内人员的身体部位区域进行进一步处理，从而确定各图像帧中车内人员的嘴部区域，进而获取嘴部区域内的嘴部关键点。其中，当车内人员为多个时，则步骤S2后得到了多个人员的身体区域，此时在步骤S3-1中需要对多个身体区域内分别确定嘴部区域，进而提取每个嘴部区域内的嘴部关键点。

S3-2：基于各图像帧中车内人员的嘴部区域内的嘴部关键点，确定各图像帧中车内人员的嘴部中心点。

可以针对各图像帧中的某个车内人员，可以对各图像帧中该车内人员的所有嘴部关键点在各图像帧中的二维坐标求取平均值，得到各图像帧中的嘴部中心点。其中，在各图像帧中建立有二维坐标系，例如将各图像帧的指定位置(例如各图像帧中左下边角处的像素点)作为二维坐标系的原点，从而可以得到各图像帧中所有嘴部关键点在二维坐标系中的坐标，进而确定各图像帧中的嘴部中心点在二维坐标系中的坐标。

S3-3：将各图像帧中车内人员的手部区域的中心点，确定为各图像帧中车内人员的手部中心点。

在一种可选的方式中，在步骤S2中对各图像帧进行识别处理后，可以同时输出各图像帧中车内人员的身体部位区域，以及各图像帧中车内人员的脸部区域和手部区域。此时在步骤S3-1中，将各图像帧中车内人员的手部区域的中心点，确定为各图像帧中车内人员的手部中心点。其中，在确定手部中心点之后，还需要确定手部中心点是对应哪个身体区域的，即确定的手部中心点是对应哪个车内人员的。

在另一种可选的方式中，通过步骤S2得到各图像帧中车内人员的身体部位区域之后，在步骤S3-3中可以对各图像帧中车内人员的身体部位区域进行进一步检测，从而确定各图像帧中车内人员的手部区域，进而将各图像帧中车内人员的手部区域的中心点坐标作为各图像帧中车内人员的手部中心点的坐标。其中，当车内人员为多个时，则步骤S2得到了多个人员的身体区域，此时在步骤S3-3中需要对各图像帧中的多个身体区域内分别确定手部区域，并确定各图像帧中每个车内人员的手部中心点。

S3-4：基于各图像帧中车内人员的嘴部中心点，以及各图像帧中车内人员的手部中心点，确定各图像帧中包括车内人员的嘴部和手部的感兴趣区域。

基于将图像帧序列的各图像帧中，将同一个车内人员的嘴部中心点和车内人员的手部中心点可以确定一个矩形区域，对矩形区域进行区域外扩，即可得到各图像帧中包括该车内人员的嘴部和手部的感兴趣区域。

在本实施例中，获取图像帧序列的各图像帧中的嘴部中心点和手部中心点，基于各图像帧中的嘴部中心点和手部中心点进行区域外扩，即可得到各图像帧中包括车内人员的嘴部和手部的感兴趣区域，以便后续步骤可以针对感兴趣区域提取图像块，进而进行唱歌行为的识别，从而可以根据唱歌行为的识别结果控制车载设备进行响应，提升唱歌氛围，用户体验好。

图3是本公开一个实施例中步骤S3-4的流程示意图。如图3，步骤S3-4包括：

S3-4-1：基于各图像帧中车内人员的嘴部中心点，以及各图像帧中车内人员的手部中心点，进行中心点连线和连线延长处理，得到各图像帧中包括车内人员的嘴部和手部的感兴趣区域的对角线。

图4是本公开一个示例中确定一个图像帧中感兴趣区域的示意图。如图4所示，在得到一个图像帧中车内人员的嘴部中心点和手部中心点之后，对该图像帧中车内人员的嘴部中心点和手部中心点进行连线，然后对连线的两个端点分别按照连线方向分别进行延长处理，得到该图像帧中感兴趣区域的对角线。其中，延长处理的方式可以包括按照连线的长度，分别对两个端点延长连线的长度一半的长度，最终得到该图像帧中感兴趣区域的对角线。需要说明的是，连线延长处理中对两个端点的延长长度也可以是其他数值，例如是k*l，其中k为一个常数，l为该图像帧中，嘴部中心点和手部中心点之间连线长度。

S3-4-2：基于各图像帧中包括车内人员的嘴部和手部的感兴趣区域的对角线，确定各图像帧中包括车内人员的嘴部和手部的感兴趣区域。

基于各图像帧中包括车内人员的嘴部和手部的感兴趣区域的对角线，获取各图像帧中的矩形区域，作为各图像帧中包括车内人员的嘴部和手部的感兴趣区域。

在本实施例中，基于各图像帧中车内人员的嘴部中心点和手部中心点，进行中心点连线和连线延长处理，即可得到各图像帧中尺寸合理的感兴趣区域，即可以保证各图像帧中包括车内人员的手部和嘴部，又可以避免感兴趣区域过大导致后续步骤进行行为识别时，由于图像尺寸过大使得的图像特征提取速度慢和识别效率低。

在本公开的一个实施例中，步骤S2具体包括：对图像帧序列的各图像帧进行识别处理，得到各图像帧中车内人员的身体部位区域，并得到各图像帧中车内人员的车内位置。相应地，步骤S6具体包括：若识别结果表示车内人员执行了预设行为，则基于各图像帧中车内人员的车内位置和车辆状态，选择性地控制车载设备执行与预设行为相对应的响应动作。

在步骤S2中，除了可以识别出各图像帧中车内人员的身体部位区域，还可以识别出各图像帧中车内人员的车内位置。其中，车内位置包括主驾驶位、副驾驶位和乘客位，即在步骤S2可以识别出车内人员为驾驶员还是乘客。

在本公开的一个示例中，在步骤S6中，若识别结果表示车内人员执行了唱歌行为，则根据车内人员的车内位置可以判定是否为车内人员是否为驾驶员。当车内人员不是驾驶员时，可以根据唱歌行为控制相应的车载设备进行响应，例如控制车载中控屏启动唱歌APP，控制车载音响的工作参数，或者控制车载氛围灯的工作参数；当车内人员是驾驶员时，则根据车辆状态确定是否根据唱歌行为控制相应的车载设备进行响应。例如当车辆状态表示车辆处于行驶状态(车速不为零)，则不对驾驶员的唱歌行为进行响应；当例如车辆状态表示车辆处于非行驶状态(车速为零)，则根据唱歌行为控制相应的车载设备进行响应。

图5是公开一个实施例中步骤S5的流程示意图。如图5，步骤S5包括：

S5-1：对图像块序列的各图像块进行行为识别，得到各图像块中车内人员的预设行为的分类置信度。

在本公开的一个示例中，预设行为包括唱歌行为，唱歌行为分类可以包括：手持话筒唱歌行为、手握物品(例如手机等)唱歌行为、握拳唱歌行为和无唱歌行为的四个分类。对图像块序列的各图像块进行唱歌行为识别，可以得到各图像块中车内人员唱歌行为的分类置信度，即各图像块中车内人员的手持话筒唱歌行为的置信度、手握物品(例如手机等)唱歌行为的置信度、握拳唱歌行为的置信度和无唱歌行为的置信度。

S5-2：基于图像块序列的各图像块中车内人员的预设动作行为的分类置信度，得到图像块序列的预设行为的分类置信度。

在本公开的一个示例中，当预设行为包括唱歌行为时，可以对图像块序列的各图像块中车内人员唱歌行为的分类置信度进行均值处理，得到图像块序列的唱歌行为的分类置信度。

在本公开的另一个示例中，当预设行为包括唱歌行为时，可以基于图像块序列的各图像块中车内人员分类置信度，以及各图像块在图像块序列中的权重(例如关键帧提取出的图像块的权重较大，普通帧提取出的图像块的权重较小)，进行加权求和，然后对加权求和结果求取平均值，作为图像块序列的唱歌行为的分类置信度。

S5-3：基于图像块序列的预设行为的分类置信度，确定车内人员的预设行为的识别结果。

可选地，将图像块序列的预设行为的分类置信度最高的预设行为分类，确定为车内人员的预设行为的识别结果。例如预设行为包括唱歌行为时，将图像块序列的手持话筒唱歌行为的置信度、手握物品唱歌行为的置信度、握拳唱歌行为的置信度和无唱歌行为的置信度中，如果手握物品唱歌行为的置信度最高，则将手握物品唱歌行为确定为图像块序列的识别结果。

在本实施例中，首先计算图像块序列中单个图像块的分类置信度，然后基于单个图像块的分类置信度计算图像块序列作为一个整体的分类置信度，进而基于图像块序列作为一个整体的分类置信度，可以合理地确定出车内人员的预设行为的识别结果。

在本公开的一个实施例中，步骤S6可以包括：

S6-A：若车载设备未进入唱歌模式，且当车内人员的预设行为的识别结果包括唱歌行为时，控制车载设备进入唱歌模式。

在本实施例中，预设行为可以是唱歌行为，更具体的，预设行为可以是手持话筒唱歌行为、手握物品唱歌行为或者握拳唱歌行为。车载设备可以包括车载中控屏、车载音频输出设备(例如车载音响)、车载氛围灯和其他可以与唱歌行为进行响应的车载设备(例如可以是对座椅进行震动的座椅按摩设备)。

如果车载设备未进入唱歌模式，且识别结果为唱歌行为时，可以控制车载中控屏、车载音频输出设备、车载氛围灯和其他可以与唱歌行为进行响应的车载设备中的至少一种车载设备进入唱歌模式。

当车载中控屏进入唱歌模式后，可以打开车载中控屏中的唱歌APP，播放音乐，提升唱歌氛围。

当车载音频输出设备进行唱歌模式后，可以控制车载音频输出设备进入功放模式，提升唱歌氛围。

当车载氛围灯进入唱歌模式后，可以根据车内人员的唱歌音量控制车载氛围灯的亮度，并可以根据车内人员的唱歌的声音节奏控制车载氛围灯的颜色、亮度以及点亮和熄灭的节奏，提升唱歌氛围。

当其他可以与唱歌行为进行响应的车载设备(例如可以是座椅进行震动的座椅按摩设备)进入唱歌模式后，可以根据车内人员的唱歌音量控制该车载设备的工作状态参数(例如控制座椅按摩设备的震动力度)，提升唱歌氛围。

在本实施例中，如果车载设备未进入唱歌模式，且识别结果表示车内人员进行了唱歌行为时，可以控制车载设备进入唱歌模式，进而可以在车载设备进入唱歌模式后，根据车内人员的唱歌状态控制车载设备进行相应地响应，从而提升唱歌氛围，用户体验好。

在本公开的一个实施例中，步骤S6可以包括：

S6-B：若车载设备已经进入唱歌模式，当车内人员的预设行为的识别结果表示车内人员手持话筒唱歌时，提示是否建立车载音频输出设备与话筒之间的连接。

当车载设备已经进入唱歌模式后，若识别结果表示车内人员手持话筒唱歌时，且该话筒可以与车载音频输出设备进行连接(例如蓝牙连接、wifi连接或其他连接方式)，则对车内人员提示是否建立车载音频输出设备与话筒之间的连接。当车内人员通过语音指令/手势指令/控制按钮确认需要建立车载音频输出设备与话筒之间的连接后，则建立车载音频输出设备与话筒之间的连接。之后，当车内人员手持话筒唱歌时，可以由车载音频输出设备输出车内人员的歌声。

在本实施例中，若车载设备已经进入唱歌模式，当车内人员的预设行为的识别结果表示车内人员手持话筒唱歌时，可以对车内人员提示是否建立车载音频输出设备与话筒之间的连接，以便在车内人员确认建立车载音频输出设备与话筒之间的连接之后，可以由车载音频输出设备输出车内人员的歌声，唱歌氛围好，用户体验好。

在本公开的一个实施例中，在步骤S6-B之后，还包括：根据车辆状态确定话筒的限制功能。

在本公开一个示例中，当车辆状态表示车速处于停车状态，则话筒的限制功能为空，即不对话筒的功能进行限制。

在本公开另一个示例中，当车辆状态表示当前车速大于0且小于预设车速阈值时，可以对话筒采集的音频信号对应的车载音频输出设备的输出音量进行限制。示例性地，车速阈值可以是60km/h，即当车辆行驶时，如果车速小于60km/h，当车载音频输出设备只有一个扬声器时，则需要降低该扬声器的的输出音量，从而降低对驾驶员开车的影响；当车载音频输出设备包括多个扬声器时，例如对每个车内座位设置一个扬声器时，则至少需要降低驾驶员位置的扬声器的输出音量，并可以控制驾驶员位置的扬声器生成用于抵消其他扬声器输出音量的抵消信号，从而降低对驾驶员开车的影响。

在本公开又一个示例中，当当车辆状态表示当前车速大于等于预设车速阈值时，禁止使用话筒唱歌，即当车辆行驶时，如果车速大于等于60km/h，则禁止车载音频输出设备输出车内人员的歌声，避免影响驾驶员开车状态，从而保证车辆行驶安全。

在本实施例中，在建立车载音频输出设备与话筒之间的连接后，可以根据车辆状态确定话筒的限制功能，从而使得在保证车辆安全的情况下，提升唱歌氛围，用户体验好。

在本公开的一个实施例中，步骤S6可以包括：

S6-C：若基于摄像装置采集的视频帧或基于音频采集装置采集的车内音频信号确定车内人员在预设时间内没有进行唱歌行为后，提示是否降低车载音频设备的输出音量或者退出唱歌模式。

在本实施例中，通过图像识别技术对摄像装置采集的视频帧图像进行识别确定如果车内人员在预设时间内没有唱歌行为，或者通过音频采集装置采集车内音频信号并通过对车内音频信号进行分析确定车内人员在预设时间内没有唱歌行为后，即在预设时间内车内人员没有手持话筒唱歌行为、手握物品唱歌行为和握拳唱歌行为，则对车内人员提示是否降低车载音频设备的输出音量或者退出唱歌模式，以便在接收到音量降低指令后降低车载音频设备的输出音量，从而可以在用户不想唱歌时降低车载音频设备的输出音量，或者退出唱歌模式，用户体验好。

在本公开的一个实施例中，步骤S6可以包括：

S6-D：若车载设备已经进入唱歌模式，当识别结果表示车内人员进行了握拳唱歌或手持物品唱歌时，提示是否在车载显示屏上的车内人员的手部位置显示虚拟话筒。其中，车载显示屏可以包括车载中控屏、抬头显示器(Head Up Display，HUD)、后排显示屏等车内显示屏幕。

当车载设备已经进入唱歌模式，可以在车载显示屏上显示车内人员的脸部和手部的图像，例如通过车载摄像头采集车内图像后，提取车内图像中车内人员的脸部和手部的图像后，由车载显示屏进行显示。当识别结果表示车内人员握拳唱歌或手持物品唱歌时，可以通过车载显示屏显示车内人员的唱歌图像，或者通过车载显示屏分区域同时显示车内人员的唱歌图像和唱歌APP的图像。然后提示车内人员是否在车载显示屏上车内人员的手部位置显示虚拟话筒。当车内人员通过语音指令/手势指令/控制按钮确认需要显示虚拟话筒后，则可以在车载显示屏上的车内人员的手部位置显示虚拟话筒。

在本实施例中，如果车载设备已经进入唱歌模式，当识别结果表示车内人员进行了握拳唱歌或手持物品唱歌时，可以提示车内人员是否在车载显示屏上的车内人员的手部位置显示虚拟话筒，以便在车内人员确认显示虚拟话筒后进行显示，从而提升用户体验。

在本公开的一个实施例中，步骤S6可以包括：

S6-E：若识别结果表示车内人员执行了唱歌行为，则基于车内人员的感兴趣歌单，控制车载音频输出设备根据感兴趣歌单播放歌曲。

在本实施例中，可以在识别出车内人员执行了唱歌行为后，通过人脸识别或者声音识别等方式确定唱歌人员的身份，进而获取唱歌人员的感兴趣歌单，当可以获取到唱歌人员的感兴趣歌单时(例如车载音频输出设备存储有唱歌人员的感兴趣歌单，或者唱歌人员通过手机向车载音频输出设备提供了感兴趣歌单)，则控制车载音频输出设备根据唱歌人员的感兴趣歌单播放歌曲；当无法获取到唱歌人员的感兴趣歌单时，则获取其他车内人员的感兴趣歌单，控制车载音频输出设备根据其他车内人员的感兴趣歌单播放歌曲。本实施例在识别出车内人员执行了唱歌行为后，可以基于车内人员的感兴趣歌单，控制车载音频输出设备根据感兴趣歌单播放歌曲，用户体验好。

在本公开的一个实施例中，步骤S6可以包括：

S6-F：若识别结果表示车内人员执行了唱歌行为，则将车内人员的演唱歌词或车载音频输出设备输出歌曲的歌词显示在车内的预设位置。

在本实施例中，当识别结果表示车内人员执行了唱歌行为时，可以通过采集车内人员的音频信号，通过对音频信号进行分析可以得到车内人员的演唱歌词，或者当车载音频输出设备播放歌曲时获取歌曲的歌词，进而可以通过显示屏显示或投影显示的方式在车内预设位置(例如车载中控屏、后排显示屏或前排不影响驾驶员开车的位置)车内人员的演唱歌词或车载音频输出设备输出歌曲的歌词，用户体验好。

在本公开的一个实施例中，在步骤S6之后，还可以包括：在车载设备进入唱歌模式后，获取车内人员的唱歌视频。

在本实施例中，可以在车载设备进入唱歌模式后，通过摄像装置和音频采集装置拍摄并保存车内人员的唱歌视频，以便车内人员可以分享或者剪辑唱歌视频，用户体验好。

本公开实施例提供的任一种车载设备的控制方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种车载设备的控制方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种车载设备的控制方法。下文不再赘述。

示例性装置

图6是本公开一个实施例中车载设备的控制装置的结构框图。如图6所示，车载设备的控制装置包括：图像帧序列获取模块100、图像识别定位模块200、感兴趣区域确定模块300、图像块序列获取模块400、行为识别模块500和控制模块600。

其中，图像帧序列获取模块100用于从摄像装置采集的视频帧中，获取包括有车内人员的图像帧序列；图像识别定位模块200用于对所述图像帧序列的各图像帧进行识别处理，得到所述各图像帧中所述车内人员的身体部位区域；感兴趣区域确定模块300用于基于所述各图像帧中所述车内人员的身体部位区域，确定所述各图像帧中包括所述身体部位区域中的感兴趣区域；图像块序列获取模块400用于提取所述感兴趣区域所在的图像块，得到所述车内人员的图像块序列；行为识别模块500用于基于所述图像块序列进行行为识别，得到所述车内人员的预设行为的识别结果；控制模块600用于若所述识别结果表示所述车内人员执行了所述预设行为，控制车载设备执行与所述预设行为相对应的响应动作。

图7是本公开一个实施例中感兴趣区域确定模块300的结构框图。如图7所示，感兴趣区域确定模块300包括：

嘴部关键点获取单元301，用于获取所述各图像帧中所述车内人员的嘴部区域内的嘴部关键点；

嘴部中心点确定单元302，用于基于所述各图像帧中所述车内人员的嘴部区域内的嘴部关键点，确定所述各图像帧中所述车内人员的嘴部中心点；

手部中心点确定单元303，用于将所述各图像帧中所述车内人员的手部区域的中心点，确定为所述各图像帧中所述车内人员的手部中心点；

感兴趣区域确定单元304，用于基于所述各图像帧中所述车内人员的嘴部中心点，以及所述各图像帧中所述车内人员的手部中心点，确定所述各图像帧中包括所述车内人员的嘴部和手部的感兴趣区域。

在本公开的一个实施例中，感兴趣区域确定单元304用于基于所述各图像帧中所述车内人员的嘴部中心点，以及所述各图像帧中所述车内人员的手部中心点，进行中心点连线和连线延长处理，得到所述各图像帧中包括所述车内人员的嘴部和手部的感兴趣区域的对角线，进而基于所述各图像帧中包括所述车内人员的嘴部和手部的感兴趣区域的对角线，确定所述图像帧序列的各图像帧中包括所述车内人员的嘴部和手部的感兴趣区域。

在本公开的一个实施例中，所述图像识别定位模块200具体用于对所述图像帧序列的各图像帧进行识别处理，得到所述各图像帧中所述车内人员的身体部位区域，并得到所述各图像帧中所述车内人员的车内位置；所述控制模块600具体用于若所述识别结果表示所述车内人员执行了所述预设行为，则基于所述各图像帧中所述车内人员的车内位置和车辆状态，选择性地控制车载设备执行与所述预设行为相对应的响应动作。

图8是本公开一个实施例中行为识别模块500的结构框图。如图8所示，行为识别模块500包括：

图像块置信度获取模块501，用于对所述图像块序列的各图像块进行行为识别，得到所述各图像块中所述车内人员的预设行为的分类置信度；

图像块序列置信度获取模块502，用于基于所述各图像块中所述车内人员的预设行为的分类置信度，得到所述图像块序列的预设行为的分类置信度；

识别结果确定模块503，用于基于所述图像块序列的预设行为的分类置信度，确定所述车内人员的预设行为的识别结果。

在本公开的一个实施例中，控制模块600用于若所述车载设备未进入唱歌模式，且当所述车内人员的预设行为的识别结果包括唱歌行为时，控制所述车载设备进入唱歌模式。

在本公开的一个实施例中，控制模块600用于若所述车载设备已经进入唱歌模式，当所述车内人员的预设行为的识别结果表示车内人员手持话筒唱歌时，提示是否建立所述车载音频输出设备与话筒之间的连接。

进一步地，控制模块600还用于若基于所述摄像装置采集的视频帧或基于音频采集装置采集的车内音频信号确定所述车内人员在预设时间内没有进行手持话筒唱歌行为后，提示是否降低所述车载音频设备的输出音量。

在本公开的一个实施例中，控制模块600用于若车载设备已经进入唱歌模式，当识别结果表示车内人员进行了握拳唱歌或手持物品唱歌时，提示是否在车载显示屏上的车内人员的手部位置显示虚拟话筒。

在本公开的一个实施例中，控制模块600用于若识别结果表示车内人员执行了唱歌行为，则基于车内人员的感兴趣歌单，控制车载音频输出设备根据感兴趣歌单播放歌曲。

在本公开的一个实施例中，控制模块600用于若识别结果表示车内人员执行了唱歌行为，则将车内人员的演唱歌词或车载音频输出设备输出歌曲的歌词显示在车内的预设位置。

在本公开的一个实施例中，车载设备的控制装置还包括唱歌视频获取模块，用于在所述车载设备进入所述唱歌模式后，获取所述车内人员的唱歌视频。

需要说明的是，本公开实施例的车载设备的控制装置的具体实施方式与本公开实施例的车载设备的控制方法的具体实施方式类似，具体参见车载设备的控制方法部分，为了减少冗余，不作赘述。

此外，本公开实施例还提供一种车辆，包括上述实施例的车载设备的控制装置。

示例性电子设备

下面，参考图9来描述根据本公开实施例的电子设备。如图9所示，电子设备包括一个或多个处理器10和存储器20。

处理器10可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器20可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器10可以运行所述程序指令，以实现上文所述的本公开的各个实施例的车载设备的控制方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置30和输出装置40，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。输入装置30可以例如键盘、鼠标等等。输出装置40可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机可读存储介质

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种车载设备的控制方法，包括：

2.根据权利要求1所述的车载设备的控制方法，其中，基于所述各图像帧中所述车内人员的身体部位区域，确定所述各图像帧中包括所述身体部位区域中的感兴趣区域，包括：

获取所述各图像帧中所述车内人员的嘴部区域内的嘴部关键点；

基于所述各图像帧中所述车内人员的嘴部区域内的嘴部关键点，确定所述各图像帧中所述车内人员的嘴部中心点；

将所述各图像帧中所述车内人员的手部区域的中心点，确定为所述各图像帧中所述车内人员的手部中心点；

基于所述各图像帧中所述车内人员的嘴部中心点，以及所述各图像帧中所述车内人员的手部中心点，确定所述各图像帧中包括所述车内人员的嘴部和手部的感兴趣区域。

3.根据权利要求2所述的车载设备的控制方法，其中，所述基于所述各图像帧中所述车内人员的嘴部中心点，以及所述各图像帧中所述车内人员的手部中心点，确定所述各图像帧中包括每个车内人员的嘴部和手部的感兴趣区域，包括：

基于所述各图像帧中所述车内人员的嘴部中心点，以及所述各图像帧中所述车内人员的手部中心点，进行中心点连线和连线延长处理，得到所述各图像帧中包括所述车内人员的嘴部和手部的感兴趣区域的对角线；

基于所述各图像帧中包括所述车内人员的嘴部和手部的感兴趣区域的对角线，确定所述图像帧序列的各图像帧中包括所述车内人员的嘴部和手部的感兴趣区域。

4.根据权利要求1所述的车载设备的控制方法，其中，所述对所述图像帧序列的各图像帧进行识别处理，得到所述各图像帧中所述车内人员的身体部位区域，包括：

对所述图像帧序列的各图像帧进行识别处理，得到所述各图像帧中所述车内人员的身体部位区域，并得到所述各图像帧中所述车内人员的车内位置；

其中，所述若所述识别结果表示所述车内人员执行了所述预设行为，控制车载设备执行与所述预设行为相对应的响应动作，包括：

若所述识别结果表示所述车内人员执行了所述预设行为，则基于所述各图像帧中所述车内人员的车内位置和车辆状态，选择性地控制车载设备执行与所述预设行为相对应的响应动作。

5.根据权利要求1-3任一项所述的车载设备的控制方法，其中，所述基于所述图像块序列进行行为识别，得到所述车内人员的预设动作的识别结果，包括：

对所述图像块序列的各图像块进行行为识别，得到所述各图像块中所述车内人员的预设行为的分类置信度；

基于所述各图像块中所述车内人员的预设行为的分类置信度，得到所述图像块序列的预设行为的分类置信度；

基于所述图像块序列的预设行为的分类置信度，确定所述车内人员的预设行为的识别结果。

6.根据权利要求1-3任一项所述的车载设备的控制方法，其中，所述若所述识别结果表示所述车内人员执行了所述预设行为，控制车载设备执行与所述预设行为相对应的响应动作，包括：

若所述车载设备未进入唱歌模式，且当所述车内人员的预设行为的识别结果包括唱歌行为时，控制所述车载设备进入唱歌模式。

7.一种车载设备的控制装置，包括：

8.一种车辆，包括权利要求7所述的车载设备的控制装置。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的车载设备的控制方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一所述的车载设备的控制方法。