CN117095680A

CN117095680A - 车辆控制方法、装置、设备及存储介质

Info

Publication number: CN117095680A
Application number: CN202310919977.2A
Authority: CN
Inventors: 韩冬; 张强; 夏勇
Original assignee: Chery Automobile Co Ltd
Current assignee: Chery Automobile Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-11-21

Abstract

本申请公开了一种车辆控制方法、装置、设备及存储介质，属于车辆技术领域。该方法基于视觉感知获取目标对象的唇动特征，基于声学感知获取目标对象的语音特征，将唇动特征和语音特征进行融合，得到输出结果，根据输出结果确定控制指令，执行该控制指令对应的控制操作。该方法将视觉感知和声学感知融合在一起，实现了多模交互，从而提高了车载语音的识别准确率，进而满足了用户需求。

Description

车辆控制方法、装置、设备及存储介质

技术领域

本申请涉及车辆技术领域，特别涉及一种车辆控制方法、装置、设备及存储介质。

背景技术

近年来，随着经济的快速发展，人们对车辆的需求越来越大，对车辆配置的要求也越来越高。从驾乘体验来看，车辆已经不单单是一个代步工具，而是一个可以与用户进行交互，满足用户需求的移动体验空间。

目前，用户主要通过与车载语音助手进行对话来对车辆内的辅助设备进行控制。但受外界因素的影响，车载语音助手有时无法准确识别用户的语音，存在识别准确率的问题，无法满足用户需求。

发明内容

本申请实施例提供了一种车辆控制方法、装置、设备及存储介质，可以提高车载语音的识别准确率，从而满足用户需求。所述技术方案如下：

一方面，提供了一种车辆控制方法，所述方法包括：

获取目标对象的多帧图像；所述目标对象为车辆中的任一对象；

确定每帧图像中的唇部区域，从每帧图像中的唇部区域提取唇动特征；

获取所述目标对象的语音信号，从所述语音信号中提取语音特征；

将所述唇动特征和所述语音特征进行融合，将融合后的特征输入第一识别模型中，得到第一输出结果；其中，所述第一识别模型是基于唇动特征样本、语音特征样本及其对应的样本语义信息训练得到的；

基于所述第一输出结果，确定所述目标对象的第一控制指令，执行所述第一控制指令对应的控制操作。

在一种可能的实现方式中，所述方法还包括：

将所述唇动特征输入第二识别模型中，得到第二输出结果；其中，所述第二识别模型是基于唇动特征样本及其对应的样本语义信息训练得到的；

将所述语音特征输入第三识别模型中，得到第三输出结果；其中，所述第三识别模型是基于语音特征样本及其对应的样本语义信息训练得到的；

将所述第二输出结果和所述第三输出结果进行融合，得到所述第一输出结果。

在另一种可能的实现方式中，所述方法还包括：

获取第一初始模型和第二初始模型；

基于唇动特征样本及其对应的样本语义信息，对所述第一初始模型进行训练，得到第四识别模型；

基于语音特征样本及其对应的样本语义信息，对所述第二初始模型进行训练，得到第五识别模型；

向云服务器发送所述第四识别模型和所述第五识别模型，通过所述云服务器对所述第四识别模型进行增强训练，得到所述第二识别模型；通过所述云服务器对所述第五识别模型进行增强训练，得到所述第三识别模型。

在另一种可能的实现方式中，所述执行所述第一控制指令对应的控制操作，包括：

确定所述第一控制指令对应的控制操作的操作类型；

若所述操作类型为控制所述车辆行驶的类型，获取所述车辆外的环境数据；

若确定所述车辆外的环境数据满足预设条件，执行所述第一控制指令对应的控制操作。

在另一种可能的实现方式中，所述方法还包括：

若所述车辆处于锁车状态，获取所述车辆内的传感器采集的环境数据；

基于所述车辆内的环境数据进行目标检测，得到第一检测结果；

获取所述车辆内的图像，基于所述车辆内的图像进行目标检测，得到第二检测结果；

若基于所述第一检测结果和所述第二检测结果，确定所述车辆内存在遗留对象，则进行异常预警。

在另一种可能的实现方式中，所述方法还包括：

基于所述多帧图像，确定所述目标对象的肢体姿态；

基于所述肢体姿态，确定第四输出结果；

基于所述语音特征，确定第五输出结果；

将所述第四输出结果和所述第五输出结果进行融合，得到第六输出结果；

基于所述第六输出结果，确定所述目标对象的第二控制指令，执行所述第二控制指令对应的控制操作。

在另一种可能的实现方式中，所述方法还包括：

基于所述多帧图像，确定所述目标对象的状态；

若所述目标对象的状态为抽烟状态，获取所述车辆内的烟雾浓度和所述车辆外的环境数据；

基于所述烟雾浓度和所述车辆外的环境数据，确定通风方式。

另一方面，提供了一种车辆控制装置，所述装置包括：

第一获取模块，用于获取目标对象的多帧图像；所述目标对象为车辆中的任一对象；

第一提取模块，用于确定每帧图像中的唇部区域，从每帧图像中的唇部区域提取唇动特征；

第二提取模块，用于获取所述目标对象的语音信号，从所述语音信号中提取语音特征；

第一融合模块，用于将所述唇动特征和所述语音特征进行融合，将融合后的特征输入第一识别模型中，得到第一输出结果；其中，所述第一识别模型是基于唇动特征样本、语音特征样本及其对应的样本语义信息训练得到的；

第一确定模块，用于基于所述第一输出结果，确定所述目标对象的第一控制指令，执行所述第一控制指令对应的控制操作。

在一种可能的实现方式中，所述装置还包括：

第一输入模块，用于将所述唇动特征输入第二识别模型中，得到第二输出结果；其中，所述第二识别模型是基于唇动特征样本及其对应的样本语义信息训练得到的；

第二输入模块，用于将所述语音特征输入第三识别模型中，得到第三输出结果；其中，所述第三识别模型是基于语音特征样本及其对应的样本语义信息训练得到的；

第二融合模块，用于将所述第二输出结果和所述第三输出结果进行融合，得到所述第一输出结果。

在另一种可能的实现方式中，所述装置还包括：

第二获取模块，用于获取第一初始模型和第二初始模型；

第一训练模块，用于基于唇动特征样本及其对应的样本语义信息，对所述第一初始模型进行训练，得到第四识别模型；

第二训练模块，用于基于语音特征样本及其对应的样本语义信息，对所述第二初始模型进行训练，得到第五识别模型；

发送模块，用于向云服务器发送所述第四识别模型和所述第五识别模型，通过所述云服务器对所述第四识别模型进行增强训练，得到所述第二识别模型；通过所述云服务器对所述第五识别模型进行增强训练，得到所述第三识别模型。

在另一种可能的实现方式中，所述第一确定模块，用于确定所述第一控制指令对应的控制操作的操作类型；若所述操作类型为控制所述车辆行驶的类型，获取所述车辆外的环境数据；若确定所述车辆外的环境数据满足预设条件，执行所述第一控制指令对应的控制操作。

在另一种可能的实现方式中，所述装置还包括：

第三获取模块，用于若所述车辆处于锁车状态，获取所述车辆内的传感器采集的环境数据；

第一检测模块，用于基于所述车辆内的环境数据进行目标检测，得到第一检测结果；

第二检测模块，用于获取所述车辆内的图像，基于所述车辆内的图像进行目标检测，得到第二检测结果；

预警模块，用于若基于所述第一检测结果和所述第二检测结果，确定所述车辆内存在遗留对象，则进行异常预警。

在另一种可能的实现方式中，所述装置还包括：

第二确定模块，用于基于所述多帧图像，确定所述目标对象的肢体姿态；

第三确定模块，用于基于所述肢体姿态，确定第四输出结果；

第四确定模块，用于基于所述语音特征，确定第五输出结果；

第三融合模块，用于将所述第四输出结果和所述第五输出结果进行融合，得到第六输出结果；

第五确定模块，用于基于所述第六输出结果，确定所述目标对象的第二控制指令，执行所述第二控制指令对应的控制操作。

在另一种可能的实现方式中，所述装置还包括：

第六确定模块，用于基于所述多帧图像，确定所述目标对象的状态；

第四获取模块，用于若所述目标对象的状态为抽烟状态，获取所述车辆内的烟雾浓度和所述车辆外的环境数据；

第七确定模块，用于基于所述烟雾浓度和所述车辆外的环境数据，确定通风方式。

另一方面，提供了一种控制设备，所述控制设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一项所述的车辆控制方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一项所述的车辆控制方法。

另一方面，提供了一种计算机程序产品，所述计算机程序产品中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一项所述的车辆控制方法。

本申请实施例提供了一种车辆控制方法，该方法基于视觉感知获取目标对象的唇动特征，基于声学感知获取目标对象的语音特征，将唇动特征和语音特征进行融合，得到输出结果，根据输出结果确定控制指令，执行该控制指令对应的控制操作。该方法将视觉感知和声学感知融合在一起，实现了多模交互，从而提高了车载语音的识别准确率，进而满足了用户需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

图1是本申请实施例提供的一种车辆控制方法的实施环境的示意图；

图2是本申请实施例提供的一种车辆控制方法的流程图；

图3是本申请实施例提供的一种语音交互的示意图；

图4是本申请实施例提供的一种人脸识别的示意图；

图5是本申请实施例提供的一种多模交互的示意图；

图6是本申请实施例提供的一种车辆控制装置的结构示意图；

图7是本申请实施例提供的一种控制设备的结构框图。

具体实施方式

为使本申请的技术方案和优点更加清楚，下面对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的语音信号、图像、环境数据、肢体姿态等都是在充分授权的情况下获取的。

图1是本申请实施例提供的一种车辆控制方法的实施环境的示意图，该实施环境包括：控制设备10、语音助手设备11和摄像模组12；摄像模组12和语音助手设备11均与控制设备10连接，该连接方式可以为无线连接，也可以为有线连接，对此不作具体限定。

语音助手设备11采集车辆内的语音信号，向控制设备10发送语音信号。摄像模组12采集车辆内的图像，向控制设备10发送图像。控制设备10根据语音信号和图像输出相应的结果，根据输出结果确定控制指令，执行控制指令对应的操作。

其中，摄像模组12可以采集车辆内驾驶员和乘客的图像，其设置位置和数量可以根据需要进行设置并更改，对此不作具体限定。控制设备10可以为域控制器或者音响主机，对此不作具体限定。其中，域控制器可以为座舱域控制器或者车身域控制器，对此不作具体限定。

在本申请实施例中，车辆内部还可以设置多种传感器，例如，雷达传感器、温度传感器、湿度传感器、烟雾传感器等，通过温度传感器检测车内的温度，向控制设备10发送检测到的温度；通过湿度传感器检测车内的湿度，向控制设备10发送检测到的湿度；通过烟雾传感器检测车内的烟雾浓度，向控制设备10发送检测到的烟雾浓度。这些传感器均与控制设备10通过无线或有线连接。当然，车内还可以设置其他类型的传感器，这里不再一一列举。

在本申请实施例中，车辆外部也可以设置传感器和摄像模组，例如，雷达传感器，通过雷达传感器检测车辆与其他车辆或者障碍物之间的距离，向控制设备10发送该距离；通过摄像模组采集车辆周围的图像，向控制设备10发送采集的图像。当然，车辆外部还可以设置其他类型的传感器，这里不再一一列举。

在本申请实施例中，控制设备10还可以将车内摄像模组12采集的图像、车内传感器采集的环境数据、车内语音助手设备11采集的语音信号以及车外传感器和摄像模组采集的环境数据等多方面的数据进行融合，实现多模交互，并结合场景判定触发条件，进行决策与执行。

图2是本申请实施例提供的一种车辆控制方法的流程图，由控制设备执行，参见图2，该方法包括：

步骤201：控制设备获取目标对象的多帧图像。

目标对象为车辆中的任一对象，目标对象可以为车辆的驾驶员，也可以为车辆中的乘客，对此不作具体限定。

控制设备可以获取车辆中的摄像模组发送的多帧图像，对多帧图像进行目标检测，从多帧图像中确定目标对象的多帧图像。其中，对于每帧图像，控制设备可以通过人脸识别模型对该图像进行人脸检测，通过人脸检测确定该图像中是否包括人脸，将包括人脸的图像确定为目标对象的图像。

由于车辆内可能设置多个摄像模组，有的摄像模组用于采集驾驶员的图像，有的摄像模组用于采集乘客的图像，则针对不同的摄像模组，可以预先确定多个标识，一个摄像模组对应唯一标识。摄像模组向控制设备发送图像时，会携带其对应的唯一标识，这样当控制设备接收到摄像模组发送的图像后，就可以根据携带的唯一标识确定该摄像模组采集的图像为驾驶员的图像还是乘客的图像。

步骤202：控制设备确定每帧图像中的唇部区域，从每帧图像中的唇部区域提取唇动特征。

对于每帧图像，控制设备可以通过人脸识别先确定该图像中的面部区域，再通过特征点定位从面部区域中确定唇部区域，从唇部区域的图像中提取唇动特征。当然，控制设备也可以通过人脸识别直接从该图像中定位出唇部区域，然后从唇部区域的图像中提取唇动特征。

步骤203：控制设备获取目标对象的语音信号，从语音信号中提取语音特征。

控制设备获取语音助手设备采集的语音信号，从该语音信号中确定目标对象的语音信号，从目标对象的语音信号中提取语音特征。

其中，语音助手设备采集的语音信号中可能包括多个对象的语音信号，则控制设备获取语音助手设备发送的语音信号后，可以对该语音信号降噪处理、回声消除、盲源分离、声源定位等处理。控制设备可以基于目标对象的多帧图像，确定目标对象在车辆内的位置，基于目标对象在车辆内的位置，从处理后的语音信号中确定目标对象的语音信号。

步骤204：控制设备将唇动特征和语音特征进行融合，将融合后的特征输入第一识别模型中，得到第一输出结果。

控制设备将唇动特征和语音特征进行融合，得到融合后的特征，将融合后的特征输入第一识别模型中，得到第一输出结果。

其中，控制设备可以将唇动特征对应的特征向量和语音特征对应的特征向量进行拼接，得到拼接后的特征向量，也即融合后的特征。将拼接后的特征向量输入第一识别模型中，得到第一输出结果。

第一识别模型是基于唇动特征样本、语音特征样本及其对应的样本语义信息训练得到的。第一识别模型可以为控制设备训练得到的，也可以为其他设备训练得到的，然后再部署到控制设备中的，也可以为控制设备和云服务器联合训练得到的，对此不作具体限定。下面仅以控制设备训练得到第一识别模型为例进行说明。

控制设备获取唇动特征样本、语音特征样本及其对应的样本语义信息，将唇动特征样本和语音特征样本进行融合，得到融合后的样本特征，将样本特征作为训练样本，将样本语义信息作为训练目标，通过迭代训练，得到第一识别模型。

在本申请实施例中，控制设备可以通过多模融合技术将多种类型的特征进行融合，多模融合技术分为多模前融合技术和多模后融合技术。多模前融合技术是将多种模态信息融合在一起作为输入，从而获得输出结果。步骤204就是通过多模前融合技术先将唇动特征和语音特征融合在一起，将融合后的特征作为识别模型的输入从而得到输出结果。多模后融合技术是将多个单模的输出结果进行融合，从而得到新的输出结果。下面以将唇动特征和语音特征通过多模后融合技术进行融合为例进行说明。

相应的，步骤204可以替换为：控制设备将唇动特征输入第二识别模型中，得到第二输出结果；将语音特征输入第三识别模型中，得到第三输出结果；将第二输出结果和第三输出结果进行融合，得到第一输出结果。其中，第二识别模型是基于唇动特征样本及其对应的样本语义信息训练得到的，第三识别模型是基于语音特征样本及其对应的样本语义信息训练得到的。

该实现方式中，第二识别模型和第三识别模型可以是控制设备训练得到的，也可以为其他设备训练的，然后再部署到控制设备中的，或者第二识别模型为控制设备和云服务器联合训练得到的，对此不作具体限定。例如，第二识别模型和第三识别模型为控制设备和云服务器联合训练得到的，则控制设备和云服务器联合训练得到第二识别模型和第三识别模型的过程可以为：

控制设备获取第一初始模型和第二初始模型，基于唇动特征样本及其对应的样本语义信息，对第一初始模型进行训练，得到第四识别模型；基于语音特征样本及其对应的样本语义信息，对第二初始模型进行训练，得到第五识别模型；向云服务器发送第四识别模型和第五识别模型，通过云服务器对第四识别模型进行增强训练，得到第二识别模型；通过云服务器对第五识别模型进行增强训练，得到第三识别模型。

控制设备中可以存储第一数量的唇动特征样本及其对应的样本语义信息，控制设备基于这些唇动特征样本及其对应的样本语义信息对第一初始模型进行迭代训练，得到第四识别模型。但控制设备的存储空间有限，因此，存储的样本数量有限，而为了提高模型训练的准确性，可以通过云服务器存储较多数量的唇动特征样本及其对应的样本语义信息。云服务器基于其存储的第二数量的唇动特征样本及其对应的样本语义信息，对第四识别模型进行增强训练，最终得到第二识别模型。其中，第二数量大于第一数量。

云服务器训练得到第二识别模型后，可以向控制设备发送第二识别模型，从而控制设备后续可以基于第二识别模型识别唇动特征。

同理，控制设备先基于一定数量的语音特征样本及其对应的样本语义信息，对第二初始模型进行迭代训练，得到第五识别模型，然后再通过云服务器基于更多数量的语音特征样本及其对应的样本语义信息对第五识别模型进行增强训练，最终得到第三识别模型。

控制设备将通过第二识别模型得到的第二输出结果和通过第三识别模型得到的第三输出结果进行融合，得到第一输出结果。

若第二输出结果和第三输出结果一致，或者两者之间的匹配度大于预设阈值，则第一输出结果与第二输出结果和第三输出结果相同。若第二输出结果和第三输出结果不一致，或者两者之间的匹配度不大于预设阈值，则第一输出结果与第二输出结果和第三输出结果均不同。

例如，第二输出结果指示开启空调，第三输出结果也指示开启空调，两者一致，则第一输出结果为开启空调。若第二输出结果指示开启空调，第三输出结果指示开启天窗，两者不一致，则第一输出结果为既不开启空调也不开启天窗。

在本申请实施例中，以控制设备作为主体，云服务器作为补充。这是因为：用户对系统延迟的要求越来越高，通过控制设备可以更快地输出结果。而在线交互带来的最大问题就是系统延迟长，依赖于网络。并且，人机共驾将对算法延迟有严格要求。人机共驾是指人和设备共同控制车辆，无论自动驾驶是否到来，人机共驾是始终存在的一种状态。比如，语音特征和唇动特征融合，来控制车辆行驶状态，确认是否超车或者变道，对于这种控制，必须要求快速，且不能受到网络的影响，否则会错失超车机会或者变道机会，用户体验将大打折扣。另外，云服务器作为控制设备的补充，可以更好地为用户服务。基于联邦学习算法，可以在控制设备先训练一个小的模型，然后将模型发到云服务器侧进行联合训练，有助于仅一步提升模型的准确度。当然，云服务器也可以进行二次确认，确保控制设备侧感知算法的准确度。例如，控制设备通过人脸识别无法识别出目标对象，这种情况下，可以将人脸图像发送到云服务器，通过云服务器再次进行人脸识别。

步骤205：控制设备基于第一输出结果，确定目标对象的第一控制指令，执行第一控制指令对应的控制操作。

控制设备基于第一输出结果对应的语义信息，确定该语义信息对应的第一控制指令。例如，第一输出结果对应的语义信息为打开空调，则第一控制指令用于控制空调系统开启。

在一种可能的实现方式中，控制设备直接执行第一控制指令对应的控制操作。

在另一种可能的实现方式中，控制设备确定目标对象为驾驶员还是乘客，若目标对象为乘客，则控制设备执行第一控制指令对应的控制操作。若目标对象为驾驶员，则确定第一控制指令对应的控制操作的操作类型；若操作类型为控制车辆行驶的类型，获取车辆外的环境数据；若确定车辆外的环境数据满足预设条件，则执行第一控制指令对应的控制操作。

该实现方式中，控制设备根据目标对象的类型确定不同的实现方式，对于乘客来说，乘客的需求一般是控制辅助设备，例如，打开空调、打开天窗，播放音乐等。而对于驾驶员来说，驾驶员控制车辆行驶，在行驶过程中会遇到不同的情况，例如变道、超车、通过人行横道等，这种情况下，需要判断外界环境是否满足条件，若满足条件，再执行第一控制指令对应的控制操作，从而保证用户安全。

因此，若第一控制指令对应的控制操作的操作类型为控制车辆行驶的类型，则控制设备还获取车外的环境数据，该环境数据包括车外摄像头采集的图像和车外传感器采集的数据。控制设备根据第一控制指令，确定车外的环境数据是否满足预设条件，若满足预设条件，则执行第一控制指令对应的控制操作，若不满足预设条件，则提醒目标对象。

例如，第一控制指令为向左变道，则控制设备根据车外的环境数据确定左侧车道是否满足变道条件，若满足变道条件，则控制设备可以控制车辆从当前车道变更到左侧车道，或者控制设备输出语音消息，以告知目标对象可以变道，目标对象基于控制设备输出的语音消息从当前车道变更到左侧车道。若不满足变道条件，则控制设备可以输出语音消息，提醒目标对象当前不适合变道。

例如，第一控制指令为超车，则控制设备根据车外的环境数据确定是否满足超车条件，若满足超车条件，则控制设备控制车辆超车，或者输出语音消息，以告知目标对象可以超车。若不满足超车条件，则控制设备可以输出语音消息，提醒目标对象当前不适合超车。

若第一控制指令对应的控制操作的操作类型为控制车辆内辅助设备的类型，则控制设备直接执行第一控制指令对应的控制操作。

上述是以唇动特征和语音特征融合为例说明的。在本申请实施中，控制设备还可以将肢体姿态与语音特征进行融合。该过程可以为：控制设备基于目标对象的多帧图像，确定目标对象的肢体姿态；基于肢体姿态，确定第四输出结果；基于语音特征，确定第五输出结果；将第四输出结果和第五输出结果进行融合，得到第六输出结果；基于第六输出结果，确定目标对象的第二控制指令，执行第二控制指令对应的控制操作。

该实现方式中，控制设备可以通过肢体检测模型，从目标对象的多帧图像中识别出目标对象的肢体姿态。该肢体姿态可以为图像中目标对象所处的状态，该状态可以为目标肢体当前的姿势或者位置。目标肢体可以为目标对象的手部、头部或者脚部等，对此不作具体限定。

控制设备基于肢体姿态和语义信息的对应关系，确定目标对象的肢体姿态对应的语义信息，将该语义信息作为第四输出结果。控制设备将语音特征输入语音识别模型中，将该语音特征对应的语义信息作为第五输出结果。

控制设备可以将第四输出结果和第五输出结果融合，得到第六输出结果。或者，控制设备也可以确定第四输出结果和第五输出结果是否一致，若两者一致，则第六输出结果与第四输出结果和第五输出结果相同，若不一致，则第六输出结果与第四输出结果和第五输出结果均不同。

例如，目标对象的肢体姿态为“OK”手势对应的姿态，该肢体姿态对应的语义信息为“确定”，若目标对象的语音特征对应的语义信息为“唤醒”，则控制设备将“确定”和“唤醒”融合后，得到的第六输出结果为“唤醒语音助手”。控制设备基于第六输出结果唤醒语音助手后，目标对象可以与语音助手进行语音交互。例如，目标对象通过语音助手播放音乐或者导航等。其中，目标对象与语音助手进行语音交互的过程可以参见图3。

其中，控制设备基于第六输出结果，确定目标对象的第二控制指令，执行第二控制指令对应的控制操作的过程与步骤205同理，这里不再赘述。

在本申请实施例中，控制设备将肢体姿态对应的感知结果与语音特征对应的感知结果进行融合，通过多模交互得到新的感知结果，根据新的感知结果执行相应的操作，相较于单模交互，准确性更高。

在本申请实施例中，控制设备还可以通过多模融合技术确定车辆内是否存在遗留人员，尤其是儿童。该过程可以为：若车辆处于锁车状态，控制设备获取车辆内的传感器采集的环境数据；基于车辆内的环境数据进行目标检测，得到第一检测结果；获取车辆内的图像，基于车辆内的图像进行目标检测，得到第二检测结果；若基于第一检测结果和第二检测结果，确定车辆内存在遗留对象，则进行异常预警。

该实现方式中，在车辆锁车后，控制设备可以获取车内雷达传感器采集的环境数据，根据车辆内的环境数据进行雷达成像，根据雷达成像结果进行目标检测，确定车辆内是否存在遗留人员，从而得到第一检测结果。控制设备还可以获取车内摄像模组采集的图像，基于该图像进行目标检测，确定车辆内是否存在遗留人员，从而得到第二检测结果。

若第一检测结果和第二检测结果中的至少一项指示车辆内存在遗留对象，则控制设备进行异常预警。该预警方式可以根据需要进行设置并更改，例如，控制设备向驾驶员的终端发送预警消息或者通话请求，以通知驾驶员车内存在遗漏人员。

摄像模组采集图像有时候会受光线、环境的影响，导致图像清晰度较低，无法准确检测车辆内是否存在遗留对象。在本申请实施例中，将摄像模组采集的图像与雷达成像进行融合，从而准确检测车辆内是否存在遗留对象。

在本申请实施例中，控制设备还可以通过多模融合技术确定目标对象的状态，该过程可以为：控制设备基于目标对象的多帧图像，确定目标对象的状态；若目标对象的状态为抽烟状态，获取车辆内的烟雾浓度和车辆外的环境数据；基于烟雾浓度和车辆外的环境数据，确定通风方式。

该实现方式中，控制设备可以基于目标对象的多帧图像，检测目标对象的手部状态和嘴部状态，在检测到目标对象的手部持握发烟物体，且发烟物体含在目标对象的嘴部的情况下，确定目标对象处于抽烟状态。

控制设备获取车辆内的烟雾传感器采集的烟雾浓度，获取车辆外的环境数据，根据车辆外的环境数据确定天气。若天气为晴天，则在烟雾浓度大于预设浓度的情况下，控制设备开启空调，通过空调通风。若天气为雨天，则在烟雾浓度大于预设浓度的情况下，控制设备开启车窗，通过车窗通风。

若目标对象为驾驶员，则在目标对象处于抽烟状态的情况下，控制设备还可以提醒目标对象，从而保证用户的驾驶安全。例如，控制设备通过语音助手设备输出语音消息，通过该语音消息提醒目标对象禁止吸烟。

在本申请实施例中，将车内视觉感知、车内传感器感知以及车外环境感知进行多模融合，在确定目标对象处于抽烟状态的情况下，根据车外环境确定通风方式，从而保证车内良好的空气质量。

该实现方式中，控制设备还可以基于多帧图像，确定目标对象的情绪类型。若目标对象的情绪类型为正面情绪，则启动语音助手，通过语音助手与目标对象之间的语音交互，为目标对象播放音乐，从而提高用户体验。该过程可以为：对于每帧图像，控制设备通过人脸识别模型从该图像中确定目标对象的面部区域，从面部区域对应的图像中提取人脸特征，基于人脸特征确定目标对象的嘴部特征，若目标对象的嘴部特征为嘴角上扬、嘴部微张或者处于张开状态露出牙齿，则确定目标对象处于开心状态，也即目标对象的情绪类型为正面情绪。

在目标对象的情绪类型为正面情绪的情况下，控制设备启动语音助手设备，语音助手设备输出语音消息，该语音消息用于通知目标对象为其播放音乐。语音助手设备输出语音消息后，控制设备控制音乐应用程序播放与正面情绪匹配的音乐。

在本申请实施例中，控制设备也可以通过多模融合技术来启动车辆。该过程可以为：驾驶员上车后，摄像模组采集驾驶员的人脸图像，向控制设备发送驾驶员的人脸图像。控制设备获取驾驶员的人脸图像，对人脸图像进行人脸识别，从人脸图像中提取人脸特征，将该人脸特征与预先存储的驾驶员的人脸特征进行比对，若两者一致，则在获取到启动车辆的语音信号后，启动车辆。

其中，控制设备可以将该人脸特征与本地存储的人脸特征进行比对，确定两者是否一致。参见图4，从图4中可以看出：控制设备先确定人脸图像的图像质量，例如，清晰度是否符合要求，在清晰度符合要求的情况下，从人脸图像中提取人脸特征，将该人脸特征与本地存储的人脸特征进行比对。

控制设备也可以将该人脸特征发送至云服务器，云服务器中预先存储了该车辆的驾驶员的人脸特征，云服务器将该人脸特征与预先存储的人脸特征进行比对，确定两者是否一致，对此不作具体限定。

在本申请实施例中，主要利用了视觉技术、声学技术以及多模融合技术，其中，多模融合技术在前面已经介绍过，这里不再赘述。视觉技术主要用机器来模拟生物的视觉功能，从客观事物的图像中提取信息，进行处理并加以理解，最终用于实际检测、分割、识别等功能，如人脸识别、手势识别、视线跟踪、人体检测、抽烟和情绪检测等。

声学技术研究声音的产生、辐射、传播、接收、处理以及感知的基本规律。声学技术包括语音技术，语音技术主要为语音交互和语音通信服务，语音技术包括降噪、回声消除、盲源分离、声源定位、语音识别、自然语言理解、语音合成等。

参见图5，在本申请实施例中，可以将视觉感知、语音识别、车内传感器感知、车外环境感知以及其他感知等进行多模融合，根据融合结果进行决策与执行，从而使人机交互系统更加智能化、更准确理解用户的意图。

本申请提供的方法可以应用在多种场景中，上述仅是列举了其中几种，但并不局限于上述几种。

图6是本申请实施例提供的一种车辆控制装置的结构示意图，参见图6，该装置包括：

第一获取模块601，用于获取目标对象的多帧图像；目标对象为车辆中的任一对象；

第一提取模块602，用于确定每帧图像中的唇部区域，从每帧图像中的唇部区域提取唇动特征；

第二提取模块603，用于获取目标对象的语音信号，从语音信号中提取语音特征；

第一融合模块604，用于将唇动特征和语音特征进行融合，将融合后的特征输入第一识别模型中，得到第一输出结果；其中，第一识别模型是基于唇动特征样本、语音特征样本及其对应的样本语义信息训练得到的；

第一确定模块605，用于基于第一输出结果，确定目标对象的第一控制指令，执行第一控制指令对应的控制操作。

在一种可能的实现方式中，装置还包括：

第一输入模块，用于将唇动特征输入第二识别模型中，得到第二输出结果；其中，第二识别模型是基于唇动特征样本及其对应的样本语义信息训练得到的；

第二输入模块，用于将语音特征输入第三识别模型中，得到第三输出结果；其中，第三识别模型是基于语音特征样本及其对应的样本语义信息训练得到的；

第二融合模块，用于将第二输出结果和第三输出结果进行融合，得到第一输出结果。

在另一种可能的实现方式中，装置还包括：

第二获取模块，用于获取第一初始模型和第二初始模型；

第一训练模块，用于基于唇动特征样本及其对应的样本语义信息，对第一初始模型进行训练，得到第四识别模型；

第二训练模块，用于基于语音特征样本及其对应的样本语义信息，对第二初始模型进行训练，得到第五识别模型；

发送模块，用于向云服务器发送第四识别模型和第五识别模型，通过云服务器对第四识别模型进行增强训练，得到第二识别模型；通过云服务器对第五识别模型进行增强训练，得到第三识别模型。

在另一种可能的实现方式中，第一确定模块605，用于确定第一控制指令对应的控制操作的操作类型；若操作类型为控制车辆行驶的类型，获取车辆外的环境数据；若确定车辆外的环境数据满足预设条件，执行第一控制指令对应的控制操作。

在另一种可能的实现方式中，装置还包括：

第三获取模块，用于若车辆处于锁车状态，获取车辆内的传感器采集的环境数据；

第一检测模块，用于基于车辆内的环境数据进行目标检测，得到第一检测结果；

第二检测模块，用于获取车辆内的图像，基于车辆内的图像进行目标检测，得到第二检测结果；

预警模块，用于若基于第一检测结果和第二检测结果，确定车辆内存在遗留对象，则进行异常预警。

在另一种可能的实现方式中，装置还包括：

第二确定模块，用于基于多帧图像，确定目标对象的肢体姿态；

第三确定模块，用于基于肢体姿态，确定第四输出结果；

第四确定模块，用于基于语音特征，确定第五输出结果；

第三融合模块，用于将第四输出结果和第五输出结果进行融合，得到第六输出结果；

第五确定模块，用于基于第六输出结果，确定目标对象的第二控制指令，执行第二控制指令对应的控制操作。

在另一种可能的实现方式中，装置还包括：

第六确定模块，用于基于多帧图像，确定目标对象的状态；

第四获取模块，用于若目标对象的状态为抽烟状态，获取车辆内的烟雾浓度和车辆外的环境数据；

第七确定模块，用于基于烟雾浓度和车辆外的环境数据，确定通风方式。

本申请实施例提供了一种车辆控制装置，该装置基于视觉感知获取目标对象的唇动特征，基于声学感知获取目标对象的语音特征，将唇动特征和语音特征进行融合，得到输出结果，根据输出结果确定控制指令，执行该控制指令对应的控制操作。该装置将视觉感知和声学感知融合在一起，实现了多模交互，从而提高了车载语音的识别准确率，进而满足了用户需求。

控制设备的结构框图可以参见图7，该控制设备700可因配置或性能不同而产生比较大的差异，可以包括处理器(central processing units，CPU)701和存储器702，其中，该存储器702中存储有至少一条程序代码，该至少一条程序代码由该处理器701加载并执行以实现上述车辆控制方法。当然，该控制设备700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该控制设备700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读介质存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例中的车辆控制方法。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例中的车辆控制方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅是为了便于本领域的技术人员理解本申请的技术方案，并不用以限制本申请。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种车辆控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取第一初始模型和第二初始模型；

4.根据权利要求1所述的方法，其特征在于，所述执行所述第一控制指令对应的控制操作，包括：

确定所述第一控制指令对应的控制操作的操作类型；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述多帧图像，确定所述目标对象的肢体姿态；

基于所述肢体姿态，确定第四输出结果；

基于所述语音特征，确定第五输出结果；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述多帧图像，确定所述目标对象的状态；

8.一种车辆控制装置，其特征在于，所述装置包括：

9.一种控制设备，其特征在于，所述控制设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至7任一项所述的车辆控制方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至7任一项所述的车辆控制方法。