CN112951216A

CN112951216A - 一种车载语音处理方法及车载信息娱乐系统

Info

Publication number: CN112951216A
Application number: CN202110509345.XA
Authority: CN
Inventors: 杨凤丽
Original assignee: Ningbo Joynext Technology Corp
Current assignee: Ningbo Joynext Technology Corp
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-06-11
Anticipated expiration: 2041-05-11
Also published as: CN112951216B

Abstract

本申请公开了一种车载语音处理方法及车载信息娱乐系统，该方法包括：获取至少两个用户的实时图像；根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象；根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理，避免了机械地将车内的所有语音数据采用同样的规则进行识别及处理，导致车载信息娱乐系统容易被误唤醒的问题。

Description

一种车载语音处理方法及车载信息娱乐系统

技术领域

本申请涉及智能车辆技术领域，尤其涉及一种车载语音处理方法及车载信息娱乐系统。

背景技术

随着技术的发展进步，越来越多的车辆上安装了车载信息娱乐系统，可进一步提高车辆驾驶及操作的便捷性和趣味性。为了提高车载信息娱乐系统的使用效率、且避免影响车辆驾驶安全，越来越多的车辆的车载信息娱乐系统上集成了语音识别功能，使得驾驶者可以直接通过语音操作车载信息娱乐系统，提高了使用过程的安全性。

现有技术中，通常采用使用机器学习模型对实时采集的车内语音数据进行识别及分析，确定车内语音数据中是否提及了预设的关键词，在确定提及后根据提及的关键词对用户进行相应的反馈。然而，用户互相聊天时可能会涉及这些预设关键词，但用户本意并不是唤醒车载信息娱乐系统。这就会导致车载信息娱乐系统被误唤醒，对用户的使用造成影响。

因此，亟需一种可识别用户真实对话意图的车载语音处理方法，以解决现有技术的上述技术问题。

发明内容

为了解决现有技术存在的问题，本申请的主要目的在于提供一种语音处理方法及车载信息娱乐系统，以期解决现有技术的上述技术问题。

为了达到上述目的，第一方面本申请提供了一种车载语音处理方法，应用于车载信息娱乐系统，所述方法包括：

获取至少两个用户的实时图像；

根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象；

根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。

在一些实施例中，所述根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象，包括：

根据所述至少两个用户的实时图像，识别所述至少两个用户的姿态数据；

根据所述至少两个用户的姿态数据，识别所述至少两个用户是否存在正在进行交互的对象；

若存在，根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象。

在一些实施例中，所述姿态数据包括实时唇部动作，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象包括：

根据所述至少两个用户的实时唇部动作判断所述至少两个用户是否处于互相交谈状态；

当判断所述至少两个用户处于互相交谈状态时，确定所述至少两个用户的目标交互对象为车内用户。

在一些实施例中，所述姿态数据包括注视方向，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象包括：

对于所述至少两个用户中的用户，若该用户的注视方向为预设方向，或者，若该用户的注视方向所望向的车内位置与预设的目标位置的距离不超过预设距离阈值，则确定该用户的目标交互对象为所述车载信息娱乐系统。

在一些实施例中，所述姿态数据包括身体姿势，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象包括：

对于所述至少两个用户中的用户，若该用户的身体姿势满足相应的预设条件，则确定该用户的目标交互对象为车内用户。

在一些实施例中，所述根据所述至少两个用户的实时图像，识别所述至少两个用户的姿态数据后，所述方法还包括：

当识别到的所述至少两个用户的姿态数据包含预设面部表情时，通过预设图像设备和/或预设语音设备推送所述预设面部表情对应的安抚信息。

在一些实施例中，所述根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理，包括：

根据所述至少两个用户的目标交互对象，确定所述至少两个用户中是否存在目标交互对象为所述车载信息娱乐系统的用户；

若所述至少两个用户中存在目标交互对象为所述车载信息娱乐系统的用户，采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理；或，若所述至少两个用户中不存在目标交互对象为所述车载信息娱乐系统的用户，采用第二语音识别规则对采集的所述车内实时语音数据进行识别及处理；或，若无法确定所述至少两个用户中是否存在所述目标交互对象为车载信息娱乐系统的用户，采用第三语音识别规则对采集的所述车内实时语音数据进行识别及处理；

其中，所述第一语音识别规则、所述第二语音识别规则及所述第三语音识别规则所包括的待识别语音关键词不完全相同。

在一些实施例中，所述采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理，包括：

识别采集的目标交互对象为所述车载信息娱乐系统的用户的实时语音数据是否包括预设高级热词和/或预设低级热词；

在识别到所述目标交互对象为所述车载信息娱乐系统的用户的实时语音数据包括所述预设高级热词和/或预设低级热词时，根据对应的反馈规则生成相应的反馈结果并返回；

所述采用第二语音识别规则对采集的所述车内实时语音数据进行识别及处理，包括：

识别采集的所述车内实时语音数据是否包括所述预设高级热词和/或预设唤醒词；

在识别到所述车内实时语音数据包括所述预设高级热词和/或预设唤醒词时，根据对应的反馈规则生成相应的反馈结果并返回；

所述采用第三语音识别规则对采集的所述车内实时语音数据进行识别及处理，包括：

识别采集的所述车内实时语音数据是否包括所述预设高级热词；

在识别到所述车内实时语音数据包括所述预设高级热词时，根据对应的反馈规则生成相应的反馈结果并返回。

在一些实施例中，所述方法还包括：

若不存在，则不对采集的车内实时语音数据进行识别及处理。

第二方面，本申请提供了一种车载信息娱乐系统，所述系统包括摄像头、车载控制系统及车载语音交互系统，其中，

所述摄像头用于采集至少两个用户的实时图像；

所述车载控制系统用于：根据采集的所述至少两个用户的实时图像，识别所述至少两个用户的目标交互对象；以及向所述车载语音交互系统发送包含所述至少两个用户的目标交互对象的消息；

所述车载语音交互系统用于根据包含所述至少两个用户的目标交互对象的消息，采用所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。

第三方面，本申请提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

获取至少两个用户的实时图像；

第四方面，本申请提供了一种车载语音处理装置，所述装置包括：

获取模块，用于获取至少两个用户的实时图像；

识别模块，用于根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象；

处理模块，用于根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。

本申请实现的有益效果为：

本申请提供了一种车载语音处理方法，应用于车载信息娱乐系统，包括获取至少两个用户的实时图像；根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象；根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理，本申请实现了根据车内的交互场景采用不同的语音识别规则，避免了机械地将车内的所有语音数据采用同样的规则进行识别及处理，导致车载信息娱乐系统容易被误唤醒的问题，且本申请在识别每个用户的目标交互对象时同时参考了其他用户的实时图像，避免了仅根据单人的实时图像判断其的目标交互对象导致识别误差大、识别失败率高等问题；

进一步地，本申请还提出了当识别到的所述至少两个用户的姿态数据包含预设面部表情时，通过预设图像设备和/或预设语音设备推送所述预设面部表情对应的安抚信息，当识别到用户出现烦躁等消极面部情绪时，车载信息娱乐系统可通过返回相应的安抚信息缓解用户的烦躁情绪，降低驾驶过程中的安全隐患；

本申请还提出了所述姿态数据包括实时唇部动作，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象包括：根据所述至少两个用户的实时唇部动作判断所述至少两个用户是否处于互相交谈状态；当判断所述至少两个用户处于互相交谈状态时，确定所述至少两个用户的目标交互对象为车内用户，本申请可根据用户的唇部动作判断用户的谈话姿态，并确定用户是否在互相交谈姿态，在用户处于互相交谈时可认为用户不存在对车载信息娱乐系统的调用意图或调用意图很弱，以根据对应的语音识别规则对用户实时语音进行识别及处理，降低了车载信息娱乐系统被误唤醒的概率；

本申请还提出了所述姿态数据包括注视方向，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象包括：对于所述至少两个用户中的用户，若该用户的注视方向为预设方向，或者，若该用户的注视方向所望向的车内位置与预设的目标位置的距离不超过预设距离阈值，则确定该用户的目标交互对象为所述车载信息娱乐系统，本申请可通过实时图像识别用户的注视方向，根据用户的注视方向识别用户的目标交互对象，在识别到用户正在注视车载信息娱乐系统的显示设备等可指示用户对车载信息娱乐系统的唤醒意图的目标位置或未朝向其他用户时，可以判断用户的目标交互对象为所述车载信息娱乐系统，并对用户的语音进行加强识别，提升了当用户需唤醒车载信息娱乐系统时的唤醒成功率；

本申请还提出了对于所述至少两个用户中的用户，若该用户的身体姿势满足相应的预设条件，则确定该用户的目标交互对象为车内用户，可以根据用户的身体状态判断用户的目标交谈对象，以便进一步根据相应的语音识别规则对实时语音进行识别，提升了识别的准确性；

本申请提出了根据所述至少两个用户的目标交互对象，确定所述至少两个用户中是否存在目标交互对象为所述车载信息娱乐系统的用户；若所述至少两个用户中存在目标交互对象为所述车载信息娱乐系统的用户，采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理；或，若所述至少两个用户中不存在目标交互对象为所述车载信息娱乐系统的用户，采用第二语音识别规则对采集的所述车内实时语音数据进行识别及处理；或，若无法确定所述至少两个用户中是否存在所述目标交互对象为车载信息娱乐系统的用户，采用第三语音识别规则对采集的所述车内实时语音数据进行识别及处理；其中，所述第一语音识别规则、所述第二语音识别规则及所述第三语音识别规则所包括的待识别语音关键词不完全相同，实现了针对用户的不同交互对象设置不同的唤醒关键词，避免了根据相同的关键词对不同交互场景下的用户语音进行识别，导致车载信息娱乐系统容易被误唤醒的问题；

本申请还公开所述采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理，包括：识别采集的目标交互对象为所述车载信息娱乐系统的用户的实时语音数据是否包括预设高级热词和/或预设低级热词；在识别到所述目标交互对象为所述车载信息娱乐系统的用户的实时语音数据包括所述预设高级热词和/或预设低级热词时，根据对应的反馈规则生成相应的反馈结果并返回；

所述采用第二语音识别规则对采集的所述车内实时语音数据进行识别及处理，包括：识别采集的所述车内实时语音数据是否包括所述预设高级热词和/或预设唤醒词；在识别到所述车内实时语音数据包括所述预设高级热词和/或预设唤醒词时，根据对应的反馈规则生成相应的反馈结果并返回；所述采用第三语音识别规则对采集的所述车内实时语音数据进行识别及处理，包括：识别采集的所述车内实时语音数据是否包括所述预设高级热词；在识别到所述车内实时语音数据包括所述预设高级热词时，根据对应的反馈规则生成相应的反馈结果并返回，本申请针对用户所处的交互场景设置了不同的识别关键词，可根据交互对象相应的语音关键词对用户的语音进行识别及处理，降低了对车载信息娱乐系统的误唤醒概率；

本申请还提出了若不存在，则不对采集的车内实时语音数据进行识别及处理，可在确定用户都处于未在交流的沉默状态时判断接收到的所有音频都不是用户发出的，提升了识别准确率。

本申请所有产品并不需要具备上述所有效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的唤醒意图识别流程图；

图2是本申请实施例提供的车辆的车内图像采集示意图；

图3是本申请实施例提供的方法流程图；

图4是本申请实施例提供的系统结构图；

图5是本申请实施例提供的电子设备结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如背景技术所述，现有技术中多采用采集用户的语音数据，并通过预先训练的模型识别用户的实时语音数据中是否包括预设的语音关键词，在包括时根据相应的反馈规则对用户进行反馈。基于现有技术的技术方案，车辆将采集的所有语音数据都采用同样的识别规则进行识别，容易导致误唤醒或识别失败的情况。

为解决上述技术问题，本申请提供了一种车载语音处理方法，可基于用户的实时图像识别用户的目标交互对象，并可以根据用户的目标交互对象对应的识别规则对用户的语音进行识别，针对用户的交互对象可以设置不同的语音识别规则，使得车载信息娱乐系统可以以不同的敏感度处理不同的交互场景用户的实时语音，并判断是否需要给以相应的反馈，解决了现有技术中机械地将车内的所有语音数据采用同样的规则进行识别及处理，导致车载信息娱乐系统容易被误唤醒的问题。

实施例一

具体的，如图1所示，车载信息娱乐系统应用本申请公开的车载语音处理方法进行语音识别的过程包括：

步骤一、调用车内的摄像头采集车辆内至少两个用户的实时图像；

车载信息娱乐系统可包括车载摄像头、车载控制系统及车载语音交互系统。其中车载摄像头可用于采集车内用户的实时图像；车载控制系统用于控制车载摄像头及车载语音交互系统，可对采集的实时图像进行分析识别，确定每个用户的目标交互对象；车载语音交互系统可依据用户的目标交互对象对应的语音识别规则对车内实时语音数据进行识别及处理，以便在识别到用户对车载信息娱乐系统的使用意图时调用车载信息娱乐系统相应的功能模块执行相应的操作并反馈给用户。

其中，车辆内的至少两个用户可包括乘客及驾驶者中的至少两个。

如图2所示，可在车辆的每一座位前设置用于拍摄该座位上的乘客或驾驶者的摄像头。以图2为例，可通过摄像头1采集驾驶者的实时图像、通过摄像头2采集副驾驶座的乘客的实时图像、通过摄像头3采集后座1上的乘客的实时图像等。

步骤二、根据实时图像，识别每一用户的姿态数据；

具体的，姿态数据可包括面部表情、唇部动作及注视方向。

步骤三、根据每一用户的姿态数据，识别每一用户是否存在正在交互的对象；当存在时，识别每一用户的目标交互对象；

每一用户分别的目标交互对象可以是车内用户、也可以是车载信息娱乐系统、或无确定交互对象。可以根据姿态数据实时确定用户的目标交互对象，即根据姿态数据，按照预设的姿态规则确定每一用户的目标交互对象。所述姿态规则可以由人工设置确定，也可以通过机器学习模型根据训练数据集训练得到。

具体的，可根据所述至少两个用户的实时图像，识别至少两个用户是否存在正在进行交互的对象，当判断存在时可识别至少两个用户分别的目标交互对象，当不存在时可认为所有用户都处于沉默状态，采集的车内实时语音数据都不是用户发出的，不对车内实时语音数据进行识别及处理。

在一些实施方式中，根据用户的姿态数据，分别确定用户的目标交互对象可以包括：

识别场景1、根据至少两个用户的实时唇部动作判断至少两个用户间是否处于互相交谈状态；当判断至少两个用户处于相互交谈状态时，确定至少两个用户中的每一用户的目标交互对象为车内用户。

具体的，可以根据用户的实时唇部动作，判断用户是否处于沉默状态或说话状态。当判断所有用户处于沉默状态时，可以认为采集到的所有语音数据都不是用户发出的，不唤醒车载信息娱乐系统。

当判断存在处于说话状态的用户时，可以根据处于说话状态的所有用户的实时唇部动作，识别用户间是否处于交替说话状态且交替说话状态的持续时间是否满足预设的时间阈值。

当用户间处于交替说话状态且交替说话状态的持续时间满足预设的时间阈值时，可以判断用户处于互相交谈状态。交替说话状态是指至少两个用户处于某一用户结束说话并沉默后、另一用户停顿不超过预设值后即说话的状态。其中，用户处于交替说话状态可以包括至少两个乘客间处于交替说话状态、单个乘客与驾驶者间处于交替说话状态、多个乘客与驾驶者间处于交替说话状态等情况。当判断用户间处于互相交谈状态时，可以确定处于互相交谈状态中的所有用户的目标交互对象为其他用户。

当用户未处于交替说话状态或交替说话状态的持续时间不满足预设的时间阈值时，可以判断用户未处于互相交谈状态，并根据所有用户的其他姿势数据进一步判断每一用户的目标交互对象。当根据所有用户的所有姿势数据都无法确定某一用户的目标交互对象时，可以确定该用户的目标交互对象为无确定交互对象。

识别场景2、确定至少两个用户中，注视方向为预设方向，或注视方向所望向的车内位置与预设的目标位置的距离不超过预设距离阈值的用户的目标交互对象为车载信息娱乐系统。

根据实时图像可以识别用户的视角的注视方向，根据注视方向可以确定注视方向与车辆的交点即用户的注视方向所望向的车内位置。当用户的注视方向所望向的车内位置与目标位置的距离不超过预设距离阈值时，可以认为对应的用户正在注视车载信息娱乐系统，存在对车载信息娱乐系统的唤醒意图，并判断该用户的目标交互对象为车载信息娱乐系统。具体的，该目标位置可以是显示屏等车载信息娱乐系统的所在位置。

当用户的注视方向为该用户的正前方或与用户的正前方的角度差值不超过预设范围时，可以认为该用户未看向其他用户，当其发出语音时，可以认为是在与车载信息娱乐系统进行交互，即判断该用户的目标交互对象为车载信息娱乐系统。

当根据注视方向无法确定用户的目标交互对象时，可以根据所有用户的其他姿势数据进一步判断每一用户的目标交互对象。当根据所有用户的所有姿势数据都无法确定某一用户的目标交互对象时，可以确定该用户的目标交互对象为无确定交互对象。

识别场景3、确定身体姿势满足相应的预设条件的用户的目标交互对象为其他用户；

具体的，根据用户的身体姿势，可以识别用户间是否存在交互行为。例如，当驾驶者的身体向副驾驶位置倾斜、且副驾驶位置的乘客的注视方向朝向驾驶位置或副驾驶位置的乘客的身体朝向驾驶位置倾斜等情况时，可以判断乘客与驾驶者间存在交互行为，该乘客的目标交互对象为车内用户且该驾驶者的目标交互对象为车内用户。

当识别用户间存在交互行为时，可以确定存在交互行为的用户的目标交互对象为其他用户。

当根据身体姿势无法确定某一用户的目标交互对象时，可以根据所有用户的其他姿势数据进一步判断每一用户的目标交互对象。当根据所有用户的所有姿势数据都无法确定某一用户的目标交互对象时，可以确定该用户的目标交互对象为无确定交互对象。

步骤四、向车载语音交互系统发送包含至少两个用户的目标交互对象的消息；

步骤五、车载语音交互系统根据至少两个用户的目标交互对象对应的语音识别规则对车内实时语音进行识别及处理；

车载语音交互系统可以根据至少两个用户的目标交互对象，确定是否存在目标交互对象为车载信息娱乐系统的用户。

当确定至少两个用户中存在目标交互对象为车载信息娱乐系统的用户时，车载信息娱乐系统可加强对用户语音的识别。具体的，车载语音交互系统可以利用预设的机器学习模型，识别存在目标交互对象为车载信息娱乐系统的用户的实时语音数据中是否包含了预设的高级热词和/或低级热词。当识别到包含高级热词和/或低级热词时，车载信息娱乐系统可以调用识别到的热词对应的功能模块，对用户的指令进行反馈及执行。

其中，高级热词是预设的代表用户对车载信息娱乐系统具有强交互意图的关键词，低级热词是预设的代表用户对车载信息娱乐系统具有一定的交互意图的关键词。例如，高级热词可以是“拨打电话”、“开启空调”等明显具有对车载信息娱乐系统的操作意图的关键词，低级热词可以是“打给10086”“调整到26度”等可能存在对车载信息娱乐系统的操作意图的关键词。

当确定不存在目标交互对象为车载信息娱乐系统的用户时，车载信息娱乐系统可以不对所有用户的实时语音数据进行识别或处理。具体的，在所有用户的目标交互对象都是其他用户时，可以认为不存在目标交互对象为车载信息娱乐系统的用户。

在另一种实施方式中，当确定不存在目标交互对象为车载信息娱乐系统的用户时，车载语音交互系统也可采集并识别车内实时语音数据中是否包括预设的高级热词和/或预设唤醒词；当识别到包括所述高级热词和/或预设唤醒词时，车载信息娱乐系统可以调用识别到的热词对应的车载信息娱乐系统的功能模块，对用户的指令进行反馈及执行。其中，预设唤醒词是预设的车载信息娱乐系统的唤醒词，当识别到用户的实时语音数据中包括唤醒词后，车载信息娱乐系统可以向用户反馈唤醒成功的消息，以便用户进一步向车载信息娱乐系统发送包含高级热词或低级热词等的指令。

当至少两个用户中的每个用户的目标交互对象都是无确定交互对象时，车载信息娱乐系统无法确定是否存在用户的目标交互对象为车载信息娱乐系统。

当无法确定是否存在用户的目标交互对象为车载信息娱乐系统时，车载信息娱乐系统可采集并识别用户的实时语音数据是否包括高级热词，并在识别到包括时调用识别到的热词对应车载信息娱乐系统的功能模块，对用户的指令进行反馈及执行。

在一些实施方式中，车载信息娱乐系统还可根据实时图像，识别用户的面部表情。当用户的面部表情与预设面部表情匹配时，可以通过预设图像设备和/或预设语音设备推送该匹配的预设面部表情对应的安抚信息。预设面部表情可以包括指示用户的负面情绪的面部表情。具体的，该安抚信息可以是预设视频、图片、音频等。

实施例二

对应上述实施例，本申请提供了一种车载语音处理方法，其中本实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。如图3所示，所述方法包括：

310、获取至少两个用户的实时图像；

320、根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象；

优选的，所述根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象，可以包括：

321、根据所述至少两个用户的实时图像，识别所述至少两个用户的姿态数据；

322、根据所述至少两个用户的姿态数据，识别所述至少两个用户是否存在正在进行交互的对象；若存在，根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象。

优选的，所述姿态数据包括实时唇部动作，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象，可以包括：

323、根据所述至少两个用户的实时唇部动作判断所述至少两个用户是否处于互相交谈状态；

324、当判断所述至少两个用户处于互相交谈状态时，确定所述至少两个用户的目标交互对象为车内用户。

优选的，所述姿态数据包括注视方向，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象，可以包括：

325、对于所述至少两个用户中的用户，若该用户的注视方向为预设方向，或者，若该用户的注视方向所望向的车内位置与预设的目标位置的距离不超过预设距离阈值，则确定该用户的目标交互对象为所述车载信息娱乐系统。

优选的，所述姿态数据包括身体姿势，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象，可以包括：

326、对于所述至少两个用户中的用户，若该用户的身体姿势满足相应的预设条件，则确定该用户的目标交互对象为车内用户。

优选的，所述根据所述至少两个用户的实时图像，识别所述至少两个用户的姿态数据后，所述方法还可以包括：

327、当识别到的所述至少两个用户的姿态数据包含预设面部表情时，通过预设图像设备和/或预设语音设备推送所述预设面部表情对应的安抚信息。

优选的，所述方法还包括：

328、若不存在，则不对采集的车内实时语音数据进行识别及处理。

330、根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。

优选的，所述根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理，可以包括：

331、根据所述至少两个用户的目标交互对象，确定所述至少两个用户中是否存在目标交互对象为所述车载信息娱乐系统的用户；

332、若所述至少两个用户中存在目标交互对象为所述车载信息娱乐系统的用户，采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理；或，若所述至少两个用户中不存在目标交互对象为所述车载信息娱乐系统的用户，采用第二语音识别规则对采集的所述车内实时语音数据进行识别及处理；或，若无法确定所述至少两个用户中是否存在所述目标交互对象为车载信息娱乐系统的用户，采用第三语音识别规则对采集的所述车内实时语音数据进行识别及处理；

优选的，所述采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理，可以包括：

333、识别采集的目标交互对象为所述车载信息娱乐系统的用户的实时语音数据是否包括预设高级热词和/或预设低级热词；

334、在识别到所述目标交互对象为所述车载信息娱乐系统的用户的实时语音数据包括所述预设高级热词和/或预设低级热词时，根据对应的反馈规则生成相应的反馈结果并返回；

所述采用第二语音识别规则对采集的所述车内实时语音数据进行识别及处理，可以包括：

335、识别采集的所述车内实时语音数据是否包括所述预设高级热词和/或预设唤醒词；

336、在识别到所述车内实时语音数据包括所述预设高级热词和/或预设唤醒词时，根据对应的反馈规则生成相应的反馈结果并返回；

所述采用第三语音识别规则对采集的所述车内实时语音数据进行识别及处理，可以包括：

337、识别采集的所述车内实时语音数据是否包括所述预设高级热词；

338、在识别到所述车内实时语音数据包括所述预设高级热词时，根据对应的反馈规则生成相应的反馈结果并返回。

实施例三

对应实施例一及实施例二，本申请提供了一种车载信息娱乐系统，在本实施例中与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。如图4所示，所述车载信息娱乐系统包括摄像头410、车载控制系统420及车载语音交互系统430，其中

所述摄像头410用于采集至少两个用户的实时图像；

所述车载控制系统420用于：根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象；以及向所述车载语音交互系统发送包含所述至少两个用户的目标交互对象的消息；

所述车载语音交互系统430用于根据包含所述至少两个用户的目标交互对象的消息，采用所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。

优选的，所述车载控制系统420还可用于根据所述至少两个用户的实时图像，识别所述至少两个用户的姿态数据；根据所述至少两个用户的姿态数据，识别所述至少两个用户是否存在正在进行交互的对象；若存在，根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象。

优选的，所述姿态数据包括实时唇部动作，所述车载控制系统420还可用于根据所述至少两个用户的实时唇部动作判断所述至少两个用户是否处于互相交谈状态；当判断所述至少两个用户处于互相交谈状态时，确定所述至少两个用户的目标交互对象为车内用户。

优选的，所述姿态数据包括注视方向，所述车载控制系统420还可用于对于所述至少两个用户中的用户，若该用户的注视方向为预设方向，或者，若该用户的注视方向所望向的车内位置与预设的目标位置的距离不超过预设距离阈值，则确定该用户的目标交互对象为所述车载信息娱乐系统。

优选的，所述姿态数据包括身体姿势，对于所述至少两个用户中的用户，若该用户的身体姿势满足相应的预设条件，则确定该用户的目标交互对象为车内用户。

优选的，所述车载控制系统420还可用于当识别到的所述至少两个用户的姿态数据包含预设面部表情时，通过预设图像设备和/或预设语音设备推送所述预设面部表情对应的安抚信息。

优选的，所述车载语音交互系统430还可用于根据所述至少两个用户的目标交互对象，确定所述至少两个用户中是否存在目标交互对象为所述车载信息娱乐系统的用户；若所述至少两个用户中存在目标交互对象为所述车载信息娱乐系统的用户，采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理；或，若所述至少两个用户中不存在目标交互对象为所述车载信息娱乐系统的用户，采用第二语音识别规则对采集的所述车内实时语音数据进行识别及处理；或，若无法确定所述至少两个用户中是否存在所述目标交互对象为车载信息娱乐系统的用户，采用第三语音识别规则对采集的所述车内实时语音数据进行识别及处理；其中，所述第一语音识别规则、所述第二语音识别规则及所述第三语音识别规则所包括的待识别语音关键词不完全相同。

优选的，所述车载控制系统420还可用于若所述至少两个用户不存在正在进行交互的对象，则不对采集的车内实时语音数据进行识别及处理。

实施例四

对应上述所有实施例，本申请实施例提供一种电子设备，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

获取至少两个用户的实时图像；

其中，图5示例性的展示出了电子设备的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制电子设备1500运行的操作系统1521，用于控制电子设备1500的低级别操作的基本输入输出系统(BIOS)1522。另外，还可以存储网页浏览器1523，数据存储管理1524，以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1530包括一通路，在设备的各个组件（例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520）之间传输信息。

另外，该电子设备1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，云服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种车载语音处理方法，其特征在于，应用于车载信息娱乐系统，所述方法包括：

获取至少两个用户的实时图像；

2.根据权利要求1所述的车载语音处理方法，其特征在于，所述根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象，包括：

3.根据权利要求2所述的车载语音处理方法，其特征在于，所述姿态数据包括实时唇部动作，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象包括：

4.根据权利要求2所述的车载语音处理方法，其特征在于，所述姿态数据包括注视方向，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象包括：

5.根据权利要求2所述的车载语音处理方法，其特征在于，所述姿态数据包括身体姿势，所述根据所述至少两个用户的姿态数据，识别所述至少两个用户的目标交互对象包括：

6.根据权利要求2所述的车载语音处理方法，其特征在于，所述根据所述至少两个用户的实时图像，识别所述至少两个用户的姿态数据后，所述方法还包括：

7.根据权利要求1至6中任一项所述的车载语音处理方法，其特征在于，所述根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理，包括：

8.根据权利要求7所述的车载语音处理方法，其特征在于，

所述采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理，包括：

9.根据权利要求1所述的车载语音处理方法，其特征在于，所述方法还包括：

10.一种车载信息娱乐系统，其特征在于，所述系统包括摄像头、车载控制系统及车载语音交互系统，其中，

所述摄像头用于采集至少两个用户的实时图像；

所述车载控制系统用于：根据所述至少两个用户的实时图像，识别所述至少两个用户是否存在正在进行交互的对象；若存在，则识别所述至少两个用户的目标交互对象；以及向所述车载语音交互系统发送包含所述至少两个用户的目标交互对象的消息；