CN110047487B

CN110047487B - 车载语音设备的唤醒方法、装置、车辆以及机器可读介质

Info

Publication number: CN110047487B
Application number: CN201910485184.8A
Authority: CN
Inventors: 曾郁荣
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2022-03-18
Anticipated expiration: 2039-06-05
Also published as: CN110047487A

Abstract

本发明实施例提供了一种车载语音设备的唤醒方法、装置、车辆以及机器可读介质，所述方法包括：通过采集车内用户的图像数据，接着从图像数据中，确定与用户对应的用户场景，并根据用户场景，调节车载语音设备的唤醒阈值，然后根据唤醒阈值，对车载语音设备进行唤醒，从而通过实时监测与车内用户对应的用户场景，对车载语音设备的唤醒阈值进行实时调节，调节车载语音设备的语音识别的灵敏度，进而在不同情况的行车场景下，一方面能够使用户能够较为准确且方便地唤醒车载语音设备，提高了用户与语音设备的唤醒交互效率，另一方面通过调节唤醒阈值，可以有效地避免错误唤醒的概率。

Description

车载语音设备的唤醒方法、装置、车辆以及机器可读介质

技术领域

本发明涉及智能车辆技术领域，特别是涉及一种车载语音设备的唤醒方法、装置、车辆以及机器可读介质。

背景技术

当前车载智能语音设备的人机唤醒交互方式是通过用户输入语音“唤醒词”后，“语音识别”成功从而唤醒语音设备。然而，仅通过语音感知的交互方式，不仅对唤醒词的要求高(如需要预先设置字数为3-5个且避免口语化的唤醒词，同时要求唤醒词的音节覆盖尽量多)，其次还存在较难唤醒或者是较高的误唤醒率，同时用户在进行唤醒时，每次都需要语音输入同一个“唤醒词”，唤醒过程复杂。因此，需要一种能够简化车载智能语音设备的唤醒，以及降低错误唤醒概率的技术方案。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种车载语音设备的唤醒方法、装置、车辆以及机器可读介质。

为了解决上述问题，一方面，提供了一种车载语音设备的唤醒方法，包括：

采集车内用户的图像数据；

从所述图像数据中，确定与所述用户对应的用户场景；

根据所述用户场景，调节车载语音设备的唤醒阈值；

根据所述唤醒阈值，对所述车载语音设备进行唤醒。

可选地，所述根据所述唤醒阈值，对所述车载语音设备进行唤醒，包括：

获取所述用户输入的语音信息，并计算与所述语音信息对应的唤醒值；

当所述唤醒值大于或等于所述唤醒阈值时，对所述车载语音设备进行唤醒。

可选地，所述用户场景包括单人场景，所述根据所述用户场景，调节车载语音设备的唤醒阈值，包括：

当识别到所述用户场景为单人场景时，从所述图像数据中获取所述用户的动作信息；

将所述用户的动作信息与预设的动作信息进行匹配；

根据匹配结果，调节所述车载语音设备的唤醒阈值。

可选地，所述用户场景还包括多人场景，所述根据所述用户场景，调节车载语音设备的唤醒阈值，还包括：

当识别到所述用户场景为所述多人场景时，将所述车载语音设备的唤醒阈值调节为默认的唤醒阈值。

可选地，多人场景包括多人娱乐场景以及多人对话场景，所述当识别到所述用户场景为所述多人场景时，将所述车载语音设备的唤醒阈值调节为默认的唤醒阈值，包括：

当识别到所述用户场景为多人娱乐场景时，将所述车载语音设备的唤醒阈值调节为默认的唤醒阈值；

或，

当识别到所述用户场景为多人对话场景时，将所述车载语音设备的唤醒阈值调节为默认的唤醒阈值。

可选地，所述唤醒阈值包括若干个不同唤醒等级的唤醒阈值，所述根据匹配结果，调节所述车载语音设备的唤醒阈值，包括：

获取所述唤醒阈值与预设的唤醒等级的映射关系；

确定所述匹配结果与所述唤醒等级匹配的目标唤醒等级；

采用所述映射关系，将所述唤醒阈值调节为与所述目标唤醒等级适配的目标唤醒阈值。

可选地，不同唤醒等级对应不同的预设唤醒条件，所述方法还包括：

当所述匹配结果满足预设第一唤醒条件时，采用所述映射关系，将当前的唤醒阈值调节为与所述第一唤醒条件对应的第一唤醒阈值；

当所述匹配结果满足预设第二唤醒条件时，采用所述映射关系，将当前的第一唤醒阈值调节为与所述第二唤醒条件对应的第二唤醒阈值；

其中，所述第一唤醒条件对应的唤醒等级，低于所述第二唤醒条件对应的唤醒等级一个等级。

可选地，所述根据匹配结果，调节所述车载语音设备的唤醒阈值，包括：

当所述用户当前的动作信息与预设的动作信息匹配成功时，减小所述唤醒阈值。

可选地，所述当所述用户的动作信息与预设的动作信息匹配成功时，减小所述唤醒阈值，包括：

当所述用户当前的手部动作信息与预设的手部动作信息匹配成功时，减小所述唤醒阈值；

和/或，

当所述用户当前的面部动作信息与预设的面部动作信息匹配成功时，减小所述唤醒阈值；

和/或，

当所述用户当前的唇部动作信息与预设的唇部动作信息匹配成功时，减小所述唤醒阈值。

另一方面，还提供了一种车载语音设备的唤醒装置，包括：

图像获取模块，用于采集车内用户的图像数据；

场景确定模块，用于从所述图像数据中，确定与所述用户对应的用户场景；

阈值调节模块，用于根据所述用户场景，调节车载语音设备的唤醒阈值；

唤醒模块，用于根据所述唤醒阈值，对所述车载语音设备进行唤醒。

可选地，所述唤醒模块包括：

唤醒值计算子模块，用于获取所述用户输入的语音信息，并计算与所述语音信息对应的唤醒值；

判断子模块，用于当所述唤醒值大于或等于所述唤醒阈值时，对所述车载语音设备进行唤醒。

可选地，所述用户场景包括单人场景，所述阈值调节模块包括：

动作信息获取子模块，用于当识别到所述用户场景为单人场景时，从所述图像数据中获取所述用户的动作信息；

动作信息匹配子模块，用于将所述用户的动作信息与预设的动作信息进行匹配；

第一调节子模块，用于根据匹配结果，调节所述车载语音设备的唤醒阈值。

可选地，所述用户场景还包括多人场景，所述阈值调节模块还包括：

第二调节子模块，用于当识别到所述用户场景为所述多人场景时，将所述车载语音设备的唤醒阈值调节为默认的唤醒阈值。

可选地，所述多人场景包括多人娱乐场景以及多人对话场景，所述第二调节子模块具体用于：

或，

可选地，所述唤醒阈值包括若干个不同唤醒等级的唤醒阈值，所述第一调节子模块包括：

映射关系获取单元，用于获取所述唤醒阈值与预设的唤醒等级的映射关系；

目标等级确定单元，用于确定所述匹配结果与所述唤醒等级匹配的目标唤醒等级；

目标阈值调节单元，用于采用所述映射关系，将所述唤醒阈值调节为与所述目标唤醒等级适配的目标唤醒阈值。

可选地，不同唤醒等级对应不同的预设唤醒条件，所述装置还包括：

第一阈值调节单元，用于当所述匹配结果满足预设第一唤醒条件时，采用所述映射关系，将当前的唤醒阈值调节为与所述第一唤醒条件对应的第一唤醒阈值；

第二阈值调节单元，用于当所述匹配结果满足预设第二唤醒条件时，采用所述映射关系，将当前的第一唤醒阈值调节为与所述第二唤醒条件对应的第二唤醒阈值；

可选地，所述第一调节子模块包括：

阈值减小单元，用于当所述用户当前的动作信息与预设的动作信息匹配成功时，减小所述唤醒阈值。

可选地，所述阈值减小单元具体用于：

和/或，

另一方面，还提供了一种车辆，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述车辆执行如上所述的一个或多个的方法。

另一方面，还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如上所述的一个或多个的方法。

本发明实施例包括以下优点：

在本发明实施例中，通过采集车内用户的图像数据，接着从图像数据中，确定与用户对应的用户场景，并根据用户场景，调节车载语音设备的唤醒阈值，然后根据唤醒阈值，对车载语音设备进行唤醒，从而通过实时监测与车内用户对应的用户场景，对车载语音设备的唤醒阈值进行实时调节，调节车载语音设备的语音识别的灵敏度，进而在不同情况的行车场景下，一方面能够使用户能够较为准确且方便地唤醒车载语音设备，提高了用户与语音设备的唤醒交互效率，另一方面通过调节唤醒阈值，可以有效地避免错误唤醒的概率。

附图说明

图1是本发明的一种车载语音设备的唤醒方法实施例一的步骤流程图；

图2是本发明的一种车载语音设备的唤醒方法实施例二的步骤流程图；

图3是本发明的一种车载语音设备的唤醒方法实施例二中唤醒手势示意图；

图4是本发明的一种车载语音设备的唤醒装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种车载语音设备的唤醒方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，采集车内用户的图像数据；

作为一种示例，在智能车辆的车载语音设备的人机唤醒中，采用的是通过用户输入语音“唤醒词”，接着由车载语音设备进行语音识别，并唤醒语音设备。其中，在行车场景中，乘客可能在车内进行语音通话，在通话的过程中，车载语音设备可能会对乘客的语音内容进行语音识别，若识别成功，则会错误唤醒车载语音设备。

在本发明实施例中，可以通过设置于车辆车内的图像采集器或传感器获取车内用户的图像数据。如可以在车辆车内设置若干个摄像头，采集车内乘客的图像数据，具体的，可以在车辆的中控大屏上设置摄像头，采集主驾以及副驾的图像数据。还可以在车辆内设置红外设备，对车内乘客进行虹膜识别等。

在本发明实施例的一种示例中，在行车场景中，主驾可能进行语音通话，或与副驾进行交谈，在人机对话或用户间对话的过程中，车载语音系统可以采集到用户的语音信息，并进行识别，此时有可能实现唤醒，从而在用户未主动进行唤醒时，车载语音设备实现了误唤醒，浪费车载资源，影响用户体验。因此，在本发明实施例中，可以通过在车辆中预设的摄像头，采集车内乘客的图像数据，进而可以根据图像数据，对车载语音设备的语音识别进行调节。

需要说明的是，在本发明实施例中以摄像头采集车内用户的图像数据为例进行示例性说明，本领域技术人员在本发明的思想指导下，还可以采用红外设备等识别其他生物特征的方式，采集用户的动作信息，本发明对此不作限制。

步骤102，从图像数据中，确定与用户对应的用户场景；

在本发明实施例中，当采集了车内乘客的图像数据后，对图像数据进行图像识别，从而可以确定与当前车内用户对应的用户场景。

在具体实现中，用户场景可以包括单人场景以及多人场景，其中，单人场景为车内只有一名用户的场景，多人场景则为车内有至少两名以上用户的场景。当采集了车内乘客的图像数据后，可以从图像中识别出车内用户的人数，从而进行场景识别，确定当前的车内场景为单人场景，或是多人场景。

步骤103，根据用户场景，调节车载语音设备的唤醒阈值；

在本发明实施例中，当确定当前的用户场景后，可以根据用户场景，调节车载语音设备的唤醒阈值，从而能够使用户较为准确且方便地唤醒车载语音设备，以及避免错误唤醒。

在本发明实施例的一种可选实施例中，当识别到用户场景为单人场景时，可以从图像数据中获取用户的动作信息，接着将用户的动作信息与预设的动作信息进行匹配，然后可以根据匹配结果，调节车载语音设备的唤醒阈值。

在本发明实施例的另一种可选实施例中，当识别到用户场景为多人场景时，可以将车载语音设备的唤醒阈值调节为默认的唤醒阈值。其中，多人场景可以包括多人娱乐场景以及多人对话场景，则当识别到用户场景为多人娱乐场景时，可以将车载语音设备的唤醒阈值调节为默认的唤醒阈值，或当识别到用户场景为多人对话场景时，可以将车载语音设备的唤醒阈值调节为默认的唤醒阈值。

在具体实现中，车载系统可以根据采集的图像数据，从图像数据中识别出车内用户的人数，从而确定当前用户场景是否为多人场景，当为多人场景时，可以结合车载系统的监听功能，对用户场景进一步进行识别，当识别出车内场景为多人娱乐场景时，表示当前车内至少两名用户在进行车内娱乐活动，并不是进行车载语音设备的语音唤醒；或当识别出车内场景为多人对话场景时，表示当前车内至少两名用户在进行对话，并不是进行车载语音设备的语音唤醒，则可以不调整唤醒阈值，或将唤醒语音调节为默认的唤醒语音，用户输入的语音信息需要满足默认的唤醒阈值，才能对车载语音设备进行唤醒。

步骤104，根据唤醒阈值，对车载语音设备进行唤醒。

在本发明实施例中，对车载语音设备的唤醒阈值调节完毕后，可以根据调节后的唤醒阈值，对车载语音设备进行唤醒，从而当减小车载语音设备的唤醒阈值时，可以使用户能够较为准确地唤醒车载语音设备，提高了用户与语音设备的唤醒交互效率，当增大车载语音设备的唤醒阈值时，可以有效地避免错误唤醒的概率。

在具体实现中，用户通过语音输入的语音信息，需要满足唤醒阈值，才能对车载语音设备进行唤醒。具体的，可以通过获取用户输入的语音信息，并计算与语音信息对应的唤醒值，当唤醒值大于或等于唤醒阈值时，则可以对车载语音设备进行唤醒。其中，可以预先在车载系统中存储语音信息对应的唤醒值，当接收到用户输入的语音信息后，可以将该语音信息进行转换，得到对应的文本信息，接着可以进行语义识别，得到用户输入的唤醒词，并将该唤醒词与默认的唤醒词进行匹配，得到对应的唤醒值，其中，唤醒值可以为用户语音输入的唤醒词与默认的唤醒词之间的相似度，不同相似度的唤醒值数值大小不同，当唤醒值大于或等于唤醒阈值时，则对车载语音设备进行唤醒；当唤醒值小于唤醒阈值时，则不对车载语音设备进行唤醒。

在本发明实施例的一种示例中，在默认唤醒状态下，唤醒阈值为4，其可以对应于默认的唤醒词“你好小L”，对用户输入的语音信息进行语义识别后，可以得到用户输入的唤醒词，则用户输入的唤醒词需要包含“你好小L”，即要求用户输入的唤醒词与默认的唤醒词一一对应，才能对语音设备进行唤醒，从而当用户输入的语音信息满足默认的唤醒阈值，对车载语音设备进行唤醒，有效地避免了错误唤醒车载语音设备的概率。

在本发明实施例的另一种示例中，默认的唤醒词为“你好小L”，当减小车载语音设备的唤醒阈值时，当唤醒阈值由4调节为3时，则用户输入的唤醒词与默认的唤醒词的相似度(唤醒值)需要满足唤醒阈值3，即可对车载语音设备进行唤醒，用户可以输入默认的唤醒词进行唤醒，还可以输入与唤醒词近似的语音信息进行唤醒，如用户可以语音输入“你好小L，播放音乐”，也可以语音输入“你好小李，播放音乐”，对于后者，用户输入的唤醒词“你好小李”与默认的唤醒词“你好小L”相似度(唤醒值)满足唤醒阈值3，可以对车载语音设备进行唤醒；

当唤醒阈值由3调节为2时，则用户输入的唤醒词与默认的唤醒词的相似度(唤醒值)需要满足唤醒阈值2，如用户可以语音输入“你好小李，播放音乐”、“你好小L，播放音乐”、“小李，播放音乐”以及“你好，播放音乐”等，由于用户输入的唤醒词与默认的唤醒词相似度(唤醒值)大于或等于减小后的唤醒阈值2，可以对车载语音设备进行唤醒；

当唤醒阈值由2调节为1时，则用户输入的唤醒词与默认的唤醒词的相似度(唤醒值)需要满足唤醒阈值1，如用户可以语音输入“你好小李，播放音乐”、“你好小L，播放音乐”、“小李，播放音乐”、“你好，播放音乐”以及“HI，播放音乐”等，其中，“HI”与“你好”可以为相同语义的唤醒词，由于用户输入的唤醒词与默认的唤醒词相似度(唤醒值)大于或等于减小后的唤醒阈值1，可以对车载语音设备进行唤醒；

当唤醒阈值由1调节为0时，此时用户可以选择直接语音输入指令，或选择语音输入简单的语音信息，或输入满足默认唤醒阈值的语音信息，如可以输入“你好小李，播放音乐”、“你好小L，播放音乐”、“小李，播放音乐”、“你好，播放音乐”以及“播放音乐”等，即可对车载语音设备进行唤醒。

通过上述示例，本发明实施例可以通过调节唤醒阈值使得用户语音输入简化或近似的“唤醒词”、不需要输入“唤醒词”即可对车载语音设备进行唤醒，提高了用户与语音设备的唤醒交互效率。

此外，还可以对唤醒词的顺序进行设置，可以将唤醒词的顺序置于语音指令之前，用户需先语音输入唤醒词，再输入语音指令，如“你好小L，播放音乐”、“你好小李，播放音乐”、“小L，播放音乐”、“小李，播放音乐”、“你好，播放音乐”等等唤醒词在前、语音指令在后的语音信息，当唤醒阈值调节为0时，此时用户只需要输入语音指令，即可对车载语音设备进行唤醒，而不需要输入唤醒词，从而可以避免在唤醒阈值减小的过程中，车载语音设备对用户的语音信息进行误识别，进而避免了车载语音设备的误唤醒。

需要说明的是，在本发明实施例中以上述示例进行说明，可以理解的是，本发明实施例包括但不限于上述示例，本领域技术人员在本发明实施例的思想下，可以根据实际情况进行设置，本发明对此不作限制。

参考图2，示出了本发明的一种车载语音设备的唤醒方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，采集车内用户的图像数据；

在具体实现中，可以通过设置于车内的若干个摄像头，采集车内用户的图像数据，进而可以根据图像数据，对车载语音设备的语音识别进行调节。

步骤202，从图像数据中，确定与用户对应的用户场景；

步骤203，当用户场景为单人场景时，从图像数据中获取用户的动作信息；

在具体实现中，用户的动作信息可以包括手部动作信息、面部动作信息以及唇部动作信息等，可以将采集的图像数据，输入至车载系统的MCU中央处理器，进行图像识别，从而得到与用户对应的动作信息。具体的，可以将图像数据输入图像识别模型中进行特征识别，从而确定用户的动作信息。

此外，还可以采集车内用户的图像数据，并根据至少一张图像数据，对用户的动作进行识别，从而可以根据用户连续的动作信息，对车载语音设备的唤醒阈值进行调节。

步骤204，将用户的动作信息与预设的动作信息进行匹配；

在具体实现中，用户的动作信息可以包括手部动作信息、面部动作信息以及唇部动作信息，预设的动作信息也可以包括手部唤醒动作信息、面部唤醒动作信息以及唇部唤醒动作信息。当得到用户的动作信息后，可以将用户的手部动作信息与预设的手部唤醒动作信息进行匹配；和/或，将用户的面部动作信息与预设的面部唤醒动作信息进行匹配；和/或，将用户的唇部动作信息与预设的唇部唤醒动作信息进行匹配，从而可以得到匹配结果，以根据匹配结果对唤醒阈值进行调节。

步骤205，根据匹配结果，调节车载语音设备的唤醒阈值；

在具体实现中，可以根据匹配结果，调节车载语音设备的唤醒阈值，从而根据不同的唤醒阈值对车载语音设备进行唤醒，可以使用户能够较为准确且方便地唤醒车载语音设备，提高用户与语音设备的唤醒交互效率。

在本发明实施例的一种可选实施例中，唤醒阈值可以包括若干个不同唤醒等级的唤醒阈值，则步骤205可以包括如下子步骤：

获取唤醒阈值与预设的唤醒等级的映射关系；确定匹配结果与唤醒等级匹配的目标唤醒等级；采用映射关系，将唤醒阈值调节为与目标唤醒等级适配的目标唤醒阈值。

在具体实现中，不同的唤醒阈值可以对应于不同的唤醒等级，不同的唤醒等级可以对应不同的唤醒灵敏度，唤醒灵敏度越高，越容易唤醒车载语音设备。当用户当前的动作信息与预设的唤醒动作信息匹配成功后，可以生成对应的匹配结果，接着可以根据匹配结果的匹配程度，匹配程度越高，匹配结果对应的唤醒等级越高，从而可以确定匹配结果与唤醒等级匹配的目标唤醒等级，然后可以采用唤醒阈值与唤醒等级的映射关系，将当前的唤醒阈值调节为与目标唤醒等级适配的目标唤醒阈值，从而可以根据用户输入的动作信息与预设的唤醒动作信息匹配程度，对唤醒阈值进行调节，使得用户能够准确且方便地唤醒车载语音设备。作为一种示例，匹配结果的匹配程度、唤醒阈值以及唤醒等级的映射关系可以如表1所示。

匹配结果的匹配程度	唤醒等级	唤醒阈值
			匹配程度低	一级	2
匹配程度中	二级	1
			匹配程度高	三级	0

表1

在本发明实施例的一种示例中，在车载系统中预设设置唤醒阈值包括0-1-2-3，其中，原始唤醒阈值为3。当用户凝视中控屏幕在3秒内，则此时用户的凝视动作与预设的凝视动作匹配成功，但由于凝视时间只有3秒，即匹配成功且匹配程度低，与匹配结果对应的目标唤醒等级为一级，则目标唤醒阈值为2，然后可以将原始唤醒阈值3调节为目标唤醒阈值2；当用户凝视中控屏幕达到5秒至10秒之间时，匹配成功且匹配程度中，与匹配结果对应的目标唤醒等级为二级，则目标唤醒阈值为1，然后可以将原始唤醒阈值3调节为目标唤醒阈值1；当用户凝视中控屏幕达10秒以上时，匹配成功且匹配程度高，与匹配结果对应的目标唤醒等级为三级，则目标唤醒阈值为0，可以将原始唤醒阈值3调节为目标唤醒阈值0。

需要说明的是，在本发明实施例中以上述示例为例进行示例性说明，可以理解的是，本发明实施例包括但不限于上述示例，本领域技术人员在本发明实施例的思想指导下，可以根据实际情况对唤醒等级、唤醒阈值等进行设置，本发明对此不作限制。

在本发明实施例的另一种可选实施例中，不同的唤醒等级可以对应不同的预设唤醒条件，可以根据不同的唤醒条件对唤醒阈值进行连续的调整。步骤205还可以包括如下子步骤：

当所述匹配结果满足预设第一唤醒条件时，采用所述映射关系，将当前的唤醒阈值调节为与所述第一唤醒条件对应的第一唤醒阈值；当所述匹配结果满足预设第二唤醒条件时，采用所述映射关系，将当前的第一唤醒阈值调节为与所述第二唤醒条件对应的第二唤醒阈值。其中，所述第一唤醒条件对应的唤醒等级，低于所述第二唤醒条件对应的唤醒等级一个等级。

在具体实现中，不同唤醒阈值可以对应于不同的唤醒等级，不同的唤醒等级可以对应于不同的唤醒条件。当用户当前的动作信息与预设的唤醒动作信息匹配成功后，可以根据用户在一定时间内输入的动作信息与预设的唤醒动作信息的匹配程度，对唤醒阈值进行连续调整，通过车载语音设备对唤醒阈值的连续调整，增强用户直接唤醒车载语音设备的意图，使得车载语音设备的唤醒更加贴合人类的语言习惯，提高了用户的乘车体验。

具体的，当用户的动作信息与预设的唤醒动作信息匹配成功后，可以生成匹配结果，其中，匹配结果可以为用户的动作信息与唤醒动作信息的匹配程度。不同唤醒等级对应的唤醒条件，可以对应于不同匹配程度的匹配结果，作为一种示例，唤醒等级、唤醒阈值以及唤醒条件的映射关系可以如表2所示。

表2

在本发明实施例的一种示例中，如表2所示，第一唤醒条件、第二唤醒条件以及第三唤醒条件可以为用户当前的动作信息与预设的唤醒动作信息的匹配度，第二唤醒条件对应的匹配度高于第一唤醒条件对应的匹配度，第三唤醒条件对应的匹配度高于第二唤醒条件对应的匹配度，且第一唤醒条件对应的唤醒等级低于第二唤醒条件对应的唤醒等级一个等级，第二唤醒条件对应的唤醒等级低于第三唤醒条件对应的唤醒等级一个等级。在本示例中，唤醒条件、唤醒等级以及唤醒阈值可以如表3所示。

唤醒条件	唤醒等级	唤醒阈值
			凝视中控屏幕3秒	一级	2
凝视中控屏幕5-10秒	二级	1
			凝视中控屏幕10秒以上	三级	0

表3

假设当前的唤醒阈值为3，当用户凝视中控屏幕3秒时(动作信息与唤醒动作信息匹配，匹配结果满足第一唤醒条件)，则车载语音设备可以采用映射关系，将当前的唤醒阈值3调节为与“凝视中控屏幕3秒”(第一唤醒条件)对应的唤醒阈值2；当用户继续凝视中控屏幕达到8秒时(动作信息与唤醒动作信息匹配，匹配结果满足第二唤醒条件)，则车载语音设备可以采用映射关系，将当前的唤醒阈值2调节为与“凝视中控屏幕5-10秒”(第二唤醒条件)对应的唤醒阈值1；当用户继续凝视中控屏幕达到10秒以上时(动作信息与唤醒动作信息匹配，匹配结果满足第三唤醒条件)，则车载语音设备可以采用映射关系，将当前的唤醒阈值1调节为与“凝视中控屏幕10秒以上”(第三唤醒条件)对应的唤醒阈值0，从而实现车载语音设备唤醒过程中，唤醒语音的连续调节，使得用户可以准确且方便地对车载语音设备进行唤醒。

需要说明的是，在本发明实施例中以上述示例为例进行示例性说明，可以理解的是，在本发明实施例的思想指导下，本领域技术人员还可以多个不同的唤醒等级、唤醒阈值以及唤醒条件等，本发明对此不作限制。

在本发明实施例的另一种可选实施例中，在车载系统中，可以预先设置一默认的唤醒阈值，当用户在车内语音输入的语音信息，满足该唤醒阈值，即可对车载语音设备进行唤醒，从而使车载系统执行相应的操作。具体的，当用户的动作信息与预设的唤醒动作信息匹配成功时，可以减小唤醒阈值；当用户的动作信息与预设的唤醒动作信息匹配失败时，不调整唤醒阈值，用户需要按照正常的唤醒阈值对车载语音设备进行唤醒。

在具体实现中，唤醒阈值可以由“唤醒词”以及“语音指令”组成。在默认唤醒状态下，用户在每一次唤醒语音设备时，需要语音输入“唤醒词”以及“语音指令”，当车载语音设备检测到用户输入的“唤醒词”满足预设的“唤醒词”时，进行语音设备的唤醒，并对语音指令进行语义识别，从而执行相应的操作。如在默认唤醒阈值下，用户对车载语音设备语音输入“你好！XX。播放音乐”，则在该语音信息中，唤醒词为“你好！XX”，语音指令为“播放音乐”，车载语音设备接收到该语音信息后，可以先进行语音设备的唤醒，接着对语音指令进行语义识别，并播放音乐。

在具体实现中，当用户的动作信息与预设的唤醒动作信息匹配成功时，减小唤醒阈值；当用户的动作信息与预设的唤醒动作信息匹配失败时，不调整唤醒阈值。其中，唤醒阈值越大，则车载语音设备的语音识别灵敏度越低，用户越难对车载语音设备进行唤醒；唤醒阈值越小，则车载语音设备的语音识别灵敏度越高，用户越容易对车载语音设备进行唤醒。

在具体实现中，预设的唤醒动作信息可以包括手部唤醒动作信息、面部唤醒动作信息以及唇部唤醒动作信息。当用户当前的手部动作信息与手部唤醒动作信息匹配成功时，减小唤醒阈值；和/或，当用户的面部动作信息与面部唤醒动作信息匹配成功时，减小唤醒阈值；和/或，当用户的唇部动作信息与唇部唤醒动作信息匹配成功时，减小唤醒阈值。

在本发明实施例的一种示例中，手部唤醒动作信息可以包括唤醒手势以及唤醒动作。其中，参考图3，示出了本发明的一种车载语音设备的唤醒方法实施例一中唤醒手势示意图，手势唤醒可以包括通过用户手掌比划预设的手势，当摄像头采集到用户的图像数据，并对图像数据进行特征提取，得到用户比划的手势后，将该手势与预设的唤醒手势进行匹配，当匹配成功后，可以减小车载语音设备的唤醒阈值。

唤醒动作可以包括向挥手动作、“勾引”动作等，当摄像头采集到用户的图像数据，并根据至少一帧图像确定用户当前的手部动作为挥手动作或“勾引”动作，具体可以为对车辆中控大屏的挥手动作或“勾引”动作，则用户的手部动作与预设的唤醒动作匹配，可以减小车载语音设备的唤醒阈值。

在本发明实施例的另一种示例中，面部唤醒动作信息可以包括人脸朝向车辆中控大屏达到预设时间、人脸朝向车辆中控大屏后连续点头若干次等等。如当摄像头采集到用户的面部动作信息后，确定此时用户的动作为人脸朝向中控大屏，且满足了预设时间，如人脸朝向中控大屏并保持3秒以上，则表示当前用户的面部动作信息与预设的面部唤醒动作信息匹配，可以减小车载语音设备的唤醒阈值；或当摄像头采集到用户的面部动作信息后，确定此时用户的动作为人脸朝向中控大屏，并点头了若干次，如连续点头3次，则表示当前用户的面部动作信息与预设的面部唤醒动作信息匹配，可以减小车载语音设备的唤醒阈值。

在本发明实施例的另一种示例中，唇部唤醒动作信息可以包括用户的唇部由合拢状态变换为张开状态，或由张开状态变换为合拢状态，两种状态均表示此时用户在进行讲话，则车载语音设备可以判定用户或存在唤醒车载语音设备的意图，可以减小车载语音设备的唤醒阈值。具体的，当摄像头采集到用户的唇部变换图像后，可以判断用户的唇部变换图像是否与预设的变化图像相匹配，当匹配时，可以减小车载语音设备的唤醒阈值。

需要说明的是，在本发明实施例中以用户的其中一种动作信息为例进行示例性说明，可以理解的是，在本发明实施例中，还可以将多个动作信息进行组合，并进行匹配，从而对车载语音设备的唤醒阈值进行调节。

在本发明实施例中的另一种示例中，可以同时获取用户的手部唤醒动作信息以及面部唤醒动作信息，对唤醒阈值进行调节。当通过摄像头采集车内用户的图像数据后，从图像数据中，确定用户当前人脸朝向车辆中控大屏，同时比划了唤醒手势或执行了唤醒动作，则车载语音设备同时监测到用户的面部动作信息与预设的面部唤醒动作信息，以及用户的手部动作信息与预设的手部唤醒动作信息相匹配，可以减小车载语音设备的唤醒阈值。

在本发明实施例中的另一种示例中，可以同时获取用户的手部唤醒动作信息、面部唤醒动作信息以及唇部唤醒动作信息，对唤醒阈值进行调节。当通过摄像头采集车内用户的图像数据后，从图像数据中，确定用户当前人脸朝向车辆中控大屏，同时唇部发生变化(如在说话)，且比划了唤醒手势或执行了唤醒动作等，则车载语音设备同时监测到用户的面部动作信息与预设的面部唤醒动作信息、用户的手部动作信息与预设的手部唤醒动作信息以及用户的唇部动作信息与预设的唇部唤醒动作信息相匹配，可以减小车载语音设备的唤醒阈值。

在本发明实施例的另一种示例中，当用户当前的手部动作与手部唤醒动作信息匹配失败时，不调整唤醒阈值；和/或，当用户当前的面部动作与面部唤醒动作信息匹配失败时，不调整唤醒阈值；和/或，当用户当前的唇部动作与唇部唤醒动作信息匹配失败时，不调整唤醒阈值。具体的，当用户的动作信息与预设的动作信息匹配失败时，不调整唤醒阈值，保持默认的唤醒阈值，用户输入的语音信息需要满足默认的唤醒阈值才能对车载语音设备进行唤醒。

需要说明的是，在本发明实施例中，用户的动作信息包括但不限于上述示例，预设的唤醒动作信息包括但不限于上述示例，本领域技术人员在本发明实施例的思想下，可以根据实际需要进行设置，本发明对此不作限制。

步骤206，根据唤醒阈值，对车载语音设备进行唤醒。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种车载语音设备的唤醒装置实施例的结构框图，具体可以包括如下模块：

图像获取模块401，用于采集车内用户的图像数据；

场景确定模块402，用于从所述图像数据中，确定与所述用户对应的用户场景；

阈值调节模块403，用于根据所述用户场景，调节车载语音设备的唤醒阈值；

唤醒模块404，用于根据所述唤醒阈值，对所述车载语音设备进行唤醒。

在本发明实施例的一种可选实施例中，所述唤醒模块404包括：

在本发明实施例的一种可选实施例中，所述用户场景包括单人场景，所述阈值调节模块403包括：

在本发明实施例的一种可选实施例中，所述用户场景还包括多人场景，所述阈值调节模块403还包括：

在本发明实施例的一种可选实施例中，所述多人场景包括多人娱乐场景以及多人对话场景，所述第二调节子模块具体用于：

或，

在本发明实施例的一种可选实施例中，所述唤醒阈值包括若干个不同唤醒等级的唤醒阈值，所述第一调节子模块包括：

在本发明实施例的一种可选实施例中，不同唤醒等级对应不同的预设唤醒条件，所述装置还包括：

在本发明实施例的一种可选实施例中，所述第一调节子模块包括：

在本发明实施例的一种可选实施例中，所述阈值减小单元具体用于：

和/或，

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种车辆，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述车辆执行本发明实施例所述的方法。

本发明实施例还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行本发明实施例所述的方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器、EEPROM、Flash以及eMMC等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种车载语音设备的唤醒方法和一种车载语音设备的唤醒装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种车载语音设备的唤醒方法，其特征在于，包括：

在行车场景下，采集车内用户的图像数据；

从所述图像数据中，确定与所述用户对应的用户场景；

根据所述用户场景，调节车载语音设备的唤醒阈值；

根据所述唤醒阈值，对所述车载语音设备进行唤醒；

其中，所述用户场景包括单人场景以及多人场景，所述根据所述用户场景，调节车载语音设备的唤醒阈值，包括：

根据所述单人场景或所述多人场景，调节车载语音设备的唤醒阈值；

其中，所述根据所述用户场景，调节车载语音设备的唤醒阈值，包括：

将所述用户的动作信息与预设的动作信息进行匹配；

根据匹配结果，调节所述车载语音设备的唤醒阈值。

2.根据权利要求1所述的方法，其特征在于，所述根据所述唤醒阈值，对所述车载语音设备进行唤醒，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述用户场景，调节车载语音设备的唤醒阈值，还包括：

4.根据权利要求3所述的方法，其特征在于，多人场景包括多人娱乐场景以及多人对话场景，所述当识别到所述用户场景为所述多人场景时，将所述车载语音设备的唤醒阈值调节为默认的唤醒阈值，包括：

或，

5.根据权利要求1所述的方法，其特征在于，所述唤醒阈值包括若干个不同唤醒等级的唤醒阈值，所述根据匹配结果，调节所述车载语音设备的唤醒阈值，包括：

获取所述唤醒阈值与预设的唤醒等级的映射关系；

确定所述匹配结果与所述唤醒等级匹配的目标唤醒等级；

6.根据权利要求5所述的方法，其特征在于，不同唤醒等级对应不同的预设唤醒条件，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述根据匹配结果，调节所述车载语音设备的唤醒阈值，包括：

8.根据权利要求7所述的方法，其特征在于，所述当所述用户的动作信息与预设的动作信息匹配成功时，减小所述唤醒阈值，包括：

和/或，

9.一种车载语音设备的唤醒装置，其特征在于，包括：

图像获取模块，用于在行车场景下，采集车内用户的图像数据；

唤醒模块，用于根据所述唤醒阈值，对所述车载语音设备进行唤醒；

其中，所述用户场景包括单人场景以及多人场景，所述阈值调节模块具体用于：

其中，所述阈值调节模块包括：

10.根据权利要求9所述的装置，其特征在于，所述唤醒模块包括：

11.根据权利要求9所述的装置，其特征在于，所述阈值调节模块还包括：

12.根据权利要求11所述的装置，其特征在于，所述多人场景包括多人娱乐场景以及多人对话场景，所述第二调节子模块具体用于：

或，

13.根据权利要求11所述的装置，其特征在于，所述唤醒阈值包括若干个不同唤醒等级的唤醒阈值，所述第一调节子模块包括：

14.根据权利要求13所述的装置，其特征在于，不同唤醒等级对应不同的预设唤醒条件，所述装置还包括：

15.根据权利要求9所述的装置，其特征在于，所述第一调节子模块包括：

16.根据权利要求15所述的装置，其特征在于，所述阈值减小单元具体用于：

和/或，

17.一种车辆，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述车辆执行如权利要求1-8任一项所述的方法。

18.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-8任一项所述的方法。