CN108831462A

CN108831462A - 车载语音识别方法及装置

Info

Publication number: CN108831462A
Application number: CN201810676007.3A
Authority: CN
Inventors: 陈杰
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2018-11-16

Abstract

本发明涉及汽车电子技术领域，尤其涉及车载语音识别方法及装置，所述方法包括：采集位于车辆乘坐空间内的用户的人脸图像；基于所述人脸图像判断是否存在来自所述用户的语音控制操作；当存在所述语音控制操作时，采集所述乘坐空间内的音频数据；从所述音频数据中提取出语音控制指令；根据所述语音控制指令对所述车辆进行相应控制。本发明能够有效地避免用户未进行语音控制操作而环境音中包含语音控制指令时的误操作，提高了语音控制的准确率。

Description

车载语音识别方法及装置

技术领域

本发明涉及汽车电子技术领域，尤其涉及车载语音识别方法及装置。

背景技术

随着科学技术的不断发展，人民群众生活水平的日益提高，汽车已经由一种稀有消费品逐渐转化为大众消费品，不仅越来越普及，而且使用越来越广泛。与此同时，车载智能和娱乐成为车联网技术应用的主要载体。

车载语音是车载智能系统的主要功能之一，用户利用车载语音能够实现对车载智能系统的语音控制，然而，现有技术存在语音控制准确率低的技术问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的车载语音识别方法及装置。

依据本发明的第一个方面，提供了一种车载语音识别方法，所述方法包括：

采集位于车辆乘坐空间内的用户的人脸图像；

基于所述人脸图像判断是否存在来自所述用户的语音控制操作；

当存在所述语音控制操作时，采集所述乘坐空间内的音频数据；

从所述音频数据中提取出语音控制指令；

根据所述语音控制指令对所述车辆进行相应控制。

优选的，所述基于所述人脸图像判断是否存在来自所述用户的语音控制操作，包括：

基于所述人脸图像判断所述用户的嘴部是否发生变化；

其中，若所述用户的嘴部发生变化，则表明存在所述语音控制操作，若所述用户的嘴部未发生变化，则表明不存在所述语音控制操作。

优选的，当采集到多个人脸图像时，在所述采集位于车辆乘坐空间内的用户的人脸图像之后，且在所述基于所述人脸图像判断是否存在来自所述用户的语音控制操作之前，所述方法还包括：

从采集到的多个人脸图像中确定出与目标用户对应的目标人脸图像；

其中，所述基于所述人脸图像判断是否存在来自所述用户的语音控制操作，包括：

基于所述目标人脸图像判断是否存在来自与所述目标用户的所述语音控制操作。

优选的，所述目标用户为预设用户或距离用于采集所述人脸图像的图像采集单元最近的用户。

优选的，所述采集所述乘坐空间内的音频数据，包括：

通过朝向预设方向的一个或多个拾音器采集所述乘坐空间内的音频数据。

优选的，当采集到来自多个拾音器的多路所述音频数据时，所述方法还包括：

从多路所述音频数据中确定出音频能量最大的音频数据为目标音频数据；

其中，所述从所述音频数据中提取出语音控制指令，具体为：

从所述目标音频数据中提取出目标语音控制指令；

其中，所述根据所述语音控制指令对所述车辆进行相应控制，具体为：

根据所述目标语音控制指令对所述车辆进行相应控制。

优选的，所述从所述音频数据中提取出语音控制指令，包括：

对所述音频数据进行降噪处理；

从经过降噪处理的所述音频数据中提取出所述语音控制指令。

依据本发明的第二个方面，提供了一种车载语音识别装置，设置于车辆的乘坐空间内，所述车载语音识别装置包括图像采集单元、图像分析单元、音频采集单元和处理单元；

所述图像采集单元用于采集位于所述乘坐空间内的用户的人脸图像；

所述图像分析单元用于基于所述人脸图像判断是否存在来自所述用户的语音控制操作；

所述音频采集单元用于当存在所述语音控制操作时，采集所述乘坐空间内的音频数据；

所述处理单元用于从所述音频数据中提取出语音控制指令，并根据所述语音控制指令对所述车辆进行相应控制。

优选的，所述图像分析单元具体用于：

基于所述人脸图像判断所述用户的嘴部是否发生变化；

优选的，当采集到多个人脸图像时，所述装置还包括：

人脸图像确定单元，用于从采集到的多个人脸图像中确定出与目标用户对应的目标人脸图像；

其中，所述图像分析单元具体用于基于所述目标人脸图像判断是否存在来自与所述目标用户的所述语音控制操作。

优选的，当采集到多路所述音频数据时，所述装置还包括：

音频数据确定单元，用于从多路所述音频数据中确定出音频能量最大的音频数据为目标音频数据；

其中，所述处理单元具体用于从所述目标音频数据中提取出目标语音控制指令，并根据所述目标语音控制指令对所述车辆进行相应控制。

优选的，所述处理单元包括：

降噪子单元，用于对所述音频数据进行降噪处理；

提取子单元，用于从经过降噪处理后的所述音频数据中提取出所述语音控制指令。

优选的，所述音频采集单元为麦克风或拾音器。

依据本发明的第三个方面，提供了一种行车记录仪，包括行车记录仪本体和本发明的第二方面中所述的车载语音识别装置；

所述车载语音识别装置设置在所述行车记录仪本体上。

依据本发明的第四个方面，提供了一种车载音箱，包括车载音箱本体和本发明的第二方面中所述的车载语音识别装置；

所述车载语音识别装置设置在所述车载音箱本体上。

依据本发明的第五个方面，提供了一种车载语音识别系统，包括至少一个本发明的第二方面中所述的车载语音识别装置∶

其中，所述车载语音识别装置设置于所述乘坐空间内用户乘坐区域处。

优选的，所述用户乘坐区域包括主驾驶位区域、副驾驶位区域和后排乘客位区域中的至少一个区域。

依据本发明的第五个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明的第一方面中所述的方法步骤。

根据本发明的车载语音识别方法及装置，通过先采集车辆乘坐空间内的用户的人脸图像，接着根据人脸图像判断是否存在语音控制操作，当存在语音控制操作时再采集乘坐空间内的音频数据，并从音频数据中提取出语音控制指令，进而根据语音控制指令对车辆进行相应控制，能够有效地避免用户未进行语音控制操作而环境音中包含语音控制指令时的误操作，提高了语音控制的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考图形表示相同的部件。在附图中：

图1示出了本发明实施例中车载语音识别方法的流程图；

图2示出了本发明实施例中车载语音识别装置的结构示意图；

图3示出了本发明实施例中车载语音识别系统的安装示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种车载语音识别方法，该方法应用于车辆中，如图1所示，所述方法包括：

步骤101：采集位于车辆乘坐空间内的用户的人脸图像。

步骤102：基于人脸图像判断是否存在来自用户的语音控制操作。

步骤103：当存在语音控制操作时，采集乘坐空间内的音频数据。

步骤104：从音频数据中提取出语音控制指令。

步骤105：根据语音控制指令对车辆进行相应控制。

在现在技术中，往往直接采集音频数据进行语音控制，从而，当用户未进行语音控制操作而环境音中包含语音控制指令时，环境音中的语音控制指令将会对车辆进行误操作，从而存在语音控制准确率低的技术问题。而本发明实施例通过先采集车辆乘坐空间内的用户的人脸图像，接着根据人脸图像判断是否存在语音控制操作，当存在语音控制操作时再采集乘坐空间内的音频数据，并从音频数据中提取出语音控制指令，进而根据语音控制指令对车辆进行相应控制，有效地避免了上述问题的发生，只有在存在语音控制操作的情况下，才会采集音频数据并根据音频数据对车辆进行相应控制，提高了语音控制的准确率。

具体来讲，车辆的乘坐空间包含用户乘坐区域，用户乘坐区域包含主驾驶位区域、副驾驶位区域和后排乘客位区域，主驾驶位区域、副驾驶位区域和后排乘客位区域均可以乘坐用户。

进一步来讲，在采集位于车辆乘坐空间内的用户的人脸图像的过程中，存在以下两种情况：在第一种情况中，当乘坐空间内仅包含一个用户时，采集该用户的人脸图像，即通过采集仅获得一个人脸图像，在第二种情况中，当乘坐空间内包含多个用户时，采集多个用户的人脸图像，即通过采集获得多个人脸图像。

针对上述第一种情况而言，在采集到该用户的人脸图像之后，在步骤102中，基于人脸图像判断用户的嘴部是否发生变化，若用户的嘴部发生变化，则表明存在语音控制操作，若用户的嘴部未发生变化，则表明不存在语音控制操作。具体地，通过对人脸图像进行分析可以判断用户的嘴部是否发生开合，若用户的嘴部发生开合，则表明存在语音控制操作，若用户的嘴部未发生开合，则表明不存在语音控制操作。

下面本发明实施例将结合一具体示例对上述第一种情况进行详细说明。

当车辆的乘坐空间内仅包含用户甲时，采集得到用户甲的人脸图像A，通过对人脸图像A进行分析，判断用户甲的嘴部是否发生开合，如果用户甲的嘴部发生开合，则表明用户甲存在语音控制操作，如果用户甲的嘴部不发生开合，则表明用户甲不存在语音控制操作。

针对上述第二种情况而言，在采集到多个用户的人脸图像之后，首先从采集到的多个人脸图像中确定出与目标用户对应的目标人脸图像，其中，目标用户为预设用户或距离用于采集人脸图像的图像采集单元最近的用户，具体来讲，在本发明实施例中，存在两种目标用户，第一种目标用户为预设用户，第二种目标用户为距离用于采集人脸图像的图像采集单元最近的用户。

针对第一种目标用户而言，预先录入预设用户的人脸图像特征，从而，在采集到多个人脸图像之后，将多个人脸图像与预设用户的人脸图像特征进行匹配，从多个人脸图像中确定出与预设用户对应的人脸图像，该预设用户的人脸图像即为目标人脸图像。

针对第二种目标用户而言，本发明实施例利用图像采集单元采集人脸图像，位于乘坐空间内的多个用户距离图像采集单元存在远近的差别，目标用户即为距离图像采集单元最近的用户，在采集到多个人脸图像之后，基于人脸图像面积的大小，从多个人脸图像中确定出人脸图像面积最大的人脸图像为目标人脸图像，用户距离图像采集单元越近则采集到的人脸图像面积越大。

无论目标用户是属于上述第一种目标用户还是属于上述第二种目标用户，在确定出目标人脸图像之后，在步骤102中，基于目标人脸图像判断是否存在来自目标用户的语音控制操作，具体地，可以基于目标人脸图像判断目标用户的嘴部是否发生变化，若目标用户的嘴部发生变化，则表明存在语音控制操作，若目标用户的嘴部未发生变化，则表明不存在语音控制操作。具体地，通过对目标人脸图像进行分析可以判断目标用户的嘴部是否发生开合，若目标用户的嘴部发生开合，则表明存在语音控制操作，若目标用户的嘴部未发生开合，则表明不存在语音控制操作。

下面本发明实施例将结合一具体示例对上述第二种情况进行详细说明。

在第一种场景下，当车辆的乘坐空间内包含用户甲、用户乙和用户丙，预设用户为用户甲，采集得到用户甲的人脸图像A、用户乙的人脸图像B和用户丙的人脸图像C，将人脸图像A、人脸图像B和人脸图像C与用户甲的人脸图像特征进行匹配，从人脸图像A、人脸图像B和人脸图像C中确定出人脸图像A为目标人脸图像，接着，通过对人脸图像A进行分析，判断用户甲的嘴部是否发生开合，如果用户甲的嘴部发生开合，则表明用户甲存在语音控制操作，如果用户甲的嘴部不发生开合，则表明用户甲不存在语音控制操作。通过上述过程能够实现对于预设用户的语音控制的准确识别。

在第二种场景下，当车辆的乘坐空间内包含用户甲、用户乙和用户丙，采集得到用户甲的人脸图像A、用户乙的人脸图像B和用户丙的人脸图像C，通过人脸图像面积的大小进行比较，从人脸图像A、人脸图像B和人脸图像C中确定出人脸图像面积最大的为人脸图像A，则人脸图像A为目标人脸图像，接着，通过对人脸图像A进行分析，判断用户甲的嘴部是否发生开合，如果用户甲的嘴部发生开合，则表明用户甲存在语音控制操作，如果用户甲的嘴部不发生开合，则表明用户甲不存在语音控制操作。通过上述过程能够实现对于靠近图像采集单元的用户的语音控制的准确识别，其中，靠近图像采集单元的用户往往是具有语音控制主导权的用户，而远离图像采集单元的用户不具有语音控制的主导权。

无论步骤101是属于上述第一种情况还是上述第二种情况，当存在语音控制操作时，执行步骤103中的采集乘坐空间内的音频数据，接着，从音频数据中提取出语音控制指令，由于采集到的音频数据中往往存在噪声，而噪声会对语音识别造成影响，为提高语音识别的准确性，在本发明实施例中，先对音频数据进行降噪处理，再从经过降噪处理的音频数据中提取出语音控制指令。最后，根据提取出的语音控制指令对车辆进行相应控制。例如，提取出的语音控制指令为用于打开空调的指令，则根据该指令打开车辆的空调。

需要说明的是，在本发明实施例中，可以通过拾音器采集乘坐空间内的音频数据，同时，在本发明实施例中，拾音器朝向预设方向，预设方向可以主驾驶位方向、副驾驶位方向或后排乘坐位方向，设置在乘坐空间内的拾音器可以为一个或多个，本发明通过将拾音器设置为朝向预设方向，能够使得拾音器收集来自预设方向的音频数据，有效地避免了现有技术仅设置一个不定向拾音器，其采集四面八方的声音，无法对语音控制指令进行准确识别的情况。例如，依据本发明实施例，在具体实施过程中，可以将拾音器设置为朝向主驾驶位方向，则该拾音器能够相较于朝向其他方向的拾音器采集到更清晰的来自主驾驶位的音频数据，进而，能够对来自主驾驶位的语音控制指令进行准确地识别以及精准对车辆进行控制。

需要说明的是，在本发明实施例中，在采集音频数据的过程中，当采集到来自多个拾音器的多路音频数据，多个拾音器的朝向可以不相同，则，从多路音频数据中确定出音频能量最大的音频数据为目标音频数据，音频能量的大小与用户距离用于采集音频数据的音频采集单元的远近相关，距离音频采集单元越近的用户，其对应的音频数据的音频能量越大。步骤104具体为：从目标音频数据中提取出目标语音控制指令，同样，在提取目标语音控制指令的过程中，可以先对目标音频数据进行降噪处理，再从经过降噪处理的目标音频数据中提取出目标语音控制指令，最后，根据目标语音控制指令对车辆进行相应控制。本发明实施例通过确定音频能量最大的音频数据为目标音频数据，并利用目标音频数据实现对车辆的控制，通过上述过程能够实现对于靠近音频采集单元的用户的语音控制的准确识别，其中，靠近音频采集单元的用户往往是具有语音控制主导权的用户，而远离音频采集单元的用户所发出的声音为干扰音。

基于同一发明构思，本发明实施例还提供一种车载语音识别装置，该车辆语音识别装置设置于车辆的乘坐空间内，如图2所示，车载语音识别装置包括图像采集单元201、图像分析单元202、音频采集单元203和处理单元204。其中，图像采集单元201用于采集位于乘坐空间内的用户的人脸图像，图像分析单元202用于基于人脸图像判断是否存在来自用户的语音控制操作，音频采集单元203用于当存在语音控制操作时，采集乘坐空间内的音频数据，处理单元204用于从音频数据中提取出语音控制指令，并根据语音控制指令对车辆进行相应控制。

具体来讲，图像采集单元201可以为摄像头，图像采集单元201在采集位于车辆乘坐空间内的用户的人脸图像的过程中，存在以下两种情况：在第一种情况中，当乘坐空间内仅包含一个用户时，采集该用户的人脸图像，即通过采集仅获得一个人脸图像，在第二种情况中，当乘坐空间内包含多个用户时，采集多个用户的人脸图像，即通过采集获得多个人脸图像。

针对上述第一种情况而言，图像采集单元201在采集到该用户的人脸图像之后，图像分析单元202基于人脸图像判断用户的嘴部是否发生变化，若用户的嘴部发生变化，则表明存在语音控制操作，若用户的嘴部未发生变化，则表明不存在语音控制操作，具体地，通过对人脸图像进行分析可以判断用户的嘴部是否发生开合，若用户的嘴部发生开合，则表明存在语音控制操作，若用户的嘴部未发生开合，则表明不存在语音控制操作。

针对上述第二种情况而言，本发明实施例的车载语音识别装置还包括人脸图像确定单元，图像采集单元201在采集到多个用户的人脸图像之后，人脸图像确定单元首先从采集到的多个人脸图像中确定出与目标用户对应的目标人脸图像，其中，目标用户为预设用户或距离用于采集人脸图像的图像采集单元201最近的用户，具体来讲，在本发明实施例中，存在两种目标用户，第一种目标用户为预设用户，第二种目标用户为距离用于采集人脸图像的图像采集单元201最近的用户。

针对第一种目标用户而言，预先录入预设用户的人脸图像特征，从而，在图像采集单元201采集到多个人脸图像之后，人脸图像确定单元将多个人脸图像与预设用户的人脸图像特征进行匹配，从多个人脸图像中确定出与预设用户对应的人脸图像，该预设用户的人脸图像即为目标人脸图像。

针对第二种目标用户而言，本发明实施例利用图像采集单元201采集人脸图像，位于乘坐空间内的多个用户距离图像采集单元201存在远近的差别，目标用户即为距离图像采集单元201最近的用户，在图像采集单元201采集到多个人脸图像之后，人脸图像确定单元基于人脸图像面积的大小，从多个人脸图像中确定出人脸图像面积最大的人脸图像为目标人脸图像，用户距离图像采集单元201越近则采集到的人脸图像面积越大。

无论目标用户是属于上述第一种目标用户还是属于上述第二种目标用户，在确定出目标人脸图像之后，图像分析单元202具体用于基于目标人脸图像判断是否存在来自目标用户的语音控制操作，具体地，可以基于目标人脸图像判断目标用户的嘴部是否发生变化，若目标用户的嘴部发生变化，则表明存在语音控制操作，若目标用户的嘴部未发生变化，则表明不存在语音控制操作。具体地，通过对目标人脸图像进行分析可以判断目标用户的嘴部是否发生开合，若目标用户的嘴部发生开合，则表明存在语音控制操作，若目标用户的嘴部未发生开合，则表明不存在语音控制操作。

需要说明的是，在本发明实施例中，图像分析单元202可以为图像处理芯片。

无论是针对上述第一种情况还是上述第二种情况，当存在语音控制操作时，音频采集单元203采集乘坐空间内的音频数据，其中，音频采集单元203为麦克风或拾音器，优选的，本发明实施例可以采用拾音器作为音频采集单元203，相较于麦克风而言，拾音器具有更高的灵敏性，同时还具有降噪功能。

进一步，利用处理单元204从音频数据中提取出语音控制指令，由于采集到的音频数据中往往存在噪声，而噪声会对语音识别造成影响，为提高语音识别的准确性，在本发明实施例中，处理单元204包括降噪子单元和提取子单元，降噪子单元用于对音频数据进行降噪处理，提取子单元用于从经过降噪处理后的音频数据中提取出语音控制指令。最后，处理单元204根据提取出的语音控制指令对车辆进行相应控制。

需要说明的是，在本发明实施例中，在采集音频数据的过程中，当采集到多路音频数据时，所述装置还包括音频数据确定单元，音频数据确定单元用于从多路所述音频数据中确定出音频能量最大的音频数据为目标音频数据，音频能量的大小与用户距离用于采集音频数据的音频采集单元203的远近相关，距离音频采集单元203越近的用户，其对应的音频数据的音频能量越大。从而，处理单元204具体用于从目标音频数据中提取出目标语音控制指令，同样，在提取目标语音控制指令的过程中，可以先对目标音频数据进行降噪处理，再从经过降噪处理的目标音频数据中提取出目标语音控制指令，最后，根据目标语音控制指令对车辆进行相应控制。本发明实施例通过确定音频能量最大的音频数据为目标音频数据，并利用目标音频数据实现对车辆的控制，通过上述过程能够实现对于靠近音频采集单元203的用户的语音控制的准确识别。

基于同一发明构思，本发明实施例还提供一种行车记录仪，该行车记录仪包括行车记录仪本体和如前述实施例所述的车载语音识别装置，车载语音识别装置设置在行车记录本体上。

具体来讲，在本发明实施例中，行车记录仪本体可以为后视镜式行车记录仪本体，对于后视镜式行车记录仪本体而言，其包含有镜面区域，车载语音识别装置设置在后视镜式行车记录仪本体内，车载语音识别装置的音频采集单元设置在镜面区域，在将行车记录仪安装于车辆后，镜面区域朝向主驾驶位区域，进而车载语音识别装置的音频采集单元也朝向主驾驶位区域，从而车载语音识别装置能够准确地对来自主驾驶位的用户的语音控制指令进行识别并对车辆进行精准控制。

并且，图像采集单元也可以设置在镜面区域内，朝向主驾驶位区域，从而可以获取主驾驶位的用户的人脸图像，以便于图像分析单元基于人脸图像判断是否存在来自主驾驶位的用户的语音控制操作。

基于同一发明构思，本发明实施例还提供一种车载音箱，该车载音箱包括车载音箱本体和如前述实施例所述的车载语音识别装置，车载语音识别装置设置在车载音箱本体上。

基于同一发明构思，本发明实施例还提供一种车载语音识别系统，包括至少一个如前述实施例所述车载语音识别装置，其中，车载语音识别装置设置于乘坐空间内用户乘坐区域处。

具体来讲，用户乘坐区域包括主驾驶位区域、副驾驶位区域和后排乘客位区域中的至少一个区域。其中，主驾驶位区域包括靠近主驾驶位的车门、主驾驶位出风口、仪表盘区域、方向盘和靠近主驾驶位的中控区域，副驾驶位区域包括靠近副驾驶位的车门、靠近副驾驶位的中控区域和副驾驶位出风口，后排乘客位区域包括主驾驶位的椅背、副驾驶位的椅背、后排出风口和后排乘客位的车门。从而，至少一个车载语音识别装置可以设置于任意上述位置。

下面本发明实施例将提供一具体示例对车载语音识别系统进行详细说明。

将一个车载语音识别装置1设置于主驾驶位区域，具体地，可以将车载语音识别装置1设置在靠近主驾驶位的中控区域，如图3所示，从而，当车载语音识别装置1中的图像采集单元采集到主驾驶位的用户的人脸图像时，基于人脸图像判断主驾驶位的用户的嘴部是否发生变化，如果主驾驶位的用户的嘴部发生变化，则表明存在语音控制操作，从而车载语音识别装置1中的音频采集单元采集音频数据，并从音频数据中提取出语音控制指令，进而根据语音控制指令对车辆进行相应控制。

本发明实施例的车载语音识别系统通过定向设置车载语音识别装置实现了定向进行语音控制的技术效果，例如，若希望主驾驶位的用户具有语音控制主导权，则将车载语音识别装置设置在主驾驶位区域，若希望所有用户乘坐的区域都具有语音控制权，则将车载语音识别装置分别设置在各个用户乘坐区域。

基于同一发明构思，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述实施例所述的方法步骤。

总之，根据本发明的车载语音识别方法及装置，通过先采集车辆乘坐空间内的用户的人脸图像，接着根据人脸图像判断是否存在语音控制操作，当存在语音控制操作时再采集乘坐空间内的音频数据，并从音频数据中提取出语音控制指令，进而根据语音控制指令对车辆进行相应控制，能够有效地避免用户未进行语音控制操作而环境音中包含语音控制指令时的误操作，提高了语音控制的准确率。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

A1、一种车载语音识别方法，其特征在于，所述方法包括：

采集位于车辆乘坐空间内的用户的人脸图像；

从所述音频数据中提取出语音控制指令；

根据所述语音控制指令对所述车辆进行相应控制。

A2、根据1所述的车载语音识别方法，其特征在于，所述基于所述人脸图像判断是否存在来自所述用户的语音控制操作，包括：

基于所述人脸图像判断所述用户的嘴部是否发生变化；

A3、根据A1所述的车载语音识别方法，其特征在于，当采集到多个人脸图像时，在所述采集位于车辆乘坐空间内的用户的人脸图像之后，且在所述基于所述人脸图像判断是否存在来自所述用户的语音控制操作之前，所述方法还包括：

A4、根据A3所述的车载语音识别方法，其特征在于，所述目标用户为预设用户或距离用于采集所述人脸图像的图像采集单元最近的用户。

A5、根据A1所述的车载语音识别方法，其特征在于，所述采集所述乘坐空间内的音频数据，包括：

A6、根据A5所述的车载语音识别方法，其特征在于，当采集到来自多个拾音器的多路所述音频数据时，所述方法还包括：

从所述目标音频数据中提取出目标语音控制指令；

根据所述目标语音控制指令对所述车辆进行相应控制。

A7、根据A1所述的车载语音识别方法，其特征在于，所述从所述音频数据中提取出语音控制指令，包括：

对所述音频数据进行降噪处理；

B8、一种车载语音识别装置，其特征在于，设置于车辆的乘坐空间内，所述车载语音识别装置包括图像采集单元、图像分析单元、音频采集单元和处理单元；

B9、根据B8所述的车载语音识别装置，其特征在于，所述图像分析单元具体用于：

基于所述人脸图像判断所述用户的嘴部是否发生变化；

B10、根据B8所述的车载语音识别装置，其特征在于，当采集到多个人脸图像时，所述装置还包括：

B11、根据B10所述的车载语音识别装置，其特征在于，所述目标用户为预设用户或距离用于采集所述人脸图像的图像采集单元最近的用户。

B12、根据B8所述的车载语音识别装置，其特征在于，当采集到多路所述音频数据时，所述装置还包括：

音频数据确定单元，用于从多路所述音频数据中确定出音频能量最大的音频数据为目标音频数据：

B13、根据B8所述的车载语音识别装置，其特征在于，所述处理单元包括：

降噪子单元，用于对所述音频数据进行降噪处理；

B14、根据B8所述的车载语音识别装置，其特征在于，所述音频采集单元为麦克风或拾音器。

C15、一种行车记录仪，其特征在于，包括行车记录仪本体和根据B8-B14中任一项所述的车载语音识别装置；

所述车载语音识别装置设置在所述行车记录仪本体上。

D16、一种车载音箱，其特征在于，包括车载音箱本体和根据B8-B14中任一项所述的车载语音识别装置；

所述车载语音识别装置设置在所述车载音箱本体上。

E17、一种车载语音识别系统，其特征在于，包括至少一个根据B8-B14中任一项所述的车载语音识别装置；

E18、根据E17所述的车载语音识别系统，其特征在于，所述用户乘坐区域包括主驾驶位区域、副驾驶位区域和后排乘客位区域中的至少一个区域。

F19、一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现根据A1-A7中任一权项所述的方法步骤。

Claims

1.一种车载语音识别方法，其特征在于，所述方法包括：

采集位于车辆乘坐空间内的用户的人脸图像；

从所述音频数据中提取出语音控制指令；

根据所述语音控制指令对所述车辆进行相应控制。

2.如权利要求1所述的车载语音识别方法，其特征在于，所述基于所述人脸图像判断是否存在来自所述用户的语音控制操作，包括：

基于所述人脸图像判断所述用户的嘴部是否发生变化；

3.如权利要求1所述的车载语音识别方法，其特征在于，当采集到多个人脸图像时，在所述采集位于车辆乘坐空间内的用户的人脸图像之后，且在所述基于所述人脸图像判断是否存在来自所述用户的语音控制操作之前，所述方法还包括：

4.如权利要求3所述的车载语音识别方法，其特征在于，所述目标用户为预设用户或距离用于采集所述人脸图像的图像采集单元最近的用户。

5.如权利要求1所述的车载语音识别方法，其特征在于，所述采集所述乘坐空间内的音频数据，包括：

6.一种车载语音识别装置，其特征在于，设置于车辆的乘坐空间内，所述车载语音识别装置包括图像采集单元、图像分析单元、音频采集单元和处理单元；

所述音频采集单元用于当存在所述语音控制操作时，采集所述乘坐空间内的音频数据∶

7.一种行车记录仪，其特征在于，包括行车记录仪本体和如权利要求6所述的车载语音识别装置；

所述车载语音识别装置设置在所述行车记录仪本体上。

8.一种车载音箱，其特征在于，包括车载音箱本体和如权利要求6所述的车载语音识别装置；

所述车载语音识别装置设置在所述车载音箱本体上。

9.一种车载语音识别系统，其特征在于，包括至少一个如权利要求6所述的车载语音识别装置；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一权项所述的方法步骤。