CN110021298A

CN110021298A - 一种汽车语音控制系统

Info

Publication number: CN110021298A
Application number: CN201910330309.XA
Authority: CN
Inventors: 张家文
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-07-16

Abstract

本发明实施例提供了一种汽车语音控制系统，包括：分布于车内的多个声音采集设备、与多个声音采集设备连接的DSP、与DSP连接的SoC以及与SoC连接的MCU；多个声音采集设备采集多路模拟语音信号；DSP将所述多路模拟语音信号转换为多路数字语音信号；SoC识别多路数字语音信号对应的语音指令，并确定语音指令对应的声源位置，以及根据语音指令和对应的声源位置确定匹配的目标执行机构，并生成针对目标执行机构的控制指令；MCU将所述控制指令，发送至目标执行机构，标执行机构按照控制指令执行相应操作。本发明实施例的汽车语音控制可以响应车内每个人员的语音指令，单独控制某个执行机构，而不对其他人员造成影响，提高车内各个人员的舒适度。

Description

一种汽车语音控制系统

技术领域

本发明涉及汽车技术领域，特别是涉及一种汽车语音控制系统。

背景技术

随着汽车电子化的发展，汽车上设置了很多电子设备，例如，音频设备空调，车窗等作为车辆重要组成部分，提高了驾驶员及乘客的舒适性。

一般电子设备的操作台仅设置在车辆前排，只能由前排人员调节，其他位置的人员无法调节。

为使得各个位置的人员都能控制车上的电子设备，一些汽车增设了语音控制系统，语音控制系统识别人员发出的语音指令，并响应语音指令控制电子设备。例如，乘客可以发出开车窗、降低空调温度、提高音量等语音指令，语音控制系统则控制车窗打开，控制空调降低温度，控制音响提高音量等操作。

车辆驾驶员及乘客分布在车辆不同位置，且每个人对于如音量大小，温度等有不同的需求。但是，目前的语音控制系统在响应语音指令时，对各个电子设备同时进行控制，会对不想调整的人员带来影响，降低人员的舒适性。例如，若一乘客想降低空调温度，则会对不想调整空调的其他乘客造成影响。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种汽车语音控制系统。

为了解决上述问题，本发明实施例公开了一种汽车语音控制系统，包括：

分布于车内的多个声音采集设备、与所述多个声音采集设备连接的数字信号处理器DSP、与所述DSP连接的系统级芯片SoC以及与所述SoC连接的微控制器MCU；

所述多个声音采集设备，用于采集多路模拟语音信号；

所述DSP，用于将所述多路模拟语音信号转换为多路数字语音信号；

所述SoC，用于识别所述多路数字语音信号对应的语音指令，并确定所述语音指令对应的声源位置，以及根据所述语音指令和所述对应的声源位置确定匹配的目标执行机构，并生成针对所述目标执行机构的控制指令；

所述MCU，用于将所述控制指令，发送至所述目标执行机构，所述目标执行机构用于按照所述控制指令执行相应操作。

可选地，所述SoC包括：

声源定位模块，用于根据所述多路数字语音信号确定声源位置；

语音识别模块，用于识别所述多路数字语音信号对应的语音指令；

声源位置匹配模块，用于从所述声源位置中，确定与所述语音指令对应的声源位置；

目标执行机构确定模块，用于确定与所述语音指令和所述对应的声源位置，匹配的目标执行机构；

指令生成模块，用于根据所述语音指令生成针对所述目标执行机构的控制指令。

可选地，所述声源定位模块包括：

时延确定子模块，用于确定每两路数字语音信号之间的时延值；

声源定位子模块，用于采用预置的所述多个声音采集设备的位置，以及所述每两路数字语音信号之间的时延值，确定声源位置。

可选地，所述语音识别模块包括：

判断识别子模块，用于判断所述多路数字语音信号对应的语音内容是否包含预设唤醒词；若是，则识别所述多路数字语音信号对应的语音指令。

可选地，所述语音识别模块具有语音库；所述语音库包括预设语音指令；

所述语音识别模块，用于识别所述多路数字语音信号对应的语音内容中，与所述语音库中的预设语音指令匹配的语音指令。

可选地，还包括与所述SoC连接的无线通信模块；

所述语音识别模块包括：

语音发送子模块，用于通过所述无线通信模块将所述多路数字语音信号发送到云端服务器；

语音接收子模块，用于通过所述无线通信模块接收由所述云端服务器针对所述多路数字语音信号识别得到的语音指令。

可选地，还包括多个放大器，每个所述放大器与一个所述声音采集设备和所述DSP连接。

可选地，所述MCU与汽车的控制器局域网络CAN收发器连接，所述CAN收发器与汽车的CAN总线接口连接；

所述MCU，用于向所述CAN收发器发送所述控制指令，通过所述CAN总线接口将所述控制指令发送到汽车的车身控制模块BCM，由所述BCM将所述控制指令发送到所述目标执行机构。

可选地，所述多个声音采集设备围绕汽车的座位设置。

本发明实施例包括以下优点：

本发明实施例中，SoC可以识别出多路数字语音信号对应的至少一个语音指令，并确定出每个语音指令对应的声源位置。SoC可以根据语音指令和声音位置确定匹配的目标执行机构，生成针对目标执行机构的控制指令；由MCU将控制指令发送到目标执行机构，目标执行机构按照控制指令执行相应操作。本发明实施例的汽车语音控制可以响应车内每个人员的语音指令，单独控制某个执行机构，而不对其他人员造成影响，提高车内各个人员的舒适度。

附图说明

图1是本发明的一种汽车语音控制系统实施例的结构框图；

图2是本发明实施例中在车内设置声音采集设备的示意图；

图3是本发明实施例中一种汽车语音控制系统的结构框图

图4是计算时延值的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种汽车语音控制系统实施例的结构框图，具体可以包括：

分布于车内的多个声音采集设备10、与所述个路声音采集设备连接的数字信号处理器DSP(Digital Singnal Processor)11、与所述DSP11连接的系统级芯片SoC(System onChip)12以及与所述SoC12连接的微控制器MCU(Microcontroller Unit)13；

所述多个声音采集设备10，用于采集多路模拟语音信号；

所述DSP11，用于将所述多路模拟语音信号转换为多路数字语音信号；

所述SoC12，用于识别所述多路数字语音信号对应的语音指令，并确定所述语音指令对应的声源位置，以及根据所述语音指令和所述对应的声源位置确定匹配的目标执行机构，并生成针对所述目标执行机构的控制指令；

所述MCU13，用于将所述控制指令，发送至所述目标执行机构，所述目标执行机构用于按照所述控制指令执行相应操作。

在本发明实施例中，SoC12可以识别出多路数字语音信号对应的至少一个语音指令，并确定出每个语音指令对应的声源位置。例如，若有车内同时有两个人发出语音指令，SoC12可以识别出两个语音指令，并且确定各个对应的声源位置。例如，确定一个语音指令是左前座位的人员发出的，确定另一个语音指令是右后座位的人员发出的。

执行机构可以是控制车上电子设备的机构(例如，控制车窗打开的机构)，也可以是电子设备本身(例如，音响系统)。

在本发明实施例中，在车内某个人员想通过语音指令控制某个电子设备时，为了避免电子设备的调整对整车人员造成影响，SoC12可以根据语音指令和声音位置确定匹配的目标执行机构。例如，若左前座位的人员说出调低空调的语音指令，SoC12确定左前座位的空调为目标执行机构。又例如，右后座位的人员说出打开车窗的语音指令，SoC12确定右后方负责车窗开合的机构为目标执行机构。

SoC12在确定目标执行机构之后，生成针对目标执行机构的控制指令，该控制指令可以开发人员自定义。SoC12将控制指令发送给MCU13，MCU13在接收到控制指令后，需要将控制指令转换为适配汽车CAN总线协议的控制指令，然后将控制指令发送到CAN总线，通过CAN总线传输到目标执行机构。

本发明实施例中，SoC12可以识别出多路数字语音信号对应的至少一个语音指令，并确定出每个语音指令对应的声源位置。SoC12可以根据语音指令和声音位置确定匹配的目标执行机构，生成针对目标执行机构的控制指令；由MCU13将控制指令发送到目标执行机构，目标执行机构按照控制指令执行相应操作。本发明实施例的汽车语音控制可以响应车内每个人员的语音指令，单独控制某个执行机构，而不对其他人员造成影响，提高车内各个人员的舒适度。

在本发明实施例中，所述多个声音采集设备10可以围绕汽车的各个座位设置，每个声音采集设备10都可以设置在接近座位的位置，从而更清楚的接收车内人员(包括驾驶员和乘客)的声音，减少噪声影响。

声音采集设备10可以为麦克风，多个麦克风分布在车内不同的位置组成麦克风阵列，通过麦克风阵列采集语音，可以更精准的定位声源位置。

若需要确定声源的二维坐标，至少需要设置三个麦克风；若要确定声源的三维坐标，至少需要设置四个麦克风，且这个四个麦克风不能位于同一直线上。所使用麦克风越多，声源定位精度越高。

在本发明实施例中，声音采集设备10的数量和位置可以根据车型来设置，不同的车型可以选用不同数量的声音采集设备10，并分别设置在不同的位置。例如，对于有两排座位的车型，可以分别在车内的左前、右前、左后、右后设置声音采集设备10。对于有三排座位的车型，可以分别在车内的左前、右前、左中、右中、左后、右后设置声音采集设备10。在实际中，还可以选用其他的布置方式，本发明实施例不限于此。

参照图2所示为本发明实施例中在车内设置声音采集设备的示意图，在两排座位的车型，分别在车内的左前、右前、左中、右中、左后、右后设置有6个声音采集设备10。

参照图3所示为本发明实施例中一种汽车语音控制系统的结构框图。在本发明实施例中，汽车语音控制系统还可以包括：多个放大器14，每个所述放大器14与一个所述声音采集设备10和所述DSP11连接。

放大器14对声音采集设备采集模拟语音信号进行放大，DSP11分别对每个放大器14放大后的模拟语音信号进行采样，得到多路数字语音信号，DSP11将多路数字语音信号发送给SoC12。

在本发明实施例中，SoC12可以包括：

在本发明实施例的一种示例中，声源定位模块可以通过判断各路数字语音信号的幅值来确定声源方向。具体的，可以将幅值最大数字语音信号对应的麦克风的方向，确定为声源方向。例如，若左后声源麦克风幅值最大，即判定为左后排乘客发出语音。这种方式仅能判定出乘客大致位置，不能做到厘米级别的定位。

在本发明实施例的另一种示例中，可以通过时延值和三维坐标，确定声源位置。声源定位模块可以进一步包括：

具体的，可以通过算法来对多路数字语音信号之间的时延值进行计算，最后通过构建几何关系来估计声源的位置。该方法能建立声源模型，能到达厘米级别的定位能力，并且能够给分区主动降噪等提供数据支持。

对于数字语音信号的时延估计，可以通过选择两路数字语音信号互相关曲线的最高峰来估计时延值。

参照图4所示为计算时延值的示意图。令s(t)表示源语音信号，x1(t)和x2(t)表示两路数字语音信号，由声场模型可得：

x1(t)＝a1*s(t-τ1)

x2(t)＝a2*s(t-τ2)

其中，τ1和τ2是信号从声源处传播到两个麦克风的传播时间。

在计算得到每两路数字语音信号之间的时延值后，可以根据麦克风的位置来构建三维几何关系：

假设有n路麦克风，则共有(n-1)*n/2种相互组合，且能得到相互间的时延值，根据声源传播速度可得到各声源距离差。

假设声源到达麦克风i和到达麦克风j的距离差为：

Di,j＝Di-Dt＝c*Li,j

其中Li,j表示语音信号到达麦克风i和麦克风j间的时延值，c为声速。

由声源到各个麦克风时延差，以及麦克风三维坐标，可根据公式建立坐标矩阵，即可求解出声源三维坐标。

在本发明实施例中，语音识别模块可以识别数字语音信号的语音内容，并确定语音内容中是否包含语音指令。

具体的，语音识别模块可以采用语音识别模型进行语音识别，语音识别模型包括但不限于深度神经网络、卷积神经网络、双向神经网络、残差神经网络等。

在一种示例中，可以通过语音识别模型，对所述数字语音数据进行增强，然后对语音增强后的数据进行识别，得到对应的语音识别文本，然后语音识别模块判断文本中是否具有语音指令。

在另一种示例中，可以通过语音识别模块，直接判断数字语音信号对应的指令。

在本发明实施例的一种示例中，语音识别模块可以包括：

判断识别子模块，用于判断所述多路数字语音信号对应的语音内容是否包含预设唤醒词；若多路数字语音信号对应的语音内容包含预设唤醒词，则识别所述多路数字语音信号对应的语音指令；若多路数字语音信号对应的语音内容不包含预设唤醒词，则不进行语音指令的识别处理。

具体的，可以在确定车内人员说出预设唤醒词后，才进行语音指令识别。

例如，若用户说出“HI，汽车管家，请打开窗户”。识别到“汽车管家”为预设唤醒词之后，进一步识别语音中的语音指令“打开窗户”。

在本发明实施例的一种示例中，所述语音识别模块具有语音库；所述语音库包括预设语音指令；

在该示例中，只对数字语音信号对应的语音内容与预设语音指令匹配的语音指令进行响应，若数字语音信号对应的语音内容中包含不是预设语音指令的语音指令，则不对这些指令进行响应。

例如，语音库的预设语音指令包括：“打开车窗、调低空调温度、打开音量”，数字语音信号对应的语音内容为“请播放电影”，但由于“请播放电影”与预设语音指令不匹配，因此不执行响应操作。

在本发明实施例另一示例中，汽车语音控制系统还可以包括：与所述SoC12连接的无线通信模块；其中，无线通信模块可以是车载系统本身的无线通信模块，也可以是额外增加的无线通信模块。

所述语音识别模块可以包括：

在该示例中，语音识别功能可以交由云端服务器实现。

如图3所示，所述MCU13与汽车的控制器局域网络CAN(Controller Area Network)收发器20连接，所述CAN收发器20与汽车的CAN总线接口21连接；

所述MCU13，用于向所述CAN收发器20发送所述控制指令，通过所述CAN总线接口21将所述控制指令发送到汽车的车身控制模块BCM，由所述BCM将所述控制指令发送到所述目标执行机构。

CAN总线接口21与CAN总线连接，CAN总线将控制指令发送到BCM，BCM将控制指令发送给目标执行机构。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种汽车语音控制系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种汽车语音控制系统，其特征在于，包括：

所述多个声音采集设备，用于采集多路模拟语音信号；

2.根据权利要求1所述的系统，其特征在于，所述SoC包括：

3.根据权利要求2所述的系统，其特征在于，所述声源定位模块包括：

4.根据权利要求2所述的系统，其特征在于，所述语音识别模块包括：

5.根据权利要求2所述的系统，其特征在于，所述语音识别模块具有语音库；所述语音库包括预设语音指令；

6.根据权利要求2所述的系统，其特征在于，还包括与所述SoC连接的无线通信模块；

所述语音识别模块包括：

7.根据权利要求1所述的系统，其特征在于，还包括多个放大器，每个所述放大器与一个所述声音采集设备和所述DSP连接。

8.根据权利要求1所述的系统，其特征在于，所述MCU与汽车的控制器局域网络CAN收发器连接，所述CAN收发器与汽车的CAN总线接口连接；

9.根据权利要求1所述的系统，其特征在于，所述多个声音采集设备围绕汽车的座位设置。