CN109087631A

CN109087631A - 一种适于复杂环境的车辆智能语音控制系统及其构建方法

Info

Publication number: CN109087631A
Application number: CN201810896505.9A
Authority: CN
Inventors: 雷鹏; 陈美玲; 王俊; 关振宇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2018-12-25

Abstract

一种适于复杂环境的车辆智能语音控制系统及其构建方法，该控制系统包括音频输入输出单元、信号预处理单元、信号去噪单元、信号盲源分离单元、信号分类单元、语音关键词识别单元、数据分析单元和功能执行单元，它们之间彼此相互连接。本发明的优点：1)采用小波阈值去噪去除复杂的噪声，能够自适应的选择最优小波基，能够根据噪声的变化选择阈值的大小；2)引入欠定盲源分离方法，可将语音指令从包含众多干扰的混合音频中分离出来，提高了对语音指令的识别率；3)系统仅使用二元麦克风作为音频输入端，节约了成本；4)所有接口均采用通用接口标准，兼容性强，便于应用于各种车辆平台。

Description

一种适于复杂环境的车辆智能语音控制系统及其构建方法

技术领域

本发明为一种适于复杂环境的车辆智能语音控制系统及其构建方法，它采用基于小波阈值去噪和盲源分离的语音增强技术，并结合自动语音关键词识别技术，实现复杂车载环境中语音指令的准确识别，提高车辆智能化和行车安全性，属于数字信号处理领域。

背景技术

智能驾驶是通过人工智能辅助或者代替人进行汽车驾驶的行为，它可以弥补人类驾驶员存在的缺陷，使驾驶操作更加便捷和安全。随着传感器与人工智能技术的迅速发展，智能驾驶已在汽车工业、信息技术和互联网等领域引起了广泛关注，与之相关的技术和产业如雨后春笋般涌现。

作为人车交互的重要途径之一，车辆智能语音控制系统是该复杂智能交通平台的重要组成部分，其通过接收、处理和识别驾驶者的语音指令，实现对车辆行驶状态或其他车载系统的控制，并将必要信息进行实时反馈。基于语音控制的智能驾驶辅助系统可以解放驾驶人的双手、实现非接触条件下的驾驶操作、导航及娱乐设备控制等功能。同时，与基于视频图像的控制系统相比，语音交互方式可以减轻驾驶员的认知负荷，更有利于保持其视觉注意力的集中，降低安全风险。

自动语音识别技术在过去几十年里蓬勃发展，并随着深度学习技术的应用取得了更加显著的成就。关键词识别技术是语音识别技术的重要分支，其通过从语音流中准确识别包含的关键词，来实现如机器人交互、特殊语言筛选和车内语音命令识别等功能。近年来现有的语音识别技术仅在较低环境噪声的情况下能够取得较好的识别效果，但是真实的车载环境极其复杂，除了胎噪、风噪和发动机噪声等之外，还包含外界干扰如汽车行驶时道路周边的干扰以及车内干扰如车内多媒体的播放、除驾驶员之外的人员的交谈声等，这些噪声和干扰均会降低车载语音控制系统的语音输出质量和语音识别率，从而降低设备的性能，干扰驾驶员的驾驶。

传统的基于麦克风阵列的解决方法在声源数量较少和声源的到达方向(Directions of Arrivals，DOA)确定的情况下可以取得较好的效果，但是随着声源数量的增加，麦克风的数量也随之增加，这样既增加了系统和信号处理的复杂性也提高了系统的成本，并且在车载环境中并不是每次都确知声源的DOA，这样就使得系统缺乏灵活性。

盲源分离是一种从混合信号中恢复出源信号的方法，其不需要提前知道源信号的方向和混合信道等先验知识，只根据对源信号的统计性假设取得混合信号的分离。然而该算法只适用于无噪声的理想情况，噪声的存在会使信号分离效果不佳。小波去噪利用小波分析的多分辨率特性，结合阈值去噪方法，在较大程度去噪的同时，减少对信号的损失，可以达到较好的去噪效果，适用于复杂车载环境中语音信号的去噪问题。

针对上面提到的情况以及实际应用需求，本发明提出了一种基于盲源分离、小波去噪和自动关键词识别技术的车辆智能语音控制系统，可以实现复杂车载环境中的语音信号去噪、分离和关键词识别。该系统首先应用小波阈值去噪方法，去除音频收发设备接收到的混合信号中的胎噪、风噪和发动机噪声等，实现初步的信号去噪处理。然后采用盲源分离相关的方法，将初步去噪后的混合信号进行分离，得到驾驶员的语音命令、其他人员的交谈声和车载多媒体播放的声音等信号，再将以上分离后的信号进行分类，获取驾驶员的语音命令。最后通过语音关键词识别技术对该语音命令进行识别，根据识别的内容启用相应的功能模块，使汽车系统依据驾驶员的命令做出反应。该系统综合运用了小波去噪、盲源分离和语音关键词识别三种方法，在对含噪声的混合信号进行去噪、分离和识别的同时，使用较少数量的麦克风，降低系统的成本，还能提高系统的语音识别率，减少因噪声和干扰对语音控制系统性能的影响，降低安全风险。

发明内容

本发明目的在于提供一种适于复杂环境的车辆智能语音控制系统及其构建方法，它是一种结合小波去噪、盲源分离和语音关键词识别技术的车载智能语音控制系统的设计方法。其采用小波去噪和盲源分离方法对复杂环境下的车载语音设备接收的混合信号进行去噪和分离，一方面可以减少接收麦克风的数量，降低系统成本，另一方面，在进行信号去噪的同时，还能够将有用信号和干扰信号进行分离，提高后续系统的语音识别率。该系统还结合语音分类和关键词识别技术，准确获取驾驶员的语音命令进行识别，进而执行相应的功能，提高了该语音控制系统的性能，有效辅助驾驶员的驾驶行为，降低安全风险。

本发明一种适于复杂环境的车辆智能语音控制系统，它包括音频输入输出单元、信号预处理单元、信号去噪单元、信号盲源分离单元、信号分类单元、语音关键词识别单元、数据分析单元和功能执行单元，它们之间彼此相互连接。

所述音频输入输出单元，它与信号预处理单元和功能执行单元相连接，通过二元车载麦克风阵列将语音流输入系统，并将功能执行单元分析处理后的反馈语音输出，完成与驾驶员之间的交互。

所述信号预处理单元，它与音频输入输出单元和信号去噪单元相连接，负责对从音频接口输入的混合音频信号进行语音活动检测预处理，定位语音信号的起始位置和结束位置，存储经语音活动检测后获得的混合语音信号片段，并将混合音频信号的非语音片段噪声进行单独存储，为后续的语音信号处理做好相应的信息准备。

所述信号去噪单元，它与信号预处理单元和信号盲源分离单元相连接，完成预处理后的混合语音信号的去噪。该单元采用自适应小波阈值去噪方法，结合存储的非语音片段噪声不断调整阈值的大小，对混合语音信号片段进行初步去噪，去除信号中包含的胎噪、风噪和发动机噪声等，为后续的干扰信号分离提供较为纯净的混合语音信号。

所述信号盲源分离单元，它与信号去噪单元和信号分类单元相连接，负责对信号去噪单元处理后的较为纯净的混合语音信号进行盲源分离，即将混合信号中的语音指令、多媒体播放的声音和道路周围的干扰等信号进行分离，并将分离后的信号输送到后续处理单元进行处理。

所述信号分类单元，它与信号盲源分离单元和语音关键词识别单元相连接，负责对信号盲源分离单元输出的信号进行分类，辨别其为语音信号或非语音信号，并去除除语音指令信号之外的其他信号。该单元采用基于最小距离的音频分类方法，获取驾驶员的语音指令信号，为后续的语音识别和分析做准备。

所述语音关键词识别单元，它与信号分类单元和数据分析单元相连接，负责对信号分类单元得到的语音指令信号进行关键词识别。该语音关键词识别单元采用经训练好的卷积神经网络(Convolution Neural Network，CNN)语音关键词识别模型，对语音指令信号中的关键词进行识别，并将识别的结果传输到数据分析单元进行相关处理。

所述数据分析单元，它与语音关键词识别单元、功能执行单元和音频输入输出单元相连接。该单元对语音信号识别的关键词进行分析，并和预先设定在该单元的功能指令关键词进行相关性计算，若与预先设置的功能指令相关，则将信息传输到功能执行单元，若未发现相关的功能指令，则将反馈信息传输到音频输入输出单元，提醒驾驶员重新输入语音指令信号。

所述功能执行单元，它与数据分析单元相连接，通过对从数据分析单元获得的功能指令信息按照通信协议进行编码，将编码后的数据通过汽车总线传输至相应的功能区，从而执行相关的功能，实现语音命令对汽车的智能化控制。

本发明所提一种适于复杂环境的车辆智能语音控制系统，其工况概述如下：

车辆启动后，车载麦克风接收车厢内的音频信号，然后系统对输入的混合音频进行语音活动检测处理，判断有无语音输入。若检测到语音信号的输入，则定位语音信号的起始端和结束端，然后将该段信号进行储存，并记录非语音片段的噪声。接着对存储的信号进行小波阈值去噪，初步去除混合语音信号中的噪声，之后对混合信号进行盲源分离处理，将语音指令和其他干扰信号进行分离。分离后的信号经过分类得到驾驶员的语音指令，后续的单元将对语音指令进行关键词识别，并分析识别后的结果，将信息反馈给功能执行单元或音频输入输出端，实现与语音指令相关的操作或者与驾驶员进行交互。系统流程图如图2所示。

本发明一种适于复杂环境的车辆智能语音控制系统的构建方法，包括下述几个步骤：

步骤一：接收混合音频信号并进行A/D转换

通过车载麦克风阵列接收混合音频，麦克风内嵌A/D转换器将接收的音频信号转换为数字信号，即混合音频信号。

步骤二：判断有无语音信号并构成通信数据帧

对步骤一输出的混合音频信号进行语音活动检测，检测语音信号的有无，若有语音信号输入则定位信号的起点和终点，之后将包含语音的混合音频信号片段及其之间的非语音噪声片段存储到数据缓存区，每隔80～120ms从数据缓存中读取数据，若有数据存入缓存区则按照数据协议封装成通信数据帧。

步骤三：最优小波基的选择和混合音频信号的自适应小波阈值去噪

读取步骤二封装的通信数据帧中的混合音频数据，针对其中包含的胎噪、风噪、发动机噪声、汽车行驶噪声和汽车鸣笛声，进行小波阈值去噪，通过计算小波基与混合音频信号片段的相关系数选择最优小波基，并通过非语音噪声片段的变化自适应的调整阈值的大小，完成信号的初步去噪过程。

步骤四：混合音频信号的盲源分离

步骤三去噪后的信号传输至信号盲源分离单元，采用基于稀疏分量分析的欠定盲源分离算法，估计出混合矩阵，再根据混合矩阵恢复出车内的各个声源信号。

步骤五：音频信号分类

采用基于最小距离的音频分类方法，对步骤四得到的各个声源信号进行分类，获得其中的语音指令信号，并将语音指令信号传输至语音关键词识别单元。

步骤六：语音指令识别

采用基于CNN的关键词识别方法，对从步骤五接收的语音流进行关键词识别，将识别的结果传输至数据分析单元。

步骤七：语音指令识别

将步骤六得到的关键词识别的结果与预先设定在数据分析单元的功能指令进行相关性计算，并与设定的阈值进行比较，若超过某一指令的阈值，则将该功能指令信息传输至功能执行单元，若未发现相关的功能，则将反馈信息传输至音频输入输出单元，经D/A转换后输出系统，提醒驾驶员重新输入语音指令。

步骤八：语音指令功能实现

对接收到的数据分析单元信号，按照通信协议进行编码，通过汽车总线传输至功能区，执行相应功能，并将结果反馈到音频输入输出单元。

优点及功效：本发明一种适于复杂环境的车辆智能语音控制系统及其构建方法，实现了复杂车载环境中语音指令的准确识别，主要具有以下优点：

1)采用小波阈值去噪去除复杂的噪声，能够自适应的选择最优小波基，能够根据噪声的变化选择阈值的大小；

2)引入欠定盲源分离方法，可将语音指令从包含众多干扰的混合音频中分离出来，提高了对语音指令的识别率；

3)系统仅使用二元麦克风作为音频输入端，节约了成本；

4)所有接口均采用通用接口标准，兼容性强，便于应用于各种车辆平台。

可见，结合小波阈值去噪和盲源分离方法的车辆智能语音控制系统，一方面能够提高语音识别率和行车安全，另一方面在系统结构上采用通用化设计，可与各种车辆平台相兼容。因此该系统在智能驾驶汽车中具有较高的应用价值。

附图说明

图1是系统结构图。

图2是系统流程图。

图3是接收混合音频信号并进行A/D转换原理图。

图4是判断有无语音信号并构成通信数据帧原理图。

图5是最优小波基的选择和混合音频的自适应小波阈值去噪原理图。

图6是混合音频的盲源分离原理图。

图7是音频信号分类原理图。

图8是语音指令识别原理图。

图9是语音识别结果分析原理图。

图10是语音指令功能实现原理图。

图中符号说明如下：

A/D 模/数转换； D/A 数/模转换； CNN 卷积神经网络； CAN 控制器局域网络。

具体实施方式

见图1—图10，本发明提出一种适于复杂环境的车辆智能语音控制系统，包括：音频输入输出单元、信号预处理单元、信号去噪单元、信号盲源分离单元、信号分类单元、语音关键词识别单元、数据分析单元和功能执行单元。它们之间彼此相互连接。

所述音频输入输出单元，通过音频输入传感器——二元麦克风阵列将声音流输入系统，并通过麦克风内嵌的A/D转换器将音频信号转换为数字信号。

所述信号预处理单元，通过语音活动检测方法检测输入音频中是否包含语音信号，并定位语音信号的起始位置和结束位置，然后将包含语音的混合音频信号片段按照协议封装成通信数据帧。

所述信号去噪单元，负责对预处理后的混合音频信号进行小波阈值去噪，即根据信号的特性和噪声的变化自适应得到选择最优小波基和调整阈值的大小，然后使用这些小波基和阈值对混合信号进去噪。

所示信号盲源分离单元，负责对去噪后的混合音频信号进行盲源分离，即采用基于稀疏分量分析的欠定盲源分离方法估计出混合矩阵，然后对混合音频信号进行分离。

所述信号分类单元，负责对盲源分离得到的信号进行分类，以获取驾驶员的语音指令信号，即采用基于最小距离的音频分类方法，分类得到语音指令信号，并将其传输至语音关键词识别单元。

所述语音关键词识别单元，将信号分类单元传输至的语音指令信号流的关键词识别，即采用基于CNN的关键词识别方法，对语音指令信号进行关键词识别，并将识别的语音指令结果传输至数据分析单元。

所述数据分析单元，负责对关键词识别的结果进行分析，匹配其所对应的功能或者反馈错误信息，即将关键词识别结果与系统预设的功能关键词进行相关性计算，并与各功能设定的阈值进行比较，若超过设定的阈值则将该功能指令信息传输至功能执行单元，否则反馈错误信息。

所述功能执行单元，负责执行与语音指令相关的功能，即通过将接收的数据分析单元的指令进行编码，然后经汽车总线传输至相应的功能单元执行该功能，实现语音指令对汽车的智能化控制。

本发明提出一种适于复杂环境的车辆智能语音控制系统，如图1所示，工况概述如下：首先音频输入输出单元接收混合音频信号；经过信号预处理单元进行语音活动检测，将包含语音信号的混合音频按照数据协议封装成通信数据帧，传输至信号去噪单元；然后经过自适应小波阈值去噪，去除混合音频信号中的噪声；再经过盲源分离单元，对混合音频信号进行分离，得到语音指令信号及其他干扰信号；之后信号分类单元对分离后的信号进行处理，分类出语音指令信号；将语音指令信号传输至语音关键词识别单元进行关键词识别；然后数据分析单元对识别结果进行分析，若语音指令信号中包含系统预设的功能，则将信号传输至功能执行单元，否则将反馈信息传输至音频输入输出单元，提醒驾驶员重新输入指令；最后功能执行单元执行与语音指令信号相关的功能，辅助驾驶员驾驶。

本发明一种适于复杂环境的车辆智能语音控制系统的构建方法，它包括下述几个步骤：

步骤一：接收混合音频信号并进行A/D转换

车内的混合音频信号是车载智能语音控制系统的信号源，它包括驾驶员的语音指令；胎噪、风噪、发动机噪声、汽车行驶噪声和汽车鸣笛声；街道周围的声音干扰、其他汽车的行车干扰、车内的音乐广播声和其他乘客的交谈声等干扰声音，这些都将通过音频输入输出设备接收进入系统。其中，音频接收传感器为二元麦克风阵列，麦克风内嵌的A/D转换器可将获取的音频信号转化为可用于后续处理的数字信号。接收混合音频信号并进行A/D转换原理图如图3所示。

接收混合音频信号并进行A/D转换的方法是：通过车载麦克风阵列接收混合音频，麦克风内嵌A/D转换器将接收的音频信号转换为数字信号，即混合音频信号。

步骤二：判断有无语音信号并构成通信数据帧

由于本系统在复杂环境中使用，为提升系统的处理效率，判断有无语音信号尤为关键。语音活动检测的目的是检测输入信号是否为语音信号，并定位语音信号的起始位置和结束位置，避免系统对无语音区间(包括静音区间和背景噪声区间)进行处理。因此对输入的音频信号进行基于门限比较法的语音活动检测，提取混合语音信号的短时能量、短时过零率和短时自相关的特征参数，与设定的特定门限值进行比较，判断有无语音信号的输入，若有语音信号输入则检测语音信号的起点和终点，之后将包含语音的混合音频信号片段及其之间包含的非语音噪声片段存储到数据缓存区，记录语音及当时的环境噪声，为后续的处理准备数据。信号预处理单元通过标准数据接口与系统相连，对于一般人的语速而言，语句间的时间间隔在100ms左右，故为增强系统的适应性，每隔80～120ms从数据缓存区读取数据，若有数据存入缓存区，则将其封装成通信数据帧，在CAN总线中传输。判断有无语音信号并构成通信数据帧的原理图如图4所示。

判断有无语音信号并构成通信数据帧的方法是：对步骤一输出的混合音频信号进行语音活动检测，检测语音信号的有无，若有语音信号输入则定位信号的起点和终点，之后将包含语音的混合音频信号片段及其之间包含的非语音噪声片段存储到数据缓存区，每隔 80～120ms从数据缓存中读取数据，若有数据存入缓存区则按照数据协议封装成通信数据帧。

混合音频信号中的噪声会影响语音关键词识别的识别率，因此去噪对于提升本系统的性能有着重要的作用。该步骤主要针对混合音频信号中包含的胎噪、风噪、发动机噪声、汽车行驶噪声和汽车鸣笛声这些不规则噪声进行处理。小波阈值去噪首先对信号进行小波分解，然后对分解的系数进行阈值处理，最后对处理后的系数重构得到去噪后的信号。小波变换对混合信号进行分解后，能够使信号的能量在小波域集中于一些较大的小波系数中，而噪声系数较小且分布在整个小波域内，因此可以利用这一特性，对分解后的系数进行阈值处理，使得大部分的噪声系数减小为零，又能较大程度的保留信号系数，达到去噪效果。其中，小波阈值去噪的过程如下：

1)选择合适的小波基，对信号进行小波分解，得到分解后的小波系数；

2)选择合适的阈值和阈值函数，对分解得到的小波系数进行阈值处理；

3)对阈值处理后的小波系数进行重构，得到去噪后的信号。

小波基的选择对于去噪效果有重要的影响，对于给定的信号，最优小波基能够使声音信号的小波系数最大化，此外还能够更好地表征其特征频率分量，使小波去噪性能最优。通常与信号或其属性类似的小波基能产生更好的信号和噪声的分离效果，因此，通过计算信号与小波基的相关系数，选择最优小波基进行去噪，公式如下

r＝correlation(x,wavelet) (1)

其中，x为某一路混合音频信号，wavelet为小波基，使得r值最大的小波基即为最优小波基。

自适应小波阈值去噪根据噪声的变化自适应的改变阈值的大小，近似认为噪声在短时间内不变，则将记录的非语音片段处的信号作为该段时间的噪声，进行自适应阈值去噪。最优小波基的选择和混合音频的自适应小波阈值去噪如图5所示。

最优小波基的选择和混合音频的自适应小波阈值去噪过程为：读取步骤二封装的通信数据帧中的混合音频数据，针对其中包含的胎噪、风噪、发动机噪声、汽车行驶噪声和汽车鸣笛声，进行小波阈值去噪，通过计算小波基与混合音频信号片段的相关系数选择最优小波基，并通过非语音噪声片段的变化自适应的调整阈值的大小，完成信号的初步去噪过程。

步骤四：混合音频信号的盲源分离

由于汽车内存在着诸多干扰，如车内多媒体设备播放的音乐声、其他人的交谈声和道路周边的声音，仅通过信号去噪的方法很难将这些干扰和驾驶员的语音指令信号分开，因此盲源分离可以作为一种很好的解决方法。其是指在没有源信号和混合信道等先验知识的前提下，仅通过对源信号的一些统计性假设，从混合信号(观测信号)中恢复出源信号的过程，

具体过程如下。

假设有N个源信号，表示为s＝[s₁ s₂L s_N]^T，接收传感器(麦克风)的数目为M，则混合信号可表示为x＝[x₁ x₂L x_M]^T，则有

其中，A为源信号到接收传感器之间的冲激相应，为构建混合信号的混合矩阵。

盲源分离的目的是寻找分离矩阵W，使分离得到的信号为

y＝Wx＝WAs＝Ps (3)

其中，P为一置换矩阵，即每行每列中只有一个元素值等于1，其余均为0。该过程可以将混合信号分离开，便于后续的语音识别过程。

按照源信号和接收传感器的数目可以分为：欠定盲源分离、正定盲源分离和超定盲源分离，依次指的是源信号数目大于、等于和小于接收传感器的数目。

在真实的环境中，声源和接收传感器之间存在一定的距离，因此混合信号不再为源信号的线性混合方式，而是卷积混合，则此时第m路混合信号为

其中，a_mnd表示源n到接收传感器m的冲激响应，d为离散时间延迟。

为降低成本，本系统使用二元麦克风阵，故为欠定情形。本系统采用基于稀疏分量分析的欠定盲源分离算法，估计出混合矩阵，再由混合矩阵恢复出源信号，最终分别得到语音指令和其它各干扰信号。混合音频信号的盲源分离的原理图如图6所示。

混合音频信号的盲源分离方法过程为：步骤三去噪后的信号传输至信号盲源分离单元，采用基于稀疏分量分析的欠定盲源分离算法，估计出混合矩阵，再根据混合矩阵恢复出车内的各个声源信号。

步骤五：音频信号分类

经过盲源分离之后，各个信号都被分离开，包括驾驶员的语音指令信号、其他人的交谈声、车载多媒体播放的声音和道路周边的干扰声音。由于盲源分离存在排序不确定性，所以无法确定分离后的声音片段顺序。因此，为提高处理效率，本系统仅将语音指令信号输送到语音关键词识别单元去识别，所以需要对音频进行分类。

考虑计算复杂度与实时处理性能要求，本系统采用基于最小距离的音频分类方法，辨别语音指令，并将语音指令传输到下一处理单元。音频信号分类的原理图如图7所示。

音频信号分类方法过程为：采用基于最小距离的音频分类方法，对步骤四得到的各个声源信号进行分类，获得其中的语音指令信号，并将其传输至语音关键词识别单元。

步骤六：语音指令识别

关键词识别技术是语音识别中的一个重要研究领域，其可在连续的语音流中检测出给定的关键词。在语音识别中，声学模型的建立至关重要，影响着最终语音识别性能。当前建立声学模型的方法主要包括基于GMM-HMM(Gaussian Mixture Model-Hidden MarkovModel) 方法和基于神经网络的方法，其中GMM-HMM方法着眼于声学特征的提取，且其利用高斯混合模型拟合状态观测符号的概率分布，拟合的结果取决于混合高斯函数的个数，具有一定的局限性；随着人工智能的兴起，语音识别技术也进入了一个新的阶段，近年来基于深度学习的端到端语音识别技术蓬勃发展，取得了显著的成就。其中，基于CNN的语音识别技术广受欢迎，其由多个卷积层、池化层交替出现构成整个网络的前端用于特征提取，在后端由多个全连接层用于对提取到的局部特征进行全局上的整合与变换。相比于传统方法，CNN 能够从大量的训练数据中提取有效且泛化能力强的特征，从而提高识别率。因此，本系统采用基于CNN的关键词识别方法，利用事先训练好的模型，对语音指令进行关键词识别。语音指令识别的原理图如图8所示。

语音指令识别方法过程为：采用基于CNN的关键词识别方法，对接收的语音流进行关键词识别，将识别的结果传输至数据分析单元。

步骤七：语音识别结果分析

对语音指令信号进行关键词识别之后，需要对识别的结果进行分析，随后启动与指令相关的功能，例如拨打电话、导航和开启多媒体等。该分析采用相关性计算方法，在系统内部预先设定需要实现的功能，并依据统计方法确定各自的阈值，然后将关键词识别的结果分别与各功能指令进行相关性计算，若超过某一指令的阈值，则将结果传输到功能执行单元，若未发现较强相关性的功能，则将反馈信息传输至音频输入输出单元，提醒驾驶员重新输入语音指令信号。语音识别结果分析的原理图如图9所示。

语音识别结果分析方法过程为：将步骤六得到的关键词识别结果与预先设定在数据分析单元的功能指令进行相关性计算，并与相应阈值进行比较，若超过某一指令的阈值，则将该功能指令信息传输至功能执行单元，若未发现相关的功能，则将反馈信息传输至音频输入输出单元，经D/A转换后输出系统，提醒驾驶员重新输入语音指令。

步骤八：语音指令功能实现

在功能执行单元，将与功能相关的指令按照通信协议进行编码，将编码后的数据通过汽车总线传输至功能区，从而执行相应功能，实现语音命令对汽车的智能化控制，并将结果反馈到音频输入输出单元。语音指令功能实现的原理图如图10所示。

语音指令功能实现方法过程为：对接收到的数据分析单元信号，按照通信协议进行编码，通过汽车总线传输至相应得到功能区，执行相关的功能，并将结果反馈到音频输入输出单元。

Claims

1.一种适于复杂环境的车辆智能语音控制系统，其特征在于：该系统包括音频输入输出单元、信号预处理单元、信号去噪单元、信号盲源分离单元、信号分类单元、语音关键词识别单元、数据分析单元和功能执行单元，它们之间彼此相互连接；

所述音频输入输出单元，它与信号预处理单元和功能执行单元相连接，通过二元车载麦克风阵列将语音流输入系统，并将功能执行单元分析处理后的反馈语音输出，完成与驾驶员之间的交互；

所述信号预处理单元，它与音频输入输出单元和信号去噪单元相连接，负责对从音频接口输入的混合音频信号进行语音活动检测预处理，定位语音信号的起始位置和结束位置，存储经语音活动检测后获得的混合语音信号片段，并将混合音频信号的非语音片段噪声进行单独存储，为后续的语音信号处理做好相应的信息准备；

所述信号去噪单元，它与信号预处理单元和信号盲源分离单元相连接，完成预处理后的混合语音信号的去噪；该单元采用自适应小波阈值去噪方法，结合存储的非语音片段噪声不断调整阈值的大小，对混合语音信号片段进行初步去噪，去除信号中包含的胎噪、风噪和发动机噪声，为后续的干扰信号分离提供较为纯净的混合语音信号；

所述信号盲源分离单元，它与信号去噪单元和信号分类单元相连接，负责对信号去噪单元处理后的较为纯净的混合语音信号进行盲源分离，即将混合信号中的语音指令、多媒体播放的声音和道路周围的干扰信号进行分离，并将分离后的信号输送到后续处理单元进行处理；

所述信号分类单元，它与信号盲源分离单元和语音关键词识别单元相连接，负责对信号盲源分离单元输出的信号进行分类，辨别其为语音信号或非语音信号，并去除除语音指令信号之外的其他信号；该单元采用基于最小距离的音频分类方法，获取驾驶员的语音指令信号，为后续的语音识别和分析做准备；

所述语音关键词识别单元，它与信号分类单元和数据分析单元相连接，负责对信号分类单元得到的语音指令信号进行关键词识别；该语音关键词识别单元采用经训练好的卷积神经网络语音关键词识别模型，对语音指令信号中的关键词进行识别，并将识别的结果传输到数据分析单元进行相关处理；

所述数据分析单元，它与语音关键词识别单元、功能执行单元和音频输入输出单元相连接；该单元对语音信号识别的关键词进行分析，并和预先设定在该单元的功能指令关键词进行相关性计算，若与预先设置的功能指令相关，则将信息传输到功能执行单元，若未发现相关的功能指令，则将反馈信息传输到音频输入输出单元，提醒驾驶员重新输入语音指令信号；

2.一种适于复杂环境的车辆智能语音控制系统的构建方法，其特征在于：该方法包括下述几个步骤：

步骤一：接收混合音频信号并进行A/D转换

通过车载麦克风阵列接收混合音频，麦克风内嵌A/D转换器将接收的音频信号转换为数字信号，即混合音频信号；

步骤二：判断有无语音信号并构成通信数据帧

对步骤一输出的混合音频信号进行语音活动检测，检测语音信号的有无，若有语音信号输入则定位信号的起点和终点，之后将包含语音的混合音频信号片段及其之间的非语音噪声片段存储到数据缓存区，每隔80～120ms从数据缓存中读取数据，若有数据存入缓存区则按照数据协议封装成通信数据帧；

读取步骤二封装的通信数据帧中的混合音频数据，针对其中包含的胎噪、风噪、发动机噪声、汽车行驶噪声和汽车鸣笛声，进行小波阈值去噪，通过计算小波基与混合音频信号片段的相关系数选择最优小波基，并通过非语音噪声片段的变化自适应的调整阈值的大小，完成信号的初步去噪过程；

步骤四：混合音频信号的盲源分离

步骤三去噪后的信号传输至信号盲源分离单元，采用基于稀疏分量分析的欠定盲源分离算法，估计出混合矩阵，再根据混合矩阵恢复出车内的各个声源信号；

步骤五：音频信号分类

采用基于最小距离的音频分类方法，对步骤四得到的各个声源信号进行分类，获得其中的语音指令信号，并将语音指令信号传输至语音关键词识别单元；

步骤六：语音指令识别

采用基于CNN的关键词识别方法，对从步骤五接收的语音流进行关键词识别，将识别的结果传输至数据分析单元；

步骤七：语音指令识别

将步骤六得到的关键词识别的结果与预先设定在数据分析单元的功能指令进行相关性计算，并与设定的阈值进行比较，若超过某一指令的阈值，则将该功能指令信息传输至功能执行单元，若未发现相关的功能，则将反馈信息传输至音频输入输出单元，经D/A转换后输出系统，提醒驾驶员重新输入语音指令；

步骤八：语音指令功能实现