CN110459234B

CN110459234B - 用于车载的语音识别方法及系统

Info

Publication number: CN110459234B
Application number: CN201910752713.6A
Authority: CN
Inventors: 张华兵; 何赛娟
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2022-03-22
Anticipated expiration: 2039-08-15
Also published as: CN110459234A

Abstract

本发明实施例提供一种用于车载的语音识别方法。该方法包括：使用多个麦克风对车载空间进行音区信号分离，至少将车载空间分为多个音区，根据各音区内的麦克风组成分布式麦克风网络；通过分布式麦克风网络实时采集车载环境下的音频，根据回声消除算法抑制音频中的车载环境自噪声；通过盲源分离算法对抑制音频中多个说话人的声音进行分离；通过分布式麦克风网络定位每个说话人所在的音区，没有说话人发出的声音时，将声音采集为噪音估计，有说话人发出的声音时，根据前一帧采集的噪音估计进行降噪，确定出干净语音进行语音识别。本发明实施例还提供一种用于车载的语音识别系统。本发明实施例在车载噪声环境中，具有较高的唤醒率与识别率。

Description

用于车载的语音识别方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种用于车载的语音识别方法及系统。

背景技术

随着便携式移动端和智能型硬件设备的普及流行，通过语音对话的方式实现自然的人机交互功能渐成趋势，这种便捷的手段大大增强了产品的用户体验。其中，语音交互的一种入口实现方式就是语音唤醒和语音识别技术，而高唤醒率和高识别率的获得就需要依赖于优秀的前端信号处理。通过前端信号处理技术，对目标信号进行增强，抑制干扰信号，从而实现目标信号的唤醒和识别。在车辆中使用语音来控制各种智能设备解放了驾驶者的双手。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

由于车辆内部的环境比较恶劣，存在着各种干扰来影响人机交互，同时由于车内有可能存在多人同时说话，多个说话人之间的语音又会相互干扰，更加影响了车载环境下语音识别的识别效果，使得车载的语音识别效果较差。

发明内容

为了至少解决现有技术中车载环境恶劣，多个说话人之间的语音相互干扰，车载的语音识别效果较差的问题。

第一方面，本发明实施例提供一种用于车载的语音识别方法，包括：

使用多个麦克风对车载空间进行音区信号分离，至少将车载空间分为前座位音区、后座位音区，根据各音区内的麦克风组成分布式麦克风网络，其中，所述前座位音区、后座位音区至少还分为左音区、右音区；

通过所述分布式麦克风网络实时采集所述车载环境下的音频，根据回声消除算法抑制所述音频中的车载环境自噪声；

通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离；

通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区，

-当任一音区中没有检测到在所述任一音区中的说话人发出的声音时，将所述声音采集为噪音估计，

-当任一音区中检测到在所述任一音区中的说话人发出的声音时，根据前一帧采集的噪音估计进行降噪，确定出干净语音，对所述干净语音进行语音识别。

第二方面，本发明实施例提供一种用于车载的语音识别系统，包括：

网络构建程序模块，用于使用多个麦克风对车载空间进行音区信号分离，至少将车载空间分为前座位音区、后座位音区，根据各音区内的麦克风组成分布式麦克风网络，其中，所述前座位音区、后座位音区至少还分为左音区、右音区；

自噪抑制程序模块，用于通过所述分布式麦克风网络实时采集所述车载环境下的音频，根据回声消除算法抑制所述音频中的车载环境自噪声；

说话人分离程序模块，用于通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离；

识别程序模块，用于通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区，

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于车载的语音识别方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于车载的语音识别方法的步骤。

本发明实施例的有益效果在于：可以有效的分离出各个说话人语音，并分别进行唤醒和识别，在主驾模式下，可支持主驾驶方向的唤醒和识别，可以应用到更多座位的车辆中；同时，使用分布式麦克风网络提升了语音交互的唤醒率与识别率；由于车内各个方向的声音是被完全分离开的，这样来自其他方向的语音被抑制了，降低了误唤醒；在车载噪声环境中，仍具有较高的唤醒率与识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于车载的语音识别方法的流程图；

图2是本发明一实施例提供的一种用于车载的语音识别系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于车载的语音识别方法的流程图，包括如下步骤：

S11：使用多个麦克风对车载空间进行音区信号分离，至少将车载空间分为前座位音区、后座位音区，根据各音区内的麦克风组成分布式麦克风网络，其中，所述前座位音区、后座位音区至少还分为左音区、右音区；

S12：通过所述分布式麦克风网络实时采集所述车载环境下的音频，根据回声消除算法抑制所述音频中的车载环境自噪声；

S13：通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离；

S14：通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区，

在本实施方式中，可以将本方法适配在各类的汽车中，例如，四个座位的汽车，或者七个座位的汽车，或者其它数量座位的汽车。

对于步骤S11，例如四座的车辆中，可以配设四个麦克风，七个座的车辆中，可以配设七个麦克风。以四座的车辆为例，使用四个麦克风分别配置在车辆的四个座位的周围，根据这四个麦克风对车辆的空间进行音区信号分离，将车辆的空间分为前座位音区，后座位音区，进一步的分出左前座位音区、右前座位音区、左后座位音区、右后座位音区。并且根据各音区内的麦克风组成分布式麦克风网络。

对于步骤S12，根据所述分布式麦克风网络实时采集车辆中的声音，根据回声消除算法抑制采集的声音中的车载环境自噪声。

作为一种实施方式，在本实施例中，通过自适应滤波对动态的实时跟踪车内的麦克风采集的音频，模拟出传到各麦克风处的回声信号，再将麦克风采集的音频减掉所述回声信号，以消除车载环境自噪声。

回声消除全名是声学回声消除(Acoustic Echo cancellation，AEC)。声学回声指的是设备自身扬声器播放的声音经不同的路径一次或多次反射后进入麦克风所产生的回声集合,也可称作设备自噪声。用户通过语音同设备进行交互的时候，回声信号和干净的语音信号混合，这会恶化采集到的语音信号的信噪比，严重干扰后续的信号处理算法和唤醒识别模块的性能。所以原始麦克风信号要先通过回声消除算法模块，消除设备自噪声，以达到提升信噪比的目的。回声消除主要的原理是采用自适应滤波技术，动态的实时跟踪车内的声学信道，参考音经过这个信道的滤波，模拟出传到麦克风处的回声，最后原始的麦克风信号减掉这个回声信号，达到消除车载设备自噪声的目的。其中，会涉及到随机梯度算法，基础信号

再经过梯度算法：

其中，所述μ为单位向量，E为噪声的均值。

再经过随机算法得到：

最后通过最小均方算法去除了车辆的自噪声：

对于步骤S13，通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行分离，其中，

盲源分离(blind source separation，BSS)的研究起源于鸡尾酒会问题，该问题可以描述成从许多混乱无章的谈话声和噪声中获得所需要的一个或多个说话人信号。而BSS所要解决的问题就是如何从麦克风采集的混合语音信号中分离出每个说话人信号。盲源分离的主要原理是采用一个变换矩阵，通过不断迭代更新，使最终输出的各分量信号之间的互信息最小。在车载场景，往往会出现大家同时说话的情况，通过盲源分离可以将每个人的声音按照顺序分离出来，可同时实现四个人分别进行人机交互。

根据现有的盲源分离公式：

对每一个说话人的声音进行一一分离。

对于步骤S14，分为两个部分，第一部分为噪声估计，第二个部分为语音增强，利用估计出的噪声，从带噪的语音中估计出干净语音，通过对其降噪，处理了车载的环境背景噪声，比如空调噪声，发动机噪声、胎噪、风噪，这类噪声通常不具有空间指向性，噪声能量随时间的变化相对比较平稳。降噪算法主要的原理是，采用专门为车载噪声特点设计的噪声跟踪算法，去实时动态的估计目前车内噪声特征，然后利用语音增强算法把估计出的噪声抑制掉，达到增强用户语音的目的最终提升在车载噪声环境下的语音系统性能。

作为一种实施方式，在本实施例中，对所述音频进行离散傅里叶变换，得到的所述音频的先验、后验信噪比，以确定所述音频的幅度谱；

通过所述噪声估计对所述幅度谱进行去燥，确定出干净语音。

在本实施方式中，噪声估计为当语音不存在时，更新噪声估计，噪声估计算法对最后的增强算法的效果是至关重要的。实验对比发现最小值控制递归平均MCRA(MinimaControlled Recursive Averageing)算法相对性能比较稳定。当语音存在时，用前一帧的噪声估计值作为当前帧的噪声估计值。其中，MCRA算法的主要流程是：先用最小值跟踪法获得带噪语音的最小值，它代表的是对噪声的初步估计，再利用这个最小值来计算语音存在的概率，计算噪声估计的平滑因子，利用递归平均来估计噪声。

作为另一种实施方式，在本实施例中，所述根据前一帧采集的噪音估计进行降噪，确定出干净语音包括：

对所述音频进行离散傅里叶变换，得到的所述音频的先验、后验信噪比，以确定所述音频的幅度谱；

在本实施方式中，经过调研，对数最小均方误差算法(logMMSE)，从语音失真、计算复杂度，降噪性能等都是比较好的选择。对数最小均方误差算法的主要流程是，对每一帧语音数据做如下操作，主要分为四个步骤：

(1)计算带噪语音信号的DFT(Discrete Fourier Transform，离散傅里叶逆变换)

(2)估计后验信噪比和先验信噪比

(3)估计增强信号的幅度谱

(4)恢复增强信号的复数谱，然后计算IFFT(Inverse Fast Fourier Transform，快速傅里叶逆变换)，得到增强的时域，确定出干净的语音。

最后，对所述干净语音进行语音识别，以完成对车载语音的识别。

通过该实施方式可以看出，可以有效的分离出各个说话人语音，并分别进行唤醒和识别，在主驾模式下，可支持主驾驶方向的唤醒和识别，可以应用到更多座位的车辆中；同时，使用分布式麦克风网络提升了语音交互的唤醒率与识别率；由于车内各个方向的声音是被完全分离开的，这样来自其他方向的语音被抑制了，降低了误唤醒；在车载噪声环境中，仍具有较高的唤醒率与识别率。

如图2所示为本发明一实施例提供的一种用于车载的语音识别系统的结构示意图，该系统可执行上述任意实施例所述的用于车载的语音识别方法，并配置在终端中。

本实施例提供的一种用于车载的语音识别系统包括：网络构建程序模块11，自噪抑制程序模块12，说话人分离程序模块13和识别程序模块14。

其中，网络构建程序模块11用于使用多个麦克风对车载空间进行音区信号分离，至少将车载空间分为前座位音区、后座位音区，根据各音区内的麦克风组成分布式麦克风网络，其中，所述前座位音区、后座位音区至少还分为左音区、右音区；自噪抑制程序模块12用于通过所述分布式麦克风网络实时采集所述车载环境下的音频，根据回声消除算法抑制所述音频中的车载环境自噪声；说话人分离程序模块13用于通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离；识别程序模块14用于通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区，-当任一音区中没有检测到在所述任一音区中的说话人发出的声音时，将所述声音采集为噪音估计，-当任一音区中检测到在所述任一音区中的说话人发出的声音时，根据前一帧采集的噪音估计进行降噪，确定出干净语音，对所述干净语音进行语音识别。

进一步地，所述自噪抑制程序模块用于：

通过自适应滤波对动态的实时跟踪车内的麦克风采集的音频，模拟出传到各麦克风处的回声信号，再将麦克风采集的音频减掉所述回声信号，以消除车载环境自噪声。

进一步地，所述识别程序模块用于：

通过对所述麦克风采集的音频进行最小值跟踪，确定所述音频的噪声估计，根据所述噪声估计判断所述音频内用户语音的存在概率；

根据所述存在概率与预设的用户存在阈值进行比较，确定所述音频内是否存在用户的语音。

进一步地，所述识别程序模块还用于：

进一步地，所述车载空间至少包括：四座位车辆、七座位车辆。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于车载的语音识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于车载的语音识别方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于车载的语音识别方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音识别功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于车载的语音识别方法，包括：

-当任一音区中检测到在所述任一音区中的说话人发出的声音时，对所述音频进行离散傅里叶变换，得到的所述音频的先验、后验信噪比，以确定所述音频的幅度谱，根据前一帧采集的噪音估计对所述幅度谱进行去噪，确定出干净语音，对所述干净语音进行语音识别。

2.根据权利要求1所述的方法，其中，所述根据回声消除算法抑制所述音频中的车载环境自噪声包括：

3.根据权利要求1所述的方法，其中，所述任一音区中没有检测到在所述任一音区中的说话人发出的声音包括：

4.根据权利要求1所述的方法，其中，所述车载空间至少包括：四座位车辆、七座位车辆。

5.一种用于车载的语音识别系统，包括：

6.根据权利要求5所述的系统，其中，所述自噪抑制程序模块用于：

7.根据权利要求5所述的系统，其中，所述识别程序模块用于：

8.根据权利要求5所述的系统，其中，所述车载空间至少包括：四座位车辆、七座位车辆。