CN108986833A

CN108986833A - 基于麦克风阵列的拾音方法、系统、电子设备及存储介质

Info

Publication number: CN108986833A
Application number: CN201810954185.8A
Authority: CN
Inventors: 朱正辉
Original assignee: Guangzhou Baolun Electronics Co Ltd
Current assignee: Guangzhou Baolun Electronics Co Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2018-12-11

Abstract

本发明公开了一种基于麦克风阵列的拾音方法，其包括：使用麦克风阵列拾取并输出的多路语音信号中的其中一路语音信号进行语音激活检测；利用所述麦克风阵列输出的多路语音信号进行声源定位，获得声源定位方向；对所述声源定位方向的语音信号进行语音增强，获得增强过的语音信号；对所述增强过的语音信号进行语音唤醒检测；将所述麦克风阵列拾取的多路语音信号处理为一路增强后的语音信号，作为最终所拾取到的语音输出。本发明还公开了基于麦克风阵列的拾音系统、电子设备及计算机可读存储介质。本发明通过语音激活检测和语音唤醒，配合语音增强，能够更好地对远场环境下的语音信号进行拾取，尤其在高噪声环境下能够准确的拾音。

Description

基于麦克风阵列的拾音方法、系统、电子设备及存储介质

技术领域

本发明涉及拾音技术领域，尤其涉及一种基于麦克风阵列的拾音方法、系统、电子设备及存储介质。

背景技术

现有的语音识别技术通过一个或多个麦克风实现，对近距离或远场环境下的语音信号进行拾取，在高噪声的环境中，现有的语音识别技术则是通过复杂的算法，通过降噪以及语音增强等方式实现对需求语音的输出，这种方式存在以下缺陷：成本高，而且大量的计算占用了系统CPU的过多资源，造成系统运行速度慢，同时也增加了能量损耗。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于麦克风阵列的拾音方法，其通过语音激活检测和语音唤醒，配合语音增强，能够更好地对远场环境下的语音信号进行拾取，尤其在高噪声环境下能够准确的拾音。

本发明的目的之二在于提供一种基于麦克风阵列的拾音系统，其通过语音激活检测和语音唤醒，配合语音增强，能够更好地对远场环境下的语音信号进行拾取，尤其在高噪声环境下能够准确的拾音。

本发明的目的之三在于提供一种实现上述基于麦克风阵列的拾音方法的电子设备。

本发明的目的之四在于提供一种存储上述基于麦克风阵列的拾音方法的计算机可读存储介质。

本发明的目的之一采用如下技术方案实现：

一种基于麦克风阵列的拾音方法，包括以下步骤：

语音激活检测步骤：使用麦克风阵列拾取并输出的多路语音信号中的其中一路语音信号进行语音激活检测，判断是否出现语音激活信号，如果是，执行定位步骤，如果否，重复执行语音激活检测步骤；

定位步骤：利用所述麦克风阵列输出的多路语音信号进行声源定位，获得声源定位方向；

语音增强步骤：对所述声源定位方向的语音信号进行语音增强，获得增强过的语音信号；

语音唤醒检测步骤：对所述增强过的语音信号进行语音唤醒检测，判断是否检测到语音唤醒信号，如果是，执行输出步骤，否则，重复执行激活检测步骤；

输出步骤：将所述麦克风阵列拾取的多路语音信号处理为一路增强后的语音信号，作为最终所拾取到的语音输出。

进一步地，所述定位步骤，包括：

依据所述麦克风阵列中的至少两个麦克风接收到的信号时间差获取所述发声声源所在的位置作为声源定位方向。

进一步地，通过拾音指示灯对声源定位方向进行指示。

进一步地，所述输出步骤，包括：

对所述拾音指示灯所指声源定位方向的语音信号进行增强，并将该增强后的语音信号作为最终所拾取到的语音输出。

进一步地，所述语音增强步骤，包括：

对所述声源定位方向的语音信号进行噪声抑制，获取一增强过的语音信号。

进一步地，所述语音激活检测步骤，包括：

从所述麦克风阵列捕获的多路语音信号中选取一路语音信号；

检测所述一路语音信号中说话者的语音起始点及语音结束点；

依据所述语音起始点至所述语音结束点之间的信号判断是否出现语音激活信号，如果是，执行定位步骤，否则，从所述麦克风阵列捕获的多路语音信号中选取另一路语音信号，继续检测语音起始点及语音结束点。

进一步地，所述语音唤醒检测步骤，包括：

将所述增强过的语音信号送入一语音唤醒模型，检测所述增强过的语音信号中是否包含设定的唤醒词，如果没有，转至语音激活检测步骤，如果有，执行输出步骤。

本发明的目的之二采用如下技术方案实现：

一种基于麦克风阵列的拾音系统，包括：

麦克风阵列，包括多个麦克风单元，多个麦克风单元用于拾取并输出多路语音信号；

语音激活单元，用于依据所述多路语音信号中的至少一路语音信号进行语音激活检测，输出语音激活结果信号或语音未激活结果信号；

声源定位单元，用于在语音激活单元输出语音激活结果信号时，依据所述多路语音信号进行声源定位确定声源定位方向；

第一语音增强单元，用于对所述声源定位方向的语音信号进行语音增强，获得增强过的语音信号；

语音唤醒检测单元，用于对所述增强过的语音信号进行语音唤醒检测，并输出语音唤醒结果信号或语音未唤醒结果信号；

第二语音增强单元，用于在语音唤醒检测单元输出语音唤醒结果信号时，将所述麦克风阵列拾取到的多路语音信号处理为一路增强后的语音信号，作为最终所拾取到的语音输出。

本发明的目的之三采用如下技术方案实现：

一种电子设备，包括：一个或多个处理器；存储系统，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明目的之一的基于麦克风阵列的拾音方法。

本发明的目的之四采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明目的之一的基于麦克风阵列的拾音方法。

相比现有技术，本发明的有益效果在于：

本发明针对当前语音识别技术在不同场景和不同需求下日益广泛的应用，通过语音激活检测和语音唤醒，配合语音增强，能够更好地对远场环境下的语音信号进行拾取，尤其在高噪声环境下能够准确的拾音，为远距离的语音控制提供了优秀的解决方案；同时本发明利用语音唤醒和语音检测也能够降低麦克风阵列数据处理的计算量，既降低了能源的消耗，又能节约成本。

附图说明

图1为本发明实施例一的基于麦克风阵列的拾音方法的流程图；

图2为本发明实施例二的基于麦克风阵列的拾音系统的结构示意图；

图3为本发明实施例三的电子设备的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

本发明实施例一公开了一种基于麦克风阵列的拾音方法，能够更好地对远场环境下的语音信号进行拾取，尤其在高噪声环境下能够准确的拾音，为远距离的语音控制提供了优秀的解决方案。该方法可以由硬件或/和软件来执行，请参照图1所示，其包括以下步骤：

110、语音激活检测。

使用麦克风阵列拾取并输出的多路语音信号中的其中一路语音信号进行语音激活检测，判断是否出现语音激活信号，如果是，执行120步骤，如果否，选取其他路的语音信号重复执行110步骤。

使用麦克风阵列拾取并输出的多路语音信号并不是最终要输出的语音，其是用来进行语音激活检测以及语音增强和语音唤醒的基础信号。

语音激活检测的方法具体包括：

从所述麦克风阵列捕获的多路语音信号中选取一路语音信号，称为目标语音信号；检测所述目标语音信号中说话者的语音起始点及语音结束点；依据所述语音起始点至所述语音结束点之间的信号判断是否出现语音激活信号，如果是，执行120步骤，否则，从所述麦克风阵列捕获的多路语音信号中选取除目标语音信号外的另一路语音信号，继续检测语音起始点及语音结束点，直至出现语音激活信号。

120、定位步骤。

利用所述麦克风阵列输出的多路语音信号进行声源定位，获得声源定位方向。具体是依据所述麦克风阵列中的至少两个麦克风接收到的信号时间差获取所述发声声源所在的位置作为声源定位方向。

本发明的基于麦克风阵列的拾音系统，所述麦克风阵列为多颗麦克风单元组成的平面环形结构，多个拾音指示灯沿所述平面环形结构的环绕方向设置，优选一颗麦克风单元对应一个拾音指示灯，所述拾音指示灯用于指示所述声源定位方向，某个拾音指示灯被点亮，则说明其对应声源方向。

130、语音增强步骤。

对所述声源定位方向的语音信号进行语音增强，获得增强过的语音信号，为了与110步骤的语音信号进行区分，这里将增强过的语音信号定义为第一增强语音信号，也就是说第一增强语音信号为对所述声源定位方向对应的一路语音信号进行语音增强后得到的，语音增强的方法主要是进行噪声抑制。

140、语音唤醒检测步骤。

对所述增强过的语音信号进行语音唤醒检测，判断是否检测到语音唤醒信号，如果是，执行150步骤，否则，选取其他路的语音信号重复执行110步骤直至出现语音唤醒信号。

语音唤醒检测的方法是：将第一增强语音信号送入一语音唤醒模型，检测所述增强过的语音信号中是否包含设定的唤醒词，如果包含，则说明检测到语音唤醒信号；

150、输出步骤。

将所述麦克风阵列拾取的多路语音信号处理为一路增强后的语音信号，作为最终所拾取到的语音输出。

其具体是对所述拾音指示灯所指方向的语音信号进行增强，增强的方式也可以是噪声抑制，获取增强后的信号称为第二增强语音信号以示与110步骤的语音信号和130步骤的第一增强语音信号进行区别，最终的语音输出即为该第二增强语音信号。

事实上，如果140步骤成立时，第二增强语音信号可以是第一增强语音信号，或者是对该第一增强语音信息进行二次增强得到。

实施例二

实施例二公开了一种对应上述实施例的基于麦克风阵列的拾音系统，请参照图2所示，其包括：

麦克风阵列210，包括多个麦克风单元，多个麦克风单元用于拾取并输出多路语音信号；

语音激活单元220，用于依据所述多路语音信号中的至少一路语音信号进行语音激活检测，输出语音激活结果信号或语音未激活结果信号；

声源定位单元230，用于在语音激活单元输出语音激活结果信号时，依据所述多路语音信号进行声源定位确定声源定位方向；

第一语音增强单元240，用于对所述声源定位方向的语音信号进行语音增强，获得增强过的语音信号；

语音唤醒检测单元250，用于对所述增强过的语音信号进行语音唤醒检测，并输出语音唤醒结果信号或语音未唤醒结果信号；

第二语音增强单元260，用于在语音唤醒检测单元输出语音唤醒结果信号时，将所述麦克风阵列拾取到的多路语音信号处理为一路增强后的语音信号，作为最终所拾取到的语音输出。

实施例三

图3为本发明实施例三提供的一种电子设备的结构示意图，如图3所示，该电子设备包括处理器310、存储器320、输入系统330和输出系统340；计算机设备中处理器310的数量可以是一个或多个，图3中以一个处理器310为例；电子设备中的处理器310、存储器320、输入系统330和输出系统340可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于麦克风阵列的拾音方法对应的程序指令/模块(例如，基于麦克风阵列的拾音系统中的语音激活单元220、声源定位单元230、第一语音增强单元240、语音唤醒检测单元250和第二语音增强单元260)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的基于麦克风阵列的拾音方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统330可以是作为语音信号采集的麦克风阵列210。输出系统340可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种基于麦克风阵列的拾音方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于麦克风阵列的拾音方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于麦克风阵列的拾音系统的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于麦克风阵列的拾音方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于麦克风阵列的拾音方法，其特征在于，所述定位步骤，包括：

3.如权利要求2所述的基于麦克风阵列的拾音方法，其特征在于，通过拾音指示灯对声源定位方向进行指示。

4.如权利要求3所述的基于麦克风阵列的拾音方法，其特征在于，所述输出步骤，包括：

5.如权利要求1所述的基于麦克风阵列的拾音方法，其特征在于，所述语音增强步骤，包括：

6.如权利要求1所述的基于麦克风阵列的拾音方法，其特征在于，所述语音激活检测步骤，包括：

7.如权利要求1所述的基于麦克风阵列的拾音方法，其特征在于，所述语音唤醒检测步骤，包括：

8.一种基于麦克风阵列的拾音系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储系统，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于麦克风阵列的拾音方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的基于麦克风阵列的拾音方法。