CN112614513A

CN112614513A - 一种语音检测方法、装置、电子设备及存储介质

Info

Publication number: CN112614513A
Application number: CN202110248590.XA
Authority: CN
Inventors: 张奇; 杨国全; 廖焕柱; 王克彦; 曹亚曦; 俞鸣园
Original assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Current assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-04-06
Anticipated expiration: 2041-03-08
Also published as: CN112614513B

Abstract

本发明公开一种语音检测方法、装置、电子设备及存储介质，涉及语音检测领域，包括：通过N个麦克风在对应角度上对第一音频信号进行采集，获得对应的N个第二音频信号，每个第二音频信号包括一个音频帧；对N个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧，X加Y等于N，X和Y为大于等于0的整数，N为大于0的整数；若X和Y都不等于0，则检测N个第二音频信号中是否包含语音基频与谐波；若任意一个第二音频信号中包含语音基频与谐波，则将第一音频信号确定为语音信号，以过滤掉传统算法无法判断的非稳态噪声，能够稳定识别多种现实噪音。

Description

一种语音检测方法、装置、电子设备及存储介质

技术领域

本发明涉及语音检测领域，尤其涉及一种语音检测方法、装置、电子设备及存储介质。

背景技术

语音端点检测（VAD）算法通常用于判断给定的音频信号是语音还是噪声，其结果常用在语音编解码、语音增强、增益控制以及语音唤醒识别等算法中。基于深度学习的语音端点检测方法在高信噪比环境下效果很好，但是在低信噪比的环境下存在清音（发声时声带不振动发出的声音，能量较低）因为包含非稳态噪声而被误判为噪声的情况，因此，语音检测领域急需一种能够稳定识别多种现实噪音，并且不会因为包含非稳态噪声而将语音信号误判为噪声信号的语音检测方法。

发明内容

本发明提供一种语音检测方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。

本发明一方面提供一种语音检测方法，包括：

通过N个麦克风在对应角度上对第一音频信号进行采集，获得对应的N个第二音频信号，每个所述第二音频信号包括一个音频帧；

对所述N个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧，所述X加Y等于N，所述X和Y为大于等于0的整数，N为大于0的整数；

若X和Y都不等于0，则检测所述N个第二音频信号中是否包含语音基频与谐波；

若任意一个所述第二音频信号中包含语音基频与谐波，则将所述第一音频信号确定为语音信号。

其中，所述N个麦克风组成均匀环形麦克风阵列，其中每个麦克风均为角度360°/N的指向性麦克风。

其中，所述对所述N个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧后，该方法还包括：

若Y等于0，则将所述第一音频信号确定为语音信号。

若X等于0，则将所述第一音频信号确定为噪声信号。

其中，所述将所述第一音频信号确定为语音信号后，该方法还包括：

选取所述N个第二音频信号中信噪比最高的第二音频信号，进行语音识别。

本发明另一方面提供一种语音检测装置，包括：

采集模块，用于通过N个麦克风在对应角度上对第一音频信号进行采集，获得对应的N个第二音频信号，每个所述第二音频信号包括一个音频帧；

第一检测模块，用于对所述N个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧，所述X加Y等于N，所述X和Y为大于等于0的整数，N为大于0的整数；

第二检测模块，用于若X和Y都不等于0，则检测所述N个第二音频信号中是否包含语音基频与谐波；

处理模块，用于在所述任意一个第二音频信号中包含语音基频与谐波时，将所述第一音频信号确定为语音信号。

其中，所述采集模块包括N个麦克风，所述N个麦克风组成均匀环形麦克风阵列，其中每个麦克风均为角度360°/N的指向性麦克风；

所述N个麦克风用于在对应角度上对第一音频信号进行采集，获得对应的N个第二音频信号，每个所述第二音频信号包括一个音频帧。

其中，所述处理模块，还用于若Y等于0，则将所述第一音频信号确定为语音信号。

其中，所述处理模块，还用于在所述Y等于0时，将所述第一音频信号确定为语音信号。

其中，所述处理模块，还用于在X等于0时，将所述第一音频信号确定为噪声信号。

本发明再一方面提供一种电子设备，包括：处理器、通信接口、存储器和通信总线；

其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本发明所述的语音检测方法。

本发明还一方面提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序用于执行本发明所述的语音检测方法。

在本发明上述的方案中，利用麦克风阵列对第一音频信号进行采集，得到多个第二音频信号，通过对多个第二音频信号进行语音端点检测，判断多个第二音频信号是语音帧还是噪声帧，若同时存在语音帧和噪声帧，则可能是部分方向的麦克风接收到了一些指向性的非稳态噪声，所以需要进一步检测多个第二音频信号中是否包含语音基频与谐波，若其中任意一个第二音频信号中包含语音基频与谐波，则确定第一音频信号是语音信号，如此，可以过滤掉传统算法无法判断的非稳态噪声，能够稳定识别多种现实噪音。

附图说明

图1示出了一实施例所示的语音检测方法流程图；

图2示出了另一实施例所示的语音检测方法流程图；

图3示出了另一实施例所示的麦克风阵列装置结构示意图；

图4示出了一实施例所示的语音检测装置结构示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高语音检测中对语音识别的稳定性，减少对语音和噪声的误判，如图1所示，本发明一实施例提供了一种语音检测方法，该方法包括：

步骤101，通过N个麦克风在对应角度上对第一音频信号进行采集，获得对应的N个第二音频信号，每个所述第二音频信号包括一个音频帧。

由N个指向性麦克风采集第一音频信号获得N个第二音频信号，每个第二音频信号包括一个音频帧，音频信号中的非稳态噪声由于能量较低所以衰减较快，且一般无法在室内进行反射，而语音的能量较高且可以经过反射被麦克风采集到，所以语音可以被所有麦克风采集到，但也可能有一部分指向性的非稳态噪声被部分方向的麦克风采集到，所以需要进行下一步处理，去除这部分非稳态噪声对语音的影响，至少需要3个以上的指向性麦克风，麦克风越多，最终效果就越好。

步骤102，对所述N个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧，所述X加Y等于N，所述X和Y为大于等于0的整数，N为大于0的整数。

对N个第二音频信号进行语音端点检测，语音端点检测是对语音和非语音的区域进行区分，一般用来从带有噪声的语音中准确的定位出语音的开始点和结束点，去掉静音的部分，去掉噪声的部分，找到一段语音真正有效的内容，而在本实施例中，可使用现有任一成熟的语音端点检测方法，对N个第二音频信号进行语音端点检测，以判断这N个第二音频信号是语音帧还是噪声帧，在一实施例中，检测结果为N个第二音频信号中有X个语音帧和Y个噪声帧。N个麦克风采集时可能有一部分指向性的非稳态噪声被部分方向的麦克风采集到，所以可能会出现N个第二音频信号中同时有语音帧和噪声帧的情况，通过语音端点检测判断单个第二音频信号是语音帧还是噪声帧的结果并不是非常准确的，所以本实施例通过语音端点检测对多个第二音频信号进行检测，若其中有至少一个第二音频信号是语音帧，那么就对多个第二音频信号做下一步处理。

步骤103，若X和Y都不等于0，则检测所述N个第二音频信号中是否包含语音基频与谐波。

若X和Y都不等于0，也就是N个第二音频信号中同时有语音帧和噪声帧，则对N个第二音频信号进行语音基频与谐波检测，语音包含声调，声调是重要的声学参数，声调是由调值和调型组成的，而调值由基频数值决定，调型由调值的走向决定，所以基频是语音信号的一个重要参数，而在本实施例中，语音基频与谐波检测就是检测第二音频信号中是否包含声调等声学参数，进一步确定该第一音频信号是否是语音信号，以去除麦克风采集时一部分指向性的非稳态噪声对最终结果的影响。

步骤104，若所述任意一个第二音频信号中包含语音基频与谐波，则将所述第一音频信号确定为语音信号。

若N个第二音频信号中有任意一个包含语音基频与谐波，也就是声调等声学参数，那么就意味着该第二音频信号是语音信号，即第一音频信号包含语音信号，则将第一音频信号确定为语音信号。

通过上述的方法，即使音频信号中包含部分噪声信号，即使音频信号中的语音信号的能量较弱，也可以避免将语音识别为噪声。

上述步骤101中，在一可实施方式中，所述N个麦克风组成均匀环形麦克风阵列，其中每个麦克风均为角度360°/N的指向性麦克风。

将N个指向性麦克风按360°/N的均匀角度组成环形麦克风阵列，水平放置，声源处于麦克风阵列外围水平面上的任意位置，对声源发出的第一音频信号进行采集，每个方向的指向性麦克风可以接收来自所在方向360°/N角度的信号，所以多个指向性麦克风采集的第二音频信号在方向上不同，采集的第二音频信号也不同，可以规避大部分非稳态噪声，而接收到的一些指向性的非稳态噪声也能够通过进一步的处理进而消除掉对最终结果的影响。

在步骤102中，所述对所述N个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧后：

在一可实施方式中，若Y等于0，则将所述第一音频信号确定为语音信号。

若Y等于0，也就是N个第二音频信号都是语音帧，那么第一音频信号毫无疑义就是语音信号，将第一音频信号确定为语音信号。

在另一可实施方式中，若X等于0，则将所述第一音频信号确定为噪声信号。

若X等于0，也就是N个第二音频信号都是噪声帧，那么第一音频信号毫无疑义就是噪声信号，将第一音频信号确定为噪声信号。

在步骤104中，所述将所述第一音频信号确定为语音信号后，在一可实施方式中，选取所述N个第二音频信号中信噪比最高的第二音频信号进行语音识别。

选取N个第二音频信号中信噪比最高的第二音频信号，信噪比指的是信号跟噪声的比例，该比值越高说明该信号中噪声部分越少，那么该信号质量就越高，选取N个第二音频信号中质量最高的进行语音识别。

在本发明上述的方案中，由于非稳态噪声能量较低衰减较快，且一般无法在室内进行反射，而语音能量较高且可以经过反射到达麦克风，所以语音可以被所有麦克风采集到，但是一些指向性的非稳态噪声会被部分方向麦克风采集到，所以本方法利用麦克风阵列对第一音频信号进行采集，得到多个第二音频信号，通过对多个第二音频信号进行语音端点检测，判断多个第二音频信号是语音帧还是噪声帧，若全是语音帧，则确定第一音频信号是语音信号，全是噪声帧，则确定第一音频信号是噪声信号，若同时存在语音帧和噪声帧则可能是部分方向的麦克风接收到了一些指向性的非稳态噪声，所以需要进一步检测多个第二音频信号中是否包含语音基频与谐波，若其中任意一个第二音频信号中包含语音基频与谐波，则确定第一音频信号是语音信号，本方法针对不同结果归纳为3种场景，并分别作出语音判断，可以过滤掉传统算法无法判断的非稳态噪声，能够稳定识别多种现实噪音。

下面通过一个具体的实施例对上述的语音检测方法进行详细的说明，如图3所示，将4个指向性麦克风按90°的均匀角度组成环形麦克风阵列，水平放置，声源处于麦克风阵列外围水平面上的任意位置，对第一音频信号进行采集，每个方向的指向性麦克风可以接收来自所在方向90°角度的信号，如图2所示，语音检测过程包括：

步骤201，通过4个麦克风在对应角度上对第一音频信号进行采集，获得对应的4个第二音频信号，每个所述第二音频信号包括一个音频帧。

如图3所示，麦克风1和麦克风2采集声源发射出的包含非稳态噪声的第一音频信号，因为麦克风1和麦克风2的信号接收方向与声源发射信号的方向相对，所以麦克风1和麦克风2接收到的第二音频信号可能会包含声源直线发射出的非稳态噪声，而麦克风3和麦克风4的信号接收方向与声源发射信号的方向不相对，所以麦克风3和麦克风4采集的第一音频信号经过多次反射后，第一音频信号中的非稳态噪声由于能量过低，未被麦克风3和麦克风4所接收到，所以麦克风3和麦克风4接收到的第二音频信号不包含非稳态噪声。

步骤202，对所述4个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧，所述X加Y等于4，所述X和Y为大于等于0的整数。

如图3所示，对4个麦克风所接收到的第二音频信号进行语音端点检测，麦克风1和麦克风2所接收到的第二音频信号中包含非稳态噪声，经过检测可能会被判定为噪声帧，而麦克风3和麦克风4所接收到的第二音频信号中不包含非稳态噪声，检测后一定是语音帧。

步骤203，若X和Y都不等于0，则检测所述4个第二音频信号中是否包含语音基频与谐波。

如图3所示，麦克风1和麦克风2接收到的第二音频信号因为包含非稳态噪声经过检测后可能被判定为噪声帧，而麦克风3和麦克风4接收到的第二音频信号不包含非稳态噪声经过检测后被判定为语音帧，所以要对4个麦克风接收到的信号做语音基频与谐波检测。

步骤204，若任意一个所述第二音频信号中包含语音基频与谐波，则将所述第一音频信号确定为语音信号。

若4个第二音频信号中有任意一个包含语音基频与谐波，也就是声调等声学参数，那么就意味着该第二音频信号是语音信号，则将第一音频信号确定为语音信号。

步骤205，选取所述4个第二音频信号中信噪比最高的第二音频信号进行语音识别。

选取4个第二音频信号中信噪比最高的第二音频信号信号，信噪比指的是信号中信号部分跟噪声部分的比例，该比值越高说明该信号中噪声部分越少，那么该信号质量就越高，选取4个第二音频信号中质量最高的进行语音识别。

在步骤201中，所述通过4个麦克风在对应角度上对第一音频信号进行采集，获得对应的4个第二音频信号，

在一可实施方式中，所述4个麦克风组成均匀环形麦克风阵列，其中每个麦克风均为角度90°的指向性麦克风。

如图3所示，将4个指向性麦克风按90°的均匀角度组成环形麦克风阵列，水平放置，声源处于麦克风阵列外围水平面上的任意位置，对第一音频信号进行采集，每个方向的指向性麦克风可以接收来自所在方向90°角度的信号，所以多个指向性麦克风采集的第二音频信号在方向上不同，采集的第二音频信号也不同，可以规避大部分非稳态噪声，而接收到的一些指向性的非稳态噪声也能够通过进一步的处理进而消除掉对最终结果的影响。

在步骤202中，所述对所述4个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧后，

若Y等于0，也就是4个第二音频信号都是语音帧，那么第一音频信号毫无疑义就是语音信号，将第一音频信号确定为语音信号，如图3所示，4个麦克风接收到的第二音频信号经过检测都被判定为语音帧，那么声源发射出的第一音频信号就是语音信号。

在一可实施方式中，若X等于0，则将所述第一音频信号确定为噪声信号。

若X等于0，也就是4个第二音频信号都是噪声帧，那么第一音频信号毫无疑义就是噪声信号，将第一音频信号确定为噪声信号，如图3所示，4个麦克风接收到的第二音频信号经过检测都被判定为噪声帧，那么声源发射出的第一音频信号就是噪声信号。

本发明一实施例还提供了一种语音检测装置，如图4所示，该装置包括：

采集模块10，用于通过N个麦克风在对应角度上对第一音频信号进行采集，获得对应的N个第二音频信号，每个所述第二音频信号包括一个音频帧；

第一检测模块20，用于对所述N个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧，所述X加Y等于N，所述X和Y为大于等于0的整数，N为大于0的整数；

第二检测模块30，用于若X和Y都不等于0，则检测所述N个第二音频信号中是否包含语音基频与谐波；

处理模块40，用于若任意一个所述第二音频信号中包含语音基频与谐波，则将所述第一音频信号确定为语音信号。

其中，该装置包括：

所述采集模块10包括N个麦克风，所述N个麦克风组成均匀环形麦克风阵列，其中每个麦克风均为角度360°/N的指向性麦克风；

其中，该装置包括：

所述处理模块40，还用于若Y等于0，则将所述第一音频信号确定为语音信号。

其中，该装置包括：

所述处理模块40，还用于若X等于0，则将所述第一音频信号确定为噪声信号。

其中，该装置包括：

所述处理模块40，还用于选取所述N个第二音频信号中信噪比最高的第二音频信号进行语音识别。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音检测方法，其特征在于，包括：

2.根据权利要求1所述的语音检测方法，其特征在于，

所述N个麦克风组成均匀环形麦克风阵列，其中每个麦克风均为角度360°/N的指向性麦克风。

3.根据权利要求1所述的语音检测方法，其特征在于，所述对所述N个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧后，该方法还包括：

若Y等于0，则将所述第一音频信号确定为语音信号。

4.根据权利要求1所述的语音检测方法，其特征在于，所述对所述N个第二音频信号进行语音端点检测，确定其中X个第二音频信号为语音帧，确定其中Y个第二音频信号为噪声帧后，该方法还包括：

若X等于0，则将所述第一音频信号确定为噪声信号。

5.根据权利要求1或3所述的语音检测方法，其特征在于，所述将所述第一音频信号确定为语音信号后，该方法还包括：

6.一种语音检测装置，其特征在于，包括：

第二检测模块，用于在X和Y都不等于0时，检测所述N个第二音频信号中是否包含语音基频与谐波；

7.根据权利要求6所述的语音检测装置，其特征在于，

所述采集模块包括N个麦克风，所述N个麦克风组成均匀环形麦克风阵列，其中每个麦克风均为角度360°/N的指向性麦克风；

所述N个麦克风用于在对应角度上对第一音频信号进行采集，获得N个对应的第二音频信号。

8.根据权利要求6所述的语音检测装置，其特征在于，

所述处理模块，还用于在所述Y等于0时，将所述第一音频信号确定为语音信号。

9.根据权利要求6所述的语音检测装置，其特征在于，

所述处理模块，还用于在X等于0时，将所述第一音频信号确定为噪声信号。

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一项所述的方法步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。