CN112562735A

CN112562735A - 语音检测方法、装置、设备和存储介质

Info

Publication number: CN112562735A
Application number: CN202011360116.8A
Authority: CN
Inventors: 方思敏; 夏洁; 李开; 罗丽云
Original assignee: RDA Microelectronics Shanghai Co Ltd
Current assignee: RDA Microelectronics Shanghai Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-26
Anticipated expiration: 2040-11-27
Also published as: CN112562735B

Abstract

本申请实施例提供一种语音检测方法、装置、设备和存储介质，该方法包括：获取待检测信号的能量；若所述待检测信号的能量大于或等于第一阈值，则将所述待检测信号的频域进行分段，得到至少一个第一子频带；根据所述待检测信号在每个第一子频带上的语音存在概率，确定检测结果；所述检测结果用于指示所述待检测信号是否为语音信号。本申请实施例的方法实现了低功耗的语音检测，而且语音检测的准确度较高。

Description

语音检测方法、装置、设备和存储介质

技术领域

本申请实施例涉及语音检测技术领域，尤其涉及一种语音检测方法、装置、设备和存储介质。

背景技术

随着语音唤醒、语音识别等技术越来越广泛地被应用到生活中，语音检测作为其必要的前端处理而被重视。语音检测的作用是检测出当前环境中是否有语音存在，且定位出语音的起始及结束位置，从而将语音片段从噪声中分离出来并送到后端做语音识别及唤醒等处理。语音检测的准确度将直接影响后续工作的正确率。

语音检测模块需要处于一直工作的状态，才能实现实时监测语音活动的目的，所以语音检测设计对功耗要求相对较高。但是相关技术中，一般通过设定语音信号的能量阈值来检测是否存在语音信号，如果采用低阈值检测，会引起噪声被误检为语音的概率提升，导致频繁启动识别等后续处理操作，带来功耗损失；如果采用高阈值检测，则可能发生漏检，语音检测的准确性较低。因此，对于本领域技术人员来说，如何实现一种既能保证语音检测的准确性又不带来较大功耗的语音检测方法，是亟需解决的技术问题。

发明内容

本申请提供一种语音检测方法、装置、设备和存储介质，以实现低功耗的语音检测，而且语音检测的准确度较高。

第一方面，本申请提供一种语音检测方法，包括：

获取待检测信号的能量；

若所述待检测信号的能量大于或等于第一阈值，则将所述待检测信号的频域进行分段，得到至少一个第一子频带；

根据所述待检测信号在每个第一子频带上的语音存在概率，确定检测结果；所述检测结果用于指示所述待检测信号是否为语音信号。

在一种可能的实现方式中，所述根据所述待检测信号在每个第一子频带上的语音存在概率，确定检测结果，包括：

若存在至少一个第二子频带，或所述待检测信号在总频带上的语音存在概率大于或等于第二阈值，则确定所述待检测信号为语音信号；所述第二子频带为所述至少一个第一子频带中语音存在概率大于或等于各自对应的第三阈值的子频带；

若所述待检测信号在所述至少一个第一子频带的语音存在概率均小于各自对应的第三阈值，且所述待检测信号在总频带上的语音存在概率小于所述第二阈值，则确定所述待检测信号不为语音信号。

在一种可能的实现方式中，所述确定所述待检测信号为语音信号之后，还包括：

若连续的语音信号的帧数达到预设帧数，则对所述至少一个第一子频道各自对应的第三阈值和所述第二阈值进行调整。

在一种可能的实现方式中，所述对所述至少一个第一子频道各自对应的第三阈值和所述第二阈值进行调整，包括：

降低所述至少一个第一子频道各自对应的第三阈值，以及所述第二阈值。

在一种可能的实现方式中，还包括：

若所述待检测信号的能量小于所述第一阈值，则对所述第一阈值进行更新。

在一种可能的实现方式中，所述对所述第一阈值进行更新，包括：

获取预设时长内的噪声信号；

根据所述预设时长内的噪声信号的能量平均值，对所述第一阈值进行更新。

将所述预设时长内的噪声信号的能量平均值乘以预设值，作为更新后的第一阈值。

在一种可能的实现方式中，所述待检测信号在每个第一子频带上的语音存在概率，确定检测结果之前，还包括：

对于任一第一子频带来说，根据所述第一子频道带的信号，利用预设模型获取所述第一子频带上的语音特征和噪声特征；

根据所述第一子频带上的语音特征和噪声特征，利用所述预设模型计算所述第一子频带对应的语音存在概率。

第二方面，本申请提供一种语音检测装置，包括：

获取模块，用于获取待检测信号的能量；

处理模块，用于若所述待检测信号的能量大于或等于第一阈值，则将所述待检测信号的频域进行分段，得到至少一个第一子频带；

所述处理模块，还用于根据所述待检测信号在每个第一子频带上的语音存在概率，确定检测结果；所述检测结果用于指示所述待检测信号是否为语音信号。

在一种可能的实现方式中，所述处理模块具体用于：

在一种可能的实现方式中，所述处理模块还用于：

在一种可能的实现方式中，所述处理模块具体用于：

在一种可能的实现方式中，所述处理模块还用于：

在一种可能的实现方式中，所述处理模块具体用于：

获取预设时长内的噪声信号；

在一种可能的实现方式中，所述处理模块具体用于：

第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。

第四方面，本申请实施例提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的方法。

本申请实施例提供的语音检测方法、装置、设备和存储介质，若待检测信号的能量大于或等于第一阈值，则进一步检测该待检测信号是否为语音信号，若小于第一阈值，则可以不进行检测，不会带来较大的功耗，而且在对待检测信号是否为语音信号的检测时，将待检测信号的频域进行分段，得到至少一个第一子频带；根据待检测信号在每个第一子频带上的语音存在概率，确定检测结果；检测结果用于指示待检测信号是否为语音信号，能够提高语音信号检测的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请实施例提供的系统架构示意图；

图2是本申请提供的语音检测方法一实施例的流程示意图；

图3是本申请一实施例提供的检测方法原理示意图；

图4是本申请一实施例提供的第二级检测方法原理示意图；

图5是本申请一实施例提供的第一级检测方法原理示意图；

图6是本申请提供的语音检测装置一实施例的结构示意图；

图7是本申请提供的电子设备实施例的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本申请的说明书和权利要求书及所述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本申请所涉及的应用场景进行介绍：

本申请实施例中的终端设备可以指各种形式的用户设备(user equipment，UE)、接入终端、用户单元、用户站、移动站、移动台(mobile station，MS)、远方站、远程终端、移动设备、用户终端、终端设备(terminal equipment)、无线通信设备、用户代理或用户装置。终端设备还可以是蜂窝电话、无绳电话、会话启动协议(Session Initiation Protocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字处理(PersonalDigital Assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备，未来5G网络中的终端设备或者未来演进的公用陆地移动通信网络(Public Land Mobile Network，PLMN)中的终端设备等，本申请实施例对此并不限定。

图1为本申请实施例提供的系统架构示意图。如图1所示，本申请实施例的系统架构中可以包括但不限于：电子设备11和服务器12。

其中，电子设备11和服务器12之间可以通过网络连接。

其中，电子设备11例如为前述的终端设备。

本申请实施例提供的方法可由一个电子设备如处理器执行相应的软件代码实现，也可由一个电子设备在执行相应的软件代码的同时，通过和控制器进行数据交互来实现。

语音检测模块需要处于一直工作的状态，才能实现实时监测语音活动的目的，所以语音检测设计对功耗要求相对较高。

相关技术中，一般通过设定语音信号的能量阈值来检测是否存在语音信号，如果采用低阈值检测，会引起噪声被误检为语音的概率提升，导致频繁启动识别等后续处理操作，带来功耗损失；如果采用高阈值检测，则可能发生漏检，语音检测的准确性较低，如何实现一种既能保证语音检测的准确性又不带来较大功耗的语音检测方法，是亟需解决的技术问题。

本申请实施例的方法的技术构思如下：

将语音检测分为多级，例如两级检，第一级根据待检测信号的能量确定是否开启第二级检，若待检测信号的能量小于能量阈值，则确定不需要开启第二级检测，可以减少功耗损失；

若待检测信号的能量大于或等于能量阈值，则开启第二级检测，将频域进行分段，根据每个子频带的语音存在概率，确定是否为语音信号，提高语音检测的准确性。

下面以具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2是本申请提供的语音检测方法一实施例的流程示意图。如图2所示，本实施例提供的方法，包括：

步骤101、获取待检测信号的能量。

具体的，本申请实施例的语音检测方法通过前级检测模块和后级检测模块，前级和后级都可以包含一级或n级，以下以一级前级和一级后级组合的两级方案为例进行说明。

当语音检测功能开启，前级检测模块采集待检测信号，获取待检测信号的能量。

步骤102、若待检测信号的能量大于或等于第一阈值，则将待检测信号的频域进行分段，得到至少一个第一子频带。

具体的，当能量值大于或等于第一阈值，第一阈值即前级检测模块的能量阈值时，后级检测模块开启。

后级检测模块对待检测信号的频域进行分段，得到至少一个第一子频带。

分段例如可以是对待检测信号的总频带进行平均分段，得到多个第一子频带，或者也可以不平均分段，例如在总频带的低频部分分段得到的子频带较多，在高频部分分段得到的子频带较少。

步骤103、根据待检测信号在每个第一子频带上的语音存在概率，确定检测结果；检测结果用于指示待检测信号是否为语音信号。

具体的，计算每个第一子频带对应的语音存在概率，根据每个第一子频带对应的语音存在概率确定检测结果，例如该待检测信号是否为语音信号。

例如，语音存在概率较大则说明该待检测信号为语音信号。

在一实施例中，获取语音存在概率可以如下方式实现：

语音存在概率例如通过预设模型提取语音特征和噪声特征，根据语音特征和噪声特征得到语音存在概率，或，得到语音概率和噪声概率，根据语音概率和噪声概率计算似然比，得到似然概率，作为语音存在概率。

其中，预设模型例如为高斯模型。

在一实施例中，可以预先对预设模型的参数进行训练，例如获取训练数据，例如包括多个声音信号，提取训练数据的语音特征和噪声特征，并计算声音信号对应的语音存在概率，训练数据例如还包括各个声音信号的语音特征和噪声特征，或各个声音信号对应的语音存在概率。

本实施例中，若待检测信号的能量大于或等于第一阈值，则进一步检测该待检测信号是否为语音信号，若小于第一阈值，则可以不进行检测，不会带来较大的功耗，而且在对待检测信号是否为语音信号的检测时，将待检测信号的频域进行分段，得到至少一个第一子频带；根据待检测信号在每个第一子频带上的语音存在概率，确定检测结果；检测结果用于指示待检测信号是否为语音信号，能够提高语音信号检测的准确性。

在上述实施例的基础上，步骤103可以通过如下方式实现：

具体的，当总频带对应的语音存在概率大于或等于总频带对应的第二阈值，或某第一子频带大于或等于该第一子频带对应的第三阈值，说明检测到语音的存在，则确定该待检测信号为语音信号。该第一子频带为第二子频带。

如果所有第一子频带对应的语音存在概率均小于各自对应的第三阈值，而且总频带对应的语音存在概率也小于该总频带对应的概率阈值(第二阈值)，代表未检测到语音的存在，则确定该待检测信号不为语音信号。

例如，每个第一子频带1ˉn，均对应一个语音存在概率Vp1ˉn，概率阈值记为1ˉn；总频带对应的语音存在概率为Vp n+1，概率阈值记为n+1。

其中，总频带对应的语音存在概率可以采用与子频带类似的方式得到，此处不再赘述。

在其他实施例中，例如可以在预设数量个第一子频带的语音存在概率大于或等于各自对应的概率阈值时，确定该待检测信号为语音信号，提高语音检测的准确性。

在其他实施例中，例如可以在连续至少两个第一子频带的语音存在概率大于或等于各自对应的概率阈值时，确定该待检测信号为语音信号，提高语音检测的准确性。

上述实施方式中，由于对频域进行了分段，基于分段后的子频带对应的语音存在概率和总频带对应的语音存在概率，确定待检测信号是否为语音信号，检测的颗粒度较细，使得检测的准确性较高。

在一实施例中，如图3所示，该图3中示出了两级语音检测方案结构，其中第一级为前级，第二级为后级，当语音检测功能开启，声音采集模块、降采样率模块和第一级检测模块处于一直工作的状态。

声音采集模块拾取环境中声音信号并转换为数字信号，传输至降采样率模块，降采样率模块将采集到的信号降到后续语音检测模块所需的采样率上，例如采样率包括但不限于8kHz、16kHz等。

当能量值大于或等于第一阈值，即能量值大于或等于前级检测模块的能量阈值时，例如将使能信号enable拉高，第二级检测模块开启。

如图4所示，第二级检测模块对来自降采样率模块的声音信号进行频域分段，计算每个子频带的语音存在概率，同时得到总频带的语音存在概率。当某子频带或总频带的语音存在概率Vp大于第二级对应的概率阈值，每个子频带具有对应的概率阈值1～n，总频带对应的概率阈值n+1，例如可以将标记信号flag拉高，代表检测到语音的存在；反之，如果所有子频带和总频带的语音存在概率均小于第二级对应的概率阈值，将标记信号flag拉低，代表未检测到语音的存在或语音已结束。

由于每个人的说话习惯不同，在说话过程中某些词之间会存在停顿的现象，语速较慢的人停顿频率更高、停顿时间更长。因此若采用高阈值，则会在语音检测时存在将词义连续的一段词句被检测为两段或多段词句的情况，这为后续语音识别及唤醒增加了难度。因此，在一实施例中，当前一级唤醒后一级检测，后一级可能会出现连续语音中间因能量较弱或语音特征不明显而导致漏检的情况，引起语音不连续，这将对后续的识别或语义理解等带来影响。为避免连续语音中的漏检，若确定待检测信号为语音信号之后，该方法还包括：

其中，对第二阈值进行调整可以采用如下方式：

具体的，当某帧待检测信号的某个子频带或总频带对应的语音存在概率大于或等于对应的阈值，表示此帧信号为语音信号。

当连续语音信号的帧数到达预设帧数，例如T2时，此时说明后续帧为语音信号的概率较大，则为了提高语音信号的连续性，对每个第一子频带Vp1ˉn各自对应的概率阈值，以及总频带对应的概率阈值进行调整，例如降低概率阈值，以达到保证语音连续性的目的。

如图4所示，对于每一帧待检测信号来说，判断某个子频带或总频带对应的语音存在概率是否大于或等于对应的阈值，若是，则增加计数值flag_cnt，例如加一；若否，则将标记信号flag置为0；进一步，判断flag_cnt是否大于T2，若是，则调整各个子频带和总频带对应的概率阈值。

上述实施方式中，根据检测到的语音信号的连续帧数，对概率阈值进行实时调整，能够保证语音的连续性。

在一实施例中，如图5所示，该方法还包括：

具体的，如果待检测信号的能量低于能量阈值，且此时第二级的flag信号为0，即此时未检测到语音存在时，该能量En将用于计算噪声平均能量Nm，同时基于噪声平均能量Nm，更新能量阈值，即更新第一阈值。

在一实施例中，所述对所述第一阈值进行更新，包括：

获取预设时长内的噪声信号；

具体的，若未检测到语音，则将采集到的声音信号作为噪声信号，获取预设时长内的声音信号，即噪声信号，并计算该预设时长内的噪声信号的能量平均值，例如噪声能量平均值Nm为在一定时间T1内信号能量En的平均值。根据该预设时长内的噪声信号的能量平均值，对第一阈值进行更新。

在一实施例中，对第一阈值进行更新可以通过如下方式：

例如，更新后的能量阈值为：能量阈值＝Nm×Th1，其中预设值Th1为大于1的有理数。

综上所述，每统计到T1时间长度内的噪声信号的平均能量，将更新一次噪声的能量平均值Nm，同时更新第一级的能量阈值，从而实现当外界环境噪声能量发生变化时，第一级的门限能够及时跟随调整，从而在保证检测率的同时，避免高频唤起第二级带来功耗增加。

图6为本申请提供的语音检测装置一实施例的结构示意图，如图6所示，本实施例的语音检测装置，包括：

获取模块110，用于获取待检测信号的能量；

处理模块111，用于若所述待检测信号的能量大于或等于第一阈值，则将所述待检测信号的频域进行分段，得到至少一个第一子频带；

所述处理模块111，还用于根据所述待检测信号在每个第一子频带上的语音存在概率，确定检测结果；所述检测结果用于指示所述待检测信号是否为语音信号。

在一种可能的实现方式中，所述处理模块111具体用于：

在一种可能的实现方式中，所述处理模块111还用于：

在一种可能的实现方式中，所述处理模块111具体用于：

在一种可能的实现方式中，所述处理模块111还用于：

在一种可能的实现方式中，所述处理模块111具体用于：

获取预设时长内的噪声信号；

在一种可能的实现方式中，所述处理模块111具体用于：

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本申请提供的电子设备实施例的结构示意图，如图7所示，该电子设备包括：

处理器120，以及，用于存储处理器120的可执行指令的存储器121。

可选的，还可以包括：通信接口122，用于实现与其他设备的通信。

上述部件可以通过一条或多条总线进行通信。

其中，处理器120配置为经由执行所述可执行指令来执行前述方法实施例中对应的方法，其具体实施过程可以参见前述方法实施例，此处不再赘述。

所述电子设备可以为前述实施例所述的终端设备。

本申请实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方法实施例中对应的方法，其具体实施过程可以参见前述方法实施例，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例中任一项所述的方法，其具体实施过程可以参见前述方法实施例，其实现原理和技术效果类似，此处不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种语音检测方法，其特征在于，包括：

获取待检测信号的能量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述待检测信号在每个第一子频带上的语音存在概率，确定检测结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述待检测信号为语音信号之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述至少一个第一子频道各自对应的第三阈值和所述第二阈值进行调整，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述第一阈值进行更新，包括：

获取预设时长内的噪声信号；

7.根据权利要求1-4任一项所述的方法，其特征在于，所述待检测信号在每个第一子频带上的语音存在概率，确定检测结果之前，还包括：

8.一种语音检测装置，其特征在于，包括：

获取模块，用于获取待检测信号的能量；

9.一种电子设备，其特征在于，包括：

处理器、存储器、与其他设备进行通信的接口；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求1至7任一项所述的语音检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的语音检测方法。