CN110580913B

CN110580913B - 语音激活检测方法、装置及计算机可读存储介质

Info

Publication number: CN110580913B
Application number: CN201910920618.2A
Authority: CN
Inventors: 谢鑫; 张楠赓
Original assignee: Canaan Bright Sight Co Ltd
Current assignee: Canaan Bright Sight Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2022-03-04
Anticipated expiration: 2039-09-26
Also published as: CN110580913A

Abstract

本发明提供了一种语音激活检测方法、装置及计算机可读存储介质，其中，所述语音激活检测方法包括：获取待检测数据的幅值特征或短时幅值特征；以及根据所述幅值特征或短时幅值特征对所述待检测数据进行语音激活检测。本发明降低了实现复杂度，减少了功耗，提高了语音激活检测的准确性。

Description

语音激活检测方法、装置及计算机可读存储介质

技术领域

本发明属于信号处理技术领域，具体涉及一种语音激活检测方法、装置及计算机可读存储介质。

背景技术

语音激活检测(Voice Activity Detection，简称VAD)，其目的是检测当前语言信号中是否包含语音信号存在，即对输入信号进行判断，将语音信号与各种背景噪声信号区分出来，分别对两种信号采用不同的处理方法。

语音系统通常是在语音激活检测模块后面再接关键词唤醒(Keyword Spotting，简称KWS)模块，这样可以实现VAD唤醒KWS，KWS再唤醒其他语音系统的低功耗语音处理系统架构。

在语音激活检测时，语音激活检测模块需要一直处于上电状态，这样在未检测到语音(噪声)时可以将其他语音相关的模块全部断电，从而可以节省语音系统的功耗。

但是，目前语音激活检测方案仍然存在实现方式复杂、检测准确度不高、适用场景无法满足要求等问题。

发明内容

(一)要解决的技术问题

本发明提供了一种语音激活检测方法、装置及计算机可读存储介质，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本发明的一个方面，提供了一种语音激活检测方法，包括：

获取待检测数据的幅值特征或短时幅值特征；以及

根据所述幅值特征或短时幅值特征对所述待检测数据进行语音激活检测。

在一些实施例中，所述的语音激活检测方法在获取待检测数据的幅值特征或短时幅值特征之前，还包括：

确定信噪比；

若所述信噪比大于等于一信噪比阈值则获取所述短时幅值特征，若所述信噪比小于一信噪比阈值则获取所述幅值特征。

在一些实施例中，根据所述短时幅值特征对所述待检测数据进行语音激活检测，包括：若所述短时幅值特征大于等于一短时幅值门限，则检测到语音。

在一些实施例中，根据所述幅值特征对所述待检测数据进行语音激活检测，包括：

若所述幅值特征大于等于一幅值门限，则检测到语音；

若所述幅值特征小于一幅值门限，则获取短时幅值差特征，根据所述短时幅值差特征对所述待检测数据进行语音激活检测。

在一些实施例中，根据所述短时幅值差特征对所述待检测数据进行语音激活检测，包括：若所述短时幅值差特征大于等于一短时幅值差门限，则检测到语音。

在一些实施例中，所述短时幅值特征及短时幅值门限分别满足以下关系式：

STABS_Th(m)＝STABS_Th(m-1)×α+STABS(m)×(1-α)；

其中，STABS(m)表示第m帧的短时幅值特征，STABS_Th(m)表示第m帧的短时幅值门限，n表示采样点序号，x(n)表示当前采样点的采样值，m表示帧的计数序号，M表示一帧数据包含的采样点个数，α表示遗忘因子，STABS_Th(m-1)表示第m-1帧的短时幅值门限。

在一些实施例中，若起始帧m＝0，则STABS_Th(0)＝STABS(0)。

在一些实施例中，所述幅值特征及幅值门限分别满足以下关系式：

ABS(n)＝|x(n)|；

若ABS(n)*Rou＞ABS_Th(n-1)，则ABS_Th(n)＝ABS_Th(n-1)+β；否则ABS_Th(n)＝ABS_Th(n-1)-β2；

其中，ABS(n)表示幅值特征，ABS_Th(n)表示第n个采样点的幅值门限，n表示采样点序号，x(n)表示当前采样点的采样值，Rou表示更新倍数，β表示向上修正值，ABS_Th(n-1)表示第n-1个采样点的幅值门限，x(n-1)表示第n-1个采样点的采样值，β2表示向下修正值。

在一些实施例中，所述短时幅值差特征及短时幅值差门限分别满足以下关系式：

DSTABS_Th(m)＝DSTABS_Th(m-1)×α2+DSTABS(m)×(1-α2)；

其中，DSTABS(m)表示短时幅值差特征，DSTABS_Th(m)表示第m帧的短时幅值差门限，n表示采样点序号，x(n)表示当前采样点的采样值，m表示帧的计数序号，M表示一帧数据包含的采样点个数，α2表示遗忘因子，DSTABS_Th(m-1)表示第m-1帧的短时幅值差门限。

在一些实施例中，若起始帧m＝0，则短时幅值差门限DSTABS_Th(0)＝DSTABS(0)。

根据本发明的另一个方面，提供了一种语音激活检测装置，包括：

获取模块，用于获取待检测数据的幅值特征或短时幅值特征；以及

语音激活检测模块，用于根据所述幅值特征或短时幅值特征对所述待检测数据进行语音激活检测。

在一些实施例中，所述的语音激活检测装置还包括：

确定模块，用于确定信噪比；

其中，若所述信噪比大于等于一信噪比阈值则所述获取模块获取所述短时幅值特征，若所述信噪比小于一信噪比阈值则所述获取模块获取所述幅值特征。

根据本发明的又一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的语音激活检测方法。

(三)有益效果

从上述技术方案可以看出，本发明语音激活检测方法、装置及计算机可读存储介质至少具有以下有益效果其中之一：

(1)本发明通过提取短时幅值差、短时幅值、幅值特征实现语音激活检测，无需使用乘法器，降低了实现复杂度，减少了功耗。

(2)本发明在信噪比较高时利用短时幅值特征进行语音激活检测，从而可以克服幅值特征在突发噪声中的缺陷；在信噪比较低时，利用幅值特征替代短时幅值特征，幅值特征在低信噪比下比短时幅值特征更敏感，同时加上短时幅值差特征，可以克服幅值特征不能检测到某些语音的缺陷，具有良好的语音激活检测性能。

附图说明

图1为本发明超低功耗语音激活检测方法流程图。

图2为本发明实施例一超低功耗语音激活检测方法流程图。

图3为本发明实施例二超低功耗语音激活检测方法流程图。

图4为本发明前后两帧没有重叠时的数据帧与采样点关系示意图。

图5为本发明前后两帧有重叠时的数据帧与采样点关系示意图。

图6为本发明语音激活检测装置方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

一、本发明提供了一种语音激活检测方法(第一种语音激活检测方法)，通过短时能量(Short Time Energy，简称STE，即一帧语音信号的能量)和过零计数(Zero CrossCounter，简称ZCC，即一帧语音时域信号穿过0(时间轴)的次数)来测定。

在信噪比(Signal to Noise Ratio，简称SNR，即信号与噪声功率之比)不是很低的情况下，语音片段的短时能量相对较大，但是过零计数相对较小；而非语音片段的短时能量相对较小，但是过零计数相对较大。因为语音信号能量绝大部分包含在低频带内，而噪音信号通常能量较小且含有较高频段的信息。

故而可以通过测量语音信号的短时能量和过零计数这两个特征并且与两个门限(阈值)进行对比，从而判断语音信号与非语音信号。

例如，对语音信号分帧时取一帧20ms，此处输入信号采样率假设为8000HZ，则每帧长度为160样点(Sample)。

所述短时能量的计算方法是帧内信号的平方和，过零计数的计算方法是将帧内所有样点平移1，再对应点做乘积，符号为负的则说明此处过零，只需将帧内所有负数乘积数目求出，则得到该帧的过零率。

最后每帧设立一个STE门限和ZCC门限，如果STE高于STE门限并且低于ZCC门限则认为检测到语音，从而激活后级的语音系统(比如KWS)。

第一种语音激活检测方法适用于较高SNR场景下的语音激活检测，能够满足较高SNR场景下的语音激活检测需求。

二、本发明还提供了另一种语音激活检测方法(第二种语音激活检测方法)，根据每个样点的幅值(包络)更新幅值门限。如果当前采样点幅值乘以一个系数(该系数是2的幂次时，可以不需要乘法器实现乘法)大于门限，则幅值门限增加；如果当前采样点幅值乘一个系数小于门限，则幅值门限减小。若当前幅值大于幅值门限则检测到语音，从而激活后级的语音系统。

相较于第一种语音激活检测方法，第二种语音激活检测方法实现方式更为简单，只需要用到加法器，加法器相较于乘法器面积和功耗都会更小，因此第二种语音激活检测方法有利于降低功耗，能够适用于较高SNR场景下的语音激活检测。

三、本发明提供了又一种语音激活检测方法(第三种语音激活检测方法)，其为超低功耗语音激活检测方法，通过提取短时幅值差(Difference Of Short Time ABS，简称DSTABS，即统计一帧信号中相邻两点之差的绝对值之和)、短时幅值(Short Time ABS，简称STABS，即统计一帧信号的幅值之和)、幅值(Absolute，简称ABS，即信号幅度，信号有正负，幅值即求信号的绝对值)特征实现语音激活检测，不需要乘法器，降低了实现复杂度，减少了功耗。

具体的，如图1所示，所述超低功耗语音激活检测方法，包括：

获取待检测数据的幅值特征或短时幅值特征；以及

进一步的，所述超低功耗语音激活检测方法在获取待检测数据的幅值特征或短时幅值特征之前，还包括：确定信噪比；若所述信噪比大于等于一信噪比阈值则获取所述短时幅值特征，若所述信噪比小于一信噪比阈值则获取所述幅值特征。

其中，根据所述短时幅值特征对所述待检测数据进行语音激活检测，包括：若所述短时幅值特征大于等于一短时幅值门限，则检测到语音。根据所述幅值特征对所述待检测数据进行语音激活检测，包括：若所述幅值特征大于等于一幅值门限，则检测到语音；若所述幅值特征小于一幅值门限，则获取短时幅值差特征，根据所述短时幅值差特征对所述待检测数据进行语音激活检测。根据所述短时幅值差特征对所述待检测数据进行语音激活检测，包括：若所述短时幅值差特征大于等于一短时幅值差门限，则检测到语音。

所述超低功耗语音激活检测方法，在信噪比较高时利用短时幅值特征进行语音激活检测，从而可以克服幅值特征在突发噪声中的缺陷；在信噪比较低时，利用幅值特征替代短时幅值特征，幅值特征在低信噪比下比短时幅值特征更敏感，同时加上短时幅值差特征，可以克服幅值特征不能检测到某些语音(例如STE低、ZCC高的语音)的缺陷。

下面结合实施例一和实施例二详细介绍所述超低功耗语音激活检测方法。

实施例一

如图2所示，本实施例所述超低功耗语音激活检测方法，包括以下步骤：

S1，接收麦克风的采样数据(待检测数据)；

S2，判断SNR场景：

若为较高SNR场景(可预设一SNR阈值，若SNR大于等于所述SNR阈值，则确定为较高SNR场景)，则获取短时幅值特征，将短时幅值特征与短时幅值门限比较，短时幅值特征如果超过短时幅值门限，则检测到语音，否则重新回到步骤S1开始接收数据；

若为非较高SNR场景(若SNR小于所述SNR阈值，则确定为非较高SNR场景)，则获取幅值特征和短时幅值差特征，将幅值特征与幅值门限进行比较，幅值特征如果超过幅值门限则检测到语音，否则将短时幅值差特征与短时幅值差门限比较，短时幅值差特征如果超过短时幅值差门限则检测到语音，否则重新回到步骤S1开始接收数据。

实施例二

如图3所示，本实施例所述超低功耗语音激活检测方法，包括以下步骤：

S1，接收麦克风的采样数据；

S2，判断SNR场景：

若为较高SNR场景，则获取短时幅值特征，将短时幅值特征与短时幅值门限比较，短时幅值特征如果超过短时幅值门限，则检测到语音，否则重新回到步骤S1开始接收数据；

若为非较高SNR场景，则获取幅值特征，将幅值特征与幅值门限比较，幅值特征如果超过幅值门限则检测到语音，否则获取短时幅值差特征，将短时幅值差特征与短时幅值差门限比较，若短时幅值差特征超过短时幅值差门限，则检测到语音，否则重新回到步骤S1开始接收数据。

下面详细描述各个特征和门限的获取过程。

假设采样点(采样时刻)序号为0、1、2、3、......、n、......，麦克风信号当前采样点的采样值为x(n)；

假设帧的计数为0、1、2、3、......、m、......，一帧数据包含M个采样点。如图4所示，若前后两帧没有重叠(Overlap)，则x(0)、x(1)、......、x(M-1)属于第0帧；x(M)、x(M+1)、......、x(2M-1)属于第1帧；......；x(m*M)、x(m*M+1)、......、x(m*M+M-1)属于第m帧；......。

1.第m帧短时幅值特征STABS(m)获取如下：

2.第m帧短时幅值门限STABS_Th(m)获取如下：

STABS_Th(m)＝STABS_Th(m-1)×α+STABS(m)×(1-α)；

如果是起始帧m＝0，则STABS_Th(0)＝STABS(0)；其中，α表示遗忘因子，可取0～1之间的任意数(记住历史值的比例)，STABS_Th(m-1)表示第m-1帧的短时幅值门限(历史值)。

3.幅值特征ABS(n)获取如下：

ABS(n)＝|x(n)|；

4.幅值门限ABS_Th(n)获取如下：

如果ABS(n)*Rou＞ABS_Th(n-1)，则ABS_Th(n)＝ABS_Th(n-1)+β；否则ABS_Th(n)＝ABS_Th(n-1)-β2；

其中，β表示向上修正值，为远小于ABS_Th的正数，ABS_Th(n-1)表示第n-1个采样点的幅值门限，x(n-1)表示第n-1采样点的采样值，β2表示向下修正值，为远小于ABS_Th的正数，Rou表示更新倍数。

5.短时幅值差DSTABS(m)特征获取如下：

6.短时幅值差门限DSTABS_Th(m)获取如下：

DSTABS_Th(m)＝DSTABS_Th(m-1)×α2+DSTABS(m)×(1-α2)；

如果是起始帧m＝0，则DSTABS_Th(0)＝DSTABS(0)。

其中，α2表示遗忘因子，可取0～1之间的任意数，DSTABS_Th(m-1)表示第m-1帧的短时幅值差门限。

本发明可以节省乘法器，在短时幅值门限、短时幅值差门限计算过程中的遗忘因子(alpha，α2和α)滤波，可以将alpha值设为1减2的负指数幂，这样就可以用加法代替。本发明在保持低复杂度的同时还有很好的语音激活检测性能。

此外，在特征获取时，假设部分是可以变的，例如分帧是没有假设重叠的，实际多数做法是会做重叠，如图5所示，假设重叠了M-N点，N＜M：0、1、......、M-1属于第0帧；采样点N、N+1、......、N+M-1属于第1帧；......；具体不再赘述。

在各特征与对应的门限比较时，还可以将门限乘以一系数之后再与特征进行比较，具体过程类似，此处不再赘述。

本发明还提供了一种语音激活检测装置，如图6所示，所述语音激活检测装置包括：

进一步的，所述语音激活检测装置还包括：确定模块，用于确定信噪比；其中，若所述信噪比大于等于一信噪比阈值则所述获取模块获取所述短时幅值特征，若所述信噪比小于一信噪比阈值则所述获取模块获取所述幅值特征。

具体的，所述语音激活检测模块用于根据所述短时幅值特征对所述待检测数据进行语音激活检测：若所述短时幅值特征大于等于一短时幅值门限，则检测到语音。所述语音激活检测模块用于根据所述幅值特征对所述待检测数据进行语音激活检测：若所述幅值特征大于等于一幅值门限，则检测到语音；若所述幅值特征小于一幅值门限，则所述获取模块还用于获取短时幅值差特征，所述语音激活检测模块还用于根据所述短时幅值差特征对所述待检测数据进行语音激活检测。更具体而言，所述语音激活检测模块还用于根据所述短时幅值差特征对所述待检测数据进行语音激活检测，包括：若所述短时幅值差特征大于等于一短时幅值差门限，则检测到语音。

所述幅值特征、短时幅值特征、短时幅值差特征、幅值门限、短时幅值门限、短时幅值差门限的获取过程如前所述，此处不再赘述。

此外，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的语音激活检测方法。

至此，已经结合附图对本发明进行了详细描述。依据以上描述，本领域技术人员应当对本发明有了清楚的认识。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

当然，根据实际需要，本发明计算系统还可以包含其他的部分，由于同本发明的创新之处无关，此处不再赘述。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将所述发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面发明的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入所述具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与所述实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中发明的所有特征以及如此发明的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中发明的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的相关设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

再者，说明书与权利要求中所使用的序数例如“第一”、“第二”等的用词，以修饰相应的元件，其本身并不意含及代表所述元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，所述些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能作出清楚区分。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音激活检测方法，其特征在于，包括：

获取待检测数据的幅值特征；以及

根据所述幅值特征对所述待检测数据进行语音激活检测；

若所述幅值特征大于等于一幅值门限，则检测到语音；

2.根据权利要求1所述的语音激活检测方法，其特征在于，在获取待检测数据的幅值特征之前，还包括：

确定信噪比；

若所述信噪比大于等于一信噪比阈值则获取短时幅值特征，若所述信噪比小于一信噪比阈值则获取所述幅值特征。

3.根据权利要求2所述的语音激活检测方法，其特征在于，所述方法还包括：

根据所述短时幅值特征对所述待检测数据进行语音激活检测，若所述短时幅值特征大于等于一短时幅值门限，则检测到语音。

4.根据权利要求1所述的语音激活检测方法，其特征在于，根据所述短时幅值差特征对所述待检测数据进行语音激活检测，包括：若所述短时幅值差特征大于等于一短时幅值差门限，则检测到语音。

5.根据权利要求3所述的语音激活检测方法，其特征在于，所述短时幅值特征及短时幅值门限分别满足以下关系式：

STABS_Th(m)＝STABS_Th(m-1)×α+STABS(m)×(1-α)；

6.根据权利要求5所述的语音激活检测方法，其特征在于，若起始帧m＝0，则STABS_Th(0)＝STABS(0)。

7.根据权利要求1所述的语音激活检测方法，其特征在于，所述幅值特征及幅值门限分别满足以下关系式：

ABS(n)＝|x(n)|；

8.根据权利要求1所述的语音激活检测方法，其特征在于，所述短时幅值差特征及短时幅值差门限分别满足以下关系式：

DSTABS_Th(m)＝DSTABS_Th(m-1)×α2+DSTABS(m)×(1-α2)；

9.根据权利要求8所述的语音激活检测方法，其特征在于，若起始帧m＝0，则短时幅值差门限DSTABS_Th(0)＝DSTABS(0)。

10.一种语音激活检测装置，其特征在于，包括：

获取模块，用于获取待检测数据的幅值特征；以及语音激活检测模块，用于根据所述幅值特征对所述待检测数据进行语音激活检测；

若所述幅值特征大于等于一幅值门限，则检测到语音；

11.根据权利要求10所述的语音激活检测装置，其特征在于，还包括：

确定模块，用于确定信噪比；

其中，若所述信噪比大于等于一信噪比阈值则所述获取模块获取短时幅值特征，若所述信噪比小于一信噪比阈值则所述获取模块获取所述幅值特征。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的语音激活检测方法。