CN107945793A

CN107945793A - 一种语音激活检测方法及装置

Info

Publication number: CN107945793A
Application number: CN201711423558.0A
Authority: CN
Inventors: 晏青
Original assignee: Speakin Technologies Co ltd
Current assignee: Speakin Technologies Co ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-04-20

Abstract

本发明实施例公开了一种语音激活检测方法及装置。本发明的语音激活检测并非进行实时检测，而是对一段预置时长的待检测音频数据进行检测处理，因为说话人识别系统的目的是为了辨识说话人身份，并不要求实时处理说话人的语音信息，因此实时性要求低，准确性要求高，所以可以通过积累一段的音频数据以提高准确性，同时提取每一帧待检测音频数据的MFCC特征并进行聚类，传统的算法是实时计算每一帧是否是语音帧，为了保证实时性牺牲了准确性，而通过聚类的相似度计算可以明显区分语音帧和非语音帧，输出一系列聚类标签，通过辨识各个聚类标签内的内容即可分别输出语音帧和非语音帧，提高了准确性，解决了当前的语音激活检测技术的准确率较低的技术问题。

Description

一种语音激活检测方法及装置

技术领域

本发明涉及语音激活领域，尤其涉及一种语音激活检测方法及装置。

背景技术

语音激活检测(Voice Activty Detection，VAD)目的是用来检测语音会话中是否有语音存在，即正确区分语音和各种背景噪声。

通过语音激活检测技术可以提供语音识别的识别率，提高通讯系统的平均利用率，在无线通讯或者手持通讯设备中应用则可以降低设备功率，延长电池使用时间，在编码率的语音编码中应用则可以控制传输的码率。

但是传统的语音激活检测技术为了在网络传输中降低无意义的语音传输，节省占用的带宽，所以都是针对实时传输提出，而算法的准确率要求相对较低。

但是在说话人识别系统中，语音激活检测技术检测的是一段非实时的音频数据，对传输的实时性要求比通信系统低，但是对语音激活检测的准确率的要求远远高于通信系统，语音激活检测的输出结果将极大影响了说话人识别的精度。因此，导致了当前的语音激活检测技术的准确率较低的技术问题。

发明内容

本发明提供了一种语音激活检测方法及装置，解决了当前的语音激活检测技术的准确率较低的技术问题。

本发明提供了一种语音激活检测方法，包括：

S1：获取预置时长的待检测音频数据，对待检测音频数据进行分帧处理；

S2：对每一帧待检测音频数据进行MFCC特征提取，获取每一帧待检测音频数据的MFCC特征；

S3：将每一帧待检测音频数据的MFCC特征进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据；

S4：对各个聚类标签内的待检测音频数据进行辨识获取语音帧对应的聚类标签和非语音帧对应的聚类标签。

优选地，步骤S3具体包括：将每一帧待检测音频数据的MFCC特征通过K-means算法进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据。

优选地，步骤S1之后，步骤S2之前还包括：步骤S01；

S01：对分帧后的待检测音频数据进行预加重处理，通过高通滤波器过滤预加重后的待检测音频数据。

优选地，步骤S01之后，步骤S2之前还包括：步骤S02；

S02：对滤波后的待检测音频数据通过维纳滤波算法进行降噪处理。

优选地，待检测音频数据为通过PCM编码的音频数据。

本发明提供了一种语音激活检测装置，包括：

分帧处理单元，用于获取预置时长的待检测音频数据，对待检测音频数据进行分帧处理；

特征提取单元，用于对每一帧待检测音频数据进行MFCC特征提取，获取每一帧待检测音频数据的MFCC特征；

聚类输出单元，用于将每一帧待检测音频数据的MFCC特征进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据；

聚类辨识单元，用于对各个聚类标签内的待检测音频数据进行辨识获取语音帧对应的聚类标签和非语音帧对应的聚类标签。

优选地，聚类输出单元，具体用于将每一帧待检测音频数据的MFCC特征通过K-means算法进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据。

优选地，还包括：加重滤波单元；

加重滤波单元，用于对分帧后的待检测音频数据进行预加重处理，通过高通滤波器过滤预加重后的待检测音频数据。

优选地，还包括：降噪处理单元；

降噪处理单元，用于对滤波后的待检测音频数据通过维纳滤波算法进行降噪处理。

优选地，待检测音频数据为通过PCM编码的音频数据。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种语音激活检测方法，包括：S1：获取预置时长的待检测音频数据，对待检测音频数据进行分帧处理；S2：对每一帧待检测音频数据进行MFCC特征提取，获取每一帧待检测音频数据的MFCC特征；S3：将每一帧待检测音频数据的MFCC特征进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据；S4：对各个聚类标签内的待检测音频数据进行辨识获取语音帧对应的聚类标签和非语音帧对应的聚类标签。

本发明的语音激活检测并非像传统的语音激活检测技术一样进行实时检测，而是对一段预置时长的待检测音频数据进行检测处理，因为说话人识别系统的目的是为了辨识说话人身份，并不要求实时处理说话人语音信息，因此实时性要求低，准确性要求高，所以可以通过积累一段的音频数据以提高准确性，同时提取每一帧待检测音频数据的MFCC特征并进行聚类，传统的算法是实时计算每一帧是否是语音帧，为了保证实时性牺牲了准确性，而通过聚类的相似度计算可以明显区分语音帧和非语音帧，输出一系列聚类标签，通过辨识各个聚类标签内的内容即可分别输出语音帧和非语音帧，提高了准确性，解决了当前的语音激活检测技术的准确率较低的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种语音激活检测方法的一个实施例的流程示意图；

图2为本发明实施例提供的一种语音激活检测方法的另一个实施例的流程示意图；

图3为本发明实施例提供的一种语音激活检测装置的一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种语音激活检测方法及装置，解决了当前的语音激活检测技术的准确率较低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种语音激活检测方法的一个实施例，包括：

步骤101：获取预置时长的待检测音频数据，对待检测音频数据进行分帧处理；

需要说明的是，语音激活检测(Voice Activty Detection，VAD)目的是用来检测语音会话中是否有语音存在，即正确区分语音和各种背景噪声；

通过语音激活检测技术可以提供语音识别的识别率，提高通讯系统的平均利用率，在无线通讯或者手持通讯设备中应用则可以降低设备功率，延长电池使用时间，在编码率的语音编码中应用则可以控制传输的码率；

但是传统的语音激活检测技术为了在网络传输中降低无意义的语音传输，节省占用的带宽，所以都是针对实时传输提出，而算法的准确率要求相对较低；

本实施例的语音激活检测并非像传统的语音激活检测技术一样进行实时检测，而是对一段预置时长的待检测音频数据进行检测处理，因为说话人识别系统的目的是为了辨识说话人身份，并不要求实时处理说话人语音信息，因此实时性要求低，准确性要求高，所以可以通过积累一段的音频数据以提高准确性；

由于说话人识别系统的应用场景多种多样，所以预置时长的待检测音频数据可以是积累预置时长的通话语音，也可是从一段已经录音完毕的语音中截取预置时长的语音片段。

步骤102：对每一帧待检测音频数据进行MFCC特征提取，获取每一帧待检测音频数据的MFCC特征；

需要说明的是，MFCC(Mel-frequency cepstral coefficients，梅尔频率倒谱系数)，梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系，梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征，主要用于语音数据特征提取和降低运算维度。

步骤103：将每一帧待检测音频数据的MFCC特征进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据；

需要说明的是，聚类分析(Cluster)，又称群分析，它是研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法；

聚类(Cluster)分析是由若干模式(Pattern)组成的，通常，模式是一个度量(Measurement)的向量，或者是多维空间中的一个点；

聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性；

聚类之后会将具备一定相似度的待检测音频数据帧聚为一类，赋予相同的聚类标签，即每一帧待检测音频数据都被赋予了对应的聚类标签。

步骤104：对各个聚类标签内的待检测音频数据进行辨识获取语音帧对应的聚类标签和非语音帧对应的聚类标签。

需要说明的是，分别对每一个聚类标签进行辨识，判断是语音帧还是非语音帧的聚类标签，辨识的方法根据需要进行选择，如当某个聚类标签内随机提取一定数量的语音帧通过动态门限判决准则进行辨识，若符合语音帧标准的比例达到预置阈值则说明这个聚类标签为语音帧对应的聚类标签；

也可以是检测之前预先将训练语音帧进行聚类，记录语音帧的聚类标签，将训练非语音帧进行聚类，记录非语音帧的聚类标签，然后将待检测音频数据进行聚类后，将输出的聚类标签与记录中的聚类标签进行比对判断是语音帧还是非语音帧；

由于语音激活检测的目的是为了分辨语音和噪声，因此获取了语音帧对应的聚类标签和非语音帧对应的聚类标签就可以实现语音激活检测的目的，说话人识别系统后续需要调用语音帧或者非语音帧时直接根据语音帧对应的聚类标签或者非语音帧对应的聚类标签进行调用即可。

同时提取每一帧待检测音频数据的MFCC特征并进行聚类，传统的算法是实时计算每一帧是否是语音帧，为了保证实时性牺牲了准确性，而通过聚类的相似度计算可以明显区分语音帧和非语音帧，输出一系列聚类标签，通过辨识各个聚类标签内的内容判断该聚类标签对应的是语音帧还是非语音帧即可分别输出语音帧和非语音帧，提高了准确性，解决了当前的语音激活检测技术的准确率较低的技术问题。

以上为本发明实施例提供的一种语音激活检测方法的一个实施例，以下为本发明实施例提供的一种语音激活检测方法的另一个实施例。

请参阅图2，本发明实施例提供了一种语音激活检测方法的另一个实施例，包括：

步骤201：获取预置时长的待检测音频数据，对待检测音频数据进行分帧处理；

需要说明的是，由于说话人识别系统的应用场景多种多样，所以预置时长的待检测音频数据可以是积累预置时长的通话语音，也可是从一段已经录音完毕的语音中截取预置时长的语音片段；

分帧处理中每一帧的时长可以根据需要进行设置。

步骤202：对分帧后的待检测音频数据进行预加重处理，通过高通滤波器过滤预加重后的待检测音频数据；

需要说明的是，元音能量主要集中在1KHz以下，并且以6dB/十倍频的速度下降，可以使用预加重技术增强高频能量，这在回声消除以及语音识别中的特征提取(共振峰，LPC)中用到，声道的终端是口和唇，口唇辐射对低频影响比较小，但是对高频段影响比较大，预加重技术为了提升高频分辨率；

进行预加重处理之后通过高通滤波器提高高频细节。

步骤203：对滤波后的待检测音频数据通过维纳滤波算法进行降噪处理；

需要说明的是，维纳滤波(wiener filtering)算法是一种基于最小均方误差准则、对平稳过程的最优估计器；

这种滤波器的输出与期望输出之间的均方误差为最小，可用于提取被平稳噪声所污染的信号。

步骤204：对每一帧待检测音频数据进行MFCC特征提取，获取每一帧待检测音频数据的MFCC特征；

步骤205：将每一帧待检测音频数据的MFCC特征通过K-means算法进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据；

需要说明的是，K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

步骤206：对各个聚类标签内的待检测音频数据进行辨识获取语音帧对应的聚类标签和非语音帧对应的聚类标签。

需要说明的是，输出语音帧对应的聚类标签和非语音帧对应的聚类标签即完成了语音激活区分语音片段和噪声的目的，后续需要只对语音片段进行处理时，则提取语音帧对应的聚类标签中的待检测音频数据帧即可，需要删除噪声片段则删除非语音帧对应的聚类标签中的待检测音频数据帧即可。

进一步地，待检测音频数据为通过PCM编码的音频数据。

需要说明的是，PCM(Pulse Code Modulation，脉码调制录音)，PCM编码就是将声音等模拟信号变成符号化的脉冲列，再予以记录；

PCM信号是由[1]、[0]等符号构成的数字信号，而未经过任何编码和压缩处理，与模拟信号比，它不易受传送系统的杂波及失真的影响，动态范围宽，可得到音质相当好的影响效果，是一种没有压缩的编码方式。

本实施例的语音激活检测并非像传统的语音激活检测技术一样进行实时检测，而是对一段预置时长的待检测音频数据进行检测处理，因为说话人识别系统的目的是为了辨识说话人身份，并不要求实时处理说话人语音信息，因此实时性要求低，准确性要求高，所以可以通过积累一段的音频数据以提高准确率；

同时提取每一帧待检测音频数据的MFCC特征并进行聚类，传统的算法是实时计算每一帧是否是语音帧，为了保证实时性牺牲了准确性，而通过聚类的相似度计算可以明显区分语音帧和非语音帧，输出一系列聚类标签，通过辨识各个聚类标签内的内容判断该聚类标签对应的是语音帧还是非语音帧即可分别输出语音帧和非语音帧，通过时间的积累换取更高的算法准确率，解决了当前的语音激活检测技术的准确率较低的技术问题。

以上为本发明实施例提供的一种语音激活检测方法的另一个实施例，以下为本发明实施例提供的一种语音激活检测装置的一个实施例。

请参阅图3，本发明实施例提供了一种语音激活检测装置的一个实施例，包括：

分帧处理单元301，用于获取预置时长的待检测音频数据，对待检测音频数据进行分帧处理；

特征提取单元304，用于对每一帧待检测音频数据进行MFCC特征提取，获取每一帧待检测音频数据的MFCC特征；

聚类输出单元305，用于将每一帧待检测音频数据的MFCC特征进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据；

聚类辨识单元306，用于对各个聚类标签内的待检测音频数据进行辨识获取语音帧对应的聚类标签和非语音帧对应的聚类标签。

进一步地，聚类输出单元305，具体用于将每一帧待检测音频数据的MFCC特征通过K-means算法进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据。

进一步地，还包括：加重滤波单元302；

加重滤波单元302，用于对分帧后的待检测音频数据进行预加重处理，通过高通滤波器过滤预加重后的待检测音频数据。

进一步地，还包括：降噪处理单元303；

降噪处理单元303，用于对滤波后的待检测音频数据通过维纳滤波算法进行降噪处理。

进一步地，待检测音频数据为通过PCM编码的音频数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音激活检测方法，其特征在于，包括：

2.根据权利要求1所述的一种语音激活检测方法，其特征在于，步骤S3具体包括：将每一帧待检测音频数据的MFCC特征通过K-means算法进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据。

3.根据权利要求1所述的一种语音激活检测方法，其特征在于，步骤S1之后，步骤S2之前还包括：步骤S01；

4.根据权利要求3所述的一种语音激活检测方法，其特征在于，步骤S01之后，步骤S2之前还包括：步骤S02；

5.根据权利要求1所述的一种语音激活检测方法，其特征在于，待检测音频数据为通过PCM编码的音频数据。

6.一种语音激活检测装置，其特征在于，包括：

7.根据权利要求6所述的一种语音激活检测装置，其特征在于，聚类输出单元，具体用于将每一帧待检测音频数据的MFCC特征通过K-means算法进行聚类分析，获取聚类后的聚类标签及每一个聚类标签对应的待检测音频数据。

8.根据权利要求6所述的一种语音激活检测装置，其特征在于，还包括：加重滤波单元；

9.根据权利要求8所述的一种语音激活检测装置，其特征在于，还包括：降噪处理单元；

10.根据权利要求6所述的一种语音激活检测装置，其特征在于，待检测音频数据为通过PCM编码的音频数据。