CN111105815B

CN111105815B - 一种基于语音活动检测的辅助检测方法、装置及存储介质

Info

Publication number: CN111105815B
Application number: CN202010063089.1A
Authority: CN
Inventors: 郭军勇; 吴闽华; 孟庆晓
Original assignee: Shenzhen Genew Technologies Co Ltd
Current assignee: Shenzhen Genew Technologies Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2022-04-19
Anticipated expiration: 2040-01-20
Also published as: CN111105815A

Abstract

本发明所提供的一种基于语音活动检测的辅助检测方法、装置及存储介质，包括：获取音频中当前帧和前一帧之间的共振峰相关性，并将所述共振峰相关性与预先设置的相关性门限值进行对比；若所述共振峰相关性大于或等于所述相关性门限值，则判断当前帧为音乐帧。本发明利用语音和音乐中共振峰会存在并且持续较长的时间，而噪声则没有长时间的共振峰信息，对VAD的检测功能做增强，使其能准确地检测出音乐信号，在音乐的持续时间里，VAD检测时一直有语音的标志，进而不会将某段音乐当做噪音进行处理,辅助VAD的检测，使得VAD检测不会产生误判，避免了将音乐信号误当作舒适噪音传输影响了用户的体验。

Description

一种基于语音活动检测的辅助检测方法、装置及存储介质

技术领域

本发明涉及语音活动检测技术领域，尤其涉及的是一种基于语音活动检测的辅助检测方法、装置及存储介质。

背景技术

语音活动检测(Voice Activity Detection，VAD)又称语音端点检测，语音边界检测，是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源，有利于减少用户感觉到的端到端的时延。具体的，VAD检测技术是对采集的音频进行检测，通过对音频进行处理，判断音频是否符合识别要求。目前的VAD检测主要是通过计算采集到的一段音频的能量值来判断音频处于语音还是背景噪音。

在进行VAD检测时，对于检测器输入人说话的信号(语音)，VAD一般能够正确的进行判断。但是，当输入信号是音乐的情况下，VAD则有可能工作不正常，因为音乐中的能量值有高有低，因此，在一段连续音乐信号输入的情况下，VAD可能时而能检测到语音，时而又检测到静音。通常VAD工作的方式是本端检测到静音(背景噪音)，向远端发送舒适噪音包，远端收到舒适噪音包再产生舒适噪音，因为舒适噪音包很小，节省了带宽。因此，在播放彩铃音频或者在通话中出现必要的音乐时，时常将音乐中的某段检测为静音，导致信号被擦除，然后通过舒适噪音包发到远端，远端产生舒适噪音来替代音乐，这样，远端用户听到的音乐则是断断续续的，因此，现有的VAD检测，可能会产生误判，而将音乐信号误当作舒适噪音传输影响了用户的体验。

因此，现有技术存在缺陷，有待改进与发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于语音活动检测的辅助检测方法、装置及存储介质，旨在解决现有技术中VAD检测可能会产生误判，为用户带来不便的问题。

本发明解决技术问题所采用的技术方案如下：

一种基于语音活动检测的辅助检测方法，其中，包括：

获取音频中当前帧和前一帧之间的共振峰相关性，并将所述共振峰相关性与预先设置的相关性门限值进行对比；

若所述共振峰相关性大于或等于所述相关性门限值，则判断当前帧为音乐帧。

进一步地，所述获取音频中当前帧和前一帧之间的共振峰相关性，并将所述共振峰相关性与预先设置的相关性门限值进行对比的步骤之后还包括：

若所述共振峰相关性小于所述相关性门限值，则判断当前帧为噪音帧。

进一步地，所述获取音频中当前帧和前一帧之间的共振峰相关性，并将所述共振峰相关性与预先设置的相关性门限值进行对比的步骤之前还包括：

预先设置相关性门限值、连续音乐帧门限值及连续噪音帧门限值。

进一步地，若所述共振峰相关性大于或等于所述相关性门限值，则判断当前帧为音乐帧的步骤具体包括：

若所述共振峰相关性大于或等于所述相关性门限值，则判断当前帧为音乐帧，并累计连续的音乐帧帧数；

当累计的音乐帧帧数达到预先设置的连续音乐帧门限值时，确定当前音频为音乐。

进一步地，若所述共振峰相关性小于所述相关性门限值，则判断当前帧为噪音帧的步骤具体包括：

若所述共振峰相关性小于所述相关性门限值，则判断当前帧为噪音帧，并累计连续的噪音帧帧数；

当累计的噪音帧帧数达到预先设置的连续噪音帧门限值时，确定当前音频为噪音。

进一步地，当累计的音乐帧帧数达到预先设置的连续音乐帧门限值时，确定当前音频为音乐的步骤之后还包括：

当所述共振峰相关性小于所述相关性门限值时，将累计的音乐帧帧数清零。

进一步地，当累计的噪音帧帧数达到预先设置的连续噪音帧门限值时，确定当前音频为噪音的步骤之后还包括：

当所述共振峰相关性大于或等于所述相关性门限值时，将累计的噪音帧帧数清零。

进一步地，所述基于语音活动检测的辅助检测方法包括：

当确定当前音频为音乐时，将音频的标识更改为音乐；

当确定当前音频为噪音时，将音频的标识更改为噪音。

本发明还提供了一种装置，其中，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语音活动检测的辅助检测程序，所述基于语音活动检测的辅助检测程序被所述处理器执行时实现如上所述的基于语音活动检测的辅助检测方法的步骤。

本发明还提供了一种存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序能够被执行以用于实现如上所述的基于语音活动检测的辅助检测方法。

附图说明

图1是本发明中基于语音活动检测的辅助检测方法较佳实施例的流程图。

图2是本发明中装置的较佳实施例的功能原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明是对于VAD检测做出的辅助检测方法，特别是针对音乐应用时的检测(例如彩铃)，帮助VAD检测准确判断音频是音乐还是噪音。

本发明通过检测共振峰的相关信息来准确判断音频。共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道(共振腔)的物理特征。共振峰参数包括共振峰频率、频带宽度和幅值，共振峰信息包含在语音频谱的包络中，因此，共振峰参数提取的关键是估计语音频谱包络，并认为谱包络中的最大值就是共振峰。

在语音和音乐中，共振峰会存在并且持续较长的时间，而噪声则没有长时间的共振峰信息。

请参见图1，图1是本发明中一种基于语音活动检测的辅助检测方法的流程图。如图1所示，本发明实施例所述的基于语音活动检测的辅助检测方法包括以下步骤：

S100、获取音频中当前帧和前一帧之间的共振峰相关性，并将所述共振峰相关性与预先设置的相关性门限值进行对比。

具体的，利用音乐的2个特征来判断音乐的存在：第一、音乐信号是连续的，通常会持续时间较长；第二、音乐具有周期性，而且其频谱也比背景噪音稳定，共振峰是语音编码的关键参数，通过评估共振峰的相关性来提高音乐检测的准确性。

经过研究发现，在传统VAD检测将音乐误检为噪音的例子中，通常这些音乐的频率都是稳定的，因此，在传统VAD检测的基础上，利用这2个特性来对VAD的检测功能做增强，使其能准确地检测出音乐信号，在音乐的持续时间里，VAD检测时一直有语音的标志，进而不会将某段音乐当做噪音进行处理。

在一种实现方式中，所述S100之前还包括：

S10、预先设置相关性门限值、连续音乐帧门限值及连续噪音帧门限值。

具体的，研发人员根据大量实例学习的经验值来设置相关性门限值Relation_Threshold，统计的连续音乐帧门限值Consecutive_Music_Frames_Threshold，连续噪音帧门限值Consecutive_Noise_Frames_Threshold。当检测的音频中的共振峰相关性大于或等于相关性门限值Relation_Threshold时，进行音乐帧的统计；当检测的音频中的共振峰相关性小于相关性门限值Relation_Threshold时，进行噪音帧的统计。连续音乐帧门限值Consecutive_Music_Frames_Threshold是指当音乐帧的帧数达到此门限值时，则可确定此时音频为音乐；连续噪音帧门限值Consecutive_Noise_Frames_Threshold是指当噪音帧的帧数达到此门限值时，则可确定此时音频为噪音，增加了判断音频的准确性。

S200、若所述共振峰相关性大于或等于所述相关性门限值，则判断当前帧为音乐帧。

所述S200具体包括：

S210、若所述共振峰相关性大于或等于所述相关性门限值，则判断当前帧为音乐帧，并累计连续的音乐帧帧数；

S220、当累计的音乐帧帧数达到预先设置的连续音乐帧门限值时，确定当前音频为音乐。

具体的，定义Consecutive_Music_Frames来记录连续的音乐帧帧数，即，当当前音频的共振峰相关性R_max≥Relation_Threshold时，开始记录音乐帧帧数，直至当前帧切换为噪音帧。共振峰相关性的计算方式为根据输入当前帧信号计算R0，根据前一帧信号和当前帧计算共振峰多个相关参数R，并从多个相关参数R中取一个最大值R，计算出R_max＝R/R0；上述计算方式采用了现有技术基于线性预测(LPC)共振峰的提取方法，在此不再赘述。

下面举例进行简单说明：

一个20ms的G711A编码的帧，一帧的数据是160字节，申请一个280字节的内存，将先前一帧160字节的后120字节的数据存到该内存的前120字节，而当前帧的160字节存到内存的后160字节。该内存记为buff.

R0是计算当前帧信号160字节每个字节值的平方和：

for(k＝0；k<160；k++)

{

R0+＝buff[120+k]*buff[120+k]；

}

计算共振峰相关性是将前一帧的数据和当前帧数据组成的280字节按一定规则取不同2个位置的值的乘积，160次的乘积和，总共算出(120-8)/2＝56次这种乘积和，取出最大的一个值R_max，

然后执行R_max＝R_max/R0得出相关性系数。

进一步地，所述步骤S200之后还包括：

S300、若所述共振峰相关性小于所述相关性门限值，则判断当前帧为噪音帧。

在一种实现方式中，所述S300具体包括：

S310、若所述共振峰相关性小于所述相关性门限值R_max<Relation_Threshold，则判断当前帧为噪音帧，并累计连续的噪音帧帧数；

S320、当累计的噪音帧帧数达到预先设置的连续噪音帧门限值时，确定当前音频为噪音。

具体的，定义Consecutive_Noise_Frames来记录连续的噪音帧帧数，即，当当前音频的共振峰R_max<R_th时，开始记录噪音帧帧数，直至当前帧切换为音乐帧。

进一步地，所述步骤S220之后还包括：

S230、当所述共振峰相关性小于所述相关性门限值时，将累计的音乐帧帧数清零。

所述步骤S320之后还包括：

S330、当所述共振峰相关性大于或等于所述相关性门限值时，将累计的噪音帧帧数清零。

也就是说，当在出现条件R_max≥Relation_Threshold和R_max<Relation_Threshold切换的时候，将Consecutive_Music_Frames和Consecutive_Noise_Frames都重置为0。优选的，根据经验值，相关性门限值Relation_Threshold可以取0.6。

进一步地，所述基于语音活动检测的辅助检测方法包括：

当确定当前音频为音乐时，将音频的标识更改为音乐；

当确定当前音频为噪音时，将音频的标识更改为噪音。

具体的，当Consecutive_Music_Frames大于门限值Consecutive_Music_Frames_Threshold时认为是音乐，并将音频的标识更改为音乐。当Consecutive_Noise_Frames大于门限值Consecutive_Noise_Frames_Threshold时认为是噪音，并将音频的标识更改为噪音。当Consecutive_Music_Frames和Consecutive_Noise_Frames都不满足要求时，以传统VAD的检测结果为准。也就是说，本发明仍然以原有的VAD检测为主，由于在进行语音通话时一般不会出现误判，可以不开启本发明的辅助检测，在处于音乐场景时，容易出现误判，则同时开启VAD检测和本发明的辅助检测，提高检测的准确性。优选的，根据经验值，Consecutive_Music_Frames_Threshold可以设置为6，Consecutive_Noise_Frames_Threshold可以设置为2。

如图2所示，本发明还提供了一种装置，包括存储器20、处理器10及存储在所述存储器20上并可在所述处理器10上运行的基于语音活动检测的辅助检测程序，所述基于语音活动检测的辅助检测程序被所述处理器10执行时实现如上所述的基于语音活动检测的辅助检测方法的步骤；具体如上所述。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序能够被执行以用于实现如上所述的基于语音活动检测的辅助检测方法；具体如上所述。

综上所述，本发明公开的一种基于语音活动检测的辅助检测方法、装置及存储介质，包括：获取音频中当前帧和前一帧之间的共振峰相关性，并将所述共振峰相关性与预先设置的相关性门限值进行对比；若所述共振峰相关性大于或等于所述相关性门限值，则判断当前帧为音乐帧。本发明利用语音和音乐中共振峰会存在并且持续较长的时间，而噪声则没有长时间的共振峰信息，对VAD的检测功能做增强，使其能准确地检测出音乐信号，在音乐的持续时间里，VAD检测时一直有语音的标志，进而不会将某段音乐当做噪音进行处理,辅助VAD的检测，使得VAD检测不会产生误判，为用户带来了方便。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于语音活动检测的辅助检测方法，其特征在于，包括：

当进行语音通话时，开启所述语音活动检测，并关闭所述辅助检测；当处于音乐场景时，同时开启所述语音活动检测和所述辅助检测；

2.根据权利要求1所述的基于语音活动检测的辅助检测方法，其特征在于，所述获取音频中当前帧和前一帧之间的共振峰相关性，并将所述共振峰相关性与预先设置的相关性门限值进行对比的步骤之后还包括：

3.根据权利要求2所述的基于语音活动检测的辅助检测方法，其特征在于，所述获取音频中当前帧和前一帧之间的共振峰相关性，并将所述共振峰相关性与预先设置的相关性门限值进行对比的步骤之前还包括：

4.根据权利要求3所述的基于语音活动检测的辅助检测方法，其特征在于，若所述共振峰相关性大于或等于所述相关性门限值，则判断当前帧为音乐帧的步骤具体包括：

5.根据权利要求4所述的基于语音活动检测的辅助检测方法，其特征在于，若所述共振峰相关性小于所述相关性门限值，则判断当前帧为噪音帧的步骤具体包括：

6.根据权利要求4所述的基于语音活动检测的辅助检测方法，其特征在于，当累计的音乐帧帧数达到预先设置的连续音乐帧门限值时，确定当前音频为音乐的步骤之后还包括：

7.根据权利要求5所述的基于语音活动检测的辅助检测方法，其特征在于，当累计的噪音帧帧数达到预先设置的连续噪音帧门限值时，确定当前音频为噪音的步骤之后还包括：

8.根据权利要求5所述的基于语音活动检测的辅助检测方法，其特征在于，所述基于语音活动检测的辅助检测方法包括：

当确定当前音频为音乐时，将音频的标识更改为音乐；

当确定当前音频为噪音时，将音频的标识更改为噪音。

9.一种装置，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语音活动检测的辅助检测程序，所述基于语音活动检测的辅助检测程序被所述处理器执行时实现如权利要求1-8任一项所述的基于语音活动检测的辅助检测方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序能够被执行以用于实现如权利要求1-8任一项所述的基于语音活动检测的辅助检测方法。