CN105810214A

CN105810214A - 语音激活检测方法及装置

Info

Publication number: CN105810214A
Application number: CN201410853916.1A
Authority: CN
Inventors: 孙廷玮; 林福辉
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2016-07-27
Anticipated expiration: 2034-12-31
Also published as: CN105810214B

Abstract

一种语音激活检测方法和语音激活检测装置，其中，所述语音激活检测方法包括：检测音频信号，获取所述音频信号的信噪比；比较所述音频信号的信噪比与预设阈值，根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换，其中，在所述语音状态，如果所述音频信号的信噪比小于所述预设阈值，则进入等待状态；在所述等待状态，如果所述音频信号的信噪比大于或等于所述预设阈值，则返回语音状态，如果所述音频信号的信噪比小于所述预设阈值，且持续时间大于或等于第一预设时间，则进入噪声状态。本发明语音激活检测方法和语音激活检测装置的鲁棒性好。

Description

语音激活检测方法及装置

技术领域

本发明涉及通信领域，尤其涉及一种语音激活检测方法和一种语音激活检测装置。

背景技术

语音激活检测(VAD：VoiceActiveDetection)是数字语音处理技术的基础，它提供一段音频信号中是否有语音信号存在的判断。语音激活检测通常是整个语音处理过程的第一步，例如，在语音通话过程中，双方通话的时间大概只占总通话时间的一半左右，另一半处于静音状态，采用语音激活检测后，可以使得通信系统只在人说话的时候传输，而在静音的时候停止信号的传输，将静音时占用的带宽分配给其他通信业务，有效利用了有限的信道带宽资源。此外，语音激活检测还可应用于噪声抑制、说话者身份识别和语音识别等语音处理领域。

在现有的语音激活检测系统中，通常会根据预先设置的判断标准，结合语音频谱、总能量和过零率(zero-crossingrate)等来进行判断。这种方法的优点是简单方便，且当应用于具有清晰的语音信号的环境时具有较好的效果。但是，该语音激活检测方法极度依赖于音频信号中语音的强度和类型，当语音信号强度较低、噪声不平稳时，其判断准确率较低。尤其是在语言表述的最后部分，语音能量通常较低，现有的语音激活检测方法的性能会严重下降，出现误报。

总之，现有技术的语音激活检测方法在语音能量较低时检测效果不佳。

发明内容

本发明解决的问题是，现有技术的语音激活检测方法在语音能量较低时检测性能不佳。

为解决上述问题，本发明实施例提供了一种语音激活检测方法，所述语音激活检测方法包括：检测音频信号，获取所述音频信号的信噪比；比较所述音频信号的信噪比与预设阈值，根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换，其中，在所述语音状态，如果所述音频信号的信噪比小于所述预设阈值，则进入等待状态；在所述等待状态，如果所述音频信号的信噪比大于或等于所述预设阈值，则返回语音状态，如果所述音频信号的信噪比小于所述预设阈值，且持续时间大于或等于第一预设时间，则进入噪声状态。

可选地，所述语音激活检测的结果还包括观察状态，根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括：在所述噪声状态，如果所述音频信号的信噪比大于或等于所述预设阈值，则进入观察状态；在所述观察状态，如果所述音频信号的信噪比小于所述预设阈值，则返回噪声状态，如果所述音频信号的信噪比大于或等于所述预设阈值，且持续时间大于或等于第二预设时间，则进入语音状态。

可选地，在所述语音状态、等待状态和观察状态，所述语音激活检测的结果为是；在所述噪声状态，所述语音激活检测的结果为否。

可选地，所述第一预设时间不小于80毫秒。

可选地，在检测所述音频信号的过程中，划分时间帧，获取每个时间帧内音频信号的信噪比。

可选地，所述每个时间帧内音频信号的信噪比基于当前帧的音频功率以及噪声功率的期望值获得。

可选地，所述第二预设时间不小于三个时间帧的长度。

可选地，所述预设阈值通过对仅包含背景噪声的音频样本训练获得。

可选地，所述预设阈值通过对所述音频信号起始一预设时间段内的音频训练获得。

对应地，本发明实施例还提供了一种语音激活检测装置，所述语音激活检测装置包括：检测单元，适于检测音频信号，获取所述音频信号的信噪比；比较单元，适于比较所述音频信号的信噪比与预设阈值；状态转换单元，适于根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换，其中，在所述语音状态，如果所述音频信号的信噪比小于或等于所述预设阈值，则进入等待状态；在所述等待状态，如果所述音频信号的信噪比大于或等于所述预设阈值，则返回语音状态，如果所述音频信号的信噪比小于所述预设阈值，且持续时间大于或等于第一预设时间，则进入噪声状态。

可选地，所述语音激活检测的结果还包括观察状态，所述状态转换单元根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括：在所述噪声状态，如果所述音频信号的信噪比大于或等于所述预设阈值，则进入观察状态；在所述观察状态，如果所述音频信号的信噪比小于所述预设阈值，则返回噪声状态，如果所述音频信号的信噪比大于或等于所述预设阈值，且持续时间大于或等于第二预设时间，则进入语音状态。

可选地，所述第一预设时间不小于80毫秒。

可选地，所述检测单元在检测所述音频信号的过程中，划分时间帧，获取每个时间帧内音频信号的信噪比。

可选地，所述检测单元基于当前帧的音频功率以及噪声功率的期望值获取每个时间帧内音频信号的信噪比。

可选地，所述第二预设时间不小于三个时间帧的长度。

可选地，还包括阈值获取单元，适于通过对仅包含背景噪声的音频样本训练获得所述预设阈值。

可选地，还包括阈值获取单元，适于通过对所述音频信号起始一预设时间段内的音频训练获得所述预设阈值。

与现有技术相比，本发明的技术方案具有以下优点：

在本发明实施例的语音激活检测方法中，将音频信号的信噪比与预设阈值进行比较，来决定语音激活检测的结果所处的状态，在语音状态中，如果检测到音频信号的信噪比低于所述预设阈值，不是直接进入噪声状态，而是进入等待状态，如果在所述等待状态中，所述音频信号的信噪比小于预设阈值的持续时间大于或等于第一预设时间，才进入噪声状态，而如果持续时间不足第一预设时间时，即检测到所述音频信号的信噪比大于或等于所述预设值时，则返回到语音状态。由于上述方法应用了时域中语音连贯发生的自然特性，不会在一段语音的能量较低的结尾部分由于音频信号的信噪比小于预设阈值而产生的误报，而进入噪声状态，具有更好的鲁棒性，适用于不同的应用环境。

对应地，本发明实施例的语音激活检测方法也具有上述的优点。

附图说明

图1是本发明一实施例的语音激活检测方法的状态机示意图；

图2是本发明一实施例的语音激活检测装置的结构示意图。

具体实施方式

本发明的发明人研究了现有技术的语音激活检测方法，发现现有的语音激活检测方法通过数学模型，以及对大量的语音数据库进行训练，来“趋近”语音。但是其由于没有意识到语言的自然特性，不能在不同的环境中均获得较佳的性能，而依赖于背景噪声以及语音能量的大小。本发明的发明人经研究还发现，人类语言具有自然特性，例如，在一段语言的结尾部分，在时域中通常具有较低的信号能量水平，或者在声谱图中没有清晰的特征，这也是现有技术的语音激活检测方法在一段语言的结尾部分输出错误的原因。

基于以上研究，本发明的发明人提出了一种语音激活检测方法，其为语音激活检测后处理的一种拖尾算法(hangoveralgorithm)。所述语音激活检测方法通过检测音频信号，将所述音频信号的信噪比与预设阈值进行比较，来决定语音激活检测的结果所处的状态，在语音状态中，如果检测到音频信号的信噪比低于所述预设阈值，不是直接进入噪声状态，而是进入等待状态，接着，如果在所述等待状态中，所述音频信号的信噪比小于预设阈值的持续时间大于或等于第一预设时间，才进入噪声状态，而如果持续时间不足第一预设时间时，即检测到所述音频信号的信噪比大于或等于所述预设值时，则返回到语音状态。在该方法中，应用语言的自然特性，即语音的发生与时间具有强相关性。也就是说，本发明的语音激活检测方法是基于时域中语音帧连贯发生的强相关，不会在一段语音的能量较低的结尾部分产生错误结果，具有更好的鲁棒性，适用于不同的应用环境。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

需要说明的是，提供这些附图的目的是有助于理解本发明的实施例，而不应解释为对本发明的不当的限制。为了更清楚起见，图中所示尺寸并未按比例绘制，可能会做放大、缩小或其他改变。

参考图1，图1为本发明实施例的语音激活检测方法状态机(statemachine)示意图。如图1所示，本实施例中，所述语音激活检测的结果包括：噪声状态S1，观察状态S2，语音状态S3和等待状态S4，其中，所述噪声状态S1的语音激活检测的结果为否，即当前音频信号中不存在语音信号，在图1中表示为VAD＝0；所述观察状态S2、语音状态S3和等待状态S4的语音激活检测的结果为是，即当前音频信号中存在语音信号，在图1中表示为VAD＝1。

本实施例的语音激活检测方法中，首先检测音频信号，获取所述音频信号的信噪比SNR(SignaltoNoiseRate)；接着比较所述音频信号的信噪比SNR与预设阈值T，根据所述比较的结果使得所述语音激活检测的结果在所述噪声状态S1，观察状态S2，语音状态S3和等待状态S4之间装换。本实施例中，在检测所述音频信号的过程中，在时域中划分时间帧，通过检测所述音频信号，获取每个时间帧内音频信号的信噪比。具体关于时间帧的划分可以参考现有技术。例如，在一实施例中，所述时间帧的长度为20ms。需要说明的是，所述音频信号的信噪比SNR与预设阈值的比较，也是指各时间帧内音频信号的信噪比与所述预设阈值T的比较。

本实施例中，根据所述音频信号的信噪比SNR与所述预设阈值T的比较定义拖尾参数(hangoverparameter)H，当所述音频信号的信噪比SNR大于或等于所述预设阈值T时，拖尾参数H＝1，其意味着可能存在语音信号；当所述音频信号的信噪比SNR小于所述预设阈值T时，拖尾参数H＝0，其意味着可能不存在语音信号。所述预设阈值T需要预先设置，并根据实际应用选择最佳值；所述音频信号的信噪比SNR的计算方法可以参考现有的时间帧计算方法；后续会进一步进行说明，此处首先对所述语音激活检测的结果在噪声状态S1，观察状态S2，语音状态S3和等待状态S4之间的转换方式进行说明。

本实施例中，在初始情况下，假设用户处于噪声环境，所述噪声环境可以为稳态或者非稳态，所述状态机处于噪声状态S1。当然，在其他实施例中，在初始情况下，也可以假设状态机处于观察状态S2、语音状态S3或者等待状态S4中，本发明对所述状态机的初始状态不作出限定。

参考图1，在所述噪声状态S1，VAD＝0，语音激活检测的结果为否，即当前音频信号中不存在语音信号；通过所述拖尾参数H判断下一状态，如果在所述噪声状态S1中，检测到所述音频信号的信噪比SNR大于或等于所述预设阈值T，即H＝1，则所述音频激活检测的结果转移至观察状态S2；如果在所述噪声状态S1中，所述音频信号的信噪比SNR一直小于所述预设阈值T，则所述音频激活检测的结果保持噪声状态S1。

继续参考图1，在所述观察状态S2，VAD＝1，语音激活检测的结果为是，即当前音频信号中存在语音信号；通过所述拖尾参数H判断下一状态，如果在所述观察状态S2中，检测到所述音频信号的信噪比SNR大于或等于所述预设阈值T且其状态持续时间D大于或等于第二预设时间T2，即H＝1且D≥T2，则所述音频激活检测的结果转移至所述语音状态S3；如果在所述观察状态S2中，检测到所述音频信号的信噪比SNR大于或等于所述预设阈值T的持续时间小于所述第二预设时间T2，即在第二预设时间T2之前检测到所述音频信号的信噪比SNR小于所述预设阈值T，则所述音频激活检测的结果返回所述噪声状态S1。

本实施中，在所述观察状态S2，不仅判断所述音频信号的信噪比SNR是否大于或等于所述预设阈值T，还判断其状态持续时间是否大于或等于预设第二时间T2，才确定是否由观察状态S2进入语音状态S3，可以有效避免由于误报而导致的状态转换，提高了语音激活检测的可靠性。本实施例中，所述第二预设时间T2设置为三个时间帧的长度，即只有在三个连续的时间帧中所述音频信号的信噪比SNR均大于或等于所述预设阈值T，所述语音激活检测的结果才由观察状态S2进入语音状态S3。在其他实施例中，所述第二预设时间T2也可以根据具体情况设置为其他值，本发明对此不作限制。

继续参考图1，在所述语音状态S3，VAD＝1，语音激活检测的结果为是，即当前音频信号中存在语音信号；通过所述拖尾参数H判断下一状态，如果在所述语音状态S3中，检测到所述音频信号的信噪比SNR小于所述预设阈值T，即H＝0，则所述音频激活检测的结果转移至所述等待状态S4；如果在所述语音状态S3中，所述音频信号的信噪比SNR一直大于或等于所述预设阈值T，则所述音频激活检测的结果保持在所述语音状态S3。

继续参考图1，在所述等待状态S4，VAD＝1，语音激活检测的结果为是，即当前音频信号中存在语音信号；通过所述拖尾参数H判断下一状态，如果在所述等待状态S4中，检测到所述音频信号的信噪比SNR小于所述预设值T且其状态持续时间大于或等于第一预设时间T1，即H＝0且D≥T1，则所述音频激活检测的结果转移至所述噪声状态S1；如果在所述等待状态S4中，检测到所述音频信号的信噪比SNR小于所述预设阈值T的持续时间小于所述第一预设时间T1，即在第一预设时间T1之前检测到所述音频信号的信噪比SNR大于或等于所述预设阈值T，则所述音频激活检测的结果返回所述语音状态S3。

本实施例中，在所述等待状态，不仅判断所述音频信号的信噪比SNR是否小于所述预设阈值T，还判断其状态持续时间是否大于预设第一时间T1，才确定是否由等待状态S4进入噪声状态S1，可以有效避免在一段语言的结尾部分，由于语音信号的能量较低而导致错误转换。本实施例中，所述第一预设时间T1大于或等于80ms，通常80ms的时长可以覆盖大部分由于语言结尾部分语音信号能量较低所导致的错误转换，大大改善了语音激活检测的性能。在其他实施例中，所述第一预设时间T1也可以根据具体应用情况设置为其他值，本发明对此不作限制。

如前所述，所述拖尾参数H基于所述音频信号的信噪比SNR与所述预设阈值T的比较结果确定，因此，所述音频信号SNR的获取对本发明的音频激活检测方法至关重要。在语音模型中，可以假设语音和噪声是独立的，且噪声环境为长期稳态而语音为短期稳态。下面对本实施例中所述音频信号的信噪比SNR的计算方法进行详细说明。

在本实施例中，每个时间帧内音频信号的信噪比基于当前帧的音频功率以及噪声功率的期望值获得。具体如公式(1)所示：

SNR = \frac{P}{E [P (noise)]} - 1

公式(1)

其中，SNR表示当前时间帧的语音信号的信噪比，P表示当前时间帧的语音信号的功率，E[P(noise)]表示噪声功率的期望值。

采用公式(1)获得的音频信号的信噪比的期望值为0。具体地：

E [SNR] = E [\frac{P}{E [P (niuse)]} - 1] = \frac{1}{PSD (noise)} E [E [PSD (noise)]] - 1] = 0

公式(2)其中，E[SNR]表示音频信号信噪比SNR的期望值，PSD(noise)噪声的功率谱密度(powerspectrumdensity)。

上述信噪比SNR的计算方法，由于其期望值为0，因此，即使在没有语音信号的等待状态S3，也可以用来计算与当前帧功率有关的信噪比。也就是说，在没有语音信号的情况下，所述信噪比SNR的值非常小。

由于所述拖尾参数H的计算也与所述预设阈值T相关，因此所述预设阈值T的取值也应当特别小心。所述预设阈值T虽然可以为经验取值，但是会导致所述语音激活检测方法的效果较差。

在本发明的一些实施例中，所述预设阈值T通过对预先录制的仅包含背景噪声的音频样本训练获得。通过对所述音频样本的计算，可以获得所述预设阈值T的各个参数。具体地，例如，可以通过计算音频样本各个时间帧的能量的均值来获得能量的初始预估阈值，具体参考公式(3)：

T (E) = \frac{1}{v} Σ_{m = 0}^{v} E_{m}

公式(3)

其中T(E)表示能量的初始预估阈值，v表示所述音频样本中时间帧的数量，Em表示音频样本第m时间帧的音频的能量。

上述计算方法可以根据具体应用环境来获得相应的预设阈值T。但是上述计算方法不能应用于实时应用(real-timeapplication)环境，因为背景噪声会随着时间变化，不再与音频样本一致。

在本发明的另一些实施例中，可以将某一段语音通话的音频信号起始一预设时间段内的音频作为音频样本，采用与上述类似的训练方法来获得预设阈值。在一具体实施例中，所述预设时间段可以为100ms，因为基于语音通话的特性，通话前的100ms通常可以作为通话者开始说话前的反应时间，从而可以认为其仅包含实时噪声信号。

需要说明的是，本发明实施例的所述音频信号信噪比的计算方法、以及所述预设阈值的计算方法均可以采用其他合适的符合设计需求的计算方法来代替，本发明的信号激活检测方法对此不作限定。

总之，本发明实施例的音频激活检测方法可以快速从非激活状态进入激活状态(从噪声装载S1进入观察状态S2)，这是由于即使是误报产生的H＝1，所述语音激活检测的结果也会输出为是；另外，本发明实施例的音频激活检测方法还减缓了从激活状态到非激活状态的转换(从语音状态S3进入等待状态S4)，这是由于只有在H＝0的持续时间大于或等于所述第一预设时间时，所述语音激活检测的结果才会输出为否，这也就减少了在通话过程中的错误否定决定。

对应地，本发明还提供了一种语音激活检测装置。参考图2，图2示出了本发明一实施例的语音激活检测装置200的结构示意图。如图2所示，所述语音激活检测装置200包括：检测单元201，适于检测音频信号，获取所述音频信号的信噪比；比较单元202，适于比较所述音频信号的信噪比与预设阈值；状态转换单元203，适于根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换，其中，在所述语音状态，如果所述音频信号的信噪比小于或等于所述预设阈值，则进入等待状态；在所述等待状态，如果所述音频信号的信噪比大于或等于所述预设阈值，则返回语音状态，如果所述音频信号的信噪比小于所述预设阈值，且持续时间大于或等于第一预设时间，则进入噪声状态。在一些实施例中，所述第一预设时间不小于80毫秒。

在一些实施例中，所述语音激活检测的结果还包括观察状态，所述状态转换单元203根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括：在所述噪声状态，如果所述音频信号的信噪比大于或等于所述预设阈值，则进入观察状态；在所述观察状态，如果所述音频信号的信噪比小于所述预设阈值，则返回噪声状态，如果所述音频信号的信噪比大于或等于所述预设阈值，且持续时间大于或等于第二预设时间，则进入语音状态。所述语音状态、等待状态和观察状态，所述语音激活检测的结果为是；在所述噪声状态，所述语音激活检测的结果为否。在一些实施例中，所述检测单元201在检测所述音频信号的过程中，划分时间帧，获取每个时间帧内音频信号的信噪比。且所述检测单元201基于当前帧的音频功率以及噪声功率的期望值获取每个时间帧内音频信号的信噪比。在一些实施例中，所述第二预设时间不小于三个时间帧的长度。

在一些实施例中，所述语音激活检测单元还包括阈值获取单元204，适于通过对仅包含背景噪声的音频样本训练获得所述预设阈值，或者适于通过对所述音频信号起始一预设时间段内的音频训练获得所述预设阈值。

对应于上述的语音激活检测方法，本发明实施例的语音激活检测装置也具有更好的鲁棒性，可以适用于不同的应用环境。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音激活检测方法，其特征在于，包括：

检测音频信号，获取所述音频信号的信噪比；

比较所述音频信号的信噪比与预设阈值，根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换，其中，

在所述语音状态，如果所述音频信号的信噪比小于所述预设阈值，则进入等待状态；

在所述等待状态，如果所述音频信号的信噪比大于或等于所述预设阈值，则返回语音状态，如果所述音频信号的信噪比小于所述预设阈值，且持续时间大于或等于第一预设时间，则进入噪声状态。

2.如权利要求1所述的语音激活检测方法，其特征在于，所述语音激活检测的结果还包括观察状态，根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括：

在所述噪声状态，如果所述音频信号的信噪比大于或等于所述预设阈值，则进入观察状态；

在所述观察状态，如果所述音频信号的信噪比小于所述预设阈值，则返回噪声状态，如果所述音频信号的信噪比大于或等于所述预设阈值，且持续时间大于或等于第二预设时间，则进入语音状态。

3.如权利要求2所述的语音激活检测方法，其特征在于，在所述语音状态、等待状态和观察状态，所述语音激活检测的结果为是；在所述噪声状态，所述语音激活检测的结果为否。

4.如权利要求1所述的语音激活检测方法，其特征在于，所述第一预设时间不小于80毫秒。

5.如权利要求1所述的语音激活检测方法，其特征在于，在检测所述音频信号的过程中，划分时间帧，获取每个时间帧内音频信号的信噪比。

6.如权利要求5所述的语音激活检测方法，其特征在于，所述每个时间帧内音频信号的信噪比基于当前帧的音频功率以及噪声功率的期望值获得。

7.如权利要求5所述的语音激活检测方法，其特征在于，所述第二预设时间不小于三个时间帧的长度。

8.如权利要求1所述的语音激活检测方法，其特征在于，所述预设阈值通过对仅包含背景噪声的音频样本训练获得。

9.如权利要求1所述的语音激活检测方法，其特征在于，所述预设阈值通过对所述音频信号起始一预设时间段内的音频训练获得。

10.一种语音激活检测装置，其特征在于，包括：

检测单元，适于检测音频信号，获取所述音频信号的信噪比；

比较单元，适于比较所述音频信号的信噪比与预设阈值；

状态转换单元，适于根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换，其中，

在所述语音状态，如果所述音频信号的信噪比小于或等于所述预设阈值，则进入等待状态；

11.如权利要求10所述的语音激活检测装置，其特征在于，所述语音激活检测的结果还包括观察状态，所述状态转换单元根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括：

12.如权利要求11所述的语音激活检测装置，其特征在于，在所述语音状态、等待状态和观察状态，所述语音激活检测的结果为是；在所述噪声状态，所述语音激活检测的结果为否。

13.如权利要求10所述的语音激活检测装置，其特征在于，所述第一预设时间不小于80毫秒。

14.如权利要求10所述的语音激活检测装置，其特征在于，所述检测单元在检测所述音频信号的过程中，划分时间帧，获取每个时间帧内音频信号的信噪比。

15.如权利要求14所述的语音激活检测装置，其特征在于，所述检测单元基于当前帧的音频功率以及噪声功率的期望值获取每个时间帧内音频信号的信噪比。

16.如权利要求14所述的语音激活检测装置，其特征在于，所述第二预设时间不小于三个时间帧的长度。

17.如权利要求10所述的语音激活检测装置，其特征在于，还包括阈值获取单元，适于通过对仅包含背景噪声的音频样本训练获得所述预设阈值。

18.如权利要求10所述的语音激活检测装置，其特征在于，还包括阈值获取单元，适于通过对所述音频信号起始一预设时间段内的音频训练获得所述预设阈值。