CN114187926A

CN114187926A - 语音活动检测装置与方法

Info

Publication number: CN114187926A
Application number: CN202010969320.3A
Authority: CN
Inventors: 黄义政
Original assignee: Realtek Semiconductor Corp
Current assignee: Realtek Semiconductor Corp
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2022-03-15

Abstract

本发明公开一种语音活动检测装置与方法，能够依据环境检测结果选择多个语音活动检测结果之一作为是否有语音活动的根据。该语音活动检测装置包括环境检测电路、语音活动检测电路以及语音活动决策电路。该环境检测电路用来处理声音输入信号以产生环境检测结果。该语音活动检测电路用来依据多种语音活动检测算法分析该声音输入信号，以产生多个语音活动检测结果。该语音活动决策电路用来依据该环境检测结果选择该多个语音活动检测结果之一。

Description

语音活动检测装置与方法

技术领域

本发明是关于语音活动检测装置与方法，尤其是关于能够适应性地采用不同语音活动检测算法之一的语音活动检测装置与方法。

背景技术

许多电子装置(例如：移动式装置像是智能型手机(smart phone)、智能手表(smart watch)、智能音箱(smart speaker)等)可藉由语音识别(speech recognition)功能来判断用户说出的指令(commands)，并据以执行对应的操作。为避免漏掉用户说出的指令，电子装置可令语音识别功能保持在持续聆听(always listening)的状态；然而，大部分的时间里，语音识别功能所接收的声音信号并非用户指令，因此，为减少不必要的处理与耗电，电子装置可藉由语音活动检测(voice activity detection,VAD)来判断是否有语音出现，并据以控制语音识别功能的运行。更明确地说，当有语音出现时，电子装置会唤醒(wakeup)语音识别功能以判断是否有用户指令；当没有语音出现时，电子装置可关闭语音识别功能以减少耗电。一般语音唤醒系统(voice wake-up system)的运行流程图如图1所示，包括：

步骤S110：依据输入信号检测语音活动，以及停用语音识别功能。

步骤S120：判断是否有语音活动；若是，至步骤S130；若否，回到步骤S110。

步骤S130：唤醒语音识别功能，并执行语音识别。

步骤S140：判断是否有用户指令；若是，至步骤S150；若否，回到步骤S110。

步骤S150：依据用户指令执行相对应的操作，然后回到步骤S110。

在实际应用时，语音活动检测可能运行在具有许多不同的背景噪声(backgroundnoise)的环境中，这些背景噪声可分为稳态(stationary)噪声与非稳态(non-stationary)噪声。稳态噪声的能量随时间的变化幅度不大，像是风扇声、安静的办公室的声响等，这种噪声对语音活动检测的影响较小；而非稳态噪声的能量随时间的变化幅度大，像是电视声、街道交通工具声、人群讲话声等。许多非稳态噪声的特征(characteristic)与人声的特征相近，会影响语音活动检测的效能(performance)，使检测准确度(accuracy)下降。

语音活动检测的效能可按两种指标值被评估，一种是“将语音误判为噪声”的指标值(简称错失(miss)指标值)，另一种是“将噪声误判为语音”的指标值(简称误触发(falsetrigger)指标值)，这二种指标值之间的关系通常是权衡(trade off)关系。当错失指标值上升时，用户可能要常常重复说出指令，这会造成使用体验变差；当误触发指标值上升时，电子装置会被迫执行不必要的信号处理与数据传输，这会造成耗电量上升。

一般的电子装置采用固定的语音活动检测算法，而固定不变的语音活动检测算法可能在某种背景噪声的环境下的表现较好，但在另一种背景噪声的环境下的表现较差。因此，本领域需要一种能响应于不同环境条件来分别采用不同语音活动检测算法的技术，以在不同环境条件下都达到良好的语音活动检测表现。

发明内容

本公开的目的之一在于提供一种语音活动检测装置与方法，以避免先前技术的问题。

本公开的语音活动检测装置的实施例能够依据环境检测结果选择多个语音活动检测结果之一作为是否有语音活动的根据。该实施例包括环境检测电路、语音活动检测电路以及语音活动决策电路。该环境检测电路用来处理声音输入信号以产生环境检测结果。该语音活动检测电路用来依据多种语音活动检测算法分析该声音输入信号，以产生多个语音活动检测结果。该语音活动决策电路用来依据该环境检测结果选择该多个语音活动检测结果之一。

本公开的语音活动检测装置的另一实施例能够依据环境检测结果选择多种语音活动检测算法之一，再据以产生语音活动检测结果作为是否有语音活动的根据。该语音活动检测装置包括环境检测电路以及语音活动检测及决策电路。该环境检测电路用来处理声音输入信号以产生环境检测结果。该语音活动检测及决策电路用来依据该环境检测结果选择多种语音活动检测算法之一作为有效语音活动检测算法，再依据该有效语音活动检测算法分析该声音输入信号，以产生语音活动检测结果作为是否有语音活动的根据。

本公开的语音活动检测方法的实施例能够依据环境检测结果选择多种语音活动检测结果/算法之一，包括下列步骤：接收并处理声音输入信号以产生该环境检测结果；以及依据该环境检测结果选择该多个语音活动检测结果之一作为最终语音活动检测结果，或者依据该环境检测结果选择该多种语音活动检测算法之一并据以产生该最终语音活动检测结果，其中该多个语音活动检测结果是分别依据该多种语音活动检测算法而产生的。

有关本发明的特征、实作与功效，现在配合图式作较佳实施例详细说明如下。

附图说明

图1显示一般的语音唤醒系统的运行流程图；

图2显示本公开的语音活动检测装置的一实施例；

图3显示图2的环境检测电路的一实施例；

图4显示图3的能量变化检测电路所执行的步骤；

图5显示图2的环境检测电路的另一实施例；

图6显示本公开的语音活动检测装置的另一实施例；以及

图7显示本公开的语音活动检测方法的一实施例。

具体实施方式

本公开公开一种语音活动检测(voice activity detection,VAD)装置与方法，能够响应于不同环境条件分别采用不同语音活动检测结果/算法，以达到良好的语音活动检测表现。

图2显示本公开的语音活动检测装置的一实施例，能够依据环境检测结果选择多个语音活动检测结果之一作为是否有语音活动的根据。图2的语音活动检测装置200包括环境检测电路210、语音活动检测电路220以及语音活动决策电路230。环境检测电路210用来处理声音输入信号以产生环境检测结果。语音活动检测电路220用来依据多种语音活动检测算法分析该声音输入信号，以产生多个语音活动检测结果；语音活动检测电路220本身可为已知或自行开发的电路，该多种语音活动检测算法可为已知或自行开发的算法，不同算法的效能(例如：错失值与误触发值)通常不同。语音活动决策电路230用来依据该环境检测结果选择该多个语音活动检测结果之一。

图3显示图2的环境检测电路210的实施例，包括信号分析电路310、能量变化检测电路320以及变化信息决策电路330。这些电路分述如下。

请参阅图3。信号分析电路310用来依据该声音输入信号产生M个处理信号，其中该M个处理信号为M个频带信号或M个频域信号，M为正整数。更详细地说，在处理该声音输入信号的过程中，信号分析电路310会持续接收该声音输入信号并对该声音输入信号进行采样；在得到该声音输入信号的足以形成一个音框(frame)的J个采样值(例如：多个采样值)后，信号分析电路310再据以产生此音框的M个处理信号。于一实作范例中，信号分析电路310包括至少一个滤波电路，该至少一个滤波电路用来依据该声音输入信号产生每个音框的M个频带信号；举例而言，该至少一个滤波电路包括M个滤波器，每个滤波器产生一个频带信号，从而该M个滤波器产生该M个频带信号。于另一实作范例中，信号分析电路310包括至少一个转换电路(例如：快速傅立叶变换(Fast Fourier Transform)电路)，该至少一个转换电路用来依据该声音输入信号产生每个音框的M个频域信号。

请参阅图3。能量变化检测电路320用来依据每个音框的M个处理信号进行计算，以产生每个音框的

个能量变化值，共产生L个音框的X个能量变化值，其中该X等于M乘以L，L为音框个数。于一实作范例中，能量变化检测电路320执行如图4所示的多个步骤，包括：

步骤S410：依据该L个音框中的每一个音框的M个处理信号进行计算，以得到X个信号能量值。举例而言，步骤S410依据下式(1)计算每个频带/频域信号在每个音框里的能量(例如：每个频带信号在每个音框里N个采样点的能量总和，每个采样点对应的采样周期像是

或

)，以得到M×L＝X个信号能量值(E_m,l)。

式(1)中，l为介于1与L之间的音框索引(frame index)，m为介于1与M之间的频带/频域信号索引，M为对应第l个音框的频带/频域信号的个数，N为第m个频带/频域信号在第l个音框里的数据点数，x_m,l(k)为第m个频带/频域信号在第l个音框里的第k个点的值。

步骤S420：依据该X个信号能量值与短期音框个数(p_st)计算X个短期能量值，以及依据该X个信号能量值与长期音框个数(p_lt)计算X个长期能量值。举例而言，步骤S420依据下式(2)计算该X个短期平均能量值(E_st_m,l)与该X个长期平均能量值(E_lt_m,l)。

步骤S430：依据该X个短期能量值与该X个长期能量值得到X个能量关系值。举例而言，步骤S430依据下式(3)计算该X个能量关系值。

步骤S440：将该X个能量关系值中的每一个与能量阈值(thr_m)进行比较以产生X个能量变化值。举例而言，若能量关系值

大于该能量阈值，步骤S440令能量变化值(fg_E_var_m,l)为1代表能量变化大；若该能量关系值不大于该能量阈值，步骤S440令该能量变化值为0代表能量变化小。

请参阅图3。变化信息决策电路330用来处理该X个能量变化值以产生L个能量变化检测值，接着将该L个能量变化检测值中的每一个与变化阈值进行比较以产生L个比较结果，然后依据该L个比较结果产生该环境检测结果。于一实作范例中，变化信息决策电路330将该X个能量变化值中每一音框(对应音框索引的每个值)中的M个能量变化值相加如下式(4)所示，以产生L个能量变化检测值(S_E_var_l)；接着变化信息决策电路330将该L个能量变化检测值中的每一个与变化阈值(thr)进行比较以产生L个比较结果(fg_S_l)如下式(5)所示；若该L个比较结果显示多个能量变化检测值(例如：该L个能量变化检测值)中所有的/多数的能量变化检测值大于该变化阈值，变化信息决策电路330判断出目前环境的能量变化大；若该L个比较结果显示该多个能量变化检测值中所有的/多数的能量变化检测值小于该变化阈值，变化信息决策电路330判断出目前环境的能量变化小。

fg_S_l代表S_E_var_l与thr之间的比较结果式(5)

请参阅图2与图3。语音活动决策电路230依据预设规则与该L个比较结果的变化，选择该多个语音活动检测结果之一。该预设规则为在该L个比较结果的变化大于预设变化程度时(亦即：目前环境的能量变化大时)，选择该多个语音活动检测结果中的一个检测结果；该预设规则为在该L个比较结果的变化小于该预设变化程度时(亦即：目前环境的能量变化小时)，选择该多个语音活动检测结果中的另一个检测结果。举例而言，以音高为基础的语音活动检测(pitch-based VAD)以及以能量为基础的语音活动检测(energy-basedVAD)的特性如下表1所示；若语音活动决策电路230先考虑低错失值(miss value)再考虑低误触发值(false trigger value)，在目前环境能量变化大的情况下，语音活动决策电路230选择以能量为基础的语音活动检测结果，而在目前环境能量变化小的情况下，语音活动决策电路230选择以音高为基础的语音活动检测结果。

表1

图5显示图2的环境检测电路210的另一实施例，包括特征提取电路510与分类电路520。特征提取电路510用来依据至少一个特征提取算法处理该声音输入信号，以产生至少一个噪声特征，该至少一个特征提取算法为已知或自行开发的分析技术，像是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、线性预测编码(LinearPredictive Coding,LPC)、线性预测倒谱系数(Linear Predictive CepstralCoefficient,LPCC)等。分类电路520用来依据该至少一个噪声特征决定至少一个噪声类型作为该环境检测结果；举例而言，分类电路520依据特征提取电路510提供的噪声特征，通过已训练好的统计模型如隐藏式马可夫模型(Hidden Markov Model,HMM)与高斯混和模型(Gaussian Mixture Model,GMM)，或通过机器学习方法(machine learning)如支持向量机(Support Vector Machine,SVM)与神经网络(Neural Network,NN)，得到相对应的噪声类型作为该环境检测结果。

请参阅图2与图5。语音活动决策电路230依据预设规则与该至少一个噪声类型选择该多个语音活动检测结果之一。该预设规则为在该噪声类型为非稳态(non-stationary)噪声类型时，选择该多个语音活动检测结果中的一个检测结果；该预设规则为在该噪声类型为稳态(stationary)噪声类型时，选择该多个语音活动检测结果中的另一个检测结果。举例而言，若语音活动决策电路230先考虑低错失值再考虑低误触发值，当噪声类型为音乐声时(非稳态噪声类型时)，语音活动决策电路230选择以能量为基础的语音活动检测结果；当噪声类型为风扇声时(稳态噪声类型)，语音活动决策电路230选择以音高为基础的语音活动检测结果。

图6显示本公开的语音活动检测装置的另一实施例，能够依据环境检测结果选择多种语音活动检测算法之一，从而依据所选择的语音活动检测算法来产生语音活动检测结果作为是否有语音活动的根据。图6的语音活动检测装置600包括环境检测电路610与语音活动检测及决策电路620。这些电路说明于下。

环境检测电路610的一实施例为图3或图5的环境检测电路210。语音活动检测及决策电路620用来依据环境检测电路610的环境检测结果，选择该多种语音活动检测算法之一作为有效语音活动检测算法，再依据该有效语音活动检测算法分析该声音输入信号，以产生语音活动检测结果作为是否有语音活动的根据。举例而言，当环境检测电路610为图3的环境检测电路210时，语音活动检测及决策电路620依据预设规则与该L个比较结果的变化，选择该多种语音活动检测算法之一作为该有效语音活动检测算法；该预设规则为在该L个比较结果的变化大于预设变化程度时，选择该多种语音活动检测算法中的一种算法(例如：以能量为基础的语音活动检测算法)，该预设规则为在该L个比较结果的变化小于该预设变化程度时，选择该多种语音活动检测算法中的另一种算法(例如：以音高为基础的语音活动检测算法)。另举例而言，当环境检测电路610为图5的环境检测电路210时，语音活动检测及决策电路620依据预设规则与该至少一个噪声类型选择该多种语音活动检测算法之一作为该有效语音活动检测算法；该预设规则为在该噪声类型为非稳态噪声类型时，选择该多种语音活动检测算法中的一种算法(例如：以能量为基础的语音活动检测算法)，该预设规则为在该噪声类型为一稳态噪声类型时，选择该多种语音活动检测算法中的另一种算法(例如：以音高为基础的语音活动检测算法)。值得注意的是，利用该有效语音活动检测算法分析该声音输入信号的技术可为已知或自行开发的技术。

由于本领域具有通常知识者能够参考图2的实施例的公开来了解图6的实施例的细节与变化，亦即图2的实施例的技术特征可合理地应用于图6的实施例中，因此，重复及冗余之说明在此予以省略。

图7显示本公开的语音活动检测方法的一实施例，是由图2的语音活动检测装置200或图6的语音活动检测装置600来执行。图7的语音活动检测方法包括下列步骤：

步骤S710：接收并处理声音输入信号以产生该环境检测结果；以及

步骤S720：依据该环境检测结果选择多个语音活动检测结果之一作为最终语音活动检测结果，或者依据该环境检测结果选择多种语音活动检测算法之一并据以产生该最终语音活动检测结果，其中该多个语音活动检测结果是分别依据该多种语音活动检测算法而产生的。

由于本领域具有通常知识者能够参考图2与图6的实施例的公开来了解图7的实施例的细节与变化，亦即图2与图6的实施例的技术特征可合理地应用于图7的实施例中，因此，重复及冗余之说明在此予以省略。

请注意，在实施为可能的前提下，本技术领域具有通常知识者可选择性地实施前述任一实施例中部分或全部技术特征，或选择性地实施前述多个实施例中部分或全部技术特征的组合，藉此增加本发明实施时的弹性。

综上所述，本发明能够响应于不同环境条件来分别采用不同语音活动检测结果/算法，以在不同环境条件下都达到良好的语音活动检测表现。

虽然本发明的实施例如上所述，然而这些实施例并非用来限定本发明，本技术领域具有通常知识者可依据本发明的明示或隐含的内容对本发明的技术特征施以变化，凡此种种变化均可能属于本发明所寻求的专利保护范畴，换言之，本发明的专利保护范围须视本说明书的申请专利范围所界定者为准。

附图标记说明：

S110～S150：步骤

200：语音活动检测装置

210：环境检测电路

220：语音活动检测电路

230：语音活动决策电路

310：信号分析电路

320：能量变化检测电路

330：变化信息决策电路

S410～S440：步骤

510：特征提取电路

520：分类电路

600：语音活动检测装置

610：环境检测电路

620：语音活动检测及决策电路

S710～S720：步骤

Claims

1.一种语音活动检测装置，能够依据环境检测结果选择多个语音活动检测结果之一作为是否有语音活动的根据，该语音活动检测装置包括：

环境检测电路，用来处理声音输入信号以产生该环境检测结果；

语音活动检测电路，用来依据多种语音活动检测算法分析该声音输入信号，以产生该多个语音活动检测结果；以及

语音活动决策电路，用来依据该环境检测结果选择该多个语音活动检测结果之一。

2.根据权利要求1所述的语音活动检测装置，其中该环境检测电路包括：

信号分析电路，用来依据该声音输入信号产生L个音框中的每一个音框的M个处理信号，其中该M个处理信号为M个频带信号或M个频域信号，该M为正整数，该L为音框个数；

能量变化检测电路，用来依据该L个音框中的每一个音框的该M个处理信号进行计算，以产生该L个音框的X个能量变化值，其中该X等于该M乘以L；以及

变化信息决策电路，用来处理该X个能量变化值以产生L个能量变化检测值，接着将该L个能量变化检测值中的每一个与变化阈值进行比较以产生L个比较结果，再依据该L个比较结果产生该环境检测结果。

3.根据权利要求2所述的语音活动检测装置，其中该信号分析电路包括至少一个滤波电路，该至少一个滤波电路用来依据该声音输入信号产生该L个音框中的每一个音框的该M个频带信号，或者该信号分析电路包括至少一个转换电路，该至少一个转换电路用来依据该声音输入信号产生该L个音框的每一个的该M个频域信号。

4.根据权利要求2所述的语音活动检测装置，其中该能量变化检测电路执行多个步骤，包括：

依据该L个音框中的每一个音框的该M个处理信号进行计算，以得到X个信号能量值；

依据该X个信号能量值与短期音框个数计算X个短期能量值，以及依据该X个信号能量值与长期音框个数计算X个长期能量值；

依据该X个短期能量值与该X个长期能量值得到X个能量关系值；以及

将该X个能量关系值中的每一个与能量阈值进行比较以产生该X个能量变化值。

5.根据权利要求2所述的语音活动检测装置，其中该变化信息决策电路将该X个能量变化值中该L个音框中的每一个音框的M个能量变化值相加，以产生该L个能量变化检测值。

6.根据权利要求2所述的语音活动检测装置，其中该语音活动决策电路依据预设规则与该L个比较结果的变化，选择该多个语音活动检测结果之一；该预设规则为在该L个比较结果的变化大于预设变化程度时，选择该多个语音活动检测结果中的一个检测结果，该预设规则为在该L个比较结果的变化小于该预设变化程度时，选择该多个语音活动检测结果中的另一个检测结果。

7.根据权利要求1所述的语音活动检测装置，其中该环境检测电路包括：

特征提取电路，用来依据至少一个特征提取算法处理该声音输入信号，以产生至少一个噪声特征；以及

分类电路，用来依据该至少一个噪声特征决定至少一个噪声类型作为该环境检测结果。

8.根据权利要求7所述的语音活动检测装置，其中该语音活动决策电路依据预设规则与该至少一个噪声类型选择该多个语音活动检测结果之一；该预设规则为在该噪声类型为非稳态噪声类型时，选择该多个语音活动检测结果中的一个检测结果，该预设规则为在该噪声类型为稳态噪声类型时，选择该多个语音活动检测结果中的另一个检测结果。

9.一种语音活动检测装置，能够依据环境检测结果选择多种语音活动检测算法之一，该语音活动检测装置包括：

环境检测电路，用来处理声音输入信号以产生该环境检测结果；以及

语音活动检测及决策电路，用来依据该环境检测结果选择该多种语音活动检测算法之一作为有效语音活动检测算法，再依据该有效语音活动检测算法分析该声音输入信号，以产生语音活动检测结果作为是否有语音活动的根据。

10.一种语音活动检测方法，包括：

接收并处理声音输入信号以产生该环境检测结果；以及

依据该环境检测结果选择多个语音活动检测结果之一作为最终语音活动检测结果，或者依据该环境检测结果选择多种语音活动检测算法之一并据以产生该最终语音活动检测结果，

其中该多个语音活动检测结果是分别依据该多种语音活动检测算法而产生的。