CN113470623B

CN113470623B - 一种自适应语音端点检测方法及检测电路

Info

Publication number: CN113470623B
Application number: CN202110922089.7A
Authority: CN
Inventors: 包兆华; 田伟; 许兵; 王福君; 张来
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2023-05-16
Anticipated expiration: 2041-08-12
Also published as: CN113470623A

Abstract

一种自适应语音端点检测方法，包括如下步骤：对输入语音信号分割成单帧时域信号；计算时域基础背景能量、时域最大背景能量、时域最终背景能量和时域语音存在概率；对单帧时域信号进行加窗处理和离散傅立叶变换，计算频域语音存在概率；根据时域语音存在概率、频域语音存在概率、信噪比计算有效判决概率；根据有效判决概率Pfinal判断是否存在有效语音。本发明使用信噪比作为选择时域处理或频域处理作为是否有语音的判决条件，解决了现有技术难以满足对复杂环境有较高适应性的需求，提高了算法对环境的自适应性和鲁棒性。

Description

一种自适应语音端点检测方法及检测电路

技术领域

本发明属于语音识别技术领域，具体涉及一种自适应语音端点检测方法及检测电路。

背景技术

语音识别是主要的人机交互技术之一，目前已经有了长足的发展，其自然方便的交互方式得到了大众的喜爱，成为了主流交互控制方式之一。在语音处理系统中，语音检测技术是极为重要的一部分，是否有效的检测到语音的起点和结束点将直接影响到整个系统的性能。如果未能有效检测到语音起点，后续各种处理无从谈起；如果未能有效检测到语音结束点，后续相关的功能模块将长时间对当前信息进行无意义处理，造成系统功耗损失。语音识别系统性能的优劣在很大程度上取决于语音端点检测技术的优劣，因此稳健、精确、实时、自适应性强及鲁棒性好的语音端点检测技术是每个语音处理系统所必需。

当前自动语音端点检测的主流方法是依靠时域中短时能量大小，过零率大小，以及频域中频域能量大小三种方法来检测，具体方法是求出短时能量、过零率或者频域能量均方差，然后与一个设定阈值进行比较。这种方法存在以下缺陷：

1、时域的短时能量大小和过零率大小的方法在处理信噪比高（噪音较小）的环境下有较好的效果，但是对信噪比低（噪音较大）的环境适应性较差；

2、而频域的频域能量均方差方法对处理信噪比高（噪音大）的环境有较好的效果，但是对信噪比低（安静环境）也适应较差，现有的方法在信噪比不稳定的环境中不能较好的适应，不能根据环境的变化选择最优的方法以保证检测的精确。

3、目前的语音检测方法虽然可以有效检测到语音的存在，但是存在检测到语音后语音并不是所关心的内容，后续相关的功能模块将长时间对不关心的语音信息进行无意义的处理，会造成系统功耗的损失。

4、时域方法中当前自动语音端点检测的技术中判断是否为语音的阈值的设置有根据经验值设定和通过输入的语音不断的更新两种方式，其中通过经验值进行设定的方式不能够满足语音识别系统对环境需要有较高适应性的要求；通过计算的实时能量去动态的更新阈值的方式在处理突发性、时长短的噪声时容易被误判。

发明内容

为克服现有技术存在的技术缺陷，本发明公开了一种自适应语音端点检测方法及自适应语音端点检测电路。

本发明所述自适应语音端点检测方法，包括如下步骤：

步骤S0.对输入语音信号进行时域信号分割，根据设定的帧长和帧移将输入语音信号分割成单帧时域信号；

以下步骤S1-1至S2-7为逐帧进行；

步骤S1-1.将单帧时域信号的平方值作为时域能量信号ET(k)，

计算时域基础背景能量Eback（k）；

时域能量信号ET(k)具体计算公式为：

；

其中N为单帧信号中的点数，m为单帧时域信号的序号，n 为单帧时域信号的点数,x是单帧时域信号中的点信号；

时域基础背景能量Eback（k）具体计算公式为：

Eback（k）=a*Eback(k-1)+(1-a)*ET(k)，

其中k为帧数，a为背景能量跟踪系数，a越大表示跟踪的越慢；

步骤S1-2.计算时域最大背景能量Eback_max（k）,

Eback_max（k）=b*Eback(k)+c, 其中b为比例系数，c表示理想安静环境下的背景能量初始值；

步骤S1-3.计算完成时域最大背景能量后，计算时域最终背景能量Efinal（k）；

如果当前的帧能量大于时域最大背景能量，或当前的帧能量大于k*Efinal(k-1)时，不对时域最终背景能量进行更新；

其中k为当前帧数，Efinal(k-1)为上一帧的时域最大背景能量；

其他情况下，则按照下面的更新方式进行更新：

时域最终背景能量Efinal（k）=b1*Eback(k)+c1；b1和c1为根据当前外部状态设置的常量；

步骤S1-4.计算时域语音存在概率P1。

估算公式为：

如果时域能量信号ET(k)大于时域最终背景能量Efinal（k），

则P1=0.5+(ET(k)-Efinal(k))/Efinal(k)；

否则P1= 0.5-(Efinal(k)-ET(k))/Efinal(k)；

步骤S2-1.对单帧时域信号进行加窗处理；在单帧频域范围内对加窗处理后的单帧时域信号进行离散傅立叶变换，得到单帧时域信号的单帧频域信息；

步骤S2-2.将频率划分为多个频域，利用步骤S2-1计算得到的单帧频域信息计算出各个频域的频域能量EF(q)；q表示不同频域；

步骤S2-3.利用频域能量EF(q)提取出频域特征信息；步骤S2-4.计算频域背景能量EFback(q)，频域背景能量EFback(q)为各个频域的频域能量EF（q）平均值；计算各个频域的信噪比SNR(q)；

步骤S2-5.更新频域参考背景能量EFb(q)；

EFb（q）=g*EFback(q)+h

其中g、h为根据当前外部状态设置的常量；

步骤S2-6. 计算频域语音存在概率P2；

如果频域能量EF(q) 大于频域参考背景能量EFb（q），

则P2= 0.5+(EF(q)-EFb(q))/EFb(q)) ；

否则P2= 0.5-(EFb(q)-EF(q))/EFb(q)。

步骤S2-7. 根据时域语音存在概率P1、频域语音存在概率P2、信噪比SNR(q)计算有效判决概率Pfinal，

Pfinal = P1*(SNR(q)/SNRmax)+P2*(1-SNR(q)/SNRmax)。

SNRmax为各个频域信噪比SNR(q)中的最大值；

步骤S3.根据有效判决概率Pfinal判断是否存在有效语音。

优选的，所述步骤 S3具体为：

步骤S3-1当有效判决概率Pfinal大于第一阈值时，开始后续的神经网络计算，否则不进行神经网络计算；

步骤S3-2.将步骤S2-3得到的频域特征信息送入神经网络模型中进行神经网络计算；

步骤S3-3.计算唤醒词存在概率P3；根据神经网络输出的唤醒词存在概率P3 判断是否存在有效语音。

优选的，所述步骤S2-1中对单帧时域信号使用汉明、汉宁或正弦窗进行加窗处理。

本发明还公开了一种自适应语音端点检测电路，由控制单元、时域能量计算单元、时域语音存在概率计算单元、参考背景计算单元、加窗处理、窗函数与旋转因子查找模块、FFT运算单元、频域能量计算、频域语音存在计算单元、频域信噪比计算单元、神经网络唤醒单元、频域特征计算单元、神经网络模型计算单元、唤醒词存在概率计算单元、语音判决单元组成；其中由控制单元控制其他单元的动作和数据传输

本发明使用信噪比作为选择时域处理或频域处理作为是否有语音的判决条件，解决了现有技术难以满足对复杂环境有较高适应性的需求，提高了算法对环境的自适应性和鲁棒性。加入神经网络部分可以有效过滤不关心语音，使检测更加有针对性和准确性；时域最终背景能量的更新避免了啸叫类型声音造成语音开始的误判。

附图说明

图1为本发明所述检测方法的一个具体流程示意图；

图2为本发明所述对输入语音信号分割成单帧时域信号的一个具体实施方式示意图；

图3为本发明一个具体实施例的原始语音信号波形及算法处理后效果波形图及能量谱图，图3中横坐标为时间，纵坐标为电压;

图4为图3中具体实施例的能量谱图，图4中横坐标为时间，纵坐标为电压。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述一种自适应语音端点检测方法，其包括以下步骤：步骤S0.对输入语音信号进行时域信号分割，根据设定的帧长和帧移将输入语音信号分割成单帧时域信号；分割的一个具体方式如图2所示，

以下步骤S1-1至S2-7为逐帧进行；

步骤S1-1.将单帧时域信号的平方值作为时域能量信号ET(k)，计算时域基础背景能量Eback（k）；

时域能量信号ET(k)具体计算公式为：

；

其中N为单帧信号中总的点数，m为单帧时域信号的序号，n 为单帧时域信号的点数,x是单帧时域信号中的点信号；

时域基础背景能量Eback（k）具体计算公式为：

Eback（k）=a*Eback(k-1)+(1-a)*ET(k)，

其中k为帧数，a为背景能量跟踪系数，a越大表示跟踪的越慢。

步骤S1-2.计算时域最大背景能量Eback_max（k）,

Eback_max（k）=b*Eback(k)+c, 其中b为比例系数，c表示理想安静环境下的背景能量初始值；b和c 可测量得到。

步骤S1-3.计算完成时域最大背景能量后，计算时域最终背景能量Efinal（k），计算方式需要考虑当前帧能量；

如果当前的帧能量大于时域最大背景能量，或当前的帧能量大于k*Efinal(k-1)时，不对时域最终背景能量进行更新；当前的帧能量大于时域最大背景能量时，有极大概率是产生啸叫，此时不对时域最终背景能量进行更新以免产生误判。

其中k为当前帧数，Efinal(k-1)为上一帧的时域最大背景能量；

其他情况下，则按照下面的更新方式进行更新：

步骤S1-4.计算时域语音存在概率P1。

估算公式为：

如果时域能量信号ET(k)大于时域最终背景能量Efinal（k），

则P1=0.5+(ET(k)-Efinal(k))/Efinal(k)；

否则P1= 0.5-(Efinal(k)-ET(k))/Efinal(k)；

设置P1的基础值0.5；时域能量大于时域最终背景能量，说明检测到声音，P1在基础值0.5基础上增加，ET（k）-Efinal(k)的值越大，检测到语音的概率越大。

时域能量小于最终背景能量，则说明没有检测到声音，P1在基础值0.5基础上减小，Efinal(k)- ET(k)的值越大，检测到语音的概率越小。

步骤S2-1.对单帧时域信号进行加窗处理，例如使用汉明、汉宁或正弦窗；在单帧频域范围内对加窗处理后的单帧时域信号进行离散傅立叶变换，得到单帧时域信号的单帧频域信息；

步骤S2-2.将频率划分为多个频域，利用计算得到的单帧频域信息计算出各个频域的频域能量EF(q)；q表示不同频域；

步骤S2-3.利用频域能量EF(q)提取出频域特征信息；

步骤S2-4.计算频域背景能量EFback(q)，频域背景能量EFback(q)为各个频域的频域能量EF（q）平均值；计算各个频域的信噪比SNR(q)；

步骤S2-5.更新频域参考背景能量EFb(q)；

EFb（q）=g*EFback(q)+h

其中g、h为根据当前外部状态设置的常量；例如可以取g=0.9；h=4；

步骤S2-6. 计算频域语音存在概率P2；

如果频域能量EF(q) 大于频域参考背景能量EFb（q），

则P2= 0.5+(EF(q)-EFb(q))/EFb(q)) ；

否则P2= 0.5-(EFb(q)-EF(q))/EFb(q)。

Pfinal = P1*(SNR(q)/SNRmax)+P2*(1-SNR(q)/SNRmax)。

上式中，决定Pfinal的因素包括时域语音存在概率P1、频域语音存在概率P2、信噪比SNR(q) ，SNRmax为各个频域信噪比SNR(q)中的最大值。

当信噪比大时，说明噪声小，此时使用时域语音计算结果更可靠，因此乘以(SNR(q)/SNRmax)让时域语音计算的结果P1决定Pfinal结果的权重更大；而当信噪比小时，说明噪声大，此时使用频域语音计算的结果更可靠，乘以(1-SNR(q)/SNRmax)让频域语音计算的结果P2决定Pfinal结果的权重更大；SNR（q）根据环境计算而来，对环境有较好的跟踪性，从而可以更好的适应环境，提高算法对环境的自适应性和鲁棒性。

SNRmax为各个频域信噪比SNR(k)中的最大值；

步骤S3-2.将步骤S2-3得到的频域特征信息送入神经网络模型中进行神经网络处理；

例如可以设置第二阈值，唤醒词存在概率P3大于第二阈值时，认为存在有限语音。

图3和图4为一个具体实施例的原始语音信号波形及算法处理后效果波形图及能量谱图，图3中A部分为原始语音信号波形图，从左至右的三个方框分别为无语音区间、有效语音区间和啸叫区间，图3中B部分为检测波形图，可见在对应有效语音区间的端点处，左右两个箭头所指处分别表示检测出有效语音区间的开始和结束端点。图4中A部分为图3所示原始语音信号的能量谱图，图4中B部分为周围环境的能量谱图，由图4中A、B两部分对应展示的对应的能量谱可以看出，所检测的语音信号的能量几乎和周围的环境相似，需要算法对环境有很高的适应性。

本发明还公开了一种自适应语音端点检测电路，由控制单元、时域能量计算单元、时域语音存在概率计算单元、参考背景计算单元、加窗处理、窗函数与旋转因子查找模块、FFT运算单元、频域能量计算、频域语音存在计算单元、频域信噪比计算单元、神经网络唤醒单元、频域特征计算单元、神经网络模型计算单元、唤醒词存在概率计算单元、语音判决单元组成；其中由控制单元控制其他单元的动作和数据传输，采用本发明所述自适应语音端点检测方法进行端点检测。

系统在帧缓存中存储采集到的语音信号，语音检测电路不需要将整帧语音信号搬运到电路模块存储在运算，而是从缓存帧中将要运算的数据搬运到语音检测电路中运算，系统不再保存语音数据，而是与除了语音端点检测电路之外的其他电路一起共享声音缓存数据。

本发明所述步骤S0中分割后的数据，逐帧存储在帧缓存中。

控制单元负责对电路各个单元的运算进行控制，保证整个运算流程能顺利进行。

时域能量计算单元负责对时域信号进行时域能量计算，得到时域能量信号ET(k)。

参考背景计算单元负责计算时域基础背景能量Eback（k）及时域最终背景能量Efinal（k）。

时域语音存在概率计算单元计算时域语音存在概率P1。

加窗处理部分负责对时域信号进行加窗处理，所加的窗有汉明、汉宁、正弦窗三种窗可供选择。

窗函数与旋转因子查找模块主要功能为存储窗系数及供离散傅里叶变换所需的旋转因子查找表。

FFT运算单元负责对加窗后的时域信号进行离散傅里叶变换运算。

频域能量计算单元负责离散傅里叶变换后的结果进行频域能量EF(q) 、频域参考背景能量EFb（q）等的计算。

频域语音存在计算单元计算频域语音存在概率P2；

频域信噪比计算单元负责计算各个频域的信噪比SNR(q)；

频域特征计算单元根据得到的频域能量提取出神经网络需要的频域特征信息。

语音判决单元根据时域、频域、信噪比计算有效判决概率Pfinal并进行步骤S3-1所述判断。

神经网络模型计算单元从神经网络缓存单元取出存储的经过编码后的模型数据进行解码，解码完成后的数据和输入的频域特征信息进行神经网络的处理，并输出供唤醒词存在概率计算单元计算概率的信息。

唤醒词存在概率计算单元根据神经网络输出的信息计算唤醒词存在的概率并输出最终是否有有效语音的判决。

通用运算结果共享单元负责存储在语音处理中常见运算的结果，如离散傅里叶变换的结果，特征提取后的结果等。

神经网络唤醒单元负责唤醒神经网络电路，如果没有检测到语音神经网络部分电路将进入休眠模式以减小功耗，如果检测到语音则唤醒电路进行计算。

采用上述电路结构，具有以下优势：

1.语音信号处理的整个过程中存在很多相同运算如离散傅里叶运算、特征提取运算），不仅在语音端点检测中要使用到，在后续的处理中不可避免的要使用到，因此本次设计将后续要使用到的运算结果存储并利用通用运算结果共享单元和后续的电路进行共享，可减小本电路和后续其他算法处理的运算量。

2.电路中神经网络部分电路在没有检测到声音时将处于休眠模式，只有在有声音的时候才从休眠中退出开始工作，这样的设计可以降低功耗。

3.由于神经网络的需求只是需要检测有没有关键字，所以神经网络的输出是固定的，当需要增加关键字检测时只需要更换神经网络模型计算单元中的神经网络模型参数就可以，而不用改变电路中其他模块。

4.典型的神经网络硬件加速器采用一组计算单元来进行计算，而本发明中由于处理对象为语音，吞吐量要求相对较低，可使用一个计算单元，利用单个乘法器足以满足工作负载，可以减少整个电路的面积。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种自适应语音端点检测方法，其特征在于，包括如下步骤：

以下步骤S1-1至S2-7为逐帧进行；

步骤S1-1.将单帧时域信号的平方值作为时域能量信号ET(k)，

计算时域基础背景能量Eback（k）；

时域能量信号ET(k)具体计算公式为：

；

时域基础背景能量Eback（k）具体计算公式为：

Eback（k）=a*Eback(k-1)+(1-a)*ET(k)，

步骤S1-2.计算时域最大背景能量Eback_max（k）,

其中k为当前帧数，Efinal(k-1)为上一帧的时域最大背景能量；

其他情况下，则按照下面的更新方式进行更新：

步骤S1-4.计算时域语音存在概率P1；

估算公式为：

如果时域能量信号ET(k)大于时域最终背景能量Efinal（k），

则P1=0.5+(ET(k)-Efinal(k))/Efinal(k)；

否则P1= 0.5-(Efinal(k)-ET(k))/Efinal(k)；

步骤S2-3.利用频域能量EF(q)提取出频域特征信息；

步骤S2-5.更新频域参考背景能量EFb(q)；

EFb（q）=g*EFback(q)+h

其中g、h为根据当前外部状态设置的常量；

步骤S2-6. 计算频域语音存在概率P2；

如果频域能量EF(q) 大于频域参考背景能量EFb（q），

则P2= 0.5+(EF(q)-EFb(q))/EFb(q)) ；

否则P2= 0.5-(EFb(q)-EF(q))/EFb(q) ；

Pfinal = P1*(SNR(q)/SNRmax)+P2*(1-SNR(q)/SNRmax) ；

SNRmax为各个频域信噪比SNR(q)中的最大值；

步骤S3.根据有效判决概率Pfinal判断是否存在有效语音。

2.如权利要求1所述自适应语音端点检测方法，其特征在于，所述步骤 S3具体为：

3.如权利要求1所述自适应语音端点检测方法，其特征在于，所述步骤S2-1中对单帧时域信号使用汉明、汉宁或正弦窗进行加窗处理。

4.一种自适应语音端点检测电路，其特征在于，由控制单元、时域能量计算单元、时域语音存在概率计算单元、参考背景计算单元、加窗处理、窗函数与旋转因子查找模块、FFT运算单元、频域能量计算、频域语音存在计算单元、频域信噪比计算单元、神经网络唤醒单元、频域特征计算单元、神经网络模型计算单元、唤醒词存在概率计算单元、语音判决单元组成；其中由控制单元按照权利要求1所述方法控制其他单元的动作和数据传输。