CN116895281A

CN116895281A - 基于能量的语音激活检测方法、装置及芯片

Info

Publication number: CN116895281A
Application number: CN202311162975.XA
Authority: CN
Inventors: 吴昌盛
Original assignee: Guixin Technology Shenzhen Co ltd
Current assignee: Guixin Technology Shenzhen Co ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-10-17
Anticipated expiration: 2043-09-11
Also published as: CN116895281B

Abstract

本发明提供一种基于能量的语音激活检测方法、装置、芯片及存储介质，包括：获取语音能量估计跟踪曲线的一阶差分曲线和/或二阶差分曲线；依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果。本发明提供的基于能量的语音激活检测方法、装置、芯片及存储介质，能够为语音降噪和回声抑制提供更好的语音激活判断，实现更加良好的语音增强效果。

Description

基于能量的语音激活检测方法、装置及芯片

技术领域

本发明涉及语音处理技术领域，尤其涉及一种基于能量的语音激活检测方法、装置及芯片。

背景技术

语音增强算法一般指环境噪声抑制，和语音对讲中的回声抑制。而语音激活检测过程是一个非常重要的环节。语音的音节一般分为开始部分的音节首，音节核（通常是元音）和结束部分的音节尾三部分，音系学上命名的原则是：音节核表示响度最大、成阻度最小的音素，音节首、音节尾等表示周围的响度较小、成阻度较大的音素。传统的基于能量或者幅值包络检测的语音激活算法对于语音开始阶段和语音结束阶段的语音激活判断不敏感，而由此会对后一级语音处理产生负面的影响，导致声音吞音，丢字现象发生。

发明内容

本发明提供的基于能量的语音激活检测方法、装置及芯片，能够为语音降噪和回声抑制提供更好的语音激活判断，实现更加良好的语音增强效果。

第一方面，本发明提供一种基于能量的语音激活检测方法，所述方法包括：

获取语音能量估计跟踪曲线的一阶差分曲线和/或二阶差分曲线；

依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果。

可选地，所述依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果的步骤，包括：

将所述一阶差分曲线和所述二阶差分曲线进行加权求和，获取加权曲线；

依据所述加权曲线，获取语音激活结果。

可选地，所述依据所述加权曲线，获取语音激活结果的步骤，包括：

对应的预设判决门限依据对应的预设判决门限对所述加权曲线进行判决，获取第一判决结果；

依据所述第一判决结果，获取语音激活结果。

可选地，所述依据所述第一判决结果，获取语音激活结果的步骤，包括：

依据对应的预设判决门限对所述跟踪曲线进行判决，获取第二判决结果；

依据所述第一判决结果和所述第二判决结果，获取语音激活结果。

可选地，所述依据所述第一判决结果和所述第二判决结果，获取语音激活结果的步骤，包括：

将所述第一判决结果和第二判决结果进行或运算，获取语音激活结果。

可选地，将所述一阶差分曲线和所述二阶差分曲线进行加权求和，获取加权曲线的步骤，包括：

将基于长短窗能量估计跟踪曲线的一阶差分曲线的权重系数设为1；

将基于长短窗能量估计跟踪曲线的二阶差分曲线的权重系数设为4；

将所述一阶差分曲线和所述二阶差分曲线分别与对应的权重系数相乘后求和，获取加权曲线。

对应的预设判决门限依据对应的预设判决门限对所述一阶差分曲线或二阶差分曲线进行判决，获取第三判决结果；

依据所述第三判决结果，获取语音激活结果。

可选地，依据所述第三判决结果，获取语音激活结果的步骤，包括：

依据对应的预设判决门限对所述跟踪曲线进行判决，获取第四判决结果；

依据所述第三判决结果和所述第四判决结果，获取语音激活结果。

可选地，所述依据所述第三判决结果和所述第四判决结果，获取语音激活结果的步骤，包括：

将所述第三判决结果和第四判决结果进行或运算，获取语音激活结果。

可选地，依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果的步骤，包括：

将最小值控制的递归平均的频域语音能量跟踪曲线和基于长短窗能量估计跟踪曲线进行归一化并加权平均得到的曲线作为加权跟踪曲线；

依据对应的预设判决门限对所述加权跟踪曲线进行判决，得到第四判决结果；

获取所述加权跟踪曲线的一阶差分曲线；

对所述一阶差分曲线进行积分，并依据所述积分结果和对应的预设判决门限对所述一阶差分曲线进行判决，得到第三判决结果；

依据所述第三判决结果和第四判决结果，获取语音激活结果。

第二方面，本发明提供一种基于能量的语音激活检测装置，所述装置包括：

差分计算模块，用于获取语音能量估计跟踪曲线的一阶差分曲线和/或二阶差分曲线；

结果获取模块，用于依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果。

第三方面，本发明提供一种芯片，所述芯片包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述任一项所述的方法。

在本发明提供的技术方案中，首先获取语音能量估计跟踪曲线的一阶差分曲线和/或二阶差分曲线，再依据一阶差分曲线和/或二阶差分曲线进行语音激活结果的判决。由于一阶差分曲线和二阶差分曲线分别对跟踪曲线的幅度变化和幅度变化速度敏感，因此对于语音的开始阶段和结束阶段的判决更加准确，能够为语音的开始阶段和结束阶段提供更多的激活指示，从而为语音降噪和回声抑制提供了更好的语音激活判断，实现了更加完美的语音增强效果。

附图说明

图1为本发明一实施例基于能量的语音激活检测方法的流程图；

图2为现有技术中mcra频域激活判决方法不同门限值的判决结果；

图3为本发明另一实施例基于能量的语音激活检测方法的mcra频域激活判决的概率曲线、一阶差分曲线和二阶差分曲线；

图4为本发明另一实施例基于能量的语音激活检测方法的mcra频域激活判决的概率曲线、一阶差分曲线和二阶差分曲线补充激活判决的结果；

图5为现有技术中log Ratio算法的logRatio曲线；

图6为本发明另一实施例基于能量的语音激活检测方法的log Ratio算法的logRatio曲线、一阶差分曲线和二阶差分曲线；

图7为本发明另一实施例基于能量的语音激活检测方法的log Ratio算法的logRatio曲线、一阶差分曲线和二阶差分曲线补充激活判决的结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于能量的语音激活检测方法，如图1所示，所述方法包括：

步骤100，获取语音能量估计跟踪曲线的一阶差分曲线和/或二阶差分曲线；

在一些实施例中，获取语音能量估计跟踪曲线的一阶差分曲线是指对跟踪曲线进行求导，获取到跟踪曲线的梯度曲线；同理，获取跟踪曲线的二阶差分曲线是指对一阶差分曲线进行求导，获取到跟踪曲线的加速度信息。

步骤200，依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果。

在一些实施例中，语音的激活结果包括静音帧和语音帧，获取语音激活结果是指将曲线上的每一个点与预设判决门限进行比较，当低于判决门限时，确定为静音帧，高于判决门限时，确定为语音帧。

如图2所示，第一行是语音帧的语谱，第二行是最小值控制的递归平均的频域语音激活方法的概率曲线，第三行是设定0.5门限的激活指示，第四行是设定0.2门限的激活指示。由图中可以看出，基于能量判决的激活指示，在语音的音节核部分，判断很容易，但在语音的起始和结束阶段，是受判决门限影响的，如果门限取的高一些，那么开始和结束的语音几乎都会被忽略掉，这样得出的激活指示，提供给降噪和回声抑制的话，语音失真会非常严重。在本发明提供的技术方案中，首先获取语音能量估计跟踪曲线的一阶差分曲线和/或二阶差分曲线，再依据一阶差分曲线和/或二阶差分曲线进行语音激活结果的判决。由于一阶差分曲线和二阶差分曲线分别对跟踪曲线的幅度变化和幅度变化速度敏感，因此对于语音的开始阶段和结束阶段的判决更加准确，能够为语音的开始阶段和结束阶段提供更多的激活指示，从而为语音降噪和回声抑制提供了更好的语音激活判断，实现了更加完美的语音增强效果。

作为一种可选的实施方式，所述依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果的步骤，包括：

依据所述加权曲线，获取语音激活结果。

在一些实施例中，采用对一阶差分曲线和二阶差分曲线进行加权求和的方式，能够有效的兼顾能量跟踪曲线的梯度信息和加速度信息，有利于对激活指示判断的准确性。

作为一种可选的实施方式，所述依据所述加权曲线，获取语音激活结果的步骤，包括：

依据对应的预设判决门限对所述加权曲线进行判决，获取第一判决结果；

依据所述第一判决结果，获取语音激活结果。

在一些实施例中，利用加权曲线进行判决，能够有效的对语音的开始阶段和结束阶段的能量变化进行捕捉，有利于对语音开始阶段和结束阶段的指示的准确性进行提升。而在音节核部分的指示，则可以采用现有技术进行判决和指示。

作为一种可选的实施方式，所述依据所述第一判决结果，获取语音激活结果的步骤，包括：

对应的预设判决门限对应的预设判决门限在一些实施例中，第二判决结果表征了跟踪曲线得到的激活指示，第一判决结果表征了跟踪曲线的梯度和加速度得到的激活指示，依据两个判决结果得到语音激活结果，能够提供更加准确的判断结果。

作为一种可选的实施方式，所述依据所述第一判决结果和所述第二判决结果，获取语音激活结果的步骤，包括：

在一些实施例中，或运算能够确保在第一判决结果和第二判决结果中任何一个中的激活指示都被保留下来，能够提供更加准确的判断结果。

作为一种可选的实施方式，将所述一阶差分曲线和所述二阶差分曲线进行加权求和，获取加权曲线的步骤，包括：

在一些实施例中，基于长短窗能量估计跟踪曲线，即logRatio曲线，对应的加权曲线的计算方式可以采用如下的公式进行计算：

Combine_value = gradient + coef * accelerate；

其中，Combine_value为加权曲线，gradient为一阶差分曲线，accelerate为二阶差分曲线，coef为二阶差分曲线的权重系数，例如可以取值为4。

如下以最小值控制的递归平均的频域语音激活方法，即mcra频域激活判决方法为例，对前述实施方式进行示例性的说明：

如图2所示，在语音的起始阶段，曲线非常陡峭，而且连续语音的音节衔接处，曲线变化也比较大。

如图3所示，通过提取最小值控制的递归平均的频域语音激活方法的概率曲线的梯度信息（即一阶差分）和加速度信息（二阶差分），为了显示方便经过加权放大，以便分析和语谱图的关系。图3中的第二行为最小值控制的递归平均的频域语音激活方法的概率曲线的梯度（绝对值）加权曲线，即一阶差分曲线，第三行为最小值控制的递归平均的频域语音激活方法的概率曲线的加速度（绝对值）加权曲线，即二阶差分曲线，第四行为两种高阶曲线的加权平均，即加权曲线。在图中可以看出出连续语音段的开始阶段，梯度值和加速度值都非常高，而音节的切换过渡过程，虽然相对于开始阶段微弱了一些，也仍然有丰富的高阶信息可以使用。同时结束阶段丰富的高阶信息。利用这些信息补充激活判决的结果，有效的保护开始阶段以及结束阶段的语谱信息。

图4中示出了利用一阶差分曲线和二阶差分曲线补充激活判决的结果，图中第二行是设定0.2门限的激活指示，第三行是将梯度（绝对值）加权值和加速度（绝对值）加权值平均判决（门限取0.2）之后与第二行取或之后的激活指示，可以明显看出，在开始阶段第三行比第二行更早一帧指示了语音的存在，而音节的切换过渡过程中，也对语音给出了更多的激活指示，在结束阶段也给出了更多的音节尾部信息。

如下以时域长短窗能量估计的语音激活方法，即log Ratio算法为例，对前述实施方式进行示例性的说明：

图5中示出了对数比率曲线，即logRatio曲线。图6中第二行为logRatio曲线的梯度（绝对值）加权曲线，即一阶差分曲线，第三行logRatio曲线的加速度（绝对值）加权曲线，即二阶差分曲线，第四行为两种高阶曲线的加权平均，即加权曲线。如图5和图6中可以看出，针对同一段语音，LogRatio算法与mcra算法在开始阶段的高阶信息一样丰富，但在结束阶段的信息不是很明显。

图7为在图4的基础上加入log Ratio激活方法的判决，在图中第四行是vad判决门限为400（LogRatio的范围-2048~2048）的激活指示，第五行是logRatio两种高阶加权判决与第四行激活指示做“或”运算的结果。图中可以看出对单纯LogRatio在音节的切换过渡过程中的判决激活指示提供了有力补充，并且，对LogRatio的开始阶段的判决得到的激活指示更加提前。

通过上面的两个示例性的说明，表面前述实施方式能提前判断出开始阶段音节，给出了激活指示，对传统基于能量激活判决的方法是有效的补充。

依据对应的预设判决门限对所述一阶差分曲线或二阶差分曲线进行判决，获取第三判决结果；

依据所述第三判决结果，获取语音激活结果。

对应的预设判决门限对应的预设判决门限在一些实施例中，对于一阶差分曲线和二阶差分曲线来说，单个的差分曲线也能够提供语音判决中的部分信息，因此，也可以利用一阶差分曲线或二阶差分曲线独立的得到第三判决结果，获取语音激活结果。第三判决结果能够有效的对语音的开始阶段和结束阶段的能量变化进行捕捉，有利于对语音开始阶段和结束阶段的指示的准确性进行提升。而在音节核部分的指示，则可以采用现有技术进行判决和指示。

作为一种可选的实施方式，依据所述第三判决结果，获取语音激活结果的步骤，包括：

在一些实施例中，第四判决结果表征了跟踪曲线得到的激活指示，第三判决结果表征了跟踪曲线的梯度或加速度得到的激活指示，依据两个判决结果得到语音激活结果，能够提供更加准确的判断结果。

作为一种可选的实施方式，所述依据所述第三判决结果和所述第四判决结果，获取语音激活结果的步骤，包括：

在一些实施例中，或运算能够确保在第三判决结果和第四判决结果中任何一个中的激活指示都被保留下来，能够提供更加准确的判断结果。

作为一种可选的实施方式，依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果的步骤，包括：

获取所述加权跟踪曲线的一阶差分曲线；

在一些示例性实施方式中，可以将mcra和logRatio跟踪曲线归一化，mcra的定标例如是Q15，logRatio的定标例如是Q11。此时两组跟踪曲线可以合并得到加权跟踪曲线，增加判决准确性。加权跟踪曲线的计算方式可以根据如下公式进行计算：

P_combine = (P_mcra + P_logRatio*16)/2；其中，P_combine为加权跟踪曲线，P_mcra为mcra算法的能量估计跟踪曲线，P_logRatio为logRatio算法的能量估计跟踪曲线；

直接设定判决门限（Com_thres:1024），大于门限时，第四判决结果为语音激活。

对以及差分曲线gradient结果做积分（累加）,得出G_area（最大值限幅）；

当gradient积分结果大于门限为语音激活（Area_thres:16384），并且gradient超过门限（Grad_thres:8000）时，第三判决结果为语音激活；

依据第三判决结果和第四判决结果，可以得出判决结果。

即，语音激活的判决条件为：VAD=P_combine>Com_thres||G_area>Area_thres||Gradient>Grad_thres。

本发明实施例还提供一种基于能量的语音激活检测装置，所述装置包括：

本发明实施例还提供一种芯片，所述芯片包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

本发明实施例还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如前述任一项所述的方法。

本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于能量的语音激活检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果的步骤，包括：

依据所述加权曲线，获取语音激活结果。

3.根据权利要求2所述的方法，其特征在于，所述依据所述加权曲线，获取语音激活结果的步骤，包括：

依据所述第一判决结果，获取语音激活结果。

4.根据权利要求3所述的方法，其特征在于，所述依据所述第一判决结果，获取语音激活结果的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，所述依据所述第一判决结果和所述第二判决结果，获取语音激活结果的步骤，包括：

6.根据权利要求2所述的方法，其特征在于，将所述一阶差分曲线和所述二阶差分曲线进行加权求和，获取加权曲线的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，所述依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果的步骤，包括：

依据所述第三判决结果，获取语音激活结果。

8.根据权利要求7所述的方法，其特征在于，依据所述第三判决结果，获取语音激活结果的步骤，包括：

9.根据权利要求8所述的方法，其特征在于，所述依据所述第三判决结果和所述第四判决结果，获取语音激活结果的步骤，包括：

10.根据权利要求1所述的方法，其特征在于，依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果的步骤，包括：

获取所述加权跟踪曲线的一阶差分曲线；

11.一种基于能量的语音激活检测装置，其特征在于，所述装置包括：

12.一种芯片，其特征在于，所述芯片包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至10中任一项所述的方法。