CN113223561B

CN113223561B - 一种语音活动检测的方法、电子设备及装置

Info

Publication number: CN113223561B
Application number: CN202110500083.0A
Authority: CN
Inventors: 何陈; 叶顺舟; 康力; 巴莉芳
Original assignee: Unisoc Chongqing Technology Co Ltd
Current assignee: Unisoc Chongqing Technology Co Ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2023-03-24
Anticipated expiration: 2041-05-08
Also published as: CN113223561A

Abstract

本申请公开一种语音活动检测的方法、电子设备及装置，该方法包括：获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量；基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量；基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量；确定该第二语音能量是否大于第一阈值；若该第二语音能量大于该第一阈值，则基于该第一比值确定该第一声音信号和该第二声音信号中是否具有语音。采用本申请描述的方法，有利于提高检测语音活动的准确性。

Description

一种语音活动检测的方法、电子设备及装置

技术领域

本发明涉及通信领域，尤其涉及一种语音活动检测的方法、电子设备及装置。

背景技术

语音活动检测(Voice activity detection，VAD)是对声音信号的能量、过零率、谐波等特征进行分析，来判断声音信号中是否存在语音。VAD技术主要用于简化语音处理。例如，在网际协议(Internet Protocol，IP)电话应用中不对静音数据包进行编码或者传输，从而有效节省计算时间和带宽。

目前，市场上主要基于空气传导(AC，Air Conducted)麦克接收的空气传导信号来进行语音活动检测，但空气传导信号往往面临环境噪声的影响，大量的噪声会降低语音活动检测的准确性。

发明内容

本申请提供一种语音活动检测的方法、电子设备及装置，有利于提高语音活动检测的准确性。

第一方面，本申请提出了一种语音活动检测的方法，该方法包括：获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量；基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量；基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量；确定该第二语音能量是否大于第一阈值；若该第二语音能量大于该第一阈值，则基于第一比值确定该第一声音信号和该第二声音信号中是否具有语音，该第一比值为该第一语音能量和该第二语音能量的比值。

在一种可能的实现方式中，基于该第一比值确定该第一声音信号和该第二声音信号中是否具有语音时的具体实现方式为：确定第一比值是否大于或等于第二阈值，该第一比值为该第一语音能量和该第二语音能量的比值；若该第一比值大于或等于该第二阈值，则确定该第一声音信号和该第二声音信号中具有语音。

在一种可能的实现方式中，若该第一比值小于该第二阈值，则确定该第一声音信号和该第二声音信号中不具有语音；基于平滑因子、该第一总能量以及该第一声音信号当前的第一预设噪音能量更新该第一声音信号的第一预设噪音能量。

在一种可能的实现方式中，若该第二语音能量小于或等于该第一阈值，则确定该第一声音信号和该第二声音信号中不具有语音；基于平滑因子、该第一总能量以及当前的该第一预设噪音能量更新该第一预设噪音能量；基于该平滑因子、该第二总能量以及当前的该第二预设噪音能量更新该第二预设噪音能量。

在一种可能的实现方式中，E_NA(m+1)＝αE_NA(m)+(1-α)E_A(m)，该E_NA(m+1)为更新后的该第一声音信号的第一预设噪音能量，该m为当前帧的帧标识，该m+1为下一帧的帧标识，该E_NA(m)为该第一声音信号当前的第一预设噪音能量，该E_A(m)指该第一总能量，该α为该平滑因子。

在一种可能的实现方式中，若连续确定该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。

第二方面，本申请提出一种语音活动检测的装置，包括获取模块和语音检测模块：该获取模块，用于获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；该语音检测模块，用于：确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量；基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量；基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量；确定该第二语音能量是否大于第一阈值；若该第二语音能量大于该第一阈值，基于第一比值确定该第一声音信号和该第二声音信号中是否具有语音，该第一比值为该第一语音能量和该第二语音能量的比值。

第三方面，本申请提出了一种电子设备，该电子设备包括空气传导麦克、骨传导麦克、存储器和至少一个处理器；该空气传导麦克用于接收第一声音信号；该骨传导麦克用于接收第二声音信号；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令；该处理器，具体用于从该存储器中调用该计算机程序执行上述第一方面所提出的方法。

第四方面，本申请提出了一种芯片，该芯片，用于：获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量；基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量；基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量；确定该第二语音能量是否大于第一阈值；若该第二语音能量大于该第一阈值，则基于第一比值确定该第一声音信号和该第二声音信号中是否具有语音，该第一比值为该第一语音能量和该第二语音能量的比值。

第五方面，本申请提出了一种模组设备，该模组设备包括空气传导麦克模组、骨传导麦克模组、电源模组、存储模组以及芯片模组，其中：该空气传导麦克模组用于接收第一声音信号；该骨传导麦克模组用于接收第二声音信号；该电源模组用于为该模组设备提供电能；该存储模组用于存储数据和指令；该芯片模组用于：获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量；基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量；基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量；确定该第二语音能量是否大于第一阈值；若该第二语音能量大于该第一阈值，则基于第一比值确定该第一声音信号和该第二声音信号中是否具有语音，该第一比值为该第一语音能量和该第二语音能量的比值。

第六方面，本申请提出了一种计算机可读存储介质，该计算机存储介质中存储有计算机可读指令，当该计算机可读指令在通信装置上运行时，使得该通信装置执行上述第一方面及其任意可能实现方式所提出的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音活动检测系统的结构示意图；

图2是本申请实施例提供的一种语音活动检测方法的流程图；

图3是本申请实施例提供的又一种语音活动检测方法的流程图；

图4是本申请实施例提供的一种电子设备的结构示意图；

图5是本申请实施例提供的一种装置的结构示意图；

图6是本申请实施例提供的一种模组设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“该”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

需要说明的是，本申请的说明书和权利要求书中及上述附图中的属于“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述以外的顺序实施。此外，术语“包括”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1为本申请实施例提供的一种语音活动检测系统的结构示意图。该语音活动检测系统包含了至少一个空气传导麦克、至少一个骨传导麦克以及至少一个语音活动检测模块，本申请实施例对空气传导麦克、骨传导麦克和语音活动检测模块的数量不作限定。空气传导麦克和骨传导麦克用于接收声音信号，空气传导麦克接收到的第一声音信号为空气传导信号，骨传导麦克接收到的第二声音信号为骨传导信号。语音活动检测模块用于对空气传导麦克接收的第一声音信号和骨传导麦克接收的第二声音信号进行检测，确定第一声音信号和第二声音信号中是否具有语音。该语音活动检测系统可以应用于耳机或者包含有骨传导麦克和空气传导麦克的电子设备等。

请参阅图2，图2是本申请实施例提供的一种语音活动检测方法的流程示意图。该方法应用于电子设备或电子设备中的芯片，具体的，如图2所示，图2以电子设备为执行主体进行说明。本发明实施例的其他附图所示的语音活动检测方法的执行主语同理，后文不再赘述。本申请实施例的语音活动检测方法步骤201～步骤206：

201、电子设备获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号。

本申请实施例中，电子设备获取第一声音信号和第二声音信号的具体步骤为：电子设备从空气传导麦克获取第一声音信号的第一时域信号，从骨传导麦克获取第二声音信号的第二时域信号；电子设备在获取了第一时域信号和第二时域信号后，将对第一时域信号和第二时域信号进行分帧处理；电子设备在对信号分帧后，进行时频转换，将第一时域信号转化为第一频域信号，将第二时域信号转化为第二频域信号。在进行了时频转换后，电子设备得到第一声音信号的离散傅里叶变换函数，和第二声音信号的离散傅里叶变换函数，其中，第一声音信号的离散傅里叶变换函数为S_A(k,m)，第二声音信号的离散傅里叶变换函数为S_B(k,m)，k为频率索引，m为帧索引。

202、电子设备确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量。

本申请实施例中，第一总能量可以通过公式

计算得出，第二总能量可以通过公式/>

计算得出。其中，E_A为第一总能量，E_B为第二总能量，S_A(k,m)为第一声音信号的离散傅里叶变换函数，S_B(k,m)为第二声音信号的离散傅里叶变换函数，k为频率索引，m为帧索引。

203、电子设备基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量。

204、电子设备基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量。

其中，步骤203和步骤204的执行先后顺序可以交换，或者同时执行，例如，可以先执行步骤204，然后再执行步骤203，本申请实施例对此不作限定。

在一种可能的实现方式中，第一语音能量可以基于公式E_SA(m)＝E_A(m)-E_NA(m)计算得出，其中E_SA为第一声音信号的第一语音能量，E_A为第一总能量，E_NA为第一声音信号的第一预设噪音能量，m为帧索引。第二语音能量可以基于公式E_SB(m)＝E_B(m)-E_NB(m)计算得出，其中E_SB为第二声音信号的第二语音能量，E_B为第二总能量，E_NB为第二声音信号的第二预设噪音能量，m为帧索引。

在另一种可能的实现方式中，第一语音能量可以采用分贝的形式进行表示：

其中Λ_A为第一语音能量，E_A为第一总能量，E_NA为第一声音信号的第一预设噪音能量，m为帧索引；第二语音能量可以采用分贝的形式表示：/>

其中Λ_B为第二语音能量，E_B为第二总能量，E_NB为第二声音信号的第二预设噪音能量，m为帧索引。

205、电子设备确定该第二语音能量是否大于第一阈值。

本申请实施例中，电子设备通过将第二语音能量与第一阈值进行比较，若第二语音能量大于第一阈值，则初步判断在第二声音信号中可能具有语音。骨传导麦克由于并不直接面对噪声，具有较强的噪声鲁棒性，通过第二语音能量的大小可以初步判断接收到的第一声音信号和第二声音中是否具备语音的。由于第二声音信号是通过骨传导麦克接收到的骨传导信号，而第一声音信号是通过空气传导麦克接收到的空气传导信号，空气传导信号会容易受到较多空气环境中噪音的影响，相对于骨传导信号更容易掺杂较多的噪声，而骨传导信号不直接面对空气中的噪声，基于第二语音能量大小初步判断第一声音信号和第二声音中是否具备语音，相对于基于第一语音能量大小去判断，会更加精确。

可选的，可以将第二语音能量E_SB(m)与第一阈值进行比较，或者也可以将第二语音能量的分贝形式Λ_B(m)与第一阈值进行比较，本申请实施例对此处第二语音能量的形式不作限定。

可选的，在这里除了将第二语音能量与第一阈值进行比较，也可以直接将第二总能量与第一阈值进行比较。

206、若该第二语音能量大于该第一阈值，则电子设备基于第一比值确定该第一声音信号和该第二声音信号中是否具有语音。

步骤206的具体实现方式，可以参见后续步骤308～步骤311中的描述。

通过上述所描述的方法，电子设备基于空气传导麦克接收到的第一声音信号和骨传导麦克接收到的第二声音信号进行语音活动检测，骨传导麦克由于并不直接面对空气中的噪声，因此接收到的第二声音信号具有较强的噪声鲁棒性，可以有效规避由空气传导麦克接收到的第一声音信号容易被环境噪声的影响问题。通过这样的方式，有利于提高语音活动检测的准确性。

请参阅图3，图3是本申请实施例提供的又一种语音活动检测方法的流程示意图。本申请实施例的语音活动检测方法步骤301～步骤311：

301、电子设备获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号。

302、电子设备确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量。

303、电子设备基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量。

304、电子设备基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量。

305、电子设备确定该第二语音能量是否大于第一阈值。若第二语音能量大于第一阈值，则执行步骤308；若第二语音能量小于或等于第一阈值，则执行步骤306和步骤307。

其中，步骤301～步骤305与上述步骤201～步骤205的具体实现方式相同，本申请实施例在此不作赘述。

306、电子设备确定第一声音信号和第二声音信号不包含语音。

307、电子设备基于平滑因子、该第一总能量以及当前的该第一预设噪音能量更新该第一预设噪音能量，以及基于该平滑因子、该第二总能量以及当前的该第二预设噪音能量更新该第二预设噪音能量。

本申请实施例中，若该第二语音能量小于或等于该第一阈值，则电子设备确定该第一声音信号和该第二声音信号中不具有语音，因此可以确定当前的第一声音信号和第二声音信号中所包含的都是噪音，为了能够使每一帧计算的语音能量更加精确，电子设备基于平滑因子、该第一总能量以及当前的该第一预设噪音能量更新该第一预设噪音能量，以及基于该平滑因子、该第二总能量以及当前的该第二预设噪音能量更新该第二预设噪音能量。通过上述的实现方式，当确定了第一声音信号和第二声音信号中不具有语音能量后，及时更新第一预设噪音能量和第二预设噪音能量，使第一语音能量和第二语音能量的大小更加精确，有利于提高语音活动检测的准确性。

其中，更新后的该第一声音信号的第一预设噪音能量可以通过公式E_NA(m+1)＝αE_NA(m)+(1-α)E_A(m)，进行计算，该E_NA(m+1)为更新后的该第一声音信号的第一预设噪音能量，该m为当前帧的帧标识，该m+1为下一帧的帧标识，该E_NA(m)为该第一声音信号当前的第一预设噪音能量，该E_A(m)指该第一总能量，该α为该平滑因子，平滑因子用于进行平滑处理，平滑处理可以使更新的预设噪音能够更加精确和平稳；更新后的该第二声音信号的第二预设噪音能量可以通过公式E_NB(m+1)＝αE_NB(m)+(1-α)E_B(m)，进行计算，该E_NB(m+1)为更新后的该第二声音信号的第二预设噪音能量，该m为当前帧的帧标识，该m+1为下一帧的帧标识，该E_NB(m)为该第二声音信号当前的第二预设噪音能量，该E_B(m)指该第二总能量，该α为该平滑因子，平滑因子用于进行平滑处理，平滑处理可以使更新的预设噪音能够更加精确和平稳。通过及时更新第一预设噪音能量和第二预设噪音能量，可以有利于使每次计算得出的第一语音能量和第二语音能量更加精确，提高语音活动检测的准确性。

308、电子设备确定第一比值是否大于或等于第二阈值，该第一比值为该第一语音能量和该第二语音能量的比值。若该第一比值小于第二阈值，则执行步骤309和步骤310；若该第一比值是否大于或等于第二阈值，则执行步骤311。

本申请实施例中，E_SA为第一声音信号的第一语音能量，E_SB为第二声音信号的第二语音能量，该第一比值为

第二阈值为α，通过比较μ和α的大小来确定第一声音信号和第二声音信号中是否包含语音。

由于第一声音信号和第二声音信号均为电子设备同一时刻接收到的声音信号，因此第一语音能量和第二语音能量的大小相近似。若第一语音能量远小于第二语音能量，则说明第二声音信号中存在例如牙齿碰撞或者骨头发出的噪音。通过将第一声音信号中的第一语音能量结合起来进行判断第一声音信号和第二声音信号中是否具有语音，可以有效避免由于第二声音信号中包含噪音而干扰导致的误差，有利于提高语音活动检测的准确性。

309、电子设备确定第一声音信号和第二声音信号不包含语音。

310、电子设备基于平滑因子、该第一总能量以及当前的该第一预设噪音能量更新该第一预设噪音能量。

本申请实施例中，更新后的该第一声音信号的第一预设噪音能量可以通过公式E_NA(m+1)＝αE_NA(m)+(1-α)E_A(m)，进行计算，该E_NA(m+1)为更新后的该第一声音信号的第一预设噪音能量，该m为当前帧的帧标识，该m+1为下一帧的帧标识，该E_NA(m)为该第一声音信号当前的第一预设噪音能量，该E_A(m)指该第一总能量，该α为该平滑因子，平滑因子用于使更新的预设噪音能量能够更加精确。由于第二声音信号出现牙齿碰撞或者骨头发出的噪音情况持续时间较短，频谱呈现冲激状，因此，此处只更新第一预设噪音能量而不更新第二预设噪音能量。

可选的，若连续确定该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。如果多次确定第一声音信号和第二声音信号没有语音，则说明在可能有较长时间接收到的声音信号都不包含语音，因此电子设备可以等待预设时间后再获取第一声音信号和第二声音信号，通过这样的方式可以有效减轻电子设备的负载。

311、电子设备确定第一声音信号和第二声音信号包含语音。

请参阅图4，图4是本申请实施例提供的一种电子设备的结构示意图，该电子设备可以为耳机等相关的设备。该电子设备40中包括处理器401、存储器402、空气传导麦克403和骨传导麦克404。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，该处理器401还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器，可选的，该处理器401也可以是任何常规的处理器等。

存储器402可以包括只读存储器和随机存取存储器，并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。

可选的，该电子设备40还可以包括除上述所描述的器件以外的器件，例如通信接口，本申请实施例对此不作限定。

其中：

处理器401，用于调用存储器402中存储的程序指令。

存储器402，用于存储程序指令。

空气传导麦克403，用于接收第一声音信号。

骨传导麦克404，用于接收第二声音信号。

处理器401调用存储器402中存储的程序指令，使该电子设备40执行以下操作：从空气传导麦克403获取第一声音信号，从骨传导麦克404获取第二声音信号，该第一声音信号为空气传导麦克403接收的声音信号，该第二声音信号为骨传导麦克404接收的声音信号；确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量；基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量；基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量；确定该第二语音能量是否大于第一阈值；若该第二语音能量大于该第一阈值，则基于第一比值确定该第一声音信号和该第二声音信号中是否具有语音，该第一比值为该第一语音能量和该第二语音能量的比值。

如图5所示为本申请实施例提供的一种装置50，用于实现上述实施例中电子设备的功能。该装置可以是电子设备或用于电子设备的装置。用于电子设备的装置可以为电子设备内的芯片系统或芯片。其中，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。图5所示的装置50可以包括获取模块501和语音检测模块502，其中：

该获取模块501，用于获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；该语音检测模块502，用于确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量；该语音检测模块502，还用于基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量；该语音检测模块502，还用于基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量；该语音检测模块502，还用于确定该第二语音能量是否大于第一阈值；该语音检测模块502，还用于若该第二语音能量大于该第一阈值，则基于第一比值确定该第一声音信号和该第二声音信号中是否具有语音，该第一比值为该第一语音能量和该第二语音能量的比值。

在一种可能的实现方式中，当该语音检测模块502在基于该第一比值确定该第一声音信号和该第二声音信号中是否具有语音时，用于：确定该第一比值是否大于或等于第二阈值，该第一比值为该第一语音能量和该第二语音能量的比值；若该第一比值大于或等于该第二阈值，则确定该第一声音信号和该第二声音信号中具有语音。

在一种可能的实现方式中，该语音检测模块502，还用于若该第一比值小于该第二阈值，则确定该第一声音信号和该第二声音信号中不具有语音；基于平滑因子、该第一总能量以及该第一声音信号当前的第一预设噪音能量更新该第一声音信号的第一预设噪音能量。

在一种可能的实现方式中，该语音检测模块502，还用于若该第二语音能量小于或等于该第一阈值，则确定该第一声音信号和该第二声音信号中不具有语音；基于平滑因子、该第一总能量以及当前的该第一预设噪音能量更新该第一预设噪音能量；基于该平滑因子、该第二总能量以及当前的该第二预设噪音能量更新该第二预设噪音能量。

在一种可能的实现方式中，该语音检测模块502，还用于若连续确定该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。

上述装置例如可以是：芯片、或者芯片模组。关于上述实施例中描述的各个装置、产品包含的各个模块，其可以是软件模块，也可以是硬件模块，或者也可以部分是软件模块，部分是硬件模块。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块可以都采用电路等硬件的方式实现，或者，至少部分模块可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块可以都采用电路等硬件的方式实现，不同的模块可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块可以都采用电路等硬件的方式实现，不同的模块可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有)部分模块可以采用电路等硬件方式实现。

本申请实施例还提供一种芯片，该芯片可以执行前述方法实施例中电子设备的相关步骤。该芯片用于：

获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量；基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量；基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量；确定该第二语音能量是否大于第一阈值；若该第二语音能量大于该第一阈值，则基于第一比值确定该第一声音信号和该第二声音信号中是否具有语音，该第一比值为该第一语音能量和该第二语音能量的比值。

在一种可能的实现方式中，当该芯片在基于该第一比值确定该第一声音信号和该第二声音信号中是否具有语音时，用于：确定第一比值是否大于或等于第二阈值，该第一比值为该第一语音能量和该第二语音能量的比值；若该第一比值大于或等于该第二阈值，则确定该第一声音信号和该第二声音信号中具有语音。

在一种可能的实现方式中，该芯片，还用于若该第一比值小于该第二阈值，则确定该第一声音信号和该第二声音信号中不具有语音；基于平滑因子、该第一总能量以及该第一声音信号当前的第一预设噪音能量更新该第一声音信号的第一预设噪音能量。

在一种可能的实现方式中，该芯片，还用于若连续确定该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。

如图6所示，图6是本申请实施例提供的一种模组设备的结构示意图。该模组设备60可以执行前述方法实施例中终端设备的相关步骤，该模组设备60包括：通信模组601、电源模组602、存储模组603、芯片模组604、空气传导麦克模组605以及骨传导麦克模组606。

其中，所述电源模组602用于为所述模组设备提供电能；所述存储模组603用于存储数据和指令；所述通信模组601用于进行模组设备内部通信，或者用于所述模组设备与外部设备进行通信；所述空气传导麦克模组605用于接收第一声音信号；所述骨传导麦克模组606用于接收第二声音信号；所述芯片模组604用于：

获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克模组605接收的声音信号，该第二声音信号为骨传导麦克模组606接收的声音信号；确定该第一声音信号的第一总能量以及该第二声音信号的第二总能量；基于该第一总能量和第一声音信号的第一预设噪音能量确定该第一声音信号的第一语音能量；基于该第二总能量和第二声音信号的第二预设噪音能量确定该第二声音信号的第二语音能量；确定该第二语音能量是否大于第一阈值；若该第二语音能量大于该第一阈值，则基于该第一比值确定该第一声音信号和该第二声音信号中是否具有语音。

在一种可能的实现方式中，当该芯片模组604在基于该第一比值确定该第一声音信号和该第二声音信号中是否具有语音时，用于：确定第一比值是否大于或等于第二阈值，该第一比值为该第一语音能量和该第二语音能量的比值；若该第一比值大于或等于该第二阈值，则确定该第一声音信号和该第二声音信号中具有语音。

在一种可能的实现方式中，该芯片模组604，还用于若该第一比值小于该第二阈值，则确定该第一声音信号和该第二声音信号中不具有语音；基于平滑因子、该第一总能量以及该第一声音信号当前的第一预设噪音能量更新该第一声音信号的第一预设噪音能量。

可选的，E_NA(m+1)＝αE_NA(m)+(1-α)E_A(m)，该E_NA(m+1)为更新后的该第一声音信号的第一预设噪音能量，该m为当前帧的帧标识，该m+1为下一帧的帧标识，该E_NA(m)为该第一声音信号当前的第一预设噪音能量，该E_A(m)指该第一总能量，该α为该平滑因子。

在一种可能的实现方式中，该芯片模组604，还用于若连续确定该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在处理器上运行时，上述方法实施例的方法流程得以实现。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在处理器上运行时，上述方法实施例的方法流程得以实现。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些操作可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请提供的各实施例的描述可以相互参照，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。为描述的方便和简洁，例如关于本申请实施例提供的各装置、设备的功能以及执行的操作可以参照本申请方法实施例的相关描述，各方法实施例之间、各装置实施例之间也可以互相参考、结合或引用。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音活动检测的方法，其特征在于，所述方法包括：

获取第一声音信号和第二声音信号，所述第一声音信号为空气传导麦克接收的声音信号，所述第二声音信号为骨传导麦克接收的声音信号；

确定所述第一声音信号的第一总能量以及所述第二声音信号的第二总能量；

基于所述第一总能量和第一声音信号的第一预设噪音能量确定所述第一声音信号的第一语音能量；

基于所述第二总能量和第二声音信号的第二预设噪音能量确定所述第二声音信号的第二语音能量；

确定所述第二语音能量是否大于第一阈值；

若所述第二语音能量小于或等于所述第一阈值，则确定所述第一声音信号和所述第二声音信号中不具有语音；

基于平滑因子、所述第一总能量以及当前的所述第一预设噪音能量更新所述第一预设噪音能量；

基于所述平滑因子、所述第二总能量以及当前的所述第二预设噪音能量更新所述第二预设噪音能量；

若所述第二语音能量大于所述第一阈值，则确定第一比值是否大于或等于第二阈值，所述第一比值为所述第一语音能量和所述第二语音能量的比值；

若所述第一比值大于或等于所述第二阈值，则确定所述第一声音信号和所述第二声音信号中具有语音；

若所述第一比值小于所述第二阈值，则确定所述第一声音信号和所述第二声音信号中不具有语音；

基于平滑因子、所述第一总能量以及所述第一声音信号当前的第一预设噪音能量更新所述第一声音信号的第一预设噪音能量。

2.根据权利要求1所述的方法，其特征在于，

，所述

为更新后的所述第一声音信号的第一预设噪音能量，所述

为当前帧的帧标识，所述

为下一帧的帧标识，所述

为所述第一声音信号当前的第一预设噪音能量，所述

指所述第一总能量，所述

为所述平滑因子。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若连续确定所述第一声音信号和所述第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取所述第一声音信号和所述第二声音信号。

4.一种语音活动检测的装置，其特征在于，所述装置包括获取模块和语音检测模块；

所述获取模块，用于获取第一声音信号和第二声音信号，所述第一声音信号为空气传导麦克接收的声音信号，所述第二声音信号为骨传导麦克接收的声音信号；

所述语音检测模块，用于：

确定所述第二语音能量是否大于第一阈值；

5.一种电子设备，其特征在于，所述电子设备包括空气传导麦克、骨传导麦克、存储器和至少一个处理器；

所述空气传导麦克用于接收第一声音信号；

所述骨传导麦克用于接收第二声音信号；

所述存储器与所述至少一个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；

所述处理器，具体用于从所述存储器中调用所述计算机程序执行如权利要求1~3中任一项所述的方法。

6.一种芯片，其特征在于，所述芯片，用于：

若所述第二语音能量小于或等于第一阈值，则确定所述第一声音信号和所述第二声音信号中不具有语音；

确定所述第二语音能量是否大于第一阈值；

7.一种模组设备，其特征在于，所述模组设备包括空气传导麦克模组、骨传导麦克模组、电源模组、存储模组以及芯片模组，其中：

所述空气传导麦克模组用于接收第一声音信号；

所述骨传导麦克模组用于接收第二声音信号；

所述电源模组用于为所述模组设备提供电能；

所述存储模组用于存储数据和指令；

所述芯片模组用于：

确定所述第二语音能量是否大于第一阈值；

8.一种计算机可读存储介质，其特征在于，所述计算机存储介质中存储有计算机可读指令，当所述计算机可读指令在通信装置上运行时，使得所述通信装置执行如权利要求1~3中任意一项所述的方法。