CN113270108B

CN113270108B - 语音活动检测方法、装置、电子设备及介质

Info

Publication number: CN113270108B
Application number: CN202110460098.9A
Authority: CN
Inventors: 杨闳博
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2024-04-02
Anticipated expiration: 2041-04-27
Also published as: CN113270108A

Abstract

本申请公开了一种语音活动检测方法、装置、电子设备及介质，属于通信技术领域。该方法包括：确定第t帧音频信号的第一空间谱，第t帧音频信号包括M个麦克风采集的M个第一音频信号，且M个第一音频信号与M个麦克风一一对应，M为大于1的整数，t为正整数；确定第t帧音频信号中的背景干扰信号的第二空间谱；根据第一空间谱和第二空间谱，确定第t帧音频信号中的期望语音信号的第三空间谱；基于第三空间谱检测第t帧音频信号中的语音活动。

Description

语音活动检测方法、装置、电子设备及介质

技术领域

本申请属于通信技术领域，具体涉及一种语音活动检测方法、装置、电子设备及介质。

背景技术

随着通信技术的发展，采用多麦克风语音增强技术进行语音通话可以获得比采用单麦克风语音增强技术进行语音通话更好的语音增强效果。其中，语音活动检测VAD(VoiceActivity Detection，VAD)是多麦克风语音增强技术的核心功能，VAD可以为回声消除、降噪、去混响、自动增益控制等模块提供语音活动概率数值。

目前，可以采用单通道(即单麦克风)获取的音频信号中语音信号和噪声信号的统计特征差异进行VAD。其中，语音信号和噪声信号的统计特征差异为：噪声信号比语音信号更趋向于长时平稳。

然而，按照上述方法，当进行VAD时，由于只用到了单通道采集的音频信号本身的统计特征，而没有考虑音频信号的空间特征，因此在复杂声场环境下，可能将环境中的干扰信号作为语音活动，从而导致VAD的鲁棒性较差。

发明内容

本申请实施例的目的是提供一种语音活动检测方法、装置、电子设备及介质，能够解决在复杂声场环境下采用单通道VAD，导致VAD的鲁棒性较差的问题。

第一方面，本申请实施例提供了一种语音活动检测方法，该方法包括：确定第t帧音频信号的第一空间谱，第t帧音频信号包括M个麦克风采集的M个第一音频信号，且M个第一音频信号与M个麦克风一一对应，M为大于1的整数，t为正整数；确定第t帧音频信号中的背景干扰信号的第二空间谱；根据第一空间谱和第二空间谱，确定第t帧音频信号中的期望语音信号的第三空间谱；基于第三空间谱，检测第t帧音频信号中的语音活动。

第二方面，本申请实施例提供了一种语音活动检测装置，该装置包括确定模块和检测模块；确定模块，用于确定第t帧音频信号的第一空间谱，且确定第t帧音频信号中的背景干扰信号的第二空间谱，并根据第一空间谱和第二空间谱，确定第t帧音频信号中的期望语音信号的第三空间谱；第t帧音频信号包括M个麦克风采集的M个第一音频信号，且M个第一音频信号与M个麦克风一一对应，M为大于1的整数，t为正整数；检测模块，用于基于确定模块确定的第三空间谱检测第t帧音频信号中的语音活动。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，可以确定第t帧音频信号的第一空间谱，所述第t帧音频信号包括M个麦克风采集的M个第一音频信号，且所述M个第一音频信号与所述M个麦克风一一对应，M为大于1的整数，t为正整数；确定所述第t帧音频信号中的背景干扰信号的第二空间谱；根据所述第一空间谱和所述第二空间谱，确定所述第t帧音频信号中的期望语音信号的第三空间谱；基于所述第三空间谱，检测所述第t帧音频信号中的语音活动。通过该方案，在进行语音活动检测时，由于可以根据待检测音频信号(例如第t帧音频信号)的总空间谱(例如第一空间谱)和第t帧音频信号中的干扰信号的空间谱(例如第二空间谱)来确定第t帧音频信号中的期望语音信号的空间谱(例如第三空间谱)，即可以先过滤掉第t帧音频信号中的干扰信号，因此可以确保通过第三空间谱进行语音活动检测的准确性较高，从而可以提高语音活动检测的鲁棒性。

附图说明

图1为本申请实施例提供的语音活动检测方法的示意图；

图2为确定第t帧音频信号的空间谱的流程示意图；

图3为M个麦克风构成的麦克风阵列和空间坐标的示意图；

图4为本申请实施例提供的语音活动检测方法中未进行背景干扰信号滤除的方案与传统语音活动检测方法的比对图谱；

图5为本申请实施例提供的语音活动检测方法中未进行背景干扰信号滤除的方案与加入了背景干扰信号滤除的方案的比对图谱；

图6为本申请实施例提供的语音活动检测装置的结构示意图；

图7为本申请实施例提供的电子设备的示意图；

图8为本申请实施例提供的电子设备的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音活动检测方法、装置、电子设备及介质进行详细地说明。

本发明实施例提供的语音活动检测方法、装置和电子设备可以应用于通过多麦克风进行语音增强的场景中。例如，可以在使用多麦克风进行语音通话、视频通话、录音等情况下，通过该多麦克风进行语音增强。

需要说明的是，在多麦克风语音增强中，语音活动检测VAD是核心功能，VAD可以为回声消除、降噪、去混响、自动增益控制等模块提供语音活动概率数值，VAD检测的准确性和鲁棒性强非常重要。

传统技术中进行VAD时待检测音频中的语音和噪声当做独立的随机信号，计检测音频信号为语音信号和噪声信号的加性混合。设定H0为语音信号不存在，H1为语音信号存在，则单通道麦克风观测到的混合信号X(f)可以通过下述公式实现：

H0表示语音信号不存在的时段：X(f)＝N(f)；

H1表示语音信号不存在的时段：X(f)＝S(f)+N(f)；

其中，X(f)、S(f)、N(f)分别为含噪声语音信号，干净语音信号和噪声信号；含噪声语音信号经过STFT变换(即是对含噪声语音信号进行分帧、加窗，然后再进行离散傅里叶变换)，f∈[0，F]Hz为离散傅里叶变换的频率点。

假定语音信号和噪声信号在各个频率点服从独立的零均值高斯分布，则VAD判定H0的似然函数p(X(f)|H0)和H1的似然函数p(X(f)|H1)分别为：

其中，λ_N(f)为噪声信号的方差，λ_S(f)语音信号的方差。

进一步地，若定义VAD频点似然比函数为则全局似然比函数Λ_VAD为单通道采集的音频信号的各个频率点似然函数的累加，具体的：

其中，F表示频点总数。

假设噪声信号比语音信号更趋向于长时平稳，那么噪声信号的方差λ_N(f)可以从含噪声语音信号X(f)的功率的长时间平均值得到。而语音信号的方差λ_S(f)可以由含噪声语音信号X(f)的瞬时功率和噪声信号的方差λ_N(f)通过direct-decision算法估计得到，语音信号的方差λ_S(f)的计算方法如下：

假定先验信噪比后验信噪比/>其中t代表当前帧音频信号，t-1代表当前帧音频信号的前一帧音频信号，那么当前帧的先验信噪比ξ(t，f)为：

ξ(t，f)＝α*ξ(t-1，f)+(1-α)*max[0，γ(t，f)-1]

其中，ξ(t-1，f)为当前帧的前一帧的先验信噪比，α为常数。

可以理解，对于第t帧音频信号(即第t帧含噪声的语音信号)，将第t帧音频信号的先验信噪比和后验信噪比带入全局似然比函数，即可得到语音活动检测的估计值：

其中，Λ_VAD∈[0，1]；Λ_VAD的值越接近1，表示第t帧音频信号中存在语音活动的概率越大；Λ_VAD的值越接近0，表示第t帧音频信号中存在语音活动的概越小。

综上所述，按照上述方法，由于传统语音活动检测方法只接收单通道音频信号进行VAD检测，且在区分语音信号和噪声信号时，仅用到了接收的音频信号本身的统计特征，没有利用麦克风阵列所包含的声音的空间特征。从而导致在复杂声场环境下，将环境干扰当做语音活动，效果不理想。

本申请的目的在于提供一种基于麦克风阵列空间谱的语音活动检测方法，以改进多麦克风语音增强技术中语音活动检测的性能。

本申请实施例提供的语音活动可以结合麦克风阵列SRP-PHAT空间谱计算方法，通过音频信号中的背景干扰信号的空间谱，估计音频信号中的期望语音信号的空间谱，然后再结合语音信号的空间谱汇聚特征，并根据期望语音信号的空间谱，求取语音活动概率。本申请实施提供的语音活动检测方法可以更好的适应环境干扰，有效提升语音活动检测的鲁棒性。

如图1所示，本申请实施例提供一种语音活动检测方法，该方法可以包括下述的步骤101至步骤104。下面以语音活动检测装置执行该语音活动检测方法为例进行示例性说明。

步骤101、语音活动检测装置确定第t帧音频信号的第一空间谱。

其中，第t帧音频信号包括M个麦克风采集的M个第一音频信号，且M个第一音频信号与M个麦克风一一对应，M为大于1的整数，t为正整数。

可选地，本申请实施例中，语音活动检测装置通过M个麦克风采集音频信号的过程中，可以先将M个麦克风采集的音频信号模数转换(即AD转换)为数字域信号。然后再将该数字域信号进行时频转换，以将M个麦克风获取的音频信号转换到频域，得到M个时频谱信号，该M个时频谱信号分别为:[TF₁(f),TF₂(f),…，TF_m(f),…TF_M(f)]，其中，TF_m(f)为由第m个麦克风采集的音频信号经过时频转换得到的时频谱信号，m∈[1,M]。

可选地，本申请实施例不限定时频转换的方法，例如可以采用短时傅里叶变换STFT(short-time Fourier transform，STFT)方法，离散余弦变换DCT(离散余弦变换)方法，子带滤波器组等，具体可以根据实际使用需求确定，本申请实施例不作限定。

示例性地，以STFT方法为例，将M个通道(即M个麦克风)的时域音频信号(例如可以为M个麦克风在一定时长内采集的时域音频信号)进行分帧和加窗，例如，采样频率Fs为16Khz，帧长32ms，帧移16ms，窗函数选汉明窗，那么可以得到M个时域音频信号：[s₁(n),s₂(n),…s_M(n)]。通过离散傅里叶变换，得到M个时频谱信号：[TF₁(f),TF₂(f),…，TF_m(f),…TF_M(f)]。

其中，n为采样点索引，每个时域音频信号含采样点总数为N；TF_m(f)为由第m个麦克风采集的音频信号经过时频转换得到的时频谱信号，f为离散频率点，f∈[0,F]Hz，F＝0.5Fs，m∈[1,M]为麦克风序号，i为复数单位。

需要说明的是，本申请实施例中的音频信号均指时频谱信号。例如，M个第一音频信号分别为：[TF₁(f),TF₂(f),…，TF_m(f),…TF_M(f)]。

可选地，本申请实施例中，上述M个第一音频信号可以包括1个参考音频信号和M-1个音频信号(即M个第一音频信号中除参考音频信号之外的其他音频信号)。上述M个麦克风包括一个参考麦克风和M-1个其他麦克风，该参考音频信号为通过参考麦克风采集的音频信号。

需要说明的是，本申请实施例中，参考麦克风可以为M个麦克风中的任意一个麦克风，具体可以根据实际使用需求确定，本申请实施例不作限定。

可选地，本申请实施例中，当上述M个第一音频信号包括1个参考音频信号和M-1个音频信号时，上述步骤101具体可以通过下述的步骤101a和步骤101b实现。

步骤101a、对于M-1个音频信号中的第g个音频信号，语音活动检测装置基于第g个音频信号和参考音频信号，确定第g个互功率谱。

其中，g可以为小于M-1的正整数。

可以理解，本申请实施例中，在语音活动检测装置分别确定M-1个音频信号与参考音频信号的互功率谱之后，可以得到M-1个互动率谱，且该M-1个互功率谱与M-1个音频信号一一对应。即第g个音频信号为M-1个音频信号中的任意一个音频信号。

可选地，本申请实施例中，假设参考麦克风为M个麦克风中的第1个麦克风，那么语音活动检测装置可以通过下述的公式(1)确定M-1个互功率谱：

PX_(1,m)(t，f)＝conj[TF₁(t，f)]*TF_m(t，f) (1)；

其中，PX_(1,m)(t，f)表示第m个麦克风采集的音频信号TF₁(t，f)与参考麦克风采集的音频信号TF_m(t，f)的互功率谱，m∈[2,M]，为正整数。

可选地，本申请实施例中，语音活动检测装置确定M-1个互功率谱之后，对于每个互功率谱，可以通过下述的公式(2)将一个互功率谱的频点幅值归一化，并保留频点的相位信息，公式(2)为：

其中，PXNorm_(1,m)(f)为对上述公式1中的互功率谱PX_(1,m)(t，f)进行归一化处理后的得到的互功率谱，m∈[2,M]。

需要说明的是，本申请实施例中，下述的步骤101b中的M-1个互功率谱为经过幅值归一化处理后的互功率谱。

步骤101b、语音活动检测装置根据M-1个互功率谱、目标转换矩阵和频域加权系数，确定第一空间谱。

其中，目标转换矩阵为预设的频域-空间转换矩阵，频域加权系数是根据第t帧音频信号中的期望语音信号在每个频点上存在的估计概率确定的。

可选地，本申请实施例中，假设参考麦克风为M个麦克风中的第一个麦克风，即麦克风1，那么：第一空间谱PS(θ)具体可以通过下述的公式(3)计算：

其中，PXNorm_(1,m)(f)表示麦克风1采集的音频信号与麦克风m采集的音频信号的互功率谱，W(f)表示频域加权系数，F2θ_Trans_(1,m)(f,θ)为频域-空间转换矩阵中的矩阵元素。

需要说明的是，频域加权系数影响到第一空间谱估计的数值范围，频域加权系数的选择依据第t帧音频信号中的期望语音信号在每个频点上存在的估计概率。

下面对确定频域加权系数的方法进行示例性说明。

示例性地，一种实现方式是根据期望语音信号在前t-1帧音频信号(即在采集第t帧音频信号之前采集的全部音频信号)的各个频点上存在的统计概率确定,如采用长期平均谱LTASS(Long-term average speech spectra，LTASS)。另一种实现方式，是将参考麦克风的信号，送入已训练好的神经网络模型中，将期望语音信号在参考麦克风采集的音频信号的每个频点上存在的概率，作为实时权值。

下面对预设频域-空间转换矩阵的方法进行示例性地说明。

示例性地，仍以参考麦克风为M个麦克风中的第1个麦克风为例，假设θ为M个麦克风的观测角度范围Z(根据M个麦克风形成的麦克风阵列确定)内的观测方位角，相邻观测方位角之间的角度差为△θ_i，D为观测角度范围内的观测方位角的数量；那么可以构造频域-空间转换矩阵F2θ_Trans_(1,m)∈R^F×D；F＝0.5Fs。可以理解，频域-空间转换矩阵中的每个矩阵元素可以表达为下式：

其中，c为声波传输速率，θ为观测方位角，d_(1,m)为麦克风1与麦克风m之间的距离。

本申请实施例中，由于在确定M个麦克风采集的第t帧音频信号(即M个第一音频信号)的第一空间谱时，可以参考该M个麦克风采集的前t-1帧音频信号(为M*(t-1)帧音频信号)中的期望语音信号在该M*(t-1)帧音频信号的各个频点上存在的概率，因此提高确保的第一空间谱的准确性。

下面结合图2对步骤101的流程进行具体描述。

示例性地，如图2所示，假设时频谱信号1为参考音频信号，那么：语音活动检测装置可以分别计算时频谱信号1与时频谱信号2、时频谱信号3，……，和时频谱信号M的互功率谱，得到M-1个互功率谱，并对该M-1个互功率谱进行幅值归一化处理；然后再结合幅值归一化处理后的M-1个互功率谱、频域加权系数和频域-空间转换矩阵，确定第t帧音频信号的第一空间谱。

步骤102、语音活动检测装置确定第t帧音频信号中的背景干扰信号的第二空间谱。

可选地，本申请实施例中，上述步骤102具体可以通过下述的步骤102a实现。

步骤102a、语音活动检测装置根据第一空间谱和第四空间谱，确定第二空间谱。

其中，第四空间谱为第t-1帧音频信号中的背景干扰信号的空间谱，该第t-1帧音频信号包括M个麦克风采集的M个第二音频信号，该M个第二音频信号与M个麦克风一一对应。可以理解，第t帧音频信号与第t-1帧音频信号的采集时间不同。

示例性地，假设第t帧音频信号包括M个麦克风采集的M个第一音频信号，那么第二空间谱具体可以通过下述的公式(4)计算得到：

PS_bg(t,θ)＝α₁*PS_bg(t-1,θ)+(1-α₁)*PS(t,θ) (4)；

其中，PS_bg(t,θ)为M个第t帧音频信号中的背景干扰信号的第二空间谱，PS_bg(t-1,θ)为第t帧音频信号中的背景干扰信号的空间谱，PS(t,θ)为第t帧音频信号的第一空间谱，α₁为平滑系数且α₁为常数，例如α₁取值可以为0.8。

为了便于理解，下面结合具体示例对第t帧音频信号和第t-1帧音频信号进行示例说明。

示例性地，以M＝3为例，如下表1所示，麦克风1在t时段采集音频信号j₁，在t-1时段采集音频信号(j-1)₁；麦克风2在t时段采集音频信号j₂，在t-1时段采集音频信号(j-1)₂；麦克风3在t时段采集音频信号j₃，在t-1时段采集音频信号(j-1)₃。可以看出，第t帧音频信号包括：音频信号j₁、音频信号j₂和音频信号j₃；

第t-1帧音频信号包括：音频信号(j-1)₁、音频信号(j-1)₂和音频信号(j-1)₃。

表1

M个麦克风	第t帧音频信号	第t-1帧音频信号
			麦克风1	j₁	(j-1)₁
麦克风2	j₂	(j-1)₂
			麦克风3	j₃	(j-1)₃

本申请实施例中，由于在确定第t帧音频信号中的背景干扰信号的第二空间谱时，可以参考M个麦克风在采集该第t帧音频信号前最后一次采集的第t-1帧音频信号中的背景干扰信号的空间谱，因此可以提高确定的第二空间谱的准确性。

步骤103、语音活动检测装置根据第一空间谱和第二空间谱，确定第t帧音频信号中的期望语音信号的第三空间谱。

本申请实施例中，在确定第一空间谱和第二空间谱之后，通过第二空间谱对第一空间谱进行分析，提取第一空间谱中的背景干扰成分，估计SNR(即期望语音信号对比背景干扰信号在空间谱中的SNR)和背景滤除增益，滤除空间谱中的环境干扰部分，得到期望语音信号的空间谱。

可选地，本申请实施例中，上述步骤103具体可以通过下述的步骤103a和步骤103b实现。

步骤103a、语音活动检测装置根据第一空间谱和第二空间谱，确定第t帧音频信号中的背景干扰信号的过滤增益。

可选地，本申请实施例中，语音活动检测装置可以先估计第一空间谱的后验信噪比和第一空间谱的先验信噪比，然后再基于该先验信噪比确定M个第一音频信号中的背景干扰信号的过滤增益。

具体的，第一空间谱的后验信噪比估计为：

其中，PS(t,θ)为第一空间谱，PS-bg(t,θ)为第二空间谱。需要说明的是，本申请实施例中，PS(t,θ)与PS(θ)含义相同，均表示第一空间谱。

第一空间谱的先验信噪比估计为：

ξ(t,θ)＝α₂*ξ(t-1,θ)+(1-α₂)*max(0,γ(t,θ)-1)；

其中，ξ(t-1,θ)为第t-1帧音频信号的空间谱的先验信噪比估计，γ(t,θ)为第一空间谱的后验信噪比估计，α₂＝0.7。

语音活动检测装置在确定第一空间谱的先验信噪比之后，可以利用维纳滤波算法，计算M个第一音频信号中的背景干扰信号的过滤增益winner_gain(t,θ):

其中,ε和β用于控制增益力度，且ε＝0.8,β＝1.0；ξ(t,θ)为第一空间谱的先验信噪比估计。

步骤103b、语音活动检测装置根据第一空间谱和过滤增益，确定第三空间谱。

示例性地，本申请实施例中，第三空间谱PS_clean(t,θ)具体可以通过下述的公式(5)计算：

PS_clean(t,θ)＝winner_gain(t,θ)*PS(t,θ) (5)；

其中，winner_gain(t,θ)为第t帧音频信号中的背景干扰信号的过滤增益，PS(t,θ)为第t帧音频信号的第一空间谱。

步骤104、语音活动检测装置基于第三空间谱检测第t帧音频信号中的语音活动。

可选地，本申请实施例中，语音活动检测装置可以对滤除背景干扰信号后的第三空间谱PS_clean(t,θ)进行最大值搜索；并将第三空间谱的最大值PS_max对应的角度θ，作为M个音频信号中的期望语音信号的达到方向DOA；以及将而PS_max通过下述的公式(6)映射成为M个第一音频信号中存在期望语音信号的概率(以下称为语音激活概率)，公式(6)为：

其中，PS_VAD(PS_max)为语音激活概率，c1＝2,c2＝0.7；PS_max为第三空间谱PS_clean(t,θ)的最大值。

可选地，本申请实施例中，上述M个麦克风为电子设备中的麦克风，该M个麦克风构成的麦克风阵列的几何结构为预先固定的，麦克风间距满足空间采样定理，例如，假设相邻两个麦克风之间的间距为d，那么d∈[5cm，20cm]。

可选地，本申请实施例中，M个麦克风构成的麦克风阵列的几何结构不同，该麦克风阵列的空间观测角度范围也不同。

示例性地，i，如图3所示，若M个麦克风构成的麦克风阵列为直线型，则该麦克风阵列的空间观测角度范围为[0°,180°]；ii，若M个麦克风构成的麦克风阵列为矩形，则该麦克风阵列的空间观测角度范围为[0°,360°]；iii，若M个麦克风构成的麦克风阵列为立体矩形，则该麦克风阵列的空间观测角度范围包括俯仰角度范围和水平角度范围，对于俯仰角度范围和水平角度范围的描述具体可以参见i和ii中对空间观测角度范围的相关描述。

可选地，本申请实施例中，在上述步骤102a之前，本申请实施例提供的语音活动检测方法还包括下述的步骤105。

步骤105、语音活动检测装置采用单通道语音检测方法，对第t帧音频信号中的参考音频信号进行语音活动检测。

可以理解，本申请实施例中，第t帧音频信号中的参考音频信号具体可以为M个麦克风中的参考麦克风在t时段采集的音频信号。

对于步骤105的描述，具体可以参见上述场景介绍部分中对单通道语音活动检测方法的相关描述，为了避免重复，此处不再赘述。

可以理解，本申请实施例中，对参考音频信号进行语音活动检测之后，可以得到一个语音活动估计概率，例如上述的Λ_VAD。若Λ_VAD大于预设阈值(例如0.5或0.6)，则确定参考音频信号中存在语音活动；若Λ_VAD大于预设阈值，则确定参考音频信号中不存在语音活动。

本申请实施例中，对参考音频信号的检测结果不同，语音活动检测装置确定第二空间谱的方法也可能不同。具体的，若参考音频信号中存在语音活动，则根据第一空间谱和第四空间谱，确定第二空间谱，即上述的步骤102a具体通过下述的步骤102a1实现；若参考音频信号中不存在语音活动，则直接将第四空间谱确定为第二空间谱，即将上述步骤102a替换为下述的步骤102b。

步骤102a1、语音活动检测装置在检测到参考音频信号中存在语音活动的情况下，根据第一空间谱和第四空间谱，确定第二空间谱。

对于步骤102a1的描述，具体可以参见上述步骤102a的相关描述，为了避免重复，此处不再赘述。

步骤102b、语音活动检测装置在检测到参考音频信号中不存在语音活动的情况下，将第四空间谱确定为第二空间谱。

本申请实施例中，由于语音活动检测装置可以先通过单通道语音活动检测方法确定M个第一音频信号中存在期望语音信号之后，才根据第一空间谱和第四空间谱，确定第二空间谱，因此可以进一步确保确定第二空间谱更贴合第t帧音频信号中的背景干扰信号的真实空间谱，从而可以进一步提高语音活动检测的准确性。如此可以提高语音检测的鲁棒性。为了更清楚地描述本申请实施例提供的语音活动检测方法，下面再结合具体实例分别对采用本申请实施例提供的语音活动检测方法进行VDA的检测结果和采用传统技术进行VDA的检测结果进行比对说明。

示例1，参考图4，图4为本申请中未进行背景干扰信号滤除的技术方案与传统VAD的比对图谱。

图4中的(a)为单麦克风采集的音频信号的波形图，也可以称为参考麦克风采集的音频信号的波形图。图4中的(b)为单麦克风采集的音频信号的语谱图，图4中的(c)为传统VAD的输出波形图，图4中的(d)为本申请的输出波形图。可以看出，在复杂声学环境中，传统VAD除了对期望语音信号标示active之外(VAD值接近1)，还对环境中的背景声音，尤其是瞬态噪声标示active，有很多误判。而采用本申请实施例提供的语音活动检测方法进行VAD的处理结果中，期望语音信号和背景干扰信号具有更好的区分度。

示例2，参考图5，图5为本申请的未进行背景干扰信号滤除的技术方案与本申请的加入了背景干扰信号滤除的技术方案的比对图谱。

如图5所示，图5中的(a)为采用本申请的未进行背景干扰信号滤除的技术方案进行VAD得到的时频谱(语谱图)中，可以看出，在该频谱中，除了期望语音频谱外，还有很多背景干扰噪声频谱，且期望语音频谱的空间方向在140度左右。图5中的(b)为采用本申请的未进行背景干扰信号滤除的技术方案进行VAD得到的空间谱(即期望语音的空间谱，以下称为空间谱1)，可以看出，在该空间谱1中，除了期望语音信号的空间谱信息外，在其余角度(50度附近)还有很多亮点(背景噪声干扰对空间谱的影响)，这些干扰信息会引起语音激活的误检测。图5中的(c)为采用加入了背景干扰信号滤除的技术方案得到的期望语音信号的空间谱(以下称为空间谱2)，从空间谱2中可以看出，在滤除了背景干扰信号后，空间谱2中的语音活动存在的概率判断和方向判断都更准确。

本申请实施例提供的语音活动检测方法中，在进行语音活动检测时，由于可以根据待检测音频信号(例如M个第一音频信号)的总空间谱(例如第一空间谱)和该M个第一音频信号中的干扰信号的空间谱(例如第二空间谱)来确定该M个第一音频信号中的期望语音信号的空间谱(例如第三空间谱)，即可以先过滤掉M个第一音频信号中的干扰信号，因此可以确保通过第三空间谱进行语音活动检测的准确性较高，从而可以提高语音活动检测的鲁棒性。

需要说明的是，本申请实施例提供的语音活动检测方法，执行主体可以为语音活动检测装置，或者该语音活动检测装置中的用于执行语音活动检测方法的控制模块。本申请实施例中以语音活动检测装置执行语音活动检测方法为例，说明本申请实施例提供的语音活动检测装置。

如图6所示，本申请实施例提供一种语音活动检测装置60，该语音检测装置60可以包括确定模块61和检测模块62。确定模块61，用于确定第t帧音频信号的第一空间谱，且第t帧音频信号确定中的背景干扰信号的第二空间谱，并根据第一空间谱和第二空间谱，确定第t帧音频信号中的期望语音信号的第三空间谱；第t帧音频信号包括M个麦克风采集的M个第一音频信号，且M个第一音频信号与M个麦克风一一对应，M为大于1的整数，t为正整数；

检测模块62，用于基于确定模块61确定的第三空间谱检测第t帧音频信号中的语音活动。

可选地，本申请实施例中，确定模块61，具体用于根据第一空间谱和第四空间谱，确定第二空间谱，第四空间谱为第t-1帧音频信号中的背景干扰信号的空间谱，第t-1帧音频信号包括M个麦克风采集的M个第二音频信号。

可选地，本申请实施例中，检测模块62，还用于在确定模块61根据第一空间谱和第四空间谱，确定第二空间谱之前，采用单通道语音检测方法，对第t帧音频信号中的参考音频信号进行语音活动检测；

确定模块61，具体用于在检测模块62检测到参考音频信号中存在语音活动的情况下，根据第一空间谱和第四空间谱，确定第二空间谱。

可选地，本申请实施例中，M个第一音频信号包括1个参考音频信号和M-1个音频信号；确定模块61，具体用于对于M-1个音频信号中的第g个音频信号，基于第g个音频信号和所述参考音频信号，确定第g个互功率谱，g为小于或等于M-1的正整数；且根据M-1个互功率谱、目标转换矩阵和频域加权系数，确定第一空间谱；

其中，目标转换矩阵为预设的频域-空间转换矩阵，频域加权系数是根据M个第一音频信号中的期望语音信号在每个频点的估计概率确定的。

可选地，本申请实施例中，确定模块61，具体用于根据第一空间谱和第二空间谱，确定第t帧音频信号中的背景干扰信号的过滤增益；且根据第一空间谱和过滤增益，确定第三空间谱。

本申请实施例提供的语音活动检测装置中，在本申请实施例中，可以确定第t帧音频信号的第一空间谱，第t帧音频信号包括M个麦克风采集的M个第一音频信号，且M个第一音频信号与M个麦克风一一对应，M为大于1的整数，t为正整数；确定第t帧音频信号中的背景干扰信号的第二空间谱；根据第一空间谱和第二空间谱，确定第t帧音频信号中的期望语音信号的第三空间谱；基于第三空间谱检测第t帧音频信号中的语音活动。通过该方案，在进行语音活动检测时，由于可以根据待检测音频信号(例如第t帧音频信号)的总空间谱(例如第一空间谱)和第t帧音频信号中的干扰信号的空间谱(例如第二空间谱)来确定第t帧音频信号中的期望语音信号的空间谱(例如第三空间谱)，即可以先过滤掉第t帧音频信号中的干扰信号，因此可以确保通过第三空间谱进行语音活动检测的准确性较高，从而可以提高语音活动检测的鲁棒性。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。

本申请实施例中的语音活动检测装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该终端可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语音活动检测装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语音活动检测装置能够实现图1至图5的语音活动检测方法实施例中语音活动检测装置实现的各个过程，为避免重复，这里不再赘述。

如图7所示，本申请实施例还提供一种电子设备200，包括处理器202，存储器201，存储在存储器201上并可在处理器202上运行的程序或指令，该程序或指令被处理器202执行时实现上述语音活动检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010，用于确定第t帧音频信号的第一空间谱，且确定第t帧音频信号中的背景干扰信号的第二空间谱，并根据第一空间谱和第二空间谱，确定第t帧音频信号中的期望语音信号的第三空间谱；第t帧音频信号包括M个麦克风采集的M个第一音频信号，且M个第一音频信号与M个麦克风一一对应，M为大于1的整数，t为正整数；处理器1010，还用于基于处理器1010确定的第三空间谱检测M个第一音频信号中的语音活动。

可选地，本申请实施例中，处理器1010，具体用于根据第一空间谱和第四空间谱，确定第二空间谱，第四空间谱为第t-1帧音频信号中的背景干扰信号的空间谱，第t-1帧音频信号包括M个麦克风采集的M个第二音频信号，M个第二音频信号与M个麦克风一一对应。

可选地，本申请实施例中，处理器1010，还用于在处理器1010根据第一空间谱和第四空间谱，确定第二空间谱之前，采用单通道语音检测方法，对第t-1帧音频信号中的参考音频信号进行语音活动检测；且在检测到参考音频信号中存在语音活动的情况下，根据第一空间谱和第四空间谱，确定第二空间谱。

可选地，本申请实施例中，M个第一音频信号包括1个参考音频信号和M-1个音频信号；处理器1010，具体用于对于M-1个音频信号中的第g个音频信号，基于第g个音频信号和参考音频信号，确定第g个互功率谱，g为小于或等于M-1的正整数；且根据M-1个互功率谱、目标转换矩阵和频域加权系数，确定第一空间谱；其中，目标转换矩阵为预设的频域-空间转换矩阵，频域加权系数是根据期望语音信号在每个频点上存在的估计概率确定的。

可选地，本申请实施例中，处理器1010，具体用于根据第一空间谱和第二空间谱，确定第t帧音频信号中的背景干扰信号的过滤增益；且根据第一空间谱和过滤增益，确定第三空间谱。

本申请实施例提供的语音活动检测装置中，在本申请实施例中，可以确定第t帧音频信号的第一空间谱，所述第t帧音频信号包括M个麦克风采集的M个第一音频信号，且所述M个第一音频信号与所述M个麦克风一一对应，M为大于1的整数，t为正整数；确定所述第t帧音频信号中的背景干扰信号的第二空间谱；根据所述第一空间谱和所述第二空间谱，确定所述第t帧音频信号中的期望语音信号的第三空间谱；基于所述第三空间谱，检测所述第t帧音频信号中的语音活动。通过该方案，在进行语音活动检测时，由于可以根据待检测音频信号(例如第t帧音频信号)的总空间谱(例如第一空间谱)和第t帧音频信号中的干扰信号的空间谱(例如第二空间谱)来确定第t帧音频信号中的期望语音信号的空间谱(例如第三空间谱)，即可以先过滤掉第t帧音频信号中的干扰信号，因此可以确保通过第三空间谱进行语音活动检测的准确性较高，从而可以提高语音活动检测的鲁棒性。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，该可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述语音活动检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，上述处理器为上述实施例中的电子设备中的处理器。上述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述语音活动检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音活动检测方法，其特征在于，所述方法包括

确定第t帧音频信号的第一空间谱，所述第t帧音频信号包括M个麦克风采集的M个第一音频信号，且所述M个第一音频信号与所述M个麦克风一一对应，M为大于1的整数，t为正整数；

确定所述第t帧音频信号中的背景干扰信号的第二空间谱；

根据所述第一空间谱和所述第二空间谱，确定所述第t帧音频信号中的期望语音信号的第三空间谱；

基于所述第三空间谱，检测所述第t帧音频信号中的语音活动。

2.根据权利要求1所述的方法，其特征在于，所述确定所述第t帧音频信号中的背景干扰信号的第二空间谱，包括：

根据所述第一空间谱和第四空间谱，确定所述第二空间谱，所述第四空间谱为第t-1帧音频信号中的背景干扰信号的空间谱，所述第t-1帧音频信号包括所述M个麦克风采集的M个第二音频信号，且所述M个第二音频信号与所述M个麦克风一一对应。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一空间谱和第四空间谱，确定所述第二空间谱之前，所述方法还包括：

采用单通道语音检测方法，对所述第t-1帧音频信号中的参考音频信号进行语音活动检测；

所述根据所述第一空间谱和第四空间谱，确定所述第二空间谱，包括：

在检测到所述参考音频信号中存在语音活动的情况下，根据所述第一空间谱和所述第四空间谱，确定所述第二空间谱。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述M个第一音频信号包括1个参考音频信号和M-1个音频信号；

所述确定第t帧音频信号的第一空间谱，包括：

对于所述M-1个音频信号中的第g个音频信号，基于所述第g个音频信号和所述参考音频信号，确定第g个互功率谱，g为小于或等于M-1的正整数；

根据M-1个互功率谱、目标转换矩阵和频域加权系数，确定所述第一空间谱；

其中，所述目标转换矩阵为预设的频域-空间转换矩阵，所述频域加权系数是根据期望语音信号在每个频点上存在的估计概率确定的。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述第一空间谱和所述第二空间谱，确定所述第t帧音频信号中的期望语音信号的第三空间谱，包括：

根据所述第一空间谱和所述第二空间谱，确定所述第t帧音频信号中的背景干扰信号的过滤增益；

根据所述第一空间谱和所述过滤增益，确定所述第三空间谱。

6.一种语音活动检测装置，其特征在于，所述装置包括确定模块和检测模块；

所述确定模块，用于确定第t帧音频信号的第一空间谱，且确定所述第t帧音频信号中的背景干扰信号的第二空间谱，并根据所述第一空间谱和所述第二空间谱，确定所述第t帧音频信号中的期望语音信号的第三空间谱；所述第t帧音频信号包括M个麦克风采集的M个第一音频信号，且所述M个第一音频信号与所述M个麦克风一一对应，M为大于1的整数，t为正整数；

所述检测模块，用于基于所述确定模块确定的所述第三空间谱检测所述第t帧音频信号中的语音活动。

7.根据权利要求6所述的装置，其特征在于，

所述确定模块，具体用于根据所述第一空间谱和第四空间谱，确定所述第二空间谱，所述第四空间谱为第t-1帧音频信号中的背景干扰信号的空间谱，所述第t-1帧音频信号为所述M个麦克风采集的M个第二音频信号，且所述M个第二音频信号与所述M个麦克风一一对应。

8.根据权利要求7所述的装置，其特征在于，

所述检测模块，还用于在所述确定模块根据所述第一空间谱和所述第四空间谱，确定所述第二空间谱之前，采用单通道语音检测方法，对所述第t-1帧音频信号中的参考音频信号进行语音活动检测；

所述确定模块，具体用于在所述检测模块检测到所述参考音频信号中存在语音活动的情况下，根据所述第一空间谱和所述第四空间谱，确定所述第二空间谱。

9.根据权利要求6至8中任一项所述的装置，其特征在于，所述M个第一音频信号包括1个参考音频信号和M-1个音频信号；

所述确定模块，具体用于对于所述M-1个音频信号中的第g个音频信号，基于所述第g个音频信号和所述参考音频信号，确定第g个互功率谱；且根据M-1个互功率谱、目标转换矩阵和频域加权系数，确定所述第一空间谱；

其中，所述目标转换矩阵为预设的频域-空间转换矩阵，所述频域加权系数是根据所述第t帧音频信号中的期望语音信号在每个频点存在的估计概率确定的，g小于或等于M-1的正整数。

10.根据权利要求6至8中任一项所述的装置，其特征在于，所述确定模块，具体用于根据所述第一空间谱和所述第二空间谱，确定所述第t帧音频信号中的背景干扰信号的过滤增益；且根据所述第一空间谱和所述过滤增益，确定所述第三空间谱。

11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的语音活动检测方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的语音活动检测方法的步骤。