CN110706719A

CN110706719A - 一种语音提取方法、装置、电子设备及存储介质

Info

Publication number: CN110706719A
Application number: CN201911117770.3A
Authority: CN
Inventors: 王秋明; 吴富章; 邓菁
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-01-17
Anticipated expiration: 2039-11-14
Also published as: CN110706719B

Abstract

本申请提供一种语音提取方法、装置、电子设备及存储介质，该方法包括：对麦克风阵列采集的语音信号进行傅里叶变换，获得频域信号；分别使用一个增强滤波器和至少一个阻塞滤波器对频域信号进行滤波，获得一个增强波束和至少一个阻塞波束；根据一个增强波束和至少一个阻塞波束计算期望方向存在语音的概率；根据期望方向存在语音的概率、一个增强波束和至少一个阻塞波束确定自适应滤波器；使用自适应滤波器对一个增强波束和至少一个阻塞波束进行滤波，获得目标信号；对目标信号进行傅里叶逆变换，获得目标语音。该方法通过提前计算了期望方向存在目标语音的概率，从而改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。

Description

一种语音提取方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别的技术领域，具体而言，涉及一种语音提取方法、装置、电子设备及存储介质。

背景技术

目前人工智能的细分领域有很多，例如：语音识别和声纹识别等等。在目前的语音识别领域中，对目标语音进行提取的方法例如：基于相关性大小设计的语音增强自适应算法。该算法适用于背景噪音分离在散射噪声场景，房间中的说话人的语音为目标语音，房间外的街道噪音为背景噪音；若房间中出现点源噪声，例如：电视中某个人说话、另一个方向出现的对话人(即竞争说话人)等，该算法会把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低。

发明内容

本申请实施例的目的在于提供一种语音提取方法、装置、电子设备及存储介质，用于改善把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。

本申请实施例提供了一种语音提取方法，包括：对麦克风阵列采集的语音信号进行傅里叶变换，获得频域信号；分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波，获得一个增强波束和至少一个阻塞波束，所述增强滤波器是针对所述语音信号的期望方向构建的滤波器，所述阻塞滤波器是针对所述语音信号的非期望方向构建的滤波器；根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率；根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器；使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波，获得目标信号；对所述目标信号进行傅里叶逆变换，获得目标语音。在上述的实现过程中，根据期望方向构建一个增强滤波器和多个阻塞滤波器，通过一个增强滤波器和多个阻塞滤波器计算该期望方向存在目标语音的概率，最后根据概率设计了自适应滤波器对期望方向的语音进行滤波，获得目标语音。也就是说，通过提前计算了期望方向存在目标语音的概率，从而降低了把点源噪声误识别为目标语音的概率，从而有效地改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。

可选地，在本申请实施例中，所述根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率，包括：分别对一个增强波束和所述至少一个阻塞波束进行平滑处理，获得增强能量平滑值和阻塞能量平滑值；根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率。在上述的实现过程中，通过一个增强波束和所述至少一个阻塞波束进行平滑处理，以计算所述期望方向存在语音的概率，从而进一步抑制了背景噪声，从而有效地改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。

可选地，在本申请实施例中，所述分别对一个增强波束和所述至少一个阻塞波束进行平滑处理，获得增强能量平滑值和阻塞能量平滑值，包括：根据

分别对一个增强波束和所述至少一个阻塞波束进行平滑处理，获得增强能量平滑值和阻塞能量平滑值；其中，ω为角频率，P_T(ω)为所述增强能量平滑值，P_N(ω)为所述阻塞能量平滑值，μ为平滑系数，μ满足0≤μ≤1，l代表时间帧，ω代表频带，y_T(l,ω)为所述增强波束，y_N,m(l,ω)为第m个所述阻塞波束。

可选地，在本申请实施例中，所述根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率，包括：根据

对增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率；其中，ω为角频率，p(ω)为所述期望方向存在语音的概率，κ>0为缩放系数，ρ代表所述增强波束与所述阻塞波束的能量比例，P_T(ω)为所述增强能量平滑值，P_N(ω)为所述阻塞能量平滑值，M为所述麦克风阵列的麦克风数量。

可选地，在本申请实施例中，所述根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器，包括：根据所述期望方向存在语音的概率计算更新步长，所述更新步长用于更新所述自适应滤波器；根据所述更新步长逐帧更新增益向量；根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器。在上述的实现过程中，通过区分每一个时频单元是否存在语音信号的方式，即对存在目标语音的时频区域，采用较低的滤波器更新速率和滤波策略，以避免语音损伤；对不存在目标语音的时频区域，采用较快的滤波器更新速率，来保证噪声抑制效果，从而最大程度地避免了方向误差、硬件失配、混响等因素导致语音失真的情况。

可选地，在本申请实施例中，所述根据所述期望方向存在语音的概率计算更新步长，包括：根据α＝α₀+(1-α₀)p(ω),0<α₀<1对所述期望方向存在语音的概率计算更新步长；其中，α为所述更新步长，α₀为基础步长，ω为角频率，p(ω)为所述期望方向存在语音的概率。

可选地，在本申请实施例中，所述根据所述更新步长逐帧更新增益向量，包括：根据

所述更新步长逐帧更新增益向量；其中，ω为角频率，υ(ω)为所述增益向量，α为所述更新步长，Φ_N(ω)为所述阻塞波束的二阶统计量矩阵，l代表时间帧，ω代表频带，y_N(l,ω)为所述阻塞波束，

代表对所述阻塞波束进行共轭转置运算。

可选地，在本申请实施例中，所述根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器，包括：根据w(ω)＝w(ω)+υ(ω)(y_T(l,ω)-w^H(ω)y_N(l,ω))对所述增益向量、所述一个增强波束和所述至少一个阻塞波束进行更新，获得更新后的所述自适应滤波器；其中，ω为角频率，w(ω)为所述自适应滤波器，w^H(ω)代表对所述自适应滤波器进行共轭转置运算，υ(ω)为所述增益向量，l代表时间帧，y_T(l,ω)为所述增强波束，y_N(l,ω)为所述阻塞波束。

可选地，在本申请实施例中，所述使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波，获得目标信号，包括：根据z(l,ω)＝y_T(l,ω)-w^H(ω)y_N(l,ω)使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波，获得目标信号；其中，l代表时间帧，ω为角频率，z(l,ω)为所述目标信号，y_T(l,ω)为所述增强波束，y_N(l,ω)为所述阻塞波束，w(ω)为所述自适应滤波器，w^H(ω)代表对所述自适应滤波器进行共轭转置运算。

可选地，在本申请实施例中，在所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波，获得一个增强波束和至少一个阻塞波束之前，还包括：根据

针对所述语音信号的期望方向构建滤波器，获得所述增强滤波器；其中，ω为角频率，θ_Targ为所述期望方向，h_SD(ω,θ_Targ)代表角频率为ω且期望方向为θ_Targ的所述增强滤波器，Γ_i,j(ω)代表第i个麦克风和第j个麦克风的噪音相关性系数，Γ(ω)为噪音相关性系数矩阵，所述噪音相关性系数矩阵Γ(ω)由多个噪音相关性系数Γ_i,j(ω)组成，ε为对角因子,M为所述麦克风阵列的麦克风数量，I为M维的单位矩阵，d(ω,θ_Targ)为所述期望方向为θ_Targ且角频率为ω的导向矢量，d^H(ω,θ_Targ)为对所述导向矢量进行共轭转置运算，e为自然常数，j表示第j个麦克风，τ_m,m＝2,...,M表示第m个麦克风相比第一个麦克风的时间延迟，sinc(x)代表计算x的辛格函数，δ_i,j为第i个麦克风和第j个麦克风之间的距离，c为声音在空气中的传播速度。

针对所述语音信号的非期望方向构建滤波器，获得所述阻塞滤波器；其中，

代表角频率为ω且方向为

的所述阻塞滤波器，M为所述麦克风阵列的麦克风数量，

代表所述阻塞滤波器的方向与所述期望方向的角度差值，m＝1,...,M-1代表第1个麦克风至第M-1个麦克风中的任一个麦克风，即第m个麦克风。

可选地，在本申请实施例中，所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波，获得一个增强波束和至少一个阻塞波束，包括：根据

分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波，获得一个增强波束和至少一个阻塞波束；其中，l代表时间帧，ω代表频带，y_T(l,ω)为所述增强波束，y_N,m(l,ω)为第m个所述阻塞波束，ω为角频率，θ_Targ为所述期望方向，h_SD(ω,θ_Targ)代表角频率为ω且期望方向为θ_Targ的所述增强滤波器，

代表对所述增强滤波器进行共轭转置运算，代表角频率为ω且方向为

的所述阻塞滤波器，

代表对所述阻塞滤波器进行共轭转置运算，y(l,ω)为所述频域信号。

本申请实施例还提供了一种语音提取装置，包括：第一变换模块，用于对麦克风阵列采集的语音信号进行傅里叶变换，获得频域信号；波束获得模块，用于分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波，获得一个增强波束和至少一个阻塞波束，所述增强滤波器是针对所述语音信号的期望方向构建的滤波器，所述阻塞滤波器是针对所述语音信号的非期望方向构建的滤波器；概率计算模块，用于根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率；第一确定模块，用于根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器；第二变换模块，用于使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波，获得目标信号；语音获得模块，用于对所述目标信号进行傅里叶逆变换，获得目标语音。

可选地，在本申请实施例中，所述概率计算模块包括：第一获得模块，用于分别对一个增强波束和所述至少一个阻塞波束进行平滑处理，获得增强能量平滑值和阻塞能量平滑值；第一计算模块，用于根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率。

可选地，在本申请实施例中，所述第一确定模块包括：第二计算模块，用于根据所述期望方向存在语音的概率计算更新步长，所述更新步长用于更新所述自适应滤波器；逐帧更新模块，用于根据所述更新步长逐帧更新增益向量；第二确定模块，用于根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如上所述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的语音提取方法流程示意图；

图2示出的本申请实施例提供正东方向的增强波束的示意图；

图3示出的本申请实施例提供东北方向的阻塞波束的示意图；

图4示出的本申请实施例提供正北方向的阻塞波束的示意图；

图5示出的本申请实施例提供西北方向的阻塞波束的示意图；

图6示出的本申请实施例提供的麦克风阵列采集的语音信号的频谱示意图；

图7示出的本申请实施例提供的提取正东方向的目标语音的频谱示意图；

图8示出的本申请实施例提供的语音提取装置结构示意图；

图9示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例中的语音提取方法之前，先介绍本申请实施例所涉及的一些概念，本申请实施例所涉及的一些概念如下：

人工智能(Artificial Intelligence，AI)，是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

语音识别(Voice Recognition)，是指与机器进行语音交流相关的技术或者学科，即让机器明白人类说的话。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、前端处理等等。这里的前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。

傅里叶变换(Fourier Transform，FT)，傅里叶变换有多个中文译名，常见的有“付立叶变换”、“傅里叶转换”、“傅氏转换”、“傅氏变换”等等，表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合，应用于信号分析中的方法例如：许多波形可作为信号的成分，比如正弦波、方波、锯齿波等，傅里叶变换用正弦波作为信号的成分。

滤波器(filter)，在电路中是指由电容、电感和电阻组成的滤波电路。滤波器可以对电源线中特定频率的频点或该频点以外的频率进行有效滤除，得到一个特定频率的电源信号，或消除一个特定频率后的电源信号。在本申请实施例中的滤波器是指，以输入和输出信号的统计特性的估计为依据，采取特定算法地调整滤波器系数，使其获得期望数据的一种算法或装置。

需要说明的是，本申请实施例提供的语音提取方法可以由电子设备来执行，这里的电子设备包括：具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能音响、录音笔、手机、遥控器、个人电脑、网络交换机、网络路由器或台式主机等；当然这里的电子设备也可以是服务器，该服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。

本申请实施例提供的语音提取方法的应用场景包括但不限于语音识别领域，即该方法可以从包括噪声的语音信号中识别出目标语音，本申请实施例提供的语音提取方法的应用主体也包括但不限于：智能音响、录音笔、会议转录系统和智能家居设备等语音交互类产品。为了便于理解和说明，下面以语音识别领域中的目标语音识别为例进行具体地说明：

请参见图1示出的本申请实施例提供的语音提取方法流程示意图；本申请实施例提供了一种语音提取方法，包括：

步骤S110：对麦克风阵列采集的语音信号进行傅里叶变换，获得频域信号。

麦克风阵列(Microphone Array，MA)，从字面上，指的是麦克风的排列，也就是说，由预设数量的声学传感器(例如麦克风)组成，且用来对声场的空间特性进行采样并处理的系统。这里的预设数量是指至少两个，具体地例如：6+1个麦克风组成的麦克风环形阵列，其中，6个麦克风等角度差分布在一个圆的圆周上，而剩余的1个麦克风设置在该圆的圆心上，从而构成麦克风环形阵列。

语音信号(Voice Signal，VS)，是指通过上述麦克风阵列采集的语音数字信号，该语音信号中包括目标语音和背景噪声，对语音信号进行处理的目的在于，抑制或者阻塞该语音信号中的背景噪声，或/和增强该语音信号中的目标语音，从而达到从语音信号中提取到纯度较高的目标语音。

其中，对麦克风阵列采集的语音信号进行傅里叶变换，获得频域信号的具体实施方式例如：对语音信号y(t)进行傅里叶变换，获得频域信号y(l,ω)；其中，l表示时间帧，ω表示频带，t代表时间，y(t)表示为该语音信号，y(l,ω)表示获得的频域信号。

在步骤S110之后，执行步骤S120：分别使用一个增强滤波器和至少一个阻塞滤波器对频域信号进行滤波，获得一个增强波束和至少一个阻塞波束。

增强滤波器，是指针对语音信号的期望方向构建的滤波器，如上所描述的，语音信号中包括目标语音和背景噪声，采用上述麦克风阵列采集的语音信号中的期望方向是可能存在目标语音的，因此，增强滤波器的作用是针对期望方向的目标语音进行信号增强的。

需要说明的是，这里的期望方向是指已知目标语音相对于麦克风阵列的方向，具体的例子例如：麦克风阵列为上述的6+1个麦克风组成的麦克风环形阵列，假设需要提取麦克风阵列的目标方向为正东方向，即需要提取正东方向(即0度方向或者时钟上的3点钟方向)说话人的语音，那么麦克风阵列的正东方向就是期望方向；干扰源分别设置在正西方向(即180度方向或者时钟上的9点钟方向)和正北方向(即90度方向或者时钟上的12点钟方向)，其中，正西方向和正北方向均是非期望方向。

可以理解的是，在具体的实施过程中，增强滤波器的获得方式有很多种，这里举例说明增强滤波器的其中一种获得方式如下：

根据

针对语音信号的期望方向构建滤波器，获得增强滤波器；

其中，ω为角频率，θ_Targ为期望方向，h_SD(ω,θ_Targ)代表角频率为ω且期望方向为θ_Targ的增强滤波器，Γ_i,j(ω)代表第i个麦克风和第j个麦克风的噪音相关性系数，Γ(ω)为噪音相关性系数矩阵，噪音相关性系数矩阵Γ(ω)由多个噪音相关性系数Γ_i,j(ω)组成，ε为对角因子,M为麦克风阵列的麦克风数量，I为M维的单位矩阵，d(ω,θ_Targ)为期望方向为θ_Targ且角频率为ω的导向矢量，d^H(ω,θ_Targ)为对导向矢量进行共轭转置运算，e为自然常数，j表示第j个麦克风，τ_m,m＝2,...,M表示第m个麦克风相比第一个麦克风的时间延迟，sinc(x)代表计算x的辛格函数，δ_i,j为第i个麦克风和第j个麦克风之间的距离，c为声音在空气中的传播速度。

阻塞滤波器，是指针对语音信号的非期望方向构建的滤波器，如上所描述的，语音信号中包括目标语音和背景噪声。可以理解的是，如果期望方向上包括目标语音，那么非期望方向上就可能存在背景噪音，因此，阻塞滤波器的作用是针对非期望方向的背景噪声进行信号抑制或者阻塞的。具体的例子例如：需要提取麦克风阵列的正东方向说话人的语音，那么麦克风阵列的非正东方向的语音信号就是背景噪声，这里的非正东方向可以是正北方向，也可以是正南方向。这里的非期望方向以在上面的描述中解释过，因此，这里不再对其进行解释说明。

可以理解的是，在具体的实施过程中，阻塞滤波器的获得方式有很多种，这里仅举其中一种方式为例进行说明如下：

根据

针对语音信号的非期望方向构建滤波器，获得阻塞滤波器；

其中，代表角频率为ω且方向为

的阻塞滤波器，M为麦克风阵列的麦克风数量，

代表阻塞滤波器的方向与期望方向的角度差值，m＝1,...,M-1代表第1个麦克风至第M-1个麦克风中的任一个麦克风，即第m个麦克风。

其中，在具体实施过程中，步骤S120的具体实施方式有很多种，这里仅列举一种具体的实施方式，该实施方式可以例如下面的描述：

根据

分别使用一个增强滤波器和至少一个阻塞滤波器对频域信号进行滤波，获得一个增强波束和至少一个阻塞波束；

其中，l代表时间帧，ω代表频带，y_T(l,ω)为增强波束，y_N,m(l,ω)为第m个阻塞波束，ω为角频率，θ_Targ为期望方向，h_SD(ω,θ_Targ)代表角频率为ω且期望方向为θ_Targ的增强滤波器，代表对增强滤波器进行共轭转置运算，

代表角频率为ω且方向为

的阻塞滤波器，

代表对阻塞滤波器进行共轭转置运算，y(l,ω)为频域信号。

其中，这里的增强波束，是指使用上述增强滤波器以及滤波方法对频域信号进行滤波获得的增强波束；这里的阻塞波束，是指使用上述阻塞滤波器以及滤波方法对频域信号进行滤波获得的阻塞波束。这里的增强波束和阻塞波束的具体图示例如：获得的增强波束的波瓣图可参见图2，获得的阻塞波束的波瓣图可参见图3至图5，其中，图2示出的本申请实施例提供正东方向的增强波束的示意图；图3示出的本申请实施例提供东北方向的阻塞波束的示意图；图4示出的本申请实施例提供正北方向的阻塞波束的示意图；图5示出的本申请实施例提供西北方向的阻塞波束的示意图。

在步骤S120之后，执行步骤S130：根据一个增强波束和至少一个阻塞波束计算期望方向存在语音的概率。

在本申请实施例的一些实施方式中，步骤S130可以包括如下步骤：

步骤S131：分别对一个增强波束和至少一个阻塞波束进行平滑处理，获得增强能量平滑值和阻塞能量平滑值。

平滑处理，是指对上述获得的一个增强波束输出的频谱和至少一个阻塞波束输出的频谱进行平滑；其中，平滑处理的实施方式有很多种，举其中一种实施方式为例，该实施方式如下面的描述：

根据

分别对一个增强波束和至少一个阻塞波束进行平滑处理，获得增强能量平滑值和阻塞能量平滑值；

其中，ω为角频率，P_T(ω)为增强能量平滑值，P_N(ω)为阻塞能量平滑值，μ为平滑系数，μ满足0≤μ≤1，l代表时间帧，ω代表频带，y_T(l,ω)为增强波束，y_N,m(l,ω)为第m个阻塞波束。

步骤S132：根据增强能量平滑值和阻塞能量平滑值计算期望方向存在语音的概率。

其中，该步骤的具体实施方式可以例如下面的描述：

根据

对增强能量平滑值和阻塞能量平滑值计算期望方向存在语音的概率；

其中，ω为角频率，p(ω)为期望方向存在语音的概率，κ>0为缩放系数，ρ代表增强波束与阻塞波束的能量比例，P_T(ω)为增强能量平滑值，P_N(ω)为阻塞能量平滑值，M为麦克风阵列的麦克风数量。这里的期望方向存在语音的概率可以为一个sigmod函数，在具体的实施过程中，也可以是一个其它的函数，例如：tanh函数、Relu函数和maxout函数等等。

在上述的实现过程中，通过一个增强波束和至少一个阻塞波束进行平滑处理，以计算期望方向存在语音的概率，从而进一步抑制了背景噪声，从而有效地改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。

在步骤S130之后，执行步骤S140：根据期望方向存在语音的概率、一个增强波束和至少一个阻塞波束确定自适应滤波器。

自适应滤波器(Adaptive Filter，AF)，是指根据环境的改变，使用自适应算法来改变滤波器的参数和结构的滤波器；在一般情况下，不改变自适应滤波器的结构，而自适应滤波器的系数是由自适应算法更新的时变系数；即其系数自动连续地适应于给定信号，以获得期望响应。

在本申请实施例的一些实施方式中，步骤S140可以包括如下步骤：

步骤S141：根据期望方向存在语音的概率计算更新步长。

其中，这里的更新步长用于更新上述的自适应滤波器，该步骤的具体实施方式可以例如下面的描述：

根据α＝α₀+(1-α₀)p(ω),0<α₀<1对期望方向存在语音的概率计算更新步长；

其中，α为更新步长，α₀为基础步长，ω为角频率，p(ω)为期望方向存在语音的概率。根据该更新过程可知，当期望语音存在概率接近1的时候，更新步长接近1，滤波器的更新速度很慢；当语音存在概率接近0的时候，更新步长接近于基础步长，滤波器更新速度较快。

步骤S142：根据更新步长逐帧更新增益向量。

这里的帧是指存储介质上的某个时刻采集的数字内容，该数字内容是按照预设频率采集语音信号获得的，逐帧更新是指储介质上的每个时刻采集的数字内容都需要被更新，那么根据更新步长逐帧更新增益向量的具体实施方式例如下面的描述：

根据

更新步长逐帧更新增益向量；

其中，ω为角频率，υ(ω)为增益向量，α为更新步长，Φ_N(ω)为阻塞波束的二阶统计量矩阵，或者叫阻塞频谱的二阶统计量矩阵，l代表时间帧，ω代表频带，y_N(l,ω)为阻塞波束，

代表对阻塞波束进行共轭转置运算。

步骤S143：根据增益向量、一个增强波束和至少一个阻塞波束确定自适应滤波器。

其中，在具体的实施过程中，该步骤中的确定自适应滤波器的实施方式有很多种，这里列举一种实施方式可以例如下面的描述：

根据w(ω)＝w(ω)+υ(ω)(y_T(l,ω)-w^H(ω)y_N(l,ω))对增益向量、一个增强波束和至少一个阻塞波束进行更新，获得更新后的自适应滤波器；

其中，ω为角频率，w(ω)为自适应滤波器，w^H(ω)代表对自适应滤波器进行共轭转置运算，υ(ω)为增益向量，l代表时间帧，y_T(l,ω)为增强波束，y_N(l,ω)为阻塞波束。

在上述的实现过程中，通过采用最小二乘法设计的自适应滤波器，来区分每一个时频单元是否存在语音信号的方式，即对存在目标语音的时频区域，采用较低的滤波器更新速率和滤波策略，以避免语音损伤；对不存在目标语音的时频区域，采用较快的滤波器更新速率，来保证噪声抑制效果，从而最大程度地避免了方向误差、硬件失配、混响等因素导致语音失真的情况。

在步骤S140之后，执行步骤S150：使用自适应滤波器对一个增强波束和至少一个阻塞波束进行滤波，获得目标信号。

其中，在具体的实施过程中，该步骤中的获得目标信号的实施方式有很多种，这里列举一种实施方式可以例如下面的描述：

根据z(l,ω)＝y_T(l,ω)-w^H(ω)y_N(l,ω)使用自适应滤波器对一个增强波束和至少一个阻塞波束进行滤波，获得目标信号；

其中，l代表时间帧，ω为角频率，z(l,ω)为目标信号，y_T(l,ω)为增强波束，y_N(l,ω)为阻塞波束，w(ω)为自适应滤波器，w^H(ω)代表对自适应滤波器进行共轭转置运算。

在步骤S150之后，执行步骤S160：对目标信号进行傅里叶逆变换，获得目标语音。

其中，该步骤中的获得目标语音的实施方式有很多种，这里列举一种实施方式例如：对目标信号z(l,ω)进行傅里叶逆变换，获得目标语音z(t)；其中，l表示时间帧，ω表示频带，t代表时间，z(t)表示为该目标语音，z(l,ω)表示目标信号。

需要说明的是，采用上述语音提取方法的技术效果，请参见图6至图7，图6示出的本申请实施例提供的麦克风阵列采集的语音信号的频谱示意图；图7示出的本申请实施例提供的提取正东方向的目标语音的频谱示意图；其中，这里的麦克风阵列仍然是上述的6+1个麦克风组成的麦克风环形阵列，需要提取麦克风阵列的目标方向为正东方向(即0度方向或者时钟上的3点钟方向)，干扰源分别设置在正西方向(即180度方向或者时钟上的9点钟方向)和正北方向(即90度方向或者时钟上的12点钟方向)，目标语音发声体与麦克风阵列的距离为1米，干扰源与麦克风阵列的距离也为1米，散射噪声相对目标语音信噪比增益为10dB,目标语音与干扰语音能量比值为0dB。从图7可以看出，散射噪声和两侧干扰语音都可以被压制，同时0度目标语音几乎无失真。为了量化获得的结果，采用了20分钟语音整体评估算法性能，信噪比增益可以提升20dB，声纹得分提升30％。

在上述的实现过程中，根据期望方向构建一个增强滤波器和多个阻塞滤波器，通过一个增强滤波器和多个阻塞滤波器计算该期望方向存在目标语音的概率，最后根据概率设计了自适应滤波器对期望方向的语音进行滤波，获得目标语音。也就是说，通过提前计算了期望方向存在目标语音的概率，从而有效地降低了把点源噪声误识别为目标语音的概率，从而有效地改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。

请参见图8示出的本申请实施例提供的语音提取装置结构示意图，本申请实施例提供了一种语音提取装置200，包括：

第一变换模块210，用于对麦克风阵列采集的语音信号进行傅里叶变换，获得频域信号。

波束获得模块220，用于分别使用一个增强滤波器和至少一个阻塞滤波器对频域信号进行滤波，获得一个增强波束和至少一个阻塞波束，增强滤波器是针对语音信号的期望方向构建的滤波器，阻塞滤波器是针对语音信号的非期望方向构建的滤波器。

概率计算模块230，用于根据一个增强波束和至少一个阻塞波束计算期望方向存在语音的概率。

第一确定模块240，用于根据期望方向存在语音的概率、一个增强波束和至少一个阻塞波束确定自适应滤波器。

第二变换模块250，用于使用自适应滤波器对一个增强波束和至少一个阻塞波束进行滤波，获得目标信号。

语音获得模块260，用于对目标信号进行傅里叶逆变换，获得目标语音。

可选地，在本申请实施例中，概率计算模块包括：

第一获得模块，用于分别对一个增强波束和至少一个阻塞波束进行平滑处理，获得增强能量平滑值和阻塞能量平滑值。

第一计算模块，用于根据增强能量平滑值和阻塞能量平滑值计算期望方向存在语音的概率。

可选地，在本申请实施例中，第一确定模块包括：

第二计算模块，用于根据期望方向存在语音的概率计算更新步长，更新步长用于更新自适应滤波器。

逐帧更新模块，用于根据更新步长逐帧更新增益向量。

第二确定模块，用于根据增益向量、一个增强波束和至少一个阻塞波束确定自适应滤波器。

应理解的是，该装置与上述的方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图9示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备310，包括：处理器320和存储器330，存储器330存储有处理器320可执行的机器可读指令，机器可读指令被处理器320执行时执行如上的方法。

本申请实施例还提供了一种存储介质340，该存储介质340上存储有计算机程序，该计算机程序被处理器320运行时执行如上的方法。

其中，存储介质340可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

再者，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种语音提取方法，其特征在于，包括：

对麦克风阵列采集的语音信号进行傅里叶变换，获得频域信号；

分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波，获得一个增强波束和至少一个阻塞波束，所述增强滤波器是针对所述语音信号的期望方向构建的滤波器，所述阻塞滤波器是针对所述语音信号的非期望方向构建的滤波器；

根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率；

根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器；

使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波，获得目标信号；

对所述目标信号进行傅里叶逆变换，获得目标语音。

2.根据权利要求1所述的方法，其特征在于，所述根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率，包括：

分别对一个增强波束和所述至少一个阻塞波束进行平滑处理，获得增强能量平滑值和阻塞能量平滑值；

根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率。

3.根据权利要求2所述的方法，其特征在于，所述分别对一个增强波束和所述至少一个阻塞波束进行平滑处理，获得增强能量平滑值和阻塞能量平滑值，包括：

根据

其中，ω为角频率，P_T(ω)为所述增强能量平滑值，P_N(ω)为所述阻塞能量平滑值，μ为平滑系数，μ满足0≤μ≤1，l代表时间帧，ω代表频带，y_T(l,ω)为所述增强波束，y_N,m(l,ω)为第m个所述阻塞波束。

4.根据权利要求2所述的方法，其特征在于，所述根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率，包括：

根据

对增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率；

其中，ω为角频率，p(ω)为所述期望方向存在语音的概率，κ>0为缩放系数，ρ代表所述增强波束与所述阻塞波束的能量比例，P_T(ω)为所述增强能量平滑值，P_N(ω)为所述阻塞能量平滑值，M为所述麦克风阵列的麦克风数量。

5.根据权利要求1所述的方法，其特征在于，所述根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器，包括：

根据所述期望方向存在语音的概率计算更新步长，所述更新步长用于更新所述自适应滤波器；

根据所述更新步长逐帧更新增益向量；

根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器。

6.根据权利要求5所述的方法，其特征在于，所述根据所述期望方向存在语音的概率计算更新步长，包括：

根据α＝α₀+(1-α₀)p(ω),0<α₀<1对所述期望方向存在语音的概率计算更新步长；

其中，α为所述更新步长，α₀为基础步长，ω为角频率，p(ω)为所述期望方向存在语音的概率。

7.根据权利要求5所述的方法，其特征在于，所述根据所述更新步长逐帧更新增益向量，包括：

根据

所述更新步长逐帧更新增益向量；

其中，ω为角频率，υ(ω)为所述增益向量，α为所述更新步长，Φ_N(ω)为所述阻塞波束的二阶统计量矩阵，l代表时间帧，ω代表频带，y_N(l,ω)为所述阻塞波束，

代表对所述阻塞波束进行共轭转置运算。

8.根据权利要求5所述的方法，其特征在于，所述根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器，包括：

根据w(ω)＝w(ω)+υ(ω)(y_T(l,ω)-w^H(ω)y_N(l,ω))对所述增益向量、所述一个增强波束和所述至少一个阻塞波束进行更新，获得更新后的所述自适应滤波器；

其中，ω为角频率，w(ω)为所述自适应滤波器，w^H(ω)代表对所述自适应滤波器进行共轭转置运算，υ(ω)为所述增益向量，l代表时间帧，y_T(l,ω)为所述增强波束，y_N(l,ω)为所述阻塞波束。

9.根据权利要求1所述的方法，其特征在于，所述使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波，获得目标信号，包括：

根据z(l,ω)＝y_T(l,ω)-w^H(ω)y_N(l,ω)使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波，获得目标信号；

其中，l代表时间帧，ω为角频率，z(l,ω)为所述目标信号，y_T(l,ω)为所述增强波束，y_N(l,ω)为所述阻塞波束，w(ω)为所述自适应滤波器，w^H(ω)代表对所述自适应滤波器进行共轭转置运算。

10.根据权利要求1所述的方法，其特征在于，在所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波，获得一个增强波束和至少一个阻塞波束之前，还包括：

根据

针对所述语音信号的期望方向构建滤波器，获得所述增强滤波器；

其中，ω为角频率，θ_Targ为所述期望方向，h_SD(ω,θ_Targ)代表角频率为ω且期望方向为θ_Targ的所述增强滤波器，Γ_i,j(ω)代表第i个麦克风和第j个麦克风的噪音相关性系数，Γ(ω)为噪音相关性系数矩阵，所述噪音相关性系数矩阵Γ(ω)由多个噪音相关性系数Γ_i,j(ω)组成，ε为对角因子,M为所述麦克风阵列的麦克风数量，I为M维的单位矩阵，d(ω,θ_Targ)为所述期望方向为θ_Targ且角频率为ω的导向矢量，d^H(ω,θ_Targ)为对所述导向矢量进行共轭转置运算，e为自然常数，j表示第j个麦克风，τ_m,m＝2,...,M表示第m个麦克风相比第一个麦克风的时间延迟，sinc(x)代表计算x的辛格函数，δ_i,j为第i个麦克风和第j个麦克风之间的距离，c为声音在空气中的传播速度。

11.根据权利要求1所述的方法，其特征在于，在所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波，获得一个增强波束和至少一个阻塞波束之前，还包括：

根据