CN111681665A

CN111681665A - 一种全向降噪方法、设备及存储介质

Info

Publication number: CN111681665A
Application number: CN202010432871.6A
Authority: CN
Inventors: 马明阳; 林聚财
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-18

Abstract

本申请公开了一种全向降噪方法、设备及存储介质，全向降噪方法包括：获取音频信号；对音频信号进行波达方向估计，获取音频信号的波达方向，以对音频信号进行声源定位；对音频信号进行降噪处理，以滤除音频信号中的噪声。通过上述方式，本申请能够实现全向降噪，降噪效果好。

Description

一种全向降噪方法、设备及存储介质

技术领域

本申请涉及音频信号处理技术领域，特别是涉及全向降噪方法、设备及存储介质。

背景技术

音频信号处理已经成为一个非常热门的领域，清晰的音频信号能够极大地提高后期语音信号分析的准确度。音频信号采集设备在实际的工作环境中往往存在室外环境噪声、室内混响、人声噪声、汽车噪声等干扰，无法获取清晰的目标语音。因此，如何从含噪的音频信号中提取较纯净的目标语音是一个贴合实际工程需求的问题。现有对音频信号进行降噪处理的方法还存在一定的问题，如需要在无干扰的环境下获取校准信号，这使得算法难度较大，增加了很多不确定性；对噪声的滤除不够干净等。

发明内容

本申请主要解决的技术问题是提供一种全向降噪方法、设备及存储介质，能够实现全向降噪，降噪效果好。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种全向降噪方法，该方法包括：获取音频信号；对音频信号进行波达方向估计，获取音频信号的波达方向，以对音频信号进行声源定位；对音频信号进行降噪处理，以滤除音频信号中的噪声。

其中，基于正交投影近似子空间跟踪算法，计算正交投影近似子空间跟踪算法的目标函数的全局最小收敛点，得到信号子空间；基于空间谱估计算法和信号子空间，计算空间谱估计函数最小时对应的角度值，得到音频信号的波达方向。

其中，利用广义旁瓣相消法对音频信号进行波束形成处理，以滤除音频信号中的相干噪声；和/或对音频信号进行滤波处理，以滤除音频信号中的非相干噪声。

其中，利用广义旁瓣相消法对音频信号进行波束形成处理，以滤除音频信号中的相干噪声包括：对音频信号进行固定波束形成处理，得到第一波束形成信号；对音频信号进行自适应波束形成处理，得到第二波束形成信号；将第一波束形成信号与第二波束形成信号相减，得到经过波束形成处理后的波束形成信号。

其中，对音频信号进行固定波束形成处理，得到第一波束形成信号包括：将音频信号与固定波束形成加权向量相乘，得到第一波束形成信号。

其中，对音频信号进行自适应波束形成处理，得到第二波束形成信号包括：利用阻塞矩阵对音频信号进行过滤，得到不含目标语音的噪声参考信号，噪声参考信号为阻塞矩阵与音频信号的乘积；将噪声参考信号与自适应波束形成加权向量相乘，得到第二波束形成信号。

其中，将噪声参考信号与自适应波束形成加权向量相乘，得到第二波束形成信号包括：利用归一化最小均方算法计算获得自适应波束形成加权向量。

其中，对音频信号进行滤波处理，滤除音频信号中的非相干噪声包括：获取目标语音信号的先验信号缺失概率和信号存在概率；利用先验信号缺失概率和信号存在概率更新增益函数，并对音频信号进行频谱增强，得到滤除噪声后的目标语音信号，目标语音信号为增益函数与音频信号的乘积。

其中，对音频信号进行滤波处理，滤除音频信号中的非相干噪声还包括：利用由平滑周期图的最小值控制的平滑参数递归平均噪声测量的过去谱功率值，以获得噪声频谱。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种全向降噪设备，全向降噪设备包括处理器，处理器用于执行指令以实现上述的全向降噪方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，计算机可读存储介质用于存储指令/程序数据，指令/程序数据能够被执行以实现上述的全向降噪方法。

本申请的有益效果是：区别于现有技术的情况，本申请提供一种全向降噪方法，通过对音频信号进行声源定位，估计出音频信号的波达方向，能够处理来自任意方向的音频信号，不再局限于特定方向的音频信号，实现全向降噪，提高降噪效果。

附图说明

图1是本申请实施方式中一全向降噪方法的流程示意图；

图2是本申请实施方式中对音频信号进行声源定位的流程示意图；

图3是本申请实施方式中双通道广义旁瓣相消结构示意图；

图4是本申请实施方式中对音频信号进行波束形成处理的流程示意图；

图5是本申请实施方式中后置滤波结构示意图；

图6是本申请实施方式中对音频信号进行后置滤波处理的流程示意图；

图7是本申请实施方式中另一全向降噪方法的流程示意图；

图8是本申请实施方式中全向降噪装置的结构示意图；

图9是本申请实施方式中全向降噪设备的结构示意图；

图10为本申请实施方式中计算机可读存储介质的结构示意图。

具体实施方式

为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。

本申请提供一种全向降噪方法，通过对音频信号进行声源定位，估计出音频信号的波达方向，能够处理来自任意方向的音频信号，不再局限于特定方向的音频信号，实现全向降噪。

请参阅图1，图1是本申请实施方式中一全向降噪方法的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施方式包括：

S110：获取音频信号。

其中，可利用音频采集设备实时采集获取音频信号，也可以从本地/云端存储的音频信号中读取。音频采集设备指的是可以采集声音的设备，也称麦克风，为了描述方便，在本申请实施例中，均称为麦克风。

S120：对音频信号进行波达方向估计，获取音频信号的波达方向，以对音频信号进行声源定位。

其中，波达方向(Direction of arrival，DOA)是指空间信号的到达方向(各个信号到达阵列参考阵元的方向角，简称波达方向)，它是空间谱估计理论中的概念，通过对波达方向进行估计能够获取信源位置。该实施方式中，通过对音频信号的波达方向进行估计，能够获取音频信号的声源位置，对音频信号进行声源定位。

S130：对音频信号进行降噪处理，以滤除音频信号中的噪声。

该实施方式中，通过对音频信号进行声源定位，估计出音频信号的波达方向，能够处理来自任意方向(0°～360°)的音频信号，不再局限于特定方向的音频信号，实现全向降噪，能够满足不同场景需求。

在一实施方式中，可利用正交投影近似子空间跟踪(Orthogonal ProjectionApproximation Subspace Tracking，OPAST)算法和空间谱估计算法对音频信号进行波达方向估计，获取音频信号的波达方向。在其他实施方式中，还可以利用子空间分解类算法、子空间拟合算法、非相干子空间算法、相干子空间算法等方式对音频信号进行波达方向估计，获取音频信号的波达方向。下面，将以利用OPAST算法和空间谱估计算法对音频信号进行波达方向估计为例对本申请的技术方案进行说明，但不限于此。

请参阅图2，图2是本申请实施方式中对音频信号进行声源定位的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。如图2所示，该实施方式中，结合OPAST算法和空间谱估计算法求得音频信号的波达方向，实现对音频信号的声源定位，具体包括：

S111：获取双麦音频信号。

该实施方式中，同时使用两个麦克风采集声音，获得双麦音频信号。设两个麦克风之间的间距为d，将采集到的双麦音频信号的时域数据分别记为x(t)、x(t-τ)。在其他实施方式中，为获得更好的降噪效果，还可以同时使用更多个麦克风来采集声音，如可使用具有多个麦克风的麦克风阵列，在设备条件允许的情况下，使用越多的麦克风，得到的降噪效果就越好，本申请不对麦克风的个数做限定，下文将以两个麦克风为例对本申请的技术方案进行说明。

S121：将音频信号的时域数据转换为频域数据。

对音频信号的时域数据进行分帧、加窗、并经过短时傅里叶变换转换处理，将时域数据变换成频域数据，记频域数据为X(k)，双麦音频信号的频域数据分别记为X₁(k)、X₂(k)。

S122：计算音频信号的波达方向。

其中，结合OPAST算法和空间谱估计算法求得音频信号的波达方向。

具体地，计算OPAST算法的目标函数的全局最小收敛点，得到信号子空间U。其中目标函数J(W)的表示方法为：

J(W)＝Tr(C)-2Tr(W^HCW)+Tr(W^HCWW^HW)

其中W为M*L的矩阵，M为阵元数，L为信源数，C＝E{xx^H}，表示信号的协方差矩阵，X为输入信号，W^H是矩阵W的共轭转置矩阵，Tr(C)是矩阵C的迹。

当目标函数J(W)到达全局最小收敛点时，此时的W近似为信号子空间U。

然后利用空间谱估计方法，计算空间谱估计函数最小时对应的角度值，得到音频信号的波达方向。其中空间谱估计函数为：

其中，θ为波达方向，U为信号子空间，a(θ)＝[1，e^jφ，…，e^j(M-1)φ]^T，φ＝-(2π/λ)dsin(θ)，φ为空间谱的最大值对应的相位，且以第一个阵元为参考阵元。空间谱估计函数最小时的θ值即为音频信号的波达方向。

该实施方式中，通过结合利用正交投影近似子空间跟踪算法和空间谱估计算法求得音频信号的波达方向，所采用的声源来波方向的估计方法计算精度高、复杂低，能够更好的应用于工程技术领域。

在一实施方式中，在估计出音频信号的来波方向后，可对音频信号进行进一步的降噪处理，以滤除音频信号的噪声。其中，可利用GSC(Generalized SidelobeCancellation，广义旁瓣相消)算法对音频信号进行波束形成处理，以滤除音频信号中的相干噪声；还可对音频信号进行滤波处理，以滤除音频信号中的非相干噪声；还可利用维纳滤波算法、卡尔曼滤波算法、TF-GSC(Transfer Function Generalized SidelobeCanceller，传递函数广义旁瓣相消器)算法、基于相位差降噪算法、基于功率差降噪算法等方式对音频信号进行处理，达到降噪效果。其中，可利用上述降噪处理方法中的一种或多种组合对音频信号进行降噪处理，以达到好的降噪效果。下面，将以联合使用GSC波束形成方法和滤波方法对音频信号进行降噪处理为例对本申请的技术方案进行说明，但不限于此。其中，先对音频信号进行波束形成处理，滤除音频信号中的相干噪声；再对经过波束形成处理后的音频信号进行后置滤波，滤除音频信号中的非相干噪声。通过结合使用GSC波束形成方法和后置滤波方法，能有效滤除音频信号中的相干和非相干噪声等各种类型的环境噪声，去噪效果更好。

请结合参阅图3和图4，图3是本申请实施方式中双通道广义旁瓣相消结构示意图，图4是本申请实施方式中对音频信号进行波束形成处理的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图4所示的流程顺序为限。

如图3所示，GSC包括两个信号处理通道，一个是具有固定波束形成的非自适应通道，一个是具有噪声相消的自适应波束形成通道。

如图4所示，该实施方式中，利用广义旁瓣相消法对音频信号进行波束形成处理，以滤除音频信号中的相干噪声，具体包括：

S1311：对音频信号进行固定波束形成处理，得到第一波束形成信号。

其中，两麦音频信号数据X₁(k)、X₂(k)通过固定波束形成通道后，输出第一波束形成信号Y₁(k)，实现对音频信号的初步降噪处理。设固定波束形成部分的加权向量为W(k)，则第一波束形成信号Y₁(k)为：

Y₁(k)＝W^H(k)X(k)

其中，X(k)＝[X₁(k) X₂(k)]^T。

S1312：对音频信号进行自适应波束形成处理，得到第二波束形成信号。

其中，自适应噪声相消波束形成通道包括一产生参考噪声信号的阻塞信道，阻塞信道只让噪声信号通过。因此，两麦音频信号数据X₁(k)、X₂(k)经过阻塞矩阵^B(k)滤除目标语音信号后，可得到不含目标语音的噪声参考信号U(k)，噪声参考信号U(k)为：

U(k)＝B^H(k)X(k)

设自适应波束形成的权重为^H(k)，则经自适应波束形成处理后输出的第二波束形成信号Y₂(k)为：

Y₂(k)＝H^H(k)B^H(k)X(k)

其中，可选用变步长NLMS(Normalized Least-Mean-Square，归一化最小均方)算法通过不断更新迭代获得自适应波束形成的加权向量H(k)，在频域GSC中，更新方法如下：

P_est(k)＝αP_est(k-1)+(1-α)||U(k)||²

其中，μ为步长变换因子，α为PSD(Power Spectrum density，功率谱密度)估计过程的平滑因子，Y(k)＝Y₁(k)-Y₂(k)。

其中，上述S1311、S1312的执行顺序仅为示意，可以调换先后顺序或者同时进行。

S1313：将第一波束形成信号与第二波束形成信号相减，得到经过波束形成处理后的波束形成信号。

经过波束形成处理后，最终的输出结果Y(k)为：

Y(k)＝Y₁(k)-Y₂(k)

该实施方式中，通过利用GSC算法对音频信号进行波束形成处理，能够滤除音频信号中的相干噪声，得到不含相干噪声的音频信号。

在一实施方式中，在对音频信号进行波束形成处理后，还可以对音频信号进行后置滤波处理，以滤除音频信号中的非相干噪声。

请结合参阅图5和图6，图5是本申请实施方式中后置滤波结构示意图，图6是本申请实施方式中对音频信号进行后置滤波处理的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图6所示的流程顺序为限。如图6所示，该实施方式中，对音频信号进行后置滤波处理，以滤除音频信号中的非相干噪声，具体包括：

S1321：获取目标语音信号的先验信号缺失概率。

其中，对于每个帧和频率在时频平面中对波束形成器输出处的所需源分量进行检测。具体地，我们计算所有频率的信号存在的局部似然，然后生成一个全局似然，再将全局似然与某个阈值进行比较，进而对先验信号缺失概率

进行估计，得到先验信号缺失概率

计算方法如下：

其中，P_local和P_global的计算方式是：先对先验信噪比ξ(k)做平滑处理，然后在频率维度加上长度不同的窗(分别是local窗和global窗)并取均值，不同的值对应不同的P。而P_frame是对整个频率取均值。

S1322：获取目标语音信号的信号存在概率。

该实施方式中，假设统计模型下信号存在的概率为：

其中，ξ(k)＝E{|X(k)|²}/λ_d为先验信噪比，λ_d(k)表示波束形成器输出处的噪声PSD，v(k)＝γ(k)ξ(k)/(1+ξ(k))，γ(k)＝|Y(k)²|/λ_d(k)是后验信噪比。

S1323：获取噪声频谱。

该实施方式中，使用由平滑周期图的最小值控制的平滑参数递归平均噪声测量的过去谱功率值，以对噪声频谱进行估计，获得噪声频谱。

其中递归平均为：

其中，

是时变频率相关的平滑参数，平滑参数由信号存在概率p和表示其为最小值的常数α_d(0<α_d<1)确定，其中

S1324：对音频信号进行频谱增强，得到滤除噪声后的目标语音信号。

在前述步骤中，求得了信号的先验信噪比。由先验信噪比，对语音存在时的条件增益函数更新如下：

其中，G_min为信号缺失时增益的下限约束。

随后，对音频信号进行STFT(short-time Fourier transform，短时傅里叶变换)估计，得到纯净的目标语音信号，纯净语音信号

为：

该实施方式中，通过对音频信号进行后置滤波处理后，能够滤除音频信号中的非相干噪声。

随后，可对

做傅里叶反变换处理，得到经波束形成及后置滤波处理后的纯净语音信号。

请参阅图7，图7是本申请实施方式中另一全向降噪方法的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图7所示的流程顺序为限。如图7所示，本实施方式包括：

S210：利用音频采集设备获取双麦音频信号。

S220：将音频信号的时域数据转换为频域数据。

S230：计算音频信号的波达方向。

S240：对音频信号进行固定波束形成处理，得到第一波束形成信号；对音频信号进行自适应波束形成处理，得到第二波束形成信号，将第一波束形成信号与第二波束形成信号相减，得到经过波束形成处理后的波束形成信号。

S250：获取目标语音信号的先验信号缺失概率。

S260：获取目标语音信号的信号存在概率。

S270：获取噪声频谱。

S280：对音频信号进行频谱增强，得到滤除噪声后的目标语音信号。

S290：对目标语音信号进行傅里叶反变换处理。

以上实施方式中，在对音频信号进行处理时，通过对音频信号进行声源定位，能够保证信号来波方向在任意范围，不局限于0度方向的信号，能够保证全向而非定向；且声源定位方法精度较高，计算复杂度低，能够更好利用于工程技术领域；同时联合利用GSC波束形成方法和后置滤波方法对音频信号进行降噪处理，能有效滤除相干和非相干噪声等各种类型的环境噪声，对于去噪效果更好。

请参阅图8，图8是本申请实施方式中全向降噪装置的结构示意图。该实施方式中，全向降噪装置包括获取模块31、声源定位模块32和降噪处理模块33。

其中，获取模块31用于获取音频信号；声源定位模块32用于对音频信号进行波达方向估计，获取音频信号的波达方向，以对音频信号进行声源定位；降噪处理模块33用于对音频信号进行降噪处理，以滤除音频信号中的噪声。该全向降噪装置对音频信号进行处理时，通过对音频信号进行声源定位，估计出音频信号的波达方向，能够处理来自任意方向的音频信号，不再局限于特定方向的音频信号，实现全向降噪，提高降噪效果。

在一实施方式中，降噪处理模块33包括波束形成单元和/或后置滤波单元，波束形成单元用于利用广义旁瓣相消法对音频信号进行波束形成处理，以滤除音频信号中的相干噪声；后置滤波单元用于对音频信号进行滤波处理，以滤除音频信号中的非相干噪声。通过结合使用波束形成方法和后置滤波方法，能有效滤除音频信号中的相干和非相干噪声等各种类型的环境噪声，去噪效果更好。

请参阅图9，图9是本申请实施方式中全向降噪设备的结构示意图。该实施方式中，全向降噪设备10包括处理器11。

处理器11还可以称为CPU(Central Processing Unit，中央处理单元)。处理器11可能是一种集成电路芯片，具有信号的处理能力。处理器11还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器11也可以是任何常规的处理器等。

全向降噪设备10可以进一步包括存储器(图中未示出)，用于存储处理器11运行所需的指令和数据。

处理器11用于执行指令以实现上述本申请全向降噪方法任一实施例及任意不冲突的组合所提供的方法。

处理器11可以集成于音频信号处理设备上，也可以独立进行音频信号处理。全向降噪设备可以是安防相机、蓝牙耳机等。

请参阅图10，图10为本申请实施方式中计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质20存储有指令/程序数据21，该指令/程序数据21被执行时实现本申请全向降噪方法任一实施例以及任意不冲突的组合所提供的方法。其中，该指令/程序数据21可以形成程序文件以软件产品的形式存储在上述存储介质20中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质20包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种全向降噪方法，其特征在于，包括：

获取音频信号；

对所述音频信号进行波达方向估计，获取所述音频信号的波达方向，以对所述音频信号进行声源定位；

对所述音频信号进行降噪处理，以滤除所述音频信号中的噪声。

2.根据权利要求1所述的全向降噪方法，其特征在于，所述对音频信号进行波达方向估计，获取所述音频信号的波达方向包括：

基于正交投影近似子空间跟踪算法，计算所述正交投影近似子空间跟踪算法的目标函数的全局最小收敛点，得到信号子空间；

基于空间谱估计算法和所述信号子空间，计算空间谱估计函数最小时对应的角度值，得到所述音频信号的波达方向。

3.根据权利要求1所述的全向降噪方法，其特征在于，所述对音频信号进行降噪处理，以滤除所述音频信号中的噪声包括：

利用广义旁瓣相消法对所述音频信号进行波束形成处理，以滤除所述音频信号中的相干噪声；和/或

对所述音频信号进行滤波处理，以滤除所述音频信号中的非相干噪声。

4.根据权利要求3所述的全向降噪方法，其特征在于，所述利用广义旁瓣相消法对所述音频信号进行波束形成处理，以滤除所述音频信号中的相干噪声包括：

对所述音频信号进行固定波束形成处理，得到第一波束形成信号；对所述音频信号进行自适应波束形成处理，得到第二波束形成信号；

将所述第一波束形成信号与所述第二波束形成信号相减，得到经过波束形成处理后的波束形成信号。

5.根据权利要求4所述的全向降噪方法，其特征在于，

所述对音频信号进行固定波束形成处理，得到第一波束形成信号包括：将所述音频信号与固定波束形成加权向量相乘，得到所述第一波束形成信号；

所述对音频信号进行自适应波束形成处理，得到第二波束形成信号包括：利用阻塞矩阵对所述音频信号进行过滤，得到不含目标语音的噪声参考信号，所述噪声参考信号为所述阻塞矩阵与所述音频信号的乘积；将所述噪声参考信号与自适应波束形成加权向量相乘，得到所述第二波束形成信号。

6.根据权利要求5所述的全向降噪方法，其特征在于，所述将噪声参考信号与自适应波束形成加权向量相乘，得到所述第二波束形成信号包括：

利用归一化最小均方算法计算获得所述自适应波束形成加权向量。

7.根据权利要求3所述的全向降噪方法，其特征在于，所述对音频信号进行滤波处理，滤除所述音频信号中的非相干噪声包括：

获取目标语音信号的先验信号缺失概率和信号存在概率；

利用所述先验信号缺失概率和信号存在概率更新增益函数，并对所述音频信号进行频谱增强，得到滤除噪声后的目标语音信号，所述目标语音信号为所述增益函数与所述音频信号的乘积。

8.根据权利要求7所述的全向降噪方法，其特征在于，所述对音频信号进行滤波处理，滤除所述音频信号中的非相干噪声还包括：

利用由平滑周期图的最小值控制的平滑参数递归平均噪声测量的过去谱功率值，以获得噪声频谱。

9.一种全向降噪设备，其特征在于，所述全向降噪设备包括处理器，所述处理器用于执行指令以实现如权利要求1-8中任一项所述的全向降噪方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储指令/程序数据，所述指令/程序数据能够被执行以实现如权利要求1-8中任一项所述的全向降噪方法。