CN110890099A

CN110890099A - 声音信号处理方法、装置以及存储介质

Info

Publication number: CN110890099A
Application number: CN201811047600.8A
Authority: CN
Inventors: 郑勇超
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2020-03-17
Anticipated expiration: 2038-09-10
Also published as: CN110890099B

Abstract

本公开提供了一种声音信号处理方法、装置以及存储介质，涉及信号处理技术领域，其中方法包括：获得与采集的声音信号相对应的干扰信号方位；基于干扰信号方位获得干扰方位导向矢量；获得干扰信号的功率和背景噪声信号的功率，根据干扰信号的功率和背景噪声信号的功率确定干扰权值；根据干扰方位导向矢量和干扰权值确定滤波器的噪声协方差矩阵；使用滤波器并基于噪声协方差矩阵对声音信号进行处理。本公开的方法、装置以及存储介质，能提高信干比，实现对干扰信号和环境噪音的抑制，减少期望信号的失真，对声音信号进行增强处理，提高了声音质量，提升了用户的使用体验。

Description

声音信号处理方法、装置以及存储介质

技术领域

本公开涉及信号处理技术领域，尤其涉及一种声音信号处理方法、装置以及存储介质。

背景技术

声音信号处理技术已经有了巨大的发展和广泛的应用，例如，应用于麦克风阵列基础上的语音增强技术和声源目标探测跟踪是研究和应用的热点之一，国内外已经有一些成熟的产品进入市场如车载对话系统、语音智能音响、电话会议对讲机。对声音信号处理使用MVDR(Minimum Variance Distortionless Response，最小方差无失真响应)等算法进行语音增强，MVDR等算法中的滤波器系数的计算需要用到噪声信号协方差矩阵。对噪声信号协方差矩阵的估计一直是语音增强领域研究的难点，目前采用的方法分为两类，一类是拿接收信号的协方差矩阵代替噪声协方差进行计算；另一类是假设背景噪声为白噪声，拿单位对角矩阵代替噪声协方差进行计算。但是，现有的方法都不能实时准确估计噪声协方差，导致算法性能的下降。特别是在复杂的声环境中，当干扰信号能量比较大时已经不能将其看成背景噪声，如果依旧采用现有的噪声协方差估计方法必然会降低语音增强效果。

发明内容

有鉴于此，本公开要解决的一个技术问题是提供一种声音信号处理方法、装置以及存储介质。

根据本公开的一个方面，提供一种声音信号处理方法，包括：获得与采集的声音信号相对应的干扰信号方位；基于所述干扰信号方位获得干扰方位导向矢量；获得干扰信号的功率和背景噪声信号的功率，根据所述干扰信号的功率和所述背景噪声信号的功率确定干扰权值；根据所述干扰方位导向矢量和所述干扰权值确定滤波器的噪声协方差矩阵；使用所述滤波器并基于所述噪声协方差矩阵对所述声音信号进行处理。

可选地，获得滤波器的噪声协方差矩阵

其中，R_n为所述噪声协方差矩阵，

为干扰信号的功率，

为背景噪声信号的功率，D为所述干扰方位导向矢量，I是单位对角矩阵，为背景噪声的协方差矩阵。

可选地，所述使用所述滤波器并基于所述噪声协方差矩阵对所述声音信号进行处理包括：获得与采集的声音信号相对应的期望信号方位；基于所述期望信号方位获得期望信号方位导向矢量；根据所述噪声协方差矩阵和所述期望信号方位导向矢量获得所述滤波器的加权向量；使用所述滤波器并基于所述加权向量对所述声音信号进行滤波处理。

可选地，获得所述滤波器的加权向量

其中，w为所述加权向量，R_n为所述噪声协方差矩阵，A为所述期望信号方位导向矢量。

可选地，当声音采集装置的采集通道采集到预设长度的时域上的声音信号时，对时域上的声音信号进行时频变换处理，获得频域上的声音信号以及相应的频点；所述使用所述滤波器并基于所述加权向量对所述声音信号进行滤波处理包括：获得在所述频点处的滤波系数，使用所述滤波器并基于所述加权向量和所述滤波系数对频域上的声音信号进行频域滤波处理；将进行了频域滤波处理的频域上的声音信号进行反时频变换处理，获得滤波后的时域上的声音信号。

可选地，对频域上的声音信号进行频域滤波处理为：

其中，nfft为所述预设长度，为2的指数倍；

是声音信号在频域中相应的频点；

表示在频点

处的滤波系数，Y_m为频域上的声音信号，H表示矩阵的哈密顿变换。

根据本公开的另一方面，提供一种声音信号处理装置，包括：干扰方位获得模块，用于获得与采集的声音信号相对应的干扰信号方位；干扰导向获得模块，用于基于所述干扰信号方位获得干扰方位导向矢量；干扰权值确定模块，用于获得干扰信号的功率和背景噪声信号的功率，根据所述干扰信号的功率和所述背景噪声信号的功率确定干扰权值；协方差获得模块，用于根据所述干扰方位导向矢量和所述干扰权值确定滤波器的噪声协方差矩阵；信号处理模块，用于使用所述滤波器并基于所述噪声协方差矩阵对所述声音信号进行处理。

可选地，所述协方差获得模块，用于获得滤波器的噪声协方差矩阵

其中，R_n为所述噪声协方差矩阵，

为干扰信号的功率，

可选地，期望方位获得模块，用于获得与采集的声音信号相对应的期望信号方位；期望导向获得模块，用于基于所述期望信号方位获得期望信号方位导向矢量；加权向量获得模块，用于根据所述噪声协方差矩阵和所述期望信号方位导向矢量获得所述滤波器的加权向量；所述信号处理模块，用于使用所述滤波器并基于所述加权向量对所述声音信号进行滤波处理。

可选地，所述加权向量获得模块，用于获得所述滤波器的加权向量

可选地，时频变换模块，用于当声音采集装置的采集通道采集到预设长度的时域上的声音信号时，对时域上的声音信号进行时频变换处理，获得频域上的声音信号以及相应的频点；所述信号处理模块，用于获得在所述频点处的滤波系数，使用所述滤波器并基于所述加权向量和所述滤波系数对频域上的声音信号进行频域滤波处理；所述时频变换模块，还用于将进行了频域滤波处理的频域上的声音信号进行反时频变换处理，获得滤波后的时域上的声音信号。

可选地，所述信号处理模块，用于对频域上的声音信号进行频域滤波处理为：

其中，nfft为所述预设长度，为2的指数倍；

是声音信号在频域中相应的频点；

表示在频点

根据本公开的又一方面，提供一种声音信号处理装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上所述的方法。

本公开的声音信号处理方法、装置以及存储介质，获得与采集的声音信号相对应的干扰信号方位以及干扰方位导向矢量，根据干扰信号的功率和背景噪声信号的功率确定干扰权值，根据干扰方位导向矢量和干扰权值确定滤波器的噪声协方差矩阵，基于噪声协方差矩阵对声音信号进行处理；提出了新的噪声协方差估计方法，能提高信干比，实现对干扰信号和环境噪音的抑制，减少期望信号的失真，对声音信号进行增强处理，提高了声音质量，提升了用户的使用体验。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开的声音信号处理方法的一个实施例的流程示意图；

图2为根据本公开的声音信号处理方法的一个实施例中的进行滤波处理的流程示意图；

图3为根据本公开的声音信号处理方法的一个实施例中的对声音信号进行处理的流程示意图；

图4为根据本公开的声音信号处理方法的另一个实施例的流程示意图；

图5为根据本公开的声音信号处理装置的一个实施例的模块示意图；

图6为根据本公开的声音信号处理装置的另一个实施例的模块示意图；

图7为根据本公开的声音信号处理装置的又一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。

图1为根据本公开的声音信号处理方法的一个实施例的流程示意图，如图1所示：

步骤101，获得与采集的声音信号相对应的干扰信号方位。

使用声音采集装置采集声音信号，声音采集装置包括麦克风单元，麦克风单元可以为麦克风单体或阵列麦克风等，阵列麦克风通常由一组按特定方式排列的声传感器组成。使用声音采集装置采集的声音信号中包括期望信号、干扰信号和背景噪声信号。

利用定位算法计算出采集到的声音信号的期望信号方位和干扰信号方位，期望信号方位和干扰信号方位包括水平角、俯仰角等。定位算法可以有多种，例如TDOA(TimeDifference Of Arrival，到达时间差)算法等。TDOA定位是一种利用时间差进行定位的方法，通过测量信号到达监测点的时间，可以确定信号源的距离，利用信号源到各个监测点的距离(以监测点为中心，距离为半径作圆)，就能确定信号的位置。

利用麦克风阵列并基于TDOA算法可以计算出声源距离麦克风阵列的角度和距离，实现对目标声源的跟踪。通过波束形成技术，即在期望方向上有效地形成一个波束，仅拾取波束的信号，从而达到同时提取声源和抑制噪声的目的。

步骤102，基于干扰信号方位获得干扰方位导向矢量。

步骤103，获得干扰信号的功率和背景噪声信号的功率，根据干扰信号的功率和背景噪声信号的功率确定干扰权值。干扰权值可以为干扰信号的功率和背景噪声信号的功率的比值，或者为干扰信号的功率和背景噪声信号的功率的比值与预设权值的乘积等。

步骤104，根据干扰方位导向矢量和干扰权值确定滤波器的噪声协方差矩阵。

本实施例可采用多种滤波器，例如LMS(Least Mean Square,最小均方)滤波器、LCMV(线性约束最小方差，linearly constrained Minimum Variance)滤波器、MVDR滤波器等，优选地，本实施例的滤波器为MVDR滤波器。MVDR算法在保持期望信号响应不变的情况下使输出功率最小，且对信号模型的失配不是很敏感，不需要精准的获知期望信号方位，能让期望信号无失真输出，且噪声方差最小。

步骤105，使用滤波器并基于噪声协方差矩阵对声音信号进行处理。

上述实施例中的声音信号处理方法，通过新的噪声协方差估计方法，在有干扰信号的声环境中，能提高信干比(期望信号与干扰信号的能量比)，实现对干扰信号以及环境噪声信号的抑制。

在一个实施例中，在存在干扰信号的声环境下，建立包含干扰信号的阵列信号接收模型，假设目标信号、干扰信号、环境噪声信号互不相关，可以推导出噪声协方差矩阵。获得滤波器的噪声协方差矩阵

其中，R_n为噪声协方差矩阵，

为干扰信号的功率，

为背景噪声信号的功率，干扰权值为

和

的比值，D为干扰方位导向矢量，I是单位对角矩阵，为背景噪声的协方差矩阵。由于干扰信号的功率和背景噪声信号的功率通常比较难确定，可以基于不同的语音环境对

和

的比值根据经验设置一个固定值。

图2为根据本公开的声音信号处理方法的一个实施例中的进行滤波处理的流程示意图，如图2所示：

步骤201，获得与采集的声音信号相对应的期望信号方位。期望信号方位可以包括水平角和俯仰角等。

步骤202，基于期望信号方位获得期望信号方位导向矢量。

步骤203，根据噪声协方差矩阵和期望信号方位导向矢量获得滤波器的加权向量。

步骤204，使用滤波器并基于加权向量对声音信号进行滤波处理。

在一个实施例中，获得滤波器的加权向量

其中，w为加权向量，R_n为噪声协方差矩阵，A为期望信号方位导向矢量。

图3为根据本公开的声音信号处理方法的一个实施例中的对声音信号进行处理的流程示意图，如图3所示：

步骤301，当声音采集装置的采集通道采集到预设长度的时域上的声音信号时，对时域上的声音信号进行时频变换处理，获得频域上的声音信号以及相应的频点。进行时频变换处理可以采用快速傅里叶变化等。

步骤302,获得在频点处的滤波系数，使用滤波器并基于加权向量和滤波系数对频域上的声音信号进行频域滤波处理。

步骤303，将进行了频域滤波处理的频域上的声音信号进行反时频变换处理，获得滤波后的时域上的声音信号。

图4为根据本公开的声音信号处理方法的另一个实施例的流程示意图，如图4所示：

步骤401，对麦克风阵列采集的声音信号进行分帧处理，获得每帧声音信号数据。

步骤402，对麦克风阵列的每个通道数据做傅里叶变换。

麦克风阵列具有M个阵元，即M个麦克风通道。当每个麦克风通道采集到长度为nfft的声音信号时进行一次傅里叶变换。nfft为2的指数倍，以便于对声音信号进行快速傅里叶变换。麦克风阵列接收到的时域上的声音信号数据用y_m表示，频域上的声音信号数据用Y_m表示。

其中，

是声音信号在频域上对应的频点，通常采用其正频率部分。

其中，

是频域子带序列,f_s为信号的采样率。

步骤403，利用定位算法获取期望信号方位、干扰信号方位。

可以利用TDOA算法计算出该帧声音信号的期望信号方位

干扰信号方位

步骤404，计算期望信号方位导向矢量、干扰方位导向矢量。

可以利用下面的公式1-5计算出声音信号的期望信号方位导向矢量、干扰方位导向矢量。

其中，

表示阵列对方向

的导向矢量；

表示信号到达m号阵元相对于参考点的时间延迟，j是虚数符号。

期望信号方位导向矢量计算公式：

干扰方位导向矢量计算公式：

步骤405，计算噪声协方差矩阵。可以使用公式(1-1)估计出噪声协方差矩阵。

步骤406，计算滤波器系数。可以使用公式(1-2)计算出滤波器的加权向量，滤波器可以为MVDR滤波器等。

步骤407，对频域数据进行滤波。可以使用公式(1-8)完成频域滤波：

其中，nfft为预设长度，为2的指数倍；

是声音信号在频域中相应的频点；Y_m为频域上的声音信号，

表示在频点

处MVDR滤波器(波束形成器)的滤波系数，H表示矩阵的哈密顿变换。

步骤408，将滤波后的信号做傅里叶反变换，得到该帧处理后的时域信号：

返回到401步骤，进行循环处理。

在一个实施例中，如图5所示，本公开提供一种声音信号处理装置50，包括：干扰方位获得模块51、干扰导向获得模块52、干扰权值确定模块53、协方差获得模块54和信号处理模块55。

干扰方位获得模块51获得与采集的声音信号相对应的干扰信号方位。干扰导向获得模块52基于干扰信号方位获得干扰方位导向矢量。干扰权值确定模块53获得干扰信号的功率和背景噪声信号的功率，根据干扰信号的功率和背景噪声信号的功率确定干扰权值。协方差获得模块54根据干扰方位导向矢量和干扰权值确定滤波器的噪声协方差矩阵。信号处理模块55使用滤波器并基于噪声协方差矩阵对声音信号进行处理。

协方差获得模块54获得滤波器的噪声协方差矩阵

其中，R_n为噪声协方差矩阵，

为干扰信号的功率，

为背景噪声信号的功率，D为干扰方位导向矢量，I是单位对角矩阵，为背景噪声的协方差矩阵。

在一个实施例中，如图6所示，声音信号处理装置50包括：期望方位获得模块56、期望导向获得模块57、加权向量获得模块58和时频变换模块59。

期望方位获得模块56获得与采集的声音信号相对应的期望信号方位。期望导向获得模块57基于期望信号方位获得期望信号方位导向矢量。加权向量获得模块58根据噪声协方差矩阵和期望信号方位导向矢量获得滤波器的加权向量。信号处理模块55使用滤波器并基于加权向量对声音信号进行滤波处理。

加权向量获得模块58获得滤波器的加权向量

在一个实施例中，当声音采集装置的采集通道采集到预设长度的时域上的声音信号时，时频变换模块59对时域上的声音信号进行时频变换处理，获得频域上的声音信号以及相应的频点。信号处理模块55获得在频点处的滤波系数，使用滤波器并基于加权向量和滤波系数对频域上的声音信号进行频域滤波处理。时频变换模块59将进行了频域滤波处理的频域上的声音信号进行反时频变换处理，获得滤波后的时域上的声音信号。

图7为根据本公开的声音信号处理装置的又一个实施例的模块示意图。如图7所示，该装置可包括存储器71、处理器72、通信接口73以及总线74。存储器71用于存储指令，处理器72耦合到存储器71，处理器72被配置为基于存储器71存储的指令执行实现上述的声音信号处理方法。

存储器71可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器71也可以是存储器阵列。存储器71还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器72可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的声音信号处理方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的声音信号处理方法。

上述实施例中的声音信号处理方法、装置以及存储介质，获得与采集的声音信号相对应的干扰信号方位以及干扰方位导向矢量，根据干扰信号的功率和背景噪声信号的功率确定干扰权值，根据干扰方位导向矢量和干扰权值确定滤波器的噪声协方差矩阵，基于噪声协方差矩阵对声音信号进行处理；提出了新的噪声协方差估计方法，在有干扰信号的声环境中，能提高信干比，实现对干扰信号的抑制，减少期望信号的失真，对声音信号进行增强处理，提高了声音质量，提升了用户的使用体验。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种声音信号处理方法，包括：

获得与采集的声音信号相对应的干扰信号方位；

基于所述干扰信号方位获得干扰方位导向矢量；

获得干扰信号的功率和背景噪声信号的功率，根据所述干扰信号的功率和所述背景噪声信号的功率确定干扰权值；

根据所述干扰方位导向矢量和所述干扰权值确定滤波器的噪声协方差矩阵；

使用所述滤波器并基于所述噪声协方差矩阵对所述声音信号进行处理。

2.如权利要求1所述的方法，其中，

获得滤波器的噪声协方差矩阵

其中，R_n为所述噪声协方差矩阵，

为干扰信号的功率，

3.如权利要求1所述的方法，所述使用所述滤波器并基于所述噪声协方差矩阵对所述声音信号进行处理包括：

获得与采集的声音信号相对应的期望信号方位；

基于所述期望信号方位获得期望信号方位导向矢量；

根据所述噪声协方差矩阵和所述期望信号方位导向矢量获得所述滤波器的加权向量；

使用所述滤波器并基于所述加权向量对所述声音信号进行滤波处理。

4.如权利要求3所述的方法，其中，

获得所述滤波器的加权向量

5.如权利要求3所述的方法，还包括：

当声音采集装置的采集通道采集到预设长度的时域上的声音信号时，对时域上的声音信号进行时频变换处理，获得频域上的声音信号以及相应的频点；

所述使用所述滤波器并基于所述加权向量对所述声音信号进行滤波处理包括：

获得在所述频点处的滤波系数，使用所述滤波器并基于所述加权向量和所述滤波系数对频域上的声音信号进行频域滤波处理；

将进行了频域滤波处理的频域上的声音信号进行反时频变换处理，获得滤波后的时域上的声音信号。

6.一种声音信号处理装置，包括：

干扰方位获得模块，用于获得与采集的声音信号相对应的干扰信号方位；

干扰导向获得模块，用于基于所述干扰信号方位获得干扰方位导向矢量；

干扰权值确定模块，用于获得干扰信号的功率和背景噪声信号的功率，根据所述干扰信号的功率和所述背景噪声信号的功率确定干扰权值；

协方差获得模块，用于根据所述干扰方位导向矢量和所述干扰权值确定滤波器的噪声协方差矩阵；

信号处理模块，用于使用所述滤波器并基于所述噪声协方差矩阵对所述声音信号进行处理。

7.如权利要求6所述的装置，其中，

所述协方差获得模块，用于获得滤波器的噪声协方差矩阵

其中，R_n为所述噪声协方差矩阵，

为干扰信号的功率，

8.如权利要求6所述的装置，包括：

期望方位获得模块，用于获得与采集的声音信号相对应的期望信号方位；

期望导向获得模块，用于基于所述期望信号方位获得期望信号方位导向矢量；

加权向量获得模块，用于根据所述噪声协方差矩阵和所述期望信号方位导向矢量获得所述滤波器的加权向量；

所述信号处理模块，用于使用所述滤波器并基于所述加权向量对所述声音信号进行滤波处理。

9.如权利要求8所述的装置，其中，

所述加权向量获得模块，用于获得所述滤波器的加权向量

10.如权利要求8所述的装置，还包括：

时频变换模块，用于当声音采集装置的采集通道采集到预设长度的时域上的声音信号时，对时域上的声音信号进行时频变换处理，获得频域上的声音信号以及相应的频点；

所述信号处理模块，用于获得在所述频点处的滤波系数，使用所述滤波器并基于所述加权向量和所述滤波系数对频域上的声音信号进行频域滤波处理；

所述时频变换模块，还用于将进行了频域滤波处理的频域上的声音信号进行反时频变换处理，获得滤波后的时域上的声音信号。

11.一种声音信号处理装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如权利要求1至5中任一项所述的方法。