CN114822579A

CN114822579A - 一种基于一阶差分麦克风阵列的信号估计方法

Info

Publication number: CN114822579A
Application number: CN202210737698.XA
Authority: CN
Inventors: 张涛; 王恒; 耿彦章; 赵鑫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-07-29
Anticipated expiration: 2042-06-28
Also published as: CN114822579B

Abstract

本发明提供了一种基于一阶差分麦克风阵列的信号估计方法，首先构建一阶差分麦克风阵列模型，利用该阵列接收信号，并将两麦克风接收到的信号作差，得到时域差值信号。然后对差值信号进行频域分析，可发现其幅频特性曲线有着一种类似梳状的结构，在本发明中称该效应为梳状滤波效应。对该效应进行数学分析，并依据此设计反梳状滤波器。接着利用该滤波器对差值信号进行滤波，即可还原出原信号的频谱，最后结合相位谱还原出原时域信号，实现信号估计的目的。本发明可以有效解决传统信号估计方法的准确度较低，以及基于深度学习的新型信号估计方法计算复杂度较高和鲁棒性差的问题。

Description

一种基于一阶差分麦克风阵列的信号估计方法

技术领域

本发明属于信号处理技术领域，尤其是涉及一种基于一阶差分麦克风阵列的信号估计方法。

背景技术

信号估计作为信号处理系统的前段步骤，其估计得到的信号质量会直接影响到处理系统的性能。现阶段关于信号估计的技术研究可大致分为两类：

一类是基于相关函数的傅里叶变换等技术的传统信号频谱估计方法，这类方法的性能依赖于已知的数据序列长度，频率分辨率低，不适用于短时数据的情况，并且只适用于对平稳信号进行估计，而现实环境中大部分信号都是非平稳信号，在这些情况下，此类方法的估计准确度较低。

另一类是基于深度学习的信号估计方法，这类方法通过对大量数据集的特征进行学习，来寻找到原信号频谱与目标信号频谱之前的映射关系，进而实现信号估计。但是这类方法的计算复杂度较高，往往需要经过长时间训练才能获得模型。并且对数据集有着极大的依赖性，当待估计的信号与训练集中的数据差别较大时，估计性能就会大幅度下降，因此鲁棒性较低。

综上所述：现有技术的不足在于，计算复杂度低的传统估计方法的准确度不足，反之，估计准确度高的信号估计方法计算复杂度也高，同时鲁棒性较低。因此现阶段亟需找到一种兼顾估计性能、鲁棒性和计算复杂度的解决方案。

发明内容

有鉴于此，本发明旨在提供一种基于一阶差分麦克风阵列的信号估计方法，由于该方法是依据物理传播模型进行设计的，因此可以有效解决传统信号估计方法的准确度较低，以及基于深度学习的新型信号估计方法计算复杂度较高和鲁棒性差的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于一阶差分麦克风阵列的信号估计方法，包括如下步骤：

步骤1：构建一阶差分麦克风阵列模型，对阵列中两个麦克风接收到的信号进行数学表达式分析；

步骤2：对阵列中的两个麦克风接收到的信号作差，得到时域差值信号，分析差值信号的幅频特性曲线；

步骤3：设计具有与步骤2中差值信号的幅频特性曲线的包络完全反相的幅频特性的反向滤波器；

步骤4：利用该滤波器对差值信号进行滤波，还原出原信号的幅频特征，然后结合相位信息进行信号还原，得到估计出的时域信号。

进一步的，所述步骤1中，利用两个麦克风构建麦克风阵列模型，包括麦克风A和麦克风B，声源S位于阵列外，且不处在两麦克风连线的垂直平分线上，设声源S为点声源，且声音在无混响的环境中以近场模型的形式进行传播，即声波为球面波，则模型中各个麦克风接收到的信号可分别表示为：

x_A（t）=α_As（t-τ_A）

x_B（t）=α_Bs（t-τ_B）

其中，x_A（t）和x_B（t）是各个麦克风接收到的混合语音信号；s（t）是声源S发出的信号；α_A和α_B分别为s（t）传播至麦克风A和麦克风B时的衰减系数，它与声音的声压成正比，与声源和麦克风之间的距离成反比；τ_A和τ_B分别为s（t）到达两个麦克风时的时延。

进一步的，所述步骤2中，两个麦克风接收到的语音信号差值表达式为：

dif（t）= x_A（t）- x_B（t）=α_As（t-τ_A）-α_Bs（t-τ_B）；

差值信号的幅频特性的包络呈现梳状结构，对该效应进行分析，已知

点为声源的位置；A、B分别为麦克风阵元的位置；设O点为A、B之间的中点，且A、B之间的距离

；S点与O点之间的距离

；θ为

和

形成的夹角，c为声速，则当声源S点发出声压为P=h帕斯卡的信号时，由于梳状滤波效应而产生的波形包络的数学表达式为：

其中：

。

进一步的，所述步骤3中采用频率采样法设计反梳状滤波器。

本发明还提供一种基于一阶差分麦克风阵列的信号估计装置，：包括

模型构建模块，用于构建一阶差分麦克风阵列模型，对阵列中两个麦克风接收到的信号进行数学表达式分析；

信号分析模块，用于对阵列中的两个麦克风接收到的信号作差，得到时域差值信号，分析差值信号的幅频特性曲线；

信号处理模块，用于设计具有与信号分析模块中差值信号的幅频特性曲线的包络完全反相的幅频特性的反向滤波器；

信号还原模块，用于利用该滤波器对差值信号进行滤波，还原出原信号的幅频特征，然后结合相位信息进行信号还原，得到估计出的时域信号。

本发明还提供一种电子设备，包括

至少一个处理器，以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如任一所述的方法。

本发明还提供一种非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行上述任一项所述的方法。

相对于现有技术，本发明所述的具有以下优势：

（1）本发明的方法相较于传统信号估计方法在对非平稳信号进行估计时有着更高的分离准确性；相较于基于深度学习的新型信号估计方法，极大地降低了计算复杂度，同时提高了鲁棒性；

（2）本文是基于物理传播模型进行设计的，任意信号在通过一阶差分麦克风阵列时都会产生梳状滤波效应，所以不需要对大量数据进行长时间训练来获得数据特征就可以对信号进行估计，得到精确的信号估计结果。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的一阶差分麦克风阵列模型图；

图2为本发明的声源为扫频信号时得到的差值信号的幅频特性图；

图3为本发明的反梳状滤波器的幅频特性曲线；

图4为本发明的信号估计方法原理框图；

图5为本发明的原信号与估计信号的幅频特性对比示意图；

图6为本发明的原信号与估计信号的语谱图对比示意图；

图7为本发明的改进的谱减法的流程图；

图8为本发明的计算机仿真模型图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

本发明提供了一种基于一阶差分麦克风阵列的信号估计方法，首先构建一阶差分麦克风阵列模型，利用该阵列接收信号，并将两麦克风接收到的信号作差，得到时域差值信号。然后对差值信号进行频域分析，可发现其幅频特性曲线有着一种类似梳状的结构，在本发明中称该效应为梳状滤波效应。对该效应进行数学分析，并依据此设计反梳状滤波器。接着利用该滤波器对差值信号进行滤波，即可还原出原信号的频谱，最后结合相位谱还原出原时域信号，实现信号估计的目的。其具体步骤如下：

步骤一：构建一阶差分麦克风阵列模型，并对阵列中两个麦克风接收到的信号进行数学表达式分析。

在本发明提出的信号估计方法中，由两个麦克风组成的一维线阵被设计为语音拾取和估计的工具，用来采集来自于不同空间方向的声音，然后通过对采集到的结果进行相关运算来实现信号估计。本发明首先构建了一个如图1所示的一阶差分麦克风阵列模型。线性麦克风阵列由麦克风A和麦克风B组成。声源S位于阵列外，且不处在两麦克风连线的垂直平分线上。假设声源S为点声源，且声音在无混响的环境中以近场模型的形式进行传播，即声波为球面波，则模型中各个麦克风接收到的信号可分别表示为：

x_A（t）=α_As（t-τ_A）（1）

x_B（t）=α_Bs（t-τ_B）（2）

其中其中，x_A（t）和x_B（t）是各个麦克风接收到的混合语音信号；s（t）是声源S发出的信号；α_A和α_B分别为s（t）传播至麦克风A和麦克风B时的衰减系数，它与声音的声压成正比，与声源和麦克风之间的距离成反比；τ_A和τ_B分别为s（t）到达两个麦克风时的时延。

步骤二：对阵列中的两个麦克风接收到的信号作差，并分析差值信号的幅频特性曲线。

该模型中两个麦克风接收到的语音信号差值表达式为：

dif（t）= x_A（t）- x_B（t）=α_As（t-τ_A）-α_Bs（t-τ_B）（3）

对该差值信号进行频域分析，可以发现其幅频特性存在梳状滤波效应，即差值信号的幅频特性曲线的包络呈现出一种很复杂的类似梳状的结构，这是由于波形不同的信号在叠加时由于各自频率和相位的不同导致的。不妨将声源信号设置为扫频信号，此时得到的差值信号幅频特性曲线如图2所示。

对该效应进行了如下分析：在如图1所示的模型中，已知S点为声源的位置；A、B分别为麦克风阵元的位置；假设O点为A、B之间的中点，且A、B之间的距离

；S点与O点之间的距离

；θ为

和

（4）

其中：

（5）

步骤三：设计具有与差值信号幅频特性曲线的包络完全反相的幅频特性的反梳状滤波器，其幅频特性曲线如图3所示。

步骤四：利用该滤波器对差值信号进行滤波，还原出原信号的幅频特征，然后结合相位信息进行信号还原，得到估计出的时域信号。该方法的原理框图如图4所示。

下面通过仿真实验对本发明的方法进行验证，计算机仿真是使用名为“McRoomsim”的Matlab开源工具进行的，该工具可以生成用户定义的矩形空间内任何的脉冲响应。使用McRoomsim，模拟场景被设置为一个开放的户外场景。通过属性设置模拟区域的反射和吸收系数，我们生成了一个大小为10×10×10米的开放方形空间。麦克风阵列、待估计信号声源位于这一开放空间内，为了便于实验，不妨将麦克风阵列中两个麦克风的位置坐标分别设置为A(2,2,2)、B(8,2,2)，声源S的位置坐标设置为S(5,9,1),它们在空间中的相对位置如图8所示。在仿真实验中，采用时长为7s的女声作为待估计信号，采样频率为8000Hz，对信号进行预处理的过程中，采用的窗函数为海明窗(Hamming)，设置帧长为256，帧移为128。反梳状滤波器为FIR型滤波器，采用频率采样法进行设计，并且滤波器长度即频域采样点数设置为N=1024。在上述参数设置下进行仿真实验，可以得到图5和图6中的信号估计效果，可以看出二者均有着很好的相似性。通过计算机的仿真结果表明，本发明的方法能够有效实现信号的估计。

利用本发明的方法还可以实现语音分离，如图7所示，系统接收到混合语音信号s₁(t)＋s₂(t)后，首先对其进行预处理、分帧加窗等操作，同时利用差分麦克风阵列进行信号采集，然后通过作差的方式消除混合信号中的一路信号s₁(t)，并得到差值信号dif(t)。接着，由反梳状滤波器对差值信号进行滤波处理，进而估计出原混合语音信号中s₂(t)的频谱。最后将混合语音信号频谱和估计信号频谱进行谱减处理，并联合相位谱，进行快速傅里叶反变换，得到分离后的信号y₁(t) 和y₂(t)，进而实现语音分离的目的。

为了侧面验证本发明提出的信号估计方法的有效性，下面将结合了本发明提出的信号估计方法的语音分离算法（称为基于FDM的语音分离算法）和传统基于FastICA的语音分离算法，以及基于Conv-TasNet的语音分离算法分别针对不同数据集得到的混合语音分离结果进行了比较。其中基于Conv-TasNet的语音分离算法是一种基于深度学习的算法，该算法需要针对数据集进行预训练，在这里采用的是华尔街日报语料库(WSJ0)数据集中的25000条样本数据；基于FastICA的语音分离算法是基于独立成分分析的方法，该方法不需要预训练。分别选取了来自WSJ0数据集中未用于进行训练的混合语音数据和来自其他数据集的混合语音数据，共计80条用于进行对比测试。最终得到的结果如下表所示：

表1来自WSJ0数据集的混合语音分离结果

表2来自其他数据集的混合语音分离结果

经过测试，结合后的方法能够有效分离双路语音信号，对于任意混合信号，均能够获得9.19dB的平均尺度不变的信噪比增益(Scale-Invariant Source-to-Noise Ratioimprovement, SI-SNRi)，并且将信号的短时客观可懂度(Short-Time ObjectiveIntelligibility, STOI)和客观语音质量评估(Perceptual Evaluation of SpeechQuality, PESQ)分别提升33%和70%。这也说明了本发明提出的基于一阶差分麦克风阵列的信号估计方法能够很好地实现信号频谱的估计，无论是在估计的准确度，还是计算的复杂度方面，相较于现阶段的信号估计方法都有一定的提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于一阶差分麦克风阵列的信号估计方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于一阶差分麦克风阵列的信号估计方法，其特征在于：所述步骤1中，利用两个麦克风构建麦克风阵列模型，包括麦克风A和麦克风B，声源S位于阵列外，且不处在两麦克风连线的垂直平分线上，设声源S为点声源，且声音在无混响的环境中以近场模型的形式进行传播，即声波为球面波，则模型中各个麦克风接收到的信号可分别表示为：

x_A（t）=α_As（t-τ_A）

x_B（t）=α_Bs（t-τ_B）

3.根据权利要求2所述的一种基于一阶差分麦克风阵列的信号估计方法，其特征在于：所述步骤2中，两个麦克风接收到的语音信号差值表达式为：

dif（t）= x_A（t）- x_B（t）=α_As（t-τ_A）-α_Bs（t-τ_B）；

差值信号的幅频特性的包络呈现梳状结构，对该效应进行分析，已知S点为声源的位置；A、B分别为麦克风阵元的位置；设O点为A、B之间的中点，且A、B之间的距离