CN104167214A

CN104167214A - 一种双麦克风盲声源分离的快速源信号重建方法

Info

Publication number: CN104167214A
Application number: CN201410412547.2A
Authority: CN
Inventors: 贺知明; 刘茜茜; 张山; 陈燚
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-08-20
Filing date: 2014-08-20
Publication date: 2014-11-26
Anticipated expiration: 2034-08-20
Also published as: CN104167214B

Abstract

该发明公开了一种双麦克风盲声源分离的快速源信号重建方法，该方法属于语音信号处理领域，特别是用于声源数目和周围环境都未知的双麦克风声源分离的快速源信号重建方法。该发明在不影响重建源信号时域包络的情况下，对重建信号的各频率成分都增加一个小的附加相位，通过近似计算每个源信号对时频点的贡献大小来模拟它在这个时频点中所占的比例从而恢复源信号，避免了通常的解欠定方程组的过程，简化了计算步骤，达到了快速的目的。从而具有相对于现有算法，计算量小，源数增多情况下信噪比高的优点。

Description

一种双麦克风盲声源分离的快速源信号重建方法

技术领域

本发明属于语音信号处理领域，特别是用于声源数目和周围环境都未知的双麦克风声源分离的快速源信号重建方法。

背景技术

盲声源分离是当前信号处理领域的一个热点，最初是为了解决“鸡尾酒会”问题，如今它已在通信系统、语音增强、遥感、医学成像，地震探测，地球物理，计量经济学，数据挖掘等领域都有广泛的应用。

所谓盲声源分离，是在传输信道和信号源未知的情况下仅依据观测到的混合信号来恢复原始信号的过程。根据量测信号数与声源数的大小关系，盲声源分离问题通常分为超定(含恰定)和欠定。超定(源数大于等于量测信号数)时，使用通常的独立分量分析(ICA)方法便可以很好的将源信号分离出来，目前发展已经很成熟；欠定情况时，系统通常是不可逆的，即使混合矩阵已知，源信号也不存在唯一解，此时独立分量分析方法不能使用。

1998年，Lewicki等人提出了信号的稀疏性概念，这为欠定盲分离问题提供了一个全新的解决途径，目前的时频域处理的双麦克风盲声源分离方法都利用了这个性质。2001年，Bofill和Zibulivsky基于信号稀疏分解理论提出了盲分离的著名的“两步法”，即第一步估计混合矩阵，第二步依据混合矩阵恢复源信号，并成功地从两路量测信号中分离出六路源信号。2004年，Yilmaz和Rickard在时频域利用二值时频掩蔽方法实现了欠定盲声源分离，尤其在2008年，Miehael Syskind Pedersen等人将2输入2输出的ICA和二值时频掩蔽结合使用成功从两路量测信号中分离出了多路信号。上述两种方法构成了双麦克风盲声源分离的两种思路，后来的很多国内外学者大都在这两种思路上做了大量研究，提出了各种改进的算法。

经典的“两步法”盲声源分离方法，先估计混合矩阵，再在混合矩阵基础上估计源信号。目前，用于双麦克风盲语音分离的源信号重建方法多是“最短路径法”和“子空间投影方法”以及“最优二值掩蔽方法”。“最短路径法”对欠定方程组(量测信号)增加约束条件，从而求得一组最优解来重建源信号。由于涉及矩阵求逆，运算量较大，而且随着源数目的增多，其设定的约束条件误差越来越大，恢复的源信号噪声也很多。“最短路径法”在只有两路观测信号情况下，相当于在所有可行解中找到两个分解矢量长度之和最小的一组解。而无论信号源数目多少，都默认一个时频点至多有两个信号源起作用。此方法法通过对每一个时频点求解一个复数的二元线性方程组来重建时频域的源信号，是非常耗时的，而且随着信号源数目增大，稀疏性变差，分离效果也逐渐变差。

发明内容

本发明针对背景技术存在的运算量大和源信号较多时噪声大的缺点，设计一种双麦克风盲声源分离的快速源信号重建方法，从而达到计算量小，运算速度快、恢复的源信号信噪比高的目的。

本发明的解决方案是一种双麦克风盲声源分离的快速源信号重建方法，该方法包括：

步骤1：对时域的双麦克风量测信号建立数学模型，并将该时域数学模型通过短时傅里叶变换变换到较为稀疏的时频域；

步骤1.1：设两个麦克风接收到的量测信号分别为x₁(t),x₂(t)，则其数学模型为：

x_{i} (t) = Σ_{l = 1}^{n} a_{il} s_{l} (t - τ_{il}), i = 1,2

步骤1.2：对上述数学模型进行短时傅里叶变换变换到较为稀疏的时频域为：

X_{i}^{k} = Σ_{l = 1}^{n} a_{il} S_{l}^{k} e^{- j 2 πk τ_{il} / K}, i = 1,2; l = 1 . . . n

其中为第i个麦克风接收到混合信号的短时傅里叶变换，为第l个源信号的短时傅里叶变换，a_ij,τ_ij(i＝1,2；j＝1......n)是两路量测信号相对于源信号的衰减系数和时延，K为短时傅里叶变换选择的窗长，k＝0,1...K-1为离散频率；

步骤2：接收两路两路量测信号,根据步骤1的数学模型,进行短时傅立叶变换,并选择出时频点中仅由一个源信号构成或占明显优势的单源主导点；

步骤3：针对步骤2选出的单源主导点，采用势函数法计算每个源信号对两个麦克风的幅值比和时延差，根据势函数峰值个数确定信号源个数，并将各信号源的幅值比和时延差一一对应；

步骤4：重建各源信号，

步骤4.1：对两路量测信号的傅里叶变换求比值得到下式：

\frac{X_{1}^{k}}{X_{2}^{k}} = \frac{a_{11} e^{- i 2 πk τ_{11} / K} S_{1}^{k} + a_{12} e^{- i 2 πk τ_{12} / K} S_{2}^{k} + . . . + a_{1 n} e^{- i 2 πk τ_{1 n} / K} S_{n}^{k}}{a_{21} e^{- i 2 πk τ_{21} / K} S_{1}^{k} + a_{22} e^{- i 2 πk τ_{22} / K} S_{2}^{k} + . . . + a_{2 n} e^{- i 2 πk τ_{2 n} / K} S_{n}^{k}}

根据量测信号，上式的已知量有：和其中(j＝1...n)，而是待估计的源信号；

步骤4.2：两路量测信号的时频点是由各源信号叠加而成，并且源信号的相角各不相同；

保证附加的相角引起的时域信号的时延不影响人的听觉效果的前提下，对施加一个相移，并假设各源信号与相角一致，于是有：

\{\begin{matrix} S_{1}^{(k, t)} = d_{1}^{(k, t)} (λ_{1} * x_{1}^{(k, t)} + λ_{2} * x_{2}^{(k, t)}) \\ S_{2}^{(k, t)} = d_{2}^{(k, t)} (λ_{1} * x_{1}^{(k, t)} + λ_{2} * x_{2}^{(k, t)}) \\ . . . \\ S_{n}^{(k, t)} = d_{n}^{(k, t)} (λ_{1} * x_{1}^{(k, t)} + λ_{2} * x_{2}^{(k, t)}) \end{matrix}

步骤4.3：为了简便，我们后面将表示时频点的符号(k,t)省略掉，默认之后的处理都是针对一个时频点的，得到步骤1.2中方程等价于下式：

\{\begin{matrix} \frac{X_{1}}{(λ_{1} * x_{1} + λ_{2} * x_{2})} = a_{11} e^{- i 2 πk τ_{11} / K} d_{1} + a_{12} e^{- i 2 πk τ_{12} / K} d_{2} + . . . + a_{1 n} e^{- i 2 πk τ_{1 n} / K} d_{n} \\ \frac{X_{2}}{(λ_{1} * x_{1} + λ_{2} * x_{2})} = a_{21} e^{- 2 πk τ_{21} / K} d_{1} + a_{22} e^{- i 2 πk τ_{22} / K} d_{2} + . . . + a_{2 n} e^{- i 2 πk τ_{2 n} / K} d_{n} \end{matrix}

对于源信号的恢复问题就转化为对d₁,d₂...d_n的估计的问题；

步骤4.4：对步骤4.3方程组中两式相比得：

\frac{X_{1}}{X_{2}} = \frac{a_{11} e^{- i 2 πk τ_{11} / K} d_{1} + a_{12} e^{- i 2 πk τ_{12} / K} d_{2} + . . . + a_{1 n} e^{- i 2 πk τ_{1 n} / K} d_{n}}{a_{21} e^{- i 2 πk τ_{21} / K} d_{1} + a_{22} e^{- i 2 πk τ_{22} / K} d_{2} + . . . + a_{2 n} e^{- i 2 πk τ_{2 n} / K} d_{n}}

令：

r = \frac{X_{1}}{X_{2}}, R_{j} = \frac{a_{1 j}}{a_{2 j}} e^{- j \frac{2 πk (τ_{1 j} - τ_{2 j})}{K}}

其中(j＝1...n)

对R_j和r求差值，得△_j＝|r-R_j|,j∈(1...n)，△＝△₁+△₂+...△_n

对△_j,j∈(1...n)进行下述处理：

对于某时频点，令所有norm△_j值中最小值为0，其他norm△_j保持不变，

步骤4.5：设置一非线性减函数f(x)，使y＝0是该函数的渐进线，且在x＝1时，函数值已经很接近0。

将norm△_j带入减函数f(x)，令该减函数求得的值等于d_j，重建时频域的源信号：

S_j＝d_j*(λ₁*X₁+λ₂*X₂)

步骤4.6：对每一个时频点做这样的处理，并经反傅里叶变换和去窗效应来重建时域信号。

其中所述步骤2的具体步骤为：

步骤2.1：对接收到的两路量测信号的每一个时频点的傅里叶变换值求比值：

Q^{k} = \frac{X_{1}^{k}}{X_{2}^{k}}

步骤2.2：设u^k,v^k分别为Q^k的幅值和相位，计算出同一频点中各时点的幅值u_t和相位v_t，若满足：

\{\begin{matrix} | \max (u_{t}) - \min (u_{t}) | \leq e_{1} \\ | \max (v_{t}) - \min (v_{t}) | \leq e_{2} \end{matrix}, &Exists; (t, w) &Element; ([t_{1}, t_{2} . . . . . . t_{N}], w)

则该时频点为单源主导点，其中e₁，e₂为根据实测数据设定的阈值；

所述步骤3的具体步骤为：

步骤3.1：为方便描述设：

y^{k} = \frac{X_{1}^{k}}{X_{2}^{k}} = \frac{a_{1 l}}{a_{2 l}} e^{- i 2 πk (τ_{1 l} - τ_{2 l}) / K},

mag (y^{k}) = \frac{a_{1 l}}{a_{2 l}},

arg(y^k)＝-2πk(τ_1l-τ_2l)/K；

步骤3.2：计算两个麦克风对应单源主导点的幅值比mag(y^k)，

建立势函数：

Φ (A) = \underset{t}{Σ} F (A - mag (y^{k})),

其中：

其中，A为搜索变量，涵盖mag(y^k)的所有可能取值；

势函数的每个峰值对应一个信号源，由此确定信号源个数，通过寻找峰值所在位置确定该源信号的幅值比

步骤3.3：计算两个麦克风对应单元主导点的时延差τ₁-τ₂，

为方便叙述令τ＝τ₁-τ₂＝-K*arg(y^k)/(2πk)，

势函数

Φ (τ, λ) = \underset{t}{Σ} φ (λ (τ - τ (t))),

其中：

其中，τ(t)为搜索变量，它需涵盖τ的所有可能取值，λ是任意取的一个正整数值，

势函数的每一个峰值对应一个信号源的时延，通过寻找峰值所在的位置来得到信号源对应的时延差τ_l，通过该峰值的个数来确定信号源个数，若此时求得的信号源个数与步骤3.2中求的不一致，则重新调整步骤2.2中的阈值，或者以时延差势函数峰值数目为源信号数目来重建源信号；

步骤3.4：将得到的同一个源信号的幅值比和时延差一一对应：以时延差为参考，分别将对应不同时延差的单源点的幅值比取平均值，得到对应于时延差值的幅值比的平均值，再将此平均值和步骤3.2估计得到的值进行比较，并用对应的后者的值替换前者，从而将时延差和幅值比对应起来；

所述步骤4.5中设减函数(ρ,λ,p是一个无量纲的正实数)将norm△_j带入该减函数可得：

其中ρ，λ，p是三个无量纲的数，ρ控制恢复的源信号的幅度，λ，p在不同的层次控制恢复信号的信噪比。估计出d_j之后，便可重建时频域的源信号：

S_j＝d_j*(λ₁*X₁+λ₂*X₂)。

本发明在不影响重建源信号时域包络的情况下，对重建信号的各频率成分都增加一个小的附加相位，通过近似计算每个源信号对时频点的贡献大小来模拟它在这个时频点中所占的比例从而恢复源信号，避免了通常的解欠定方程组的过程，简化了计算步骤，达到了快速的目的。从而具有相对于现有算法，计算量小，源数增多情况下信噪比高的优点。

附图说明：

图1为本发明的流程图；

图2为4路源信号信号波形图；

图3为两路量测信号波形图；

图4为本发明重建的源信号波形图；

图5为最短路径法重建的源信号波形图。

具体实施方式：

本发明是通过在MATLAB R2008a上对含有4路源信号的两路量测信号进行分离处理来验证的。4路源信号分别来自4种不同的语言，且有两个男声两个女声，所取的量测信号长度为5.03s，采样率为10000hz。具体实施步骤如下所述：

步骤1：读取量测信号并变换至时频域。

对两路量测信号进行分帧，加窗，再做nfft点的傅里叶变换从而得到量测信号的时频域表示。

其中：分帧帧长frame_len＝512,帧移nmov＝256,fft变换点数nfft＝512,窗函数选择汉宁窗，表达式为：

步骤2：提取单源点。

将所有帧信号的同一频点4个一组进行分组(最后不足4个的单独做一组)，计算每组内时频点的幅值比的差值及相位差的差值的最大值，并依此判定该组时频点是否是本算法需要的单源主导点；能量非常小(ξ<0.1ξ_max,其中ξ表示时频点傅氏变换的平方)的时频点通常认为是噪声，也要将它去掉，从而得到最终的单源主导点。

步骤3：估计幅值比和时延差。

对单源主导点取幅值比和时延差，分别求解其势函数的值，并从中选择出对应的峰值的位置，从而得到每一个源对应的幅值比和时延差。

直接求解得到的两组值没有对应关系的。此时，以时延差为参考值，对单源点中时延差相同的时频点的幅值比进行统计分析，并与上文求解的幅值比一一对应。

步骤4：重建源信号

将估计得到的幅值比和相位差组合成Ae^j2πkτ/K(A为幅值比，τ为时延差)的形式，这是理想比值。计算每一个时频点傅氏变换比值和各个源信号的理想比值的差值并优化得到△_j，将差值带入减函数中得到d_j，此处取ρ＝1，λ＝4，p＝15。按照公式S_j＝d_j*(0.5*X₁+0.5*X₂)恢复每个时频点的源信号。

步骤5：恢复时域源信号

对重建的源信号做逆短时傅里叶变换，再去除窗效应即可得到重建的时域的源信号。

通过上面的步骤，就可以较快速的在仅有两路量测信号的情况下恢复出多路源信号，如图2.1和3.1所示，分别是源信号和本专利算法重建的源信号。图3.1和图3.2分别是本发明和“最短路径算法”重建的源信号波形图，明显后者恢复的源信号有很多毛刺(噪声)，本发明在重建源信号阶段仅用了1.3s左右，而相同条件下，后者至少需耗4s。而且通过对公式减函数(ρ,λ,p是一个无量纲的正实数)参数的调整，还可以提高重建信号信噪比和语音信号的质量。

Claims

1.一种双麦克风盲声源分离的快速源信号重建方法，该方法包括：

步骤2：接收两路量测信号,根据步骤1的数学模型,进行短时傅立叶变换,并选择出时频点中仅由一个源信号构成或占明显优势的单源主导点；

步骤4：重建各源信号，

步骤4.1：对两路量测信号的傅里叶变换求比值得到下式：

步骤4.4：对步骤4.3方程组中两式相比得：

令：其中(j＝1...n)

对△_j,j∈(1...n)进行下述处理：

S_j＝d_j*(λ₁*X₁+λ₂*X₂)

2.如权利要求1所述的一种双麦克风盲声源分离的快速源信号重建方法，其特征在于所述步骤2的具体步骤为：

则该时频点为单源主导点，其中e₁，e₂为根据实测数据设定的阈值。

3.如权利要求1所述的一种双麦克风盲声源分离的快速源信号重建方法，其特征在于所述步骤3的具体步骤为：