CN104200813B

CN104200813B - 基于声源方向实时预测跟踪的动态盲信号分离方法

Info

Publication number: CN104200813B
Application number: CN201410310400.2A
Authority: CN
Inventors: 王�义; 魏阳杰; 陈瑶; 关楠
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2014-07-01
Filing date: 2014-07-01
Publication date: 2017-05-10
Anticipated expiration: 2034-07-01
Also published as: CN104200813A

Abstract

本发明提出了一种基于声源方向实时预测跟踪的动态盲信号分离方法，该方法根据上一个时间段的信号特征自动预测下一个时间段的信号方向，并且，根据信号在时间上的连续性进行自我纠正；然后，根据预测的信号方向对麦克风阵列接受信号的强度矢量进行筛选，实现动态信号分离，通过简单的预测算法对声音源信号的位置进行实时预测，从而简化了原本复杂的声源定位过程，为算法节约了时间开销，并且算法简单，容易实现，预测效果也不错，因此可以保证得到不错的分离效果，并且由于加入了分帧操作，分离结果保持了信号在时间上的连续性，不易受突发噪声的影响。

Description

基于声源方向实时预测跟踪的动态盲信号分离方法

技术领域

本发明属于信号处理技术领域，具体涉及一种基于声源方向实时预测跟踪的动态盲信号分离方法。

背景技术

盲信号分离是指在没有任何关于声音源数量和位置信息的前提下,自动将混合声音信号中的各个独立信号分离出来的技术。目前,常用的声音信号分离方法主要包括：随机方法、自适应方法和确定方法。

随机方法用于信号分离需要假设各源信号在统计学上是独立的，它们的分离质量只与信号本身的特性有关。然而，实际应用中混合的声音信号往往卷积在一起，因此，这个假设是很难满足的。另外，随机方法在分离过程中有大量的迭代过程，时间开销大,很难在实时系统中应用。自适应方法根据信号特征优化分离滤波器的结构，从而在空间上抑制干扰信号、强化捕捉目标信号。但是，自适应算法很可能收敛到一个局部最优点，而且该方法在反射环境下的分离结果并不理想。与这两种算法不同，确定性方法不需要关于信号源的任何前提假设，仅仅根据信号本身的决定性特征进行信号分离，例如：方向、环境反射等。但是，当前的确定性信号分离方法都需要对混合信号进行预处理，即：借用其他算法的辅助得到信号源的数目和方向，分离方法本身不能对信号的这些确定性特征进行自动计算。所以,不仅算法的计算量大，而且，分离的质量也直接受预处理算法的影响。尤其是当信号持续时间长或者信号源相对于声音传感器不断运动时，连续时间段的信号方向计算完全是孤立的，忽略了信号在时间上的连续性，从而很难对随机噪声进行排除。因此，当前的很多确定性信号分离方法并不是严格意义上的盲信号分离技术，而且，分离速度慢、精度低、缺乏连续性。

发明内容

针对现有方法存在的不足，本发明提出了一种基于声源方向实时预测跟踪的动态盲信号分离方法，该方法根据上一个时间段的信号特征自动预测下一个时间段的信号方向，并根据信号在时间上的连续性进行自我纠正；再根据预测的信号方向对麦克风阵列接受信号的强度矢量进行筛选，实现动态信号分离，达到提高效率，简化算法的目的。

本发明的技术方案是：

一种基于声源方向实时预测跟踪的动态盲信号分离方法，包括以下步骤：

步骤1、采用由M个麦克风组成的麦克风阵列接收环境中的N个人的混合声音信号，根据设定的处理周期对混合声音信号进行分段，并根据处理周期的长度获得每一段内的采样点个数；

步骤2、在每一个处理周期内，将M个麦克风采集到的M个混合声音信号的所有采样点的幅值进行矩阵化，进而获得混合声音信号矩阵，并计算该矩阵的秩，即获得混合声音信号的个数N；上述混合声音信号矩阵的行数为麦克风个数M，列数为每个处理周期内采样点个数，矩阵中元素为每个采样点的幅值；

步骤3、获得的麦克风阵列声压、麦克风阵列水平方向声压梯度、麦克风阵列垂直方向的声压梯度，并计算出频域内麦克风阵列接收到的混合声音的声压信号强度矢量方向，将其代入冯米修斯分布中，计算每个角度的声压信号分布情况，获得每个角度混合声音信号能量的均方差波形，并将每个角度对应的波形进行叠加获得合成波形，确定所需峰值对应的角度，即获得N个独立声音信号对于麦克风阵列中心的初始入射角度，进而获得该角度对应的信号即为分离后的独立声音信号；

具体过程如下：

步骤3-1、根据声音源信号、麦克风对于阵列中心的方向角度、声音源的波束到达方向和麦克风阵列中心声压获得的麦克风阵列声压、麦克风阵列水平方向声压梯度、麦克风阵列垂直方向的声压梯度；

步骤3-2、将获得的时域内麦克风阵列声压、麦克风阵列水平方向声压梯度、麦克风阵列垂直方向的声压梯度，通过傅里叶变换，获得频域内的麦克风阵列声压、麦克风阵列水平方向声压梯度、麦克风阵列垂直方向的声压梯度；

步骤3-3、根据频域内麦克风阵列声压、频域内的麦克风阵列水平方向声压梯度、频域内的麦克风阵列垂直方向声压梯度计算出频域内麦克风阵列接收到的混合声音的声压信号的强度矢量方向；

步骤3-4、将获得的声压信号的强度矢量方向代入冯米修斯分布中，计算每个角度的声压信号分布情况，公式如下：

其中，γ(ω)表示麦克风阵列接收到的混合声音的声压信号的强度矢量方向；

μ表示声压信号的强度矢量方向服从的单一冯米修斯分布对应的均值，即每个独立声音信号对麦克风阵列中心的入射角度；

I₀(k)表示一阶修正贝塞尔函数；

k表示声压信号的强度矢量方向服从的单一冯米修斯分布对应的浓度参数，即冯米修斯分布的方差的倒数；

步骤3-5、将声音信号对麦克风阵列中心的入射角度从1°到360°，以1°为公差，从小到大依次取值，根据每个角度对应的冯米修斯分布函数和频域内麦克风阵列声压，计算出每个角度对应的频域内的独立声音信号，将得到的频域内独立声音信号经过反傅里叶变换转换成时域独立声音信号，并计算每个角度独立声音信号能量的均方差；

将1°～360°的每个角度依次代入公式(1)中，获得每个角度对应的冯米修斯分布函数，进而得到每个方向的声音信号，计算公式如下：

其中，表示经过分离后得到的频域内所有角度对应的独立声音信号矩阵；

将得到的频域内所有角度对应的独立声音信号矩阵经过反傅里叶变换转换到时域内，并计算每个角度信号能量的均方差，计算公式如下：

其中，RMS表示每个角度混合声音信号对应的能量的均方差；

表示由经过反傅里叶变换转换成的时域内所有角度对应的独立声音信号矩阵；

L表示为处理周期；

步骤3-6、由所有角度对应的独立声音信号能量均方差组成混合信号的能量均方差分布波形，将波形的峰值由大到小进行排序，取其前N个峰值，进而获得上述峰值对应的角度，其对应的角度即为N个独立声音信号对于麦克风阵列中心的初始入射角度，根据步骤3-5获得该角度对应的信号即为分离后的独立声音信号；

步骤4、根据每个独立声音信号对于麦克风阵列中心的初始入射角度，采用卡尔曼滤波算法对第一处理周期之后的其他处理周期内的各独立声音信号的运动方向进行预测；

具体过程如下：

步骤4-1、根据获得的N个独立声音信号相对于麦克风阵列的初始入射角度及其角速度，获得下一处理周期内N个独立声音信号相对于麦克风阵列的入射角度向量的预测估计值；

计算公式如下：

其中，表示第k个处理周期独立声音信号角度向量预测估计值；

表示表示第k-1个处理周期独立声音信号角度向量准确估计值，初始时，表示第一处理周期的角度向量，k＝2，α_k-1表示各个独立声音信号对于麦克风阵列中心的初始入射角度，α′_k-1表示各个独立声音信号相对于麦克风阵列的初始入射角速度，[·]^T为对中括号中的矩阵转置；A为状态转移矩阵，

步骤4-2、对获得的下一处理周期内，独立声音信号相对于麦克风阵列中心的入射角度向量的估计值进行修正，获得上述入射角度向量的准确估计值；

计算公式如下：

其中，表示第k个处理周期独立声音信号角度向量准确估计值；

K_k表示卡尔曼增益，根据实际情况需求设定P_k-1的初始值；P_k为第k个处理周期的角度向量误差的协方差，I为单位矩阵；为第k个处理周期的角度向量的估计值误差的协方差，A′为A的转置；Q为过程噪声的协方差，Q＝E(w_k ²)，w_k为第k个处理周期的系统噪声；

H为测量矩阵，H′为矩阵H的转置，R为测量噪声的协方差，R＝E(υ_k ²)，υ_k为第k个处理周期的测量噪声，(·)^-1为对括号中的矩阵求逆矩阵；

y_k表示系统测量值，y_k的取值方法为：在第k个处理周期独立声音信号相对于麦克风阵列的入射角度估计值的-10°～+10°范围内，搜索查找RMS最大值所对应的角度，该角度即为y_k的取值；

步骤4-3、根据预测获得的下一处理周期各个独立声音信号相对于麦克风阵列的入射角度准确值，结合步骤3-5确定该角度所对应的声音源分离信号；

步骤4-4、反复执行步骤4-1至步骤4-3，直至获得所有处理周期内各声音源的预测分离信号；

步骤5、将各处理周期内的各声音源分离信号进行连接，获得时域内各声音源完整的分离信号。

步骤3-1所述的获得的麦克风阵列声压、麦克风阵列水平方向声压梯度、麦克风阵列垂直方向的声压梯度，计算公式如下：

计算麦克风阵列声压p_w(t)公式为：

其中，s_n(t)为第n个声音源信号；

p₀(t)表示t时刻由声波造成的麦克风阵列中心声压；

a_m(θ_n(t))表示在t时刻第m个麦克风关于第n个声音源的导向矢量；

j表示虚数单位；

k＝2π/λ，λ表示混合音频信号的波长；

d_m表示第m个麦克风与阵列中心的距离；

θ_n(t)表示t时刻第n个声音源的波束到达方向；

M表示麦克风个数；

N表示声音源的个数；

计算麦克风阵列水平方向声压梯度p_x(t)公式如下：

其中，表示第m个麦克风对于阵列中心的方向角度；

计算麦克风阵列垂直方向的声压梯度p_y(t)公式如下：

步骤3-3所述的计算出频域内麦克风阵列接收到的混合声音的声压信号的强度矢量方向，计算混合声音的声压信号强度矢量方向公式如下：

其中，Re[·]表示取复数实部；

表示频域内的麦克风阵列声压的共轭矩阵；

p_x(ω)表示频域内的麦克风阵列水平方向声压梯度；

p_y(ω)表示频域内的麦克风阵列垂直方向声压梯度；

ω表示频率单位，即弧度/采样点。

本发明优点：

本发明一种基于声源方向实时预测跟踪的动态盲信号分离方法，该发明通过简单的预测算法对声音源信号的位置进行实时预测，从而简化了原本复杂的声源定位过程，为算法节约了时间开销，并且算法简单，容易实现，预测效果也不错，因此可以保证得到不错的分离效果，并且由于加入了分帧操作，分离结果保持了信号在时间上的连续性，不易受突发噪声的影响。

附图说明

图1为本发明一种实施例的基于声源方向实时预测跟踪的动态盲信号分离方法流程图；

图2为本发明一种实施例的麦克风阵列示意图；

图3为本发明一种实施例的用于声音混合的声音源数据示意图，其中，图(a)表示第一个声音源的数据示意图，图(b)表示第二个声音源的数据示意图，图(c)表示第三个声音源的数据示意图；

图4为本发明一种实施例的每个角度对应的信号能量均方差的合成波形图；

图5为本发明一种实施例的声源角度的预测值与真实值的对比图，其中，图(a)为第一个声音源的角度预测值与真实值的对比图；图(b)为第二个声音源的角度预测值与真实值的对比图；图(c)为第三个声音源的角度预测值与真实值的对比图；

图6为本发明一种实施例的分离后得到的三个独立声音源数据示意图，其中，图(a)表示分离后得到的第一个声音源的数据示意图，图(b)表示分离后得到的第二个声音源的数据示意图，图(c)表示分离后得到的第三个声音源的数据示意图。

具体实施方法

下面结合附图对本发明做进一步分析说明。

本发明基于声源方向实时预测跟踪的动态盲信号分离方法，方法流程图如图1所示，具体方法如下：

步骤1、在本实施例中，采用如图2所示由4个麦克风组成的麦克风阵列接收环境中的3个人的混合声音信号，图3中图(a)至图(c)所示，即为该三个人的声音原信号；根据设定的处理周期对混合声音信号进行分段，并根据处理周期的长度获得每一段内的采样点个数，本发明实施例中，初始时，3个声音源相对于麦克风阵列中心分别位于[50°，200°，300°]的位置，对混合声音信号的处理采用分帧的方式进行分段，麦克风采样频率为12500Hz，帧长取4000，即处理周期长度，一个处理周期内有4000个采样点，帧移3000。

图2中，p₁为第一个麦克风的声压，p₂为第二个麦克风的声压，p₃为第三个麦克风的声压，p₄为第四个麦克风的声压，d为这四个麦克风中心距离麦克风阵列中心的距离。

步骤2、在每一个处理周期内，将4个麦克风采集到的3个混合声音信号的所有采样点的幅值进行矩阵化，进而获得混合声音信号矩阵，并计算该矩阵的秩，即获得混合声音信号的个数3；上述混合声音信号矩阵的行数为麦克风个数4，列数为每个处理周期内采样点个数4000，矩阵中元素为每个采样点的幅值；

步骤3、获得的麦克风阵列声压、麦克风阵列水平方向声压梯度、麦克风阵列垂直方向的声压梯度，并计算出频域内麦克风阵列接收到的混合声音的声压信号强度矢量方向，将其代入冯米修斯分布中，计算每个角度的声压信号分布情况，获得每个角度混合声音信号能量的均方差波形，并将每个角度对应的波形进行叠加获得合成波形，确定所需峰值对应的角度，即获得3个独立声音信号对于麦克风阵列中心的初始入射角度，进而获得该角度对应的信号即为分离后的独立声音信号；

具体过程如下：

计算麦克风阵列声压p_w(t)公式为：

其中，s_n(t)为第n个声音源信号；

p₀(t)表示t时刻由声波造成的麦克风阵列中心声压；

j表示虚数单位；

k＝2π/λ，λ表示混合音频信号的波长；

d_m表示第m个麦克风与阵列中心的距离；

表示第m个麦克风对于阵列中心的方向角度，实例中4个麦克风对应的角度分别为[0°,180°,90°,270°]；

θ_n(t)表示t时刻第n个声音源的波束到达方向；

M表示麦克风个数；

N表示声音源的个数；

计算麦克风阵列水平方向声压梯度p_x(t)公式如下：

计算麦克风阵列垂直方向的声压梯度p_y(t)公式如下：

计算混合声音的声压信号强度矢量方向公式如下：

Re[·]表示取复数实部；

表示频域内的麦克风阵列声压的共轭矩阵；

p_x(ω)表示频域内的麦克风阵列水平方向声压梯度；

p_y(ω)表示频域内的麦克风阵列垂直方向声压梯度；

ω表示频率单位，即弧度/采样点；

其中，μ表示声压信号的强度矢量方向服从的单一冯米修斯分布对应的均值，即每个独立声音信号对麦克风阵列中心的入射角度；

I₀(k)表示一阶修正贝塞尔函数；

将1°～360°的每个角度依次代入公式(16)中，获得每个角度对应的冯米修斯分布函数，进而得到每个方向的声音信号，计算公式如下：

其中，RMS表示每个角度混合声音信号对应的能量的均方差；

L表示为处理周期；

步骤3-6、由所有角度对应的独立声音信号能量均方差组成混合信号的能量均方差分布波形，如图4所示，将波形的峰值由大到小进行排序，取其前3个峰值，进而获得上述峰值对应的角度[48°，200°，301°]，其对应的角度即为3个独立声音信号对于麦克风阵列中心的初始入射角度，根据步骤3-5获得该角度对应的信号即为分离后的独立声音信号；

具体过程如下：

步骤4-1、根据获得的3个独立声音信号相对于麦克风阵列的初始入射角度及其角速度，获得下一处理周期内3个独立声音信号相对于麦克风阵列的入射角度向量的估计值；

计算公式如下：

表示表示第k-1个处理周期独立声音信号角度向量准确估计值，初始时，表示第一处理周期的角度向量，k＝2，α_k-1表示各个独立声音信号对于麦克风阵列中心的初始入射角度[48°，200°，301°]，α′_k-1表示各个独立声音信号相对于麦克风阵列的初始入射角速度，此时随机给定3个数值[2,3,2]，[·]^T为对中括号中的矩阵转置；A为状态转移矩阵，

步骤4-2、对获得的下一处理周期内，独立声音信号相对于麦克风阵列中心的入射角度向量的估计值进行修正，获得上述入射角度向量估计值的准确值；

计算公式如下：

K_k表示卡尔曼增益，根据实际情况需求设定P_k-1的初始值[10，10，10]；P_k为第k个处理周期的角度向量误差的协方差，I为单位矩阵；为第k个处理周期的角度向量的估计值误差的协方差，A′为A的转置；Q为过程噪声的协方差，Q＝E(w_k ²)，w_k为第k个处理周期的系统噪声；

y_k表示系统测量值[50°，201°，300°]，y_k的取值方法为：在第k个处理周期独立声音信号相对于麦克风阵列的入射角度估计值的-10°～+10°范围内，搜索查找RMS最大值所对应的角度，该角度即为y_k的取值；

步骤4-4、反复执行步骤4-1至步骤4-3，直至获得所有处理周期内各声音源的预测分离信号；图5中图(a)至图(c)所示即为预测角度与真实角度的对比，真实情况下,第一个声音源的角度以每帧2°在增加，第二个声音源的角度以每帧3°在增加，第三个声音源的角度始终不变；通过对比可以看出声源方向角度的预测结果相当不错，误差不超过2度；

步骤5、将各处理周期内的各声音源分离信号进行连接，获得时域内各声音源完整的分离信号，，如图6中图(a)至图(c)所示即为分离后得到的3个独立信号，计算分离得到信号的信号干扰比，得到三个信干比值分别为[18.95dB，16.31dB，16.69dB]，盲分离的信号干扰比大于15dB即认为分离效果不错。

Claims

1.一种基于声源方向实时预测跟踪的动态盲信号分离方法，其特征在于，包括以下步骤：

具体过程如下：

f (γ (ω); μ, k) = \frac{e^{k c o s (γ (ω) - μ)}}{2 {πI}_{0} (k)} - - - (1)

I₀(k)表示一阶修正贝塞尔函数；

其中，p_w(ω)表示频域内麦克风阵列声压，表示经过分离后得到的频域内所有角度对应的独立声音信号矩阵；

R M S = \sqrt{\frac{{[\tilde{s} (t)]}^{2}}{L}} - - - (3)

其中，RMS表示每个角度混合声音信号对应的能量的均方差；

L表示为处理周期；

具体过程如下：

计算公式如下：

{\overset{&OverBar;}{x}}_{k} = A {\hat{x}}_{k - 1} - - - (4)

表示第k-1个处理周期独立声音信号角度向量准确估计值，初始时，表示第一处理周期的角度向量，k＝2，α_k-1表示各个独立声音信号对于麦克风阵列中心的初始入射角度，α′_k-1表示各个独立声音信号相对于麦克风阵列的初始入射角速度，为对中括号中的矩阵转置；A为状态转移矩阵，

计算公式如下：

{\hat{x}}_{k} = {\overset{&OverBar;}{x}}_{k} + K_{k} (y_{k} - H {\overset{&OverBar;}{x}}_{k}) - - - (5)

K_k表示卡尔曼增益，根据实际情况需求设定P_k-1的初始值；P_k为第k个处理周期的角度向量误差的协方差，I为单位矩阵；为第k个处理周期的角度向量的估计值误差的协方差，A′为A的转置；Q为过程噪声的协方差，w_k为第k个处理周期的系统噪声；

H为测量矩阵，H′为矩阵H的转置，R为测量噪声的协方差，R＝E(v_k ²)，v_k为第k个处理周期的测量噪声，为对括号中的矩阵求逆矩阵；

2.根据权利要求1所述的基于声源方向实时预测跟踪的动态盲信号分离方法，其特征在于，步骤3-1所述的获得的麦克风阵列声压、麦克风阵列水平方向声压梯度、麦克风阵列垂直方向的声压梯度，计算公式如下：

计算麦克风阵列声压p_w(t)公式为：

p_{w} (t) = 0.5 Σ_{m = 1}^{M} Σ_{n = 1}^{N} p_{0} (t) a_{m} (θ_{n} (t)) s_{n} (t) - - - (6)

其中，s_n(t)为t时刻第n个声音源信号；

p₀(t)表示t时刻由声波造成的麦克风阵列中心声压；

j表示虚数单位；

k＝2π/λ，λ表示混合音频信号的波长；

d_m表示第m个麦克风与阵列中心的距离；

θ_n(t)表示t时刻第n个声音源的波束到达方向；

M表示麦克风个数；

N表示声音源的个数；

计算麦克风阵列水平方向声压梯度p_x(t)公式如下：

其中，表示第m个麦克风对于阵列中心的方向角度；

计算麦克风阵列垂直方向的声压梯度p_y(t)公式如下：

3.根据权利要求1所述的基于声源方向实时预测跟踪的动态盲信号分离方法，其特征在于，步骤3-3所述的计算出频域内麦克风阵列接收到的混合声音的声压信号的强度矢量方向，

计算混合声音的声压信号强度矢量方向公式如下：

γ (ω) = \tan^{- 1} [\frac{Re {p_{w}^{*} (ω) p_{y} (ω)}}{Re {p_{w}^{*} (ω) p_{x} (ω)}}] - - - (10)

其中，

Re[·]表示取复数实部；

表示频域内的麦克风阵列声压的共轭矩阵；

p_x(ω)表示频域内的麦克风阵列水平方向声压梯度；

p_y(ω)表示频域内的麦克风阵列垂直方向声压梯度；

ω表示频率单位，即弧度/采样点。