CN101982793A

CN101982793A - 一种基于立体声信号的移动音源定位方法

Info

Publication number: CN101982793A
Application number: CN 201010514924
Authority: CN
Inventors: 胡瑞敏; 王晓晨; 周成; 涂卫平; 黄勇; 董石; 刘进峰; 王松; 王国英; 高丽
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2010-10-20
Filing date: 2010-10-20
Publication date: 2011-03-02
Anticipated expiration: 2030-10-20
Also published as: CN101982793B

Abstract

本发明为一种基于立体声信号的移动音源定位方法，包括对立体声检测器两路时域信号进行预处理得到两路频域信号；利用两路频域信号计算各个频带的ITD和ILD测量；在各个音源位置对ITD和ILD测量分别进行学习，得到ITD频率对位置学习矩阵和ILD频率对位置学习矩阵；将所测得的ITD和ILD测量与所学习的矩阵分别进行比较，将得到的ITD和ILD概率分布矩阵进行组合，获得用于音源定位的联合概率分布；基于多普勒效应对用于音源定位的联合概率分布进行修正；应用信息论过程来提取音源位置的最佳预测。本发明针对移动音源所独有的多普勒效应对基于ITD和ILD的音源方位联合估计方法做出改进，可有效提升音源定位准确率。

Description

一种基于立体声信号的移动音源定位方法

技术领域

本发明属于声学技术领域，特别是涉及一种基于立体声信号的移动音源定位方法。

背景技术

听觉研究表明，在神经中枢对输入声信息进行整合时，对音源定位最重要的依据是两耳之间声音信号的差别，通常用空间线索ITD(耳间时间差)和ILD(耳间声级差)两个概念来描述这种差别。

从音源到达双耳的音源信号由于声波传输路程存在差异，从而产生到达双耳的时间偏移称为ITD(耳间时间差)，其提供了有关音源方位角位置信息。此外，诸如人头、躯干和耳廓的衍射、折射及共振效应等使得到达两检测器接收信号强度存在差异，称为ILD(耳间声级差)，ILD随着音源位置而系统变化，同样提供了音源方位角位置信息。

ITD和ILD以互补的方式工作，具体来说，对频率小于1.5kHz的低频信号ITD对定位起主要作用，而当频率大于1.5kHz时ILD对定位起主要作用。ILD对高频信号起主要作用是因为高频信号的衰减特性，在声源信号传至双耳的路径中，除了空气的吸收外，人的头部就相当于一个障碍物，高频信号将因此被衰减。当频率低于约1.5kHz时，声波波长大于人的头部宽度，声波将产生所谓的“头部衍射”而沿着头部表面弯曲，从而绕过了这一遮挡物，使得声音信号传到左耳的强度比右耳没有衰减或衰减很小，因此空间线索ILD的定位作用就很不明显了；ITD是基于频率特性而产生两耳信号时间上的差异，由于听觉系统所感知的其实是耳间的相位差IPD(Interaural Phase Differences)，所以ITD实际上通过IPD起作用，当信号频率小于1.5kHz时，由于其半波长大于两耳间的距离，所以人耳很容易感知这种相位差并判别其相对关系，而当频率大于1.5kHz时，其波长小于两耳间距，此时将会产生IPD判决模糊，人耳无法辨别信号相位从而导致ITD没有明显定位作用。

基于ITD和ILD音源定位互补特性，目前国际上通常基于ITD和ILD对音源方位进行联合估计，即基于音源位置、ITD和ILD间的相关先验知识，通过联合学习方法以实现音源方位定位，但这种方法只适用于静止音源，对于移动音源，当其以较快速度移动时由于多普勒效应的存在会使音源的接受频率发生变化，而ILD与频率紧密相关，一旦音源频率发声变化，原先的先验知识便不再适用，从而使对音源方位的估计产生偏差。因此目前本领域一个比较重要的问题是：如何针对移动音源设计相应的ITD和ILD联合音源定位修正方法，消除由于多普勒效应所带来的定位偏差问题。

发明内容

考虑到上述现有技术的已知解决方案的缺陷，本发明的目的是提供一种根据立体声信号进行移动音源定位的改进技术。

为实现上述目的，本发明的技术方案为一种基于立体声信号的移动音源定位方法，基于ITD测量和ILD测量实现移动音源定位，所述ITD测量和ILD测量获取方式为，对立体声检测器所生成的两路时域信号进行预处理，分别得到两路频域信号，利用两路频域信号分别计算各个频带的ITD测量和ILD测量；预先在各个已知的音源位置对ITD测量和ILD测量分别进行学习，得到ITD频率对位置矩阵和ILD频率对位置矩阵；在对特定时间步中的移动音源进行音源位置定位时，进行以下步骤，

步骤1，获取某特定时间步的ITD测量和ILD测量；

步骤2，将步骤1所得特定时间步的ITD测量和ITD频率对位置矩阵进行比较，将步骤1所得特定时间步的ILD测量与ILD频率对位置矩阵分别进行比较，从而针对各个频带获得音源位置的概率分布，分别构成ITD概率分布矩阵和ILD概率分布矩阵；

步骤3，将步骤2所得ITD概率分布矩阵和ILD概率分布矩阵进行组合，获得用于在该特定时间步进行音源位置定位的联合概率分布；

步骤4，基于多普勒效应对步骤3所得的联合概率分布进行修正，获得修正结果；

步骤5，应用信息论过程，根据步骤4所得对联合概率分布的修正结果，在该特定时间步提取对于音源位置的最佳估计。

而且，步骤3中，对ITD概率分布矩阵和ILD概率分布进行组合取决于音源位置参数。

而且，步骤4中，对联合概率分布的修正实现方式为，通过音源移动速度计算频率迁移量来修正用于音源定位的联合概率分布。

本发明技术方案使用信息论过程来产生可以与后续测量进行组合的预测，以改善基于时间的移动音源定位，并追踪并跟随移动音源。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的学习步骤设置示意图。

具体实施方式

下面以实施例结合附图对本发明的技术方案作进一步说明。

本发明实施例提供的方位角移动音源定位方法，参见附图1，包括以下步骤：

S1.1：双耳检测；

S1.2：预处理；

S1.3：计算ITD和ILD测量；

S1.4：基于ITD测量对频率对位置矩阵进行学习；

S1.5：基于ILD测量对频率对位置矩阵进行学习；

S1.6：ITD矩阵比较；

S1.7：ILD矩阵比较；

S1.8：将ITD和ILD概率分布矩阵进行组合；

S1.9：联合概率分布修正；

S1.10：位置估计。

学习和定位都要获取ITD和ILD测量，实施例通过S1.1、S1.2和S1.3实现。S1.1具体实施时，参见附图2，根据立体声检测器L0(即具有至少两个独立的声音传感器L1和L2)检测立体声信号1，来对音源位置S进行定位，得到立体声检测器所生成的两路时域信号。S1.2具体实施时，对立体声信号1的两路时域信号分别进行时-频变换，得到两路频域信号2。S1.3具体实施时，利用相关算法基于两路频域信号2对每个时间步的ITD测量3和ILD测量4进行计算。对于ITD，可以通过SSD(方差和)或标准相关系数等方法来计算点态比较；对于ILD，可以通过对频域信号的对数预处理之后计算绝对值范数的差来进行该运算。区别在于，学习过程所用的是不同已知音源位置的ITD和ILD测量结果；定位过程只知道特定时间步的ITD和ILD测量结果，该特定时间步中的未知音源位置需通过比较学习结果得到。

实施例的学习过程包括S1.4和S1.5。S1.4和S1.5具体实施时，对于不同的音源位置S，对ITD频率对位置矩阵和ILD频率对位置矩阵进行学习，通过监控的方式来进行学习而获得先验知识，这表示在学习过程中音源位置S是已知的。对ITD和ILD测量分别进行该学习步骤，并且得到ITD和ILD基准频率对位置矩阵，这些矩阵代表用于所有可能频率的特定位置S。附图2给出了实际中是如何学习的，以特定方位位置(如图2所示，实施例取不同方位角)来布置音源S，然后从音源S播放声音信号，并且计算频率对位置矩阵。对相同位置的所有矩阵(每个位置包括ITD矩阵和ILD矩阵2个矩阵)取均值，以获得通用的ITD频率对位置矩阵5和ILD频率对位置矩阵6，这是一种贝叶斯处理过程。对于所有选中的位置S进行此过程，在学习步骤中只需处理少数用于学习的离散位置，例如平均分布在方位角面上的离散位置。

在预先进行学习后，需要对某特定时间步中的移动音源定位，以获取未知的音源位置时，实施例的定位过程进行以下步骤：

S1.6和S1.7具体实施时，针对各个频道，将所测得的位置未知的音源的ITD测量3和ILD测量4与所学习的频率对位置矩阵5、6分别进行比较，以获取音源位置的ITD概率分布矩阵7和ILD概率分布矩阵8；

S1.8具体实施时，将ITD概率分布矩阵7和ILD概率分布矩阵8进一步进行组合，以获得用于音源定位的联合概率分布9。可以根据音源位置参数来进行ITD概率分布矩阵7和ILD概率分布矩阵8的组合，为实现此目的，将矩阵中的每一个概率分布解释为用于测量的条件概率，该条件概率以频率，提示(ITD/ILD)和位置为条件，即概率分布中包含3个变量——频率，ITD/ILD和音源位置；基于频率和提示的边缘化导致仅以位置为条件的概率；

S1.9具体实施时，可以根据音源在各个时间步角度的变化估计音源的移动速度，进而基于多普勒效应公式计算音源的频率迁移量，从而在用于音源定位的联合概率分布9中减去这部分频率迁移量的影响，得到修正结果，即修正联合概率分布10；

S1.10具体实施时，将信息理论过程应用于修正联合概率分布10，以提取对于音源位置的最佳估计，即音源方位角估计11。例如，可以使用贝叶斯方法来获取方位估计。为此，必须利用先验(即学习所得ITD频率对位置矩阵5和ILD频率对位置矩阵6)和当前用作似然性的概率分布10来计算后验。然后可以利用诸如MAP(最大后验)或MMSE(最小均方误差)的方法，根据后验来计算音源方位角估计11。

具体实施时，可以采用计算机软件技术实现以上步骤的自动执行，也可以按照音频技术领域以硬件装置形式提供实施应用。凡符合本发明所提供技术方案精神的情况，包括等同替换方案，都应当在本发明所要求保护范围内。

为便于实施参考起见，本发明提供采用贝叶斯处理具体实现过程如下：

学习过程

假定短时空间线索ITD构成一个随机过程，用随机矢量

(空间线索所在频带一定时间上的集合)对其进行描述，令Δ_T，b为Bark带b的ITD值(ITD测量)，B为最高Bark带，即b取值为1至B，则：

{\overset{&RightArrow;}{Δ}}_{T} = (Δ_{T, 1}, Δ_{T, 2}, . . ., Δ_{T, B}) - - - (1)

则ITD频率对位置矩阵为：

P_T，b(Δ_T，b|λ)(1≤b≤B)(2)

其中，λ标识方向(如图2所示音源位置S分别到声音传感器L1和L2所构成的方向角)，P用于标识概率，P_T，b是表示在各个频带b上的ITD测量概率。公式(2)表达的就是在每个频带上都有一个ITD的概率，共同构成概率矩阵。

假定短时空间线索ILD构成一个随机过程，用随机矢量

(空间线索所在频带一定时间上的集合)对其进行描述，令Δ_L，b为Bark带b的ILD值(ILD测量)，B为最高Bark带，则：

{\overset{&RightArrow;}{Δ}}_{L} = (Δ_{L, 1}, Δ_{L, 2}, . . ., Δ_{L, B}) - - - (3)

则ILD频率对位置矩阵为：

P_L，b(Δ_L，b|λ)(1≤b≤B)(4)

其中，P_L，b是表示在各个频带b上的ILD测量概率。

定位过程

的概率密度函数基于统计音源在各个方向的空间线索而得。定义λ方向的概率密度函数为假设

的各个部分是统计独立的，则ITD概率密度(ITD概率分布矩阵)为：

P ({\overset{&RightArrow;}{Δ}}_{T} | λ) = Π_{b = 1}^{B} P_{T, b} (Δ_{T, b} | λ) - - - (5)

的概率密度函数基于统计音源在各个方向的空间线索而得。定义λ方向的概率密度函数为

假设

的各个部分是统计独立的，则ILD概率密度(ILD概率分布矩阵)为：

P ({\overset{&RightArrow;}{Δ}}_{L} | λ) = Π_{b = 1}^{B} P_{L, b} (Δ_{L, b} | λ) - - - (6)

则联合概率密度为：

P (\overset{&RightArrow;}{Δ} | λ) = P ({\overset{&RightArrow;}{Δ}}_{T} | λ) P ({\overset{&RightArrow;}{Δ}}_{L} | λ) = Π_{b = 1}^{B} P_{T, b} (Δ_{T, b} | λ) Π_{b = 1}^{B} P_{L, b} (Δ_{L, b} | λ) - - - (7)

考虑到频度对于空间线索ITD和ILD影响程度的不同，针对移动音源，对联合概率密度计算方法进行如下修正，以去除频率对空间线索ILD的影响：

P (\overset{&RightArrow;}{Δ} | λ) = Π_{b = 1}^{B} P_{T, b} (Δ_{T, b} | λ) Π_{b = 1 - Δ_{Doppler}}^{B - Δ_{Doppler}} P_{L, b} (Δ_{L, b} | λ) - - - (8)

其中，Δ_Doppler为多普勒效应带来的频率改变。

根据信息论观点，通过空间线索来获取方向信息可描述为贝叶斯最大后验概率似然估计，根据贝叶斯公式，在各个方向λ的条件概率密度为：

P (λ | \overset{&RightArrow;}{Δ}) = \frac{P (\overset{&RightArrow;}{Δ} | λ) P (λ)}{Σ_{λ = 1}^{N_{λ}} P (\overset{&RightArrow;}{Δ} | λ) P (λ)} - - - (9)

其中N_λ为最大方向数。根据前面的联合概率密度计算方法，并假设所有的方向λ都具有相同的可能性，则：

P (λ | \overset{&RightArrow;}{Δ}) = \frac{Π_{b = 1}^{B} P_{T, b} (Δ_{T, b} | λ) Π_{b = 1 - Δ_{Doppler}}^{{B - Δ}_{Doppler}} P_{L, b} (Δ_{L, b} | λ)}{Σ_{λ = 1}^{N_{λ}} Π_{b = 1}^{B} P_{T, b} (Δ_{T, b} | λ) Π_{b = 1 - Δ_{Doppler}}^{B - Δ_{Doppler}} P_{L, b} (Δ_{L, b} | λ)} - - - (10)

最终，方向的选择为条件后验概率最大的方向

\hat{λ} = \underset{λ &Element; [1, . . ., N_{λ}]}{\arg \max} P (λ | \overset{&RightArrow;}{Δ}) - - - (11)

条件后验概率最大的方向即最佳估计结果。

Claims

1.一种基于立体声信号的移动音源定位方法，其特征在于：基于ITD测量和ILD测量实现移动音源定位，所述ITD测量和ILD测量获取方式为，对立体声检测器所生成的两路时域信号进行预处理，分别得到两路频域信号，利用两路频域信号分别计算各个频带的ITD测量和ILD测量；预先在各个已知的音源位置对ITD测量和ILD测量分别进行学习，得到ITD频率对位置矩阵和ILD频率对位置矩阵；在对特定时间步中的移动音源进行音源位置定位时，进行以下步骤，

步骤1，获取某特定时间步的ITD测量和ILD测量；

2.根据权利要求1所述的移动音源定位方法，其特征在于：步骤3中，对ITD概率分布矩阵和ILD概率分布进行组合取决于音源位置参数。

3.根据权利要求1或2所述的移动音源定位方法，其特征在于：步骤4中，对联合概率分布的修正实现方式为，通过音源移动速度计算频率迁移量来修正用于音源定位的联合概率分布。