CN106501772A

CN106501772A - 一种基于双耳线索的空间音源定位方法及系统

Info

Publication number: CN106501772A
Application number: CN201610908803.6A
Authority: CN
Inventors: 王恒; 张聪; 郭峰林
Original assignee: Wuhan Polytechnic University
Current assignee: Wuhan Polytechnic University
Priority date: 2016-10-18
Filing date: 2016-10-18
Publication date: 2017-03-15
Anticipated expiration: 2036-10-18
Also published as: CN106501772B

Abstract

本发明提出一种基于双耳线索的空间音源定位方法及系统，包括通过两个麦克风对空间声音信号进行录音，对录制信号进行降噪处理，确定声源类型；对降噪后的信号进行时频变换和频带划分处理，得到三个频带，分别为中低频、中高频和高频；对三个频带分别提取双耳线索参数；对各频带分别确定参数组合，包括在中低频选择ITD和IC参数，在中高频和高频选择ILD和IC参数；根据所选参数的参数值，确定各频带相应的声源方位及大小；根据声源类型和各频带的方位和大小估计原始声源方位和大小。本发明实时获取声源的空间方位及其大小，为安防监控和机器人等领域在非可见区域提供可靠的发声物体的定位技术方案。

Description

一种基于双耳线索的空间音源定位方法及系统

技术领域

本发明属于声学处理领域，特别涉及一种基于双耳线索的空间音源定位方法及系统。

背景技术

在安防监控的应用中，要随时捕抓突发事件的发生，而只有及时准确的获得周围的有用信息，做出准确的判断，才能采取快速有效的应急措施。

传统安防应用中主要是依赖监控影像内容来判断，这需要有专门的人员对各个监控点进行查看，而且无法察觉到在监控范围以外发生的突发事件。理想情况是，在无人职守、专业人员闭目养神、监控盲点等的情况下，能够自动实现对突发事件的预警，相关监控人员可快速定位事件发生方位、初步判断事件发生的主体等信息，再通过监控影像进行查看验证，从而做到尽量不遗漏任何发生的突发事件。同时在应急措施执行方面，对存在的危险状况的快速传递也不可或缺。如在事故发生现场，应急措施首先通过广播等方式快速传递，以免在相关处理人员到达现场前发生更大的无谓损失。通过及时判断，才能及时采取应急措施，但是目前尚没有相关技术方案出现。

发明内容

本发明针对现有技术及设备的不足，提供了一种基于双耳线索的空间音源定位方法及系统。

本发明的技术方案提供一种基于双耳线索的空间音源定位方法，包括以下步骤，

步骤1，通过两个麦克风对空间声音信号进行录音，对录制信号进行降噪处理，确定声源类型；

步骤2，对降噪后的信号进行时频变换和频带划分处理，得到三个频带，分别为中低频、中高频和高频；

步骤3，对三个频带分别提取双耳线索参数，包括双耳强度差、双耳时间差以及双耳相关性；

步骤4，对各频带分别确定参数组合，包括在中低频选择ITD和IC参数，在中高频和高频选择ILD和IC参数；

步骤5，根据步骤4所选参数的参数值，确定各频带相应的声源方位及大小，得到低频、中高频、高频带相应水平角α₁、α₂、α₃，对应的声源大小分别为β₁、β₂、β₃；

步骤6，根据声源类型和各频带的方位和大小估计原始声源方位和大小，实现方式如下，

设估计得到的原始声源水平角为α，对应的声源大小分别为β，则声源的最终方位和大小计算如下，

α＝(α₁N₁+α₂N₂+α₃N₃)/3

β＝(β₁N₁+β₂N₂+β₃N₃)/3

其中，权值N₁、N₂、N₃计算方式如下，

设n₁、n₂、n₃表示声源在三个频带覆盖的子频带个数，

其中，i＝1、2、3。

而且，频带划分处理方式为，1.5kHz以下部分为中低频区，1.5～6kHz部分为中高频，6kHz以上部分为高频。

而且，步骤5中，通过参照预设的查找表进行查表，或者根据预设的函数关系计算，确定各频带相应的声源方位及大小。

上述方法用于根据估计原始声源方位和大小，控制安防摄像头向声源转动，并根据声源大小调整焦距。

本发明相应提出一种基于双耳线索的空间音源定位系统，包括以下模块，

第一模块，用于通过两个麦克风对空间声音信号进行录音，对录制信号进行降噪处理，确定声源类型；

第二模块，用于对降噪后的信号进行时频变换和频带划分处理，得到三个频带，分别为中低频、中高频和高频；

第三模块，用于对三个频带分别提取双耳线索参数，包括双耳强度差、双耳时间差以及双耳相关性；

第四模块，用于对各频带分别确定参数组合，包括在中低频选择ITD和IC参数，在中高频和高频选择ILD和IC参数；

第五模块，用于根据第四模块所选参数的参数值，确定各频带相应的声源方位及大小，得到低频、中高频、高频带相应水平角α₁、α₂、α₃，对应的声源大小分别为β₁、β₂、β₃；

第六模块，用于根据声源类型和各频带的方位和大小估计原始声源方位和大小，实现方式如下，

α＝(α₁N₁+α₂N₂+α₃N₃)/3

β＝(β₁N₁+β₂N₂+β₃N₃)/3

其中，权值N₁、N₂、N₃计算方式如下，

设n₁、n₂、n₃表示声源在三个频带覆盖的子频带个数，

其中，i＝1、2、3。

而且，频带划分处理方式为，1.5kHz以下部分为中低频，1.5～6kHz部分为中高频，6kHz以上部分为高频。

而且，第五模块中，通过参照预设的查找表进行查表，或者根据预设的函数关系计算，确定各频带相应的声源方位及大小。

上述系统用于根据估计原始声源方位和大小，控制安防摄像头向声源转动，并根据声源大小调整焦距。

采用本发明提供的三维空间音源定位技术方案，能实时获取声源在场景内的空间方位及其大小，为安防监控和机器人等领域在非可见区域提供可靠的发声物体的定位技术方案，能够预防风险，降低损失，具有重要的市场价值。

附图说明

图1为本发明的方法流程图。

具体实施方式

以下结合附图和实施例对本发明技术方案进行详细说明。

本发明的实施例包含以下步骤：

步骤1，通过两个麦克风对空间声音信号进行录音，对录制信号进行降噪处理，确定声源的类型；

先将录制信号进行降噪处理，以消除录制设备和环境中的本底噪声。对录制的信号进行声源类型检测，如静音，则无发声源，不用进行以下步骤；如有声源发声，则需检测声源类型，如人声，枪声，汽车声等等，再进入以下步骤。各种声音信号的频率范围已经有大量的统计结果，具体实施时，可以根据各种声音信号的频率范围、能量变化趋势等实现声源类型检测。

步骤2，对降噪后的信号进行时频变换和频带划分处理；

对降噪后的信号先进行时频变换，再将音频信号的频谱进行频带划分，本实施例中将频带划分为三部分，1.5kHz以下部分的中低频，1.5～6kHz部分的中高频，6kHz以上部分的高频。

现有技术的常规划分方法是按照人感知特性划分为24个子频带，具体划分如下：

本发明是由于ILD在1.5kHz以上起主要作用，ITD在1.5kHz以下起主要作用，因此提出对这些子频带进行合并处理，优选方案为：第一个频带合并前十个子频带，第二个合并中间九个子频带，最后五个子频带作为一个频带。

步骤3，对各频带提取双耳线索参数，包括双耳强度差，双耳时间差以及双耳相关性；

对录制信号的每个子带进行双耳线索提取。三个线索参数计算方法很多，优选地，本实施例采用如下方式计算：

(1)双耳强度差ILD线索的提取

ILD定义为两个麦克风录制信号对应子带的能量比。计算方法如式(1)所示：

其中，x₁(n)和x₂(n)分别表示两个麦克风录制信号的子带信号，N为子带信号长度。

(2)双耳时间差ITD线索的提取

计算方法如式(2)所示：

其中，d则表示延迟采样数。

(3)双耳相关性IC线索的提取

计算方式如式(3)所示：

步骤4，确定各频带相应的参数组合；

由于ILD在1.5kHz以上起主要作用，ITD在1.5kHz以下起主要作用，因此在选择参数的时候参照此规则，实施例根据相应频带划分方式，在中低频选择ITD和IC参数，在中高频和高频选择ILD和IC参数。当采用其他频带划分方式时，也应参考此规则。

步骤5，根据参数值，参照预设的查找表进行查表，或者根据预设的函数关系计算，确定各频带相应声源的方位及其大小，得到低频、中高频、高频带相应水平角α₁、α₂、α₃，对应的声源大小分别为β₁、β₂、β₃；

得到ILD、ITD值之后，根据ILD、ILD与水平角的对应关系可以计算或者查找其相应的角度值。ILD、ITD与水平角的对应关系可通过实验获得查找表或者函数关系，从而通过查表或者计算得到声源的水平角。得到IC之后，根据IC与声源大小的对应关系可以计算或者查找声源的大小。IC与声源大小的对应关系可通过实验获得查找表或者函数关系，从而通过查表或者计算得到声源的大小。在本步骤根据步骤4的选择，利用步骤3的结果即可。

ILD、ILD与水平角的对应关系的规律是：ILD值在[0,15]之间变化水平方位角在[0,90°]，大于15都是90°；ITD在[0,700ms]之间变化水平方位角在[0,90°]，大于700ms也都是90°；且他们都是随着参数值变大逐渐增大到90°。IC与声源大小的对应关系规律是：IC在[0,1]之间变化声源大小，是从完全独立的两个声源到一个点。具体实施时，建议预先建立相应查找表，运行本方法流程时直接调用以提高效率。

步骤6，根据声源类型和各频带的方位和大小估算声源方位和大小。

由于不同的音源的频率范围不同，因此估算声源在不同频带的比重不一样：比如敲门声的频率范围是500—1000Hz，主要集中在中低频，因此在估算声源方位时，中低频频带的计算权值接近与1，其他两个频带接近于0；门铃声频率范围是1000—2000Hz，主要集中在中高频带，部分在中低频带，因此在估算声源方位时，中低频频带的计算权值可取0.3，中高频频带的计算权值可取0.7，另一个频带可取0；汽车喇叭声的频率范围是1500—3000Hz，主要集中在中高频，因此在估算声源方位时，中高频频带的计算权值接近于1，其他两个频带接近于0。因此根据频率范围落在不同频带的重合区域不同，不同频带计算权值可取不同值，计算方式为：因为声源的频率可能包括在三个大频带中的几个子频带，用n₁、n₂、n₃表示声源在三个频带覆盖的子频带个数。则权值的计算公式为：

频带参数权值计算具体取值可在实际使用时由本领域技术人员自行微调，以便定位更加准确。

根据不同频带计算的声源水平角和声源大小乘以他们的权值，最后估算出声源的最终方位和大小。

设中低频、中高频、高频带算出的水平角以及最后计算得到的声源水平角分别为α₁、α₂、α₃、α(取值介于0度到180度)，对应的声源大小分别为β₁、β₂、β₃、β(取值介于0到1)。则声源的最终方位和大小的计算公式为：

α＝(α₁N₁+α₂N₂+α₃N₃)/3

β＝(β₁N₁+β₂N₂+β₃N₃)/3

本发明利用了音频声源空间线索，可以广泛地应用于安防领域，包括快速定位和运动轨迹提取。例如：在一个安全级别较高的工厂里，通过双耳线索，方位角线索等线索可以对整个三维空间声源进行监控。对于快速定位应用，在相对安静的空间突然加入冲激响应声源信号时，可以指挥多个视频监视器快速转动指向定位空间，并从不同角度监视正在发生的情况。当视频监视器存在死角时，可以充分应用双耳线索来确定有无重要事情发生并记录下来，还可以还原成三维空间的虚拟立体声。当然，视频是安防领域的重点，但空间声源的定位可以作为其有力的补充。

具体实施时，本发明所提供方法可基于软件技术实现自动运行流程，也可采用模块化方式实现相应系统。本发明提供一种基于双耳线索的空间音源定位系统，包括以下模块，

α＝(α₁N₁+α₂N₂+α₃N₃)/3

β＝(β₁N₁+β₂N₂+β₃N₃)/3

其中，权值N₁、N₂、N₃计算方式如下，

设n₁、n₂、n₃表示声源在三个频带覆盖的子频带个数，

其中，i＝1、2、3。

各模块具体实现可参见相应步骤，本发明不予赘述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于双耳线索的空间音源定位方法，其特征在于：包括以下步骤，

α＝(α₁N₁+α₂N₂+α₃N₃)/3

β＝(β₁N₁+β₂N₂+β₃N₃)/3

其中，权值N₁、N₂、N₃计算方式如下，

设n₁、n₂、n₃表示声源在三个频带覆盖的子频带个数，

N_{i} = \frac{n_{i}}{n_{1} + n_{2} + n_{3}}

其中，i＝1、2、3。

2.根据权利要求1所述基于双耳线索的空间音源定位方法，其特征在于：频带划分处理方式为，1.5kHz以下部分为中低频区，1.5～6kHz部分为中高频，6kHz以上部分为高频。

3.根据权利要求1或2所述基于双耳线索的空间音源定位方法，其特征在于：步骤5中，通过参照预设的查找表进行查表，或者根据预设的函数关系计算，确定各频带相应的声源方位及大小。

4.根据权利要求1或2所述基于双耳线索的空间音源定位方法，其特征在于：用于根据估计原始声源方位和大小，控制安防摄像头向声源转动，并根据声源大小调整焦距。

5.根据权利要求3所述基于双耳线索的空间音源定位方法，其特征在于：用于根据估计原始声源方位和大小，控制安防摄像头向声源转动，并根据声源大小调整焦距。

6.一种基于双耳线索的空间音源定位系统，其特征在于：包括以下模块，

α＝(α₁N₁+α₂N₂+α₃N₃)/3

β＝(β₁N₁+β₂N₂+β₃N₃)/3

其中，权值N₁、N₂、N₃计算方式如下，

设n₁、n₂、n₃表示声源在三个频带覆盖的子频带个数，

N_{i} = \frac{n_{i}}{n_{1} + n_{2} + n_{3}}

其中，i＝1、2、3。

7.根据权利要求6所述基于双耳线索的空间音源定位系统，其特征在于：频带划分处理方式为，1.5kHz以下部分为中低频，1.5～6kHz部分为中高频，6kHz以上部分为高频。

8.根据权利要求6或7所述基于双耳线索的空间音源定位系统，其特征在于：第五模块中，通过参照预设的查找表进行查表，或者根据预设的函数关系计算，确定各频带相应的声源方位及大小。

9.根据权利要求6或7所述基于双耳线索的空间音源定位系统，其特征在于：用于根据估计原始声源方位和大小，控制安防摄像头向声源转动，并根据声源大小调整焦距。

10.根据权利要求8所述基于双耳线索的空间音源定位系统，其特征在于：用于根据估计原始声源方位和大小，控制安防摄像头向声源转动，并根据声源大小调整焦距。