CN108198568A

CN108198568A - 一种多声源定位的方法及系统

Info

Publication number: CN108198568A
Application number: CN201711433961.1A
Authority: CN
Inventors: 黄丽霞; 张雪英; 李凤莲; 昝丹斐; 张岁岁
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-22
Anticipated expiration: 2037-12-26
Also published as: CN108198568B

Abstract

本发明公开一种多声源定位的方法及系统。该方法包括：获取初始语音信号集合；对每个初始语音信号进行预处理；采用耳蜗基底膜滤波器将预处理后的信号划分为多个子带；获得同一子带的互功率谱密度函数；融合所有子带的互功率谱密度函数；获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数；获得每个麦克风对的加权二维位置/基频特性函数；获得融合后的加权二维位置/基频特性函数；在设定阈值范围内根据融合后的加权二维位置/基频特性函数的函数值确定各个声源的方位角和基频。本发明的方法及系统，克服了声源信号间的相互干扰，提高了定位精度。而且本发明有较高的抗混响性，能在强混响情况下准确估计出各个声源的位置。

Description

一种多声源定位的方法及系统

技术领域

本发明涉及声源定位领域，特别是涉及一种多声源定位的方法及系统。

背景技术

声源定位技术一直是语音信号处理领域的重要研究内容，其在目标定位、视频会议、远程侦听以及语音识别等领域都有着重要的应用价值。封闭环境中的声源会在所处的环境中产生一个随机变化的声场，声场的特性与声源的位置和房间的声学环境都有关，同时声源所处的声学环境中会存在混响、背景噪声，以及多声源信号间的混叠，上述干扰都会严重影响多声源定位方法的准确性。

传统的声源定位主要集中在单声源上，在多声源、噪声混响存在的真实环境中性能下降严重。随着信息技术的发展，越来越多的研究者们也加入到了多声源定位技术的研究队伍中来，提出了很多相关方法。现有的多声源定位方法在定位时大多仅考虑声源的位置特性，导致鲁棒性较差。

发明内容

本发明的目的是提供一种多声源定位的方法及系统，以提高多声源定位的准确性及鲁棒性。

为实现上述目的，本发明提供了如下方案：

一种多声源定位的方法所述方法包括：

获取麦克风阵列拾取的初始语音信号集合；所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号；所述麦克风阵列包括多个麦克风对，每个麦克风对包括两个位置相对设置的麦克风；

对每个初始语音信号进行预处理，获得第一语音信号集合；所述第一语音信号集合包括每个初始语音信号对应的处理后的第一语音信号；

采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带；

获得第一语音信号对的同一子带区域的互功率谱密度函数；所述第一语音信号对为一个麦克风对对应的两路第一语音信号；

融合每个第一语音信号对的所有子带区域的互功率谱密度函数，获得每个第一语音信号对的互功率谱密度函数；

对每个第一语音信号对的互功率谱密度函数进行谐波检测，获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数；

使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权，获得每个麦克风对的加权二维位置/基频特性函数；

根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数，获得融合后的加权二维位置/基频特性函数；

在设定阈值范围内根据所述融合后的加权二维位置/基频特性函数的函数值确定各个声源的方位角和基频。

可选的，所述对每个初始语音信号进行预处理，获得第一语音信号集合，具体包括：

对于每一个初始语音信号，使用FIR带通滤波器滤除所述初始语音信号的低频段噪声和高频段噪声，得到滤波后的语音信号；

对所述滤波后的语音信号进行加窗分帧，获得分帧后的信号；

根据所述分帧后的信号，采用双门限端点检测法确定每个滤波后的语音信号对应的起始点和终止点；

剔除每个滤波后的语音信号的起始点至终止点之外的信号，将每个滤波后的语音信号的起始点至终止点之间的信号确定为对应的第一语音信号；

依次获得所有的第一语音信号，得到第一语音信号集合。

可选的，所述根据所述分帧后的信号，采用双门限端点检测法确定每个滤波后的语音信号对应的起始点和终止点，具体包括：

根据所述分帧后的信号的短时能量确定第一阈值T₁；

根据背景噪声的短时能量确定第二阈值T₂，其中T₂＜T₁；

将短时能量大于所述第一阈值的第一帧信号确定为滤波后的语音信号对应的起始帧信号；

将短时能量小于所述第二阈值的第一帧信号确定为滤波后的语音信号对应的终止帧信号；

根据背景噪声的平均过零率确定第三阈值T₃；

将所述起始帧信号中过零率大于所述第三阈值的第一个采样点作为滤波后的语音信号的起始点；

将所述终止帧信号中过零率小于所述第三阈值的第一个采样点作为滤波后的语音信号的终止点。

可选的，所述采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带，具体包括：

采用耳蜗基底膜滤波器组将每个第一语音信号划分为64个不同的子带，中心频率分布在等效矩形带宽50～8000Hz。

可选的，所述获得第一语音信号对的同一子带区域的互功率谱密度函数，具体包括：

利用获得第g个子带区域中两路第一语音信号的初始互功率谱密度函数其中g为子带的索引，Y_i(n,λ)表示第i个阵元对应的第一语音信号y_i(k)的短时傅里叶变换，Y_l(n,λ)表示第l个阵元对应的第一语音信号y_l(k)的短时傅里叶变换，H表示复共轭，E{·}表示期望；

采用一阶平滑滤波器对初始的互功率谱密度函数进行加权平滑处理，获得平滑后的互功率谱密度函数其中，α为平滑系数，取值范围为(0＜α＜0.5)。

可选的，所述融合每个第一语音信号对的所有子带区域的互功率谱密度函数，获得每个第一语音信号对的互功率谱密度函数，具体包括：

利用对每个第一语音信号对的所有子带区域的互功率谱密度函数进行融合，获得每个第一语音信号对的互功率谱密度函数Φ_il′(n,λ)，其中G为子带的数量，为第g个子带区域中两路第一语音信号的互功率谱密度函数。

可选的，所述对每个第一语音信号对的互功率谱密度函数进行谐波检测，获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数，具体包括：

利用对第一语音信号对的互功率谱密度函数Φ_il′(n，λ)进行谐波检测，获得第一语音信号对对应的麦克风对的二维位置/基频特性函数其中|Φ_il′[n_p]|表示互功率谱密度函数的幅度，n_p为谐波检测的频率索引，p表示谐波数目，N表示帧长，f_s表示采样频率；f₀为基频信息，ψ_il[n_p]表示互功率谱密度函数的相位，ψ_il[n_p]＝arg{Φ_il′[n_p]}，表示基频f₀和方位角组合的期望相位，d_il表示第i个和第j个麦克风之间的距离，c表示空气中声音的速度，T{·}表示一个额外的相位转换。

可选的，所述使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权，获得每个麦克风对的加权二维位置/基频特性函数，具体包括：

利用对每个麦克风对的二维位置/基频特性函数加权，获得每个麦克风对的加权二维位置/基频特性函数其中表示对麦克风对的两路信号的GCC-PHAT函数和WCC函数进行采样。

可选的，所述在设定阈值范围内获得使所述融合后的加权二维位置/基频特性函数的函数值最大时的各个声源的方位角和基频，具体包括：

以方位角步长1°，基频步长1Hz的步进方式在设定阈值范围内获得所述融合后的加权二维位置/基频特性函数的多个函数值，所述设定阈值范围为80～280Hz的基频范围、0°～180°的方位角范围；

将所述多个函数值按照降序排列；

根据声源的个数，将按照降序排列后的前n个函数值对应的方位角和基频确定为n个声源的方位角和基频。

本发明还提供一种多声源定位的系统，所述系统应用于上述的方法，所述系统包括：

初始语音信号集合获取模块，用于获取麦克风阵列拾取的初始语音信号集合；所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号；所述麦克风阵列包括多个麦克风对，每个麦克风对包括两个位置相对设置的麦克风；

预处理模块，用于对每个初始语音信号进行预处理，获得第一语音信号集合；所述第一语音信号集合包括每个初始语音信号对应的处理后的第一语音信号；

子带划分模块，用于采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带；

互功率谱密度函数获取模块，用于获得第一语音信号对的同一子带区域的互功率谱密度函数；所述第一语音信号对为一个麦克风对对应的两路第一语音信号；

第一融合模块，用于融合每个第一语音信号对的所有子带区域的互功率谱密度函数，获得每个第一语音信号对的互功率谱密度函数；

谐波检测模块，用于对每个第一语音信号对的互功率谱密度函数进行谐波检测，获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数；

加权模块，用于使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权，获得每个麦克风对的加权二维位置/基频特性函数；

第二融合模块，用于根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数，获得融合后的加权二维位置/基频特性函数；

声源方位角和基频确定模块，用于在设定阈值范围内获得使所述融合后的加权二维位置/基频特性函数的函数值最大时的各个声源的方位角和基频。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

针对现存的多声源定位算法无法克服多声源间的相互干扰以及混响的影响，从而无法准确获得各个声源位置的问题，本发明采用加权的基于耳蜗基底膜的联合位置和基频的多声源定位方法，以提高在多声源混响环境下的定位性能。该方法基于人耳蜗基底膜特性，首先使用耳蜗基底膜滤波器对麦克风阵列接收到的混合语音信号进行子带划分，计算每个子带中两路麦克风信号的互功率谱密度函数，其次通过归一化求和的方式融合各个子带的互功率谱密度函数，并对融合后的互功率谱密度函数进行谐波检测得到每对麦克风的二维位置/基频特征，使用抗混响性较好的广义互相关函数GCC-PHAT和WCC函数对其加权；最后通过在给定基频和方位角的范围内搜索最大值来求得声源的方位角和基频。本发明充分利用了人耳蜗基底膜特性，克服了多声源信号间的干扰；同时使用混响性较好的广义互相关函数GCC-PHAT和WCC函数作为加权函数，提高定位方法在多声源混响环境下的定位精度。因此，与传统的双声源定位方法相比，本发明克服了声源信号间的相互干扰，提高了定位精度。而且本发明有较高的抗混响性，能在强混响情况下准确估计出各个声源的位置。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多声源定位方法的流程示意图；

图2为本发明多声源定位方法中加权二维位置/基频特性函数的计算示意图；

图3为本发明多声源定位方法中Gammachirp滤波器的频率响应图；

图4为本发明多声源定位系统的结构示意图；

图5为本发明多声源定位方法及系统中采用的麦克风阵列示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明多声源定位方法的流程示意图。如图1所示，所述方法包括：

步骤100：获取初始语音信号集合。初始的语音信号集合是通过麦克风阵列拾取的。所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号，一个麦克风拾取一个初始语音信号；所述麦克风阵列包括多个麦克风对，每个麦克风对包括两个位置相对设置的麦克风。

步骤200：对初始语音信号进行预处理，获得第一语音信号集合。对每个初始语音信号进行预处理，一个初始语音预处理之后得到一个第一语音信号，依次获得第一语音信号集合。预处理包括：预滤波、加窗分帧以及端点检测，具体预处理的过程包括：

(1)对于每一个初始语音信号，使用FIR带通滤波器滤除所述初始语音信号的低频段和高频段噪声，得到滤波后的语音信号。预滤波的目的是抑制语音信号中的低频和高频噪声，提高信噪比。语音信号的频率范围为300～3400Hz，在对信号进行预处理之前，需要滤除低频和高频噪声。

(2)对所述滤波后的语音信号进行加窗分帧，获得分帧后的信号。语音信号作为一种非平稳的宽带信号，加窗分帧能够保证其短时平稳特性。本发明采用交叠分段的办法进行分帧，窗函数选取矩形窗，其表达式为本发明中信号的采样频率为f_s＝16000Hz，帧长为1024个采样点，帧移为521个采样点。对麦克风阵列接收到的混合语音信号y(k)进行分帧，每帧表示为y(n,λ)，n＝1,2,...N，n为采样点，N表示帧长，λ表示帧数。

(3)根据所述分帧后的信号，采用双门限端点检测法确定每个滤波后的语音信号对应的起始点和终止点。端点检测的目的就是从一段接收声信号中找出有效信号的起始点和结束点，从而只对有效信号进行处理，准确的端点检测不仅可以减少数据存储量和处理时间，而且能排除无声段和噪声的干扰。本发明采用双门限检测法来完成端点检测：

短时能量即一帧信号所具有的平均能量，计算公式为

短时平均过零率为每帧内信号通过零值的次数，对于离散的信号，只需比较相邻两个采样点的符号即可，计算公式如下其中

本发明采用双门限检测法来完成端点检测，包括两级判决：

第一级判决

首先根据语音信号的多帧平均能量值设定一个较高的第一阈值T₁，用来寻找语音的起始点。将短时能量大于所述第一阈值的第一帧信号确定为滤波后的语音信号对应的起始帧信号，此处第一帧信号是指第一次出现短时能量大于第一阈值的那一帧信号，在此帧信号之前的所有帧信号的短时能量都是不大于第一阈值的，将此帧信号作为起始帧信号；

然后再利用噪声的平均能量设定一个较低的第二阈值T₂，其中T₂＜T₁，用来判定语音信号的结束点。将短时能量小于所述第二阈值的第一帧信号确定为滤波后的语音信号对应的终止帧信号，同样的，此处的第一帧信号也是指第一次出现短时能量小于第二阈值的那一帧信号，在此帧信号之前的所有帧信号的短时能量都是不小于第二阈值的，将此帧信号作为终止帧信号。

至此第一级判决结束。

第二级判决

利用噪声的平均过零率Z_N，设定一个阈值T₃，用来判定语音信号开始时的清音和结尾处的尾音。将起始帧信号中过零率大于所述第三阈值的第一个采样点作为滤波后的语音信号的起始点；由于起始帧信号包括多个采样点，为了更高精度的确定有效语音的起始点，通过将过零率第一次大于第三阈值的采样点作为起始点，在此采样点之前的所有采样点的过零率都是不大于第三阈值的。

将所述终止帧信号中过零率小于所述第三阈值的第一个采样点作为滤波后的语音信号的终止点，在该采样点之前的所有采样点的过零率都是不小于第三阈值的

其中，三个阈值的确定过程具体实施方式可以为：首先计算最初10帧信号每帧的短时能量E_i，最大值记为EMAX，最小值记为EMIN，然后令：

I₁＝0.03(EMAX-EMIN)+EMIN；I₂＝4EMIN；

T₁和T₂按下式确定：

T₂＝min(I₁,I₂)；T₁＝5T₂。

过零率阈值T₃:

T₃＝min(IF,zc+2fzc)，IF为25；zc、fzc分别为最初10帧过零率的“均值”和“标准差”。

(4)剔除每个滤波后的语音信号的起始点至终止点之外的信号，将每个滤波后的语音信号的起始点至终止点之间的信号确定为对应的第一语音信号；

依次获得所有的第一语音信号，得到第一语音信号集合。第一语音信号集合中的元素为每个麦克风对应的第一语音信号。

步骤300：将每个第一语音信号划分为多个子带。采用耳蜗基底膜滤波器组将每个第一语音信号划分为64个不同的子带，中心频率分布在等效矩形带宽50～8000Hz。与其他滤波器相比，Gammachip滤波器更符合人耳的基底膜特性，所以本发明采用Gammachirp滤波器将语音信号划分为64个子带，其中16通道的滤波器频率响应如图3所示。

步骤400：获得同一子带区域的互功率谱密度函数CPSD。此步骤针对第一语音信号对的同一子带区域的信号进行处理，第一语音信号对即一个麦克风对对应的两路第一语音信号。由于每个麦克风对应的第一语音信号分为多个子带，即包括多个子带区域，例如第一子带区域、第二子带区域、第三子带区域……，此步骤将一个麦克风对对应的两路第一语音信号同一子带区域求取互功率谱密度函数CPSD，即第一子带区域的两路信号求取互功率谱密度函数CPSD，第二子带区域的两路信号求取互功率谱密度函数CPSD……

具体过程为：

引入一阶平滑滤波器对两路信号的CPSD函数进行平滑处理，保持各帧信号之间的连续性，消除仅由当前帧信号估计结果带来的波动，提高算法的定位精度。采用一阶平滑滤波器对初始的互功率谱密度函数进行加权平滑处理，获得平滑后的互功率谱密度函数其中，α为平滑系数，取值范围为(0＜α＜0.5)。

步骤500：融合互功率谱密度函数CPSD。融合每个第一语音信号对的所有子带区域的互功率谱密度函数，获得每个第一语音信号对的互功率谱密度函数，即每个麦克风对对应的两路信号的互功率谱密度函数。本发明采用加权平均的方式融合各子带中的平滑CPSD函数，即先对每个子带中的平滑CPSD函数进行加权，然后再求平均值获得最终的CPSD函数。具体的，利用对每个第一语音信号对的所有子带区域的互功率谱密度函数进行融合，获得每个第一语音信号对的互功率谱密度函数Φ_il′(n,λ)，其中G为子带的数量，为第g个子带区域中两路第一语音信号的互功率谱密度函数。

步骤600：对CPSD进行谐波检测，获得麦克风对的二维位置/基频特性函数。对于联合位置和基频的声源定位，通常仅考虑语音信号的浊音段来作为声源，假设语音信号包含一个基频f₀(pitch)和数次谐波，通常使用一个谐波检测来估计语音信号的基频。谐波检测的频率索引定义如下：

式中，p表示谐波数目，N表示帧长，f_s表示采样频率。

二维位置/基频(DOA/pitch)特征可通过对融合后的CPSD进行谐波检测来得到

ψ_il[n_p]＝arg{Φ_il′[n_p]}；

其中|Φ_il′[n_p]|表示互功率谱密度函数的幅度；f₀为基频信息，ψ_il[n_p]表示互功率谱密度函数的相位，表示基频f₀和方位角组合的期望相位，d_il表示第i个和第j个麦克风之间的距离，c表示空气中声音的速度，T{·}表示一个额外的相位转换，这个转换增加了相位权重对谐波检测的影响。式中，0＜ε≤1影响优选方向的宽度，χ表示CPSD的相位与基频f₀和组合的期望相位的差值，当χ→0或者2π的倍数时，相位权重越大，此时的f₀和就越接近真实声源的值。

步骤700：对每个麦克风对的二维位置/基频特性函数加权。使用抗混响性较好的广义相关函数GCC-PHAT和WCC函数对二维位置/基频特性加权。基于耳蜗基底膜特性的联合位置和基频算法在理想环境下得到了较高的定位精度，但在高混响环境下，二维方位角/基频特征的峰值展宽，导致算法的定位精度降低。鉴于传统的互相关算法GCC-PHAT函数以及WCC函数具有较好的鲁棒性和抗混响性，本发明采用这两种函数对二维方位角/基频特征进行加权，以此提高算法在高混响环境下的定位性能，同时GCC-PHAT函数和WCC函数里包含有信号的幅度分量，直接对二维方位角/基频特征加权时会破坏信号的周期性，影响基频的估计，因此采用如下方式来实现对二维方位角/基频特征的加权：

两路麦克风信号的GCC-PHAT函数表达式如下：

其中，Φ_il[n]为麦克风i和麦克风j接收信号的互功率谱密度函数。

两路麦克风的WCC函数可表示为：

式中，ψ_GCC(p)为两路信号的广义互相关函数GCC-PHAT，ψ_AMDF(p)为两路信号的平均幅度差函数，ε表示一个小的正数，以防止分母为零。ψ_AMDF(p)的表达式为

步骤800：获得融合后的加权二维位置/基频特性函数。根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数，获得融合后的加权二维位置/基频特性函数。此处一般平均法是为了区别加权平均，一般平均法即将所有值相加求平均的方法，不考虑每个元素的权重。通过加和求平均的方法获得最终一个二维位置/基频特性函数

步骤900：获得各个声源的方位角和基频，以实现多声源的定位。在设定阈值范围内以步进的方式获得融合后的加权二维位置/基频特性函数的多个函数值。加权二维位置/基频特性函数的函数值的计算仅在给定的f₀和的范围内进行，其中方位角的搜索范围为0°～180°，步长为1°，基频f₀的搜索范围为80～280Hz，步长为1Hz。经过在设定阈值范围内的搜索，获得多个函数值，将所有的函数值按照降序排序，根据声源的个数，筛选排序后的前n个函数值对应的方位角和基频即为n个声源对应的方位角和基频。如果是一个声源的话就是找函数最大值，最大值对应的方位角和基频即为声源的定位信息；两个声源就是搜索函数的最大值和次大值，最大值对应的方位角和基频为一个声源的定位信息，次大值对应的方位角和基频为另一个声源的定位信息。

图2为本发明多声源定位方法中加权二维位置/基频特性函数的计算示意图。如图2所示，计算的过程包括：对经过预处理后的麦克风信号进行子带划分；计算各个子带中任一对对立麦克风信号的平滑CPSD函数；融合各个子带的平滑CPSD函数，获得两路信号最终的CPSD函数；对融合后的CPSD函数进行谐波检测。

图3为本发明多声源定位方法中Gammachirp滤波器的频率响应图。如图3所示，本发明采用Gammachirp滤波器将语音信号划分为64个子带，图3为其中16通道的滤波器频率响应图。

图4为本发明多声源定位系统的结构示意图。如图4所示，所述系统包括：

初始语音信号集合获取模块401，用于获取麦克风阵列拾取的初始语音信号集合；所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号；所述麦克风阵列包括多个麦克风对，每个麦克风对包括两个位置相对设置的麦克风；

预处理模块402，用于对每个初始语音信号进行预处理，获得第一语音信号集合；所述第一语音信号集合包括每个初始语音信号对应的处理后的第一语音信号；

子带划分模块403，用于采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带；

互功率谱密度函数获取模块404，用于获得第一语音信号对的同一子带区域的互功率谱密度函数；所述第一语音信号对为一个麦克风对对应的两路第一语音信号；

第一融合模块405，用于融合每个第一语音信号对的所有子带区域的互功率谱密度函数，获得每个第一语音信号对的互功率谱密度函数；

谐波检测模块406，用于对每个第一语音信号对的互功率谱密度函数进行谐波检测，获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数；

加权模块407，用于使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权，获得每个麦克风对的加权二维位置/基频特性函数；

第二融合模块408，用于根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数，获得融合后的加权二维位置/基频特性函数；

声源方位角和基频确定模块409，用于在设定阈值范围内获得使所述融合后的加权二维位置/基频特性函数的函数值最大时的各个声源的方位角和基频。

图5为本发明多声源定位方法及系统中采用的麦克风阵列示意图。本发明的麦克风阵列包括多个麦克风对，麦克风对为设置在相对位置的两个麦克风组成的组合。麦克风阵列可以为均匀线性圆阵列，也可以为均匀线性直线阵列。如图5所示，图5为采用8个麦克风组成的均匀线性圆阵列。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多声源定位的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对每个初始语音信号进行预处理，获得第一语音信号集合，具体包括：

依次获得所有的第一语音信号，得到第一语音信号集合。

3.根据权利要求2所述的方法，其特征在于，所述根据所述分帧后的信号，采用双门限端点检测法确定每个滤波后的语音信号对应的起始点和终止点，具体包括：

根据所述分帧后的信号的短时能量确定第一阈值T₁；

根据背景噪声的短时能量确定第二阈值T₂，其中T₂＜T₁；

根据背景噪声的平均过零率确定第三阈值T₃；

4.根据权利要求1所述的方法，其特征在于，所述采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述获得第一语音信号对的同一子带区域的互功率谱密度函数，具体包括：

利用g＝1.2.3...G获得第g个子带区域中两路第一语音信号的初始互功率谱密度函数其中g为子带的索引，Y_i(n,λ)表示第i个阵元对应的第一语音信号y_i(k)的短时傅里叶变换，Y_l(n,λ)表示第l个阵元对应的第一语音信号y_l(k)的短时傅里叶变换，H表示复共轭，E{·}表示期望；

采用一阶平滑滤波器λ≥2对初始的互功率谱密度函数进行加权平滑处理，获得平滑后的互功率谱密度函数其中，α为平滑系数，取值范围为(0＜α＜0.5)。

6.根据权利要求1所述的方法，其特征在于，所述融合每个第一语音信号对的所有子带区域的互功率谱密度函数，获得每个第一语音信号对的互功率谱密度函数，具体包括：

7.根据权利要求1所述的方法，其特征在于，所述对每个第一语音信号对的互功率谱密度函数进行谐波检测，获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数，具体包括：

利用对第一语音信号对的互功率谱密度函数Φ_il′(n,λ)进行谐波检测，获得第一语音信号对对应的麦克风对的二维位置/基频特性函数其中|Φ_il′[n_p]|表示互功率谱密度函数的幅度，n_p为谐波检测的频率索引，p＝1...P，p表示谐波数目，N表示帧长，f_s表示采样频率；f₀为基频信息，ψ_il[n_p]表示互功率谱密度函数的相位，ψ_il[n_p]＝arg{Φ_il′[n_p]}，表示基频f₀和方位角组合的期望相位，d_il表示第i个和第j个麦克风之间的距离，c表示空气中声音的速度，T{·}表示一个额外的相位转换。

8.根据权利要求7所述的方法，其特征在于，所述使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权，获得每个麦克风对的加权二维位置/基频特性函数，具体包括：

9.根据权利要求1所述的方法，其特征在于，所述在设定阈值范围内获得使所述融合后的加权二维位置/基频特性函数的函数值最大时的各个声源的方位角和基频，具体包括：

将所述多个函数值按照降序排列；

10.一种多声源定位的系统，其特征在于，所述系统包括：