CN114814728A

CN114814728A - 一种声源定位方法、系统、电子设备及介质

Info

Publication number: CN114814728A
Application number: CN202210430862.2A
Authority: CN
Inventors: 朱文龙; 鲍明; 许耀华; 陈志菲; 王翊; 蒋芳
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-29

Abstract

本发明适用于计算机技术领域，提供了一种声源定位方法、系统、电子设备及介质，该方法包括：获取若干个子频域信号，并采用广义互相关算法提取同一预设频带下子频域信号的第一广义互相关特征；建立广义互相关特征与声源权重的映射关系，将第一广义互相关特征和映射关系带入期望最大化算法的条件期望函数中，并进行多次迭代，得到目标声源权重；根据第一广义互相关特征和目标声源权重确定第二广义互相关特征，并根据可控响应功率函数和所述第二广义互相关特征，获取目标可控响应功率；获取目标可控响应功率所对应的位置信息，得到目标位置信息；通过采用该方法解决了由环境噪声干扰和混响所导致的声源定位不准确的问题。

Description

一种声源定位方法、系统、电子设备及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种声源定位方法、系统、电子设备及介质。

背景技术

随着传感器网络、计算机等相关技术的发展，声源定位技术已广泛应用在工业检测、视频会议、智能机器人等不同领域，其原理是从接收到的声信号中提取相关特征参数，用于求解声源目标的位置。然而，在实际应用场景中，由于环境噪声干扰和混响等因素会导致声源定位性能下降，从而导致声源定位准确性降低。

发明内容

本发明提供一种声源定位方法、系统、电子设备及介质，以解决现有技术中由环境噪声干扰和混响等因素所导致的声源定位不准确的问题。

本发明提供的声源定位方法，包括：

利用若干个传感器采集同一声源所产生的目标声源信号，并分别对所述若干个传感器所采集的目标声源信号进行频谱变换，得到若干个目标频域信号；

根据若干个预设频带将每个所述目标频域信号分别划分为若干个子频域信号，并采用广义互相关算法提取同一预设频带下所述子频域信号的第一广义互相关特征；

建立广义互相关特征与声源权重的映射关系，将所述第一广义互相关特征和所述映射关系带入期望最大化算法的条件期望函数中，并进行多次迭代，得到目标声源权重；

根据所述第一广义互相关特征和所述目标声源权重确定第二广义互相关特征，并根据可控响应功率函数和所述第二广义互相关特征，获取目标可控响应功率；

将预设候选区域划分为若干个网格区域，根据所述网格区域获取所述目标可控响应功率所对应的位置信息，得到目标位置信息。

可选地，所述采用广义互相关算法提取同一预设频带下所述子频域信号的第一广义互相关特征包括；

获取同一预设频带下所述子频域信号的互功率谱，采用广义互相关算法对所述互功率谱进行处理，得到第一广义互相关特征；

所述互功率谱的数学表达为：

其中，Y_m(ω)为传感器m所接收目标声源信号的傅里叶变换，

为传感器n所接收目标声源信号的傅里叶变换的共轭，*为共轭，m、n均为传感器的标号，ω为角频率，G_mn(ω)为传感器n和传感器m的互功率谱；

所述第一广义互相关特征的数学表达为：

其中，R_mn(τ)为时延值τ下的传感器n和传感器m的第一广义互相关特征，ψ_mn为传感器n和传感器m的相位变换权重函数，j为虚数，ω为角频率，τ为目标声源信号的时延值；

其中，

可选地，所述广义互相关特征与声源权重的映射关系包括：

式中，τ_l为预设频带l的时延值，r_l为时延值τ_l下的预设频带l的广义互相关特征，L为预设频带总数，l为预设频带的标号，

为预设频带l的声源广义互相关特征，λ_l∈[0,1]，λ_l为预设频带l的声源权重，n_l是预设频带l广义互相关特征的噪声分量，n_l为相互独立的零均值高斯变量。

可选地，所述将所述第一广义互相关特征和所述映射关系带入期望最大化算法的条件期望函数中之前还包括：

根据所述映射关系获取全频带广义互相关特征，全频带广义互相关特征R的数学表达为：

根据所述映射关系获取由均值和协方差矩阵组成的完备数据，所述完备数据

的数学表达为：

其中，r₁为预设频带1的广义互相关特征，r₂为预设频带1的广义互相关特征，r_L为预设频带L的广义互相关特征，T为矩阵的转置，预设频带l噪声的方差为

全频带噪声的方差为σ²；

完备数据的均值μ的数学表达为：

其中，λ₁为预设频带1的声源权重，λ₂为预设频带2的声源权重，λ_L为预设频带L的声源权重，

为预设频带1的声源广义互相关特征，

为预设频带2的声源广义互相关特征，

为预设频带L的声源广义互相关特征；

所述完备数据的协方差矩阵Q的数学表达为：

其中，diag为对角矩阵函数，β_l为预设频带l的噪声功率；

可选地，所述将所述第一广义互相关特征和所述映射关系带入期望最大化算法的条件期望函数中，并进行多次迭代，得到目标声源权重包括：

将所述第一广义互相关特征、所述全频带广义互相关特征和所述完备数据带入期望最大化算法的条件期望函数中，并进行多次迭代，迭代完成后，获取条件期望结果；

根据所述条件期望结果获取目标声源权重；

条件期望函数的参数θ＝[θ₁,θ₂,…,θ_l]，θ_l＝[τ_l,λ_l]，

期望最大化算法的条件期望函数的数学表达为：

其中，i为迭代次数，θⁱ为第i次迭代的条件期望函数的参数，

为条件概率密度，

为条件期望函数，C为预设常数，

为时延值

下的预设频带l的第i次迭代广义互相关特征，

为预设频带l的第i次迭代时延值；

所述条件期望结果的数学表达为

预设频带最后一次迭代声源权重

的数学表达为：

其中，

为时延值

下的预设频带l的最后一次迭代广义互相关特征，

为预设频带l的最后一次迭代时延值，s为最终迭代次数，

为预设频带l的声源广义互相关特征的转置；

目标声源权重k的数学表达为

可选地，所述建立广义互相关特征与声源权重的映射关系，将所述映射关系带入期望最大化算法的条件期望函数中包括：

对所述广义互相关特征r_l进行修正，得到修正后的广义互相关特征；

根据修正后的广义互相关特征更新所述映射关系，并将更新后的映射关系带入期望最大化算法的条件期望函数中。

可选地，所述根据可控响应功率函数和所述第二广义互相关特征，获取目标可控响应功率包括：

根据可控响应功率函数和所述第二广义互相关特征获取可控响应功率，并确定最大的可控响应功率为目标可控响应功率，所述第二广义互相关特征为目标声源权重所对应的预设频带下所有传感器的广义互相关特征；

可控响应功率的数学表达为：

其中，m、n均为传感器的标号，

为传感器m和传感器n的第二广义互相关特征，τ_mn(x)为传感器m和传感器n的时延值，x为网格点。

本发明还提供了一种声源定位系统，包括：

频域信号模块，用于利用若干个传感器采集同一声源所产生的目标声源信号，并分别对所述若干个传感器所采集的目标声源信号进行频谱变换，得到若干个目标频域信号；

特征提取模块，用于根据若干个预设频带将每个所述目标频域信号分别划分为若干个子频域信号，并采用广义互相关算法提取同一预设频带下所述子频域信号的第一广义互相关特征；

目标权重模块，用于建立广义互相关特征与声源权重的映射关系，将所述第一广义互相关特征和所述映射关系带入期望最大化算法的条件期望函数中，并进行多次迭代，得到目标声源权重；

目标功率模块，用于根据所述第一广义互相关特征和所述目标声源权重确定第二广义互相关特征，并根据可控响应功率函数和所述第二广义互相关特征，获取目标可控响应功率；

目标定位模块，用于将预设候选区域划分为若干个网格区域，根据所述网格区域获取所述目标可控响应功率所对应的位置信息，得到目标位置信息，所述频域信号模块、所述特征提取模块、所述目标权重模块、所述目标功率模块和所述目标定位模块相连接。

本发明还提供一种电子设备，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行所述声源定位方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述声源定位方法。

如上所述，本发明提供了一种声源定位方法、系统、电子设备及介质，具有以下有益效果：首先通过将传感器所采集的目标声源信号划分为若干个子频域信号，并提取子频域信号的第一广义互相关特征，通过第一广义互相关特征和期望最大化算法得到目标声源权重，并根据目标声源所对应的第二广义互相关特征和可控响应功率函数确定目标可控响应功率，从而实现对声源的定位，解决现有技术中由环境噪声干扰和混响等因素所导致的声源定位不准确的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中声源定位方法的流程示意图；

图2是本发明实施例中不同r^o函数曲线图；

图3是本发明实施例中修正前的全频带广义互相关特征；

图4是本发明实施例中修正后的全频带广义互相关特征；

图5是本发明实施例中各算法在T₆₀＝0.2s,r＝0.1m下的性能图；

图6是本发明实施例中各算法在T₆₀＝0.2s,r＝0.5m下的性能图；

图7是本发明实施例中各算法在T₆₀＝0.8s,r＝0.1m下的性能图；

图8是本发明实施例中各算法在T₆₀＝0.8s,r＝0.5m下的性能图；

图9是本发明实施例中各算法在T₆₀＝0.2s下的定位成功率曲线；

图10是本发明实施例中各算法在T₆₀＝0.8s下的定位成功率曲线；

图11是本发明实施例中各算法性能仿真的平均误差对比；

图12是本发明实施例中各算法性能仿真的标准偏差对比；

图13是本发明实施例中传声器与声源相对位置；

图14是本发明实施例中三种声源功率谱；

图15是本发明实施例中全通信号信噪比；

图16是本发明实施例中带通信号信噪比；

图17是本发明实施例中户外测试实验结果的平均定位误差曲线；

图18是本发明实施例中声源定位系统的模块示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

图1是本发明在一实施例中提供的声源定位方法的流程示意图。

如图1所示，上述声源定位方法，包括步骤S110-S150：

S110，利用若干个传感器采集同一声源所产生的目标声源信号，并分别对若干个传感器所采集的目标声源信号进行频谱变换，得到若干个目标频域信号；

S120，根据若干个预设频带将每个目标频域信号划分别分为若干个子频域信号，并采用广义互相关算法提取同一预设频带下子频域信号的第一广义互相关特征；

S130，建立广义互相关特征与声源权重的映射关系，将第一广义互相关特征和映射关系带入期望最大化算法的条件期望函数中，并进行多次迭代，得到目标声源权重；

S140，根据第一广义互相关特征和目标声源权重确定第二广义互相关特征，并根据可控响应功率函数和第二广义互相关特征，获取目标可控响应功率；

S150，将预设候选区域划分为若干个网格区域，根据网格区域获取目标可控响应功率所对应的位置信息，得到目标位置信息。

在本实施例的步骤S110中，同一声源包括但不限于实际场景中所产生的声源，例如录音、人类运动、人类说话、鸟叫声、下雨、打雷等所产生的声源，若干个传感器分别采集目标声源信号，然后对若干个传感器所采集的目标声源信号进行频谱转换，得到若干个目标频域信号，具体地，可以分别对若干个传感器所采集的声源信号进行傅里叶变换，得到各个传感器所对应的目标频域信号。传感器包括传声器，传感器的位置和传感器的个数可以根据实际需要进行设定。也可以先对需要进行定位的声源即目标声源的位置进行初步估计，根据初步估计结果进行设置传感器的位置，例如以初步估计位置为圆心以固定值为半径在其四周均匀的设置传感器，固定值可以根据实际需要进行设定。

在本实施例的步骤S120中，所有预设频带的频率范围集合包括声源的频率范围，预设频带的个数以及频带范围可以根据声源的频率进行设定，例如声源的频率范围为1000Hz-1500Hz，可以以800-1600Hz作为所有预设频带的频率范围，将800-1600Hz均匀地划分为带宽为200Hz的4个预设频带；也可以以900-1600Hz作为所有预设频带的频率范围，将900-1600Hz均匀地划分为带宽为100Hz的7个预设频带。根据若干个预设频带将每个目标频域信号分别划分为若干个子频域信号，即是根据若干个预设频带分别将每个传感器所采集的目标频域信号分别划分为每个传感器所对应的若干个子频域信号，同一个子频域信号属于同一个预设频带。采用广义互相关算法提取同一预设频带下子频域信号的第一广义互相关特征，即是采用广义互相关算法提取同一与预设频带下不同传感器所对应的子频域信号的第一广义互相关特征。

在一实施例中，采用广义互相关算法提取同一预设频带下所述子频域信号的第一广义互相关特征包括；获取同一预设频带下子频域信号的互功率谱，采用广义互相关算法对互功率谱进行处理，得到第一广义互相关特征；

互功率谱的数学表达为：

其中，Y_m(ω)为传感器m所接收目标声源信号的傅里叶变换，

第一广义互相关特征的数学表达为：

其中，

在本实施例的步骤S130，广义互相关特征与声源权重的映射关系包括：

将第一广义互相关特征和映射关系带入期望最大化算法的条件期望函数中之前还包括：根据映射关系获取全频带广义互相关特征，根据映射关系获取由均值和协方差矩阵组成的完备数据。

全频带广义互相关特征R的数学表达为：

完备数据

的数学表达为：

全频带噪声的方差为σ²；

完备数据的均值μ的数学表达为：

为预设频带1的声源广义互相关特征，

为预设频带2的声源广义互相关特征，

为预设频带L的声源广义互相关特征；

完备数据的协方差矩阵Q的数学表达为：

其中，diag为对角矩阵函数，β_l为预设频带l的噪声功率；

在一实施例中，将第一广义互相关特征和映射关系带入期望最大化算法的条件期望函数中，并进行多次迭代，得到目标声源权重包括：根据映射关系获取全频带广义互相关特征和由均值和协方差矩阵组成的完备数据，将第一广义互相关特征、全频带广义互相关特征和完备数据带入期望最大化算法的条件期望函数中，并进行多次迭代，迭代完成后，获取条件期望结果；根据条件期望结果获取目标声源权重；

条件期望函数的参数θ＝[θ₁,θ₂,…,θ_l]，θ_l＝[τ_l,λ_l]，

期望最大化算法的条件期望函数的数学表达为：

为条件概率密度，

为条件期望函数，C为预设常数，

为时延值

下的预设频带l的第i次迭代广义互相关特征，

为预设频带l的第i次迭代时延值；

第一次迭代时，将第一广义互相关特征代入上述期望最大化算法的条件期望函数中；通过采用期望最大化算法的条件期望函数U(θ,θⁱ)最大化来估计参数θ，可以等效于对多个频带同时进行参数θ_l估计，有效降低运算复杂度。

利用联合高斯随机变量的条件期望结果，条件期望结果的数学表达为

预设频带l最后一次迭代声源权重

的数学表达为：

预设频带l最后一次迭代时延值

的数学表达为：

其中，

为时延值

下的预设频带l的最后一次迭代广义互相关特征，

为预设频带l的最后一次迭代时延值，s为最终迭代次数，

为预设频带l的声源广义互相关特征的转置；

为

的共轭转置；

开始迭代时，对各频带的θ_l赋任意初始值，当

δ为预设判别值，或者达到迭代次数时迭代终止。

最终在

参数集中选取最大的一个，即为最优频带的广义互相关特征，最优频带的广义互相关特征所对应的声源权重为目标声源权重，目标声源权重k的数学表达为

在一实施例中，建立广义互相关特征与声源权重的映射关系，将所述映射关系带入期望最大化算法的条件期望函数中包括：对所述广义互相关特征r_l进行修正，得到修正后的广义互相关特征；根据修正后的广义互相关特征更新所述映射关系，并将更新后的映射关系带入期望最大化算法的条件期望函数中。将

替代各频带中的r_l，参与每次迭代，最终，挑选最优频带的

代入期望最大化算法的条件期望函数中。

修正后的广义互相关特征的数学表达为：

其中，

为预设频带l修正后的广义互相关特征，E{r_lr^o}为r_l与r^o的期望，

为

与r^o的期望，E{n_lr^o}为n_l与r^o的期望。

请参阅图2，r^o是一个函数，主瓣宽度的大小会影响定位结果，较大的宽度将使可控响应功率(SRP)空间谱平滑提升鲁棒性。反之，较小的宽度会使得峰值尖锐，提高分辨率。优化r^o的波形将有助于降低声源定位的误差。各频带广义互相关特征生成方法中，

相较于r_l波形更加灵活可控。一方面r^o影响了子带广义互相关特征在时域上的波形；另一方面，在频域上不同频带的r^o起滤波作用，因此r^o的功率谱分布较为集中。图2为不同r^o函数曲线图，分别是广义互相关(GCC)函数、sinc函数、矩形窗函数和高斯函数的时域波形对比。由图2可知，在实现主峰值宽度大致相似的条件下，sinc函数在时域上仍存在一些旁瓣，相对于SRP不利于定位，而矩形窗函数对应的频域函数是sinc，也存在较多旁瓣干扰，不利于有效滤波。

为了尽可能的减小旁瓣的影响，合适的r^o还应满足如下性质：

r^o函数无旁瓣，即对任意的|t₁|<|t₂|,|r^o(t₁)|>|r^o(t₂)|成立。

因此将r^o选择为高斯函数，其波形函数在频域和时域上均无旁瓣，适合作为理想的函数r^o，其表达式如下：

式中，f_s为信号频率，d为网格尺度。参数τ初始值来自于全频带互相关函数峰值处，每次参数值更新时，使用r^o重建每个频带的广义互相关特征，n为离散采样点数。

通过上述分析，可以观察到，在此条件下，广义互相关特征具有以下性质：1)提取了该频带GCC在区间中的信号成分的时延信息；2)仅和该段频域区间相关，与区间外的成分无关；3)对于改善SRP函数定位效果存在重要作用。

在低信噪比下的全频带GCC存在较多的旁瓣和伪峰，会导致SRP产生一种波纹效应，造成SRP空间谱更容易受到其他因素的干扰导致定位失效。

请参阅图3和图4，通过实际接收信号中展示了全频带GCC和修正后子带GCC和对比，可以观察到，基于期望值最大算法的广义互相关特征(EM-GCC)提高了时延精度并降低了伪峰幅值，起到了波形平滑的作用。由于基于相位变换的广义互相关特征(GCC-PHAT)的峰值区间较窄，在网格点计算可控响应功率(SRP)时将采用随机值，而EM-GCC保证了其在网格处采样得到一个可用的最大值，从而使得SRP能够在该网格点处正常生成。

在本实施例的步骤S140中，根据所述第一广义互相关特征和所述目标声源权重确定第二广义互相关特征，第二广义互相关特征为目标声源权重所对应的预设频带的广义互相关特征，根据可控响应功率函数和所述第二广义互相关特征，获取目标可控响应功率包括：根据可控响应功率函数和所述第二广义互相关特征获取可控响应功率，并确定最大的可控响应功率为目标可控响应功率，所述第二广义互相关特征为目标声源权重所对应的预设频带下所有传感器的广义互相关特征；

可控响应功率的数学表达为：

其中，m、n均为传感器的标号，

在本实施例的步骤S150中，将预设候选区域划分为若干个网格区域，并根据所述网格区域获取所述目标可控响应功率所对应的位置信息，得到目标位置信息；从而实现对声源的定位，解决现有技术中由环境噪声干扰和混响等因素所导致的声源定位不准确的问题。

本发明实施例提供的声源定位方法。利用原始数据直接进行定位计算，信息丢失较少的SRP定位算法，并据此提出了先进行期望最大化算法处理并再此基础上获取可控响应功率即本发明中的声源定位方法(EM-SRP)。首先在重构子频带GCC的基础上利用高斯函数进行波形调制，然后通过各子带GCC的加权系数比较，选取最优频带，最后应用到SRP定位算法中求解声源位置。EM-SRP在保留时延信息的同时，可有效降低函数的伪峰，峰值展宽与网格尺度相对应。通过数据仿真以及户外实验将EM-SRP与其他常用方法进行了比较，在大尺度网格下仍然保持了良好的准确性和稳定性。

在一实施例中，基于数据仿真采用真实录音作为声源来分析本方案的声源定位方法(EM-SPR)的性能。整个基于数据仿真分析声源定位的过程中涉及的实验都是在二维定位下进行，模拟场景是一个4×7m的矩形房间，传感器的个数为6，6个传声器分别位于[0,0],[0,4],[0,7],[4,0],[4,4],[4,7]，声速c设定为340m/s。在相同场景下，声源使用一段3s的纯净男声，采样率为44.1kHz。通过真实声源位置和估计声源位置之间的均方根误差(RootMean Squared Error,RMSE)对比不同算法性能。信号处理使用长度为4096的窗函数，并具有50％重叠，共获得93帧源音频数据，按照信噪比添加高斯白噪声(SNR∈{-10,-5,0,5,10}dB)。本方案中声源定位方法(EM-SPR)的预设频带的频率范围为0～1500Hz，将每个传感器所采集的目标频域信号分别划分为每个传感器所对应的8个子频域信号，得到48个子频域信号，每个预设频带的带宽为200Hz，预设频带总数L＝8，迭代次数η＝5。

在不同信噪比下，使用两种不同的混响时间(T₆₀＝0.2s和T₆₀＝0.6s)重复模拟，并与各种算法在不同的空间网格分辨率(r₁＝0.1m,r₂＝0.5m)处理所得均方根误差进行比较。

请参阅图5-8，图5-8中的横坐标为信噪比(SNR)，纵坐标为性能精度的均方根误差(RMSE)，通过仿真数据给出了各算法的性能对比。从图5和图6可以看到，在低混响和高信噪比的情况下，所有算法性能表现较好，对于较小的网格分辨率，可以观察到相位变换可控功率响应(PHAT-SRP)的定位误差也能与其他算法趋于一致；然而，对于较大的网格分辨率，各算法的定位偏差都有所增大，传统PHAT-SRP性能下降最为明显，但EM-SRP始终位于曲线下方，特别是在低信噪比下，EM-SRP的定位偏差明显低于其他算法。SVD-SPR为奇异值分解可控响应功率，WSVD-SRP为加权奇异值分解可控响应功率，SCOT-SRP为平滑相干可控响应功率，ROTH-SRP为维纳滤波脉冲响应可控响应功率。图7和图8给出了在高混响下统计的均方根误差，SRP-PHAT方法会出现毫不相干的较大偏差的估计值，这主要是错误位置产生的许多空间极大值使真正声源位置的空间峰值变得不明显，从而使全局峰值的搜索出错。随着信噪比的提升，各算法的定位偏差逐渐降低，但始终位于EM-SRP上方。因此，在网格分辨率相同的情况下，EM-SRP方法无论在抗噪性能还是在抗混响能力上均得到较好的改善。

请参阅图9-10，图9-10的横坐标为信噪比，纵坐标为定位成功率(Px)，为了进一步验证本文声源定位方法的有效性，采用定位成功率评估各算法的鲁棒性。用x_s表示真实声源位置，

表示第k帧信号得到的声源位置估计，若估计的误差不大于ε，即

ε为预设的判别值，则该次定位估计就是成功的，否则不成功。定位成功率的数学表达为：

式中，N_suc表示定位成功的次数，N_total表示总的定位次数，

为定位成功率。定位误差分布曲线越靠近右上角，也就是越接近100％，估计出发散的结果越少对应的算法鲁棒性越好。不同算法的定位成功率曲线如图9-10所示，在混响和高斯白噪声环境下，网格尺度为0.3m，预判值

本文方法的定位正确率均优于SRP-PHAT算法和其他算法；尤其在低信噪比环境中，EM-SRP算法定位正确率提升明显。仿真结果显示本文方法对混响和低信噪比的鲁棒性更强。

请参阅图11-12，图11-12中可以观察到不同信噪比下统计的定位误差，图11的横坐标为横坐标为信噪比，纵坐标为性能精度的平均误差，图12的横坐标为信噪比，纵坐标为性能精度的标准偏差。随着信噪比降低，信号分量逐渐被噪声湮没，定位误差逐渐增大。EM-SRP的平均误差和标准偏差始终保持最小，并在-10dB以上均保持了稳定的定位性能，适用于信噪比更低的环境。

在一实施例中，采用户外测试实验来分析本方案的声源定位方法(EM-SPR)的性能，请参阅图13-17。图13中的横纵坐标就是传感器和声源的位置坐标，node表示节点，source表示声源。户外测试实验在一个露天草地进行，共布设了7个无线传声器节点，每个节点包含用于信号采集的传声器，用于数据传输的Wi-Fi模块和高精度差分自定位及全局时间同步模块。节点布置间距大于20米，检测搜索范围设为200×200×10区域，布设区域内存在地形起伏。采用便携式音响箱在随机在12个位置播放了三种声音(声源)，包括：

1)高斯信号(简称SG)，代表一般的宽带声源；

2)机动车鸣笛(简称SV)，代表城市噪声源监控的典型应用；

3)鸟鸣(简称SB)，代表野外环境监控的典型应用；

采用7个传感器分别采集这三种声源产生的声源信号，并采用本方案的声源定位方法(EM-SPR)对其进行处理。传感器和声源的平面位置请参阅图13。系统的采样频率为10000Hz，系统采样同步误差小于1us，节点自定位误差小于0.1m。对于三类声源，所有可用的信号源被分割为1242帧，帧长为2s的7通道录音信号。

在户外环境下，各节点的实际接收信噪比随着声源距离和遮挡条件的不同而存在较大的差别。用谱减法提取信号成分，在不同距离下对信噪比进行了估计，采用声源30m处的信号估计接收信号中背景噪声以及三种声源信号的功率谱，请参阅图14，图14的横坐标为频率，纵坐标为功率谱密度，环境噪声集中在1500Hz以下，对于所有类型的声源，统一采用频率区间1500～3500Hz作为信号通带，全通信号(0～5000Hz)与带通信号(1500～3500Hz)的信噪比曲线分别如图15和图16所示，图15-16的横坐标为网格间距，纵坐标为信噪比。对于三类声源，通带区间显著提升了信噪比(20～30dB)。

奇异值分解(SVD-SPR)和加权奇异值分解(WSVD-SPR)方法的参数为1024(频谱窗口长度)和128(跳频)，预设频带总数L＝76。本文算法在1500～3500Hz采用200Hz的带宽划分频带，预设频带总数L＝10，迭代次数η＝10。并与PHAT-SPR、ROTH-SPR、和SCOT-SPR方法的结果比较。

计算定位结果的平均绝对误差(MAE)和相对距离估计误差的累积分布函数(CDF)来评估这些算法的准确性和稳定性，即

式中，x表示真实声源位置，

表示SRP估计声源位置，L_e表示定位距离误差。

请参阅图17，图17的横坐标为网格间距，纵坐标为性能精度的平均定位误差(MAE)。由平均定位误差曲线可知。在网格间距很小的条件下，EM-SRP、SVD-SRP和WSVD-SRP都能实现较好的定位。随着网格间距的增大，SVD-SRP和WSVD-SRP算法定位误差迅速增大，由于TDOA算法与网格无关，因此其CDF曲线不发生变化。EM-SRP算法在各个尺寸下都获得了更好的结果。由此可知，EM-GCC应用于SRP定位时，可以获得准确性更好的定位结果。

基于与声源定位方法相同的发明构思，相应的，本实施例还提供了一种语义分割系统。在本实施例中，该声源定位系统执行上述任一实施例所述的声源定位方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图18为本发明提供的声源定位系统的结构示意图。

如图18所示，声源定位系统包括：11映射模块、12目标模型建立模块、以及13目标结果获取模块。

其中，频域信号模块，用于利用若干个传感器采集同一声源所产生的目标声源信号，并分别对若干个传感器所采集的目标声源信号进行频谱变换，得到若干个目标频域信号；

特征提取模块，用于根据若干个预设频带将每个目标频域信号划分别分为若干个子频域信号，并采用广义互相关算法提取同一预设频带下子频域信号的第一广义互相关特征；

目标权重模块，用于建立广义互相关特征与声源权重的映射关系，将第一广义互相关特征和映射关系带入期望最大化算法的条件期望函数中，并进行多次迭代，得到目标声源权重；

目标功率模块，用于根据第一广义互相关特征和目标声源权重确定第二广义互相关特征，并根据可控响应功率函数和第二广义互相关特征，获取目标可控响应功率；

目标定位模块，用于将预设候选区域划分为若干个网格区域，根据网格区域获取目标可控响应功率所对应的位置信息，得到目标位置信息，频域信号模块、特征提取模块、目标权重模块、目标功率模块和目标定位模块相连接。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本实施例中的任一项方法。

在一个实施例中，本实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上任一项实施例所述方法的步骤。

本实施例中的计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供的电子设备，包括处理器、存储器、收发器和通信接口，存储器和通信接口与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于进行通信，处理器和收发器用于运行计算机程序，使电子设备执行如上方法的各个步骤。

在本实施例中，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在上述实施例中，说明书对“本实施例”、“一实施例”、“另一实施例”、“在一些示例性实施例”或“其他实施例”的提及表示结合实施例说明的特定特征、结构或特性包括在至少一些实施例中，但不必是全部实施例。“本实施例”、“一实施例”、“另一实施例”的多次出现不一定全部都指代相同的实施例。

在上述实施例中，尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变形对本领域普通技术人员来说将是显而易见的。例如，其他存储结构(例如，动态RAM(DRAM))可以使用所讨论的实施例。本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。