CN110837077B

CN110837077B - 一种声源位置校验方法及装置

Info

Publication number: CN110837077B
Application number: CN201810933246.2A
Authority: CN
Inventors: 王科; 裴建军; 沈涛; 于建志
Original assignee: Hangzhou Hikvision System Technology Co Ltd
Current assignee: Hangzhou Hikvision System Technology Co Ltd
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2021-11-19
Anticipated expiration: 2038-08-16
Also published as: CN110837077A

Abstract

本申请实施例提供了一种声源位置校验方法，所述方法包括：获取两份针对同一场景且同时采集的声音信号；针对每份声音信号，确定该份声音信号对应的声源位置；将所确定的两个声源位置进行对比；若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置。这样，通过将所确定的两个声源位置进行对比，检验这两个声源位置的有效性，减少了对声源的误判。

Description

一种声源位置校验方法及装置

技术领域

本发明涉及声源检测技术领域，特别是涉及一种声源位置校验方法及装置。

背景技术

一些场景中，通常需要对声源进行定位。比如，如果有车辆在道路上违章鸣笛，则需要通过对鸣笛声进行定位，确定违章鸣笛的车辆，从而便于对违章鸣笛车辆进行警告或处罚。

现有的声源定位方法通常是利用麦克风阵列接收声音，通过分析声音的频谱特性，确定声源位置。

但是，接收到的声音中通常伴有非常嘈杂的环境噪音，这就使得所确定的声源位置不够准确，上述声源定位方法会导致对声源的误判。

发明内容

本申请实施例的目的在于提供一种声源位置校验方法及装置，以减少对声源的误判。具体技术方案如下：

本申请实施例提供了一种声源位置校验方法，所述方法包括：

获取两份针对同一场景且同时采集的声音信号；

针对每份声音信号，确定该份声音信号对应的声源位置；

将所确定的两个声源位置进行对比；

若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置。

可选的，所述针对每份声音信号，确定该份声音信号对应的声源位置，包括：

针对每份声音信号，根据采集该份声音信号的麦克风阵列中各麦克风之间接收到该份声音信号的时间差，确定声源位置。

可选的，所述将所确定的两个声源位置进行对比，包括：

计算所述两个声源位置之间的距离；

所述若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置，包括：

若所述距离不大于预设第一阈值，则执行所述确定所述两个声源位置为有效声源位置的步骤。

可选的，所述计算所述两个声源位置之间的距离，包括：

计算所述两个声源位置之间的空间距离；

或者，计算所述两个声源位置投影至预设平面后的距离。

可选的，在所述获取两份针对同一场景且同时采集的声音信号之后，还包括：

针对每份声音信号，通过对该份声音信号的频谱特征进行分析，确定该份声音信号的置信半径；

所述将所确定的两个声源位置进行对比，包括：

针对每个声源位置，基于该声源位置及对应的置信半径，确定该声源位置的置信空间；

计算所确定的两个声源位置的置信空间之间的重合度；

若所述重合度大于预设第二阈值，则执行所述确定所述两个声源位置为有效声源位置的步骤。

可选的，所述计算所确定的两个声源位置的置信空间之间的重合度，包括：

计算所确定的两个声源位置的置信空间之间的重合体积，作为重合度；

或者，计算所确定的两个声源位置的置信空间投影至各个平面后的重合面积，作为重合度。

所述将所确定的两个声源位置进行对比，包括：

针对每个声源位置，基于该声源位置及对应的置信半径，确定该份声音信号的声源位置的置信空间；

计算所确定的两个声源位置之间的距离、以及所确定的两个声源位置的置信空间之间的重合度；对所确定的两个声源位置对应的距离及重合度进行加权融合，得到所确定的两个声源位置的对比参数；

若所述对比参数大于预设第三阈值，则执行所述确定所述两个声源位置为有效声源位置的步骤。

可选的，所述计算所确定的两个声源位置之间的距离，包括：

计算所确定的两个声源位置之间的空间距离、以及投影至各个平面后的距离；

所述计算所确定的两个声源位置的置信空间之间的重合度，包括：

计算所确定的两个声源位置的置信空间之间的重合体积、以及投影至各个平面后的重合面积；

所述对所确定的两个声源位置对应的距离及重合度进行加权融合，得到所确定的两个声源位置的对比参数，包括：

根据预设的距离参数和重合度参数，对所确定的两个声源位置对应的距离及重合度进行加权融合，得到所确定的两个声源位置的对比参数。

可选的，通过以下公式，根据预设的距离参数和重合度参数，对所确定的两个声源位置对应的距离及重合度进行加权融合，得到所确定的两个声音位置的对比参数：

δ＝δ₁+δ_xy+δ_yz+δ_xz

其中，所述两个声源位置包括第一声源位置和第二声源位置，x₁表示第一声源位置的x轴坐标，y₁表示第一声源位置的y轴坐标，z₁表示第一声源位置的z轴坐标，x₂表示第一声源位置的x轴坐标，y₂表示第一声源位置的y轴坐标，z₂表示第一声源位置的z轴坐标，δ₁表示空间指标，λ₁表示预设的空间距离参数，μ₁表示预设的空间重合度参数，Φ表示空间重合度，δ_xy表示x-y轴平面指标，λ_xy表示预设的x-y轴平面距离参数，μ_xy表示预设的x-y轴平面重合度参数，Φ_xy表示预设的x-y轴平面重合度，δ_yz表示y-z轴平面指标，λ_yz表示预设的y-z轴平面距离参数，μ_yz表示预设的y-z轴平面重合度参数，Φ_yz表示预设的y-z轴平面重合度，δ_xz表示x-z轴平面指标，λ_xz表示预设的x-z轴平面距离参数，μ_xz表示预设的x-z轴平面重合度参数，Φ_xz表示预设的x-z轴平面重合度，δ表示综合指标。

可选的，在所述若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置之后，还包括：

基于每个有效声源位置，得到声源位置的定位结果。

可选的，所述基于每个有效声源位置，得到声源位置的定位结果，包括：

针对每个有效声源位置，通过对该有效声源位置对应的声音信号的频谱特征进行分析，确定该有效声源位置的置信半径；

基于每个有效声源位置及每个有效声源位置的置信半径，得到声源位置的定位结果。

可选的，所述基于每个有效声源位置及每个有效声源位置的置信半径，得到声源位置的定位结果，包括：

根据每个有效声源位置的置信半径，为该有效声源位置分配相应的权重；

按照所分配的权重，对所述有效声源位置进行加权计算，得到声源位置的定位结果。

可选的，所述方法还包括：

在所述获取两份针对同一场景且同时采集的声音信号之后，获取当前场景的图像，所述当前场景的图像中包括一个或多个目标；

根据所述当前场景的图像及所述有效声源位置，从所述一个或多个目标中确定待识别目标；

获取所述待识别目标的身份信息。

可选的，在所述获取当前场景的图像之前，所述方法还包括：

判断当前时刻与上一次获取N份声音信号的时刻之间的差值是否大于预设第四阈值；

若大于，则执行获取当前场景的图像的步骤。

可选的，在所述获取所述待识别目标的身份信息之后，所述方法还包括：

根据所述待识别目标的身份信息，向所述待识别目标对应的通信设备推送通知信息。

本申请实施例还提供了一种声源位置校验装置，所述装置包括：

声音获取模块，用于获取两份针对同一场景且同时采集的声音信号；

声源定位模块，用于针对每份声音信号，确定该份声音信号对应的声源位置；

声源位置对比模块，用于将所确定的两个声源位置进行对比；

有效声源确定模块，用于若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置。

可选的，所述声源定位模块，具体用于：

可选的，所述声源位置对比模块，具体用于：

计算所述两个声源位置之间的距离；

可选的，所述声源位置对比模块，具体用于：

计算所述两个声源位置之间的空间距离；

或者，计算所述两个声源位置投影至预设平面后的距离。

可选的，所述声源定位模块，还用于：

所述声源位置对比模块，还用于：

计算所确定的两个声源位置的置信空间之间的重合度；

所述有效声源确定模块，还用于：

可选的，所述声源位置对比模块，还用于：

可选的，所述声源定位模块，还用于：

所述声源位置对比模块，还用于：

所述有效声源确定模块，还用于：

可选的，所述声源位置对比模块，还用于：

通过以下公式，根据预设的距离参数和重合度参数，对所确定的两个声源位置对应的距离及重合度进行加权融合，得到所确定的两个声音位置的对比参数：

δ＝δ₁+δ_xy+δ_yz+δ_xz

可选的，所述装置还包括：

定位结果确定模块，用于基于每个有效声源位置，得到声源位置的定位结果。

可选的，所述定位结果确定模块，还用于：

可选的，所述声音获取模块，还用于：

在所述获取两份针对同一场景且同时采集的声音信号之后，触发图像获取模块；

所述图像获取模块，用于获取当前场景的图像，所述当前场景的图像中包括一个或多个目标；

目标识别模块，用于根据所述当前场景的图像及所述有效声源位置，从所述一个或多个目标中确定待识别目标；获取所述待识别目标的身份信息。

可选的，所述声音获取模块，还用于：

若大于，则执行触发所述图像获取模块的步骤。

可选的，所述装置还包括：

信息推送模块，用于根据所述待识别目标的身份信息，向所述待识别目标对应的通信设备推送通知信息。

本申请实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的声源位置校验方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的声源位置校验方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的声源位置校验方法。

本申请实施例提供的声源位置校验方法及装置，通过获取两份针对同一场景且同时采集的声音信号，确定每份声音信号对应的声源位置，然后将所确定的两个声源位置进行对比，若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置。这样，通过将所确定的两个声源位置进行对比，检验这两个声源位置的有效性，减少了对声源的误判。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的声源位置校验方法的第一种流程示意图；

图2为一种实现方式中，根据两个声源位置及其置信半径，对该两个声源位置进行对比的示意图；

图3为一种实现方式中，向待识别目标对应的通信设备推送通知信息的一种平台架构示意图；

图4为本申请实施例提供的声源位置校验方法的第二种流程示意图；

图5为本申请实施例提供的一种声源位置校验装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一些场景中，通常需要对声源进行定位。比如，如果有车辆在道路上违章鸣笛，则需要通过对鸣笛声进行定位，确定违章鸣笛的车辆，从而便于对违章鸣笛车辆进行警告或处罚，或者，对某一区域进行监控时，如果监测到异常的声音，则需要定位声源位置，进而对声源位置进行排查，减少隐患。

相关的声源定位方法通常是利用麦克风阵列接收声音，通过分析声音的频谱特性，确定声源的方向及距离，进而确定声源位置。但是，通常情况下，接收到的声音中会伴有非常嘈杂的环境噪音，而环境噪音会对声音的频谱特性产生影响，这就使得所确定的声源位置不够准确，导致对声源的误判。

为了解决上述技术问题，本申请实施例提供了一种声源位置校验方法和装置。本方案可以应用于各种电子设备，如计算机、服务器、移动终端或声音采集设备等。

下面从总体上对本申请实施例提供的声源位置校验方法进行说明。

一种实现方式中，上述声源位置校验方法包括：

获取两份针对同一场景且同时采集的声音信号；

针对每份声音信号，确定该份声音信号对应的声源位置；

将所确定的两个声源位置进行对比；

由以上可见，本申请实施例提供的声源位置校验方法，通过将所确定的两个声源位置进行对比，检验这两个声源位置的有效性，减少了对声源的误判。

下面将通过具体的实施例，对本申请实施例提供的声源位置校验方法进行详细描述。

如图1所示，为本申请实施例提供的声源位置校验方法的第一种流程示意图，包括如下步骤：

S101：获取两份针对同一场景且同时采集的声音信号。

该两份声音信号为针对同一场景且同时采集的声音信号。举例来说，可以在场景中设备两台采集设备，这两台采集设备同时针对该场景进行声音采集。假设各台采集设备分别采集到同一时刻场景中的声音信号，并将该声音信号发送至执行本方案的电子设备(执行主体，以下简称电子设备)。该两台采集设备与电子设备通信连接，或者，该两台采集设备也可以为电子设备的内置部件，具体不做限定。

一种情况下，两份声音信号可以是由彼此之间间隔一段预设距离的两个麦克风阵列采集的，预设距离越长，同一噪音对两份声音信号造成干扰的可能性越低，则声源位置校验更有效。通常，当预设距离设置为1米或1米以上时，声源位置校验的效果较好。

S102：针对每份声音信号，确定该份声音信号对应的声源位置。

利用声源定位算法，可以对获取到的每份声音信号进行定位，确定其对应的声源位置。

具体的，一种实现方式中，可以利用基于时间差的算法计算声源位置，首先，可以根据采集声音信号的麦克风阵列中各麦克风之间接收到声音信号的时间差，确定声源位置。

可以理解，由于声音的传播速度是一定的，因此，通过各个麦克风接收到声音信号的时间之差，可以计算出声源与各个麦克风之间的距离之差，根据每两个麦克风之间的距离以及声源与该两个麦克风之间的距离差，就可以确定出一条双曲线，进而，根据每两个麦克风之间所确定的双曲线之间的交点，可以确定声源位置。

其中，确定声源距离之前，可以先通过麦克风阵列每一列中的一对麦克单独进行采集声音信号，并比较各声音信号的信号强度，从中选取信号强度最强的一对麦克风所在的列，再利用该列中每对麦克风采集到的声音信号确定声源距离，从而提高声源定位的准确率，并减少计算量。

另一种实现方式中，还可以采用基于高分辨率谱估计的算法，或者，采用基于稀疏表示的算法计算声源位置，具体不做限定。

在确定每份声音信号的声源位置之前，可以对所获取的声音信号进行分析，得到每份声音信号的频谱特征，然后，根据每份声音信号的频谱特征，判断该份声音信号是否满足第一预设条件，若满足，再执行确定该份声音信号的声源位置的步骤，这样，可以只对满足第一预设条件的声音信号进行声源定位，减少了不必要的声源定位过程。

具体的，第一预设条件可以是该份声音信号的振幅大于预设振幅阈值，若大于，则表明该份声音信号的音量大于预设音量；可以理解，仅在声音信号音量较大的情况下，触发获取场景图像，从而减少对场景中的噪音或者距离较远的不稳定的声音信号的声源定位过程；

或者，第一预设条件还可以是该份声音信号的波形与预设波形的匹配度大于预设的匹配度阈值，则可以判断出该份声音信号为预设的某种声音信号，比如，预设波形可以为车辆鸣笛声的波形，这样，只有当判定声音信号为鸣笛声时，才对该份声音信号进行定位，确定其声源位置。

S103：将所确定的两个声源位置进行对比。

一种实现方式中，可以直接根据两个声源位置之间的距离，对该两个声源位置进行对比。其中，如果计算得到的声源位置是平面坐标，那么，每两个声源位置之间的距离可以是该两个声源位置之间的平面距离；如果计算得到的声源位置是空间坐标，那么，每两个声源位置之间的距离可以是该两个声源位置之间的空间距离，或者，也可以是先将该两个声源位置投影至预设平面后，再计算得到的该两个声源位置在其投影平面的平面距离。

在另一种实现方式中，还可以根据每两个声源位置的重合度，对该两个声源位置进行对比。那么，首先，在获取两份声音信号之后，可以对每份声音信号的频谱特征进行分析，得到每份声音信号的频谱分布，进而根据每份声音信号的频谱分布情况，确定每份声音信号的置信半径；

如果计算得到的声源位置是平面坐标，那么，可以根据每个声源位置及其对应的置信半径，直接计算得到每个声源位置的置信面积，进而，计算每两个声源位置的置信面积之间的重合面积，作为该两个声源位置的重合度；

如果计算得到的声源位置是空间坐标，那么，可以在对所确定的两个声源位置进行对比时，基于每份声音信号的声源位置、及其对应的置信半径，确定该份声音信号的置信空间，也就是其声源位置的置信空间，进而，可以针对所确定的每两个声源位置的置信空间，计算该两个置信空间之间的重合体积，作为该两个声源位置的重合度；

或者，也可以先将该两个声源位置投影至预设平面后，再计算该两个声源位置在其投影平面的置信面积，进而，计算每两个声源位置的置信面积之间的重合面积，作为该两个声源位置的重合度。

如图2所示，图2为根据两个声源位置及其置信半径，对该两个声源位置进行对比的示意图。

其中，一种情况下，该两个声源位置可以是x-y平面内的平面坐标(x₁，y₁)和(x₂，y₂)，这样，可以直接根据该两个声源位置之间的平面距离

对该两个声源位置进行对比，也可以在确定该两个声源位置对应的置信半径之后，根据其置信面积之间的重合面积，即图2中x-y平面内两个圆的重合部分，作为该两个声源位置的重合度，对该两个声源位置进行对比；

另一情况下，该两个声源位置可以是x-y-z空间坐标内的空间坐标(x₁，y₁，z₁)和(x₂，y₂，z₂)，这样，可以直接根据该两个声源位置之间的空间距离

对该两个声源位置进行对比；也可以先将该两个声源位置投影至预设平面后，再计算得到的该两个声源位置在其投影平面的平面距离，比如，将其投影至x-y平面内，则该两个声源位置在其投影平面的平面距离为

或者，可以在确定该两个声源位置对应的置信半径之后，根据其置信空间之间的重合体积，即图2中两个球形空间的重合部分，作为该两个声源位置的重合度，对该两个声源位置进行对比，也可以先将该两个声源位置投影至预设平面后，再计算每两个声源位置的置信面积之间的重合面积，比如，将其投影至x-y平面内，则该两个声源位置在其投影平面的重合面积为图2中x-y平面内两个圆的重合部分。

另外，在另一种实现方式中，可以根据每两个声源位置之间的距离、以及该两个声源位置的置信空间之间的重合度，对该两个声源位置进行对比。

具体的，首先，在获取两份声音信号之后，可以对每份声音信号的频谱特征进行分析，得到每份声音信号的频谱分布，进而根据每份声音信号的频谱分布情况，确定每份声音信号的置信半径；然后，可以针对每两个声源位置，计算该两个声源位置之间的距离、以及该两个声源位置的置信空间之间的重合度；进而对该两个声源位置对应的距离及重合度进行加权融合，得到该两个声源位置的对比参数。

其中，两个声源位置之间的距离、以及该两个声源位置的置信空间之间的重合度可以是其空间距离及重合体积，进一步的，也可以是该两个声源位置之间的空间距离、该两个声源位置投影至各个平面后在其投影平面的平面距离、该两个置信空间之间的重合体积、以及该两个声源位置投影至各个平面后在其投影平面的置信面积之间的重合面积。在对两个声源位置对应的距离及重合度进行加权融合时，可以利用预设的距离参数和重合度参数进行计算，使得得到的对比参数更有效。

在上述实现方式中，可以通过以下公式，计算两个声音位置的对比参数：

δ＝δ₁+δ_xy+δ_yz+δ_xz

其中，两个声源位置包括第一声源位置和第二声源位置，x₁表示第一声源位置的x轴坐标，y₁表示第一声源位置的y轴坐标，z₁表示第一声源位置的z轴坐标，x₂表示第一声源位置的x轴坐标，y₂表示第一声源位置的y轴坐标，z₂表示第一声源位置的z轴坐标，δ₁表示空间指标，λ₁表示预设的空间距离参数，μ₁表示预设的空间重合度参数，Φ表示空间重合度，δ_xy表示x-y轴平面指标，λ_xy表示预设的x-y轴平面距离参数，μ_xy表示预设的x-y轴平面重合度参数，Φ_xy表示预设的x-y轴平面重合度，δ_yz表示y-z轴平面指标，λ_yz表示预设的y-z轴平面距离参数，μ_yz表示预设的y-z轴平面重合度参数，Φ_yz表示预设的y-z轴平面重合度，δ_xz表示x-z轴平面指标，λ_xz表示预设的x-z轴平面距离参数，μ_xz表示预设的x-z轴平面重合度参数，Φ_xz表示预设的x-z轴平面重合度，δ表示综合指标。

S104：若对比结果满足预设条件，则确定两个声源位置为有效声源位置。

通过对对比结果的分析和判断，可以判断两个声源位置是否为有效声源位置，从而实现声源位置校验。

具体的，如果是根据两个声源位置之间的距离进行对比，则预设条件可以为：两个声源位置之间的距离不大于预设第一阈值；如果是根据每两个声源位置的重合度进行对比，则预设条件可以为：两个声源位置之间的重合度大于预设第二阈值；如果是根据两个声源位置的对比参数进行对比，则预设条件可以为：两个声源位置的对比参数大于预设第三阈值。

在一种实现方式中，确定出有效声源位置后，可以进一步计算声源位置的定位结果，也就是消除所确定的多个有效声源位置之间的误差，得到一个声源定位结果，从而便于进一步确定发出声音信号的目标。

具体的，可以直接计算所确定的有效声源位置的平均值。或者，可以对有效声源位置对应的声音信号进行分析，得到其对应的置信半径，然后基于每个有效声源位置及每个有效声源位置的置信半径，得到声源位置的定位结果，比如，可以选择置信半径最小的有效声源位置，作为定位结果；或者，可以根据置信半径，为每个有效声源位置分配相应的权重，按照所分配的权重，对所有有效声源位置进行加权计算，得到声源位置的定位结果，具体不做限定。

举例而言，假设有效声源位置分别为(x₁，y₁，z₁)和(x₂，y₂，z₂)，其置信半径分别为d₁和d₂，则声源位置的定位结果可以通过以下公式确定：

在上述公式中，

为根据置信半径为(x₁，y₁，z₁)分配的权重，

为根据置信半径为(x₂，y₂，z₂)分配的权重。

一种实现方式中，可以通过获取当前场景的图像，在确定有效声源位置之后，进一步确定发出声音信号的目标。具体的，可以在获取两份声音信号之后，获取当前场景的图像，在当前场景的图像中，通常包括一个或多个目标，然后，根据当前场景的图像及所确定的有效声源位置，就可以从一个或多个目标中确定待识别目标，进而获取待识别目标的身份信息。进一步的，可以根据当前场景的图像及所确定的声源定位结果确定待识别目标，使得所确定的待识别目标更准确。

可以将图像采集设备设置在采集声音信号的麦克风阵列附近，从而使得图像采集设备采集图像的范围和麦克风阵列采集声音信号的范围是大致相同的，或者说，两者之间存在重合的部分，这样，就可以将声源位置坐标与当前场景的图像坐标进行关联，从而便于从当前场景图像中确定待识别目标。

举例而言，一种实现方式中，可以根据声源位置坐标与当前场景的图像坐标的对应关系，在当前场景的图像中确定待识别目标。具体的，确定声源位置坐标与当前场景的图像坐标的对应关系的方法可以包括：预先在当前场景中确定一些采样点，在这些采样点处发送声音信号，通过计算获取这些声音信号对应的声源位置坐标、以及这些采样点在当前场景图像中的坐标，建立声源位置坐标与图像坐标之间的映射关系，这样，就可以直接确定声源位置坐标在当前场景的图像坐标，进而，可以在声源位置坐标对应的图像坐标处，确定出待识别目标。

或者，在另一种实现方式中，还可以根据当前场景图像的目标识别结果，与声源位置坐标进行匹配，在当前场景图像中确定待识别目标。具体的，首先可以对当前场景图像进行目标识别，识别出当前场景的所有候选目标，然后计算出每个候选目标的地理位置，进而将声源位置坐标与每个候选目标的地理位置进行匹配，将匹配成功的地理位置处的候选目标确定为待识别目标。

或者，还可以通过其他的方式，将声源位置坐标与场景图像对应，从而确定待识别目标，具体不做限定。

其中，待识别目标的身份信息可以是其车牌号、面部特征等等，而获取待识别目标的身份信息的方式，可以是直接对当前场景的图像进行监测，从中获取待识别目标的身份信息；

也可以在确定待识别目标之后，进一步获取针对待识别目标采集的具有较高的清晰度的细节图像，通过分析细节图像，得到待识别目标的身份信息，举例而言，如果待识别目标为道路上的车辆，那么，可以获取该车辆对应的卡口抓拍图像，通过对卡口抓拍图像的分析，得到该车辆的身份信息。

进一步的，在获取当前场景的图像之前，可以判断当前时刻与上一次获取两份声音信号的时刻之间的差值是否大于预设第四阈值，若大于，再执行获取当前场景的图像的步骤。这样，可以减少同一目标在短时间内连续发出声音信号而导致图像采集设备多次对同一场景进行图像采集的现象，比如，当道路上的同一车辆连续鸣笛时，第一声鸣笛时，采集当前场景的图像，而后续鸣笛声与前一次鸣笛之间的时间不会大于预设第四阈值，因此，不会继续采集当前场景的图像。

其中，采集当前场景的图像的图像采集设备可以是摄像机、视频录像机等等，进一步的，可以选择低照度、宽动态性能的图像采集设备，并为其增设补光灯，从而提高在夜间或对运动速度较快的目标的拍摄清晰度，便于在各种环境中对发出声音信号的目标的识别。

获取所述待识别目标的身份信息之后，可以根据待识别目标的身份信息，向待识别目标对应的通信设备推送通知信息，其中，通知信息中可以包括声源位置、当前场景图像、声音信号的声纹图像、当前场景的监控视频等等。

举例而言，假设是对道路中的鸣笛声进行声源位置校验和鸣笛车辆识别，那么，在确定出鸣笛车辆之后，可以通过如图3所示的平台，向鸣笛车辆驾驶者的手机推送通知信息。首先，在中心数据库中，存储着各个车辆的车牌号与其对应的驾驶者的手机号，当确定出鸣笛车辆的车牌号之后，中心通讯模块可以将所确定的车牌号、当前场景的监控视频、卡口抓拍图像等数据传送至中心平台，然后，中心平台可以在中心数据库中查找该车牌号对应的手机号，进而，通过讯息推送模块，将这些数据发送至驾驶者的手机中，同时也可以将当前场景的监控视频、卡口抓拍图像等数据保存至中心数据库中，以便后续的查询。一种实现方式中，中心通信模块上传的数据中还包括有效声源位置对应的声音信号的声纹图像，并且该声纹图像会叠加到当前场景的监控图像中，发送至驾驶者的手机中。

由以上可见，本申请实施例提供的声源位置校验方法，通过获取两份针对同一场景且同时采集的声音信号，确定每份声音信号对应的声源位置，然后将所确定的两个声源位置进行对比，若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置。这样，通过将所确定的两个声源位置进行对比，检验这两个声源位置的有效性，减少了对声源的误判。

如图4所示，为本申请实施例提供的声源位置校验方法的第一种流程示意图，包括如下步骤：

S401：获取两份针对同一场景且同时采集的声音信号。

S402：获取当前场景的图像，当前场景的图像中包括一个或多个目标。

在获取当前场景的图像之前，可以判断当前时刻与上一次获取两份声音信号的时刻之间的差值是否大于预设第四阈值，若大于，再执行获取当前场景的图像的步骤。这样，可以减少同一目标在短时间内连续发出声音信号而导致图像采集设备多次对同一场景进行图像采集的现象，比如，当道路上的同一车辆连续鸣笛时，第一声鸣笛时，采集当前场景的图像，而后续鸣笛声与前一次鸣笛之间的时间不会大于预设第四阈值，因此，不会继续采集当前场景的图像。

其中，采集当前场景的图像的图像采集设备可以是摄像机，进一步的，可以选择低照度、宽动态性能的图像采集设备，并为其增设补光灯，从而提高在夜间或对运动速度较快的目标的拍摄清晰度，便于在各种环境中对发出声音信号的目标的识别。

S403：针对每份声音信号，确定该份声音信号对应的声源位置。

S404：将所确定的两个声源位置进行对比。

举例而言，一种情况下，该两个声源位置可以是平面坐标(x₁，y₁)和(x₂，y₂)，这样，可以直接根据该两个声源位置之间的平面距离

对该两个声源位置进行对比，也可以在确定该两个声源位置对应的置信半径之后，根据其置信面积之间的重合面积，即x-y平面内两个圆的重合部分，作为该两个声源位置的重合度，对该两个声源位置进行对比；

另一情况下，该两个声源位置可以是空间坐标(x₁，y₁，z₁)和(x₂，y₂，z₂)，这样，可以直接根据该两个声源位置之间的空间距离

对该两个声源位置进行对比，也可以先将该两个声源位置投影至预设平面后，再计算得到的该两个声源位置在其投影平面的平面距离，比如，将其投影至x-y平面内，则该两个声源位置在其投影平面的平面距离为

或者，可以在确定该两个声源位置对应的置信半径之后，根据其置信空间之间的重合体积，即两个球形空间的重合部分，作为该两个声源位置的重合度，对该两个声源位置进行对比，也可以先将该两个声源位置投影至预设平面后，再计算每两个声源位置的置信面积之间的重合面积，比如，将其投影至x-y平面内，则该两个声源位置在其投影平面的重合面积为x-y平面内两个圆的重合部分。

δ＝δ₁+δ_xy+δ_yz+δ_xz

S405：若对比结果满足预设条件，则确定两个声源位置为有效声源位置。

S406：基于每个有效声源位置，得到声源位置的定位结果。

确定出有效声源位置后，可以进一步计算声源位置的定位结果，也就是消除所确定的多个有效声源位置之间的误差，得到一个声源定位结果，从而便于进一步确定发出声音信号的目标。

在上述公式中，

为根据置信半径为(x₁，y₁，z₁)分配的权重，

为根据置信半径为(x₂，y₂，z₂)分配的权重。

S407：根据采集到的当前场景的图像及声源位置的定位结果，从一个或多个目标中确定待识别目标。

S408：获取待识别目标的身份信息。

一种实现方式中，获取所述待识别目标的身份信息之后，可以根据待识别目标的身份信息，向待识别目标对应的通信设备推送通知信息，其中，通知信息中可以包括声源位置、当前场景图像、声音信号的声纹图像、当前场景的监控视频等等。

举例而言，假设是对道路中的鸣笛声进行声源位置校验和鸣笛车辆识别，那么，在确定出鸣笛车辆之后，可以通过平台向鸣笛车辆驾驶者的手机推送通知信息。首先，在中心数据库中，存储着各个车辆的车牌号与其对应的驾驶者的手机号，当确定出鸣笛车辆的车牌号之后，中心通讯模块可以将所确定的车牌号、当前场景的监控视频、卡口抓拍图像等数据传送至中心平台，然后，中心平台可以在中心数据库中查找该车牌号对应的手机号，进而，通过讯息推送模块，将这些数据发送至驾驶者的手机中，同时也可以将当前场景的监控视频、卡口抓拍图像等数据保存至中心数据库中，以便后续的查询。一种实现方式中，中心通信模块上传的数据中还包括有效声源位置对应的声音信号的声纹图像，并且该声纹图像会叠加到当前场景的监控图像中，发送至驾驶者的手机中。

如图5所示，为本申请实施例提供的一种声源位置校验装置的结构示意图，该装置包括：

声音获取模块501，用于获取两份针对同一场景且同时采集的声音信号；

声源定位模块502，用于针对每份声音信号，确定该份声音信号对应的声源位置；

声源位置对比模块503，用于将所确定的两个声源位置进行对比；

有效声源确定模块504，用于若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置。

一种实现方式中，所述声源定位模块502，具体用于：

一种实现方式中，所述声源位置对比模块503，具体用于：

针对每两个声源位置，计算两个声源位置之间的距离；

所述有效声源确定模块504，具体用于：

一种实现方式中，所述声源位置对比模块503，具体用于：

计算两个声源位置之间的空间距离；

或者，计算两个声源位置投影至预设平面后的距离。

一种实现方式中，所述声源定位模块502，还用于：

所述声源位置对比模块503，还用于：

计算所确定的两个声源位置的置信空间之间的重合度；

所述有效声源确定模块504，还用于：

一种实现方式中，所述声源位置对比模块503，还用于：

一种实现方式中，所述声源定位模块502，还用于：

所述声源位置对比模块503，还用于：

所述有效声源确定模块504，还用于：

一种实现方式中，所述声源位置对比模块503，还用于：

通过以下公式，根据预设的距离参数和重合度参数，对两个声源位置对应的距离及重合度进行加权融合，得到两个声音位置的对比参数：

δ＝δ₁+δ_xy+δ_yz+δ_xz

一种实现方式中，所述装置还包括：

定位结果确定模块505，用于基于每个有效声源位置，得到声源位置的定位结果。

一种实现方式中，所述定位结果确定模块505，还用于：

按照所分配的权重，对所有有效声源位置进行加权计算，得到声源位置的定位结果。

一种实现方式中，所述声音获取模块501，还用于：

在所述获取两份针对同一场景且同时采集的声音信号之后，触发图像获取模块506；

所述图像获取模块506，用于获取当前场景的图像，所述当前场景的图像中包括一个或多个目标；

目标识别模块507，用于根据所述当前场景的图像及所述有效声源位置，从所述一个或多个目标中确定待识别目标；获取所述待识别目标的身份信息。

一种实现方式中，所述声音获取模块501，还用于：

若大于，则执行触发所述图像获取模块506的步骤。

一种实现方式中，所述装置还包括：

信息推送模块508，用于根据所述待识别目标的身份信息，向所述待识别目标对应的通信设备推送通知信息。

由以上可见，本申请实施例提供的声源位置校验装置，通过获取两份针对同一场景且同时采集的声音信号，确定每份声音信号对应的声源位置，然后将所确定的两个声源位置进行对比，若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置。这样，通过将所确定的两个声源位置进行对比，检验这两个声源位置的有效性，减少了对声源的误判。

本申请实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

获取两份针对同一场景且同时采集的声音信号；

针对每份声音信号，确定该份声音信号对应的声源位置；

将所确定的两个声源位置进行对比；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的声源位置校验方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的声源位置校验方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种声源位置校验方法，其特征在于，所述方法包括：

获取两份针对同一场景且同时采集的声音信号；

针对每份声音信号，确定该份声音信号对应的声源位置；

将所确定的两个声源位置进行对比；

若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置；

其中，在所述获取两份针对同一场景且同时采集的声音信号之后，还包括：

所述将所确定的两个声源位置进行对比，包括：

计算所确定的两个声源位置的置信空间之间的重合度；

若所述重合度大于预设第二阈值，则执行所述确定所述两个声源位置为有效声源位置的步骤；

或者，

在所述获取两份针对同一场景且同时采集的声音信号之后，还包括：

所述将所确定的两个声源位置进行对比，包括：

2.根据权利要求1所述的方法，其特征在于，所述针对每份声音信号，确定该份声音信号对应的声源位置，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所确定的两个声源位置进行对比，包括：

计算所述两个声源位置之间的距离；

4.根据权利要求3所述的方法，其特征在于，所述计算所述两个声源位置之间的距离，包括：

计算所述两个声源位置之间的空间距离；

或者，计算所述两个声源位置投影至预设平面后的距离。

5.根据权利要求1所述的方法，其特征在于，所述计算所确定的两个声源位置的置信空间之间的重合度，包括：

6.根据权利要求1所述的方法，其特征在于，所述计算所确定的两个声源位置之间的距离，包括：

7.根据权利要求1所述的方法，其特征在于，在所述若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置之后，还包括：

基于每个有效声源位置，得到声源位置的定位结果。

8.根据权利要求7所述的方法，其特征在于，所述基于每个有效声源位置，得到声源位置的定位结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于每个有效声源位置及每个有效声源位置的置信半径，得到声源位置的定位结果，包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述待识别目标的身份信息。

11.一种声源位置校验装置，其特征在于，所述装置包括：

有效声源确定模块，用于若所述对比结果满足预设条件，则确定所述两个声源位置为有效声源位置；

其中，所述声源定位模块，还用于：

所述声源位置对比模块，还用于：

针对每个声源位置，基于该声源位置及对应的置信半径，确定该声源位置的置信空间；计算所确定的两个声源位置的置信空间之间的重合度；

所述有效声源确定模块，还用于：

或者，

所述声源定位模块，还用于：

所述声源位置对比模块，还用于：

所述有效声源确定模块，还用于：

12.根据权利要求11所述的装置，其特征在于，所述声源位置对比模块，具体用于：

计算所述两个声源位置之间的距离；

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10任一所述的方法步骤。