CN109683135A

CN109683135A - 一种声源定位方法及装置、目标抓拍系统

Info

Publication number: CN109683135A
Application number: CN201811625787.5A
Authority: CN
Inventors: 应竞舟; 沙文
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-04-26

Abstract

本申请提供了一种声源定位方法及装置，依据包括目标的图像，确定目标相对于摄像头的第一位置信息，获取依据声音信号确定的第二位置信息，依据所述第一位置信息和所述第二位置信息，确定所述声源的位置信息，其中，声音信号的采集时间与图像的采集时间的差值不大于预设第一阈值，可见，使用依据图像确定的位置信息与依据音频确定的位置信息，确定目标的位置信息，与仅使用麦克风阵列定位声源的位置的方式相比，定位结果具有更高的准确性。

Description

一种声源定位方法及装置、目标抓拍系统

技术领域

本申请涉及目标跟踪技术领域，尤其涉及一种声源定位方法及装置、目标抓拍系统。

背景技术

声源定位是依据声音信号确定发声物(即声源)的位置的一种技术。声源定位技术可以被用来满足多种需求，例如鸣笛抓拍、目标跟踪等。

目前，利用麦克风阵列进行声源的定位为最常见的声源定位方式，但这种声源定位方式的准确性有待提高。

发明内容

本申请提供了一种声源定位方法及装置、目标抓拍系统，目的在于解决如何提高声源定位结果的准确性的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种声源定位方法，包括：

依据包括目标的图像，确定第一位置信息，所述第一位置信息为所述目标相对于摄像头的位置信息；

获取第二位置信息，所述第二位置信息为依据声音信号确定的位置信息，所述声音信号的采集时间与所述图像的采集时间的差值不大于预设第一阈值；

依据所述第一位置信息和所述第二位置信息，确定所述声源的位置信息。

可选的，所述依据包括目标的图像，确定第一位置信息包括：

获取所述图像的深度信息；

依据所述深度信息以及所述目标在所述图像中的位置信息，确定所述第一位置信息。

可选的，所述依据所述深度信息以及所述目标在所述图像中的位置信息，确定所述第一位置信息包括：

根据所述深度信息，确定所述目标到所述摄像头的距离；

根据所述摄像头的焦距、所述目标在所述图像中的位置信息和所述深度信息，计算得到所述目标在预设坐标系下的位置信息，得到所述第一位置信息。

可选的，所述依据所述第一位置信息和所述第二位置信息，确定所述声源的位置信息包括：

将所述第一位置信息和所述第二位置信息变换至同一坐标系下；

计算在同一坐标系下的第一位置范围和第二位置范围的交集，作为所述声源的位置信息，所述第一位置范围为所述第一位置信息确定的范围，第二位置范围为所述第二位置信息确定的范围。

如果第一位置与第二位置的差值不大于预设第二阈值，将所述第一位置信息作为所述声源的位置信息。

可选的，所述图像为球形摄像头以不同的姿态采集的图像；

所述第二位置信息由麦克风阵列采用MUSIC算法得到。

一种声源定位装置，包括：

确定模块，用于依据包括目标的图像，确定第一位置信息，所述第一位置信息为所述目标相对于摄像头的位置信息；

获取模块，用于获取第二位置信息，所述第二位置信息为依据声音信号确定的位置信息，所述声音信号的采集时间与所述图像的采集时间的差值不大于预设第一阈值；

定位模块，用于依据所述第一位置信息和所述第二位置信息，确定所述声源的位置信息。

可选的，所述确定模块用于依据包括目标的图像，确定第一位置信息包括：

所述确定模块具体用于，获取所述图像的深度信息；依据所述深度信息以及所述目标在所述图像中的位置信息，确定所述第一位置信息。

可选的，所述确定模块用于依据所述深度信息以及所述目标在所述图像中的位置信息，确定所述第一位置信息包括：

所述确定模块具体用于，根据所述深度信息，确定所述目标到所述摄像头的距离；

一种目标抓拍系统，包括：

摄像头，用于采集包括目标的图像，所述图像包含有第一位置信息；

麦克风阵列，用于获取第二位置信息，所述第二位置信息为依据声音信号确定的位置信息，所述声音信号的采集时间与所述图像的采集时间的差值不大于预设第一阈值；

所述抓拍控制装置，用于依据所述第一位置信息和所述第二位置信息，确定所述声源的位置，控制所述摄像头对准所述声源的位置进行抓拍。

本申请所述的声源定位方法及装置，依据包括目标的图像，确定目标相对于摄像头的第一位置信息，获取依据声音信号确定的第二位置信息，依据所述第一位置信息和所述第二位置信息，确定所述声源的位置信息，其中，声音信号的采集时间与图像的采集时间的差值不大于预设第一阈值，可见，使用依据图像确定的位置信息与依据音频确定的位置信息，确定目标的位置信息，与仅使用麦克风阵列定位声源的位置的方式相比，定位结果具有更高的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种声源定位方法的流程图；

图2为本申请实施例公开的又一种声源定位方法的流程图；

图3为本申请实施例公开的一种声源定位装置的结构示意图；

图4为本申请实施例公开的一种目标抓拍系统的结构示意图。

具体实施方式

本申请实施例公开的声源定位方法以及装置，可以应用在包括麦克风阵列和摄像头的场景，例如鸣笛抓拍、发言者人人脸抓拍场景等。目的在于，融合麦克风阵列确定的声源的位置信息以及摄像头确定的目标的位置信息，确定声源的最终位置信息，以提高声源定位的准确性。下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例公开的一种声源定位方法，包括以下步骤：

S101：获取摄像头采集的图像。

具体的，可以获取摄像头采集的1帧或多帧图像，通常，摄像头采集的图像为二维图像，当然，也可以为三维图像，本实施例不做限定。

S102：依据包括目标的图像，确定目标的位置信息。

这里，为了与后续“位置信息”相区分，将依据图像确定的位置信息称为第一位置信息。

本实施例中，“目标”是指，有可能作为声源的对象。可以依据不同的需求，预先设置目标。例如，在鸣笛抓拍需求下，目标为图像中的车辆。在会议场景下、发声人人脸抓拍的需求下，目标为图像中的人脸。

具体的，可以将图像输入预先训练的目标检测模型，得到目标检测模型输出的目标检测结果。目标检测结果用于指示目标在图像中的位置信息。

通常，目标检测模型为深度学习模型，目标检测模型可以分成两大类：(1)两步two-stage检测算法模型，其将检测问题划分为两个阶段，首先产生候选区域(regionproposals)，然后对候选区域分类(一般还需要对位置精修)，这类模型的典型代表是基于region proposal的R-CNN系模型，如R-CNN，Fast R-CNN，Faster R-CNN模型等。(2)一步one-stage检测算法，其不需要region proposal阶段，直接产生物体的类别概率和位置坐标值，比较典型的模型如YOLO和SSD。

目标检测模型的主要性能指标是检测准确度和速度，对于准确度，目标检测要考虑物体的定位准确性，而不单单是分类准确度。一般情况下，two-stage算法在准确度上有优势，而one-stage算法在速度上有优势。可以依据准确度和速度的需求，选择具体的目标检测模型。

根据目标的类别(人脸，行人或车辆)，收集足够多的目标数据并划分训练集和测试集，然后训练深度学习模型，得到目标检测模型。

目标检测模型的具体结构和算法实现，可以参见现有技术，这里不再赘述。

目标检测模型输出的是目标在图像中的位置信息，在得到目标在图像中的位置信息后，可以将该位置信息作为第一位置信息，或者，也可以将目标在图像中的位置信息转换到其它坐标系下，得到第一位置信息。

S103：获取第二位置信息，第二位置信息为依据声音信号确定的位置信息。

具体的，第二位置信息可以从麦克风阵列获取，即当目标(可能有多个)在麦克风阵列覆盖的范围内发出声音，声音会被麦克风阵列采集。麦克风阵列使用定位算法可以确定发声目标的位置。可以将麦克风阵列输出的位置信息作为第二位置信息，也可以将麦克风阵列输出的位置信息转换到其它坐标下，得到第二位置信息。

本实施例中，为了与图像中目标的位置信息相区别，将通过声音信号定位的位置信息称为第二位置信息。

麦克风阵列定位声源的技术可以参见现有技术，这里不再赘述。

需要说明的是，本实施例中，S102和S103的执行顺序仅为示例，而不作为限定。即S102和S103的执行顺序可以交换，也可以并行执行。

S104：依据第一位置信息和第二位置信息，确定声源的位置信息。

具体的，可以将第一位置信息和第二位置信息转换到同一坐标系下，再将第一位置信息指示的范围(即第一位置范围)与第二位置信息指示的范围(即第二位置范围)的交集，作为声源的位置信息。

考虑到目标可能有移动，所以只有第一位置信息与第二位置信息是同一个时刻的位置信息的情况下，融合两者确定的位置信息才有意义，否则，一旦目标发生移动，例如，目标在13点1分10秒在第一位置，13点2分10移动到第二位置并发声，在此情况下，如果使用摄像机在1分10秒采集到的图像确定第一位置信息，使用麦克风阵列在13点2分10秒采集到的声音信号确定的第二位置信息，则融合得到的位置信息为错误的位置信息，或者在移动距离较大的情况下，可能无交集而得不到最终的位置信息。

因此，为了第一位置信息与第二位置信息的时序一致性，本实施例中，需要限定第一位置信息与第二位置信息为同一个时刻采集的信号(图像和声音信号)确定的位置信息。进一步的，考虑到设备运行和信号采集原理的差异，可以设置一定的延时，例如摄像机在13点1分10秒采集到的图像，与麦克风阵列在13点1分12秒采集到的声音信号，可看作同一时刻采集的信号(即采集时间之间的延时不超过2秒)，因此，本实施例中，采用采集图像和声音信号的时间差进行限定，即时间差不大于预设阈值。具体的阈值可以依据经验和实验值确定。

从图1所示的过程可以看出，使用采集时间差不大于预设阈值的图像和声音信号确定的第一位置信息和第二位置信息，确定作为声源的目标的位置信息。与现有技术中仅依据麦克风阵列的定位算法得到声源的位置信息相比，使用图像和声音信号共同确定出的声源的位置信息，具有更高的准确性。

下面将以鸣笛抓拍场景为例，对图1所示的声源定位方法进行更为详细的说明。为了实现多点鸣笛抓拍，本实施例中，使用的图像为通过球形摄像头获取的图像为例。

图2为本申请实施例公开的又一种声源定位方法，包括以下步骤：

S201：构建坐标系。

本实施例中，可选的坐标系有三种：

1、麦克风阵列坐标系：以麦克风阵列的中心为原点构建的三维坐标系，称为麦克风阵列坐标系。

2、摄像头坐标系：球形摄像头可以旋转，且每次旋转后所能拍摄的范围都不同，因此可以基于摄像头的旋转角度，建立多个相机角度坐标系。这里，摄像头旋转是指摄像头固定在某位置后，上下或者左右旋转。为了方便描述，可以将摄像头上下旋转的参数用pan表示，左右旋转的参数用tilt表示。

例如，即假设球形摄像机每次旋转的最小角度为20°，并且设定相机前后pan，左右tilt移动角度的范围[-80°,80°]，则摄像机的角度可以移动到8*8＝64个角度，即可以获得64个相机坐标系。需要说明的是，对每一旋转角度可以有多种建立相机角度坐标系的方式，这里不做具体限定。

3、世界坐标系：以摄像头为坐标原点，以实际场景下的东西方向为x轴，南北方向为y轴，上下方向为z轴，建立的三维坐标系为世界坐标系。

当麦克风阵列及摄像头的位置固定后，即可确定上述三种坐标系。

需要说明的是，上述三种坐标系可以通过刚性变换，如旋转、平移等，相互转换，从一种坐标系转换到另一种坐标系所需的刚性变换矩阵可以预先设置。

仍以上述示例为例来说明。通过相应的刚性变换(旋转和平移)可以获得64个相机坐标系和世界坐标系之间的转换矩阵。即当球形摄像机的位置和世界坐标系确定后，64个坐标转换矩阵也确定了，即每组(pan_i,tilt_i)对应一个刚性变换的矩阵W_i，其中i＝1,2,…,64。麦克风阵列坐标系也同理可以预先计算出到世界坐标系的刚性变换矩阵。

S202：训练得到目标检测模型和深度图像估计模型。

目标检测模型的结构和算法，可以参见上述实施例，这里不再赘述。

下面将重点介绍深度图像估计模型：

图像中的每一个像素点的深度信息为：成像为该像素点的实物点距离摄像头所在平面的垂直距离。图像中所有像素点的深度信息，按照像素点的顺序排列，构成图像的深度图(矩阵)。

本实施例中，深度图像估计模型可以采用多尺度Multi-scale的网络，即分为多个尺度scale的网络来做深度信息的估计：即分别使用一个全球粗粒度网络Global Coarse-Scale Network(例如传统的AlexNet，VGG等)和多个本地精细网络Local Fine-ScaleNetwork。Global Coarse-Scale Network的任务是使用场景的全局视角来预测整体深度图结构，最后得到一个低分辨率的粗粒度的深度图，之后再用多个Local Fine-ScaleNetwork提取(即编辑接收到的粗略的预测，结合例如物体和墙面边缘的局部细节)GlobalCoarse-Scale Network的输出得到最终的精细的深度图。可选的，可以在multi-scalenetwork之间加上skip connections以加速网络的收敛速度。

针对球形摄像头的训练深度图像估计模型的数据集的获取过程为：利用球形摄像头在其覆盖的范围内的不同的方向上，采集包括目标的不同尺寸的大量图像，与此同时利用结构光采集这些目标相对于相机平面的深度图，从而获得球形摄像头的大量样本图像和相对应的深度图的数据集。

需要说明的是，利用深度图像估计模型获得图像的深度图仅为一种示例，可选的，也可以使用其它方式例如使用深度摄像机采集图像的深度图，这里不做限定。

S201和2402可以作为预处理过程，在构建坐标系和训练得到模型后，执行以下声源定位流程：

S203：获取球形摄像头采集的图像。

具体的，按照上述构建的球形摄像头坐标系，控制摄像头在每个拍摄区间采集图像，其中，任意一个拍摄区间为pan和tile的最小旋转角度确定的拍摄区间，接上例，假设球形摄像头pan和tile的每次旋转的最小角度是20°，并且球形摄像头上下、左右方向上旋转角度的范围都为[-80°,80°]，则第一个拍摄区间为[0°,0°]，第二个拍摄区间为[0°,20°]，第三个拍摄区间为[20°,0°]等。

通常，搭载球形摄像头的云台按照顺时针或逆时针以一个拍摄区间为颗粒度旋转，每旋转到一个拍摄区间，采集一次图像。以上球形摄像头的图像采集方式，仅为示例，采用球形摄像头现有技术中的采集方式采集的图像，均可以作为本步骤中球形摄像头采集的图像。

S204：将获取的各个图像输入目标检测模型，得到目标检测模型输出的车辆在图像中的位置信息。

需要说明的是，本步骤中得到的是车辆在图像中的位置信息，即像平面的位置信息。

S205：将包括车辆的图像输入深度图像估计模型，得到包括车辆的图像的深度图。

对于不包括车辆的图像，即目标检测模型输出结果指示不存在目标的图像，可以不做处理，以节省计算资源。

S206：依据深度图和车辆在图像中的位置信息，确定第一位置信息。

球形摄像头采集的图像为二维图像，为了获取车辆在真实世界的实际位置(即世界坐标系下的位置)，本实施例中，依据深度信息和车辆在图像中的位置信息，确定车辆的实际位置信息，即第一位置信息。

具体的流程如下：

A1：根据深度信息，确定目标(即车辆)到摄像头的距离。

如前所述，深度图中包括目标所在真实场景中的点(即实物点)与摄像头的距离，也即深度图中目标上的像素点的深度信息，为目标到摄像头的距离。

A2、根据目标(即车辆)到摄像头的距离，确定摄像头的焦距。

具体地，目标到摄像头的距离与摄像头的焦距存在对应关系，当确定目标到摄像头的距离后，可以根据对应关系，确定摄像头的焦距。

需要说明的是，A2为可选步骤，在摄像头的焦距固定的情况下，预先设置好摄像头的焦距后，焦距已知，则可以跳过A2。

A3、根据焦距、目标(即车辆)在图像中的位置信息和目标像素的深度信息，计算得到目标(即车辆)在摄像头坐标系下的位置信息。

目标像素是指目标在图像中成像的像素。需要说明的是，焦距、目标在图像中的位置信息、目标像素的深度信息和目标的实际位置信息之间存在换算规则，可以利用现有的换算规则，确定第一位置信息，具体的计算公式可以参见现有技术，这里不再赘述。

A4：将目标在摄像头坐标系下的位置信息转换到世界坐标系下，得到第一位置信息。

如前所述，通过刚性矩阵进行坐标系的转换。

S207：对应保存图像、图像的时间戳和第一位置信息，得到第一对应关系。

其中，任意一个图像的时间戳为采集到该图像的时刻值。

可选的，可以将图像、图像的时间戳和对应的第一位置信息保存到存储服务器。

S208：获取麦克风阵列定位的鸣笛车辆的位置信息，并将鸣笛车辆的位置信息转换到世界坐标下，得到第二位置信息。

S209：对应保存声音信号的时间戳和第二位置信息，得到第二对应关系。

声音信号的时间戳为麦克风阵列采集到声音信号的时刻。

可选的，可以将声音信号的时间戳和对应的第二位置信息保存到存储服务器。

S210：从第一对应关系的时间戳中，查找与第二对应关系中的时间戳的差值不超过预设阈值的时间戳，得到目标时间戳。

S211：如果第一对应关系中目标时间戳对应的第一位置信息不大于预设第二阈值，将第一对应关系中目标时间戳对应的第一位置信息，作为鸣笛车辆的位置信息。

需要强调的是，这里与上一实施例中采用的确定交集以得到声源的位置信息的方式不同，本实施例中，以麦克风阵列定位的第二位置信息，作为图像中的目标定位的第一位置信息的参照，在时间戳满足条件的情况下，与第二位置信息距离较近的第一位置信息，即可作为鸣笛车辆的位置信息，这种定位方式与计算交集相比，运算量较小，从而能够提高定位计算的效率。

在得到鸣笛车辆的位置信息后，可选的，可以进行如下后处理过程，以获得鸣笛车辆的车牌：

从图像中鸣笛车辆的位置信息指示的区域识别鸣笛车辆的车牌。

具体的，从第一对应关系中目标时间戳对应的图像(即目标图像)中识别鸣笛车辆的车牌。因为第一位置信息为世界坐标系下的位置信息，所以，需要将鸣笛车辆的位置信息转换到像平面坐标系下，才能确定鸣笛车辆在目标图像中的位置信息，再依据鸣笛车辆在目标图像中的位置信息，识别图像中的鸣笛车辆的车牌。

或者，可选的，上述流程中的目标为车牌而非车辆，在此情况下，S211得到的位置信息即为需要抓拍的车牌的位置信息，该位置信息对应的目标，即为需要抓拍的车牌。

图2所示的流程中，结合了图像的深度信息和声音信号信息对声源进行双重定位，得到最终的位置信息，因此定位结果具有更好的精确度。

进一步的，采用球形摄像头采集多方位角度的图像、以及麦克风采用多分类的定位算法，与现有的只能对固定区域进行抓拍的鸣笛抓拍技术相比，能够支持多声源、多区域的抓拍，便利性和灵活性更高。

以上仅以鸣笛抓拍为例进行了说明，除此之外，本申请实施例所述的声源定位方法，还可以应用在所有需要定位声源位置的需求：例如，在会议或公检法审讯时，使用本申请实施例所述的声源定位方法，定位发言人的位置，并依据位置，跟踪发言人的人脸，以始终将目标人置于视频中合适(例如中心)的位置。

图3为本申请实施例公开的声源定位装置，包括：确定模块、获取模块和定位模块。

其中，确定模块用于依据包括目标的图像，确定第一位置信息，所述第一位置信息为所述目标相对于摄像头的位置信息。获取模块用于获取第二位置信息，所述第二位置信息为依据声音信号确定的位置信息，所述声音信号的采集时间与所述图像的采集时间的差值不大于预设第一阈值。定位模块用于依据所述第一位置信息和所述第二位置信息，确定所述声源的位置信息。

具体的，确定模块用于依据包括目标的图像，确定第一位置信息包括：确定模块具体用于，获取所述图像的深度信息；依据所述深度信息以及所述目标在所述图像中的位置信息，确定所述第一位置信息。

所述确定模块用于依据所述深度信息以及所述目标在所述图像中的位置信息，确定所述第一位置信息包括：所述确定模块具体用于，根据所述深度信息，确定所述目标到所述摄像头的距离。根据所述摄像头的焦距、所述目标在所述图像中的位置信息和所述深度信息，计算得到所述目标在预设坐标系下的位置信息，得到所述第一位置信息。

定位模块用于依据所述第一位置信息和所述第二位置信息，确定所述声源的位置信息包括：将所述第一位置信息和所述第二位置信息变换至同一坐标系下。计算在同一坐标系下的第一位置范围和第二位置范围的交集，作为所述声源的位置信息，所述第一位置范围为所述第一位置信息确定的范围，第二位置范围为所述第二位置信息确定的范围。

或者，如果第一位置与第二位置的差值不大于预设第二阈值，将所述第一位置信息作为所述声源的位置信息。

图3所示的声源定位装置，能够较为准确地确定声源的位置。

图4为本申请实施例公开的一种目标抓拍系统，包括：摄像头、麦克风阵列和抓拍控制装置。

其中，摄像头用于采集包括目标的图像，所述图像包含有第一位置信息。抓拍控制装置用于依据包括目标的图像，确定第一位置信息。麦克风阵列用于获取第二位置信息，所述第二位置信息为依据声音信号确定的位置信息，所述声音信号的采集时间与所述图像的采集时间的差值不大于预设第一阈值。

所述抓拍控制装置，用于依据所述第一位置信息和所述第二位置信息，确定所述声源的位置，控制所述摄像头对准所述声源的位置进行抓拍

具体的，抓拍控制装置确定第一位置信息和声源的位置信息的具体实现方式，可以参见上述方法实施例，这里不再赘述。

因为采用了上述声源定位方法，所以，目标抓拍系统能够实现对于声源的准确跟踪。

本申请实施例还公开了一种声源定位设备，包括：存储器和处理器。所述存储器用于存储一个或多个程序，所述处理器用于执行所述一个或多个程序，以使得所述声源定位设备实现前述声源定位方法。

本申请实施例还公开了一种计算机可读介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行前述声源定位方法。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种声源定位方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述依据包括目标的图像，确定第一位置信息包括：

获取所述图像的深度信息；

3.根据权利要求2所述的方法，其特征在于，所述依据所述深度信息以及所述目标在所述图像中的位置信息，确定所述第一位置信息包括：

根据所述深度信息，确定所述目标到所述摄像头的距离；

4.根据权利要求1所述的方法，其特征在于，所述依据所述第一位置信息和所述第二位置信息，确定所述声源的位置信息包括：

5.根据权利要求1所述的方法，其特征在于，所述依据所述第一位置信息和所述第二位置信息，确定所述声源的位置信息包括：

6.根据权利要求1所述的方法，其特征在于，所述图像为球形摄像头以不同的姿态采集的图像；

所述第二位置信息由麦克风阵列采用MUSIC算法得到。

7.一种声源定位装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述确定模块用于依据包括目标的图像，确定第一位置信息包括：

9.根据权利要求8所述的装置，其特征在于，所述确定模块用于依据所述深度信息以及所述目标在所述图像中的位置信息，确定所述第一位置信息包括：

10.一种目标抓拍系统，其特征在于，包括：