CN112351248B

CN112351248B - 一种关联图像数据和声音数据的处理方法

Info

Publication number: CN112351248B
Application number: CN202011128769.3A
Authority: CN
Inventors: 蒋昌龙
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2023-05-30
Anticipated expiration: 2040-10-20
Also published as: CN112351248A

Abstract

本申请提供一种关联图像数据和声音数据的处理方法，该方法包括：通过摄像机采集目标场景的图像数据，并通过声音传感器采集所述目标场景的初始声音数据，并获取所述摄像机采集所述图像数据时的视场角；根据所述视场角确定所述声音传感器的滤波器系数；基于所述滤波器系数对所述初始声音数据进行滤波，得到与所述视场角匹配的目标声音数据，所述目标声音数据的拾音区域与所述视场角重合；将同一时刻的图像数据和目标声音数据进行关联。通过本申请的技术方案，实现确定与视场角匹配的拾音区域，实现图像数据和声音数据的同步，扩展了监控设备的能力。

Description

一种关联图像数据和声音数据的处理方法

技术领域

本申请涉及监控技术领域，尤其是一种关联图像数据和声音数据的处理方法。

背景技术

在视频监控领域，可以部署带有拾音功能的监控设备，该监控设备能够采集图像数据和声音数据，并将图像数据和声音数据匹配起来。

比如说，带有拾音功能的监控设备可以包括摄像机、声音传感器(如麦克风阵列(mic)或拾音器等)和处理器等。通过摄像机采集图像数据，并将该图像数据输出给处理器。通过声音传感器采集声音数据，并将该声音数据输出给处理器。处理器基于图像数据的时间戳和声音数据的时间戳将同一时刻的图像数据和声音数据匹配起来，并输出同一时刻的图像数据和声音数据。显然，由于是输出同一时刻的图像数据和声音数据，因此，用户既能看到该时刻的图像数据，也能听到该时刻的声音数据，从而提高用户使用感受。

但是，在采集图像数据时，存在视场角范围，如120度的视场角范围，表示图像数据是这个视场角范围的图像数据。在采集声音数据时，拾音区域通常覆盖360度，表示声音数据是360度范围的声音数据。综上所述，声音数据的区域与图像数据的范围并不相同，导致图像数据和声音数据无法同步。

发明内容

本申请提供一种关联图像数据和声音数据的处理方法，所述方法包括：

通过摄像机采集目标场景的图像数据，并通过声音传感器采集所述目标场景的初始声音数据，并获取所述摄像机采集所述图像数据时的视场角；

根据所述视场角确定所述声音传感器的滤波器系数；

基于所述滤波器系数对所述初始声音数据进行滤波，得到与所述视场角匹配的目标声音数据，所述目标声音数据的拾音区域与所述视场角重合；

将同一时刻的图像数据和目标声音数据进行关联。

示例性的，所述根据所述视场角确定所述声音传感器的滤波器系数，包括：

确定与所述视场角匹配的目标拾音区域；其中，所述目标拾音区域的中心指向与所述视场角的中心指向一致，所述目标拾音区域覆盖所述视场角的区域；

基于预先配置的拾音区域与全向波束参数的映射关系，确定与所述目标拾音区域匹配的全向波束参数，根据所述全向波束参数确定指向型波束参数；

基于所述全向波束参数和所述指向型波束参数确定所述滤波器系数。

示例性的，所述目标拾音区域为从第一初始角度到第一结束角度之间的角度范围，所述视场角为从第二初始角度到第二结束角度之间的角度范围；所述第一初始角度小于或者等于所述第二初始角度，所述第一结束角度大于或者等于所述第二结束角度。

示例性的，所述确定与所述视场角匹配的目标拾音区域，包括：

将所述视场角确定为所述目标拾音区域；或者，

从预先配置的多个拾音区域中选取与所述视场角匹配的目标拾音区域；其中，所述目标拾音区域大于或者等于所述视场角，且所述目标拾音区域是所述多个拾音区域中与所述视场角最接近的拾音区域。

示例性的，基于所述全向波束参数和所述指向型波束参数确定所述滤波器系数，包括：若声音传感器的数量为至少两个，获取不同声音传感器之间的连线距离，并基于所述全向波束参数、所述指向型波束参数、所述连线距离，所述目标场景的声音频率和所述目标场景的声音传播速度，确定所述滤波器系数。

示例性的，通过声音传感器采集所述目标场景的初始声音数据之前，所述方法还包括：获取所述摄像机采集所述图像数据时的方位角；其中，所述方位角是所述摄像机从初始角度转动到目标角度时的转动角度，所述目标角度是所述摄像机采集所述图像数据时的角度，所述方位角由角速度传感器采集；

基于所述方位角转动所述声音传感器，以使所述声音传感器转动到所述目标角度；其中，所述声音传感器的初始角度与所述摄像机的初始角度相同。

示例性的，所述声音传感器与所述摄像机部署在同一结构件，在通过转动电机对所述摄像机进行转动时，所述转动电机对所述声音传感器进行同步转动；或者，所述声音传感器与转动电机的转向结构部署在同一结构件，在通过转动电机对所述摄像机进行转动时，所述转动电机对所述声音传感器进行同步转动。

示例性的，若声音传感器的数量为至少两个，则每个声音传感器对应一个目标声音数据，所述将同一时刻的图像数据和目标声音数据进行关联，包括：

基于摄像机采集所述图像数据时的方位角确定时延参数，基于所述时延参数对至少一个目标声音数据进行延时，基于延时后的目标声音数据进行增强；

确定所述图像数据的采集时刻和增强后的目标声音数据的采集时刻，所述增强后的目标声音数据的采集时刻为所述初始声音数据的采集时刻；

若所述图像数据的采集时刻与所述增强后的目标声音数据的采集时刻相同，则将同一采集时刻的所述图像数据和所述增强后的目标声音数据进行关联。

示例性的，所述基于所述摄像机采集所述图像数据时的方位角确定时延参数，基于所述时延参数对至少一个目标声音数据进行延时，基于延时后的目标声音数据进行增强，包括：基于所述方位角确定第一声音传感器与第二声音传感器之间的时延参数；其中，将所有声音传感器中的一个声音传感器作为第一声音传感器，将所有声音传感器中除第一声音传感器之外的其它声音传感器作为第二声音传感器；针对每个第二声音传感器，基于所述第二声音传感器对应的时延参数对所述第二声音传感器对应的目标声音数据进行延时；

基于第一声音传感器对应的目标声音数据和每个第二声音传感器对应的延时后的目标声音数据进行增强，得到增强后的目标声音数据。

示例性的，基于所述方位角确定第一声音传感器与第二声音传感器之间的时延参数，包括：基于所述方位角，所述第一声音传感器与所述第二声音传感器之间的连线距离，以及所述目标场景的声音传播速度，确定所述时延参数。

由以上技术方案可见，本申请实施例中，可以根据摄像机的视场角确定声音传感器的滤波器系数，并基于滤波器系数对初始声音数据进行滤波，得到与该视场角匹配的目标声音数据，且目标声音数据的拾音区域与视场角重合，即目标声音数据的拾音区域与图像数据的视场角匹配，从而实现图像数据和声音数据的同步，可以将目标声音数据之外的声音数据作为噪声滤除，扩展了监控设备的能力。比如说，图像数据的视场角范围是120度，且目标声音数据的拾音区域是120度，且图像数据的视场角范围与目标声音数据的拾音区域重合。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其他的附图。

图1A-图1C是本申请一种实施方式中的监控设备的结构示意图；

图2是关联图像数据和声音数据的处理方法的流程示意图；

图3是关联图像数据和声音数据的处理方法的流程示意图；

图4A是本申请一种实施方式中的方位角的示意图；

图4B是本申请一种实施方式中的信号转换过程的示意图；

图4C-图4E是本申请一种实施方式中的拾音区域的控制示意图；

图4F是本申请一种实施方式中的滤波器系数的确定示意图；

图5A和图5B是本申请一种实施方式中的时延参数的确定示意图；

图5C-图5D是本申请一种实施方式中的目标声音数据的增强示意图；

图5E是本申请一种实施方式中的声音数据的处理过程的示意图；

图6是本申请一种实施方式中的声音数据的处理装置的结构示意图；

图7是本申请一种实施方式中的监控设备的硬件结构图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

带有拾音功能的监控设备可以包括但不限于：摄像机、声音传感器、处理器(如CPU(Central Processing Unit，中央处理器)等)、网口等，该摄像机可以包括但不限于图像传感器和镜头等，该声音传感器可以为麦克风阵列(mic阵列)或者拾音器等，参见图1A所示，为监控设备的一个结构示意图。

参见图1A所示，监控设备可以通过图像传感器和镜头采集图像数据，并将图像数据输出给处理器。可以通过声音传感器采集声音数据，并将声音数据输出给处理器。处理器基于图像数据的时间戳和声音数据的时间戳将同一时刻的图像数据和声音数据匹配起来，并通过网口输出同一时刻的图像数据和声音数据。显然，由于是输出同一时刻的图像数据和声音数据，因此，用户既能看到该时刻的图像数据，也能听到该时刻的声音数据，从而提高用户使用感受。

参见图1B所示，在通过图像传感器和镜头采集图像数据时，图像数据存在视场角，如120度的视场角，即只能采集到这个视场角的图像数据。但是，在采集声音数据时，声音数据的拾音区域通常覆盖360度，即，声音传感器能够采集到360度范围的声音数据。综上所述，声音数据的拾音区域与图像数据的视场角并不相同，导致监控设备输出的图像数据和声音数据无法同步。

针对上述发现，本申请实施例中提出一种关联图像数据和声音数据的处理方法，可以根据摄像机的视场角确定声音传感器的滤波器系数，并基于该滤波器系数对初始声音数据进行滤波，得到与该视场角匹配的目标声音数据，且该目标声音数据的拾音区域与摄像机的视场角重合，即该目标声音数据的拾音区域(也可以称为拾音角度范围)与图像数据的视场角匹配，从而实现图像数据和声音数据的同步，可以将目标声音数据之外的声音数据作为噪声滤除，扩展监控设备的能力。

参见图1C所示，在通过图像传感器和镜头采集图像数据时，图像数据存在视场角，如120度。在采集初始声音数据时，初始声音数据的拾音区域为360度。然后，基于摄像机的视场角确定声音传感器的滤波器系数，并基于滤波器系数对初始声音数据进行滤波，得到与120度的视场角匹配的目标声音数据，即目标声音数据的拾音区域与视场角重合。综上所述，目标声音数据的拾音区域与图像数据的视场角相同，从而实现图像数据和声音数据的同步。

比如说，图像数据的视场角是120度，且目标声音数据的拾音区域也是120度，即图像数据的视场角与目标声音数据的拾音区域重合。

以下结合具体实施例，对本申请实施例的上述技术方案进行说明。

本申请实施例提出一种关联图像数据和声音数据的处理方法，应用于带有拾音功能的监控设备，参见图2所示，为该方法的流程示意图，该方法包括：

步骤201，通过摄像机采集目标场景的图像数据，并通过声音传感器采集该目标场景的初始声音数据，并获取摄像机采集该图像数据时的视场角。

示例性的，可以在目标场景(如需要进行监控的任意场景)部署带有拾音功能的监控设备，该监控设备可以包括摄像机和声音传感器，且该监控设备通过摄像机采集目标场景的图像数据，并通过声音传感器采集该目标场景的初始声音数据。监控设备在通过摄像机采集目标场景的图像数据时，还可以获取摄像机采集该图像数据时的视场角，视场角的大小决定了摄像机的视野范围。

步骤202，根据该视场角确定声音传感器的滤波器系数。

示例性的，声音传感器的滤波器系数用于对该声音传感器采集的初始声音数据进行滤波，从而将初始声音数据转换为与视场角匹配的目标声音数据，可以理解为滤波器系数用于从初始声音数据中截取与视场角匹配的部分声音数据作为目标声音数据，关于初始声音数据的滤波过程参见后续实施例。

在一种可能的实施方式中，在得到该视场角后，根据该视场角确定声音传感器的滤波器系数，可以包括但不限于：确定与该视场角匹配的目标拾音区域，目标拾音区域的中心指向与视场角的中心指向一致，且目标拾音区域覆盖视场角的区域，例如，目标拾音区域与视场角的区域重合或目标拾音区域大于视场角的区域；基于预先配置的拾音区域与全向波束参数的映射关系，确定与该目标拾音区域匹配的全向波束参数，并根据该全向波束参数确定指向型波束参数。基于该全向波束参数和该指向型波束参数确定声音传感器的滤波器系数。

比如说，若声音传感器的数量为至少两个，则可以获取不同声音传感器之间的连线距离，并基于该全向波束参数、该指向型波束参数、该连线距离，目标场景的声音频率和目标场景的声音传播速度，确定声音传感器的滤波器系数。

步骤203，基于滤波器系数对初始声音数据进行滤波，得到与该视场角匹配的目标声音数据，该目标声音数据的拾音区域与该视场角重合。

比如说，参见图1C所示，摄像机采集图像数据时的视场角为该图像数据的视场角，在采集初始声音数据后，可以基于滤波器系数对该初始声音数据进行滤波，得到目标声音数据，如目标声音数据可以为初始声音数据与滤波器系数的乘积。显然，由于声音传感器的滤波器系数是基于该视场角确定的，因此，基于滤波器系数对初始声音数据进行滤波后，可以得到与该视场角匹配的目标声音数据，即目标声音数据的拾音区域与图像数据的视场角重合。

步骤204，将同一时刻的图像数据和目标声音数据进行关联。

示例性的，针对每个图像数据来说，该图像数据具有时间戳，该时间戳用于表示通过摄像机采集该图像数据的时刻，针对每个目标声音数据来说，该目标声音数据具有时间戳，该时间戳用于表示通过声音传感器采集该初始声音数据(即该目标声音数据对应的初始声音数据)的时刻，即，目标声音数据的时间戳与该目标声音数据对应的初始声音数据的时间戳相同。综上所述，可以基于图像数据的时间戳和目标声音数据的时间戳，将同一时刻的图像数据和目标声音数据匹配起来，并通过网口输出同一时刻的图像数据和目标声音数据。

示例性的，上述执行顺序只是为了方便描述给出的示例，在实际应用中，还可以改变步骤之间的执行顺序，对此执行顺序不做限制。而且，在其它实施例中，并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其它实施例中可能被分解为多个步骤进行描述；本说明书中所描述的多个步骤，在其它实施例也可能被合并为单个步骤进行描述。

本申请实施例提出一种关联图像数据和声音数据的处理方法，该方法应用于带有拾音功能的监控设备，该监控设备可以包括摄像机，声音传感器和处理器，摄像机可以包括镜头，图像传感器和转动电机，该声音传感器可以为麦克风阵列或者拾音器，参见图3所示，为该方法的流程示意图，该方法可以包括：

步骤301，处理器获取摄像机采集图像数据时的视场角和方位角。

示例性的，以摄像机的镜头为顶点，以被测目标的物像可通过镜头的最大范围的两条边缘构成的夹角，称为视场角，视场角的大小决定了摄像机的视野范围，视场角越大，视野就越大。可以基于镜头的焦距和图像传感器的靶面大小获取摄像机采集图像数据时的视场角，对此获取方式不做限制。

示例性的，可以通过转动电机(也可以称为旋转电机)对摄像机进行转动(对摄像机进行转动时，实际上是对摄像机的镜头进行转动)，而摄像机的转动角度就是摄像机采集图像数据时的方位角，即方位角是摄像机从初始角度转动到目标角度时的转动角度，目标角度是摄像机采集图像数据时的角度。

比如说，将摄像机的初始角度记为0度，在摄像机处于初始角度的基础上，可以通过转动电机对摄像机进行转动，假设转动电机将摄像机转动到30度的位置，即目标角度为30度，且摄像机在该位置采集图像数据，则说明摄像机的转动角度为30度，因此，确定出摄像机采集图像数据时的方位角为30度。

示例性的，摄像机还可以包括角速度传感器，且方位角由角速度传感器采集。比如说，摄像机的转动角度是30度时，角速度传感器可以采集到角度数据，该角度数据表示摄像机的转动角度是30度时，即方位角为30度。

摄像机采集图像数据时的方位角可以为3个方向的方位角，如前后方向的方位角，上下方向的方位角，水平方向的方位角。比如说，参见图4A所示，将摄像机的初始角度所在的位置记为坐标原点O，并建立三维坐标系，该三维坐标系以摄像机所在平面为X轴和Y轴，以垂直于摄像机所在平面为Z轴。显然，若通过转动电机将摄像机转动到位置Q，则3个方向的方位角为：位置Q与X轴之间的方位角θ，位置Q与Y轴之间的方位角α，位置Q与Z轴之间的方位角β。方位角θ是水平方向的方位角，后续记为水平转动角度，方位角α是上下方向的方位角，后续记为上下转动角度，方位角β是前后方向的方位角。在实际应用中，若摄像机不在前后方向进行转动，则前后方向的方位角β为0，本文对前后方向的方位角β不再赘述，以水平转动角度和上下转动角度为例。

示例性的，摄像机可以包括两个转动电机(如转动电机1和转动电机2)和两个角速度传感器(如角速度传感器1和角速度传感器2)，转动电机1用于在水平方向上对摄像机进行转动，角速度传感器1用于采集摄像机在水平方向上的转动角度，该转动角度就是水平转动角度(即水平方向的方位角)。转动电机2用于在上下方向上对摄像机进行转动，角速度传感器2用于采集摄像机在上下方向上的转动角度，该转动角度就是上下转动角度(即上下方向的方位角)。

综上所述，在通过转动电机对摄像机进行转动时，角速度传感器可以采集到摄像机采集图像数据时的方位角，并将该方位角发送给处理器，这样，处理器可以获取到摄像机采集图像数据时的方位角，对此获取方式不做限制。

步骤302，处理器基于该方位角转动声音传感器，以使声音传感器转动到目标角度，该目标角度为摄像机采集图像数据时的目标角度，且声音传感器的初始角度与摄像机的初始角度相同。综上所述，由于声音传感器的初始角度与摄像机的初始角度相同，声音传感器的目标角度与摄像机的目标角度相同，而摄像机从初始角度转动到目标角度时的转动角度为该方位角，因此，声音传感器的转动角度与该方位角相同。例如，处理器可以向声音传感器下发携带该方位角的转动指令，以基于该转动指令转动声音传感器，以使声音传感器的转动角度与该方位角相同，即声音传感器也从初始角度转动到目标角度。

在一种可能的实施方式中，声音传感器与摄像机可以部署在同一结构件，基于此，在通过转动电机对摄像机进行转动时，也会通过转动电机对声音传感器进行同步转动，即，摄像机的转动角度(即上述方位角)与声音传感器的转动角度始终相同，在此情况下，可以不执行步骤302，也能够实现声音传感器的转动角度与该方位角相同，即，可以直接执行步骤303。

在另一种可能的实施方式中，声音传感器与转动电机的转向结构可以部署在同一结构件，基于此，在通过转动电机对摄像机进行转动时，也会通过转动电机对声音传感器进行同步转动，即，摄像机的转动角度(即上述方位角)与声音传感器的转动角度始终相同，在此情况下，可以不执行步骤302，也能够实现声音传感器的转动角度与该方位角相同，即，可以直接执行步骤303。

在另一种可能的实施方式中，声音传感器可以独立部署，声音传感器与摄像机未部署在同一结构件，声音传感器与转动电机的转向结构未部署在同一结构件，基于此，在通过转动电机对摄像机进行转动时，不会通过转动电机对声音传感器进行同步转动。为了使摄像机的转动角度(即上述方位角)与声音传感器的转动角度相同，在步骤302中，处理器可以向声音传感器下发携带该方位角的转动指令，以基于该方位角转动声音传感器，以使声音传感器的转动角度与该方位角相同，对此过程不做限制。比如说，若通过转动电机将镜头转动到位置Q，则在X轴方向上使声音传感器的转动角度为方位角θ，在Y轴方向上使声音传感器的转动角度为方位角α，在Z轴方向上使声音传感器的转动角度为方位角β。综上所述，能够使声音传感器的转动角度与摄像机的转动角度相同。

当然，上述实现方式只是几个示例，本实施例对此实现方式不做限制，只要声音传感器的转动角度与摄像机的镜头的转动角度(方位角)相同即可。

综上所述，在初始状态下，可以配置摄像机指向的中心方向与声音传感器指向的中心方向相同。在摄像机指向的中心方向与声音传感器指向的中心方向相同时，在摄像机被转动后，声音传感器也被同步转动，且摄像机的转动角度与声音传感器的转动角度相同，因此，摄像机指向的中心方向与声音传感器指向的中心方向仍然相同，即摄像机的中心指向与声音传感器的中心指向一致。

步骤303，通过摄像机采集目标场景的图像数据，并通过声音传感器采集该目标场景的声音数据，为了区分方便，将该声音数据称为初始声音数据。

示例性的，在上述视场角和方位角的前提下，摄像机可以采集目标场景的图像数据，并将目标场景的图像数据发送给处理器。在摄像机的转动角度(即该方位角)与声音传感器的转动角度相同的前提下，声音传感器可以采集目标场景的初始声音数据，并将目标场景的初始声音数据发送给处理器。综上所述，处理器可以获取到目标场景的图像数据和目标场景的初始声音数据。

在一种可能的实施方式中，参见图4B所示，声音传感器可以采集声音信号，并将该声音信号转换为模拟信号，并将该模拟信号输入给ADC(Analog-to-Digital Converter，模数转换器)，ADC对该模拟信号进行量化，并将量化后的模拟信号转换为数字信号，将该数字信号输入给处理器。处理器接收该数字信号，并将该数字信号作为初始声音数据。在另一种可能的实施方式中，声音传感器可以采集声音信号，并将该声音信号转换为数字信号，将该数字信号输入给处理器。处理器接收该数字信号，并将该数字信号作为初始声音数据。

综上所述，处理器可以获取到目标场景的图像数据和初始声音数据。

步骤304，处理器根据该视场角确定声音传感器的滤波器系数。

示例性的，可以采用如下步骤确定声音传感器的滤波器系数：

步骤3041，处理器确定与该视场角匹配的目标拾音区域，该目标拾音区域的中心指向与该视场角的中心指向一致，该目标拾音区域覆盖该视场角的区域。

在一种可能的实施方式中，由于初始状态下，摄像机指向的中心方向与声音传感器指向的中心方向相同，在摄像机被转动后，声音传感器也被同步转动，且摄像机的转动角度与声音传感器的转动角度相同，即，摄像机指向的中心方向与声音传感器指向的中心方向仍然相同，因此，即使摄像机和声音传感器被转动，目标拾音区域的中心指向与视场角的中心指向始终一致。

示例性的，目标拾音区域能够覆盖视场角的区域，参见图1C所示。比如说，目标拾音区域为从第一初始角度到第一结束角度之间的角度范围，视场角为从第二初始角度到第二结束角度之间的角度范围，为了使目标拾音区域能够覆盖视场角的区域，则第一初始角度小于或者等于第二初始角度，第一结束角度大于或者等于第二结束角度。例如，第一初始角度等于第二初始角度，第一结束角度等于第二结束角度，如第一初始角度和第二初始角度均为30度，第一结束角度和第二结束角度均为150度。又例如，第一初始角度小于第二初始角度，第一结束角度大于第二结束角度，且第二初始角度与第一初始角度的差值，第一结束角度与第二结束角度的差值，二者相同，如第一初始角度为30度，第一结束角度为150度，第二初始角度为40度，第二结束角度为140度。

在一种可能的实施方式中，为了确定与该视场角匹配的目标拾音区域，可以采用如下方式：可以将该视场角确定为目标拾音区域。或者，可以预先配置多个拾音区域(拾音区域表示声音传感器的拾音范围)，可以从预先配置的多个拾音区域中选取与该视场角匹配的目标拾音区域，目标拾音区域大于或等于该视场角，且目标拾音区域是多个拾音区域中与该视场角最接近的拾音区域。

例如，预先配置的拾音区域包括30度，60度，90度，120度，150度，180度等，若视场角为60度，则目标拾音区域为60度，若视场角为100度，则目标拾音区域为120度，若视场角为140度，则目标拾音区域为150度。

当然，上述只是几个示例，对目标拾音区域的确定方式不做限制。

步骤3042，基于预先配置的拾音区域与全向波束参数的映射关系，确定与目标拾音区域匹配的全向波束参数，并根据全向波束参数确定指向型波束参数。

在一种可能的实施方式中，预期的波束图形状满足如下公式：公式(1)

在公式(1)中，D表示期望的波束宽度(如最大辐射方向两侧，辐射功率下降3dB的两个方向的夹角，本实施例中，波束宽度可以理解为声音传感器的拾音区域)，a₀表示全向波束参数，a₁表示指向型波束参数，k表示目标声源的角度，可以理解为拾音区域的一半。从公式(1)可以看出，全向波束参数a₀和指向型波束参数a₁是用于控制波束宽度D的参数，显然，由于波束宽度可以理解为声音传感器的拾音区域，因此，可以通过全向波束参数a₀和指向型波束参数a₁控制声音传感器的拾音区域，以下对此控制过程进行说明。

当期望的波束宽度D为90度时，全向波束参数a₀的取值为1，指向型波束参数a₁的取值为0，拾音区域为180度，公式(1)中的k为90度，参见图4C所示，为波束宽度D为90度时的示意图。当期望的波束宽度D为60度时，全向波束参数a₀的取值为1/2，指向型波束参数a₁的取值为1/2，波束图为心型指向，拾音区域为120度，公式(1)中的k为60度，参见图4D所示，为波束宽度D为60度时的示意图。当期望的波束宽度D为30度时，全向波束参数a₀的取值为0，指向型波束参数a₁的取值为1，波束图为八字形，拾音区域为60度，公式(1)中的k为30度，参见图4E所示，为波束宽度D为30度时的示意图。

综上所述，通过控制全向波束参数a₀的取值大小，能够实现对波束宽度D的连续调节，继而控制声音传感器的拾音区域。显然，既然全向波束参数a₀的取值大小能够控制声音传感器的拾音区域，因此，可以预先配置拾音区域与全向波束参数a₀的映射关系，参见表1所示，为该映射关系的一个示例。

表1

或者，通过控制指向型波束参数a₁的取值大小，能够实现对波束宽度D的连续调节，继而控制声音传感器的拾音区域。显然，既然指向型波束参数a₁的取值大小能够控制声音传感器的拾音区域，因此，可以预先配置拾音区域与指向型波束参数a₁的映射关系，参见表2所示，为该映射关系的一个示例。

表2

指向型波束参数a₁	拾音区域
		0	180度
…	…
		1/2	120度
…	…
		1	60度

当然，表1和表2只是示例，对此不做限制，只要能够配置拾音区域与全向波束参数a₀的映射关系，或拾音区域与指向型波束参数a₁的映射关系即可。为了方便描述，后续实施例以配置拾音区域与全向波束参数a₀的映射关系为例。

基于表1所示的拾音区域与全向波束参数a₀的映射关系，在步骤3041中，可以从表1的多个拾音区域中选取与视场角匹配的目标拾音区域。在步骤3042中，通过该目标拾音区域查询表1所示的映射关系，得到与该目标拾音区域匹配的全向波束参数a₀，由于全向波束参数a₀与指向型波束参数a₁的和为固定值(如1)，因此，可以根据全向波束参数a₀确定指向型波束参数a₁。

比如说，假设目标拾音区域为120度，通过查询表1，可以得到与目标拾音区域匹配的全向波束参数a₀为1/2，并确定指向型波束参数a₁为1/2。

步骤3043，基于全向波束参数和指向型波束参数确定声音传感器的滤波器系数。比如说，若声音传感器的数量为至少两个，则获取不同声音传感器之间的连线距离，并基于该全向波束参数、该指向型波束参数、该连线距离，目标场景的声音频率和目标场景的声音传播速度，确定声音传感器的滤波器系数。

示例性的，以两个声音传感器(如声音传感器1和声音传感器2)为例，介绍如何确定每个声音传感器的滤波器系数，当声音传感器的数量为3个或者更多时，滤波器系数的确定方式类似，本实施例中不再重复赘述。

参见图4F所示，声音传感器1和声音传感器2之间的连线距离为d，k表示目标声源的角度，可以理解为目标拾音区域的一半，如目标拾音区域为120度时，目标声源的角度k为60度，目标声源的入射方向与声音传感器连线之间的角度为k。目标场景的声音传播速度记为c，目标场景的声音频率记为f。

在此基础上，选定声音传感器2作为参考声音传感器，则声音传播的导向矢量可以为：d＝[1,e^-j2πfτ]^T，τ表示声音传感器1和声音传感器2之间的时延差，关于声音传感器1和声音传感器2之间的时延差τ的确定方式，参见后续实施例。

假设声音传感器的滤波器系数为w＝[w₁,w₂]，w₁表示声音传感器1的滤波器系数，w₂表示声音传感器2的滤波器系数，则波束器的输出参见公式(2)：

O＝w·d＝w₁+w₂e^{-j2πfdcos(k)/c} 公式(2)

在上述公式(2)中，j表示虚数单位，声音传感器1和声音传感器2之间的连线距离d很小，而声音传播速度c很大，因此，d/c很小，在对公式(2)作一阶线性展开后，可以将公式(2)简化为公式(3)所示。

O＝w₁+w₂-w₂·j2πfdcos(θ)/c 公式(3)

基于公式(1)和公式(3)所示的表达式，对照O和D的表达式，让二者完全相等时，可以得到如公式(4)所示的二元一次方程组：

综上所述，基于全向波束参数a₀，指向型波束参数a₁，声音传感器1和声音传感器2之间的连线距离d，声音频率f和声音传播速度c，确定声音传感器的滤波器系数w＝[w₁,w₂]，即声音传感器1的滤波器系数w₁，声音传感器2的滤波器系数w₂，从而将全向波束参数a₀和指向型波束参数a₁转换为滤波器系数。

步骤305，处理器基于滤波器系数对初始声音数据进行滤波，得到与该视场角匹配的目标声音数据，该目标声音数据的拾音区域与该视场角重合。

示例性的，假设初始声音数据(即输入数据)为x＝[x₁,x₂]，x₁表示声音传感器1采集的初始声音数据，x₂表示声音传感器2采集的初始声音数据，在得到滤波器系数w＝[w₁,w₂]后，基于滤波器系数w＝[w₁,w₂]对初始声音数据x＝[x₁,x₂]进行滤波，得到目标声音数据y＝[y₁,y₂]，y₁表示声音传感器1对应的目标声音数据，y₂表示声音传感器2对应的目标声音数据。比如说，可以采用如下公式得到目标声音数据：y＝w·x，当然，上述方式只是示例，对此不做限制。

在上述方式中，由于声音传感器的滤波器系数w＝[w₁,w₂]是基于视场角确定的，因此，基于滤波器系数w＝[w₁,w₂]对初始声音数据x＝[x₁,x₂]进行滤波后，可以得到与该视场角范围匹配的目标声音数据y＝[y₁,y₂]，即，该目标声音数据y＝[y₁,y₂]的拾音区域可以与图像数据的视场角重合，参见图1C所示。

步骤306，处理器基于摄像机采集图像数据时的方位角确定时延参数。

在一种可能的实施方式中，若声音传感器的数量为至少两个，则可以基于该方位角确定第一声音传感器与第二声音传感器之间的时延参数。示例性的，可以将所有声音传感器中的一个声音传感器作为第一声音传感器，将所有声音传感器中除第一声音传感器之外的其它声音传感器作为第二声音传感器。

比如说，若存在声音传感器1、声音传感器2和声音传感器3，则可以将声音传感器1作为第一声音传感器，将声音传感器2和声音传感器3均作为第二声音传感器。因此，基于该方位角确定声音传感器1与声音传感器2之间的时延参数，基于该方位角确定声音传感器1与声音传感器3之间的时延参数。

参见上述实施例，该方位角包括水平转动角度(即方位角θ)和上下转动角度(即方位角α)，因此，基于水平转动角度确定声音传感器1与声音传感器2之间的X轴方向上的时延参数x12，基于水平转动角度确定声音传感器1与声音传感器3之间的X轴方向上的时延参数x13。基于上下转动角度确定声音传感器1与声音传感器2之间的Y轴方向上的时延参数y12，基于上下转动角度确定声音传感器1与声音传感器3之间的Y轴方向上的时延参数y13。

在一种可能的实施方式中，基于该方位角确定第一声音传感器与第二声音传感器之间的时延参数，可以包括但不限于如下方式：基于该方位角，第一声音传感器与第二声音传感器之间的连线距离，以及目标场景的声音传播速度，确定第一声音传感器与第二声音传感器之间的时延参数。

参见图5A所示，以3个声音传感器为例，当方位角为0度(声音从声音传感器3的方向传输过来)时，基于声音传感器1与声音传感器2之间的连线距离为d，可以计算出声音传感器1与声音传感器2之间的时延参数τ＝d/c，基于声音传感器1与声音传感器3之间的连线距离为2d，可以计算出声音传感器1与声音传感器3之间的时延参数τ＝2d/c，c表示声音传播速度。

参见图5B所示，当方位角为p时，基于声音传感器1与声音传感器2之间的连线距离d，可以确定出声音传感器1与声音传感器2之间相对声源的距离为d′＝d/cosp，因此，可以计算出声音传感器1与声音传感器2之间的时延参数τ＝d′/c，即

同理，基于声音传感器1与声音传感器3之间的连线距离为2d，可以计算出声音传感器1与声音传感器3之间的时延参数/>

综上所述，基于方位角p，第一声音传感器与第二声音传感器之间的连线距离，声音传播速度c，确定第一声音传感器与第二声音传感器之间的时延参数τ。

示例性的，若基于水平转动角度确定时延参数x12，则方位角p为水平转动角度，若基于上下转动角度确定时延参数y12，则方位角p为上下转动角度。

步骤307，处理器基于时延参数对至少一个目标声音数据进行延时，并基于延时后的目标声音数据进行增强，如对延时后的所有目标声音数据进行融合。

参见上述实施例，第一声音传感器对应一个目标声音数据，每个第二声音传感器对应一个目标声音数据。基于此，针对每个第二声音传感器，基于该第二声音传感器对应的时延参数对该第二声音传感器对应的目标声音数据进行延时。然后，基于第一声音传感器对应的目标声音数据和每个第二声音传感器对应的延时后的目标声音数据进行增强，得到增强后的目标声音数据。

参见图5C所示，以3个声音传感器为例，声音传感器1对应目标声音数据1，声音传感器2对应目标声音数据2，声音传感器3对应目标声音数据3，假设声音传感器1与声音传感器2之间的时延参数为t1，声音传感器1与声音传感器3之间的时延参数t2，则将目标声音数据2向后延时t1，将目标声音数据3向后延时t2，参见图5D所示。然后，将目标声音数据1、延时t1后的目标声音数据2、延时t2后的目标声音数据3进行增强，得到增强后的目标声音数据a。

显然，增强后的目标声音数据a是对目标声音数据1、延时t1后的目标声音数据2、延时t2后的目标声音数据3进行融合(求和)得到。

示例性的，声音传感器1与声音传感器2之间的时延参数包括X轴方向上的时延参数x12，Y轴方向上的时延参数y12，声音传感器1与声音传感器3之间的时延参数包括X轴方向上的时延参数x13，Y轴方向上的时延参数y13，因此，可以将目标声音数据2的X轴方向上的声音分量21向后延时x12，将目标声音数据2的Y轴方向上的声音分量22向后延时y12。同理，可以将目标声音数据3的X轴方向上的声音分量31向后延时x13，将目标声音数据3的Y轴方向上的声音分量32向后延时y13。

示例性的，增强后的目标声音数据a包括X轴方向上的声音分量a1，Y轴方向上的声音分量a2。声音分量a1是对目标声音数据1的X轴方向上的声音分量11、延时x12后的声音分量21、延时x13后的声音分量31进行求和得到。声音分量a2是对目标声音数据1的Y轴方向上的声音分量12、延时y12后的声音分量22、延时y13后的声音分量32进行求和得到。

综上所述，可以对目标声音数据进行增强，得到增强后的目标声音数据。

以下结合图5E对上述过程进行说明，假设存在M个声音传感器，则得到M个初始声音数据，将这些初始声音数据记为y₀(t)、y₁(t)、...、y_M-1(t)。针对每个初始声音数据，基于滤波器系数对该初始声音数据进行滤波，得到与该初始声音数据对应的目标声音数据，将这些目标声音数据记为x₀(t)、x₁(t)、...、x_M-1(t)。

然后，对每个目标声音数据进行延时，得到与该目标声音数据对应的延时后的目标声音数据，将这些延时后的目标声音数据记为w₀、w₁、...、w_M-1。示例性的，在对目标声音数据x₀(t)进行延时时，时长为声音传感器1与声音传感器1之间的时延参数1(如0)。在对目标声音数据x₁(t)进行延时时，时长为声音传感器1与声音传感器2之间的时延参数2。以此类推，在对目标声音数据x_M-1(t)进行延时时，时长为声音传感器1与声音传感器M之间的时延参数M。

然后，对w₀、w₁、...、w_M-1进行求和，得到增强后的目标声音数据z(t)。综上所述，每个声音传感器都是一个方向阵，这个方向阵的指向性可通过时域算法Delay&Sum，控制不同的Delay，实现不同方向的指向，对此不再赘述。

步骤308，处理器将同一时刻的图像数据和增强后的目标声音数据进行关联。

示例性的，每个图像数据具有时间戳，每个增强后的目标声音数据也具有时间戳(即目标声音数据对应的初始声音数据的时间戳)，因此，处理器可以基于图像数据的时间戳和增强后的目标声音数据的时间戳，将同一时刻的图像数据和增强后的目标声音数据匹配起来，并通过网口输出同一时刻的图像数据和增强后的目标声音数据，对此不做限制。比如说，处理器确定图像数据的采集时刻(即时间戳)和增强后的目标声音数据的采集时刻(即时间戳)，增强后的目标声音数据的采集时刻为该目标声音数据对应的初始声音数据的采集时刻。然后，若图像数据的采集时刻与增强后的目标声音数据的采集时刻相同，则将同一采集时刻的图像数据和增强后的目标声音数据进行关联。

示例性的，处理器通过网口输出同一时刻的图像数据和增强后的目标声音数据时，还可以对图像数据和增强后的目标声音数据进行编码，并输出编码后的数据。以及，处理器还可以存储图像数据和增强后的目标声音数据。

在一种可能的实施方式中，上述声音传感器的数量可以根据经验任意配置，如2个声音传感器、4个声音传感器、6个声音传感器等，对此不做限制。

在一种可能的实施方式中，当摄像机采集图像数据时的视场角发生变化时，需要基于变化后的视场角重新执行步骤301-步骤308。或者，当摄像机采集图像数据时的方位角发生变化时，需要基于变化后的方位角重新执行步骤301-步骤308。或者，当摄像机采集图像数据时的视场角和方位角发生变化时，需要基于变化后的视场角和变化后的方位角重新执行步骤301-步骤308。

由以上技术方案可见，本申请实施例中，可以实现图像数据和声音数据的同步，可以将目标声音数据之外的声音数据作为噪声滤除，扩展了监控设备的能力。比如说，图像数据的视场角范围是120度，且目标声音数据的拾音区域是120度，且图像数据的视场角范围与目标声音数据的拾音区域重合。

基于与上述方法同样的申请构思，本申请实施例中提出一种声音数据的处理装置，参见图6所示，为所述装置的结构示意图，所述装置可以包括：

获取模块61，用于通过摄像机采集目标场景的图像数据，通过声音传感器采集目标场景的初始声音数据，获取所述摄像机采集所述图像数据时的视场角；

确定模块62，用于根据所述视场角确定所述声音传感器的滤波器系数；

处理模块63，用于基于所述滤波器系数对所述初始声音数据进行滤波，得到与所述视场角匹配的目标声音数据，所述目标声音数据的拾音区域与所述视场角重合；将同一时刻的图像数据和目标声音数据进行关联。

示例性的，所述确定模块62根据所述视场角确定所述声音传感器的滤波器系数时具体用于：确定与所述视场角匹配的目标拾音区域；其中，所述目标拾音区域的中心指向与所述视场角的中心指向一致，所述目标拾音区域覆盖所述视场角的区域；基于预先配置的拾音区域与全向波束参数的映射关系，确定与所述目标拾音区域匹配的全向波束参数，根据所述全向波束参数确定指向型波束参数；基于所述全向波束参数和所述指向型波束参数确定所述滤波器系数。

示例性的，所述确定模块62确定与所述视场角匹配的目标拾音区域时具体用于：将所述视场角确定为所述目标拾音区域；或者，

示例性的，所述获取模块61通过声音传感器采集所述目标场景的初始声音数据之前还用于：获取所述摄像机采集所述图像数据时的方位角；其中，所述方位角是所述摄像机从初始角度转动到目标角度时的转动角度，所述目标角度是所述摄像机采集所述图像数据时的角度，所述方位角由角速度传感器采集；

示例性的，若声音传感器的数量为至少两个，则每个声音传感器对应一个目标声音数据，所述处理模块63将同一时刻的图像数据和目标声音数据进行关联时具体用于：基于所述摄像机采集所述图像数据时的方位角确定时延参数，基于所述时延参数对至少一个目标声音数据进行延时，基于延时后的目标声音数据进行增强；确定所述图像数据的采集时刻和增强后的目标声音数据的采集时刻，所述增强后的目标声音数据的采集时刻为所述初始声音数据的采集时刻；

示例性的，所述处理模块63具体用于：基于所述方位角确定第一声音传感器与第二声音传感器之间的时延参数；其中，将所有声音传感器中的一个声音传感器作为第一声音传感器，将所有声音传感器中除第一声音传感器之外的其它声音传感器作为第二声音传感器；针对每个第二声音传感器，基于所述第二声音传感器对应的时延参数对所述第二声音传感器对应的目标声音数据进行延时；基于第一声音传感器对应的目标声音数据和每个第二声音传感器对应的延时后的目标声音数据进行增强，得到增强后的目标声音数据。

基于与上述方法同样的申请构思，本申请实施例中提出一种监控设备，所述监控设备包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；所述处理器用于执行机器可执行指令，以实现如下步骤：

根据所述视场角确定所述声音传感器的滤波器系数；

将同一时刻的图像数据和目标声音数据进行关联。

基于与上述方法同样的申请构思，本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被处理器执行时，能够实现本申请上述示例公开的声音数据的处理方法。

其中，上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

基于与上述方法同样的申请构思，本申请实施例中提出一种监控设备，参见图7所示，为该监控设备的结构示意图，该监控设备可以包括图像采集组件71(如上述实施例的摄像机)，语音采集组件72(如上述实施例的声音传感器)，信息处理组件73(如上述实施例的处理器)，其中：

图像采集组件71，用于采集目标场景的图像数据，将所述图像数据发送给信息处理组件；获取图像采集组件的视场角，将所述视场角发送给信息处理组件；

语音采集组件72，用于在图像采集组件采集目标场景的图像数据时，采集所述目标场景的初始声音数据，将所述初始声音数据发送给信息处理组件；

信息处理组件73，用于接收图像数据、初始声音数据和视场角，根据所述视场角确定语音采集组件的滤波器系数；基于所述滤波器系数对所述初始声音数据进行滤波，得到与所述视场角匹配的目标声音数据，所述目标声音数据的拾音区域与所述视场角重合；将同一时刻的图像数据和目标声音数据进行关联。

示例性的，所述信息处理组件73根据所述视场角确定语音采集组件的滤波器系数时具体用于：确定与所述视场角匹配的目标拾音区域；其中，所述目标拾音区域的中心指向与所述视场角的中心指向一致，所述目标拾音区域覆盖所述视场角的区域；

示例性的，所述信息处理组件73将同一时刻的图像数据和目标声音数据进行关联时具体用于：基于摄像机采集所述图像数据时的方位角确定时延参数，基于所述时延参数对至少一个目标声音数据进行延时，基于延时后的目标声音数据进行增强；确定所述图像数据的采集时刻和增强后的目标声音数据的采集时刻，所述增强后的目标声音数据的采集时刻为所述初始声音数据的采集时刻；

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种关联图像数据和声音数据的处理方法，其特征在于，所述方法包括：

根据所述视场角确定所述声音传感器的滤波器系数；

将同一时刻的图像数据和目标声音数据进行关联；

其中，所述根据所述视场角确定所述声音传感器的滤波器系数，包括：

基于不同声音传感器之间的连线距离、所述全向波束参数、所述指向型波束参数、所述目标场景的声音频率和声音传播速度确定所述滤波器系数。

2.根据权利要求1所述的方法，其特征在于，所述目标拾音区域为从第一初始角度到第一结束角度之间的角度范围，所述视场角为从第二初始角度到第二结束角度之间的角度范围；所述第一初始角度小于或者等于所述第二初始角度，所述第一结束角度大于或者等于所述第二结束角度。

3.根据权利要求1所述的方法，其特征在于，

所述确定与所述视场角匹配的目标拾音区域，包括：

将所述视场角确定为所述目标拾音区域；或者，

4.根据权利要求1-3任一项所述的方法，其特征在于，所述通过声音传感器采集所述目标场景的初始声音数据之前，所述方法还包括：

获取所述摄像机采集所述图像数据时的方位角；其中，所述方位角是所述摄像机从初始角度转动到目标角度时的转动角度，所述目标角度是所述摄像机采集所述图像数据时的角度，所述方位角由角速度传感器采集；

5.根据权利要求1-3任一项所述的方法，其特征在于，

所述声音传感器与所述摄像机部署在同一结构件，在通过转动电机对所述摄像机进行转动时，所述转动电机对所述声音传感器进行同步转动；或者，

所述声音传感器与转动电机的转向结构部署在同一结构件，在通过转动电机对所述摄像机进行转动时，所述转动电机对所述声音传感器进行同步转动。

6.根据权利要求1所述的方法，其特征在于，

若声音传感器的数量为至少两个，则每个声音传感器对应一个目标声音数据，所述将同一时刻的图像数据和目标声音数据进行关联，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于摄像机采集所述图像数据时的方位角确定时延参数，基于所述时延参数对至少一个目标声音数据进行延时，基于延时后的目标声音数据进行增强，包括：

基于所述方位角确定第一声音传感器与第二声音传感器之间的时延参数；其中，将所有声音传感器中的一个声音传感器作为第一声音传感器，将所有声音传感器中除第一声音传感器之外的其它声音传感器作为第二声音传感器；

针对每个第二声音传感器，基于所述第二声音传感器对应的时延参数对所述第二声音传感器对应的目标声音数据进行延时；

8.根据权利要求7所述的方法，其特征在于，所述基于所述方位角确定第一声音传感器与第二声音传感器之间的时延参数，包括：

基于所述方位角，所述第一声音传感器与所述第二声音传感器之间的连线距离，以及所述目标场景的声音传播速度，确定所述时延参数。