CN117859339A

CN117859339A - 媒体设备及其控制方法和装置、目标跟踪方法和装置

Info

Publication number: CN117859339A
Application number: CN202280057210.7A
Authority: CN
Inventors: 莫品西; 边云锋; 高建正
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2024-04-09
Also published as: WO2023164814A1

Abstract

本公开实施例提供一种媒体设备及其控制方法和装置、目标跟踪方法和装置，所述媒体设备包括摄像装置和拾音装置，所述方法包括：根据目标对象在所述摄像装置的成像画面中的成像位置，确定所述目标对象在空间中的方位信息；根据所述拾音装置拾取的环境音频确定空间中的音源方位信息；根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。

Description

媒体设备及其控制方法和装置、目标跟踪方法和装置

技术领域

本公开涉及音视频处理技术领域，尤其涉及媒体设备及其控制方法和装置、目标跟踪方法和装置。

背景技术

在实际应用中，常常需要对目标对象进行影音录制。然而，在进行影音录制时，出于目标对象的移动、环境光照较暗、背景噪声较大等原因，可能导致摄像装置或者拾音装置难以聚焦目标对象，从而导致影音录制效果较差。

发明内容

第一方面，本公开实施例提供一种媒体设备的控制方法，所述媒体设备包括摄像装置和拾音装置，所述方法包括：根据目标对象在所述摄像装置的成像画面中的成像位置，确定所述目标对象在空间中的方位信息；根据所述拾音装置拾取的环境音频确定空间中的音源方位信息；根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。

第二方面，本公开实施例提供一种目标跟踪方法，所述方法包括：确定目标对象在空间中的第一方位信息；基于所述第一方位信息对所述目标对象进行跟踪；在跟踪状态异常的情况下，确定目标对象在空间中的第二方位信息；基于所述第一方位信息和所述第二方位信息对所述目标对象进行跟踪，以使跟踪状态恢复为正常状态；其中，所述第一方位信息和第二方位信息中的一者基于目标对象的图像确定，另一者基于目标对象的音频确定。

第三方面，本公开实施例提供一种媒体设备的控制装置，所述媒体设备包括摄像装置和拾音装置，所述控制装置包括处理器，所述处理器用于执行以下步骤：根据目标对象在所述摄像装置的成像画面中的成像位置，确定所述目标对象在空间中的方位信息；根据所述拾音装置拾取的环境音频确定空间中的音源方位信息；根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。

第四方面，本公开实施例提供一种目标对象的跟踪装置，所述跟踪装置包括处理器，所述处理器用于执行以下步骤：确定目标对象在空间中的第一方位信息；基于所述第一方位信息对所述目标对象进行跟踪；在跟踪状态异常的情况下，确定目标对象在空间中的第二方位信息；基于所述第一方位信息和所述第二方位信息对所述目标对象进行跟踪，以使跟踪状态恢复为正常状态；其中，所述第一方位信息和第二方位信息中的一者基于目标对象的图像确定，另一者基于目标对象的音频确定。

第五方面，本公开实施例提供一种媒体设备，所述媒体设备包括：摄像装置，用于采集环境图像；拾音装置，用于拾取环境音频；以及处理器，用于根据目标对象在所述环境图像中的像素位置，确定所述目标对象在空间中的方位信息，根据所述环境音频确定空间中的音源方位信息，并根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。

第六方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

本公开实施例中，由于拍摄参数和拾音参数的调整过程均同时参考了目标对象的方位信息和音源方位信息，因此，提高了调整后的拍摄参数和拾音参数的准确性和可靠性，从而使得摄像装置拍摄的影像和拾音装置拾取的音频都能够较好地聚焦于目标对象，进而提高了影音录制效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是影音录制场景的示意图。

图2是本公开实施例的媒体设备的控制方法的流程图。

图3是本公开实施例的参数调整过程的总体流程的示意图。

图4和图5分别是本公开实施例的目标对象的重新找回过程的示意图。

图6是本公开实施例的对目标对象进行找回前后的效果示意图。

图7A是本公开实施例的目标对象的显示方式的示意图。

图7B是本公开实施例的目标对象的距离与音量的关系示意图。

图7C是本公开实施例的不同对象的音频幅度的调整方式的示意图。

图8A和图8B分别是本公开实施例的导致音频聚焦失败的场景的示意图。

图9A是本公开实施例的目标跟踪方法的流程图。

图9B是本公开实施例的音频信息和图像信息的融合过程的示意图。

图10A是本公开实施例的音频辅助图像进行目标跟踪过程的示意图。

图10B是本公开实施例的图像辅助音频进行目标跟踪过程的示意图。

图11是本公开实施例的媒体设备的示意图。

图12是本公开实施例的媒体设备的控制装置/目标对象的跟踪装置的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在实际应用中，常常需要对目标对象进行影音录制。图1示出了一种影音录制场景的示意图。空间中可包括一个或多个目标对象M，其中，目标对象M可以是人、动物、车辆、电子设备等各种类型的活体或者非活体。在一些实施例中，目标对象可以自主移动，或者可跟随其他对象移动。通常，目标对象可以发出音频信号。例如，在目标对象为人的情况下，音频信号可以是人的说话声(例如，“你好！”)；在目标对象为车辆的情况下，音频信号可以是车辆行驶时的引擎声音、车辆上的喇叭声等。可以通过媒体设备101对目标对象进行影音录制。

在一些实施例中，媒体设备101可包括摄像装置以及拾音装置(图中未示出)。摄像装置的拍摄参数(例如，位姿、焦距等)可以随着目标对象M的移动而发生改变，以便聚焦目标对象M，并拍摄目标对象M的图像序列，从而实现对目标对象的视频录制。拾音装置可以包括麦克风阵列，例如，线型阵列、平面阵列或立体阵列。拾音装置可以采集目标对象的音频信息，从而实现对目标对象的音频录制。进一步地，为了提高音频录制效果，拾音装置还可以调整拾音参数，以对目标对象的音频信息进行定向录制。通过视频录制和音频录制，从而共同实现影音录制。在图1所示的实施例中，媒体设备101为手机，其可以安装在手持云台102上。通过控制转轴转动，从而实现对媒体设备101的位姿调整。手持云台上还可以包括一个或多个按钮1021，用以调整摄像装置的其他拍摄参数和/或拾音装置的拾音参数。

本领域技术人员可以理解，上述实施例仅为影音录制场景的一种示例性实施例，并非用于限制本公开。实际应用中的影音录制场景不限于上述实施例中所描述的场景。此外，媒体设备101的类别、安装位置以及控制方式等均不限于上述实施例中所描述的。

在影音录制过程中，影音录制效果会受到很多因素的影响。一方面，视频录制效果可能受到以下因素的影响：环境光的光照强度、目标对象的移动速度和/或目标对象的遮挡情况。具体来说，在环境光的光照强度较弱时，从成像画面中检测目标对象的检测准确率可能下降，从而难以准确地确定目标对象的位置；在目标对象移动速度过快时，难以快速地切换拍摄参数以跟随目标对象，从而容易在成像画面中丢失目标对象；在目标对象被遮挡时，拍摄到的目标对象常常是不完整的。另一方面，音频录制效果可能受到环境噪声的影响，当环境噪声过大时，难以准确地捕获与目标对象相关联的音频信息。并且，用户在操作媒体设备时可能无意中堵住麦克风阵列中的一个或多个麦克风，导致部分麦克风不可用，从而降低音频录制效果。除了上述几种情况外，在对焦模糊、目标未在成像画面中、目标对象不发声或者声音较小、有多个声音目标、有强干扰声等场景下，均可能发生摄像装置或者拾音装置难以聚焦目标对象的情况，从而导致影音录制效果较差。

为解决上述问题，本公开提供一种媒体设备的控制方法，所述媒体设备包括摄像装置和拾音装置，参见图2，所述方法包括：

步骤201：根据目标对象在所述摄像装置的成像画面中的成像位置，确定所述目标对象在空间中的方位信息；

步骤202：根据所述拾音装置拾取的环境音频确定空间中的音源方位信息；

步骤203：根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。

本公开实施例的媒体设备可以是包括摄像装置和拾音装置的任意一种电子设备，例如，手机、具有录音功能的摄像机等。其中，摄像装置和拾音装置可以是在视觉上相互分离的装置(例如，二者分别安装在两个不同的设备上)，也可以是像手机这样一体化的。本公开实施例同时利用了声音和图像两个维度的信息来调整拍摄参数和拾音参数，从而提高了调整结果的准确性和鲁棒性。

在步骤201中，可以通过摄像装置对周围环境进行成像，如果目标对象处于摄像装置的视野范围内，则摄像装置的成像画面中包括目标对象。通过对成像画面进行目标定义、目标特征提取、目标辨别等操作，可以确定目标对象在成像画面中的像素位置。可以预先建立图像坐标系，图像坐标系可以采用相对于摄像装置静止的坐标系，所述成像位置可以用所述图像坐标系下的坐标来表示。目标对象在空间中的方位信息可以用目标对象在物理坐标系(例如，世界坐标系或者其他相对于媒体设备静止的坐标系)下的坐标来表示。假设目标对象在该成像画面中的成像位置(即目标对象的像素位置)为p _o，则基于摄像装置成像时的位姿信息以及p _o，可以确定图像坐标系与物理坐标系之间的映射关系，从而确定目标对象在空间中的方位信息(即目标对象的物理方位)P _o。摄像装置可以包括一个或多个摄像头，利用所述一个或多个摄像头进行连续成像，得到多帧连续的图像帧，再基于上述方式确定目标对象在空间中的实时方位信息。

在步骤202中，拾音装置可以对各种环境音频进行拾取，并根据拾取的环境音频确定空间中的音源方位信息。具体来说，可以预先建立声场坐标系，声场坐标系一般为相对于拾音装置静止的坐标系。利用拾音装置中的麦克风阵列可以获取两个或两个以上麦克风的声场信号，再利用音源定位技术，从而可以确定音源在声场坐标系的实时方位。其中，音源定位技术可以包括但不限于波束形成技术(Beamforming)、差分麦克风阵列技术(Differential Microphone Arrays)、到时差技术(TDOA，Time Difference of Arrival)等。再基于声场坐标系与物理坐标系之间的映射关系对音源在声场坐标系的实时方位进行映射，可以得到音源在物理坐标系下的实时方位。

应当说明的是，所述环境音频既可以是目标对象发出的，也可以是目标对象以外的其他对象发出的，即，空间中的音源既可以包括目标对象，也可以包括目标对象以外的其他对象。因此，拾音装置采集到的环境音频可能包括以下几种情况：(1)仅包括目标对象发出的音频信号；(2)仅包括目标对象以外的其他对象发出的音频信号；(3)既包括目标对象发出的音频信号，又包括目标对象以外的其他对象发出的音频信号。也就是说，本步骤确定的音源方位信息与步骤201中确定的目标对象在空间中的方位信息既可能相同，也可能不同。

在步骤203中，可以基于目标对象的方位信息以及音源方位信息共同调整摄像装置的拍摄参数，并基于目标对象的方位信息以及音源方位信息共同调整拾音装置的拾音参数，整个过程如图3所示。例如，可以对目标对象的方位信息和音源方位信息进行融合，得到融合位置信息，并根据融合位置信息调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数。

在相关技术中，进行影音录制时往往是仅基于目标对象的方位信息调整摄像装置的拍摄参数，并基于音源方位信息调整拾音装置的拾音参数。相比于相关技术中的调整方式，本公开的调整方式具有更高的准确性和可靠性，从而使得摄像装置拍摄的影像和拾音装置拾取的音频都能够较好地聚焦于目标对象，进而提高了影音录制效果。应当说明的是，本公开所述的聚焦不一定是对目标对象进行对焦，也可以是使摄像装置的镜头跟随目标对象，从而使目标对象始终处于摄像装置的成像画面中，还可以是通过调整拾音装置的拾音参数，以使拾音装置拾取的目标对象的音频具有较高的信噪比。下面对本公开的方案及其所获得的技术效果进行详细说明。

在一些实施例中，影音录制过程中会出现目标对象从成像画面中丢失的情况，针对这种情况，相关技术难以有效地对目标对象进行找回。本公开能够将音源方位信息作为辅助定位手段来实现目标对象从成像画面中丢失时的重定位，并以此作为依据调整摄像装置的拍摄参数，使目标对象重新出现在成像画面中。

参见图4，可以根据所述目标对象的方位信息调整所述摄像装置的拍摄参数，以使所述目标对象保持在所述成像画面中(步骤401)；若检测到所述目标对象在所述摄像装置的成像画面中消失，根据所述拾音装置拾取的环境音频确定与所述目标对象相关联的目标音源方位信息(步骤402)；基于所述目标音源方位信息调整所述摄像装置的拍摄参数，以使所述目标对象重新出现在所述摄像装置的成像画面中(步骤403)。其中，在环境中存在包括目标对象以及其他音源的情况下，目标音源方位信息可以从多个音源方位信息中确定，即，本公开实施例能够在成像画面丢失目标对象时先通过音频进行广泛搜索，得到多个音源的方位，再从中确定目标对象最有可能的方位，并基于该方位聚焦目标对象。

例如，可以获取目标对象在多个时刻的方位信息，每个时刻的方位信息基于目标对象在该时刻的成像画面中的成像位置确定。所述多个时刻可以包括当前时刻和至少一个历史时刻，也可以仅包括多个历史时刻而不包括当前时刻。基于所述多个时刻的方位信息可以确定目标对象的移动速度和移动方向，并基于所述移动速度和移动方向调整摄像装置的拍摄参数。例如，可以基于移动方向调整摄像装置的拍摄角度。假设目标对象相对于摄像装置向右移动，则可以向右调整摄像装置的拍摄角度。假设目标对象朝着成像画面边缘处移动，可以调整摄像装置的焦距。其中，拍摄角度的调整量可以基于移动速度确定。在一些例子中，拍摄角度的调整量与移动速度正相关。

除了上述调整方式以外，还可以采用其他方式对摄像装置的拍摄参数进行调整，此处不再一一列举，调整的目的都是使目标对象保持在成像画面中。然而，在实际应用中，调整过程可能不够准确，导致未能使目标对象保持在成像画面中，即，目标对象在成像画面中消失。此时，可以基于拾音装置拾取的环境音频确定与目标对象相关联的目标音源方位信息。

如上所述，空间中可能包括除目标对象以外的音源，因此，需要从各个音源中定位出与目标对象相关联的目标音源，即目标对象的声音来源。例如，在空间中可能包括人的说话声、车辆启动的声音、音乐声，并且目标对象是人，则需要从各种音源中定位出发出人的说话声的目标音源。

在一些实施例中，可以基于空间中的音源的音频特征信息确定与所述目标对象相关联的目标音源方位信息。一个对象的音源的音频特征信息与该对象的类别和/或属性相关，可以预先建立音频特征信息与对象的类别和属性之间的对应关系，并基于该对应关系以及目标对象的类别和属性，确定目标音源，并进一步确定目标音源方位信息。其中，所述类别可以包括但不限于人、动物、车辆等，所述属性可包括但不限于性别、年龄、型号等。

可选地，在所述音频特征信息包括音频的频率的情况下，若一个音源发出的音频的频率在目标频段范围内，可以基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息。其中，所述目标频段范围可以基于目标对象的类别和/或属性确定。例如，成年男子的声音频率一般在200Hz到600Hz之间，因此，在目标对象为成年男子的情况下，若一个音源发出的音频的频率在200Hz到600Hz之间，可以将该音源确定为与所述目标对象相关联的目标音源，并将该音源的方位信息确定为目标音源方位信息。

可选地，在所述音频特征信息包括音频的幅度的情况下，若一个音源发出的音频的幅度满足预设的幅度条件，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息。所述预设的幅度条件可以是音频的幅度在预设范围内，也可以是音频的幅度最大，或者是其他的条件。在音频的幅度最大为预设的幅度条件的情况下，若一个音源发出的音频的幅度最大，则将该音源确定为与所述目标对象相关联的目标音源，并将该音源的方位信息确定为目标音源方位信息。特别地，在包括多个对象，且只有一个对象发出音频信号的情况下，可以将发出音频信号的对象确定为目标对象。

可选地，在所述音频特征信息包括音频的语义信息的情况下，若一个音源发出预设语义信息的音频，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息。可以对空间中的各个音源发出的音频进行语义分析，以确定音频包括的语义信息。所述预设语义信息可以基于媒体设备所处的场景来确定，例如，在教学场景下，假设目标对象为教师，且识别到发出语义信息“上课”的音源以及发出语义信息“老师好”的音源，则可以将发出语义信息“上课”的音源确定为与所述目标对象相关联的目标音源，并将该音源的方位信息确定为目标音源方位信息。

在其他实施例中，音频特征信息可以包括频率、幅度、语义信息中的至少两者，相应地，可以结合频率、幅度、语义信息中的至少两者确定目标音源，从而确定目标音源方位信息。

在确定目标音源方位信息之后，可以再次调整所述摄像装置的拍摄参数。例如，可以将摄像装置的角度调整为正对目标音源的角度，或者减小摄像装置的焦距来扩大摄像装置的视野范围，以使所述目标对象重新出现在所述摄像装置的成像画面中。

除了上述方式之外，本公开实施例还提供另一种方案来找回目标对象。参见图5，可以根据所述目标对象的方位信息调整所述摄像装置的拍摄参数，以使所述目标对象保持在所述成像画面中(步骤501)；若检测到所述目标对象在所述摄像装置的成像画面中消失，根据所述目标对象从所述成像画面消失前在所述成像画面中所处的成像位置，确定所述目标对象在空间中的第一预测方位，并根据所述音源方位信息确定所述目标对象在空间中的第二预测方位(步骤502)；根据所述第一预测方位和所述第二预测方位调整所述摄像装置的拍摄参数，以使所述目标对象重新出现在所述摄像装置的成像画面中(步骤503)。

步骤501的实现方式与步骤401类似，此处不再赘述。下面主要对步骤502和步骤503进行说明。在步骤502中，可以根据目标对象从所述成像画面消失前，在所述成像画面中最近的一次或多次的成像位置，确定第一预测方位。例如，摄像装置采集的第n帧图像中包括目标对象，且第n+1帧图像不包括目标对象，则可以基于第n帧图像中目标对象的像素位置确定第一预测方位。或者，可以基于第n帧到第n-k帧图像中每帧图像中目标对象的像素位置确定第一预测方位，其中，k为正整数。第二预测方位可以基于最近一次确定的音源方位信息来确定。

在步骤503中，可以结合第一预测方位和第二预测方位共同调整拍摄参数。例如，可以基于第一预测方位和第二预测方位对目标对象在空间中所在的区域进行预测，得到预测区域，并基于预测区域的方位调整所述摄像装置的拍摄参数。具体来说，可以对第一预测方位和第二预测方位进行加权，得到目标预测方位，基于目标预测方位确定预测区域。或者，可以将第一预测方位和第二预测方位中置信度较高的一者作为目标预测方位，基于目标预测方位确定预测区域。还可以采用其他方式确定目标预测方位，此处不再一一列举。然后，可以调整摄像装置的拍摄角度，以使摄像装置正对预测区域，或者减小摄像装置的焦距，以使预测区域落入摄像装置的视野范围内。

参见图6，是对目标对象进行找回前后的效果示意图。可以看出，在成像画面F1中，目标对象M位于成像画面的右侧边缘。在成像画面F2中，目标对象丢失。通过采用图4或图5所示的实施例中的找回方式，重新找回了目标对象，使得目标对象重新出现在成像画面F3中。在一些应用场景中，可以在目标对象从成像画面中丢失之后，控制目标对象发出音频信号，从而对目标对象进行找回。

在一些实施例中，通过调整摄像装置的拍摄参数和/或拾音装置的拾音参数，还可以获得特定的影音录制效果。例如，可以通过调整所述摄像装置的拍摄参数，使得所述目标对象处于所述成像画面中的指定区域。所述指定区域可以是成像画面的中心区域，或者成像画面的右上角，或者成像画面的左下角，或者根据任意设置的构图方式将目标对象显示在成像画面的其他区域。图7A示出了将目标对象固定显示在成像画面的中心区域的示意图。可以看出，在目标对象M从右向左移动的过程中，摄像装置共进行了三次成像，分别得到成像画面F1、F2和F3，并且，在成像画面F1、F2和F3中，目标对象M均处于对应成像画面的中心区域。

又例如，可以通过调整所述拾音装置的拾音参数，使得所述拾音装置拾取的音频与所述目标对象到所述媒体设备的距离相匹配。所述相匹配可以是正相关、反相关或者呈现其他的对应关系。如图7B所示，假设目标对象M正在边说话边朝向媒体设备移动，移动方向如图中箭头所示。图中通过一组柱状的音量标识来表示音频信号的音量，黑色柱状标识的数量表示录制的音频信号的音量。可以看出，随着目标对象M逐渐靠近媒体设备，可以通过调整拾音参数，使得录制的音频信号的音量(即幅度)逐渐增大。

再例如，可以对目标对象的音频进行定向拾音，即通过调整所述拾音装置的拾音参数，以增强目标对象的音频的幅度，并减弱除目标对象的音频以外的其他音频的幅度，从而获取高信噪比的目标声音，尤其是在目标对象的音频幅度低于其他对象的音频幅度的情况下，通过定向拾音，能够获得较好的拾音效果。增强和/或减弱的程度可以根据实际需要确定，例如，可以基于用户输入的指令确定。如图7C所示，假设M1为目标对象，M2和M3均为目标对象以外的对象，则可以通过调整拾音参数，使录制的M1的音频信号的音量增强，并使录制的M2和M3的音频信号的音量减弱。

在一些实施例中，摄像装置的成像画面与拾音装置拾取的环境音频可能不同步。例如，环境音频的采集频率为f1，摄像装置的成像频率为f2，且f1≠f2。在这种情况下，可以先筛选出同一时刻采集的环境音频和成像画面，再将筛选出的成像画面用于步骤201中确定成像位置，并将筛选出的环境音频用于步骤202中确定音源方位信息。或者，可以基于第一时刻的成像画面预测第二时刻的成像位置，基于第二时刻采集的环境音频确定音源方位信息，并基于第二时刻的成像位置和第二时刻的音源方位信息调整拍摄参数和拾音参数。

或者，可以基于最近一次获取到的包括所述目标对象的成像画面确定步骤201中所述成像位置。由于最近一次获取到的包括所述目标对象的成像画面与实时采集的环境音频之间的时间间隔一般较小，因此，本实施例的方式能够获取较高的准确度，同时省去了进行同步过程所需的算力，降低了处理复杂度。

在一些实施例中，可以基于用户选择的录音模式对所述目标对象进行录音，并在所述录音模式下实时地根据所述目标对象的方位信息和所述音源方位信息，调整所述拾音装置的拾音参数。其中，每种录音模式可对应于拾音参数的一种调整方式。例如，在第一录音模式下，调整拾音参数，以增强目标对象的音频的幅度，并减弱除目标对象的音频以外的其他音频的幅度。在第二录音模式下，调整拾音参数，以使得所述拾音装置拾取的音频与所述目标对象到所述媒体设备的距离相匹配。在第三录音模式下，调整拾音参数，以使得所述拾音装置拾取的音频的幅度是固定的。除了以上列举的几种录音模式以外，用户还可以根据需要选择其他的录音模式，此处不再一一列举。

在另一些实施例中，还可以基于用户选择的摄像模式对所述目标对象进行摄像，并在在所述摄像模式下实时地根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数。其中，每种摄像模式可对应于拍摄参数的一种调整方式。例如，在第一摄像模式下，调整拍摄参数，以使得所述目标对象处于所述成像画面中的指定区域。在第二摄像模式下，调整拍摄参数，以使得所述目标对象在所述成像画面中所占的像素数量与所述成像画面的总像素数量之间的比值等于固定值。在第三摄像模式下，调整拍摄参数，以使得所述目标对象在所述成像画面中的尺寸固定。除了以上列举的几种摄像模式以外，用户还可以根据需要选择其他的摄像模式，此处不再一一列举。

上述实施例介绍了调整拍摄参数的几种方式，下面通过一些实施例对调整拾音参数的方式进行具体说明。

在一些实施例中，可以根据所述音源方位信息调整所述拾音装置的拾音参数，以使得拾取的音频聚焦于所述目标对象；若所述目标对象的方位信息发生改变，基于所述目标对象改变后的方位信息调整所述拾音装置的拾音参数，以使得拾取的音频重新聚焦于所述目标对象。

在一些场景下，目标对象的方位可能发生改变，但由于某些原因，拾音装置未能准确判断出目标对象的方位，从而导致拾音装置未能聚焦目标对象。如图8A所示，假设t1时刻在空间中存在两个对象M1和M2，其中，M2为目标对象，M1为除目标对象以外的其他对象。在t1时刻，可以通过调整拾音参数，使拾音装置聚焦M2。但由于M1与M2的音频特征相似且位置接近，拾音装置可能无法区分M1的音频与M2的音频。因此，在t2时刻，当M2的位置发生改变后，拾音装置将M1误确定为目标对象，并仍然采用相同的拾音参数进行拾音，从而导致拾音过程未能聚焦目标对象M2。为了减少上述情况，可以通过摄像装置来辅助拾音装置进行拾音，即，根据目标对象M2在所述摄像装置的成像画面中的成像位置，确定所述目标对象M2在空间中的方位信息。根据方位信息可知，t1时刻M2的方位信息与t2时刻M2的方位信息是不同的。因此，在t3时刻，可以根据M2改变后的方位信息调整所述拾音装置的拾音参数，以使得拾取的音频重新聚焦于M2。

在另一些实施例中，空间中的不同位置处可能包括不同的对象，这些对象的音频特征相似，使得拾音装置难以准确地从这些对象中确定目标对象，从而难以准确地聚焦目标对象。如图8B所示，空间中存在两个对象M1和M2，其中M2为目标对象。然而，由于M1与M2的音频特征比较相似，因此，拾音装置误以为M1是目标对象，从而在t1时刻聚焦到M1。为了减少上述情况，可以获取基于摄像装置的成像画面获取M1和M2的方位信息，从而基于M1和M2的方位信息调整拾音参数，使得在t2时刻拾音装置聚焦到M2。

在一些实施例中，在满足以下至少任一条件的情况下，执行若所述目标对象的方位信息发生改变，基于所述目标对象改变后的方位信息调整所述拾音装置的拾音参数，以使得拾取的音频重新聚焦于所述目标对象的步骤：(1)所述拾音装置包括的至少一个麦克风不可用，(2)背景噪声的幅度大于预设的幅度阈值。在满足上述至少一个条件时，拾音装置分辨出目标对象的音频信号的准确度可能降低，因此，可以通过摄像装置来辅助拾音装置进行拾音，从而提高拾音参数的调整效果，进而提高影音录制效果。其中，至少一个麦克风不可用，可以是麦克风被堵住，或者麦克风损坏等情况。背景噪声可以是除目标对象以外的其他对象发出的音频，也可以是风噪或者其他噪声。幅度阈值可以是一个固定的值，也可以根据目标对象的音频信号的幅度动态设置，例如，设置为目标对象的音频信号的幅度的若干倍。

参见图9A，本公开还提供一种目标跟踪方法，所述方法包括：

步骤901：确定目标对象在空间中的第一方位信息；

步骤902：基于所述第一方位信息对所述目标对象进行跟踪；

步骤903：在跟踪状态异常的情况下，确定目标对象在空间中的第二方位信息，并基于所述第一方位信息和所述第二方位信息对所述目标对象进行跟踪，以使跟踪状态恢复为正常状态。

通过音频和图像两者信息的融合，能更好地实现目标的定位和跟踪。下面通过一个实施例介绍具体的融合过程，参见图9B，具体的融合过程如下：

(1)根据目标对象的音频，得到目标对象的音频方位，即目标对象在声场坐标系的实时位置。

(2)根据图像信息，得到目标对象的图像方位，即目标对象在图像坐标系的实时像素位置。

(3)分别建立声场坐标系和图像坐标系到第三坐标系的映射关系，以及反映射关系。第三坐标系可以是相对于媒体设备静止的坐标系。若拾音装置/摄像装置安装在相对于媒体设备静止的位置上，则声场坐标系/图像坐标系相对第三坐标系也是静止的，即声场坐标系/图像坐标系到第三坐标系的空间映射关系是固定的。若拾音装置/摄像装置安装在相对于媒体设备运动的机构上，比如云台，则声场坐标系/图像坐标系相对第三坐标系也是运动的，即声场坐标系/图像坐标系到第三坐标系的空间映射关系是随运动机构的姿态变化而变化的。

(4)位置映射。根据目标对象在声场坐标系的实时位置，以及声场坐标系到第三坐标系的映射关系，确定目标对象在第三坐标系下的方位(称为方位1)；根据目标对象在图像坐标系的实时像素位置，以及图像坐标系到第三坐标系的映射关系，确定目标对象在第三坐标系下的方位(称为方位2)。

(5)确定目标对象在第三坐标系下的最终方位。可以对方位1和方位2进行加权，并基于加权结果确定最终方位。进一步地，还可以结合方位1、方位2以及以下至少任一信息，共同确定最终方位：方位1的置信度、方位2的置信度、历史确定的最终方位、目标对象的运动模型。其中，方位1的置信度可以基于可用麦克风的数量、背景噪声的幅度、与目标对象距离小于预设距离阈值的对象的数量等因素确定。方位2的置信度可以基于环境光的光照强度、目标对象的移动速度、目标对象是否被遮挡等因素确定。历史确定的最终方位可以包括最近一次或多次确定的最终方位。目标对象的运动模型可以是匀速模型、匀加速模型、匀减速模型等。可以对目标对象的运动过程进行分段，并选出每个分段的运动模型。

(6)分别确定目标对象的最终方位在声场坐标系和图像坐标系下的方位。根据目标对象在第三坐标系下的最终方位，以及第三坐标系到声场坐标系的映射关系(即声场坐标系到第三坐标系的反映射关系)，确定目标对象在声场坐标系下的最终方位。根据目标对象在第三坐标系下的最终方位，以及第三坐标系到图像坐标系的映射关系(即图像坐标系到第三坐标系的反映射关系)，确定目标对象在图像坐标系下的最终方位。

(7)根据录音或拍摄的特定需求，对目标对象进行特定的录音或摄像。例如，录音方面，可利用麦克风阵列的指向性拾音技术对目标进行高信噪比的录音，也可通过云台控制，将连接在云台上的拾音装置对目标进行拾音；摄像方面，可通过云台控制，将连接在云台上的摄像装置转到目标方向，完成构图或对焦等操作，也可在媒体设备的显示端提示用户移动或转动媒体设备，以更好地完成影音录制。

在摄像装置视角有限(例如，不超过180°)的产品上，本公开实施例的方案对目标识别性能有明显的加成。当目标对象处于摄像装置的视角之外，摄像装置无法找到并识别目标对象。而音源定位技术可以通过音频找到摄像装置视角外的目标对象，并将方位信息传递给摄像装置。例如，可以通过云台转动摄像装置，使摄像装置可继续找到并跟踪目标。

需要说明的是，上述实施例仅为示例性说明，在实际应用中，也可以不对方位1和方位2进行融合处理，而是采用其他的方式来基于方位1和方位2对目标对象进行跟踪。

本公开结合声音定位技术和图像定位技术进行目标定位跟踪，跟踪目标包括发声的人、动物、物品等。该技术利用麦克风阵列进行声音定位，利用基于图像的特征分析进行图像定位，两者定位结果用于综合确定目标的方位，提高了定位结果的准确性和鲁棒性。本公开实施例的方法可应用于任意具有数据处理功能的电子设备，跟踪结果可以发送给具备录音和摄影摄像功能的媒体设备，例如手机、照相机、摄像机、运动相机、云台相机、智能家居、VR/AR设备等产品，以使媒体设备根据该跟踪结果调整拾音装置的拾音参数和摄像装置的拍摄参数，并基于调整后的拾音参数和调整后的拍摄参数进行影音录制，从而提高影音录制效果。其中，所述媒体设备可以是前述媒体设备的控制方法中的媒体设备，目标对象的跟踪方法的实施例与前述媒体设备的控制方法的实施例中相关内容可以互相引用，目标对象的跟踪方法的实施例中用于确定第一方位信息的图像即前述媒体设备的控制方法的实施例中的成像画面，目标对象的跟踪方法的实施例中的目标对象的音频即前述媒体设备的控制方法的实施例中由目标音源发出的音频。

在上述实施例中，所述第一方位信息和第二方位信息中的一者基于目标对象的图像确定，另一者基于目标对象的音频确定。例如，所述第一方位信息基于目标对象的图像确定，所述第二方位信息基于目标对象的音频确定。在这种情况下，上述实施例中的跟踪过程的总体流程图如图10A所示。又例如，所述第一方位信息基于目标对象的音频确定，所述第二方位信息基于目标对象的图像确定。在这种情况下，上述实施例中的跟踪过程的总体流程图如图10B所示。下面以图10A所示的过程为例，对具体的跟踪过程进行说明。

在步骤901中，可以获取摄像装置发送的图像，基于目标对象在图像中的像素位置以及摄像装置成像时的位姿信息，确定目标对象在空间中的第一方位信息。进一步地，摄像装置可以实时采集场景的视频流，所述图像可以包括所述视频流中的多个图像帧。

其中，目标对象可能是具有某种特征的特定对象。具体来说，所述目标对象可以是满足以下至少一项条件的对象：

(1)在所述图像中所占的像素数量满足预设数量条件。所述预设数量条件可以是像素数量大于预设的数量阈值，或者是在图像中所占的像素数量与所述图像的总像素数量的比值大于预设的比例阈值。由于图像中太小的对象难以提取有效的视觉特征，通过采用像素数量作为确定目标对象的条件，可以仅将能够提取有效的视觉特征的对象作为目标对象并进行跟踪，从而减少算力消耗，提高跟踪效果。

(2)特定类别的对象。所述特定类别可以是人、动物、车辆等，具体的类别可以根据实际应用场景确定。例如，在交通管理场景中，目标对象可以是车辆；在商场等人流量较大的场景中，目标对象可以是人。

(3)具有特定属性的对象。对象的属性可以基于对象的类别确定，不同类别的对象具有不同的属性。例如，人的属性可以包括但不限于性别、年龄等，车辆的属性可以包括但不限于车牌号、型号等。

在步骤902中，可以基于所述第一方位信息对所述目标对象进行跟踪。例如，基于所述第一方位信息将拍摄控制信息发送给摄像装置，以使摄像装置调整拍摄参数。又例如，基于所述第一方位信息将拾音控制信息发送给拾音装置，以使拾音装置调整拾音参数。

通过上述调整，可以使摄像装置和拾音装置均聚焦于所述目标对象，从而提高目标对象的跟踪准确度。例如，可以基于目标对象在多个时刻的第一方位信息，确定目标对象的移动速度和移动方向，并基于所述移动速度和移动方向调整摄像装置的拍摄参数。所述调整拍摄参数包括但不限于调整拍摄角度和/或拍摄焦距。

在步骤903中，跟踪过程可能出现异常。在一些实施例中，若满足以下至少任一条件，确定跟踪状态异常：所述图像的图像质量低于预设的质量阈值，从所述图像中未检测到所述目标对象，从所述图像中检测到的所述目标对象不完整。其中，图像质量可以基于图像的清晰度、曝光度、亮度等参数确定。以基于亮度确定图像质量为例，可以在图像的亮度低于预设的亮度阈值的情况下，确定图像质量低于预设的质量阈值。从所述图像中未检测到所述目标对象，可以是由于目标对象移动速度较快导致未能及时调整拍摄参数以对目标对象进行聚焦，也可能是由于摄像装置的镜头被遮挡等原因导致的。目标对象不完整可能是由于目标对象被遮挡或者目标对象超出摄像装置的视野范围导致的。

为了提高跟踪效果，在跟踪状态异常时，可以同时基于摄像装置采集的图像以及拾音装置拾取的目标对象的音频来对目标对象进行跟踪，从而使跟踪状态恢复为正常状态。目标对象的音频可以由拾音装置采集并发送。其中，空间中可能包括多个音源，所述多个音源可以包括目标对象以及除目标对象以外的对象。因此，拾音装置发送的音频中可能包括除目标对象以外的其他对象的音频。可以基于目标对象的音频特征确定目标对象的音频。在一些实施例中，目标对象的音频具有以下至少任一音频特征：音频频率在预设频段范围内，音频幅度满足预设的幅度条件，发出预设语义信息。上述各项音频特征的具体实施例详见前述媒体设备的控制方法的实施例，此处不再赘述。

在确定目标对象的音频之后，可以基于拾音装置拾取目标对象的音频时的拾音参数(例如，拾音装置包括的麦克风阵列中各个麦克风拾取的音频的幅度和相位)确定目标对象的第二方位信息。然后，可以基于第一方位信息和第二方位信息共同对目标对象进行重新跟踪。例如，可以基于第一方位信息和第二方位信息向拾音装置发送新的拾音控制信息，以控制拾音装置重新聚集于目标对象。还可以基于第一方位信息和第二方位信息向摄像装置发送新的摄像控制信息，以控制摄像装置重新聚集于目标对象。

实现上述重新跟踪的方式可以有多种，下面以其中一种为例进行说明。在一些实施例中，可以基于所述第一方位信息确定所述目标对象在空间中的第一预测方位，并基于所述第二方位信息确定所述目标对象在空间中的第二预测方位；根据所述第一预测方位和所述第二预测方位对目标对象在空间中所在的区域进行预测，得到预测区域；基于所述预测区域对所述目标对象进行跟踪。

例如，可以根据目标对象从所述摄像装置的成像画面消失前最近的一次或多次获取的第一方位信息，确定第一预测方位。第二预测方位可以基于最近一次确定的第二方位信息来确定。其中，第一预测方位与第二预测方位可能相同，也可能不同。然后，可以基于第一预测方位和第二预测方位确定预测区域。例如，可以将包括第一预测方位的第一区域和包括第二预测方位的第二区域的并集确定为预测区域。

在上述重新跟踪的过程中，可以通过调整拾音参数和摄像参数，以获得特定效果。例如，可以基于所述第一方位信息和所述第二方位信息调整所述摄像装置的图像采集参数，使得所述目标对象处于所述图像中的指定区域。又例如，可以基于所述第一方位信息和所述第二方位信息调整所述摄像装置的图像采集参数，使得所述目标对象在所述图像中的大小与所述目标对象到所述媒体设备的距离相匹配。又例如，可以基于所述第一方位信息和所述第二方位信息调整所述拾音装置的音频采集参数，使得所述音频与所述目标对象到所述媒体设备的距离相匹配。又例如，可以基于所述第一方位信息和所述第二方位信息调整所述拾音装置的音频采集参数，以增强目标对象的音频的幅度，并减弱除目标对象的音频以外的其他音频的幅度。上述过程可参考前述媒体设备的控制方法的实施例，此处不再赘述。

在一些实施例中，还可以基于用户选择的录音模式对所述目标对象进行音频采集，和/或基于用户选择的摄像模式对所述目标对象进行图像采集。其中，不同的录音模式可对应于拾音参数的不同调整方式，不同的摄像模式可对应于拍摄参数的不同调整方式。录音模式和摄像模式的具体内容可参考前述媒体设备的控制方法的实施例，此处不再赘述。

在一些实施例中，拾音装置拾取的音频与摄像装置拍摄的图像可能不同步。在这种情况下，所述第一方位信息可以基于最近一次获取到的包括目标对象的图像确定。

上面的实施例主要介绍了在基于图像对目标进行跟踪过程中出现跟踪状态异常的情况下，如何进行重新跟踪。下面通过一些实施例进一步介绍在基于目标对象的音频进行跟踪过程中出现跟踪状态异常的情况下，如何进行重新跟踪。在下面的实施例中，第一方位信息基于目标对象的音频确定，第二方位信息基于目标对象的图像确定。

如上所述，可以基于拾音装置拾取目标对象的音频时的拾音参数(例如，拾音装置包括的麦克风阵列中各个麦克风拾取的音频的幅度和相位)确定目标对象的第一方位信息。可以基于目标对象的音频特征(音频幅度、音频频率等)确定目标对象，具体方式参见前述实施例，此处不再赘述。然后，可以基于所述第一方位信息对所述目标对象进行跟踪。例如，基于所述第一方位信息将拍摄控制信息发送给摄像装置，以使摄像装置调整拍摄参数。又例如，基于所述第一方位信息将拾音控制信息发送给拾音装置，以使拾音装置调整拾音参数。

在跟踪过程中，若满足以下至少任一条件，确定跟踪状态异常：用于采集所述音频的麦克风至少部分不可用，背景噪音的幅度大于预设的幅度阈值。其中，至少一个麦克风不可用，可以是麦克风被堵住，或者麦克风损坏等情况。背景噪音包括但不限于风噪。在跟踪异常的情况下，可以进一步获取目标对象的图像，基于目标对象的图像确定第二方位信息。具体的方式可参见前述确定第一方位信息的实施例，此处不再赘述。然后，可以基于第一方位信息和第二方位信息共同来对目标对象进行跟踪，即对目标对象进行重新跟踪。例如，可以基于第一方位信息和第二方位信息向拾音装置发送新的拾音控制信息，以控制拾音装置重新聚集于目标对象。还可以基于第一方位信息和第二方位信息向摄像装置发送新的摄像控制信息，以控制摄像装置重新聚集于目标对象。重新跟踪的具体方式可参见前述实施例，此处不再赘述。

参见图11，本公开实施例还提供一种媒体设备，所述媒体设备包括：

摄像装置1101，用于采集环境图像；

拾音装置1102，用于拾取环境音频；以及

处理器1103，用于根据目标对象在所述环境图像中的像素位置，确定所述目标对象在空间中的方位信息，根据所述环境音频确定空间中的音源方位信息，并根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。

所述媒体设备可以是手机、笔记本电脑、具有录音功能的摄像机等。摄像装置 1101、拾音装置1102和处理器1103的具体细节详见前述媒体设备的控制方法的实施例，此处不再赘述。

本公开实施例还提供一种媒体设备的控制装置，所述媒体设备包括摄像装置和拾音装置，所述控制装置包括处理器，所述处理器用于执行以下步骤：

根据目标对象在所述摄像装置的成像画面中的成像位置，确定所述目标对象在空间中的方位信息；

根据所述拾音装置拾取的环境音频确定空间中的音源方位信息；

根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。

在一些实施例中，所述摄像装置的拍摄参数基于以下方式进行调整：根据所述目标对象的方位信息调整所述摄像装置的拍摄参数，以使所述目标对象保持在所述成像画面中；若检测到所述目标对象在所述摄像装置的成像画面中消失，根据所述拾音装置拾取的环境音频确定与所述目标对象相关联的目标音源方位信息；基于所述目标音源方位信息调整所述摄像装置的拍摄参数，以使所述目标对象重新出现在所述摄像装置的成像画面中。

在一些实施例中，所述处理器还用于：获取空间中的音源的音频特征信息；基于所述音频特征信息确定与所述目标对象相关联的目标音源方位信息。

在一些实施例中，所述处理器用于：在所述音频特征信息包括音频的频率的情况下，若一个音源发出的音频的频率在目标频段范围内，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息；和/或在所述音频特征信息包括音频的幅度的情况下，若一个音源发出的音频的幅度满足预设的幅度条件，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息；和/或在所述音频特征信息包括音频的语义信息的情况下，若一个音源发出预设语义信息的音频，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息。

在一些实施例中，所述摄像装置用于对所述目标对象进行跟踪拍摄，在跟踪拍摄过程中，所述摄像装置的拍摄参数基于以下方式进行调整：根据所述目标对象的方位信息调整所述摄像装置的拍摄参数，以使所述目标对象保持在所述成像画面中；若检测到所述目标对象在所述摄像装置的成像画面中消失，根据所述目标对象从所述成像画面消失前在所述成像画面中所处的成像位置，确定所述目标对象在空间中的第一预测方位；根据所述音源方位信息确定所述目标对象在空间中的第二预测方位；根据所述第一预测方位和所述第二预测方位调整所述摄像装置的拍摄参数，以使所述目标对象重新出现在所述摄像装置的成像画面中。

在一些实施例中，所述处理器用于：根据所述第一预测方位和所述第二预测方位对目标对象在空间中所在的区域进行预测，得到预测区域；基于所述预测区域的方位调整所述摄像装置的拍摄参数。

在一些实施例中，所述处理器用于：调整用于采集所述图像的摄像装置的拍摄参数，使得所述目标对象处于所述成像画面中的指定区域；和/或调整用于采集所述图像的摄像装置的拍摄参数，使得所述目标对象在所述成像画面中的大小与所述目标对象到所述摄像装置的距离相匹配；和/或调整用于采集所述音频的拾音装置的拾音参数，使得所述拾音装置拾取的音频与所述目标对象到所述拾音装置的距离相匹配；和/或调整用于采集所述音频的拾音装置的拾音参数，以增强目标对象的音频的幅度，并减弱除目标对象的音频以外的其他音频的幅度。

在一些实施例中，在所述摄像装置的成像画面与所述拾音装置拾取的环境音频不同步的情况下，所述成像位置基于最近一次获取到的包括所述目标对象的成像画面确定。

在一些实施例中，所述处理器用于：基于用户选择的录音模式对所述目标对象进行录音，并在所述录音模式下实时地根据所述目标对象的方位信息和所述音源方位信息，调整所述拾音装置的拾音参数；和/或基于用户选择的摄像模式对所述目标对象进行摄像，并在在所述摄像模式下实时地根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数。

在一些实施例中，所述处理器用于：根据所述音源方位信息调整所述拾音装置的拾音参数，以使得拾取的音频聚焦于所述目标对象；若所述目标对象的方位信息发生改变，基于所述目标对象改变后的方位信息调整所述拾音装置的拾音参数，以使得拾取的音频重新聚焦于所述目标对象。

在一些实施例中，在满足以下至少任一条件的情况下，执行若所述目标对象的方位信息发生改变，基于所述目标对象改变后的方位信息调整所述拾音装置的拾音参数，以使得拾取的音频重新聚焦于所述目标对象的步骤：所述拾音装置包括的至少一个麦克风不可用，背景噪声的幅度大于预设的幅度阈值。

本公开实施例还提供一种目标对象的跟踪装置，所述跟踪装置包括处理器，所述处理器用于执行以下步骤：

确定目标对象在空间中的第一方位信息；

基于所述第一方位信息对所述目标对象进行跟踪；

在跟踪状态异常的情况下，确定目标对象在空间中的第二方位信息；

基于所述第一方位信息和所述第二方位信息对所述目标对象进行跟踪，以使跟踪状态恢复为正常状态；

其中，所述第一方位信息和第二方位信息中的一者基于目标对象的图像确定，另一者基于目标对象的音频确定。

在一些实施例中，在所述第一方位信息基于目标对象的图像确定，所述第二方位信息基于目标对象的音频确定的情况下，若满足以下至少任一条件，确定跟踪状态异常：所述图像的图像质量低于预设的质量阈值，从所述图像中未检测到所述目标对象，从所述图像中检测到的所述目标对象不完整。

在一些实施例中，在所述第一方位信息基于目标对象的音频确定，所述第二方位信息基于目标对象的图像确定的情况下，若满足以下至少任一条件，确定跟踪状态异常：用于采集所述音频的麦克风至少部分不可用，背景噪音的幅度大于预设的幅度阈值。

在一些实施例中，所述目标对象满足以下至少一项条件：音频频率在预设频段范围内，音频幅度满足预设的幅度条件，发出预设语义信息的音频，在所述图像中所占的像素数量满足预设数量条件。

在一些实施例中，所述处理器用于：基于所述第一方位信息确定所述目标对象在空间中的第一预测方位，并基于所述第二方位信息确定所述目标对象在空间中的第二预测方位；根据所述第一预测方位和所述第二预测方位对目标对象在空间中所在的区域进行预测，得到预测区域；基于所述预测区域对所述目标对象进行跟踪。

在一些实施例中，所述处理器用于：基于所述第一方位信息和所述第二方位信息调整所述摄像装置的图像采集参数，使得所述目标对象处于所述图像中的指定区域；和/或基于所述第一方位信息和所述第二方位信息调整所述摄像装置的图像采集参数，使得所述目标对象在所述图像中的大小与所述目标对象到所述媒体设备的距离相匹配；和/或基于所述第一方位信息和所述第二方位信息调整所述拾音装置的音频采集参数，使得所述音频与所述目标对象到所述媒体设备的距离相匹配；和/或基于所述第一方位信息和所述第二方位信息调整所述拾音装置的音频采集参数，以增强目标对象的音频的幅度，并减弱除目标对象的音频以外的其他音频的幅度。

在一些实施例中，在所述图像与所述音频不同步的情况下，所述第一方位信息基于最近一次获取到的包括目标对象的图像确定。

在一些实施例中，所述处理器用于：基于用户选择的录音模式对所述目标对象进行音频采集；和/或基于用户选择的摄像模式对所述目标对象进行图像采集。

图12示出了本公开实施例所提供的一种更为具体的媒体设备的控制装置和/或目标对象的跟踪装置硬件结构示意图，该设备可以包括：处理器1201、存储器1202、输入/输出接口1203、通信接口1204和总线1205。其中处理器1201、存储器1202、输入/输出接口1203和通信接口1204通过总线1205实现彼此之间在设备内部的通信连接。

处理器1201可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1202可以采用ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1202可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1202中，并由处理器1201来调用执行。

输入/输出接口1203用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1204用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1205包括一通路，在设备的各个组件(例如处理器1201、存储器1202、输入/输出接口1203和通信接口1204)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1201、存储器1202、输入/输出接口1203、通信接口1204以及总线1205，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法中由第二处理单元执行的步骤。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

以上实施例中的各种技术特征可以任意进行组合，只要特征之间的组合不存在冲突或矛盾，但是限于篇幅，未进行一一描述，因此上述实施方式中的各种技术特征的任意进行组合也属于本公开的范围。

本领域技术人员在考虑公开及实践这里公开的说明书后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

一种媒体设备的控制方法，其特征在于，所述媒体设备包括摄像装置和拾音装置，所述方法包括：

根据目标对象在所述摄像装置的成像画面中的成像位置，确定所述目标对象在空间中的方位信息；

根据所述拾音装置拾取的环境音频确定空间中的音源方位信息；

根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。
根据权利要求1所述的方法，其特征在于，所述摄像装置的拍摄参数基于以下方式进行调整：

根据所述目标对象的方位信息调整所述摄像装置的拍摄参数，以使所述目标对象保持在所述成像画面中；

若检测到所述目标对象在所述摄像装置的成像画面中消失，根据所述拾音装置拾取的环境音频确定与所述目标对象相关联的目标音源方位信息；

基于所述目标音源方位信息调整所述摄像装置的拍摄参数，以使所述目标对象重新出现在所述摄像装置的成像画面中。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取空间中的音源的音频特征信息；

基于所述音频特征信息确定与所述目标对象相关联的目标音源方位信息。
根据权利要求3所述的方法，其特征在于，基于所述音频特征信息确定与所述目标对象相关联的目标音源方位信息，包括：

在所述音频特征信息包括音频的频率的情况下，若一个音源发出的音频的频率在目标频段范围内，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息；和/或

在所述音频特征信息包括音频的幅度的情况下，若一个音源发出的音频的幅度满足预设的幅度条件，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息；和/或

在所述音频特征信息包括音频的语义信息的情况下，若一个音源发出预设语义信息的音频，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息。
根据权利要求1所述的方法，其特征在于，所述摄像装置用于对所述目标对象进行跟踪拍摄，在跟踪拍摄过程中，所述摄像装置的拍摄参数基于以下方式进行调整：

根据所述目标对象的方位信息调整所述摄像装置的拍摄参数，以使所述目标对象保持在所述成像画面中；

若检测到所述目标对象在所述摄像装置的成像画面中消失，根据所述目标对象从所述成像画面消失前在所述成像画面中所处的成像位置，确定所述目标对象在空间中的第一预测方位；

根据所述音源方位信息确定所述目标对象在空间中的第二预测方位；

根据所述第一预测方位和所述第二预测方位调整所述摄像装置的拍摄参数，以使所述目标对象重新出现在所述摄像装置的成像画面中。
根据权利要求5所述的方法，其特征在于，所述根据所述第一预测方位和所述第二预测方位调整所述摄像装置的拍摄参数，包括：

根据所述第一预测方位和所述第二预测方位对目标对象在空间中所在的区域进行预测，得到预测区域；

基于所述预测区域的方位调整所述摄像装置的拍摄参数。
根据权利要求1所述的方法，其特征在于，所述调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象，包括：

调整所述摄像装置的拍摄参数，使得所述目标对象处于所述成像画面中的指定区域；和/或

调整所述摄像装置的拍摄参数，使得所述目标对象在所述成像画面中的大小与所述目标对象到所述媒体设备的距离相匹配；和/或

调整所述拾音装置的拾音参数，使得所述拾音装置拾取的音频与所述目标对象到所述媒体设备的距离相匹配；和/或

调整所述拾音装置的拾音参数，以增强目标对象的音频的幅度，并减弱除目标对象的音频以外的其他音频的幅度。
根据权利要求1所述的方法，其特征在于，在所述摄像装置的成像画面与所述拾音装置拾取的环境音频不同步的情况下，所述成像位置基于最近一次获取到的包括所述目标对象的成像画面确定。
根据权利要求1所述的方法，其特征在于，所述根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，包括：

基于用户选择的录音模式对所述目标对象进行录音，并在所述录音模式下实时地根据所述目标对象的方位信息和所述音源方位信息，调整所述拾音装置的拾音参数；和/或

基于用户选择的摄像模式对所述目标对象进行摄像，并在在所述摄像模式下实时地根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数。
根据权利要求1所述的方法，其特征在于，所述根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象，包括：

根据所述音源方位信息调整所述拾音装置的拾音参数，以使得拾取的音频聚焦于所述目标对象；

若所述目标对象的方位信息发生改变，基于所述目标对象改变后的方位信息调整所述拾音装置的拾音参数，以使得拾取的音频重新聚焦于所述目标对象。
根据权利要求10所述的方法，其特征在于，在满足以下至少任一条件的情况下，执行若所述目标对象的方位信息发生改变，基于所述目标对象改变后的方位信息调整所述拾音装置的拾音参数，以使得拾取的音频重新聚焦于所述目标对象的步骤：

所述拾音装置包括的至少一个麦克风不可用，

背景噪声的幅度大于预设的幅度阈值。
一种目标跟踪方法，其特征在于，所述方法包括：

确定目标对象在空间中的第一方位信息；

基于所述第一方位信息对所述目标对象进行跟踪；

在跟踪状态异常的情况下，确定目标对象在空间中的第二方位信息；

基于所述第一方位信息和所述第二方位信息对所述目标对象进行跟踪，以使跟踪状态恢复为正常状态；

其中，所述第一方位信息和第二方位信息中的一者基于目标对象的图像确定，另一者基于目标对象的音频确定。
根据权利要求12所述的方法，其特征在于，在所述第一方位信息基于目标对象的图像确定，所述第二方位信息基于目标对象的音频确定的情况下，若满足以下至少任一条件，确定跟踪状态异常：

所述图像的图像质量低于预设的质量阈值，

从所述图像中未检测到所述目标对象，

从所述图像中检测到的所述目标对象不完整。
根据权利要求12所述的方法，其特征在于，在所述第一方位信息基于目标对象的音频确定，所述第二方位信息基于目标对象的图像确定的情况下，若满足以下至少任一条件，确定跟踪状态异常：

用于采集所述音频的麦克风至少部分不可用，

背景噪音的幅度大于预设的幅度阈值。
根据权利要求12所述的方法，其特征在于，所述目标对象满足以下至少一项条件：

音频频率在预设频段范围内，

音频幅度满足预设的幅度条件，

发出预设语义信息的音频，

在所述图像中所占的像素数量满足预设数量条件。
根据权利要求12所述的方法，其特征在于，所述基于所述第一方位信息和所述第二方位信息对所述目标对象进行跟踪，包括：

基于所述第一方位信息确定所述目标对象在空间中的第一预测方位，并基于所述第二方位信息确定所述目标对象在空间中的第二预测方位；

根据所述第一预测方位和所述第二预测方位对目标对象在空间中所在的区域进行预测，得到预测区域；

基于所述预测区域对所述目标对象进行跟踪。
根据权利要求12所述的方法，其特征在于，所述跟踪通过媒体设备实现，所述媒体设备包括摄像装置和拾音装置；所述基于所述第一方位信息和所述第二方位信息对所述目标对象进行跟踪，以使跟踪状态恢复为正常状态，包括：

基于所述第一方位信息和所述第二方位信息调整所述摄像装置的图像采集参数，使得所述目标对象处于所述图像中的指定区域；和/或

基于所述第一方位信息和所述第二方位信息调整所述摄像装置的图像采集参数，使得所述目标对象在所述图像中的大小与所述目标对象到所述媒体设备的距离相匹配；和/或

基于所述第一方位信息和所述第二方位信息调整所述拾音装置的音频采集参数，使得所述音频与所述目标对象到所述媒体设备的距离相匹配；和/或

基于所述第一方位信息和所述第二方位信息调整所述拾音装置的音频采集参数，以增强目标对象的音频的幅度，并减弱除目标对象的音频以外的其他音频的幅度。
根据权利要求12所述的方法，其特征在于，在所述图像与所述音频不同步的情况下，所述第一方位信息基于最近一次获取到的包括目标对象的图像确定。
根据权利要求12所述的方法，其特征在于，所述基于所述第一方位信息和所述第二方位信息对所述目标对象进行跟踪，包括：

基于用户选择的录音模式对所述目标对象进行音频采集；和/或

基于用户选择的摄像模式对所述目标对象进行图像采集。
一种媒体设备的控制装置，其特征在于，所述媒体设备包括摄像装置和拾音装置，所述控制装置包括处理器，所述处理器用于执行以下步骤：

根据目标对象在所述摄像装置的成像画面中的成像位置，确定所述目标对象在空间中的方位信息；

根据所述拾音装置拾取的环境音频确定空间中的音源方位信息；

根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。
根据权利要求20所述的装置，其特征在于，所述摄像装置的拍摄参数基于以下方式进行调整：

根据所述目标对象的方位信息调整所述摄像装置的拍摄参数，以使所述目标对象保持在所述成像画面中；

若检测到所述目标对象在所述摄像装置的成像画面中消失，根据所述拾音装置拾取的环境音频确定与所述目标对象相关联的目标音源方位信息；

基于所述目标音源方位信息调整所述摄像装置的拍摄参数，以使所述目标对象重新出现在所述摄像装置的成像画面中。
根据权利要求21所述的装置，其特征在于，所述处理器还用于：

获取空间中的音源的音频特征信息；

基于所述音频特征信息确定与所述目标对象相关联的目标音源方位信息。
根据权利要求22所述的装置，其特征在于，所述处理器用于：

在所述音频特征信息包括音频的频率的情况下，若一个音源发出的音频的频率在目标频段范围内，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息；和/或

在所述音频特征信息包括音频的幅度的情况下，若一个音源发出的音频的幅度满足预设的幅度条件，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息；和/或

在所述音频特征信息包括音频的语义信息的情况下，若一个音源发出预设语义信息的音频，基于所述音源的方位信息确定与所述目标对象相关联的目标音源方位信息。
根据权利要求20所述的装置，其特征在于，所述摄像装置用于对所述目标对象进行跟踪拍摄，在跟踪拍摄过程中，所述摄像装置的拍摄参数基于以下方式进行调整：

根据所述目标对象的方位信息调整所述摄像装置的拍摄参数，以使所述目标对象保持在所述成像画面中；

若检测到所述目标对象在所述摄像装置的成像画面中消失，根据所述目标对象从所述成像画面消失前在所述成像画面中所处的成像位置，确定所述目标对象在空间中的第一预测方位；

根据所述音源方位信息确定所述目标对象在空间中的第二预测方位；

根据所述第一预测方位和所述第二预测方位调整所述摄像装置的拍摄参数，以使所述目标对象重新出现在所述摄像装置的成像画面中。
根据权利要求24所述的装置，其特征在于，所述处理器用于：

根据所述第一预测方位和所述第二预测方位对目标对象在空间中所在的区域进行预测，得到预测区域；

基于所述预测区域的方位调整所述摄像装置的拍摄参数。
根据权利要求20所述的装置，其特征在于，所述处理器用于：

调整所述摄像装置的拍摄参数，使得所述目标对象处于所述成像画面中的指定区域；和/或

调整所述摄像装置的拍摄参数，使得所述目标对象在所述成像画面中的大小与所述目标对象到所述媒体设备的距离相匹配；和/或

调整所述拾音装置的拾音参数，使得所述拾音装置拾取的音频与所述目标对象到所述媒体设备的距离相匹配；和/或

调整所述拾音装置的拾音参数，以增强目标对象的音频的幅度，并减弱除目标对象的音频以外的其他音频的幅度。
根据权利要求20所述的装置，其特征在于，在所述摄像装置的成像画面与所述拾音装置拾取的环境音频不同步的情况下，所述成像位置基于最近一次获取到的包括所述目标对象的成像画面确定。
根据权利要求20所述的装置，其特征在于，所述处理器用于：

基于用户选择的录音模式对所述目标对象进行录音，并在所述录音模式下实时地根据所述目标对象的方位信息和所述音源方位信息，调整所述拾音装置的拾音参数；和/或

基于用户选择的摄像模式对所述目标对象进行摄像，并在在所述摄像模式下实时地根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数。
根据权利要求20所述的装置，其特征在于，所述处理器用于：

根据所述音源方位信息调整所述拾音装置的拾音参数，以使得拾取的音频聚焦于所述目标对象；

若所述目标对象的方位信息发生改变，基于所述目标对象改变后的方位信息调整所述拾音装置的拾音参数，以使得拾取的音频重新聚焦于所述目标对象。
根据权利要求29所述的装置，其特征在于，在满足以下至少任一条件的情况下，执行若所述目标对象的方位信息发生改变，基于所述目标对象改变后的方位信息调整所述拾音装置的拾音参数，以使得拾取的音频重新聚焦于所述目标对象的步骤：

所述拾音装置包括的至少一个麦克风不可用，

背景噪声的幅度大于预设的幅度阈值。
一种目标对象的跟踪装置，其特征在于，所述跟踪装置包括处理器，所述处理器用于执行以下步骤：

确定目标对象在空间中的第一方位信息；

基于所述第一方位信息对所述目标对象进行跟踪；

在跟踪状态异常的情况下，确定目标对象在空间中的第二方位信息；

基于所述第一方位信息和所述第二方位信息对所述目标对象进行跟踪，以使跟踪状态恢复为正常状态；

其中，所述第一方位信息和第二方位信息中的一者基于目标对象的图像确定，另一者基于目标对象的音频确定。
根据权利要求31所述的装置，其特征在于，在所述第一方位信息基于目标对象的图像确定，所述第二方位信息基于目标对象的音频确定的情况下，若满足以下至少任一条件，确定跟踪状态异常：

所述图像的图像质量低于预设的质量阈值，

从所述图像中未检测到所述目标对象，

从所述图像中检测到的所述目标对象不完整。
根据权利要求31所述的装置，其特征在于，在所述第一方位信息基于目标对象的音频确定，所述第二方位信息基于目标对象的图像确定的情况下，若满足以下至少任一条件，确定跟踪状态异常：

用于采集所述音频的麦克风至少部分不可用，

背景噪音的幅度大于预设的幅度阈值。
根据权利要求31所述的装置，其特征在于，所述目标对象满足以下至少一项条件：

音频频率在预设频段范围内，

音频幅度满足预设的幅度条件，

发出预设语义信息的音频，

在所述图像中所占的像素数量满足预设数量条件。
根据权利要求31所述的装置，其特征在于，所述处理器用于：

基于所述第一方位信息确定所述目标对象在空间中的第一预测方位，并基于所述第二方位信息确定所述目标对象在空间中的第二预测方位；

根据所述第一预测方位和所述第二预测方位对目标对象在空间中所在的区域进行预测，得到预测区域；

基于所述预测区域对所述目标对象进行跟踪。
根据权利要求31所述的装置，其特征在于，所述处理器用于：

基于所述第一方位信息和所述第二方位信息调整用于采集所述图像的摄像装置的图像采集参数，使得所述目标对象处于所述图像中的指定区域；和/或

基于所述第一方位信息和所述第二方位信息调整用于采集所述图像的摄像装置的图像采集参数，使得所述目标对象在所述图像中的大小与所述目标对象到所述摄像装置的距离相匹配；和/或

基于所述第一方位信息和所述第二方位信息调整用于采集所述音频的拾音装置的音频采集参数，使得所述音频与所述目标对象到所述拾音装置的距离相匹配；和/或

基于所述第一方位信息和所述第二方位信息调整用于采集所述音频的拾音装置的音频采集参数，以增强目标对象的音频的幅度，并减弱除目标对象的音频以外的其他音频的幅度。
根据权利要求31所述的装置，其特征在于，在所述图像与所述音频不同步的情况下，所述第一方位信息基于最近一次获取到的包括目标对象的图像确定。
根据权利要求31所述的装置，其特征在于，所述处理器用于：

基于用户选择的录音模式对所述目标对象进行音频采集；和/或

基于用户选择的摄像模式对所述目标对象进行图像采集。
一种媒体设备，其特征在于，所述媒体设备包括：

摄像装置，用于采集环境图像；

拾音装置，用于拾取环境音频；以及

处理器，用于根据目标对象在所述环境图像中的像素位置，确定所述目标对象在空间中的方位信息，根据所述环境音频确定空间中的音源方位信息，并根据所述目标对象的方位信息和所述音源方位信息，调整所述摄像装置的拍摄参数和所述拾音装置的拾音参数，使得所述摄像装置拍摄的影像和所述拾音装置拾取的音频聚焦于所述目标对象。
一种计算机可读存储介质，其特征在于，其上存储有计算机指令，该指令被处理器执行时实现权利要求1至19任意一项所述的方法。