CN113596240A

CN113596240A - 录音方法、装置、电子设备及计算机可读介质

Info

Publication number: CN113596240A
Application number: CN202110851047.9A
Authority: CN
Inventors: 郭华
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-02
Anticipated expiration: 2041-07-27
Also published as: CN113596240B

Abstract

本申请公开了一种录音方法、装置、电子设备及计算机可读介质，涉及音频处理技术领域，方法包括：在电子设备执行视频录制操作的情况下，基于目标对象在图像采集装置所拍摄的视频画面内的图像位置，确定目标对象与音频采集装置之间的第一方位信息；基于第一方位信息，对第一方位信息对应的目标声源执行追焦录音操作；若未检测到目标对象在图像采集装置所拍摄的视频画面内，确定第二方位信息；对第二方位信息对应的目标声源执行追焦录音操作。因此，在目标对象在图像采集装置所拍摄的视频画面内消失时，确定新的方位信息，即第二方位信息，对第二方位信息对应的目标声源执行追焦录音操作，能够提高追焦录音操作的持续性。

Description

录音方法、装置、电子设备及计算机可读介质

技术领域

本申请涉及音频处理技术领域，更具体地，涉及一种录音方法、装置、电子设备及计算机可读介质。

背景技术

目前，在使用手机录制视频时，进行人体追踪，根据影像反馈结果，可以利用麦克风波束成行原理对目标人物追焦录音。然后，目前的追焦方式的持续追焦能力不足。

发明内容

本申请提出了一种录音方法、装置、电子设备及计算机可读介质，以改善上述缺陷。

第一方面，本申请实施例提供了一种录音方法，应用于电子设备，所述电子设备包括图像采集装置，所述方法包括：在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与音频采集装置之间的第一方位信息；基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于由所述音频采集所采集的所有声源的音频信号中，对所述目标声源的音频信号优化处理；若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，确定第二方位信息；对所述第二方位信息对应的目标声源执行追焦录音操作。

第二方面，本申请实施例还提供了一种录音装置，应用于电子设备，所述电子设备包括图像采集装置，所述装置包括：确定单元、第一追焦单元、获取单元和第二追焦单元。确定单元，用于在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与音频采集装置之间的第一方位信息。第一追焦单元，用于基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于由所述音频采集所采集的所有声源的音频信号中，对所述目标声源的音频信号优化处理。获取单元，用于若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，确定第二方位信息。第二追焦单元，用于对所述第二方位信息对应的目标声源执行追焦录音操作。

第三方面，本申请实施例还提供了一种电子设备，包括：一个或多个处理器；存储器；图像采集装置；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述方法。

第四方面，本申请实施例还提供了一种计算机可读介质，所述可读存储介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行上述方法。

本申请提供的录音方法、装置、电子设备及计算机可读介质，在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与音频采集装置之间的第一方位信息。基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作，从而能够基于图像采集装置所采集的目标对象的图像，对目标对象的目标声源执行追焦录音操作。然后，若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，由于失去了目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，从而无法确定目标对应的第一方位信息，然后此时，确定第二方位信息；对所述第二方位信息对应的目标声源执行追焦录音操作。因此，在目标对象在图像采集装置所拍摄的视频画面内消失时，即无法基于目标对象的图像对目标图像追焦录音的时候，确定新的方位信息，即第二方位信息，对所述第二方位信息对应的目标声源执行追焦录音操作，能够提高追焦录音操作的持续性。

本申请实施例的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的录音方法的方法流程图；

图2示出了本申请实施例提供的图像位置的示意图；

图3示出了本申请另一实施例提供的录音方法的方法流程图；

图4示出了本申请实施例提供的运动路线的示意图；

图5示出了本申请实施例提供的运动的物体在视频画面内的不同位置的示意图；

图6示出了本申请又一实施例提供的录音方法的方法流程图；

图7示出了本申请再一实施例提供的录音方法的方法流程图；

图8示出了本申请一实施例提供的视频录制画面的方法流程图；

图9示出了本申请一实施例提供的录音装置的模块框图；

图10示出了本申请一实施例提供的电子设备的示意图；

图11示出了本申请实施例的存储单元的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

当前用户使用手机平板等电子设备拍摄视频的场景越来越多，跟随产品拍照能力的提升，相应的录音能力也需要同步提升，才不会出现音画不同步情况。针对目前使用手机平板等设备拍摄运动物体的场景时，需要同步录制对象的声音信息，使用人体追踪，根据影像反馈录制对象位置，再进行波束成形进行定向录音。

具体地，定向录音也可以称为追焦录音，具体地，音频采集装置，在获取每个音频信号到达多个麦克风的相位差和幅值差后，可以基于该相位差、幅值差以及多个麦克风之间的位置关系，获取多个音频信号各自对应的声源位置，具体地，每个声源的音频信号与该声源与麦克风的相位信息对应，从而将该相位信息作为声源的声源位置，其中，该相位信息包括相位角度和距离，而距离可以根据幅值而确定。

其中，多个音频信号各自对应的声源位置可以用于后续基于目标音频处理参数进行音频信号处理时提供参考依据。作为一种方式，由于电子设备的体积有限，多个麦克风之间的相对距离较小，可以默认忽略多个麦克风之间的相对距离，则可以基于相位差和幅值差，获取多个音频信号各自对应的声源位置。

在一些实施方式中，可以通过预设空间分布函数对相位差和幅值差进行计算，获得多个音频信号各自对应的声源位置。其中，预设空间分布函数的获取方式可以包括：在预先进行视频拍摄测试时，建立包括X轴、Y轴、Z轴的坐标系，电子设备位于该坐标系的原点，将声源分别放置在X轴、Y轴、Z轴区间的不同位置点(至少8个位置点，以保证每个轴的正负值都有一个测试的位置点)，测试时，可以通过不同的声源点到达多个麦克风的相位差和幅值差，建立起声源的空间分布函数，作为预设空间分布函数。

然而，发明人在研究中发现，上述的定向录音的过程容易出现录制对象突然在画面中丢失，而导致电子设备失去了追焦对象的位置，从而无法准确定位录制对象声音，导致追焦录音的持续性较差，进而导致最终的录制效果不理想。

因此，为了克服上述缺陷，本申请实施例提供了一种录音方法、装置、电子设备及计算机可读介质，在目标对象在图像采集装置所拍摄的视频画面内消失时，即无法基于目标对象的图像对目标图像追焦录音的时候，确定新的方位信息，即第二方位信息，对所述第二方位信息对应的声源执行追焦录音操作，能够提高追焦录音操作的持续性。

请参阅图1，图1示出了本申请实施例提供的一种录音方法，该方法应用于电子设备，该电子设备可以是智能手机、平板电脑、录像机等能够录制视频的设备，该电子设备可以包括图像采集装置。作为一种实施方式，该电子设备可以包括处理器，该处理器与图像采集装置连接，该方法的执行主体可以是处理器。具体地，该方法包括：S101至S104。

S101：在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与所述音频采集装置之间的第一方位信息。

作为一种实施方式，音频采集装置所在的坐标系可以命名为空间声坐标系，其以音频采集装置的位置为坐标原点而建立的三维立体坐标系。视频画面内的每个位置点均与空间声坐标系的各个位置点建立了映射关系，具体地，该视频画面对应指定坐标系，所述指定坐标系为基于视频画面建立的坐标系。

作为一种实施方式，该指定坐标系可以是图像坐标系，具体地，如图2所示，若电子设备在视频录制操作的情况下，目标对象在图像采集装置的取景范围内，则在视频录制的画面内。例如，在相机应用程序的预览界面内显示有目标对象的图像。作为一种实施方式，视频画面内的每个对象的图像都对应一个图像位置，具体地，该图像位置可以是视频画面内的每个图像的像素坐标。例如，以视频画面的左上角的像素点至右下角的像素点，一共包括M*N个像素点，其中，M为画面的每一行的像素数量，N为画面的每一列的像素数量。从而每个物体的图像位置都可以由(a_i，b_j)来表示，其中，0＜i≤M，0＜j≤N，且，i和j均为正数。作为一种实施方式，每个对象的图像的图像位置可以是该对象的图像的中心点的像素点。

作为一种实施方式，该图像坐标系为所述视频画面所在的坐标系，可以是基于该视频画面内的某个像素点为基准点而建立的坐标系，则每个对象的图像位置(即像素点坐标)，就能够反应每个对象的图像在图像坐标系内的图像坐标。如图2所示，假设以视频画面的指定边为X轴，其中，指定边为电子设备处于横屏模式的时候，横向的两条边中底部的一条边。以该指定边的中心点作为基准点，即坐标系的原点，经过该中心点且垂直于X轴的方向为Y轴，则可以确定视频画面内的某个对象的图像坐标为(x₀，y₀)。基于预先确定的图像坐标系与空间声坐标系的映射关系，能够确定该图像坐标(x₀，y₀)在空间声坐标系内的空间坐标，进而能够确定目标对象与所述音频采集装置之间的第一方位信息。

作为另一种实施方式，该指定坐标系为相机坐标系，所述相机坐标系为基于所述图像采集装置建立的空间坐标系。具体地，是以图像采集装置为坐标原点，以图像采集装置对应的深度方向为Z轴而建立的三维坐标系。基于该指定坐标系与空间声坐标系的映射关系，在确定了目标对象在相机坐标系内的坐标信息，即目标位置之后，可以得到该第一方位信息。具体地，在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象在相机坐标系内的坐标信息，作为目标位置。基于所述目标对象的目标位置，确定所述目标对象与所述音频采集装置之间的第一方位信息。

作为一种实施方式，电子设备内安装有相机应用程序，在电子设备执行视频录制操作时，相机应用程序被启动，并且该相机应用程序设置有预览界面，则在视频录制的时候，音频采集装置采集周围环境的音频信号，电子设备的图像采集装置采集其视野范围内的物体的图像，并且在相机应用程序的预览界面内显示，从而能够确定目标对象在视频录制的视频画面内的目标位置。以图2为例，以垂直于电子设备的屏幕方向为Z轴方向，其Z轴方向与图像采集装置的深度方向一致，则目标对象在相机坐标系内的坐标信息为(x₀，y₀，z₀)，其中，z₀为目标对象的深度信息。

作为一种实施方式，可以是以人物的人脸区域的中心点的图像位置在相机坐标系内的坐标点，作为该人物的坐标信息。

因此，在确定了目标对象之后，基于上述方法能够确定目标对象的目标位置。

作为一种实施方式，可以预先建立相机坐标系与空间声坐标系的映射关系，从而在确定了目标对象在相机坐标系内的坐标信息的时候，能够将该坐标信息映射到空间声坐标系内，从而能确定目标对象在空间声坐标系内的坐标，即空间声坐标，基于该空间声坐标能够确定目标对象与空间声坐标系的原点即音频采集装置的位置之间的方位信息，即第一方位信息。作为一种实施方式，该方位信息可以包括相位角和距离等信息，该相位角用于表征目标对象与音频采集装置之间的方位。

作为另一种实施方式，该音频采集装置可以是多个，则可以由多个音频采集装置确定一个等效位置，例如，将各个音频采集装置的位置的几何中心作为该等效位置，则该等效位置作为空间声坐标系的原点。

作为一种实施方式，电子设备包括图像采集装置，用于采集视频画面，而视频录制的音频由音频采集装置采集，该音频采集装置可以不属于电子设备，即该音频采集装置未安装于电子设备。但是，该音频采集装置与电子设备的图像采集装置之间的位置关系可以预先确定，从而能够预先根据该位置关系确定空间声坐标系与相机坐标系或图像坐标系之间的映射关系，以便根据目标对象在视频画面内的图像位置确定目标对象的第一方位信息。

作为另一种实施方式，该电子设备包括图像采集装置和音频采集装置，也同样可以确定该音频采集装置与电子设备的图像采集装置之间的位置关系可以预先确定，从而能够预先根据该位置关系确定空间声坐标系与相机坐标系或图像坐标系之间的映射关系。另外，若图像采集装置和音频采集装置之间的位置相近，例如，二者之间的距离小于指定距离，则可以认为图像采集装置和音频采集装置位于相同的位置，即二者的坐标系的原点相同。

需要说明的是，本申请以电子设备包括图像采集装置和音频采集装置为例说明本申请的各个实施例，但是，该实施例也同样适用于该音频采集装置未安装于电子设备的情况，在此不做限定。

S102：基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作。

其中，所述追焦录音操作用于优化处理由所述音频采集装置所采集的所有声源中的目标声源的音频信号。具体地，音频采集装置可以采集周围的声音，所采集的音频可以对应多个声源，并且能够确定每个声源的方位信息，具体地，可以根据每个声源的音频信号的幅度确定该声源与音频采集装置之间的距离，根据音频信号与音频采集装置之间的到达角可以确定相位角，从而能够确定方位信息。从而就能确定每个声源所对应的方位信息。作为一种实施方式，可以参考上述的预设空间分布函数，确定每个声源对应的方位信息。

然后，在获取到第一方位信息的时候，该第一方位信息可以作为目标声源在空间声坐标系内的位置，其中，该目标声源为与第一方位信息对应的目标对象的声源。然后，在音频采集装置所采集的所有的声源中，基于每个声源对应的方位信息，确定第一方位信息对应的声源，作为目标声源。从而，电子设备就能够从音频采集装置所采集的多个音频信号中确定目标声源对应的音频信号，然后，对目标声源的音频信号优化处理。

在一些实施例中，若电子设备包括音频采集装置和图像采集装置，且还包括处理器，音频采集装置和图像采集装置均与处理器连接，则处理器可以通过与音频采集装置和图像采集装置的预设接口获取音频采集装置采集的音频数据，以及获取图像采集装置采集的图像数据。在另一些实施例中，音频采集装置未安装于电子设备内，音频采集装置与电子设备通信连接。例如，电子设备包括通信模块，该通信模块与音频采集装置连接，该音频采集装置通过通信模块实现与电子设备的处理器的通信连接。

音频采集装置采集的每个声源的音频数据的时候，对应获取每个声源的相位差和幅值差，在一些实施例中，可以由音频采集装置基于每个声源的相位差和幅值差确定每个声源的方位信息，将每个声源的音频信号和每个声源对应的方位信息发送至处理器。在另一些实施例中，音频采集装置将每个声源的音频信号和每个声源对应的相位差和幅值差发送至处理器，由处理器根据每个声源对应的相位差和幅值差，依据前述方法确定每个声源对应的方位信息。作为一种实施方式，确定音频采集装置与目标声源之间的目标波束角，则该目标波束角为前述的第一方位信息，基于该目标波束角将音频采集装置所采集的所有音频中，波束角与该目标波束角匹配的音频信号作为第一音频信号，即该第一音频信号为目标对象的音频信号，其他的音频信号作为第二音频信号。将第一音频信号优化处理，第二音频信号不执行优化处理。其中，波束角是指以音频采集装置与目标声源之间的中轴线，由此向外至能量强度减少一半(-3dB)处形成的角度。不同位置的声源与音频采集装置之间的波束角不同，因此，通过目标波束角能够筛选出目标声源的音频信号。

作为一种实施方式，对目标声源的音频信号优化处理的方式为，对第一音频信号提高增益以及滤波，例如，增益调整处理和频率处理，其中，增益调整处理包括增益增大操作和动态范围调整(Dynamic Range Control，DRC)，其中，增益增大操作包括对目标声源的音频信号的整个频域或时域部分的增益增大，动态范围调整是指用来动态调整音频输出幅值，在音量大时压制音量在某一范围内，在音量小时适当提升音量。通常用于控制音频输出功率，使扬声器不破音，当处于低音量播放时也能清晰听到。频率处理用于对目标声源的音频信号的不同频率部分进行处理，例如，EQ和降噪，其中，EQ英文全称Equaliser，即均衡器，用于通过对音频信号的某一个或多个频段进行增益或衰减，从而达到调整音色的目的。降噪可以是滤波，即将音频信号中的部分频段的信号滤除等，以降低音频信号中的噪声。

作为一种实施方式，对第二音频信号不执行优化处理的实施方式还可以是，对第二音频信号执行弱化处理，具体地，可以是将第二音频信号的幅值降低，从而降低第二音频信号的音量，具体地，降低幅度可以根据实际使用需求而设定，例如，可以将第二音频信号的音量的降低至小于指定音量，该指定音量可以是一个较小的音量值，以该指定音量播放音频信号的时候，用户几乎无法听见该音频信号，可以看作是静音。

S103：若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内消失，确定第二方位信息。

作为一种实施方式，该目标对象可以是所关注的区域。例如，该目标对象可以是目标人物的指定区域，该指定区域可以是人脸区域或嘴部区域等。于本申请实施例中，该目标对象可以是人脸区域，当然，也可以是其他区域，在此不做限定。

在确定了第一方位信息之后，持续确定是否能够检测到目标对象在所述图像采集装置所拍摄的视频画面内，若未检测到目标对象在所述图像采集装置所拍摄的视频画面内，则确定第二方位信息。其中，未检测到目标对象在所述图像采集装置所拍摄的视频画面内可以是，确定图像采集装置所拍摄的视频画面内目标对象的完整度，例如，可以根据所采集的目标对象的图像的各个特征点是否能够被检测到的判定结果来确定目标对象的完整度。例如，目标对象为人脸区域，则该各个特征点可以是五官特征点。

若完整度低于指定完整度，则判定未检测到目标对象在所述图像采集装置所拍摄的视频画面内。

由前述内容可以看出，确定第一方位信息的时候，需要基于目标对象在图像采集装置所拍摄的视频画面内的位置来确定，即需要根据目标对象在图像采集装置所拍摄的视频画面内的位置，确定目标对象在空间声坐标系内的位置，进而确定第一方位信息。因此，如果目标对象在所述图像采集装置所拍摄的视频画面内消失，则会导致无法基于视频画面确定目标对象的目标位置，进而无法确定第一方位信息。因此，为了避免在目标对象在所述图像采集装置所拍摄的视频画面内消失之后，无法追焦目标对象，从而导致追焦效果中断，可以确定第二方位信息，以便后续基于第二方位信息追焦录音。具体地，确定第二方位信息的方式可以是基于目标对象的运动轨迹而预测目标对象的后续位置，进而预测目标对象的第二方位信息，还可以是更换追焦对象，基于新的追焦对象确定新的方位信息，即第二方位信息。

S104：对所述第二方位信息对应的目标声源执行追焦录音操作。

其中，基于第二方位信息对第二方位信息对应的目标声源进行追焦录音的操作可以参考前述针对第一方位信息对应的目标声源的追焦录音的操作，在此不再赘述。

因此，本申请实施例提供的录音方法，在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象在相机坐标系内的坐标信息，基于所述目标对象的目标位置，确定所述目标对象与所述音频采集装置之间的第一方位信息。基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作，从而能够基于图像采集装置所采集的目标对象的图像，对目标对应的目标声源执行追焦录音操作。然后，若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，由于失去了目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，从而无法确定目标对象的第一方位信息，然后，确定第二方位信息；对所述第二方位信息对应的目标声源执行追焦录音操作。因此，在目标对象在图像采集装置所拍摄的视频画面内消失时，即无法基于目标对象的图像对目标图像追焦录音的时候，确定新的方位信息，即第二方位信息，对所述第二方位信息对应的目标声源执行追焦录音操作，能够提高追焦录音操作的持续性。

请参阅图3，图3示出了本申请实施例提供的一种录音方法，该方法应用于上述的电子设备，可以在目标对象在所述图像采集装置所拍摄的视频画面内消失之后，基于目标对象的运动轨迹，预测目标对象的位置，进而继续追焦录音。具体地，该方法包括：S301至S305。

S301：在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与所述音频采集装置之间的第一方位信息。

S302：基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作。

S303：若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，基于预先获取的所述目标对象的运动轨迹，预测所述目标对象在指定位置之后的至少一个预估位置。

其中，所述指定位置为目标对象在所述图像采集装置所拍摄的视频画面内消失的时刻所在的位置。具体地，假设目标对象在所述图像采集装置所拍摄的视频画面内消失的时刻为消失时刻，目标对象的位置位于指定坐标系内，该指定坐标系可以是图像坐标系也可以是相机坐标系，于本申请实施例中，假设该指定坐标系为相机坐标系，则预测所述目标对象在指定位置之后的至少一个预估位置，可以是预估所述目标对象的指定时刻在指定坐标系内的至少一个预估位置。

所述指定时刻为所述目标对象在所述图像采集装置所拍摄的视频画面内消失后的至少一个时刻。

作为一种实施方式，该目标对象的运动轨迹可以是基于图像采集装置所拍摄的视频画面确定的，例如，用户在录制目标对象的视频的时候，预先设定目标对象的运动路线，该运动路线能够被电子设备的图像采集装置采集到，例如，该运动路线可以是道路或轨道等，在图像采集装置录制视频的时候，不仅可以采集到目标对象的图像，还能够采集到运动路线的图像，即目标对象在运动路线上运动，图像采集装置能够录制该运动过程。电子设备基于图像采集装置采集的运动路线的图像，能够分析出该运动路线在图像采集装置视野范围内之外的延长线，从而能够预估目标对象在该延长线运动的时候，该目标对象的位置。

如图4所示，图4示出了图像采集装置在视频录制时所拍摄的视频画面，在该视频画面内包括道路，并且能够确定目标对象在该道路上移动。例如，基于图像采集装置在视频录制时所拍摄的连续多帧视频画面，能够确定目标对象在该道路上移动。然后，确定该道路的曲线401，将该曲线401作为目标对象的运动轨迹，由于在该视频画面内仅能拍摄到道路的部分，其余的部分在图像采集装置的视野范围外，所以，目标对象沿着道路移动的时候，比如会移动到图像采集装置的视野范围外。

因此，基于该道路的曲线预估出该道路的延长线，从而确定出曲线的延长线，进而能够确定目标对象在图像采集装置的视野范围外的运动轨迹。基于该运动轨迹就能够确定目标对象在指定时刻的预估位置。

另外，在确定了运动轨迹之后，还需要确定目标对象的运动速度和运动方向，图像采集装置在视频录制时所拍摄的视频画面内的道路等路线可能包括多个消失点，例如，画面的从左到右的道路会存在左侧和右侧的两个消失点，基于该图像采集装置在视频录制时所拍摄的连续多帧视频画面，能够确定目标对象的运动速度和运动方向，基于该运动方向确定消失点，由该消失点处确定延长线，进而确定目标对象在图像采集装置的视野范围外的运动轨迹，然后，在基于该运动速度确定在指定时刻时在该延长线上的预估位置。

需要说明的是，该运动路线可以位于相机坐标系内，即目标对象在该运动路线上的运动位置点均位于相机坐标系内，从而该延长线也位于相机坐标系内，也就是说，该预估位置也对应于相机坐标系内的坐标。

另外，指定时刻可以是目标对象在所述图像采集装置所拍摄的视频画面内消失后的时刻，具体地，该指定时刻可以是以确定目标对象在所述图像采集装置所拍摄的视频画面内消失的时刻之后的间隔指定时间长度的时刻，该指定时间长度可以根据实际使用而设定，例如，可以是0.5s。在一些实施例中，该指定时刻可以是多个，从而可以确定多个预估位置，从而能够对每个预估位置的声源追焦录音。

作为另一种实施方式，还可以基于图像采集装置在视频录制时所拍摄的连续多帧视频画面内的目标对象的图像位置确定目标对象的运动轨迹。具体地，基于所述目标对象在所述图像采集装置所拍摄的多个视频画面内的图像位置确定所述目标对象的运动轨迹。

在一些实施例中，将确定目标对象在所述图像采集装置所拍摄的视频画面内消失的时刻，即确定目标对象位于图像采集装置的视野范围外的时刻，记为消失时刻。将本次电子设备开始执行视频录制操作的时刻记为起始时刻。则获取起始时刻与消失时刻之间的多个视频画面内的目标对象的图像位置，记为参考图像位置，然后，进一步确定每个参考图像位置对应的在相机坐标系内的坐标信息，即参考坐标信息，然后，基于该多个参考坐标信息能够拟合出目标对象的运动轨迹，基于该运动轨迹能够预测在消失时刻之后的某个时刻的坐标信息，即预估位置。

作为一种实施方式，可以自起始时刻开始，每采集到一帧包含有目标对象的视频画面的时候，就记录该视频画面内的目标对象的图像位置，即参考图像位置，进而确定该参考图像位置对应的参考坐标信息，然后，将该参考坐标信息与采集时间对应存储，该采集时间为采集到该视频画面的时刻。从而，能够将每次采集到目标对象的图像的时候，该目标对象的坐标信息和时间被记录下来。然后，在录制视频的过程中，不断去获取新的参考坐标信息与采集时间。基于多个参考坐标信息能够拟合成目标对象的运动曲线，即运动轨迹。

如图5所示，依次获取连续的三帧视频画面，每个视频画面内的目标对象的图像位置依次为(x₁，y₁)、(x₁，y₁)、(x₁，y₁)，三个图像位置对应的采集时刻依次为t1、t2和t3，基于该三个图像位置能够确定目标对象的运动轨迹，如图5所示，该目标对象的运动轨迹为从右至左的移动，且运动方向与屏幕的平面平行，可以看出t3的下一个时刻，目标对象的图像将移出视频画面，那么根据该运动轨迹则在消失时刻之后的下一个时刻，将出现在屏幕的左侧的某个位置点，从而基于该运动轨迹和目标对象的运动速度可以确定目标对象由图像采集装置的视野范围内消失的时候，可能出现的位置点。

然后，通过不断地获取新的参考坐标信息与采集时间校正该运动曲线，使得基于该运动曲线预估时刻t1的位置点的坐标信息与该时刻t1的实际位置点的坐标信息之间的差值小于指定值，具体地，可以基于该差值修改该运动曲线的参数，使得预估的坐标点与实际的坐标点更加接近。

S304：基于所述至少一个预估位置确定所述目标对象与所述音频采集装置之间的第二方位信息。

S305：对所述第二方位信息对应的目标声源执行追焦录音操作。

在确定了预估位置，该预估位置为相机坐标系内的位置点，然后再确定第二方位信息，具体的确定方式可以参考前述确定第一方位信息的实施方式，然后，对所述第二方位信息对应的目标声源执行追焦录音操作，具体的实施方式参考前述实施例，在此不再赘述。

因此，通过目标对象的运动轨迹预估在目标对象由图像采集装置的视野范围内消失之后的预估位置，使得根据该预估位置所确定的第二方位信息对应的目标声源极有可能依然是目标对象的声源，从而能够继续对目标对象的声源追踪录音，能够避免由于失去了目标对象的图像而导致无法对目标对象追踪录音。

另外，需要说明的是，上述确定预估位置的实施方式，可以是基于图像采集装置所采集的视频画面内的运动路线的图像确定运动轨迹，也可以是基于所述目标对象在所述图像采集装置所拍摄的多个视频画面内的图像位置确定所述目标对象的运动轨迹，该两种方式还可以混合使用，例如，先确定图像采集装置所采集的视频画面内是否存在运动路线的图像，如果存在，则基于图像采集装置所采集的视频画面内的运动路线的图像确定运动轨迹，如果不存在，则基于所述目标对象在所述图像采集装置所拍摄的多个视频画面内的图像位置确定所述目标对象的运动轨迹。还可以是，先确定图像采集装置所采集的视频画面内是否存在运动路线的图像，如果存在，确定是否目标对象是否在运动路线上移动，如果是，则基于图像采集装置所采集的视频画面内的运动路线的图像确定运动轨迹，若否，则基于所述目标对象在所述图像采集装置所拍摄的多个视频画面内的图像位置确定所述目标对象的运动轨迹。

再者，考虑到通过运动轨迹预测目标对象的预估位置可能存在一个时效，因为，时间越长，则越可能会导致预估位置不准确，则可以确定一个预设时间长度，基于该预设时间长度确定是否追焦录音，具体地，请参阅图6，图6示出了本申请实施例提供的一种录音方法，该方法应用于上述的电子设备。具体地，该方法包括：S601至S609。

S601：在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与所述音频采集装置之间的第一方位信息。

S602：基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作。

S603：若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，基于预先获取的所述目标对象的运动轨迹，预测所述目标对象在指定位置之后的至少一个预估位置。

S604：基于所述至少一个预估位置确定所述目标对象与所述音频采集装置之间的第二方位信息。

S605：对所述第二方位信息对应的目标声源执行追焦录音操作。

其中，步骤S601至S605的实施方式可以参考前述实施例，在此不再赘述。

S606：获取所述目标对象在所述图像采集装置所拍摄的视频画面内消失的持续时长。

在确定目标对象在所述图像采集装置所拍摄的视频画面内消失的时刻起，实时检测目标对象是否再次在图像采集装置所拍摄的视频画面内出现，然后统计所述目标对象在所述图像采集装置所拍摄的视频画面内消失的持续时长，同时，基于目标对象的运动轨迹预估目标对象的预估位置，继续对目标对象追踪录音。

S607：判断持续时长是否小于预设时间长度。

其中，预设时间长度可以是预先设定的，也可以是基于历史数据而设定的，例如，在多次对不同的对象录制的时候，在对象在图像采集装置的视野内消失之后，基于对象的运动轨迹预计对象的位置，统计每个对象的位置的准确性高于指定阈值的时间长度，从而获取多个历史时间长度，基于该多个历史时间长度确定预设时间长度，例如，可以是基于该多个历史时间长度的平均值作为预设时间长度。于本申请实施例中，该预设时间长度的取值范围是6-12秒，例如，可以是10秒。

S608：基于所述运动轨迹获取新的预估位置并更新所述第二方位信息。

如果该持续时长小于预设时间长度，则基于所述运动轨迹获取新的预估位置。具体地，假设当前的预估位置为第一位置，该第一位置对应的持续时长为T1，则如果该T1小于预设时间长度，则基于该第一位置和运动轨迹确定该第一位置的下一个位置，即新的预估位置，然后，基于该新的预估位置确定新的第二方位信息，并返回执行S605。

S609：停止执行追焦录音操作。

如果该持续时长大于或等于预设时间长度，则可以停止执行追焦录音操作，具体地，可以是执行全局录音操作，即可以是对所有的方位信息对应的声源执行相同的音频处理操作，例如，可以对所有的声源都执行上述的优化处理，即不会只针对第一方位信息或第二方位信息对应的目标声源执行优化处理，而是对所有声源的音频信号统一处理。

作为一种实施方式，如果该持续时长大于或等于预设时间长度，可以先确定目标声源的音频信号是否为有效，从而能够进一步确定预测的预估位置处是否对应有目标对象，具体地，判断所述目标声源的音频数据是否为有效数据，若所述目标声源的音频数据是有效数据，基于所述运动轨迹获取新的预估位置并更新所述第二方位信息，执行对更新后的所述第二方位信息对应的目标声源执行追焦录音操作以及后续操作。

具体地，确定目标声源的音频数据是否为有效数据的实施方式可以是，获取目标声源的音频数据的幅度值，确定该幅度值是否大于指定幅度值，如果大于指定幅度值，则确定该目标声源的音频数据为有效数据，进而能够确定预估位置处确实存在声源，然后，更新第二方位信息并返回执行S606。若所述目标声源的音频数据非有效数据，则停止执行追焦录音操作，即执行全局录音操作。

另外，需要说明的是，在确定目标对象在所述图像采集装置所拍摄的视频画面内消失的时刻起，实时检测目标对象是否再次在图像采集装置所拍摄的视频画面内出现，如果检测到目标对象再次在图像采集装置所拍摄的视频画面内出现，则停止确定第二方位信息以及对所述第二方位信息对应的目标声源执行追焦录音操作的操作，返回执行S601。因此，在该持续时长大于或等于预设时间长度，在目标声源的音频信号有效的情况下，继续基于目标对象的运动轨迹确定新的第二方位信息并继续追焦录音，直至目标对象再次在图像采集装置所拍摄的视频画面内出现。

另外，若所述目标声源的音频数据非有效数据，可以统计判定目标声源的音频数据非有效数据的次数，记为无效次数，如果该无效次数大于指定次数，则停止执行追焦录音操作，即执行全局录音操作，如果该无效次数小于或等于指定次数，则更新第二方位信息并返回执行S606。

请参阅图7，图7示出了本申请实施例提供的一种录音方法，该方法应用于上述的电子设备，可以在目标对象在所述图像采集装置所拍摄的视频画面内消失之后，在图像采集装置所拍摄的视频画面内确定新的目标对象，对新的目标对象追焦录音。具体地，该方法包括：S701至S704。

S701：在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与所述音频采集装置之间的第一方位信息。

S702：基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作。

S703：若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，由所述图像采集装置当前所拍摄的视频画面内确定新的目标对象，并获取新的目标对象的新的目标位置，并基于新的目标位置确定第二方位信息。

S704：对所述第二方位信息对应的目标声源执行追焦录音操作。

具体地，在确定新的目标位置之后，该新的目标位置对应的新的目标对象，具体地，将S703之前的目标对象作为第一对象，将新的目标对象作为第二对象。

在目标对象离开图像采集装置的视野范围的情况下，即在所述图像采集装置所拍摄的视频画面内消失的情况下，在图像采集装置所拍摄的视频画面内仍然存在其他的对象，则可以从当前拍摄画面内确定新的对象，作为新的目标对象，即第二对象。

作为一种实施方式，可以基于用户的选择确定第二对象。具体地，可以检测用户在电子设备的显示界面上所选中的对象，作为第二对象，其中，该显示界面可以是用于显示图像采集装置所拍摄的视频画面的界面。确定用户选中的对象的实施方式可以是获取输入的指定触控手势，确定该指定触控手势对应的显示区域，确定当前拍摄画面内的每个对象的显示位置，将显示位置位于该显示区域内的对象作为新的目标对象，即第二对象。

作为另一种实施方式，该对象可以是能够发出声音的物体，进一步，该物体是活物。作为一种实施方式，该第二对象与第一对象的类型相同。例如，该第一对象是人体，则第二对象也是人体，则在所述目标对象在所述图像采集装置所拍摄的视频画面内消失的情况下，确定图像采集装置当前所拍摄的视频画面内的所有对象中与第一对象的类型相同的对象，作为新的目标对象，即第二对象。

作为又一种实施方式，还可以是在所述目标对象在所述图像采集装置所拍摄的视频画面内消失的情况下，确定图像采集装置当前所拍摄的视频画面内的所有对象，从中选择处于发声状态的对象，作为新的目标对象。

具体地，确定图像采集装置当前所拍摄的视频画面内的所有对象，并确定每个对象与音频采集装置之间的方位信息，作为待选方位信息。由音频采集装置采集的所有的音频信号中，基于声源与相位角之间的对应关系，确定视频画面内的每个对象的音频信号，从而就能确定所有对象中，在当前时段内输出语音的对象，作为备选对象。其中，当前时间段可以是包含当前时刻的时间段。例如，可以是以当前时刻为终点的第一时间长度的时间段，也可以是以当前时刻为起点的第一时间长度的时间段，还可以是当前时刻位于起点和终点之间的第三时间长度的时间段。

作为一种实施方式，可以是将图像采集装置当前所拍摄的视频画面内的所有对象，在当前时段内输出语音的对象作为新的目标对象，即备选对象为1个的时候，可以直接将备选对象作为新的目标对象。

作为另一种实施方式，在备选对象为多个的时候，可以基于由备选对象中确定一个对象作为新的目标对象。在一些实施例中，考虑到之前的目标对象，即第一对象与电子设备的使用者可能存在较亲密的关系，具体地，确定当前登录电子设备的用户帐号，用户帐号对应有亲密对象，该亲密对象可以是与用户账号之间的亲密度大于指定阈值的用户，该亲密度可以基于用户帐号与其他账号之间的交互操作而确定。例如，基于交互的频率而确定亲密度，其中，交互操作包括发送消息、评论、点赞、转发等操作。则在所述备选对象中查找与用户帐号的亲密对象匹配的对象，作为新的目标对象。

作为又一种实施方式，还可以是在所述备选对象中基于每个对象与电子设备之间的距离确定新的目标对象，具体地，获取每个所述备选对象的景深信息，基于所述景深信息确定新的目标对象。具体地，可以基于景深信息确定每个备选对象与电子设备之间的距离，可以将距离最近的对象作为备选对象。具体地，该景深信息可以是每个对象的头部的深度信息，从而能确定每个对象的头部与电子设备之间的距离，然后查找距离最近的对象，作为新的目标对象，当然，也可以查找其他的距离的对象作为新的目标对象。例如，查找距离最远的对象，在此不做限定。

另外，考虑到有些对象的距离虽然满足确定新的目标对象的要求，但是，其人脸的清晰度较差，则可能是该用户未看向电子设备，还可以是该用户的人脸遮挡过多，则需要结合每个对象的人脸信息确定新的目标对象。

具体地，基于每个所述备选对象的所述景深信息确定每个所述备选对象与所述图像采集装置之间的距离；然后，确定每个对象的人脸信息，基于每个备选对象的距离和人脸信息确定新的目标对象。

具体地，该人脸信息可以包括对象的头部区域的图像，则基于该人脸信息确定头部区域内的图像中，人的面部区域的占比，将占比大于指定占比的对象，作为待选对象，然后，由待选对象中确定距离最近的对象作为新的目标对象。如图8所示，在图像采集装置当前所拍摄的视频画面内包括第一用户801、第二用户802、第三用户803、第四用户804、第五用户805，假设第三用户803在当前时段内未输出语音的对象，其他的用户在当前时段内输出语音的对象，第一用户801为之前的目标对象，即第一对象，由图8可以看出，第一用户801即将完全消失在图像采集装置所拍摄的视频画面内，而由于第一用户801的头部区域的图像不能被图像采集装置所采集到，则可以判定第一用户801在图像采集装置所拍摄的视频画面内消失，由此，可以确定备选对象包括：第二用户802、第四用户804、第五用户805，然后，再确定每个备选对象的面部区域的占比，将占比大于指定占比的对象作为待选对象，即待选对象可以是第二用户802和第四用户804，其中，指定占比可以根据实际需求而设定，于本申请实施例中，该指定占比可以是30％，以便能够筛选出背对电子设备或者低头以及侧面对着电子设备的用户。然后，再由待选对象中确定距离电子设备最近的对象，作为新的目标对象，即将第二用户802作为新的目标对象。

作为另一种实施方式，可以基于该人脸信息确定人脸图像清晰度，将所述距离小于指定距离且所述人脸图像清晰度大于指定清晰度的备选对象作为新的目标对象，其中，距离小于指定距离可以是确定每个对象与电子设备之间的距离，将每个对象按照距离由大到小排序，将排序靠前的N个对象作为距离小于指定距离的对象，其中，N为大于或等于1且小于备选对象的总数的整数。另外，可以通过对比度、均值或方差等方法确定每个备选对象的人脸图像的清晰度，将每个对象按照人脸图像的清晰度由大到小排序，将排序靠前的M个对象作为人脸图像的清晰度大于指定清晰度的对象，其中，M为大于或等于1且小于备选对象的总数的整数。

作为一种实施方式，可以将基于运动轨迹确定第二方位信息的方式命名为第一方式，将由所述图像采集装置当前所拍摄的视频画面内确定新的目标对象的方式命名为第二方式。于本申请实施例中，可以基于第一方式继续追焦录音，也可以基于第二方式继续追焦录音，但是，不论是第一方式还是第二方式，在执行的时候，均可以继续检测目标对象(即第一对象)是否回到图像采集装置所拍摄的视频画面内，如果回到，则停止执行第一方式或第二方式，继续确定第一方位信息，并继续对所述第一方位信息对应的目标声源执行追焦录音操作。

作为一种实施方式，可以结合第一方式和第二方式确定第二方位信息，具体地，若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，先基于第一方式确定第二方位信息，具体地，基于预先获取的所述目标对象的运动轨迹，预测所述目标对象在指定位置之后的至少一个预估位置，基于所述至少一个预估位置确定所述目标对象与所述音频采集装置之间的第二方位信息，对所述第二方位信息对应的目标声源执行追焦录音操作，获取所述目标对象在所述图像采集装置所拍摄的视频画面内消失的持续时长，若所述持续时长小于预设时间长度，则基于所述运动轨迹获取新的预估位置并更新所述第二方位信息，执行对更新后的所述第二方位信息对应的目标声源执行追焦录音操作，若所述持续时长大于或等于预设时间长度，则由所述图像采集装置当前所拍摄的视频画面内确定新的目标对象，并获取新的目标对象的新的目标位置，并基于新的目标位置确定新的第二方位信息，并对新的第二方位信息对应的目标声源追焦录音。

当然，还可以是，若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，基于预先获取的所述目标对象的运动轨迹，预测所述目标对象在指定位置之后的至少一个预估位置，基于所述至少一个预估位置确定所述目标对象与所述音频采集装置之间的第二方位信息，判断所述目标声源的音频数据是否为有效数据，如果不是，则由所述图像采集装置当前所拍摄的视频画面内确定新的目标对象，并获取新的目标对象的新的目标位置，并基于新的目标位置确定新的第二方位信息，并对新的第二方位信息对应的目标声源追焦录音，如果是，则基于所述运动轨迹获取新的预估位置并更新所述第二方位信息，执行对更新后的所述第二方位信息对应的目标声源执行追焦录音操作以及后续操作。

请参阅图9，其示出了本申请实施例提供的一种录音装置900的结构框，图该装置可以包括：确定单元901、第一追焦单元902、获取单元903和第二追焦单元904。

确定单元901，用于在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与所述音频采集装置之间的第一方位信息。

进一步地，第一追焦单元902，用于基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于优化处理由所述音频采集装置所采集的所有声源中的目标声源的音频信号。

获取单元903，用于若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，确定第二方位信息。

进一步地，获取单元903还用于若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，基于预先获取的所述目标对象的运动轨迹，预测所述目标对象在指定位置之后的至少一个预估位置，所述指定位置为所述目标对象在所述图像采集装置所拍摄的视频画面内消失的时刻所在的位置；基于所述至少一个预估位置确定所述目标对象与所述音频采集装置之间的第二方位信息。

进一步地，获取单元903还用于基于所述目标对象在所述图像采集装置所拍摄的多个视频画面内的图像位置确定所述目标对象的运动轨迹。

进一步地，获取单元903还用于对所述第二方位信息对应的目标声源执行追焦录音操作之后，获取所述目标对象在所述图像采集装置所拍摄的视频画面内消失的持续时长；若所述持续时长小于预设时间长度，则基于所述运动轨迹获取新的预估位置并更新所述第二方位信息，执行对更新后的所述第二方位信息对应的目标声源执行追焦录音操作。

进一步地，获取单元903还用于若所述持续时长大于或等于预设时间长度，则停止执行追焦录音操作。具体地，若所述持续时长大于或等于预设时间长度，判断所述目标声源的音频数据是否为有效数据；若所述目标声源的音频数据是有效数据，基于所述运动轨迹获取新的预估位置并更新所述第二方位信息，执行对更新后的所述第二方位信息对应的目标声源执行追焦录音操作以及后续操作。若所述目标声源的音频数据非有效数据，则停止执行追焦录音操作。

进一步地，获取单元903还用于若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，由所述图像采集装置当前所拍摄的视频画面内确定新的目标对象，并获取新的目标对象的新的目标位置，并基于新的目标位置确定第二方位信息。

进一步地，获取单元903还用于确定所述图像采集装置当前所拍摄的视频画面内的所有对象；由所述所有对象中，确定在当前时段内输出语音的对象，作为备选对象；基于所述备选对象确定新的目标对象。

第二追焦单元904，用于对所述第二方位信息对应的目标声源执行追焦录音操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图10，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120、音频采集装置130、图像采集装置140以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。其中，音频采集装置130可以是麦克风，例如，可以是多个麦克风组成的麦克风阵列，图像采集装置140可以是摄像头等装置。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图11，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1100中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种录音方法，其特征在于，应用于电子设备，所述电子设备包括图像采集装置，所述方法包括：

在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与音频采集装置之间的第一方位信息；

基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于对所述目标声源的音频信号优化处理；

若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，确定第二方位信息；

对所述第二方位信息对应的目标声源执行所述追焦录音操作。

2.根据权利要求1所述的方法，其特征在于，若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，确定第二方位信息，包括：

若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，基于预先获取的所述目标对象的运动轨迹，预测所述目标对象在指定位置之后的至少一个预估位置，所述指定位置为所述目标对象在所述图像采集装置所拍摄的视频画面内消失的时刻所在的位置；

基于所述至少一个预估位置确定所述目标对象与所述音频采集装置之间的第二方位信息。

3.根据权利要求2所述的方法，其特征在于，所述若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，基于预先获取的所述目标对象的运动轨迹，预测所述目标对象在指定位置之后的至少一个预估位置之前，还包括

基于所述目标对象在所述图像采集装置所拍摄的多个视频画面内的图像位置确定所述目标对象的运动轨迹。

4.根据权利要求2所述的方法，其特征在于，所述对所述第二方位信息对应的目标声源执行追焦录音操作之后，还包括：

获取所述目标对象在所述图像采集装置所拍摄的视频画面内消失的持续时长；

若所述持续时长小于预设时间长度，则基于所述运动轨迹获取新的预估位置并更新所述第二方位信息，执行对更新后的所述第二方位信息对应的目标声源执行追焦录音操作。

5.根据权利要求4所述的方法，其特征在于，还包括：

若所述持续时长大于或等于预设时间长度，则停止执行追焦录音操作。

6.根据权利要求5所述的方法，其特征在于，所述若所述持续时长大于或等于预设时间长度，则停止执行追焦录音操作，包括：

若所述持续时长大于或等于预设时间长度，判断所述目标声源的音频数据是否为有效数据；

若所述目标声源的音频数据是有效数据，基于所述运动轨迹获取新的预估位置并更新所述第二方位信息，执行对更新后的所述第二方位信息对应的目标声源执行追焦录音操作以及后续操作。

7.根据权利要求6所述的方法，其特征在于，还包括：

若所述目标声源的音频数据非有效数据，则停止执行追焦录音操作。

8.根据权利要求1所述的方法，其特征在于，若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，确定第二方位信息，包括：

若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，由所述图像采集装置当前所拍摄的视频画面内确定新的目标对象，并获取新的目标对象的新的目标位置，并基于新的目标位置确定第二方位信息。

9.根据权利要求8所述的方法，其特征在于，所述由所述图像采集装置所拍摄的视频画面内确定新的目标对象，包括：

确定所述图像采集装置当前所拍摄的视频画面内的所有对象；

由所述所有对象中，确定在当前时段内输出语音的对象，作为备选对象；

基于所述备选对象确定新的目标对象。

10.一种录音装置，其特征在于，应用于电子设备，所述电子设备包括图像采集装置，所述装置包括：

确定单元，用于在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象与音频采集装置之间的第一方位信息；

第一追焦单元，用于基于所述第一方位信息，对所述第一方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于由所述音频采集所采集的所有声源的音频信号中，对所述目标声源的音频信号优化处理；

获取单元，用于若未检测到所述目标对象在所述图像采集装置所拍摄的视频画面内，确定第二方位信息；

第二追焦单元，用于对所述第二方位信息对应的目标声源执行追焦录音操作。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

图像采集装置；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-9任一项所述的方法。

12.一种计算机可读介质，其特征在于，所述计算机可读介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行权利要求1-9任一项所述方法。