CN112165590A

CN112165590A - 视频的录制实现方法、装置及电子设备

Info

Publication number: CN112165590A
Application number: CN202011059749.5A
Authority: CN
Inventors: 陈文辉; 肖荣彬
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-01
Anticipated expiration: 2040-09-30
Also published as: CN112165590B

Abstract

本申请实施例提出了一种视频的录制实现方法、装置及电子设备，电子设备获取电子设备的视频录制界面呈现的第一帧视频图像，即视频录制过程中的任一帧视频图像时，将通过图像分析方式，检测第一帧视频图像包含的至少一个第一拍摄对象，并确定各第一拍摄对象对应的第一拍摄方向及第一拍摄距离，从而据此实现对各第一拍摄对象的音频追踪检测，得到各第一拍摄对象相应时刻的第一帧音频，由该第一帧音频和第一帧视频图像，生成第一帧视频文件，使得该第一帧视频文件中各第一拍摄对象的音频满足预设拾音要求，以便在视频播放时更好地满足不同用户的播放要求，解决了传统的声源定位方法中，无法支持立体声采集、定位精准度低、成本较高等技术问题。

Description

视频的录制实现方法、装置及电子设备

技术领域

本申请主要涉及通信技术领域，更具体地说是涉及一种视频的录制实现方法、装置及电子设备。

背景技术

目前，如智能手机、笔记本电脑、平板电脑等电子设备中配置有至少一个摄像头，且随着摄像头配置的提升，使用电子设备的摄像头录像(即拍视频)已成为目前比较流行的乐趣。

在实际的录像过程中，会同时采集当前场景下存在的各声源的声音信号，用户可以根据拍摄需求，不断调整电子设备的位置，以拍摄不同视角下的视频图像，以便在播放该录像时，能够结合输出的声音信号，更好地观看录像内容。

发明内容

有鉴于此，本申请提供了一种视频的录制实现方法，所述方法包括：

获取电子设备的视频录制界面呈现的第一帧视频图像，所述第一帧视频图像是视频录制过程中的任一帧视频图像；

检测所述第一帧视频图像包含的至少一个第一拍摄对象，并确定所述至少一个第一拍摄对象各自的第一拍摄方向及第一拍摄距离；

依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得相应第一拍摄对象的第一帧音频；

由所述第一帧音频和所述第一帧视频图像，生成第一帧视频文件。

可选的，所述依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得相应第一拍摄对象的第一帧音频，包括：

依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得所述电子设备的拾音模组的第一拾音参数；

控制所述拾音模组按照所述第一拾音参数，对所述至少一个第一拍摄对象进行音频追踪采集，得到相应第一拍摄对象的第一帧音频。

可选的，所述检测所述第一帧视频图像包含的至少一个第一拍摄对象，并确定所述至少一个第一拍摄对象各自的第一拍摄方向及第一拍摄距离，包括：

识别出所述第一帧视频图像包含的感兴趣区域，并获取所述感兴趣区域在图像坐标系下的位置信息；

依据获取的历史拍摄对象，从识别出的感兴趣区域中，确定目标区域，并将所述目标区域包含的对象确定为所述第一帧视频图像的第一拍摄对象，将所述目标区域的位置信息确定为所述第一拍摄对象的位置信息；

依据所述第一拍摄对象的位置信息，以及所述第一帧拍摄图像对应的第一视角，获得所述第一拍摄对象的第一拍摄方向；

依据所述第一拍摄对象的位置信息，以及所述第一帧拍摄图像对应的第一焦距，获得所述第一拍摄对象的第一拍摄距离。

可选的，所述依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得所述电子设备的拾音模组的第一拾音参数，包括：

若所述第一拍摄对象的数量为一个，获取与所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离相对应的拾音参数，确定为所述电子设备的拾音模组的第一拾音参数；

若所述第一拍摄对象的数量为多个，依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，确定多个第一拍摄对象在所述第一帧拍摄图像中的第一空间位置关系；

将与所述第一空间位置关系相匹配的拾音参数，确定为所述电子设备的拾音模组的第一拾音参数；

其中，若所述拾音模组包含多个拾音器，所述第一拾音参数包括所述多个拾音器各自的第二拾音参数。

获取所述第一帧视频图像的相邻历史帧视频图像中，所述第一拍摄对象的第二拍摄方向和第二拍摄距离；

将同一所述第一拍摄对象的所述第一拍摄方向与所述第二拍摄方向进行比较，并将所述第一拍摄距离与所述第二拍摄距离进行比较，得到相应第一拍摄对象的第一运动参数；

依据所述第一运动参数，调整所述电子设备的拾音模组的当前拾音参数至第一拾音参数。

可选的，在所述电子设备的拾音模组包含多个拾音器的情况下，所述依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得所述电子设备的拾音模组的第一拾音参数，包括：

依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，从所述多个拾音器中，选择相应第一拍摄对象的主拾音器；

利用所述第一拍摄对象的第一拍摄方向，调整相应主拾音器的拾音方向，以使调整后的拾音方向能够朝向或靠近该第一拍摄对象的第一拍摄方向；

利用所述第一拍摄对象的第一拍摄距离，调整相应主拾音器的增益值，以改变该主拾音器的有效拾音范围；

将调整后的拾音方向和调整后的增益值，确定为相应主拾音器的第二拾音参数，并由多个拾音器各自的第二拾音参数构成所述拾音模组的第一拾音参数。

可选的，所述得到相应第一拍摄对象的第一帧音频的实现过程，包括：

利用所述第一拍摄对象对应的辅助拾音器输出的第一声音信号，对相应的主拾音器输出的第二声音信号进行降噪处理，得到该第一拍摄对象的第一帧音频。

可选的，所述方法还包括：

获取所述第一帧视频图像中的至少一个第一拍摄对象的对象类别，以及所述至少一个第一拍摄对象所处的场景类别；

若所述场景类别属于第一类录制场景，获取预先针对所述第一类录制场景配置的场景拾音参数，以及与所述对象类别相匹配的音色调整参数；

按照所述场景拾音参数和/或所述音色调整参数，控制所述电子设备的拾音模组对所述第一帧视频图像中的至少一个第一拍摄对象进行音频追踪采集，得到相应第一拍摄对象的第一帧音频。

本申请还提出了一种视频的录制实现装置，所述装置包括：

第一获取模块，用于获取电子设备的视频录制界面呈现的第一帧视频图像，所述第一帧视频图像是视频录制过程中的任一帧视频图像；

第一检测确定模块，用于检测所述第一帧视频图像包含的至少一个第一拍摄对象，并确定所述至少一个第一拍摄对象各自的第一拍摄方向及第一拍摄距离；

拍摄对象音频获得模块，用于依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得相应第一拍摄对象的第一帧音频；

视频文件生成模块，用于由所述第一帧音频和所述第一帧视频图像，生成第一帧视频文件。

本申请还提出了一种电子设备，所述电子设备包括：

拾音模组；图像采集器；显示屏；

存储器，用于存储实现如上述的视频的录制实现方法的程序；

处理器，用于加载并执行所述存储器存储的所述程序，以实现如上述的视频的录制实现方法的各步骤。

由此可见，本申请提供了一种视频的录制实现方法、装置及电子设备，为了在视频录制过程中能够直接采集到满足预设拾音要求的各拍摄对象的音频，本申请提出在电子设备获取电子设备的视频录制界面呈现的第一帧视频图像，即视频录制过程中的任一帧视频图像时，通过图像分析方式，检测第一帧视频图像包含的至少一个第一拍摄对象，并确定各第一拍摄对象对应的第一拍摄方向及第一拍摄距离，从而据此实现对各第一拍摄对象的音频追踪检测，得到各第一拍摄对象相应时刻的第一帧音频，由该第一帧音频和第一帧视频图像，生成第一帧视频文件，使得该第一帧视频文件中各第一拍摄对象的音频满足预设拾音要求，且解决了传统的基于若干拾音器实现声源定位方法中，无法支持立体声采集、定位精准度低、成本较高等技术问题，还能够依据图像分析结果，直接在视频录制过程中实时调整拾音参数，以使采集到的各拍摄对象的音频满足预设拾音要求，使得录制完后的视频在播放时，能够根据需要印制某拍摄对象的音频，或将播放的音频聚焦到特定拍摄对象等，更好地满足不同用户的视频播放需求，极大提高了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提出的视频的录制实现方法的一可选示例的流程示意图；

图2为本申请提出的视频的录制实现方法的又一可选示例的流程示意图；

图3为本申请提出的视频的录制实现方法的又一可选示例的流程示意图；

图4为本申请提出的视频的录制实现方法的又一可选示例的流程示意图；

图5为本申请提出的视频的录制实现方法的又一可选示例的流程示意图；

图6为本申请提出的视频的录制实现方法的又一可选示例的流程示意图；

图7为本申请提出的视频的录制实现装置的一可选示例的结构示意图；

图8为本申请提出的视频的录制实现装置的又一可选示例的结构示意图；

图9为本申请提出的视频的录制实现装置的又一可选示例的结构示意图；

图10为本申请提出的适用于本申请提出的视频的录制实现方法和装置的电子设备实施例的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

参照图1，为本申请提出的视频的录制实现方法的一可选示例的流程示意图，该方法可以适用于具有图像采集以及音频采集功能的电子设备，本申请对该电子设备的产品形式不做限定，可以包括但并不局限于智能手机、平板电脑、可穿戴设备、个人计算机(personal computer，PC)、上网本等，可以依据应用需求选择。如图1所述，本实施例提出的视频的录制实现方法可以但并不局限于以下包括：

步骤S11，获取电子设备的视频录制界面呈现的第一帧视频图像；

本申请实施例中，第一帧视频图像是视频录制过程中的任一帧视频图像，本申请可以对采集到的每一帧视频图像，执行本实施例描述的方案，实现对当前录制场景中各拍摄对象的音视频追踪录制。

实际应用中，用户启动电子设备的视频录制功能后，电子设备的显示界面中会输出视频录制界面，此时，该录制界面中会呈现当前镜头下的预览图像，其可以作为要录制的视频图像被采集记录。应该理解，本申请是要在视频录制过程中，实现对各拍摄对象的音频追踪采集，所以，对于当前采集到一帧视频图像直接执行后续步骤，也就是说，步骤S11获取的第一帧视频图像可以是当前时刻采集到的一帧视频图像。

步骤S12，检测第一帧视频图像包含的至少一个第一拍摄对象，并确定该至少一个第一拍摄对象各自的第一拍摄方向及第一拍摄距离；

如上述分析，本申请可以对当前出现在视频录制界面中的每一个拍摄对象进行音视频追踪检测，在视频录制过程中，就得到各拍摄对象的清晰音频信息，这样，在后续播放所录制的视频时，可以根据不同用户的观看需求，从中选择特定的一个或多个拍摄对象，以使电子设备播放视频时，主要输出所选择的拍摄对象的音频，而对于视频中的其他拍摄对象，根据需要可以屏蔽或弱化处理，保证所选择的拍摄对象的音频清晰，但并不局限于这种视频播放处理方式，本申请对视频播放的实现方法不做详述。

基于上述考虑，本申请为了能够获取所录制的每个拍摄对象的音频，在得到当前录制的第一帧视频图像后，可以先对该第一帧视频图像进行分析，确定该第一帧视频图像包含的至少一个第一拍摄对象，即确定当前时刻录制的视频中出现的各第一拍摄对象，具体可以采用但并不局限于目标检测方式实现，本申请以目标检测方式为例，来说获取第一帧视频图像包含的至少一个第一拍摄对象的实现过程。

具体的，在一种可能的实现方式中，本申请可以预先基于深度学习算法/机器学习算法(如神经网络等)，对样本图像进行训练，得到目标检测模型，这样，在获取第一帧视频图像后，可以将该第一帧视频图像输入该目标检测模型，输出该第一帧视频图像包含的各第一拍摄对象的位置信息，根据需要，可以在该第一帧视频图像中输出各第一拍摄对象的检测框。本申请对目标检测模型的训练方法及其应用过程不做详述，可以根据具体应用场景类型及视频录制要求等，来确定模型训练所选用的具体算法，本申请在此不做一一详述。

按照上述方式检测出第一帧视频图像包含的至少一个第一拍摄对象之后，为了实现对各第一拍摄对象的音频追踪检测，并解决传统的基于单个或多个拾音器实现的声源定位方法中，因全向性的拾音器，缺失声音的方向性，因受噪声干扰，导致这种声源定位结果准确性较低等技术问题，本申请将采用视频图像分析方式，实现对各第一拍摄对象的定位追踪检测。具体的，得到各第一拍摄对象在当前获取的第一帧视频图像上的位置信息后，可以结合电子设备的各位置传感器感应到的参数，图像采集器自身具有的各传感器感应的参数等，来计算得到各第一拍摄对象的第一拍摄方向及第一拍摄距离，具体计算方法本申请不做限定。

在本申请提出的一些实施例中，对于上述各第一拍摄对象在第一帧视频图像中的第一拍摄距离，可以采用单目测距或双目测距等图像测距实现方法获取，具体实现过程可以依据单目测距、双目测距的工作原理确定，本申请实施例在此不做详述。

而对于上述各第一拍摄对象在第一帧视频图像中的第一拍摄方向，可以依据相应的第一拍摄距离，获取该第一帧视频图像时图像采集器的拍摄视角(如图像传感器的视角等)，利用图像坐标系与相机坐标系之间的转换关系，计算得到第一帧视频图像中各第一拍摄对象相对于当前图像采集器所在位置的第一拍摄方向，具体计算过程本申请不做详述。

步骤S13，依据第一拍摄对象的第一拍摄方向及第一拍摄距离，获得相应第一拍摄对象的第一帧音频；

继上文描述，本实施例基于采集到的每一帧视频图像，实现对各第一拍摄对象的定位检测，确定获取每一帧视频图像时，录制的各第一拍摄对象相对于此时图像采集器的第一拍摄方向和第一拍摄距离后，为了获得相应第一拍摄对象内容足够清晰的音频，对于每一个第一拍摄对象来说，可以依据该第一拍摄对象的第一拍摄方向及第一拍摄距离，对电子设备的拾音模型的拾音参数进行相应调整，以使得该拾音模型所采集到的该第一拍摄对象的第一帧音频满足预设拾音要求，如内容清晰度、音量、音色等要求。

其中，对于任一第一拍摄对象的第一帧音频，可以是该第一拍摄对象说话产生的音频，也可以是该第一拍摄对象执行特定的动作产生的音频，如第一拍摄对象操作乐器产生的音频等，本申请对各第一拍摄对象的第一帧音频的产生方式不做限定，可以依据具体视频录制场景确定。

在一种可能的实现方式中，按照上述方式得到第一帧视频图像包含的、各第一拍摄对象的第一拍摄方向及第一拍摄距离后，可以将这些参数输入拾音模组，以使得该拾音模组按照预设音频采集规则，依据这些参数实现拾音参数的调整。其中，该预设音频采集规则可以依据当前应用场景的音频录制要求确定，对于不同类型的应用场景，可以预先配置不同的音频采集规则，也可以采用同一音频采集规则，可视情况而定，且本申请对不同应用场景下的音频采集规则的内容及其配置方式不做限定。

在实际应用中，在电子设备的拾音模组包含多个拾音器的情况下，在执行步骤S13的过程中，可以先确定每一个第一拍摄对象的主拾音器和辅助拾音器，不同第一拍摄对象对应的主拾音器和辅助拾音器可以不同，但也可能存在针对若干个第一拍摄对象确定相同的主拾音器和辅助拾音器的情况，这可以依据确定各第一拍摄对象的主拾音器和辅助拾音器的实现方式确定，本申请实施例在此不做详述。

在视频录制过程中，拾音模组中的多个拾音器可以采集到多路音频，之后，可以依据上述确定出的各第一拍摄对象的主拾音器和辅助拾音器，利用其辅助拾音器采集到音频，对主拾音器采集到的音频进行降噪处理，以使得主拾音器中该第一拍摄对象的声音信号更加干净、清晰，本申请对这种处理方式的降噪方法不做限定。

在又一些实施例中，在确定出的各第一拍摄对象的主拾音器和辅助拾音器之后，本申请可以依据第一拍摄对象的第一拍摄方向及第一拍摄距离，对该第一拍摄对象的主拾音器的拾音参数进行调整，以使得主拾音器所采集到的第一拍摄对象的声音信号更加清晰。

需要说明，关于本申请步骤S13的具体实现方式，可以包括但并不局限于上文列举的几种实现方法，可以依据具体应用场景的需求，选择合适的拾音方式，来获得每一帧视频图像包含的各第一拍摄对象的，满足预设拾音要求的第一帧音频，本申请在此不做一一详述。

另外，若当前采集到的第一帧视频图像中包含第一拍摄对象，即一个声源，可以直接基于声波束形等技术实现对这一个第一拍摄对象的音频采集；也可以从多个拾音器中，选择距离该第一拍摄对象最近的拾音器为主拾音器，其他为辅助拾音器，采用如上述降噪方式，获取第一拍摄对象清晰的第一帧音频；还可以直接调整该主拾音器的拾音方向、有效拾音范围等拾音参数，由具有调整拾音参数的该主拾音器采集第一拍摄对象清晰的第一帧音频等等，本申请不做一一详述。

步骤S14，由第一帧音频和第一帧视频图像，生成第一帧视频文件。

由于本申请是在录制视频，包括图像录制和音频录制，按照上述方式，得到每一帧视频图像和音频后，可以对同一时间戳的一帧视频图像与一帧音频(其包含了各第一拍摄对象的第一帧音频)进行打包处理，得到相应时间戳的视频文件，具体实现方法本申请不做详述。

需要说明，在上述第一帧视频图像包含有多个第一拍摄对象的情况下，按照上述处理方式将得到相应的多个第一帧音频，此时可以将这多个第一帧音频与该第一帧视频图像进行打包处理，得到相应时间的第一帧视频文件。

综上所述，本申请在视频录制过程中，为了能够可靠、清晰地录制到各拍摄对象的音频，提出在获取电子设备的视频录制界面呈现的第一帧视频图像，即视频录制过程中的任一帧视频图像时，通过图像分析方式，检测第一帧视频图像包含的至少一个第一拍摄对象，并确定各第一拍摄对象对应的第一拍摄方向及第一拍摄距离，从而据此实现对各第一拍摄对象的音频追踪检测，得到各第一拍摄对象相应时刻的第一帧音频，由该第一帧音频和第一帧视频图像，生成第一帧视频文件，使得该第一帧视频文件中各第一拍摄对象的音频满足预设拾音要求。可见，本申请提出的这种基于图像分析定位拍摄对象的方式，解决了传统的基于若干拾音器实现声源定位方法中，无法支持立体声采集、定位精准度低、成本较高等技术问题。

而且，能够依据图像分析结果，直接在视频录制过程中实时调整拾音参数，以使采集到的各拍摄对象的音频满足预设拾音要求，使得录制完后的视频在播放时，能够根据需要印制某拍摄对象的音频，或将播放的音频聚焦到特定拍摄对象等，更好地满足不同用户的视频播放需求，极大提高了用户体验。

其中，在有选择性的播放所录制的视频中部分拍摄对象的音频实现过程中，在播放该视频之前，可以在视频播放界面中，选择设置中的播放配置功能按钮，输出针对该视频的播放配置界面，此时，用户可以依据实际需求，从该视频包含的各信息中，选择本次播放视频需要输出的视频，如选择其中的部分拍摄对象等，之后，依据用户完成的播放配置信息，对所录制的视频文件进行处理，对处理后的视频文件进行播放，但并不局限于本实施例描述的这种选择播放实现方式。

需要说明，在播放采用本申请方案录制的视频时，仍可以按照传统的方式，直接对所录制的视频文件进行播放；对于上述录制的视频文件，还可以先依据实际视频录制要求，对所录制到的音频、视频进行处理后再播放等，本申请对如何播放所录制的视频的实现方法不做限定，可以依据具体要求确定，本申请不做一一详述。

参照图2，为本申请提出的视频的录制实现方法的又一可选示例的流程示意图，本实施例可以是对上述实施例描述的视频的录制实现方法的细化实现方法，但并不局限于这种细化实现方法，如图2所示，本实施例提出的这种细化实现方法可以包括以下步骤：

步骤21，获取电子设备的视频录制界面呈现的第一帧视频图像；

其中，第一帧视频图像是视频录制过程中的任一帧视频图像。

步骤S22，检测第一帧视频图像包含的至少一个第一拍摄对象，并确定至少一个第一拍摄对象各自的第一拍摄方向及第一拍摄距离；

关于步骤S21和步骤S22的具体实现过程，可以参照上述实施例相应部分的描述，本实施例不做赘述。

步骤S23，依据第一拍摄对象的第一拍摄方向及第一拍摄距离，获得电子设备的拾音模组的第一拾音参数；

结合上文实施例相应部分的描述，在视频录制过程中，本申请实施例可以通过实时动态调整拾音模组的第一拾音参数，来使其采集到的每一帧音频能够满足预设拾音要求，所以，本实施例可以按照预设拾音要求，利用第一拍摄对象的第一拍摄方向及第一拍摄距离，来确定相应第一拍摄对象对应的应该是环境中的哪个声音，进而据此有针对性地确定电子设备的拾音模组应该具有的第一拾音参数。

应该理解，对拾音模组的拾音参数的调整方向及内容，可以依据预设拾音要求确定，如需要某拍摄对象的声音响亮、清晰，可以将拾音模型的拾音方向调整为朝向或靠近该拍摄对象的拍摄方向等，本申请在此不做一一详述。

另外，在获得拾音模组的第一拾音参数过程中，结合上述实施例相应部分的描述，可以依据该拾音模组包含的拾音器数量，以及当前采集到的第一帧视频图像包含的第一拍摄对象的数量，来综合确定所获得的第一拾音参数是哪一个或多个拾音器的拾音参数。

具体来说，在第一帧视频图像中包含多个第一拍摄对象的情况下，可以依据这多个第一拍摄对象的空间位置关系，来确定拾音模组的第一拾音参数，此时该第一拾音参数可以包括一个或多个拾音器各自的第二拾音参数；或者，也可以结合相邻历史帧视频图像的信息，来获取各第一拍摄对象的运行情况，进而依据该运动情况，确定拾音模组需要调整到的第一拾音参数等，具体实现过程可以参照但并局限于下文实施例相应部分的描述。

步骤S24，控制拾音模组按照第一拾音参数，对至少一个第一拍摄对象进行音频追踪采集，得到相应第一拍摄对象的第一帧音频；

步骤S25，由得到的第一帧音频和第一帧视频图像，生成第一帧视频文件。

在本申请实施例中，由于在采集每一帧视频图像时，都可以按照上述方式进行处理，以可靠得到该帧视频图像包含的各第一拍摄对应的音频，这样，从连续多帧视频图像采集过程来看，实现了对各第一拍摄对象的音频追踪采集，且由于采集每一帧音频时，都会依据对相应帧视频图像的分析结果，来调整拾音模组的第一拾音参数，保证每一帧音频中包含的各第一拍摄对象的音频满足预设拾音要求，以丰富所录制的视频的播放模式。

可见，本申请实施例提出的这种视频录制实现方法，通过在录制过程中，针对每一帧视频图像的分析结果，定位其包含的各第一拍摄对象的位置，据此动态实时调整拾音模组的第一拾音参数，保证相应时刻能够录制到满足拾音要求的各第一拍摄对象的第一帧音频，不仅解决了现有技术中基于传统声源定位的音频采集方法存在的如上技术问题，而且，在播放所录制的视频时，能够满足不同用户要求聚焦不同拍摄对象，或抑制若干拍摄对象播放的需求，极大提高了用户体验。

参照图3，为本申请提出的视频的录制实现方法的又一可选示例的流程示意图，本实施例可以是对上述实施例描述的视频的录制实现方法的又一可选细化实现方法，具体可以是对获得第一拾音参数细化实现，如图3所示，该方法可以包括：

步骤31，获取电子设备的视频录制界面呈现的第一帧视频图像；

步骤S32，检测第一帧视频图像包含的至少一个第一拍摄对象，并确定至少一个第一拍摄对象各自的第一拍摄方向及第一拍摄距离；

关于步骤S31和步骤S32的具体实现，可以参照上述实施例相应部分的描述确定。

步骤S33，依据第一拍摄对象的第一拍摄方向及第一拍摄距离，确定多个第一拍摄对象在第一帧拍摄图像中的第一空间位置关系；

在本申请实施例中，视频录制过程中，不仅要追踪检测到各拍摄对象满足预设拾音要求的音频，同时希望这些音频为立体声，能够结合各拍摄对象之间的动态位置关系，以及与图像采集器的动态拍摄距离，实现更细粒度、更身临其境每一帧音频的录制，这样，在播放所录制的视频时，能够还原录像场景的空间位置场景信息，也就是说，能够通过听播放的音频，得到当前说话的拍摄对象之间的空间位置关系，从而给观看该录制视频的用户更好的体验。

基于上述技术构思，本申请实施例在第一拍摄对象的第一拍摄方向及第一拍摄距离，对该第一拍摄对象在第一帧视频图像中进行定位的同时，还可以据此来确定不同第一拍摄对象之间的第一空间位置关系，具体可以依据各第一拍摄对象的定位结果即当前帧的位置信息，来获得该第一空间位置关系；当然，也可以通过对上述步骤获得的各第一拍摄对象的第一拍摄方向、第一拍摄距离进行相应参数的比较，来确定该第一空间位置关系等，但并不局限于这两种获得第一空间位置关系的方法，本申请对步骤S33的具体实现方法不做详述。

应该理解，本实施例是在第一帧视频图像包含的第一拍摄对象的数量为多个的情况下执行的，而在第一帧视频图像包含的第一拍摄对象的数量为一个的情况下，本申请可以直接获取与第一拍摄对象的第一拍摄方向及第一拍摄距离相对应的拾音参数，将其确定为电子设备的拾音模组的第一拾音参数。关于利用第一拍摄方向及第一拍摄，确定相对应的拾音参数即调整拾音参数的实现过程，可以参照但并不局限于下文相应实施例的描述，本实施例在此不做赘述。

步骤S34，将与第一空间位置关系相匹配的拾音参数，确定为电子设备的拾音模组的第一拾音参数；

本申请实施例中，可以针对不同的空间位置关系，可以预先配置达到各种拾音要求对应的拾音参数，这样，在实际应用中，确定当前视频录制场景后，就可以直接按照该对应关系，选择符合当前视频录制场景的，与上述第一空间位置关系对应的拾音参数，作为电子设备的拾音模组的第一拾音参数。但并不局限于这种获取方式，且本申请对上述对应关系的获取方式及其表示方式均不作限定，如可以通过多次试验、经验等确定，本实施例在此不做详述。

而且，在确定上述第一拾音参数过程中，因确定了相应帧的视频图像中各第一拍摄对象之间的空间位置关系，这样，在当前环境存在多个声音的情况下，拾音模组就也可以依据该空间位置关系，更加精准且快速地确定不同位置的第一拍摄对象应该对应哪个声音，以便据此实现拾音参数的有针对性调整，具体实现过程本申请不做详述。

其中，在拾音模组包含多个拾音参数的情况下，所确定的拾音模组的第一拾音参数可以包括这多个拾音器各自的第二拾音参数。当然，若本申请实施例仅选择这多个拾音器中的部分拾音器参与本次视频录制，或当前帧的音频录制，上述第一拾音参数可以仅包括这部分拾音器的第二拾音参数等。所以说，上述第一拾音参数包含的第二拾音参数的数量及其与拾音器的对应关系，可以依据具体应用场景的需求确定，本申请在此不做一一详述。

在一些实施例中，上述各拾音参数可以包括：能够调整拾音方向，实现有针对性音频采集的第一参数；能够调整有效拾音范围，调整所采集的音频信号强度的第二参数，如增益值等，但并不局限于这两类参数，可视情况而定。

步骤S35，控制拾音模组按照第一拾音参数，对至少一个第一拍摄对象进行音频追踪采集，得到相应第一拍摄对象的第一帧音频；

步骤S36，由得到的第一帧音频和第一帧视频图像，生成第一帧视频文件。

继上文描述，确定适合当前帧的音频录制，以保证所录制的当前帧的音频能够满足预设拾音要求的第一拾音参数后，直接控制拾音模组按照该第一拾音参数进行音频采集，使得直接采集到的当前帧的音频满足预设拾音要求，不需要再对其做进一步后处理，非常简便。

可以理解，结合上述分析，在拾音模组包含多个拾音器的情况下，在执行步骤S35的具体实现过程中，针对不同的第一拍摄对象(其也是发声对象)所确定相应的一个或多个拾音器，按照相应的第一拾音参数，实现对该第一拍摄对象的音频采集，以使得采集到的该第一拍摄对象的第一帧音频满足预设拾音要求。

示例性的，在录制多个会议现场的场景下，启动电子设备的视频录制功能，将摄像头的镜头朝向会议场景中的各会议成员，在该过程中，所录制的每一帧视频图像都会呈现在电子设备的显示屏上，录制人员可以从中观察录制图像是否合适，是否需要挑选录制方向、录制位置等，与此同时，对于摄像头采集到的任一帧视频图像(记为第一帧视频图像)时，可以将其输入预训练的满足当前视频录制要求的人工智能模型(如目标检测模型等)，由该人工智能模型对输入的第一帧视频图像进行分析，以确定这一帧视频图像中包含的各会议成员及其拍摄参数，如相对于摄像头的拍摄方向、拍摄距离等，还可以进一步确定出各会议成员在当前帧相互之间的空间位置关系，即确定每一个会议成员与其他会议成员之间的位置关系，具体实现过程可以参照但并不局限于上文实施例描述的方式。

之后，电子设备的处理器可以将上述得到的各拍摄参数发送至音频模组，以使该音频模组依据这些拍摄参数，调整其当前具有的拾音参数，并按照调整后的拾音参数对各会议成员进行音频采集，以可靠且准确地采集到各会议成员的音频。

其中，音频模组也可以利用人工智能算法来实现拾音参数的动态调整，具体在得到上述拍摄参数后，对于当前会议场景中出现的多种声音，可以进一步确定距离摄像头较近的会议成员输出的(如直接说话产生的或因执行特定动作产生的等)第一声音还是第二声音或其他声音，而距离摄像头较远的会议成员输出的是哪个声音等，即更加准确地确定出整个环境中的各种声音具体对应哪个会议成员，以使得拾音模组能够据此有针对性地调整、用以采集相应会议成员的音频的拾音器的拾音参数，以便后续播放时可以实现有选择性的播放。

综上，在本申请实施例中，录制视频的过程中，基于每一帧视频图像，定位该视频图像中各第一拍摄对象的第一拍摄方向和第一拍摄距离，依次确定这些第一拍摄对象之间的空间位置关系，从而依据该空间位置关系，确定采集相应帧音频时，音频模组应该按照什么样的拾音参数，对说话的各第一拍摄对象进行音频采集，使得所采集到的各第一拍摄对象的音频清晰，满足预设拾音要求，同时从这些第一拍摄对象各自的音频信号来看，能够体现该空间位置关系，方便观看所录制视频的不同用户，根据各自喜好或需求能够选择若干第一拍摄对象的音频播放等，以满足不同用户的不同视频观看要求。

参照图4，为本申请提出的视频的录制实现方法的又一可选示例的流程示意图，本实施例可以区别于上述实施例的获得第一拾音参数的又一种细化实现，关于视频的录制实现方法中的其他步骤可以参照上述实施例的描述，本实施例主要对上述如何依据第一拍摄对象的第一拍摄方向及第一拍摄距离，获得电子设备的拾音模组的第一拾音参数的实现过程进行描述，如图4所示，该方法可以包括：

步骤S41，获取第一帧视频图像的相邻历史帧视频图像中，第一拍摄对象的第二拍摄方向和第二拍摄距离；

步骤S42，将同一第一拍摄对象的第一拍摄方向与第二拍摄方向进行比较，并将第一拍摄距离与第二拍摄距离进行比较，得到相应第一拍摄对象的第一运动参数；

步骤S43，依据第一运动参数，调整电子设备的拾音模组的当前拾音参数至第一拾音参数。

本实施例区别于上文实施例描述的第一拾音参数的获取方式，在确定如何对当前帧的视频图像(第一帧视频图像)中说话的第一拍摄对象进行音频采集时，将对该第一帧视频图像与其相邻的若干历史帧视频图像所包含的信息进行分析，确定同一第一拍摄对象在拍摄方向和拍摄距离等拍摄参数上的变化，以此确定该第一拍摄对象在该相邻帧视频图像录制过程中的第一运行参数，如运动方向，与其他第一拍摄对象之间的空间位置关系的变化等，本实施例对该第一运动参数包含的内容不做限定。

基于上述获得的每一个第一拍摄对象的第一运动参数后，可以由此得知该第一拍摄对象是远离了还是更靠近图像采集器，该第一拍摄对象与其他第一拍摄对象之间的位置关系发生了什么变化等，依次来指示拾音模组当前拾音参数的调整方向，得到第一拾音参数，进而由该拾音模组按照该第一拾音参数实现对当前帧的音频采集。

示例性的，仍以上述会议场景为例，在视频录制过程中，当会议成员A从会议成员B前方，移动到会议成员后方，甚至逐渐远离该会议成员B，同时远离电子设备，这种情况下，本实施例通过相邻帧视频图像分析，可以得到该会议成员A的这一运动情况，为了更加准确且清楚地采集到该会议成员A对应的音频，本申请需要实时动态调整电子设备的拾音模组的拾音参数，如对于主要采集会议成员A的拾音器，可以调整其拾音方向，并增大其增益值，增大该拾音器采集的音频信号强度，得到满足预设拾音要求的该会议成员A对应的音频，但并不局限于这些拾音参数的调整。对于其他运行情况，对拾音模组的拾音参数的动态调整过程类似，本申请不做一一详述。

可见，本实施例在视频录制过程中，通过对相邻帧视频图像分析，及时得知各拍摄对象相对于图像采集器的运动情况，以此来实时动态调整拾音模组的拾音参数，保证相应帧采集到的音频相对于相邻帧历史音频，能够体现各拍摄对象的位置变化，实现了颗粒度更细，更身历其境的音频录制。

在电子设备的拾音模组包含多个拾音器的情况下，本申请还可以采用如图5所示的细化方案，实现上述依据第一拍摄对象的第一拍摄方向及第一拍摄距离，获得电子设备的拾音模组的第一拾音参数的过程，对于视频的录制实现方法的其他执行步骤可以参照上述实施例相应部分的描述，本实施例不做赘述。如图5所示，本实施例提出的该第一拾音参数的获取过程可以包括以下步骤：

步骤S51，依据第一拍摄对象的第一拍摄方向及第一拍摄距离，从多个拾音器中，选择相应第一拍摄对象的主拾音器；

结合上文对拾音模组包含多个拾音器的情况的相关描述，本实施例是通过为每一个第一拍摄对象，配置对应的主拾音器和辅助拾音器，以利用第一拍摄对象对应的辅助拾音器输出的第一声音信号，对相应的主拾音器输出的第二声音信号进行降噪处理，得到该第一拍摄对象的第一帧音频，保证该第一帧音频更加干净、清晰，满足拾音要求。

本申请实施例对如何确定各第一拍摄对象的主拾音器和辅助拾音器的实现方式不做限定。示例性的，本申请可以依据第一拍摄对象的第一拍摄方向及第一拍摄距离，将距离该第一拍摄对象最近的拾音器确定为主拾音器；也可以选择有效拾音方向与该第一拍摄对象的第一拍摄方向，靠近或一致的拾音器为主拾音器；还可以利用基于多个拾音条件预先训练得到的模型来确定，即将各第一拍摄对象的第一拍摄方向及第一拍摄距离输入该模型，输出相应第一拍摄对象对应的主拾音器的标识等，本申请在此不做一一详述。

步骤S52，利用第一拍摄对象的第一拍摄方向，调整相应主拾音器的拾音方向，以使调整后的拾音方向能够朝向或靠近该第一拍摄对象的第一拍摄方向；

在实际应用中，由于现有的拾音器工作期间是全向性的，本实施例提出控制拾音器有方向性地实现音频采集的方式，以使该拾音器所采集到的音频更加满足应用要求。所以，本申请可以按照各第一拍摄对象的第一拍摄方向，来调整相应的主拾音器的拾音方向，以使调整后的拾音方向能够朝向或靠近该第一拍摄对象的第一拍摄方向，更好地采集该第一拍摄对象的音频。

在一些实施例中，对于第一拍摄对象对应的辅助拾音器，本申请可以选择维持其拾音参数不变，也可以按照与主拾音器的拾音参数调整方向的相反调整方向，来调整相应第一拍摄对象对应的辅助拾音器等，本申请对辅助拾音器的控制拾音方式不做限定。

其中，由于视频录制现场中各第一拍摄对象对应的音频往往不能隔绝，这就会使得各拾音器都可能或多或少地采集到多个第一拍摄对象的音频，且存在距离较近的若干第一拍摄对象，对于这多个第一拍摄对象所确定的主拾音器和辅助拾音器可能相同，但这些第一拍摄对象的第一拍摄方向和第一拍摄距离并不完全一致，这样，在调整主拾音器和/或辅助拾音器的拾音参数时，可以结合这多个第一拍摄对象的第一拍摄方向、第一拍摄距离等，来确定调整后的第一拾音参数，具体实现过程本实施例不做详述。

在又一种可能的实现方式中，视频录制现场也可能存在距离不太远的第一拍摄对象，这样会导致，对于第一拍摄对象1的辅助拾音器，可能被确定为第一拍摄对象2的主拾音器，面对这种情况，在依据第一拍摄对象1的第一拍摄方向调整拾音器的拾音参数时，可以选择不调整其辅助拾音器的拾音参数，或者结合第一拍摄对象2的第一拍摄方向，实现对该拾音器的拾音参数调整，保证其采集到的第一拍摄对象2的音频质量更高。

由此可见，本实施例提出的这种为各第一拍摄对象划分主拾音器和辅助拾音器，依据第一拍摄对象的第一拍摄方向，调整相应主拾音器的拾音方向的处理方式，可以结合对各第一拍摄对象的主拾音器和辅助拾音器的划分结果，综合确定各主拾音器的拾音方向，具体实现过程可以包括但并不局限于限位列举的实现方式，当然，也可以依据具体的拾音要求，来确定各拾音器的拾音方向，本申请不做一一详述。

步骤S53，利用第一拍摄对象的第一拍摄距离，调整相应主拾音器的增益值，以改变该主拾音器的有效拾音范围；

其中，拾音器的增益值的调整，可以相应改变该拾音器所能够采集到的音频信号强度范围，以调整该拾音器能够有效采集到的音频范围，如增大其增益值，对于原来无法采集到有效音频的第一拍摄对象，调整后可以有效采集到该第一拍摄对象的音频，即使得采集到的该第一拍摄对象的音频清晰。

本申请实施例中，可以预先配置第一拍摄距离与拾音器的增益值之间的对应关系，如通过试验或经验等方式确定，这样，在执行步骤S53时，可以直接参照该对应关系，实现对主拾音器的增益值的调整，但并不局限于这种实现方式。

而且，在对各主拾音器的增益值调整过程中，可以参照上文描述的对主拾音器的拾音方向的调整实现方式，来确定各主拾音器甚至是辅助拾音器的增益值的调整方式，以保证调整后的拾音器所采集的音频满足预设拾音要求，具体实现过程本实施例不做赘述。

步骤S54，将调整后的拾音方向和调整后的增益值，确定为相应主拾音器的第二拾音参数，并由多个拾音器各自的第二拾音参数构成拾音模组的第一拾音参数。

继上文实施例相应部分的描述，本实施例可以依据各第一拍摄对象的第一拍摄方向及第一拍摄距离，从拾音模组包含的多个拾音器中，确定出各第一拍摄对象的主拾音器，这样，可以按照相应第一拍摄对象的第一拍摄方向及第一拍摄距离，来动态调整该主拾音器的拾音方向和有效拾音范围，以使得该主拾音器在当前帧采集到的音频包含的相应第一拍摄对象的声音足够清晰，满足视频录制中的拾音要求，为后续有选择性地播放部分第一拍摄对象的音频奠定基础。

需要说明，由于在视频录制过程中，各第一拍摄对象相对于图像采集器之间的位置可能是动态变化的，本实施例在采集每一帧音频时，都可以按照上述方式实现，实现了对各第一拍摄对象的动态追踪采集，且保证了所采集到的各第一拍摄对象的音频满足拾音要求。

基于上述各实施例描述的视频的录制实现方法，本申请还提出了如何获取第一拍摄对象及其第一拍摄方向、第一拍摄距离，以及确定至少一个第一拍摄对象各自的第一拍摄方向及第一拍摄距离的一可选细化实现方法，本申请实施例主要对该细化实现过程进行描述，对于视频的录制实现方法中的其他步骤的实现过程，可以参照上述实施例相应部分的描述，本实施例不做赘述。因此，参照图6所示的本申请实施例提出的视频的录制实现方法的流程示意图，该方法可以包括以下步骤：

步骤S61，获取电子设备的视频录制界面呈现的第一帧视频图像；

步骤S62，识别出第一帧视频图像包含的感兴趣区域，并获取感兴趣区域在图像坐标系下的位置信息；

本申请实施例中，可以利用人工智能算法(如各种神经网络算法，但并不局限于此)对录制的各帧视频图像进行目标检测，以识别出当前输入的第一帧视频图像包含的各对象及其类别信息、位置信息，也就是该第一帧视频图像包含的各感兴趣区域ROI(Regionof Interest)，及其包含的对象类型和位置(如检测框形式表示)，关于ROI区域识别的具体实现过程本实施例不做详述。

之后，可以将各感兴趣区域包含的对象确定为第一拍摄对象，结合上述各实施例描述的方式，确定各第一拍摄对象的第一拍摄方向和第一拍摄距离，并不局限于本实施例下文描述的处理方式，本实施例主要是为了实现音频聚焦采集而提出的处理方式，本申请可以根据视频录制的具体要求进行适应性调整，如通过分析相邻帧的视频图像中拍摄对象的图像变化信息，来确定会产生音频的拍摄对象，后续可以按照上述方式，对这类第一拍摄对象进行音频追踪采集，本申请在此不做一一详述。

步骤S63，依据获取的历史拍摄对象，从识别出的感兴趣区域中，确定目标区域；

在本申请实施例中，可以利用人工智能技术，从当前采集到的第一帧视频图像中，确定出录像用户可能最感兴趣的对象，比如该第一帧视频图像中的唯一的人或特定的动物或环境声音等，该用户也可以在电子设备显示屏中输出的多个感兴趣区域中，手动点击其中的一个感兴趣区域作为目标区域，即响应针对第一帧视频图像呈现的感兴趣区域的选择指令，将所选择的感兴趣区域确定为目标区域。

此外，还可以如本实施例描述的方式，依据该用户的历史拍摄对象，如对电子设备中存储的多媒体文件、从第三方获得与该用户的用户标识关联的多媒体文件等进行分析，得到的历史拍摄对象，从识别出的感兴趣区域中，选择包含出现过的对象所在的感兴趣区域为目标区域。

示例性的，在第一帧视频图像中包含多个第一拍摄对象，如多个人、多个物体等场景，可以结合人工智能算法，优先选择电子设备相册中出现过的人(如孩子等)或物(如宠物等)所在的感兴趣区域为目标区域，但并不局限于这种确定目标区域的实现方式。

基于此，在一种可能的实现方式中，可以统计历史多媒体文件中出现的各历史拍摄对象的拍摄次数；按照拍摄次数从大到小的顺序，选择包含具有较高拍摄次数的历史对象的感兴趣区域为目标区域，但并不局限于这种实现方式。

步骤S64，将目标区域包含的对象确定为第一帧视频图像的第一拍摄对象，将目标区域的位置信息确定为第一拍摄对象的位置信息；

步骤S65，依据第一拍摄对象的位置信息，以及第一帧拍摄图像对应的第一视角，获得第一拍摄对象的第一拍摄方向；

步骤S66，依据第一拍摄对象的位置信息，以及第一帧拍摄图像对应的第一焦距，获得第一拍摄对象的第一拍摄距离。

本实施例中，在确定第一拍摄方向和第一拍摄距离过程中，可以依据图像坐标系和相机坐标系之间的转换关系，以及第一拍摄对象在第一帧视频图像上的位置信息，电子设备采集该第一帧视频图像时各传感器感参数等信息计算得到，具体计算过程本申请不做详述。

其中，上述第一视角可以是电子设备的图像传感器视角，上述第一拍摄方向可以由该第一视角与第一拍摄对象的夹角确定，但并不局限于此。

由此可见，在本申请实施例中，可以针对电子设备对采集到的第一帧视频图像的聚焦到的第一拍摄对象，进行针对性的音频追踪采集，具体的，可以计算出该第一拍摄对象的第一拍摄方向和第一拍摄距离，从而据此来实现拾音模组的拾音参数，如控制拾音模组的拾音方向与该第一拍摄方向靠近或一致，将增益值调整到与该第一拍摄对象对应的目标增益值，保证该拾音模组能够采集高高质量的该第一拍摄对象的第一帧音频，且由于本申请对每一帧视频图像都按照上述方式处理，确定每一帧视频图像中最感兴趣的第一拍摄对象，并获取该第一拍摄对象的第一帧音频，对于同一个第一拍摄对象，也会依据其与图像采集器之间的位置变化，动态调整拾音参数，实现音频追踪采集。而且使得录制到的视频能够主要突出用户最感兴趣的第一拍摄对象的音频，满足了不同用户的个性化录制需求。

需要说明，在本实施例对最感兴趣的第一拍摄对象进行追踪检测过程中该，可以利用采集到的其他拍摄对象的声音信号进行降噪处理，以实现对该第一拍摄对象的音频增强处理，过滤背景噪声干扰，还可以对该第一拍摄对象的音色进行调整，如采用特定人物或动画的音色，利用但并不局限于音色合成模型，合成该第一拍摄对象的第一帧音频；或者对于乐器输出的音频，可以按照该乐器类型，相应调整该第一帧音频的音色，使其更加饱满、鲜明等。这样，在播放录制的视频时就好比是该第一拍摄对象具有该特定人物或动画的音色输出音频，提高了视频录制及播放的丰富性、乐趣，本申请对第一拍摄对象的音色调整实现方法不做详述。

在本申请提出的又一些实施例中，本申请还可以按照上述方式，在选择目标区域时，按照感兴趣区域的得分大小，选择得分较大的多个感兴趣区域目标区域，而不是将所有感兴趣区域确定为目标区域，之后，对于多个目标区域包含的第一拍摄对象的音频追踪采集实现过程，可以参照上述实施例相应部分的描述，本实施例在此不做赘述。

另外，在上述各实施例描述的视频的录制实现过程中，在一些实施例中，本申请还可以结合拍摄场景的类型、拍摄对象类别等，实现对拾音参数的调整，以达到对采集到的音频的润色、增强、降噪等处理要求。

具体的，本申请实施例可以获取第一帧视频图像中的至少一个第一拍摄对象的对象类别，以及该至少一个第一拍摄对象所处的场景类别；若该场景类别属于第一类录制场景，可以获取预先针对第一类录制场景配置的场景拾音参数，以及与对象类别相匹配的音色调整参数，从而按照场景拾音参数和/或音色调整参数，控制电子设备的拾音模组对第一帧视频图像中的至少一个第一拍摄对象进行音频追踪采集，得到相应第一拍摄对象的第一帧音频。

可见，在本申请实施例中，可以依据录制用户的各录像要求，为各类录制场景和各类拍摄对象，经过多个试验或经验等方式，预先配置相应的场景拾音参数、音色调整参数，这样，在实际视频录制过程中，可以按照上述方式直接调用即可，但并不局限于这种录制方式，也可以按照上述配置方式，在线调整等，本申请在此不做一一详述。

示例性的，在录制庆典晚会场景的情况下，若录制时段正在放烟火，此时用户往往会希望重点录制烟花绽放的画面及其产生的音频，可以对其进行增强、润色等处理，而对于参与晚会的用户来说，不需要听清楚说话内容，可以将其作为背景噪声，对其进行弱化或过滤处理，以保证播放该段视频时，在看到烟花绽放的画面同时，也可以听到相应的声音，给观看者一种身临其境的感觉。为了提高该感受，本申请可以将每次绽放的每一个烟花作为一个拍摄对象，按照上述方式对其音频进行追踪检测，以使得同时时刻绽放的多个烟花，也能够从声音上体现多个烟花的绽放空间感，如哪个烟花绽放的声音近，哪个烟花绽放的声音远等，进一步提高用户观看录制视频的体验。

当然，若在上述场景中，某时段有主持人对该庆典晚会的讲解，电子设备也可以将其作为一个第一拍摄对象，对其输出的音频进行增强处理，以使得播放这段视频时，不仅能够达到上述烟花观看效果，还能够清晰听到主持人的讲解内容，具体实现过程本申请不做详述。

参照图7，为本申请提出的视频的录制实现装置的一可选示例的结构示意图，该装置可以适用于上述电子设备，如图7所示，该装置可以包括：

第一获取模块71，用于获取电子设备的视频录制界面呈现的第一帧视频图像，所述第一帧视频图像是视频录制过程中的任一帧视频图像；

第一检测确定模块72，用于检测所述第一帧视频图像包含的至少一个第一拍摄对象，并确定所述至少一个第一拍摄对象各自的第一拍摄方向及第一拍摄距离；

拍摄对象音频获得模块73，用于依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得相应第一拍摄对象的第一帧音频；

视频文件生成模块74，用于由所述第一帧音频和所述第一帧视频图像，生成第一帧视频文件。

可选的，如图8所示，上述拍摄对象音频获得模块73可以包括：

第一获得单元731，用于依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得所述电子设备的拾音模组的第一拾音参数；

第一音频采集单元732，用于控制所述拾音模组按照所述第一拾音参数，对所述至少一个第一拍摄对象进行音频追踪采集，得到相应第一拍摄对象的第一帧音频。

基于上述实施例的描述，在本申请提出的一些实施例中，上述第一检测确定模块72可以包括：

感兴趣区域识别单元，用于识别出所述第一帧视频图像包含的感兴趣区域，并获取所述感兴趣区域在图像坐标系下的位置信息；

目标区域确定单元，用于依据获取的历史拍摄对象，从识别出的感兴趣区域中，确定目标区域；

拍摄对象信息确定单元，用于将目标区域包含的对象确定为所述第一帧视频图像的第一拍摄对象，将所述目标区域的位置信息确定为所述第一拍摄对象的位置信息；

第一拍摄方向获得单元，用于依据所述第一拍摄对象的位置信息，以及所述第一帧拍摄图像对应的第一视角，获得所述第一拍摄对象的第一拍摄方向；

第一拍摄距离获得单元，用于依据所述第一拍摄对象的位置信息，以及所述第一帧拍摄图像对应的第一焦距，获得所述第一拍摄对象的第一拍摄距离。

在本申请提出的又一些实施例中，上述第一获得单元731可以包括：

第二获得单元，用于在第一拍摄对象的数量为一个的情况下，获取与所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离相对应的拾音参数，确定为所述电子设备的拾音模组的第一拾音参数；

空间位置关系确定单元，用于在第一拍摄对象的数量为多个的情况下，依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，确定多个第一拍摄对象在所述第一帧拍摄图像中的第一空间位置关系；

第一确定单元，用于将与所述第一空间位置关系相匹配的拾音参数，确定为所述电子设备的拾音模组的第一拾音参数；

在本申请提出的又一些实施例中，上述第一获得单元731也可以包括：

第三获得单元，用于获取所述第一帧视频图像的相邻历史帧视频图像中，所述第一拍摄对象的第二拍摄方向和第二拍摄距离；

运动参数得到单元，用于将同一所述第一拍摄对象的所述第一拍摄方向与所述第二拍摄方向进行比较，并将所述第一拍摄距离与所述第二拍摄距离进行比较，得到相应第一拍摄对象的第一运动参数；

第一调整单元，用于依据所述第一运动参数，调整所述电子设备的拾音模组的当前拾音参数至第一拾音参数。

在本申请提出的又一些实施例中，上述第一获得单元731还可以包括：

主拾音器选择单元，用于依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，从所述多个拾音器中，选择相应第一拍摄对象的主拾音器；

第二调整单元，用于利用所述第一拍摄对象的第一拍摄方向，调整相应主拾音器的拾音方向，以使调整后的拾音方向能够朝向或靠近该第一拍摄对象的第一拍摄方向；

第三调整单元，用于利用所述第一拍摄对象的第一拍摄距离，调整相应主拾音器的增益值，以改变该主拾音器的有效拾音范围；

第四获得单元，用于将调整后的拾音方向和调整后的增益值，确定为相应主拾音器的第二拾音参数，并由多个拾音器各自的第二拾音参数构成所述拾音模组的第一拾音参数。

相应地，上述第一音频采集单元732可以包括：

降噪处理单元，用于利用所述第一拍摄对象对应的辅助拾音器输出的第一声音信号，对相应的主拾音器输出的第二声音信号进行降噪处理，得到该第一拍摄对象的第一帧音频。

基于上述各实施例描述的视频的录制实现装置，如图9所示，该装置还可以包括：

类别信息获取模块75，用于获取所述第一帧视频图像中的至少一个第一拍摄对象的对象类别，以及所述至少一个第一拍摄对象所处的场景类别；

拾音参数获取模块76，用于若所述场景类别属于第一类录制场景，获取预先针对所述第一类录制场景配置的场景拾音参数，以及与所述对象类别相匹配的音色调整参数；

音色调整模块77，用于按照所述场景拾音参数和/或所述音色调整参数，控制所述电子设备的拾音模组对所述第一帧视频图像中的至少一个第一拍摄对象进行音频追踪采集，得到相应第一拍摄对象的第一帧音频。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的视频的录制实现方法的各个步骤。

参照图10，为本申请提出的适用于本申请提出的视频的录制实现方法和装置的电子设备实施例的硬件结构示意图，本申请对该电子设备的产品形式不做限定，可以依据应用场景的需求确定，如图10所示，该电子设备可以包括：拾音模组101、图像采集器102、显示器103、至少一个存储器104和至少一个处理器105，其中，

拾音模组101、图像采集器102、显示器103、存储器104、处理器105可以通过通信总线彼此相连，本申请对这几部分的具体连接方式，以及相互之间的数据通信实现过程不作限定。

存储器104，用于存储实现如上述的视频的录制实现方法的程序；处理器105可以加载并执行存储器104中存储的程序，以实现本申请任一可选实施例提出的视频的录制实现方法的各个步骤，具体实现过程可以参照上文相应实施例相应部分的描述。

在本申请实施例中，存储器104可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器105，可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specificintegrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

在一种可能的实现方式中，存储器104可以包括程序存储区和数据存储区，该程序存储区可以存储操作系统、以及至少一个功能(如图像显示功能)所需的应用程序、实现本申请提出的视频的录制实现方法的程序等；数据存储区可以存储电子设备使用过程中所产生的数据。

应该理解的是，图10所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中，电子设备可以包括比图10所示的更多或更少的部件，或者组合某些部件，如扬声器、振动机构、灯等至少一个输出设备，以及各种通信接口、电源模块、天线、各种传感器等，本申请在此不做一一列举。

最后，需要说明，本说明书中各个实施例采用递进或病了的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、电子设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频的录制实现方法，所述方法包括：

2.根据权利要求1所述的方法，所述依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得相应第一拍摄对象的第一帧音频，包括：

3.根据权利要求1或2所述的方法，所述检测所述第一帧视频图像包含的至少一个第一拍摄对象，并确定所述至少一个第一拍摄对象各自的第一拍摄方向及第一拍摄距离，包括：

4.根据权利要求2所述的方法，所述依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得所述电子设备的拾音模组的第一拾音参数，包括：

5.根据权利要求2所述的方法，所述依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得所述电子设备的拾音模组的第一拾音参数，包括：

6.根据权利要求2所述的方法，在所述电子设备的拾音模组包含多个拾音器的情况下，所述依据所述第一拍摄对象的所述第一拍摄方向及所述第一拍摄距离，获得所述电子设备的拾音模组的第一拾音参数，包括：

7.根据权利要求6所述的方法，所述得到相应第一拍摄对象的第一帧音频的实现过程，包括：

8.根据权利要求1或2所述的方法，所述方法还包括：

9.一种视频的录制实现装置，所述装置包括：

10.一种电子设备，所述电子设备包括：

拾音模组；图像采集器；显示屏；

存储器，用于存储实现如权利要求1～8任一项所述的视频的录制实现方法的程序；

处理器，用于加载并执行所述存储器存储的所述程序，以实现如权利要求1～8任一项所述的视频的录制实现方法的各步骤。