CN117221707A

CN117221707A - 一种视频处理方法和终端

Info

Publication number: CN117221707A
Application number: CN202210669449.1A
Authority: CN
Inventors: 冯文瀚; 王拣贤
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-05-30
Filing date: 2022-06-14
Publication date: 2023-12-12

Abstract

一种视频处理方法和终端。在该方法中，实施本申请提供的技术方案，终端在确定录制主角之后，可以同时生成两个视频，其中一个为主角视频，另外一个为原视频。在生成主角视频时，涉及利用相机算法确定主角图像，利用音频算法确定主角图像对应的音频数据。其中，音频算法确定音频数据时需要使用相机算法输出的相关参数，为了使得相机算法和音频算法之间可以进行通信，可以设置一个第三方模块，通过该第三方模块建立相机算法和音频算法之间的通信。

Description

一种视频处理方法和终端

技术领域

本发明涉及电子领域，尤其涉及一种视频处理方法和终端。

背景技术

随着智能终端的发展，目前，手机支持录制视频的终端可以实现自动追焦的拍摄模式。在录制视频时，终端可以接收用户选中的主角。然后，终端可以在后续录制视频的过程中，始终对该主角进行追焦，从而得到图像中包括上述被选中主角的主角视频，该主角视频也可以被称为追焦视频或者特写视频等。

但是，在自动追焦的拍摄模式下，终端获取的只有主角视频，不能在一次录制过程中同时录制主角视频以及原视频。其中，原视频是由摄像头采集的原图像组成的。

发明内容

本申请提供了一种视频处理方法和终端，在录制视频的过程中，可以实现相机算法以及音频算法之间的通信。

第一方面，本申请提供了一种视频处理方法，应用于终端，所述终端包括摄像头，所述方法包括：所述终端启动相机应用；显示预览界面，所述预览界面包括第一预览窗口、第一控件以及第二控件；所述第一预览窗口用于显示所述摄像头采集的图像；检测到针对所述第一控件的第一操作，响应于所述第一操作，所述相机应用进入第一模式；所述第一预览窗口显示第一图像时，检测到针对第一对象的操作；所述第一图像包括至少一个对象，所述至少一个对象包括第一对象；响应于所述针对第一对象的操作；显示第二预览窗口，所述第二预览窗口中显示第二图像；所述第二图像是基于所述第一图像生成的，所述第二图像中包括所述第一对象；所述第二预览窗口的尺寸小于所述第一预览窗口；检测到针对所述第二控件的第二操作，响应于所述第二操作，显示录制界面；所述录制界面包括第三控件；在所述第一预览窗口显示第三图像以及在所述第二预览窗口显示第四图像；所述第三图像是所述摄像头在第一时刻采集的；所述第四图像是基于所述第三图像生成的，所述第四图像中包括所述第一对象，所述第四图像中显示的内容少于所述第三图像中的内容；获取第一音频数据；所述第一音频数据中包括第一音频信号以及所述第一音频信号的信息；所述第一音频信号的信息中包括时间戳，所述时间戳用于指示所述第一音频信号为所述第一时刻采集的；检测到针对所述第三控件的第三操作，响应于所述第三操作，停止视频录制，保存有基于所述第一预览窗口显示的图像录制的第一视频以及基于所述第二预览窗口显示的图像录制的第二视频，其中，所述第一视频中包括第三图像以及第一目标音频数据；所述第二视频中包括所述第四图像以及第二目标音频数据；所述第一目标音频数据是基于所述第一音频数据得到的；所述第二目标音频数据是基于主角坐标以及所述第一音频数据得到；所述主角坐标为与所述第一对象相关的坐标。

上述实施例中，终端在确定录制主角之后，可以同时生成两个视频，其中一个为主角视频，另外一个为原视频。其中，原始视频中包括摄像头采集的原图像。主角视频中包括的图像是在原图像的基础上，识别图像中的主角，然后裁剪出其中包括主角的部分图像得到的，该主角视频中包括的图像可以被称为主角图像。在录制视频的过程中，终端可同时显示上述原视频和主角视频，以供用户预览。这样，在确定主角之后，终端既可以录制图像中包括主角的主角视频，又可以得到由原始的摄像头采集的原图像组成的原视频。

结合第一方面，所述方法还包括：所述终端基于所述第三图像获取主角追踪信息，所述主角追踪信息用于描述所述第三图像中所述第一对象的信息；所述终端基于所述主角追踪信息确定主角坐标。

上述实施例中，终端可以基于原图像(第三图像)对主角(第一对象)进行追踪，确定该主角是否还在原图像。

结合第一方面，所述主角追踪信息包括所述第三图像中，所述第一对象的人脸区域、人体区域、中心坐标以及追焦状态；其中，所述追焦状态用于确定所述第一对象是否包括在所述第三图像中。

结合第一方面，所述终端基于所述主角追踪信息确定主角坐标，具体包括：所述终端确定所述人脸区域的中心坐标为所述主角坐标。

上述实施例中，基于人脸区域的中心坐标作为主角坐标，在后续利用主角坐标确定主角所在的方向时，可以使得该方向更接近人发声的方向。

结合第一方面，所述方法还包括：所述终端将所述第一音频数据复制成两路相同的第二音频数据；基于所述两路第二音频数据中的一路第二音频数据得到所述第一目标音频数据；基于所述两路第二音频数据中的另一路第二音频数据以及所述主角坐标得到所述第二目标音频数据。

上述实施例中，将第一音频数据复制成两路第二音频数据，对该两路第二音频数据分别进行处理，可以保证在一次录制过程中实现得到两个视频。

结合第一方面，所述终端包括相机算法、音频算法以及第三方模块，基于所述两路第二音频数据中的另一路第二音频数据以及所述主角坐标得到所述第二目标音频数据，具体包括：所述终端通过所述相机算法基于所述第三图像获取主角追踪信息；通过所述第三方模块基于所述主角追踪信息确定主角坐标；通过所述第三方模块将所述主角坐标发送至所述音频算法；通过所述音频算法基于所述两路第二音频数据中的另一路第二音频数据以及所述主角坐标得到所述第二目标音频数据。

上述实施例中，设置一个第三方模块，通过该第三方模块建立相机算法和音频算法之间的通信。该第三方模块可以将相机算法的输出结果传输到音频算法中，或者该第三方模块可以将该相机算法的输出结果经过计算得到计算后的结果之后，再将该计算后的结果传输到音频算法中。

结合第一方面，所述相机算法以及所述音频算法设置于硬件抽象层；所述第三方模块设置于应用程序层。

结合第一方面，通过所述第三方模块将所述主角坐标发送至所述音频算法，具体包括：通过所述第三方模块按照第一频率将所述主角坐标发送至所述音频算法。

结合第一方面，基于所述两路第二音频数据中的另一路第二音频数据以及所述主角坐标得到所述第二目标音频数据，具体包括：所述终端基于所述主角坐标确定所述第一对象所在的方向；对所述另一路第二音频数据中所述方向上的音频信号进行增强，得到所述第二目标音频数据。

上述实施例中，可以实现播放主角视频(第二视频)时，该第一对象的声音被突出(增强)，听起来更清晰。

第二方面，本申请提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执行：启动相机应用；显示预览界面，所述预览界面包括第一控件以及第二控件；在所述预览界面显示所述摄像头采集的第一图像，所述第一图像包括第一对象以及第二对象；检测到针对所述第一控件的第一操作，响应于所述第一操作，所述终端进入第一模式；检测到针对所述第一对象的第二操作，响应于所述第二操作；所述终端显示所述第一图像以及第二图像；所述第二图像是基于所述第一图像生成的，所述第二图像中包括所述第一对象不包括所述第二对象；检测到针对所述第二控件的第二操作，响应于所述第二操作，显示录制界面；所述录制界面包括第三控件；在所述录制界面显示第三图像以及第四图像；所述第三图像是所述摄像头在第一时刻采集的；所述第四图像是基于所述第三图像生成的，所述第四图像中包括所述第一对象，所述第四图像中显示的内容少于所述第三图像中的内容；获取第一音频数据；所述第一音频数据中包括第一音频信号以及所述第一音频信号的信息；所述第一音频信号的信息中包括时间戳，所述时间戳用于指示所述第一音频信号为所述第一时刻采集的；检测到针对所述第三控件的第三操作，响应于所述第三操作，停止录制，保存有第一视频以及第二视频，其中，所述第一视频中包括第三图像以及第一目标音频数据；所述第二视频中包括所述第四图像以及第二目标音频数据；所述第一目标音频数据为基于所述第一音频数据得到的；所述第二目标音频数据为基于主角坐标以及所述第一音频数据得到；所述主角坐标为与所述第一对象相关的坐标。

第三方面，本申请提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第四方面，本申请提供了一种芯片系统，该芯片系统应用于电子设备，该芯片系统包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第六方面，本申请提供了一种计算机可读存储介质，包括指令，其特征在于，当该指令在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

附图说明

图1A-图1E示例性示出了终端启动摄像头执行拍摄动作的预览界面；

图2A-图2E示例性示出了终端启动摄像头执行录制动作的录制界面；

图3A-图3B为终端显示原视频1以及主角视频1时涉及的示例性用户界面；

图4A-图4G示例性示出了终端启动摄像头执行拍摄动作的预览界面；

图5为终端展示原视频2以及主角视频2时涉及的示例性用户界面；

图6示出了本申请实施例中录制原视频以及主角视频的一个示例性流程图；

图7示出了终端中包括相机算法以及音频算法的一个示意性软件结构框图；

图8示出了终端中的相机算法以及音频算法间通信的另一个示例性流程图；

图9示出了一个示例性主角追踪信息；

图10是本申请实施例提供的终端的结构示意图；

图11为本申请实施例中进入主角模式的一种方式涉及的示意图；

图12示出了主角模式的预览模式中选择追焦对象的界面示意图；

图13A与图13B为主角模式中录制模式下的场景示意图；

图14A为对本申请实施例提供的退出主角模式的场景示意图；

图14B为对主角模式下录制的视频进行保存和查看的示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请以下实施例中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage，XML)等特定计算机语言编写的源代码，界面源代码在终端上经过解析，渲染，最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphic userinterface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在终端的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在一种方案中，终端在自动追焦的拍摄模式下录制视频时，在确定录制主角之后，终端结束录制之后，可以最终可以得到一个视频，此时，该视频为图像中包括上述主角的主角视频。主角视频中主角周围的图像内容大多数情况是不完整的。这样，在最终录制的视频(主角视频)中忽略了录制过程中除主角之外的其他图像内容。则，在一次录制完成之后，虽然获得了主角视频，但是无法获取录制时主角所处的环境(主角周围对象的状态和动作等)。

本申请实施例提供了一种视频处理方法，该方法可以应用于手机、平板电脑等可以录制视频的终端上。

在本申请实施例中，终端在确定录制主角之后，可以同时生成两个视频，其中一个为主角视频，另外一个为原视频。其中，原始视频中包括摄像头采集的原图像。主角视频中包括的图像是在原图像的基础上，识别图像中的主角，然后裁剪出其中包括主角的部分图像得到的，该主角视频中包括的图像可以被称为主角图像。在录制视频的过程中，终端可同时显示上述原视频和主角视频，以供用户预览。

这样，在确定主角之后，终端既可以录制图像中包括主角的主角视频，又可以得到由原始的摄像头采集的原图像组成的原视频。

下面具体介绍终端实施本申请实施例提供的视频处理方法的示例性用户界面。

不同的实施例中，终端具体触发录制原视频以及主角视频的时机不同。本申请实施例对其中的两种触发时机进行描述，具体可以参考下述对各实施例1以及实施例2的描述。

实施例1：终端触发录制原视频以及主角视频的时机(后文中可以称为时机1)为：在预览过程中，终端首先检测到针对主角模式控件的操作，响应于该操作，终端准备开始录制主角视频(没有开始录制)。然后，如果在预览过程中可以检测到用户针对原图像确定主角的操作，那么，当终端检测到用户针对开始录像控件的操作之后，响应于该操作，可以进入录制过程，可以录制原视频以及主角视频。其中，主角模式控件可用于提供录制主角视频的功能。

下述图1A-图1E、图2A-图2E、图3A以及图3B描述了实施例1中，终端得到以及查看视频(包括原视频以及主角视频)的过程中涉及的部分示意性用户界面。

图1A-图1E示例性示出了终端启动摄像头执行拍摄动作的预览界面。

在图1A-图1E示出的预览过程中，终端可以采集并显示原图像，且可以基于原图像生成并显示主角图像。但是此时，由于没有检测到针对开始录制控件的操作，因此没有开始录制视频。

首先，图1A示例性示出了终端开启相机应用的用户界面10。

如图1A所示，该用户界面10为终端的一个桌面。该用户界面10中显示有相机应用图标101以及图库应用图标102。终端可以检测到用户作用于相机应用图标101上的操作(例如单击操作)，响应于该操作，终端启动相机且可以显示如图1B所示的用户界面11。

如图1B所示，该用户界面11中可以包括菜单栏111、开始录制控件112、预览窗113、回显控件114。

菜单栏111中可显示有多个拍摄模式或者录制模式选项，例如夜景、录像、拍照、人像等拍摄模式或者录制模式。

在启用摄像头执行录制动作时，如图1B所示，终端可首先启用录像模式，准备开始录制视频。当然，终端可以首先启用拍照、人像等其他录制模式，这时，终端可根据操作进入录像模式。

开始录制控件112可用于接收开启录制的操作。在录制视频的场景下(录像模式)，检测到针对该开始录制控件112的操作，终端可以开始录制视频。

预览窗113可用于实时地显示摄像头采集的图像。任意时刻，预览窗113中显示的一帧图像为一帧原图像。

回显控件114可用于查看前一次录制的照片或视频。一般的，回显控件114可显示前一次录制的照片的缩略图或前一次录制的视频的首帧图像的缩略图。

在录像模式下，图1B所示的用户界面11还可包括功能栏115。功能栏115中可包括多个功能控件，例如闪光灯1151、滤镜1152、设置1153、主角模式控件1154等功能控件。其中，主角模式控件1154可用于提供录制主角视频的功能。特别的，在本申请实施例提供的视频处理方法中，终端可根据操作选择和变更主角，录制并保存两路视频：分别为包括基于主角图像生成的主角视频，和包括基于摄像头采集的原图像生成原视频。

在显示图1B所示的用户界面11的过程中，终端可检测到作用于主角模式控件1154的操作(例如点击操作)，以开启主角模式录制功能。响应于上述操作，终端可执行主角模式对应的算法，进入主角模式录制场景中，显示如图1C所示的用户界面12。

如图1C所示，在进入主角模式之后，终端可对摄像头采集的图像进行图像识别，识别该图像中包括的对象(即对象识别)。上述对象包括但不限于人、动物、植物。本申请实施例后续主要以人为例进行说明。

参考图1C中预览窗113中展示的图像，某一时刻，终端的摄像头采集的图像中包括人物1、人物2、人物3。在接收到上述图像之后，终端可首先利用预设的对象识别算法识别图像中包括的对象。这里，上述对象识别算法可以为人体检测算法。可以理解的，当终端还支持识别动物、植物类型的对象。相应的，上述对象识别算法还包括针对一种或多种动物的识别算法，以及针对一种或多种植物的识别算法，本申请实施例对此不作限制。这时，经过对象识别算法的处理，终端可识别到上述图像中包括人物1、人物2、人物3这3个对象。

在接收到上述图像之后，终端可在预览窗113中显示上述图像。基于已识别到的图像中包括的对象，在显示上述图像的同时，终端还可显示与上述各个对象上对应的选择框。例如，终端可在人物1上显示对应人物1的选择框121，在人物2上显示对应人物2的选择框122，在人物3上显示对应人物3的选择框123。这时，一方面，用户可以通过上述选择框确认终端已检测的到可供用户选择的对象；另一方面，用户可以通过点击上述选择框中的任意一个，设定与之对应的对象为主角。

可选的，终端还可在预览窗113中显示提示信息125，例如“请选择主角人物，开启自动追焦录像”，用于提示用户选定主角。

在显示图1C所示的用户界面12时，终端可检测到作用于任一选择框的操作。响应于上述操作，终端可确定上述选择框对应的对象为主角。例如，参考图1D所示的用户界面13，终端可检测到作用于选择框123的操作。响应于上述操作，终端可确定选择框123对应的人物3为主角，随后，终端可以对该主角进行追踪，使得录制的主角视频中包括该主角。

随后，终端可在预览窗113中以画中画的形式显示一个小窗，并在该小窗中显示包括人物3的主角图像。上述主角图像是指在摄像头采集的原图像(预览窗中显示的图像)的基础上，裁剪出其中包括主角的部分图像得到的图像，例如以选定的主角为中心进行裁剪得到的图像。例如，参考下述图1E中示出的用户界面14。

如图1E所示，预览窗113中可包括小窗141。此时，小窗141中可显示人物3的主角图像。随着预览窗113中显示的原图像中人物3的变化，小窗141中显示的人物3的主角图像也会相应的变化。并且，在一些可能的情况下，小窗141中显示的人物3始终在小窗141的中心位置。这样，小窗141中显示的连续的以人物3为中心的主角图像即构成了人物3的主角视频。

在确定人物3为录制主角之后，人物3对应的选择框123可变成图1E中选中框142。用户可通过选中框142区分主角和非主角的对象。不限于用户界面14中所示的选中框142，终端还可显示其他样式的图标，或使用不同的颜色，本申请实施例对此不作限制。

可选的，用于展示主角图像的小窗141还可包括关闭控件143和转置控件144。关闭控件143可用于关闭小窗141。转置控件可用于调整小窗141的尺寸。

可选的，在确定主角之后，终端可首先生成宽高比9:16的用于展示主角图像的小窗(竖窗)，参考图1E中的小窗141。上述宽高比为示意性例举，竖窗的宽高比包括但不限于9:16这一类。其中，可选的，终端可固定地在屏幕的左下方(或右下方、左上方、右上方)显示上述小窗141。当检测到作用于转置控件144的操作之后，终端可将原来的竖窗变更为宽高比16:9的横向小窗(横窗)。当然，终端也可默认生成横窗，然后，根据操作将横窗调整为竖窗，本申请实施例对此不作限制。这样，用户可用过转置控件144调整主角视频的视频内容和视频格式，以满足自身个性化需求。

在一些示例中，上述小窗还可根据预览窗中的主角的位置，调整显示位置，以避免对预览窗中主角的造成遮挡。进一步的，终端还可根据操作调整小窗的位置和大小。在一些示例中，终端还可检测到作用于小窗141的长按操作和拖动操作。响应于上述操作，终端可将小窗移动到用户拖动操作最后停下的位置。

在另一些示例中，终端还可检测到作用于小窗141的双击操作，响应于上述操作，终端可将放大或缩小小窗141。不限于上述介绍的长按操作、拖动操作以及双击操作，终端还可通过手势识别和语音识别来控制调整小窗的位置和大小。例如，终端可通过摄像头采集的图像识别到用户做出了握拳手势，响应于上述握拳手势，终端可缩小小窗141。终端可通过摄像头采集的图像识别到用户做出了张手手势，响应于上述张手手势，终端可放大小窗141。

在开始录制视频之前，在确定主角之后，若选定的主角丢失(预览窗113中显示的图像中，则小窗141中显示的主角图像会定格在丢失前的最后一帧，可选的，此时终端可以显示提示信息以提示用户主角丢失，例如，该提示信息可以为：“主角丢失，丢失5秒后停止录制主角视频”。如果第一预设时间内(例如5秒)，终端在原图像中仍然无法追踪到主角，则终端会停止录制主角视频。该第一预设时间可以根据实际情况进行设置。

在预览过程中，在确定主角之后，检测到针对开始录制控件112上的操作，响应于该操作，终端可以开始录制原视频以及主角视频。在本申请实施例提供的主角模式下，终端可基于预览窗113中显示的原图像生成原视频，同时，终端还可基于小窗141中的主角图像生成主角视频。

图2A-图2E示例性示出了终端启动摄像头执行录制动作的录制界面。

如图2A所示，终端可检测到作用于开始录制控件112的操作(例如点击操作)。上述操作可称为开始录制的操作。响应于上述操作，终端可开始录制视频(原视频和主角视频)，即编码并保存摄像头采集的原图像，和以主角为中心的主角图像。

在开始录制视频之后，如图2A所示的用户界面可变更为图2B所示的样子。如图2B所示，在开始录制视频之后，终端可显示控制模组211。控制模组211中可包括暂停录制控件2111和结束录制控件2112。暂停录制控件2111可用于暂停录制视频，包括暂停录制预览窗113对应的原视频，和暂停录制小窗141对应的主角视频。结束录制控件2112可用于停止录制视频，包括停止录制原视频，和停止录制主角视频。

在开始录制视频之后，预览窗113和小窗141中均可显示时间戳。例如预览窗113左上角显示的时间戳“00:00”，小窗141左上角显示的时间戳“00:00”。初始时，预览窗113和小窗141中的时间戳是相同的。后续，根据主角在预览窗113中的出镜情况，预览窗113和小窗141中的时间戳可能会不同，这里先不展开。

可选的，在开始录制视频之后，小窗141中还可显示停止录制控件212。停止录制控件212可用于停止录制主角视频。在检测到的作用于停止录制控件212的操作之后，终端可关闭小窗141，并停止录制小窗141对应的主角视频。这时，终端不停止录制原视频此后。可选的，用户可以重新选择主角，在选定新的主角之后，终端可重新显示小窗141，并在小窗141中显示新主角的主角视频，录制新主角的主角视频。

选定人物2为主角之后，终端可以追踪该主角，在后续主角没有更换成其他主角的情况下，如果该主角仍在原图像中，则可以使得小窗141中始终显示包括该主角的主角图像。

参考图2C所示的用户界面22，在开始录制视频后的第2秒时，主角(人物3)的在原图像中的动作相比于第0秒时发生了变化，但是终端仍然可以追踪到该主角，并在小窗141中显示该主角。这里可以理解的是，不仅是主角动作变化的情况下，终端可以追踪该主角，其他情况下也可以，例如在原图像中的位置发生了变化也可以，只要主角在原图像中即可。在开始录制的过程中若选定的主角丢失(预览窗113中显示的图像中，则小窗141中显示的主角图像会定格在丢失前的最后一帧，可选的，此时终端可以显示提示信息以提示用户主角丢失，例如，该提示信息可以为：“主角丢失，丢失2秒后停止录制主角视频”。如果第二预设时间内(例如2秒)，终端在原图像中仍然无法追踪到主角，则终端会停止录制主角视频。这里的第二预设时间可以与前述涉及的第一预设时间相同，也可以不同。

在一些实例中，在开始录制视频之后，终端还可以提供切换主角的功能。终端可检测到作用于选择框122的操作。上述操作可称为切换主角的操作。响应于上述操作，终端可将选择框122对应的人物2设定为主角。此时，之前设定为主角的人物3不再为主角。后续小窗141中显示可以是人物2的主角图像。

这里假设终端录制了10秒的原视频和主角视频，在录制第10秒的视频时结束录制。例如，参考图2D中示出的用户界面23。在原视频的时间戳显示到第10秒时，终端检测到针对结束录制控件2112的操作(例如点击操作)，响应于该操作，终端可以结束录制原视频以及主角视频，并对原视频以及主角视频进行保存。

如图2E所示，用户界面24为终端结束录制视频时的一个示例性用户界面。该用户界面24中可以包括回显控件114，该回显控件114可以用于显示终端拍摄的图像的缩略图。

在一些可能的情况下，终端可以通过上述用户界面24中显示的回显控件114查看前述图2A-图2D中录制的原视频(后文中被称为原视频1)以及主角视频(后文中被称为主角视频1)。

图3A以及图3B为终端显示原视频1以及主角视频1时涉及的示例性用户界面。

在该种情况下，终端检测到针对该回显控件114的操作，响应于该操作，终端可以显示如图3A所示的用户界面30。

如图3A所示，用户界面30为终端显示最近录制的视频时涉及的一个用户界面。该用户界面30中可以包括图库应用快捷控件301，该图库应用快捷控件301可以用于触发终端打开图库应用。检测到针对该图库应用快捷控件301的操作，终端可以打开图库应用，显示更多拍摄的图像以及录制的视频。例如，可以显示图3B所示的用户界面31。

如图3B所示，用户界面31为终端展示图像以及视频时涉及的一个示例性用户界面。其中，可以显示原视频1对应的预览框311，该预览框311中可以显示原视频1中某一帧原图像(例如第一帧原图像)的部分或者全部内容；可以显示录制原视频1时获取的主角视频1对应的预览框312，该预览框312中还可以包括主角视频指示符312a，该主角视频指示符312a可以用于指示该预览框312中的视频为主角视频。其中，原视频1以及主角视频1都是终端在一次录制视频的过程中获得的，该过程也可以被称为“一录多得”。

在另一些可能的情况下，终端还可以通过前述涉及的图库应用直接打开图3B中示出的用户界面31。例如，检测到针对前述图1A中示出的图库应用图标102的操作(例如单击操作)，响应于该操作，终端即可以显示如图3B中示出的用户界面31，用户可以在用户界面31中查看原视频1、主角视频1。

在实施例1中，终端确定主角的时机除了是检测到用户针对原图像选中主角的操作之外，还可以是其他的时机。例如，在检测到针对主角模式控件的操作(例如单击操作)之后，在检测到针对开始录制控件的操作之前，在第一时间阈值内没有检测到用户针对原图像选择主角的操作时，终端可以基于原图像自动确定一个主角。此时，确定主角的方式包括：识别原图像的中心区域中在移动的对象，确定该对象为主角。其中，原图像的中心为原图像的几何中心。

这样，在实施例1中，终端录制的主角视频和原视频的起始时间可以相同。在结束时间也相同的情况下，主角视频中的每一帧主角图像都可以在原视频中找到对应的原图像。

实施例2：终端触发录制原视频以及主角视频的时机(后文中可以称为时机2)为：在预览过程中，终端首先检测到针对主角模式控件的操作，响应于该操作，终端准备开始录制主角视频(没有开始录制)。然后，如果在预览过程中没有检测到用户针对原图像确定主角的操作，那么，当终端检测到用户针对开始录像控件的操作之后，响应于该操作，可以进入录制过程，此时终端录制的只有原视频，没有主角视频。在录制原视频的过程中，终端可以检测到用户针对原图像确定主角的操作，响应于该操作，终端可以触发进行录制主角视频。

下述图4A-图4G以及图5描述了实施例2中，终端得到以及查看视频(包括原视频以及主角视频)的过程中涉及的部分示意性用户界面。

图4A-图4B示例性示出了终端启动摄像头执行拍摄动作的预览界面，图4C-图4G示例性示出了终端启动摄像头执行录制动作的录制界面。

其中，图4A以及图4B中终端没有确定主角，则在开始录制视频之前，终端不显示包括主角图像的小窗。在开始录制原视频的过程中，进行主角的确定，然后才显示包括主角图像的小窗。

如图4A所示，用户界面40中可以包括开始录制控件112、预览窗113、回显控件114。

在显示图4A所示的用户界面40的过程中，终端可检测到作用于主角模式控件1154的操作(例如点击操作)，以开启主角模式录制功能。响应于上述操作，终端可执行主角模式对应的算法，进入主角模式录制场景中，显示如图4B所示的用户界面41。

如图4B中示出的用户界面41，检测到针对开始录制控件112的操作，响应于该操作，终端可以开始录制原视频(没有开始录制主角视频)并显示如下述图4C所示的用户界面42。

如图4C所示，用户界面42中包括控制模组211。控制模组211中可以包括暂停录制控件2111和结束录制控件2112。预览框113中包括原图像(时间戳“00:01”)。从开始录制原视频到录制第1秒对应的原视频的过程中，终端始终没有确定主角，没有开始录制主角图像。此时，可以显示提示信息以通知用户确定主角，例如该提示信息可以为：“请选择主角人物，开启自动追焦录像”。

检测到针对选中框123的操作，终端可以确定人物3为录制主角，在确定人物3为录制主角之后，人物3对应的选择框123可变成图4D中选中框142。此时，终端可以开始录制主角视频。

如图4D所示，用户界面43，终端可以录制原视频以及主角视频，在预览框113中显示原图像，在小窗141中显示主角图中。此时，由于录制原视频以及主角视频的起始时间不同，预览窗113和小窗141中显示的时间戳不同。例如预览窗113左上角显示的时间戳为“00:01”，小窗141左上角显示的时间戳为“00:00”。

参考图4E所示的用户界面44，在开始录制视频后的第2秒时，主角(人物3)的在原图像中的动作相比于第1秒时发生了变化，但是终端仍然可以追踪到该主角，并在小窗141中显示该主角。此时，原视频的时间戳为：“00:02”，主角视频的时间戳为：“00:01”。

这里假设终端录制了10秒的原视频和9秒主角视频，在录制第10秒的视频时结束录制。例如，参考图4F中示出的用户界面45。在原视频的时间戳显示到第10秒时，终端检测到针对结束录制控件2112的操作(例如点击操作)，响应于该操作，终端可以结束录制原视频以及主角视频，并对原视频以及主角视频进行保存。

如图4G所示，用户界面46为终端结束录制视频时的一个示例性用户界面。该用户界面24中可以包括回显控件114，该回显控件114可以用于显示终端拍摄的图像的缩略图。

在一些可能的情况下，终端可以通过上述用户界面46中显示的回显控件114查看前述图4C-图4F中录制的原视频(后文中被称为原视频2)以及主角视频(后文中被称为主角视频2)。该过程可以参考前述对图2E以及图3A的描述，此处不再赘述。

参考图5所示，为终端展示原视频2以及主角视频2时涉及的示例性用户界面50。其中，可以显示原视频2对应的预览框511，该预览框511中可以显示原视频2中某一帧原图像(例如第一帧原图像)的部分或者全部内容；可以显示录制原视频2时获取的主角视频2对应的预览框512，该预览框512中还可以包括主角视频指示符312a，该主角视频指示符312a可以用于指示该预览框312中的视频为主角视频。可以看到，由于录制起始时间不同但是结束录制时间相同，该原视频2的录制时长为10秒，主角视频的录制时长为9秒。

应该理解的是，图4A-图4G中涉及的与前述图1A-图1E以及图2A-图2E相同形状的控件具有相同的功能，可以参考前述相关描述，这里不再对这些控件进行一一描述。

实施例1以及实施例2只是触发录制原视频以及主角视频的时机不同，再实施例1中其他的相关描述在实施例2中仍然适用，例如，焦点丢失的相关描述。

在实施例2中，终端确定主角的时机除了是检测到用户针对原图像选中主角的操作之外，还可以是其他的时机。例如，在检测到针对开始录像控件的操作(例如单击操作)之后，在第二时间阈值内没有检测到用户针对原图像选择主角的操作时，终端可以基于原图像自动确定一个主角。此时，确定主角的方式包括：识别原图像的中心区域中在移动的对象，确定该对象为主角。其中，原图像的中心为原图像的几何中心。

这样，在实施例2中，终端录制原视频以及主角视频的起始时间可以不同。终端可以在录制原视频的过程中，选择其中的部分原图像得到主角图像生成主角视频。适用于用户在录制原视频过程中，想录制主角视频的场景。例如，终端录制原视频的过程中，前5秒没有用户想录制的主角，主角在第5秒时出现了，则用户这时可以选择该主角，然后终端可以录制包括该主角的主角视频。

应该理解的是，前述实施例1以及实施例2中，在检测到针对开始录像控件的操作之后，终端除了获取图像(包括原图像以及主角图像)，还可以获取音频数据，基于图像以及音频数据生成视频。只是这里省略了对获取音频数据的描述。

图6中示出了本申请实施例中录制原视频以及主角视频的一个示例性流程图。

在录制过程中，终端是对将麦克风采集的音频数据以及摄像头采集的图像实时的进行处理之后得到原视频以及主角视频的。图6中描述的为将采集时间相同的一帧图像以及该帧图像对应的音频数据进行实时处理，得到视频的过程，其他帧图像以及其他帧视频的处理过程与此相同，可以参考相关描述。

关于该过程的详细描述可以参考下述对步骤S101-步骤S108的描述。

S101.终端通过M个麦克风采集音频信号，得到第一音频数据。

在录制原视频以及主角视频的过程中，终端可以启用部分或者全部麦克风采集音频数据，其中，终端的麦克风有S个，可以从其中选择M个进行音频信号的采集，其中M为大于等于1的整数，S为大于等于M的整数。

该第一音频数据中包括终端的M个麦克风采集的音频信号以及该音频信号的信息。该音频信号的信息可以包括时间戳，数据长度、采样率以及数据格式等。其中，时间戳表示M个麦克风采集音频信号的时间。数据长度表示该第一音频数据中包括的音频信号的长度。数据格式可以表示该第一音频数据的格式。

在一些实例中，可以将终端的M个麦克风采集的音频信号封装成一帧音频信号，基于该帧音频信号得到第一音频数据。

在另一些实例中，可以将终端的M个麦克风采集的音频信号分别封装成一帧音频信号，得到M帧音频信号，基于该M帧音频信号得到第一音频数据。

S102.终端基于待生成视频数量将该第一音频数据复制成两路第二音频数据。

步骤S102中，终端生成的是原视频以及主角视频，这里视频数量为2。

该第二音频数据中可以包括第一音频数据中的部分或者全部内容。通常来说该第二音频数据中可以包括第一音频数据中的部分内容，该部分内容可以用于生成视频，其他不可以用于生成视频的内容这里可以不进行复制。

在一些实例中，终端可以将该第一音频数据中的音频信号、以及该音频信号的时间戳、该音频信号的数据长度进行复制，得到两路相同的第二音频数据。其中一路第二音频数据中包括第一音频数据中的音频信号、以及该音频信号的时间戳、该音频信号的数据长度。

后续在步骤S103、步骤S107以及步骤S108中，终端可以基于该两路第二音频数据生成原视频以及主角视频。

S103.终端对一路第二音频数据进行第一处理，得到第一目标音频数据，且，基于主角坐标对另一路第二音频数据进行第二处理，得到第二目标音频数据。

其中，第一处理与第二处理可以是相同的处理，也可以是不同的处理。

在一些实例中，第一处理可以包括降噪、音量调整等。终端基于一路第二音频数据进行第一处理，得到第一目标音频数据。后续，在步骤S107中，终端可以将基于该第一目标音频数据生成原视频。在终端播放该原视频时，用户可以听到该路第二音频数据中的音频信号对应的声音。

第二处理可以包括比第一处理更多的处理，该更多的处理可以是基于对主角的声音处理。例如，终端可以基于主角坐标确定主角所在方向，对第二音频数据中该方向上的音频信号进行增强，其他方向上的声音信号进行抑制。

终端基于另一路第二音频数据进行第二处理，得到第二目标音频数据。该第二目标音频数据中的音频信号中，主角所在方向上的声音被增强，其他方向上的声音信号被抑制。后续，在步骤S108中，终端可以将基于该第二目标音频数据生成主角视频。在终端播放该主角视频时，用户可以听到主角的声音，其他声音很小或者听不见。

S104.终端获取原图像，基于该原图像追踪主角，获取主角追踪信息。

终端通过摄像机采集原图像，任一原图像对应一个时间戳，该时间戳表示摄像机采集该原图像的时间。

终端确定原图像中的主角，获取主角追踪信息，该主角追踪信息可以用于描述原图像中主角的信息，其中主角追踪信息中可以包括原图像中主角的人脸(face)区域、主角的人体(bady)区域、主角的中心坐标(center)以及主角对应的追焦状态(trackstatus)等信息中的至少一个。

其中，追焦状态表示主角在原图像中出现的情况。在一些示例中，该追焦状态可以包括出现在原图像中或者未出现在原图像中。

S105.终端基于主角追踪信息进行处理，得到主角坐标。

在终端确定追焦状态为出现在原图像中时，终端可以基于主角追踪信息进行处理，得到主角坐标。

在一些实例中，主角坐标可以为主角的中心坐标(center)。

在另一些实例中，主角坐标可以为基于主角的人脸(face)区域、主角的人体(bady)区域、主角的中心坐标(center)确定的一个坐标。例如，主角坐标可以为人脸坐标，此时该主角坐标可以为人脸区域的中心坐标。

在一些实例中，在追焦状态为未出现在原图像中时，可以不利用该主角追踪信息确定新的主角坐标。可以将基于上一帧原图像计算的主角坐标作为步骤S105中的主角坐标。在第三预设时间内追焦状态持续为未出现在原图像中，终端可以不再录制主角视频，对已经录制的主角视频进行保存。

在一些可能的情况下，该主角坐标可以为摄像头传感器(camerasensor)坐标系(二维坐标系)下的坐标，用于表示主角在图像中的位置。在另一些可能的情况下，还可以为图像坐标系。

S106.终端基于主角坐标，结合原图像，生成主角图像。

终端可以确定原图像中主角坐标所在的图像区域，对该原图像进行裁剪获取该图像区域中的内容，基于该图像区域中的内容生成主角图像。在一些实例中，该图像区域可以该主角坐标为中心。

一个主角图像对应一个时间戳，该时间戳与该原图像的时间戳相同。

S107.终端基于第一目标音频数据以及原图像生成原视频。

终端可以对该第一目标音频数据进行编码，对该原图像进行编码，在终端确定第一目标音频数据中包括的音频信号的时间戳与原图像的时间戳相同时，终端基于编码后的第一目标音频数据以及编码后的原图像进行混流，得到原视频。

S108.终端基于第二目标音频数据以及主角图像生成主角视频。

终端可以对该第二目标音频数据进行编码，对该主角图像进行编码，在终端确定第二目标音频数据中包括的音频信号的时间戳与主角图像的时间戳相同时，终端基于编码后的第二目标音频数据以及编码后的主角图像进行混流，得到主角视频。

前述涉及的步骤S103中需要利用主角坐标对一路第二音频数据(后文中可以称为待处理音频数据)进行处理(第二处理)，这样才能得到第二目标音频数据(后文中可以称为处理后的音频数据)，以基于该第二目标音频数据与主角图像生成主角视频。其中，确定主角坐标是终端通过原图像确定的，涉及相机算法(图像算法)中输出的相关数据。但是基于主角坐标对待处理音频数据进行处理，涉及音频算法。其中，相机算法涉及终端中关于图像处理的业务，音频算法涉及终端中关于音频处理的业务。为了便于业务的设计以及降低业务之间的耦合性，终端中各个算法之间是相互独立的，因此，相机算法与音频算法之间不能直接通信，即相机算法中的输出结果不能直接传输到音频算法中。

为了使得相机算法和音频算法之间可以进行通信，可以设置一个第三方模块，通过该第三方模块建立相机算法和音频算法之间的通信。该第三方模块可以将相机算法的输出结果传输到音频算法中，或者该第三方模块可以将该相机算法的输出结果经过计算得到计算后的结果之后，再将该计算后的结果传输到音频算法中。

例如，前述涉及的主角坐标是相机算法的输出结果，而音频算法由于不涉及图像的处理因此无法基于原图像计算得到该主角坐标，而在对待处理音频数据进行处理的过程中，却涉及到了该主角坐标。因此可以利用第三方模块将该主角坐标从相机算法传输到音频算法。

图7中示出了终端中包括相机算法以及音频算法的一个示意性软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将系统分为四层，从上至下分别为应用程序层，应用程序框架层(未示出)，硬件抽象层，以及硬件层。

其中，应用程序层可以包括一系列应用程序包。该应用程序包可以包括相机应用。除了相机应用还可以包括其他的应用，例如，图库应用等应用程序(也可以称为应用)。

该相机应用中可以包括主角模式，主角坐标获取模块。其中，主角模式用于提供终端进入模式拍摄主角视频的功能。主角坐标获取模块则是前述涉及的第三方模块，用于建立相机算法以及音频算法之间的通信，同时该主角坐标获取模块也可以具有计算能力。

硬件抽象层是位于内核层(未示出)与硬件层之间的接口层，其目的在于将硬件抽象化，为操作系统提供虚拟硬件平台。

硬件抽象层中可以包括不同硬件的抽象层。例如，相机抽象层以及音频抽象层等。该相机抽象层可以用于将传感器(摄像头中的传感器)抽象化，基于传感器采集的图像进行各种计算得到输出结果。该相机抽象层中可以包括相机算法，该相机算法中的各个模块可以基于图像进行各种计算得到输出结果。例如，其中包括的主角追踪模块可以基于采集的原图像追踪主角，获取主角追踪信息。相机抽象层中还可以包括其他的模块，例如，主角追踪处理模块，该主角追踪处理模块可以将主角追踪模块上报的主角追踪信息传输至主角坐标获取模块。

其中，该主角追踪信息中可以包括主角的信息，这些信息包括主角的人脸区域、主角的人体区域、主角的中心坐标以及主角对应的追焦状态等信息中的至少一个。其中，追焦状态用于表示主角在原图像中出现的情况。关于主角追踪信息将会在下述步骤S202中进行详细描述，此处暂不赘述。

硬件抽象层中还可以包括音频抽象层，该音频抽象层可以用于将麦克风抽象化，基于麦克风采集的音频信号进行各种计算得到输出结果。该音频抽象层中包括音频算法，该音频算法中的各个模块可以基于音频信号进行各种计算得到输出结果。例如，其中包括的音频追焦处理模块可以基于主角坐标获取模块下发的主角坐标对待处理音频数据进行处理，得到处理后的音频数据。

其中，处于不同硬件的抽象层之间的算法不能直接通信，例如，处于相机抽象层的相机算法与处于音频抽象层之间的音频算法之间不能传输数据。在本申请实施例中为了使得相机算法与音频算法之间可以通信，设置了主角坐标获取模块以建立相机算法与音频算法之间的通信。

下面，本申请实施例将结合图7具体介绍终端将相机算法与音频算法间通信的一个示例性处理流程。

步骤1，相机算法通过主角追踪模块基于传感器采集的原图像追踪主角，获取主角追踪信息。然后，将该主角追踪信息传输至主角追踪处理模块。其中，步骤1即图7中的灰色圆圈标识①。

步骤2，主角追踪处理模块将该主角追踪信息传输至主角坐标获取模块。其中，步骤2即图7中的灰色圆圈标识②。

步骤3，主角坐标获取模块基于该主角追踪信息获取主角坐标。该主角坐标为一个图像坐标，其用于指示主角在原图像中的位置。例如，其可以用主角的人脸坐标表示，该主角的人脸坐标用于指示主角的人脸中心在原图像中的位置。其中，步骤3即图7中的灰色圆圈标识③。

步骤4，主角坐标获取模块可以按照第一频率将主角坐标发送至音频算法。例如，发生至音频算法中的音频追焦处理模块。其中，步骤4即图7中的灰色圆圈标识④。

步骤5，音频算法通过音频追焦处理模块利用主角坐标对待处理音频数据进行处理，得到处理后的音频数据。

图8示出了终端中的相机算法以及音频算法间通信的另一个示例性流程图。

下面结合图7以及图8介绍终端基于相机算法确定计算主角坐标涉及的相关参数，然后将该相关参数传输至第三方模块(主角坐标获取模块，位于应用程序层)，该第三方模块基于该相关参数确定主角坐标，并将该主角坐标下发至音频算法的详细过程。

该过程可以参考下述对步骤S201-步骤S206的描述。

S201.终端进入主角模式，开始录制原视频以及主角视频。

如前述图2B以及图4A示出的用户界面，在检测到针对主角模式控件的操作(例如点击操作)时，终端确定进入主角模式。

在一些实例中，在终端确定进入主角模式之后，检测到针对开始录像控件的操作之前，如果确定了主角，则在检测到开始录像控件的操作的情况下，响应于该操作，终端可以同时开始录制原视频以及主角视频。例如前述涉及的实施1，如前图2A以及图2B所示，检测到针对开始录像控件的操作(例如点击操作)，终端可以开始录制原视频以及主角视频。

在另一些实施例中，在终端确定进入主角模式之后，检测到针对开始录像控件的操作之后，检测到确定主角的操作，响应于该确定主角的操作，终端可以开始录制原视频以及主角视频。例如前述涉及的实施2中，图4B以及图4C所示，检测到针对开始录像控件的操作(例如点击操作)，终端可以开始录制原视频以及主角视频。

S202.终端启用相机算法追踪主角，获取主角追踪信息。

主角追踪信息包括原图像中主角的人脸(face)区域、主角的人体(bady)区域、主角的中心坐标(center)以及主角对应的追焦状态(trackstatus)等信息中的至少一个。

图9示出了一个示例性主角追踪信息。

如图9所示，在识别到主角的人脸图像和主角的人体图像之后，终端可确定人脸(face)区域和人体(bady)图像的中点：人脸区域的中点为P1，人体区域的中点为P2。基于上述P1、P2，终端可确定上述人脸区域和人体区域对应的中点(center)P3为主角的中心坐标。

在一些实例中，可以利用人脸区域的左上角的坐标以及右下角的坐标表示该人脸区域，利用人体区域的左上角坐标以及右下角的坐标表示该人体区域。

在另一些实例中，可以利用人脸区域的左上角的坐标以及人脸区域的长、宽表示该人脸区域，利用人体区域的左上角坐标以及人体区域的长、宽表示该人体区域。

还可以有其他的表示方法，本申请实施例对此不作限定。

在一些实例中，参考前述图7，终端可以启用相机算法中的主角追踪模块进行追踪主角，获取主角追踪信息。

S203.相机算法将主角追踪信息上报至主角坐标获取模块。

在一些实例中，参考前述图7，相机算法中的主角追踪模块可以将该主角追踪信息上报至主角追踪处理模块，由该主角追踪处理模块将该主角追踪信息上报至主角坐标获取模块。

S204.主角坐标获取模块基于主角追踪信息进行处理，得到主角坐标。

在一些实例中，主角坐标可以为主角的中心坐标(center)，即P3。

在一些实例中，在追焦状态为未出现在原图像中时，可以不利用该主角追踪信息确定新的主角坐标。可以将上一次计算的主角坐标作为步骤S204中的主角坐标。在第三预设时间内追焦状态持续为未出现在原图像中。则终端不再执行下述步骤S205以及步骤S206。

S205.主角坐标获取模块按照第一频率将主角坐标发送至音频算法。

例如，该第一频率可以为500ms。该第一频率在实际情况中可以根据需求进行调整。

在一些示例中，参考前述图7所述，该主角坐标获取模块可以将该主角坐标下发至音频算法中的音频追焦处理模块。

S206.音频算法根据主角坐标对待处理音频数据进行处理，得到处理后的音频数据。

音频算法可以基于主角坐标确定主角所在方向，对待处理音频数据中该方向上的音频信号进行增强，其他方向上的声音信号进行抑制，得到处理后的音频数据。

在一些实例中，参考前述图7所述，音频算法中的音频追焦处理模块可以根据主角坐标对待处理音频数据进行处理。

应该理解的是，前述内容是以终端录制原视频以及主角视频为例进行说明的，实际情况中，终端在生成任何视频时(一个或者多个)，都可以使用前述涉及的方法，只要需要将相机算法计算的相关参数传输至音频算法的情况，都可以通过第三方模块进行建立相机算法以及音频算法间的通信，此处不再一一举例。

本申请实施例中，主角模式控件可以被称为第一控件，开始录像控件可以被称为第二控件，主角模式可以被称为第一模式，结束录像控件可以被称为第三控件。

在一些示例中，前述涉及的人物3可以被称为第一对象。人物3以外的其他内容可以被称为第二对象，例如人物1、人物2等。前述涉及的预览框311可以被称为第一预览窗、前述涉及的的小窗141也可以被称为第二预览窗。该第一预览窗用于显示终端的摄像头采集的原图像，第二预览窗用于显示基于原图像生成的主角图像。

下面介绍本申请实施例提供的示例性终端。

图10是本申请实施例提供的终端的结构示意图。

下面以终端为例对实施例进行具体说明。应该理解的是，终端可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

终端可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端的具体限定。在本申请另一些实施例中，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是终端的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端的结构限定。在本申请另一些实施例中，终端也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。

终端的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(lownoise amplifier，LNA)等。

调制解调处理器可以包括调制器和解调器。

无线通信模块160可以提供应用在终端上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)等无线通信的解决方案。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。

终端可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，颜色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端可以支持一种或多种视频编解码器。这样，终端可以播放或录制多种编码格式的视频，例如：动态图像专家组(movingpicture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器121可以包括一个或多个随机存取存储器(random access memory，RAM)和一个或多个非易失性存储器(non-volatile memory，NVM)。

随机存取存储器可以包括静态随机存储器(static random-access memory，SRAM)、动态随机存储器(dynamic random access memory，DRAM)等；

非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。

快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等，按照存储单元电位阶数划分可以包括单阶存储单元(single-level cell,SLC)、多阶存储单元(multi-level cell,MLC)等。

随机存取存储器可以由处理器110直接进行读写，可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令)，还可以用于存储用户及应用程序的数据等。

非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等，可以提前加载到随机存取存储器中，用于处理器110直接进行读写。

外部存储器接口120可以用于连接外部的非易失性存储器，实现扩展终端的存储能力。

终端可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。

按键190包括开机键，音量键等。按键190可以是机械按键。

本申请实施例中，该处理器110可以调用内部存储器121中存储的计算机指令，以使得终端执行本申请实施例中的视频处理方法。

下面基于图11-图14B对申请实施例中涉及的主角模式进行详细描述。

应该理解的是，图11-图14B中涉及的界面与前述实施1以及实施2中涉及的用户界面中，具有相同或相似形状的控件或者相同文字内容的控件功能相同，以及，具有相同名称的控件功能相同。

下面首先对本申请实施例中的名词定义进行说明。

主角模式可以理解为，在终端录制视频时，可额外生成一份追踪视频的模式。其中，该追踪视频中的人像可以理解为用户关注的“主角”，生成“主角”对应的视频的方式可以为：从终端常规录制的视频中裁剪出“主角”对应的视频内容。可以理解的是，终端的主角模式可提供预览模式与录制模式。预览模式下，终端的显示屏中可显示预览界面。录制模式下，终端的显示屏中可显示录制界面。

需要说明的是，终端在预览模式(录制前)和录制模式(录制过程中)显示的界面均可以被称为预览界面；预览模式(录制前)的预览界面中显示的画面不会生成视频并保存；录制模式(录制过程中)的预览界面中显示的画面可以生成视频并保存。为方便区分，下文中，将预览模式(录制前)的预览界面称为预览界面；将录制模式(录制过程中)的预览界面称为录制界面。

预览界面中可包括大窗口(前述涉及的预览框)与小窗口(前述涉及的小窗)。其中，大窗口可以是规格等于或略小于显示屏的窗口，大窗口可显示摄像头获得的图像，大窗口在预览模式下所显示的图像可定义为大窗口的预览画面。小窗口可以是规格小于大窗口的窗口，小窗口可显示用户选定的追焦对象(前述涉及的主角)的图像，终端可基于与追焦对象关联的追踪标识选中追焦对象，小窗口在预览模式下所显示的图像可定义为小窗口的预览画面。可以理解的是，预览模式下，终端可基于大窗口显示摄像头获取的图像，小窗口显示追焦对象的图像，但终端可以不生成视频，也可以不保存大窗口和小窗口显示的内容。

录制界面中可包括大窗口与小窗口。其中，大窗口可以是规格等于或略小于显示屏的窗口，大窗口可显示摄像头获得的图像，大窗口在录制模式下所显示的图像可定义为大窗口的录制画面。小窗口可以是规格小于大窗口的窗口，小窗口可显示用户选定的追焦对象(前述涉及的主角)的图像，小窗口在录制模式下所显示的图像可定义为小窗口的录制画面。可以理解的是，录制模式下，终端不仅可以显示大窗口的录制画面与小窗口的录制画面，终端还可以生成开启录制模式后录制得到大窗口对应的视频(也可以被称为原视频)和小窗口对应的视频(也可以被称为主角视频)，并可以在大窗口录制结束时对原视频进行保存，在小窗口录制结束时对主角视频进行保存。本申请实施例对预览模式与录制模式的命名不做限制。

其中，对于预览界面以及录制界面，大窗口中所显示的摄像头获得的图像也可以被称为原图像，小窗口所显示的用户选定的追焦对象的图像也可以被称为主角图像。

需要说明的是，本申请实施例中描述的预览界面可理解为终端的相机应用处于主角模式的预览模式；录制界面可理解为终端的相机应用处于主角模式的录制模式。后续不再对此赘述。

在使用主角模式进行录像时，可以有多种进入主角模式的方式。

示例性的，结合图11对本申请实施例中进入主角模式的一种方式进行详细说明。

一种可能的实现方式中，终端处于图11的a所示的主界面，当终端检测到用户开启相机应用401(相当于前述涉及的相机应用图标101)的操作时，终端可进入图11的b所示的拍照预览界面。该拍照预览界面可以包括预览画面与拍摄模式选择控件。预览画面可以实时显示终端的摄像头捕捉的场景。拍摄模式选择控件包括但不限于：“人像”控件、“拍照”控件、“录像”控件402、“专业”控件与“更多”控件403。

当终端检测到用户点击“录像”控件402的操作时，终端由拍照预览界面切换至如图11的c所示的录像预览界面；该录像预览界面中可以包括但不限于：用于接收触发进入主角模式的主角模式控件404(相当于前述涉及的主角模式控件1154)、用于接收触发进入设置的录制设置控件，用于接收触发开启滤镜效果的滤镜控件和用于设置闪光灯效果的闪光灯控件。

终端可基于录像预览界面中的主角模式控件404进入主角模式。例如，用户点击界面中的主角模式控件404，终端响应该次点击操作，进入如图11的d所示的预览界面；在预览界面中，大窗口内可以有多个拍摄对象，终端可基于大窗口的图像内容识别该多个拍摄对象，该多个拍摄对象可作为可追焦对象，终端的预览界面中可以为各个可追焦对象标记追踪框。

另一种可能的实现方式中，终端可以不通过“录像”控件进入主角模式，而是将主角模式作为一个新的模式，例如，终端可以通过“更多”控件403显示该主角模式，然后，选择该主角模式进入主角模式。进入主角模式之后的其他描述可以参考前述内容，此处不再赘述。

其中，本申请实施例结合图12对主角模式中预览模式下的场景进行详细说明，以及本申请实施例结合图13A以及图13B对主角模式中录制模式下的场景进行详细说明。

首先对预览模式的场景进行介绍。

示例性的，图12示出了主角模式的预览模式中选择追焦对象的界面示意图。

如图12所示：终端进入主角模式的预览模式，如图12的a所示，终端可以显示主角模式的预览界面。预览界面中包括多个可追焦对象，各可追焦对象可以对应标记有各自的追踪框(例如，男性人物对应的追踪框311，女性人物对应的追踪框312)。其中，追踪框相当于前述涉及的选择框，被选中的追踪框相当于前述涉及的选中框。

终端可根据用户对追踪框的操作(例如点击操作)来确定用户选中的追焦对象。示例性的，用户希望在终端的小窗口中预览男性人物的追焦画面，可点击与男性人物对应的追踪框311，终端响应该次点击操作，进入如图12的b所示的界面。

如图12的b所示的界面，终端选中男性人物为追焦对象时，预览界面的大窗口中悬浮出现小窗口，小窗口呈现大窗口中追焦对象所在位置对应的画面，其中，小窗口中，追焦对象可以为小窗口的居中位置，体现追焦对象的“主角”地位。可选的，在追焦对象的追踪框被触发后，追焦对象对应的追踪框颜色可以改变，例如变浅、变深或变为其他颜色，追踪框的形状也可发生改变，例如男性人物的追踪框311为虚框，女性人物的追踪框312为虚框与“+”的组合。本申请实施例中追焦对象与其他对象的追踪框样式可表现为颜色不同、大小不同及形状不同等任一组合，以便于用户区分大窗口中的追焦对象与其他对象。可选的，在追焦对象的追踪框被触发后，追焦对象对应的追踪框可以消失，这样，可以使得用户不会重复选择已选中的追焦对象。

可以理解的是，在主角模式的预览模式中，用户在选择追焦对象后可自主更改追焦对象，如图12的b所示界面，终端接收到用户点击女性人物的追踪框312的操作时，进入如图12的c所示界面。此时，小窗口中的追焦对象由男性人物切换至女性人物。人物的追踪框状态改变，例如女性人物的追踪框312颜色及形状发生改变，男性人物的追踪框311恢复为未选中时的样式，其中追踪框样式的改变可以参照图12的b所示界面中相关的描述，在此不再赘述。

可选的，终端在预览模式下切换追焦对象，小窗口的预览画面中显示的对象由原追焦对象变为新的追焦对象。为使切换过程中画面会更加流畅，本申请实施例还提供了一种切换追焦对象的动态特效。示例性的，下面以男性人物为原追焦对象，女性人物为新的追焦对象为例，对动态特效的设计进行说明。

一种可能的实现中，预览界面的大窗口中包括男性人物与女性人物，小窗口中显示的追焦对象为男性人物。当终端检测到针对女性人物的追踪框的点击操作时，小窗口的预览画面可由男性人物的追焦显示切换为全景显示，再由全景显示切换为女性人物的追焦显示。例如，小窗口原本居中显示男性人物，在用户点击女性人物的追踪框后，小窗口的预览画面与大窗口的预览画面的裁剪比例增加，小窗口的预览画面可包括大窗口的预览画面中更多的内容，可表现为小窗口中的男性人物及所处背景等逐渐缩小，直至小窗口中可同时显示女性人物与男性人物的全景。随后小窗口针对全景中的女性人物进行居中及放大显示。可选的，全景可以是等比例缩小的大窗口的预览画面，也可以是在大窗口的预览画面中针对男性人物与女性人物共有区域进行裁剪的图像。

另一种可能的实现中，预览界面的大窗口中包括男性人物与女性人物，小窗口中显示的追焦对象为男性人物。当终端检测到针对女性人物的追踪框的点击操作时，小窗口的预览画面中追焦点逐渐由男性人物运镜至女性人物。例如，小窗口原本居中显示男性人物，在用户点击女性人物的追踪框后，小窗口的预览画面与大窗口的预览画面的裁剪比例不变，但小窗口的预览画面将按原裁剪比例向靠近女性人物的方向进行裁剪。示例性的，女性人物居于男性人物左侧，终端在切换追焦对象的过程中，小窗口中男性人物及所处背景向右平移，直至女性角色居中显示在小窗口中。

这样，终端在切换追焦对象的过程中，小窗口中原追焦对象切换为新的追焦对象的画面更加流畅，提升了用户的录像体验。

以上实施例对主角模式的预览模式进行了说明，下面将结合附图对主角模式的录制模式进行描述。在主角模式的录制模式时，终端可启动小窗口录制针对追焦对象的视频，并保存该视频。

下面结合图13A与图13B对主角模式中录制模式下的场景进行详细说明。

一种主角模式的录制模式的场景中，大窗口与小窗口的视频可同时开始录制。图13A的a界面中，大窗口的预览画面中包括追焦对象(例如男性人物)，小窗口显示追焦对象的预览画面。当终端检测到针对大窗口中开始录制控件303(相当于前述涉及的开始录制控件112)的点击操作时，终端进入如图13A的b所示界面。终端同时启动大窗口的录制与小窗口的录制，小窗口可实时针对大窗口中的追焦对象进行显示。图13A的b界面中，小窗口显示录制画面以及录制时间。又例如，小窗口中还显示录制模式的结束小窗口录制控件315(相当于前述涉及的停止录制控件212)，大窗口中开始录制控件303转换为录制模式下的暂停录制控件313(相当于前述涉及的暂停录制控件2111)与结束录制控件314(相当于前述涉及的结束录制控件2112)。大窗口与小窗口可分别显示各自的录制时间，其中大窗口与小窗口的录制时间可保持一致。为美化录制界面以及减少对追焦对象的遮挡，本申请实施例中录制时间的显示位置可以如图13A的b所示，录制时间也可设置在不影响录制的其他位置。

可选的，一些实施例中，终端在由预览模式进入录制模式时，第一横竖屏切换控件、第二横竖屏切换控件、变焦控件及小窗口关闭控件可消失，如图13A的b图。一些实施例也可保留这些控件，本申请实施例对此不做限制。

应该理解的是，图13A中示出的场景中，终端触发录制原视频以及主角视频的时机为：在进入主角模式中的录制模式之前，终端首先检测到针对主角模式控件的操作，响应于该操作，终端准备开始录制主角视频(没有开始录制)。然后，检测到用户针对原图像确定主角的操作，那么，当终端检测到用户针对开始录制控件的操作之后，响应于该操作，可以进入录制过程，可以同时录制原视频以及主角视频。

又一种主角模式的录制模式的场景中，大窗口与小窗口的视频可先后进行录制。图13B的a界面中，大窗口的预览画面中包括追焦对象，终端未选中追焦对象导致小窗口未开启。终端响应于用户针对开始录制控件303的点击操作，终端启动大窗口的录制并进入如图13B的b所示界面。图13B的b界面中，大窗口显示录制画面及录制时间，终端未开启小窗口。在大窗口的录制过程中，终端检测到用户选定追踪框311的点击操作时，终端显示图13B的c所示界面。图13B的c界面中，终端保持大窗口的录制以及启动小窗口的录制。

终端可以基于以上场景开启小窗口的视频录制，并得到多路视频。需要说明的是，小窗口可显示大窗口中有关追焦对象的画面，但小窗口录制的视频与大窗口录制的视频为多个独立的视频，并不是一个大窗口录制画面中嵌套小窗口的画中画形式的合成视频。

需要说明的是，若终端未开启小窗口的录制，则终端可得到大窗口录制的一路视频。若终端开启小窗口的录制，则终端可得到大窗口录制的一路视频与小窗口录制的多路视频。例如，在大窗口录制视频期间，终端可多次开启小窗口录制，其中，终端在检测到针对结束小窗口录制控件的点击操作时，可结束小窗口的录制，得到一路视频。当小窗口再次开启录制后，终端可得到一路新的视频。小窗口得到的视频数量可与小窗口开启录制的次数相关。

应该理解的是，终端触发录制原视频以及主角视频的时机为：在进入主角模式的录制模式之前，终端首先检测到针对主角模式控件的操作，响应于该操作，终端准备开始录制主角视频(没有开始录制)。然后，在进入主角模式的录制模式之前，没有检测到用户针对原图像确定主角的操作，那么，当终端检测到用户针对开始录制控件的操作之后，响应于该操作，可以进入主角模式的录制模式，此时终端录制的只有原视频，没有主角视频。在录制原视频的过程中，终端可以检测到用户针对原图像确定主角的操作，响应于该操作，终端可以触发进行录制主角视频。

应该理解的是，终端确定主角的时机除了是检测到用户针对原图像选中主角的操作之外，还可以是其他的时机。例如，在检测到针对主角模式控件的操作(例如单击操作)之后，在检测到针对开始录制控件的操作之前，在第一时间阈值内没有检测到用户针对原图像选择主角的操作时，终端可以基于原图像自动确定一个主角。此时，确定主角的方式包括：识别原图像的中心区域中在移动的对象，确定该对象为主角。其中，原图像的中心为原图像的几何中心。

用户在没有使用主角模式的需求时，可选择退出主角模式，恢复常规的录像模式。

下面结合图14A对本申请实施例提供的退出主角模式的场景进行说明。

如图14A所示：示例性的，当终端接收到针对图14A的a界面中结束录制控件314的点击操作时，终端可同时结束大窗口的录制与小窗口的录制。并且，进入图14A的b界面。终端结束录制时，可同时保存大窗口录制的视频(原视频)与小窗口录制的视频(原视频)。终端可将两个视频保存在同一路径，也可以保存在不同路径。例如，大窗口的视频与小窗口的视频可保存至相册的文件夹下，也可将大窗口的视频保存到常规路径，小窗口的视频保存到相册中主角模式的文件夹下。本申请实施例对两个视频的保存路径不做限制。

图14A的b界面中，大窗口与小窗口已结束录制并恢复到预览模式。当接收到针对退出主角模式控件307的点击操作时，终端进入如图14A的c所示界面。终端恢复常规的录像模式。当然，终端也可在图14A的a界面中检测到对结束录制控件314的点击操作后，直接退出主角模式，并显示图14A的c所示界面。或者，用户也可以通过手势等方法触发终端退出主角模式，本申请实施例对此不作任何限制。

进入主角模式之后，在结束录制时，终端可以获取至少一路视频并对其进行保存和查看。

下面结合图14B对主角模式下录制的视频进行保存和查看的过程进行描述。

可选的，用户可基于相机应用的相册浏览大窗口录制的视频与小窗口录制的多路视频，多路视频的显示顺序可以为视频的录制顺序，即终端可根据录制视频的结束时间点或开始时间点进行排序。多路视频的显示顺序还可以为视频的录制倒序，即终端可根据录制视频的结束时间或开始时间进行倒序排列。

可选的，大窗口录制的视频与小窗口录制的视频可显示在同一相册界面的视频缩略图中。为便于区分大窗口录制的视频与小窗口录制的视频，终端可为小窗口录制的视频设置标识。例如，终端可为小窗口录制的视频添加外边框、字体及图形等，终端还可设置小窗口录制的视频缩略图大小，使得小窗口与大窗口所录制的视频缩略图存在大小差异。可以理解的是，本申请实施例对相册中视频缩略图的形式不做限制。

示例性的，一种视频缩略图的排列顺序可如图14B所示。用户可基于图14B的a所示界面浏览录制得到的视频，当终端检测到针对视频图标1601的点击操作时，终端进入图14B的b所示界面。图14B的b界面可显示当前已录制的视频缩略图，其中，视频1602、视频1603可以为单次使用主角模式进行录像得到的多路视频。下面结合具体的录制场景对视频顺序进行说明。

例如，终端基于主角模式进行录制，录制界面中包括大窗口与小窗口，大窗口中显示男性人物和女性人物，小窗口中显示男性人物。当终端检测到针对开始录制控件的点击操作时，终端的大窗口中录制包括男性人物和女性人物的视频1602，小窗口中录制追焦男性人物的视频1603。40s后，终端检测到结束录制控件的点击操作，终端结束录制视频1602与视频1603，并保存视频1602与视频1603。

上述录制场景中，终端单次使用主角模式进行录像，得到了两路视频。

在一些实例中，终端可根据多路视频先后结束的时间进行保存，而先保存的视频排列在图14B的b界面中靠后的位置。

可以理解的是，本申请实施例示例性的对视频缩略图的排列顺序及视频的保存顺序进行了说明，本申请实施例对此不做限制。

可以理解的是，大窗口录制的视频(原视频)可包括图像与声音，小窗口录制的视频(主角视频)也可包括图像与声音。例如，终端在从大窗口的图像上裁剪出小窗口的录制画面，从而获取小窗口视频时，终端还可将声音同步到小窗口的视频中。

应该理解的是，在主角模式的预览模式下，为提升用户的录制体验，终端可以提供其他的功能，包括但不限于以下功能。

在一些实施例中，终端可能在追焦模式中出现追焦对象丢失(相当于前述涉及的焦点丢失)的情况，即在追焦模式中，确定追焦之后，开始可以识别到追焦对象，然后出现识别不到追焦对象的情况。此时，小窗口中的预览画面可以为追焦对象丢失前所显示的最后一帧预览画面，且小窗口呈蒙层状态。在追焦对象丢失之后，如果重新检测到追焦对象，可以继续对该追焦对象进行追踪，小窗口取消蒙层状态，可以显示包括追焦对象的预览图像。在追焦对象丢失时间达到一定阈值(例如5s)之后，可以关闭小窗口，若此时处于追焦模式的录制模式，可以在关闭小窗口之后对小窗口中的视频(追焦视频)进行保存。

在另一些实施例中，小窗口的规格可自定义调节，用户可将小窗口规格调整到适当大小，用户可以更加清晰的查看追焦对象的小窗口预览画面。还可以对小窗口在界面中的显示位置进行调整。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种视频处理方法，其特征在于，应用于终端，所述终端包括摄像头，所述方法包括：

所述终端启动相机应用；

显示预览界面，所述预览界面包括第一预览窗口、第一控件以及第二控件；所述第一预览窗口用于显示所述摄像头采集的图像；

检测到针对所述第一控件的第一操作，响应于所述第一操作，所述相机应用进入第一模式；

所述第一预览窗口显示第一图像时，检测到针对第一对象的操作；所述第一图像包括至少一个对象，所述至少一个对象包括第一对象；

响应于所述针对第一对象的操作；显示第二预览窗口，所述第二预览窗口中显示第二图像；所述第二图像是基于所述第一图像生成的，所述第二图像中包括所述第一对象；所述第二预览窗口的尺寸小于所述第一预览窗口；

检测到针对所述第二控件的第二操作，响应于所述第二操作，显示录制界面；所述录制界面包括第三控件；

在所述第一预览窗口显示第三图像以及在所述第二预览窗口显示第四图像；所述第三图像是所述摄像头在第一时刻采集的；所述第四图像是基于所述第三图像生成的，所述第四图像中包括所述第一对象，所述第四图像中显示的内容少于所述第三图像中的内容；

获取第一音频数据；所述第一音频数据中包括第一音频信号以及所述第一音频信号的信息；所述第一音频信号的信息中包括时间戳，所述时间戳用于指示所述第一音频信号为所述第一时刻采集的；

检测到针对所述第三控件的第三操作，响应于所述第三操作，停止视频录制，保存有基于所述第一预览窗口显示的图像录制的第一视频以及基于所述第二预览窗口显示的图像录制的第二视频，其中，

所述第一视频中包括第三图像以及第一目标音频数据；所述第二视频中包括所述第四图像以及第二目标音频数据；所述第一目标音频数据是基于所述第一音频数据得到的；所述第二目标音频数据是基于主角坐标以及所述第一音频数据得到；所述主角坐标为与所述第一对象相关的坐标。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述终端基于所述第三图像获取主角追踪信息，所述主角追踪信息用于描述所述第三图像中所述第一对象的信息；

所述终端基于所述主角追踪信息确定主角坐标。

3.根据权利要求2所述的方法，其特征在于，

所述主角追踪信息包括所述第三图像中，所述第一对象的人脸区域、人体区域、中心坐标以及追焦状态；其中，所述追焦状态用于确定所述第一对象是否包括在所述第三图像中。

4.根据权利要求3所述的方法，其特征在于，所述终端基于所述主角追踪信息确定主角坐标，具体包括：

所述终端确定所述人脸区域的中心坐标为所述主角坐标。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

所述终端将所述第一音频数据复制成两路相同的第二音频数据；

基于所述两路第二音频数据中的一路第二音频数据得到所述第一目标音频数据；

基于所述两路第二音频数据中的另一路第二音频数据以及所述主角坐标得到所述第二目标音频数据。

6.根据权利要求2-5中任一项所述的方法，其特征在于，所述终端包括相机算法、音频算法以及第三方模块，基于所述两路第二音频数据中的另一路第二音频数据以及所述主角坐标得到所述第二目标音频数据，具体包括：

所述终端通过所述相机算法基于所述第三图像获取主角追踪信息，且将所述主角追踪信息发送至所述第三方模块；

通过所述第三方模块基于所述主角追踪信息确定主角坐标；

通过所述第三方模块将所述主角坐标发送至所述音频算法；

通过所述音频算法基于所述两路第二音频数据中的另一路第二音频数据以及所述主角坐标得到所述第二目标音频数据。

7.根据权利要求6所述的方法，其特征在于，

所述相机算法以及所述音频算法设置于硬件抽象层；

所述第三方模块设置于应用程序层。

8.根据权利要求6或7中所述方法，其特征在于，通过所述第三方模块将所述主角坐标发送至所述音频算法，具体包括：

通过所述第三方模块按照第一频率将所述主角坐标发送至所述音频算法。

9.根据权利要求5-8中任一项所述的方法，其特征在于，基于所述两路第二音频数据中的另一路第二音频数据以及所述主角坐标得到所述第二目标音频数据，具体包括：

所述终端基于所述主角坐标确定所述第一对象所在的方向；

对所述另一路第二音频数据中所述方向上的音频信号进行增强，得到所述第二目标音频数据。

10.一种电子设备，其特征在于，包括一个或多个处理器和一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得执行如权利要求1-9中任一项所述的方法。

11.一种芯片系统，所述芯片系统应用于终端，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述终端执行如权利要求1-9中任一项所述的方法。

12.一种包含指令的计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如权利要求1-9中任一项所述的方法。

13.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得执行如权利要求1-9任一项所述的方法。