CN116055869B

CN116055869B - 一种视频处理方法和终端

Info

Publication number: CN116055869B
Application number: CN202210603631.7A
Authority: CN
Inventors: 刘镇亿; 玄建永; 曹国智
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2023-10-20
Anticipated expiration: 2042-05-30
Also published as: CN116055869A; EP4383743A1; WO2023231686A1; WO2023231686A9

Abstract

一种视频处理方法和终端。在该方法中，终端在录制视频的过程中，终端可以通过摄像机拍摄(采集)图像(后文中该通过摄像机拍摄的图像称为原图像)，基于该原图像确定拍摄的焦点。然后，终端可以对该焦点所在的第一图像区域中显示的被拍摄对象实现图像追焦，同时对该焦点所在的第二图像区域中显示的被拍摄对象实现音频追焦。通过图像追焦以及音频追焦得到追焦视频。

Description

一种视频处理方法和终端

技术领域

本申请涉及终端及通信技术领域，尤其涉及一种视频处理方法和终端。

背景技术

随着终端的发展，终端的功能越来越多。例如，在录制视频时具有图像变焦和音频变焦的功能。其中，图像变焦是指在终端录制视频的过程中可以通过改变变焦倍率而使得获取的图像中的被拍摄对象的大小改变，具体可以表现在：即使被拍摄对象相对于终端的位置没有改变，如果变焦倍率变大，在视频中，终端显示该被拍摄对象时，该被拍摄对象变大，会给用户一种该被拍摄对象距离终端相对更近的感觉；如果变焦倍率变小，在视频中，终端显示该拍摄对象时，该被拍摄对象变小，会给用户一种该被拍摄对象相对终端更远的感觉。音频变焦是指在终端录制视频的过程中可以通过改变变焦倍率而使得获取的图像中的被拍摄对象的声音大小改变，具体可以表现在：变焦倍率变大，在视频中，终端显示的被拍摄者变大时，会给用户一种该被拍摄者相对终端更近的感觉，则此时，该终端显示的被拍摄者的声音也对应性变大；变焦倍率变小，在视频中，终端显示的被拍摄者变小时，会给用户一种该被拍摄者相对终端更远的感觉，则此时，该被拍摄者的声音也可以对应性变小。这样，图像和对应的音频都可以实现变焦，可以带来音频和图像同时变焦的效果，增强用户感官体验。

但是，终端要实现音频和图像同时变焦需要调整变焦倍率，通常是用户通过操作变焦倍率控件使得终端对变焦倍率进行调整。且在被拍摄对象相对于终端的位置改变的情况下，在对被拍摄对象进行图像变焦和音频变焦时要实现较好的效果，得到高质量的视频，对用户的拍摄技术要求较高。

所以，终端如何在录制视频时进一步提高视频质量以增强用户感官体验，是研究的方向。

发明内容

本申请提供了一种视频处理方法及终端，使得终端录制的视频中，可以实现音频和图像同时追焦的效果。

第一方面，本申请提供了一种视频处理方法，应用于终端，所述终端包括摄像头，所述方法包括：所述终端启动相机；显示预览界面，所述预览界面包括预览框和第一控件；在所述预览框显示所述摄像头采集的第一图像，所述第一图像的第一区域包括第一对象；检测到针对所述第一控件的第一操作；响应于所述第一操作，开始录制，显示录制界面，所述录制界面包括所述预览框和第二控件；所述预览框显示第二图像，所述第二图像包括第一区域和第二区域，所述第一区域包括第一拍摄对象；基于对所述第一区域的第三操作，确定第一区域为焦点区域；显示第一窗口，所述第一窗口显示包括所述第一拍摄对象的第三图像；在第一时刻，预览框显示第四图像，所述第一窗口显示第五图像和获取第一输入音频，所述第四图像和所述第五图像都包括所述第一拍摄对象，所述第一输入音频包括所述第四图像的第一区域对应的声音以及所述第四图像的第二区域对应的声音；检测到对所述第二控件的第四操作，响应于所述第四操作，停止录制，保存第一视频和第二视频，所述第一视频为对应所述预览框的视频，所述第二视频为对应所述第一窗口的视频，其中，所述第二视频的所述第一时刻处包括所述第五图像和第一音频，所述第一音频对所述第一输入音频进行处理后得到的音频，所述第一音频包括对所述第四图像的所述第一区域对应的声音进行增强处理的声音以及所述第四图像的所述第二区域进行抑制处理后的声音。

上述实施例中，如果确定了焦点区域，在录制视频的过程中，终端可以通过摄像机采集的图像(原图像)得到追焦图像，并且对焦点所在的被拍摄对象(目标对象)实现图像追焦和音频追焦。对目标对象实现图像追焦是指，生成的第一视频(追焦视频)的图像包括该目标对象。实现音频追焦是指，生成的第一视频中该目标对象的声音被增强。在播放该第一视频时，用户可以看到关于该目标对象的图像，以及清晰的听见该目标对象的声音，其他声音被抑制，听不见或者听起来很小声。这样，在拍摄视频的过程中，可以针对目标对象拍摄关于该目标对象的特写视频，且在录制视频的过程中，用户始终可以通过终端预览到原图像以及该原图像对应的追焦图像，其实现方式可以参考说明书的描述，是以“画中画”的形式展现的，这样可以提升用户体验感。在一次录制过程中，在生成第一视频(追焦视频)的同时，还可以生成原视频，原视频可以看做是按照现有的拍摄方式得到的视频。这样，可以实现一录多得。

结合第一方面，所述第一窗口中还包括第三控件，所述方法还包括：在没有检测到所述第二操作的情况下，若检测到针对第三控件的操作，响应于针对第三控件的操作，保存有所述第二视频。

上述实施例中，除了可以通过结束录像控件停止录制一个追焦视频以外，通过该追焦暂停控件也可以实现停止录制一个追焦视频。实现了再录制原视频的过程中，可以随时停止一个追焦视频的录制。

结合第一方面，所述预览界面还包括第四控件，检测到针对所述第一控件的第一操作之前，所述方法还包括：在检测到针对第四控件的操作的情况下，响应于所述针对第四控件的操作，更改所述第四控件的显示状态；或者，在检测到针对第四控件的操作的情况下，响应于所述针对第四控件的操作，显示所述第五控件；所述第五控件用于提示所述终端可以录制所述第一视频，所述第五控件还用于检测控制所述终端不开启录制所述第一视频的操作。

上述实施例中，在追焦控件的形式发生变化的情况下，用户可以确定此时终端进入了可以录制追焦视频的模式(即说明书中涉及的特殊的录像模式)。

结合第一方面，所述第四控件还包括于所述录制界面，在没有检测到所述第四操作的情况下，显示第一图像之后，显示所述第一图像以及第二图像之前，所述方法还包括：检测到针对所述第四控件的操作；响应于针对所述第四控件的操作，更改所述第四控件的显示状态。

上述实施例中，在开始录制视频之前，如果没有启动录制追焦视频的模式，在开始录制视频之后，仍然可以通过追焦控件启动录制追焦视频。使得终端触发拍摄追焦视频的方式多元化，提升用户体验。

结合第一方面，基于对所述第一区域的第三操作，确定第一区域为焦点区域，具体包括：检测到针对第一图像中第一区域的第六操作；所述第六操作作用于所述第一区域中第一位置；响应于所述第六操作，将所述第一位置处的像素点设置为焦点，确定焦点所在的第一区域为焦点区域。

上述实施例中，用户可以通过点击原图像中的某一个位置(第一位置)以确定焦点，例如，如果用户想对第一对象进行追焦，则点击该第一对象即可。

结合第一方面，所述终端基于所述焦点区域对第一输入音频进行处理得到第一目标音频以及第一噪声集合；所述第一噪声集合中包括T路噪声，所述T为大于等于1的整数；所述第一目标音频中包括目标声音，所述目标声音为所述焦点所在的区域对应的声音，还包括部分噪声；基于所述第一目标音频以及所述第一噪声集合进行滤波，滤除所述第一目标音频中的噪声，得到第二目标音频；在基于所述输入音频做信号分离，得到第三目标音频的情况下；基于所述第二目标音频以及第三目标音频进行混音，得到第四目标音频；所述第三目标音频中包括所述目标声音；在基于所述输入音频做信号分离，没有得到第三目标音频的情况下；将所述第二目标音频作为第四目音频；基于所述第四目标音频得到第一音频。

上述实施例中，在该过程中，终端可以使得追焦视频中的第一对象的声音被增强，其他声音被抑制，利用信号分离算法做信号分离得到的N路候选目标音频信号中可以存在包括目标声音但是不包括噪声或者噪声被抑制(噪声很小)的M路候选目标音频信号，该M路候选音频信号可以与处理后的目标音频信号进行混音得到混音后的目标音频信号，该混音后的目标音频信号中仍然包括目标声音不包括噪声或者噪声被抑制(噪声很小)。

结合第一方面，所述终端基于所述焦点区域对第一输入音频进行处理得到第一目标音频以及第一噪声集合，具体包括：所述终端基于所述焦点所在的区域确定目标声音方向以及该目标声音方向对应的T个噪声方向；所述目标声音方向为所述目标声音对应的方向，所述噪声方向为噪声对应的方向；获取所述目标声音方向对应的滤波器系数以及每一个噪声方向对应的滤波器系数；基于所述目标声音方向对应的滤波器系数结合所述输入音频得到所述第一目标音频，以及分别基于T个噪声方向对应的滤波器系数结合所述输入音频得到T路噪声，将所述T路噪声作为第一噪声集合。

结合第一方面，基于所述第一目标音频以及所述第一噪声集合进行滤波，滤除所述第一目标音频中的噪声，得到第二目标音频，具体包括：所述终端将所述第一目标音频作为参考对所述第一噪声集合进行滤波，滤除所述第一噪声集合中包括部分目标声音，得到第二噪声集合；将所述第二噪声集合作为参考对所述第一目标音频进行滤波，滤除所述第一目标音频中包括的噪声，得到所述第二目标音频。

上述实施例中，这样可以使得第一目标音频中的噪声被滤除，得到的第二目标音频中包括的尽可能是第一用户的声音。

结合第一方面，基于所述第一目标音频以及所述第一噪声集合进行滤波，滤除所述第一目标音频中的噪声，得到第二目标音频，具体包括：所述终端将所述第一目标音频作为参考对所述第一噪声集合进行滤波，滤除所述第一噪声集合中包括的目标声音，得到第二噪声集合；将所述第二噪声集合作为参考对所述第一目标音频进行滤波，滤除所述第一目标音频中包括的噪声，得到滤波后的第一目标音频；所述终端基于滤波后的第一噪声集合对所述滤波后的第一目标音频再一次进行滤波，滤除所述滤波后的第一目标音频中包括的噪声，得到第二目标音频；其中，所述滤波后的第一噪声集合中包括至少一路滤波后的噪声，其中包括滤波后的第一路噪声，所述滤波后的第一路噪声为结合所述第一目标音频对第一路噪声进行滤波，滤除其中包括的目标声音后得到的，所述第一路噪声为所述第一噪声集合中的一路噪声。

上述实施例中，这样可以使得第一目标音频中的噪声被滤除，得到的第二目标音频中包括的尽可能是第一用户的声音。进行两次滤波且两次滤波的方式不同，可以从不同的维度使得第二目标音频中包括的尽可能是第一用户的声音，使得计算结果更加准确。

结合第一方面，在基于所述输入音频做信号分离，得到第三目标音频的情况下，具体包括：所述终端对所述输入音频进行信号分离，得到N路候选音频；所述N为所述终端的麦克风数量；分别确定不同候选音频与所述第二目标音频的相关性，确定相关性大于相关性阈值的M路候选音频，所述M为小于等于N且大于0的整数；在所述M大于等于2的情况下，将所述M路候选音频混音得到所述第三目标音频；在所述M等于1的情况下，将所述M路候选音频作为第三目标音频。

上述实施例中，终端在得到处理后的目标音频信号的过程中可能存在误差，例如将噪声作为目标声音、或者将目标声音作为噪声滤除了，则可以利用该M路候选目标音频信号与处理后的目标音频信号进行混音，以修正这些误差导致的结果。

结合第一方面，基于所述第二目标音频以及第三目标音频进行混音，得到第四目标音频，具体包括：所述终端确定所述第二目标音频以及第三目标音频的相关性；基于所述第二目标音频以及第三目标音频的相关性确定混音比例；基于所述混音比例对所述第二目标音频以及第三目标音频进行混音，得到所述第四目标音频。

上述实施例中，确定相关性，是为了保证第二目标音频与第三目标音频都为目标对象所在方向的音频，可以提升最终得到的追焦视频中音频的准确性。使得该音频中的声音听起来为目标对象所在方向的音频的概率更高。

结合第一方面，基于所述第四目标音频得到第一音频，具体包括：将所述第四目标音频作为第一音频。

结合第一方面，基于所述第四目标音频得到第一音频，具体包括：将所述第四目标音频进行增强，得到增强后的第四目标音频，将所述增强后的第四目标音频作为第一音频。

上述实施例中，这里还会对追焦视频中的音频进行增强，因为追焦视频中的图像在播放时相比于录制时，可以表现为被拍摄对象距离终端更近了，因此可以增强追焦视频中的音频以适应图像的变化。

结合第一方面，所述第一目标音频中包括第一帧目标音频，所述第一帧目标音频为所述第一目标音频中的第k帧目标音频，所述第一噪声集合中包括第一帧噪声集合，所述第一帧噪声集合中的每一帧噪声分别为第一噪声集合中不同的一路噪声中的第k帧噪声，所述第一帧噪声集合包括所述第一噪声集合中每路噪声中的第k帧噪声；其特征在于，所述终端将所述第一目标音频作为参考对所述第一噪声集合进行滤波，滤除所述第一噪声集合中包括的目标声音，包括：所述终端获取第一滤波器；在所述第一帧目标音频中包括目标声音的情况下，对所述第一滤波器进行更新，将更新后的第一滤波器作为第一滤波器；将所述第一帧目标音频作为参考，通过所述第一滤波器分别滤除所述第一帧噪声集合中每一帧噪声中包括的目标声音；将所述第二噪声集合作为参考对所述第一目标音频进行滤波，滤除所述第一目标音频中包括的噪声，包括：所述终端获取第二滤波器；在所述第一帧目标音频中不包括目标声音的情况下，对所述第二滤波器进行更新，将更新后的第二滤波器作为第二滤波器；将所述第一帧噪声集合作为参考，通过所述第二滤波器滤除所述第一帧目标音频中的噪声。

上述实施例中，终端利用待处理目标音频信号作为参考，滤除该待处理噪声信号集合中包括的目标声音，得到参考噪声信号集合的目的在于：使得该参考噪声信号集合中的目标声音被滤除，可以理解为目标声音减小或者不再包括目标声音只包括噪声。这样，在以参考噪声信号集合为参考对待处理目标音频信号进行滤波，滤除其中包括的噪声时，可以减少以下错误发生的概率：把待处理目标音频信号中的目标声音识别成为噪声除去，导致待处理目标音频信号中不仅噪声被滤除了，目标声音也被滤除了。因为这里参考噪声信号集合中的目标声音已经被滤除了，可以理解为目标声音减少或者不包括目标声音只包括噪声，则以该参考噪声信号集合作为参考去滤除待处理目标音频信号中的噪声时，可以减少该待处理目标音频信号中的目标声音也被滤除的概率，提升滤波的准确性。

结合第一方面，所述目标声音方向对应的滤波器系数以及每一个噪声方向对应的滤波器系数是预先设置在所述终端中的；其中，所述目标声音方向对应的滤波器系数中，所述目标声音方向的声音对应的系数为1，表示不对所述输入音频中目标声音方向的声音进行抑制；越接近所述目标声音方向的声音对应的系数越接近1，抑制程度依次减小；所述噪声方向对应的滤波器系数中包括第一噪声方向对应的滤波器系数，所述第一噪声方向为所述目标声音方向对应的T个噪声方向中的一个噪声方向；所述第一噪声方向对应的滤波器系数中，所述第一噪声方向的声音对应的系数为1，表示不对所述输入音频中第一噪声方向的声音进行抑制；越接近所述第一噪声方向的声音对应的系数越接近1，抑制程度依次减小。

结合第一方面，保存有第一视频之后，所述方法还包括：

所述终端显示第一界面，所述第一界面中包括第一展示框，所述第一展示框中包括所述第一视频中某一帧图像中的部分或者全部内容，还包括第一指示符，所述第一指示符用于指示所述第一视频为追焦视频。

结合第一方面，所述第一视频的所述第一时刻处包括所述第四图像和所述第一输入音频。

第二方面，本申请提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执行：

上述实施例中，如果确定了焦点，在录制视频的过程中，终端可以通过摄像机采集的图像(原图像)得到追焦图像，并且对焦点所在的被拍摄对象(目标对象)实现图像追焦和音频追焦。对目标对象实现图像追焦是指，生成的第一视频(追焦视频)的图像包括该目标对象。实现音频追焦是指，生成的第一视频中该目标对象的声音被增强。在播放该第一视频时，用户可以看到关于该目标对象的图像，以及清晰的听见该目标对象的声音，其他声音被抑制，听不见或者听起来很小声。这样，在拍摄视频的过程中，可以针对目标对象拍摄关于该目标对象的特写视频，且在录制视频的过程中，用户始终可以通过终端预览到原图像以及该原图像对应的追焦图像，其实现方式可以参考说明书的描述，是以“画中画”的形式展现的，这样可以提升用户体验感。在一次录制过程中，在生成第一视频(追焦视频)的同时，还可以生成原视频，原视频可以看做是按照现有的拍摄方式得到的视频。这样，可以实现一录多得。

第三方面，本申请提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第四方面，本申请提供了一种芯片系统，该芯片系统应用于电子设备，该芯片系统包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第六方面，本申请提供了一种计算机可读存储介质，包括指令，其特征在于，当该指令在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

附图说明

图1A-图1D示出了终端实现图像变焦以及音频变焦时的一组示例性用户界面；

图2示出了一种情况下焦点与第一图像区域一个示意图；

图3示出了原图像的中间区域、偏右的区域以及偏左的区域涉及的一个示意图；

图4示出了一种情况下第二图像区域与目标声音方向相对应的一个示意图；

图5A-图5M为实施例1中终端预览其录制视频时的一组示例性用户界面；

图6A以及图6B为终端完成视频录制时的示例性用户界面；

图6C以及图6D为对方式二进行描述的示意图；

图7示出了实时处理每一帧图像及其对应的输入音频信号集合得到原视频以及追焦视频的一个示意图；

图8中示出了本申请实施例中进行图像追焦以及音频追焦的一个示例性流程图；

图9示出了原图像的中间区域、偏右的区域以及偏左的区域涉及的另一个示意图；

图10A-图10C示出了生成待处理目标音频信号涉及的波束形成技术的一个示意图；

图11示出了目标声音方向以及目标声音方向对应的噪声方向的示意图；

图12为生成待处理噪声信号1以及待处理噪声信号2涉及的波束形成技术的一个示意图；

图13示出了终端生成待处理目标音频信号以及其对应的待处理噪声信号集合的示例性流程图；

图14为终端生成该目标声音方向对应的滤波器的一个示例性流程图；

图15示出了终端得到处理后的目标音频信号的一个示例性流程图；

图16示出了终端生成滤波后的第一帧目标音频信号的示例性流程图；

图17示出了终端生成滤波后的第一帧噪声信号的示例性流程图；

图18示出了终端生成滤波后的第二帧噪声信号的示例性流程图；

图19A-图19E为实施例2中终端预览其录制视频时的一组示例性用户界面；

图20A-图20D为实施例3中终端预览其录制视频时的一组示例性用户界面；

图21A-图21E为实施例3中终端预览其录制视频时的一组示例性用户界面；

图22A-图22H为实施例5中终端获取追焦视频时的一组示例性用户界面；

图23中示出了本申请实施例中进行图像追焦以及音频追焦的另一个示例性流程图；

图24A以及图24B为场景2中涉及的示例性用户界面；

图25A-图25C为场景3中涉及的示例性用户界面；

图26是本申请实施例提供的终端的结构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在一种方案中，在录制视频时，终端可以基于变大变焦倍率实现图像变焦以及音频变焦，从而在录制的视频中实现图像中突出被拍摄对象并且使得音频中该被拍摄对象的声音变大。

图1A-图1D示出了终端实现图像变焦以及音频变焦时的一组示例性用户界面。

图1A以及图1B描述了终端拍摄视频的部分过程。图1C以及图1D则描述了终端播放该视频的部分过程。其中，该视频中可以体现图像变焦以及音频变焦。

图1A-图1D中，终端利用后置摄像头录制视频。此时，被拍摄对象可以包括被拍摄对象101(小女孩)、被拍摄对象102(小男孩A，图1A中更靠近小女孩的小男孩)、被拍摄对象103(男子)、被拍摄对象104(小男孩B，图1A中更靠近男子的小男孩)以及被拍摄对象105(小狗)等。

如图1A所示，用户界面10为终端录制视频时涉及的一个录制界面。此时，终端获取的是视频中第1秒对应的图像以及第1秒对应的音频信号。该用户界面10中可以包括变焦倍率控件111、变焦倍率增加控件112以及变焦倍率减小控件113。其中，变焦倍率控件111用于接收改变变焦倍率的指令以及提示用户终端当前的变焦倍率是多少，例如，1.0表示变焦倍率为1倍变焦倍率，5.0表示变焦倍率为5倍变焦倍率。其中，5倍变焦倍率大于1倍变焦倍率。此时，从变焦倍率控件111中可以看出：在录制视频的过程中，第1秒对应的图像是采取1倍变焦倍率拍摄的，该图像中包括被拍摄对象101-被拍摄对象105。响应于用户向上滑动变焦倍率控件111的操作，终端可以增大录制视频时的变焦倍率，例如将变焦倍率从1倍变焦倍率增大为5倍变焦倍率。当变焦倍率为5倍变焦倍率，终端可以显示如图1B所示的用户界面11。

如图1B所示，用户界面11为终端录制视频时涉及的另一个录制界面。此时，终端获取的是视频中第2秒对应的图像以及第2秒对应的音频信号。此时，全部被拍摄对象相对于终端的位置没有发生变化。但是，由于变焦倍率从1倍变焦倍率变大到了5倍变焦倍率，则终端可以进行图像变焦：相比于图1A中终端在1倍变焦倍率下拍摄的图像，可以看到，用户界面11显示的图像中只包括了被拍摄对象101(小女孩)以及被拍摄对象102(小男孩A)且该被拍摄对象101以及该被拍摄对象102在图像中变大，呈现出一种相对终端更近的感觉。在变焦倍率增大之后，终端还可以进行音频变焦，例如，对第2秒对应的音频信号进行音频变焦，可以使得视频中该第2秒对应的图像以及第2秒对应的音频信号都可以实现变焦。

应该理解的是，图1A以及图1B示出的是部分拍摄视频的过程，此时，终端拍摄了一个时长为2秒的视频。然后，终端可以对该视频进行播放，播放的视频中图像和对应的音频信号都可以实现变焦，可以带来音频信号和图像同时变焦的效果，增强用户感官体验。播放过程可以参考下述描述。

图1C以及图1D中，图标106表示终端播放的视频中被拍摄对象101(小女孩)以及被拍摄对象102(小男孩A)的声音。图标106越多表示终端播放的视频中被拍摄对象101(小女孩)以及被拍摄对象102(小男孩A)的声音越大。

如图1C以及图1D所示，用户界面12以及用户界面13为终端分别播放前述图1A以及图1B拍摄的视频时所涉及的播放界面。其中，用户界面12为1倍变焦倍率下拍摄的图像，用户界面13为5倍变焦倍率下拍摄的图像。可以看到，虽然被拍摄对象101(小女孩)以及被拍摄对象102(小男孩A)相对于终端的位置没有改变，但是播放的视频中，被拍摄对象101(小女孩)以及被拍摄对象102(小男孩A)可以呈现一种距离终端更近的感觉且被拍摄对象101(小女孩)以及被拍摄对象102(小男孩A)的声音也对应性变大。

但是，终端要实现音频和图像同时变焦需要调整变焦倍率，通常是用户通过操作变焦倍率控件使得终端对变焦倍率进行调整。可以理解的是，在被拍摄对象相对于终端的位置改变的情况下，对被拍摄对象进行图像变焦和音频变焦以实现突出被拍摄对象的图像以及对应的声音得到高质量的视频，对用户的拍摄技术要求较高。

本申请实施例提供了一种视频处理方法，在录制视频的过程中，终端可以通过摄像机拍摄(采集)图像(后文中该通过摄像机拍摄的图像称为原图像)，基于该原图像确定拍摄的焦点。然后，终端可以对该焦点所在的第一图像区域中显示的被拍摄对象实现图像追焦，同时对该焦点所在的第二图像区域中显示的被拍摄对象实现音频追焦。其中，原图像也可以被理解为终端按照常规的处理流程录制视频时所获取的图像。终端使用该方法得到的视频中可以实现图像追焦以及音频追焦，该实现了图像追焦以及音频追焦的视频在下文中可以被称为追焦视频。其中，焦点所在的第一图像区域可以与焦点所在的第二图像区域相同或者不同。该第一图像区域以及第二图像区域中的内容少于原图像中的内容。终端进行图像追焦以及音频追焦生成追焦视频的过程可以参考下述对图5A-图5M的描述，此处暂不赘述。

下面对图像追焦和音频追焦进行相关描述。

图像追焦为：终端基于焦点生成一帧追焦图像，该追焦图像中显示的内容为一帧原图像中焦点所在的第一图像区域中显示的内容(后文中可以称该帧原图像与该帧追焦图像对应)。下一帧原图像中该焦点所在的位置发生变化时，终端生成的下一帧追焦图像中显示的内容仍然包括该下一帧原图像中焦点所在的第一图像区域中显示的内容。即，对于终端拍摄的第i帧原图像，终端可以通过该第i帧原图像确定焦点，然后基于该焦点确定第i帧原图像中该焦点所在的第一图像区域。再基于第i帧原图像中第一图像区域中的内容生成一帧追焦图像(第i帧原图像对应的追焦图像)，该帧追焦图像中包括第i帧原图像中第一图像区域中的内容。对于第i帧原图像之后拍摄的一帧原图像(记为第j帧原图像)，终端可以继续确定第j帧原图像中该焦点所在的第一图像区域，基于该第j帧原图像中第一图像区域中的内容再生成一帧追焦图像(第j帧原图像对应的追焦图像)，该帧追焦图像中包括第j帧原图像中第一图像区域中的内容。其中，第j帧原图像为第i帧原图像之后拍摄的任一帧焦点不变的原图像，焦点不变为在拍摄第j帧原图像时终端没有重新确定焦点。应该理解的是，第i帧原图像与第j帧原图像中焦点的位置可以改变但是该焦点指示的内容不变。然后，终端可以基于多帧原图像生成原视频，且，基于多帧追焦图像生成追焦视频，该追焦视频中的任一帧追焦图像中都包括焦点所在的第一图像区域中显示的内容。该追焦视频中每一帧追焦图像对应的音频信号可以通过音频追焦获取，关于音频追焦的详细描述可以参考下述内容，此处暂不赘述。

其中，终端基于焦点确定原图像中该焦点所在的第一图像区域的方式为：终端确定焦点在原图像中的位置之后，以该焦点所在的位置为参考确定第一图像区域，该第一图像区域中包括该焦点，该焦点与该第一图像区域的四条边的距离可以相同也可以不同。其中，该第一图像区域为原图像中的一部分。

其中，焦点可以理解为相机应用进入追焦模式之后，用户在原图像中选中的聚焦点(例如后文涉及的焦点B)，或者终端根据预设规则(例如现有技术中的语义分析后所得的，或者根据图像画面中对象所占的面积比例等等)确定的聚焦点或者对焦点。

图2示出了一种情况下焦点与第一图像区域一个示意图。

如图2所示，该焦点可以为原图像中的焦点A。终端可以基于该焦点A为中心确定第一图像区域。例如，该第一图像区域可以为区域201，该第一图像区域中包括第一边，第二边、第三边以及第四边，为上述第一边，第二边、第三边以及第四边所围成的图像区域。该焦点A距离第一边与第二边的距离相等，且该焦点A距离第三边与第四边的距离相等。例如，该焦点距离第一边的距离为S1，距离第二边的距离为S2。

在一些可能的情况下，该第一图像区域的大小可以随着终端拍摄原图像时使用的焦距而改变。例如，焦距越大，则第一图像区域变大，焦距变小，第一图像区域变小。

音频追焦为：终端基于一帧原图像以及焦点生成一帧追焦图像时，也可以生成该帧追焦图像对应的音频信号，该音频信号中包括一帧原图像中该焦点所在的第二图像区域中显示的被拍摄对象的声音，该帧追焦图像对应的音频信号中其他被拍摄对象的声音被滤除，在滤除完成时可以理解为不包括其他被拍摄对象的声音。下一帧原图像中该焦点的位置发生变化的情况下，下一帧追焦图像对应的音频信号中仍然包括该下一帧原图像中该焦点所在的第二图像区域中显示的被拍摄对象的声音，该下一帧追焦图像对应的音频信号中其他被拍摄对象的声音被滤除，在滤除完成时可以理解为不包括其他被拍摄对象的声音。其中，其他被拍摄对象是指原图像中除第二图像区域以外的其他区域中包括的被拍摄对象，该其他被拍摄对象不包括在第二图像区域中。

可选的，以图3场景进行举例，我们要追焦焦点A时，当焦点A从区域302移动到区域301，再移动到区域303，拍摄时所采集的是实时声音，保存为视频中的音频可以为经过处理的音频，可以实现音频追焦的效果，当焦点A在区域302时，对区域301和303的声音进行抑制，对区域302的声音进行增强；当焦点A移动到区域301时，对区域302和303的声音进行抑制，对区域301的声音进行增强；当焦点A移动到区域303时，对区域301和302的声音进行抑制，对区域303的声音进行增强。

其中，抑制包括滤除声音能量和减小声音能量，或者相对降低声音能量比例(如抑制声音能量不变但其他声音能量增强，呈现一种抑制效果)；增强包括增大声音能量或者相对增大声音能量比例(如增大声音能量而其他声音能量保持不变，呈现一种增强的效果)。

基于前述内容可知，终端进行图像追焦可以生成多帧追焦图像，进行音频追焦可以生成多帧追焦图像对应的音频信号。在一些可能的情况下，终端可以基于多帧追焦图像以及该多帧追焦图像对应的音频信号生成追焦视频，该追焦视频中任一帧追焦图像对应的音频信号中都可以包括焦点所在的第二图像区域中显示的被拍摄对象的声音，其他被拍摄对象的声音被滤除，在滤除完成时可以理解为不包括其他被拍摄对象的声音。且，终端还可以基于多帧原图像以及该多帧原图像对应的音频信号生成原视频，该原视频中任一帧原图像对应的音频信号中都可以包括原图像中显示的被拍摄对象的声音。其中，原视频可以理解为按照常规的处理流程录制的视频。

其中，任一帧追焦图像对应的音频信号中包括的声音可以被称为目标声音。产生该目标声音的被拍摄对象所在的方向被称为目标声音方向，该目标声音方向用于指示发出目标声音的被拍摄对象相对于终端的前方是偏左的方向、偏右的方向还是处于中间方向。该目标声音方向与第二图像区域对应：如果第二图像区域为原图像的中间区域，则目标声音方向来自于终端前方的中间方向；如果第二图像区域为原图像中偏右的区域，则目标声音方向相对于终端前方是偏右的方向；如果第二图像区域为原图像中偏左的区域，则目标声音方向相对于终端前方是偏左的方向。

应该理解的是，本申请中提及的偏左、偏右或者中间只是一种相对位置关系，不是绝对的定义。例如，如果偏左是相对于终端正前方顺时针方向的一侧，则偏右就是相对于终端正前方的逆时针方向的一侧；如果偏左是相对于终端正前方逆时针方向的一侧，则偏右就是相对于终端正前方的顺时针方向的一侧。

下面介绍原图像的中间区域、偏右的区域、偏左的区域以及第二图像区域与目标声音方向相对应。

图3示出了原图像的中间区域、偏右的区域以及偏左的区域涉及的一个示意图。

如图3所述，终端可以将该原图像划分为三个区域，分别包括区域301、区域302以及区域303。其中，区域301为原图像的中间区域，区域302为原图像中偏右的区域以及区域303为原图像中偏左的区域。焦点A处于区域302(偏右的区域)中，则此时该区域302为原图像中焦点所在的第二图像区域。

基于前述内容可以知道，如果焦点在原图像的中间区域，则第二图像区域为原图像的中间区域；如果焦点在原图像中偏右的区域，则第二图像区域为原图像中偏右的区域；如果焦点在原图像中偏左的区域，则第二图像区域也为原图像中偏左的区域。

图4示出了一种情况下第二图像区域与目标声音方向相对应的一个示意图。

结合图4中的(a)示出的终端的正视图(包括前置摄像头)以及图4中的(b)所示的终端的俯视图。参考图4中的(c)可知，后置摄像头所面向的方向作为终端的前方，即终端的前方为90°方向顺时针到270°方向的范围，终端的前方为终端的拍摄区域。终端的后方为终端的非拍摄区域，即图中90°方向逆时针到270°方向的范围。

终端的正前方为图中的0°方向；终端正前方逆时针方向10°为图中的10°方向；终端正前方逆时针方向45°为图中的45°方向；终端正前方逆时针方向90°为图中的90°方向；终端正前方顺时针方向10°为图中的350°方向，终端正前方顺时针方向45°为图中的315°方向，终端正前方顺时针方向90°为图中的270°方向。终端前方的中间方向可以为终端前方中间的拍摄区域(图中10°方向顺时针到350°方向的范围内)内的任一方向，例如终端的正前方，即0°方向。终端前方偏左的方向可以为终端前方偏左的拍摄区域(图中10°方向逆时针到图中90°方向的范围内)内的任一方向，例如图中的45°方向。终端前方偏右的方向可以为终端前方偏右的拍摄区域(图中350°方向顺时针到图中270°方向的范围内)内的任一方向，例如图中的315°方向。其中，拍摄区域中的拍摄对象可以被终端的摄像头拍摄到原画面中。

第二图像区域与目标声音方向相对应为：如果第二图像区域为原图像的中间区域(图中的区域301)，则第二图像区域中显示的被拍摄对象为终端前方中间的拍摄区域(图中10°方向顺时针到350°方向的范围内)内的被拍摄对象，则目标声音方向可以表示为终端前方的中间方向；如果第二图像区域为原图像中偏右的区域(图中的区域302)，则第二图像区域中显示的被拍摄对象为终端前方偏右的拍摄区域(图中350°方向顺时针到图中270°方向的范围内)内的被拍摄对象，则目标声音方向可以表示为终端前方偏右的方向；如果第二图像区域为原图像中偏左的区域(图中的区域303)，则第二图像区域中显示的被拍摄对象为终端前方偏左的拍摄区域(图中10°方向逆时针到图中90°方向的范围内)内的被拍摄对象，则目标声音方向可以表示为终端前方偏左的方向。

基于前述描述可知，第二图像区域对应一个拍摄区域，该对应关系表现在：第二图像区域为原图像的中间区域时，该第二图像区域对应终端前方中间的拍摄区域，此时该第二图像区域中显示的被拍摄对象为终端前方中间的拍摄区域中的被拍摄对象；第二图像区域为原图像中偏左的区域时，该第二图像区域对应终端前方偏左的拍摄区域，此时该第二图像区域中显示的被拍摄对象为终端前方偏左的拍摄区域中的被拍摄对象；第二图像区域为原图像中偏右的区域时，该第二图像区域对应终端前方偏右的拍摄区域，此时该第二图像区域中显示的被拍摄对象为终端前方偏右的拍摄区域中的被拍摄对象。

可以理解的是，前述涉及的10°、350°、45°、0°以及315°等度量值仅为示例，可以根据需要调节为其他角度，本申请对此不进行限定。

下面介绍本申请涉及的多个实施例。

终端可以在不同的情况下触发图像追焦以及音频追焦，包括但不限于以下两种情况：

情况1：终端可以在预览过程或者录制原视频的过程中触发图像追焦以及音频追焦，在视频录制结束时生成原视频以及追焦视频。其中，原视频为按照常规的处理流程录制的视频；追焦视频为按照本申请涉及的视频处理方法进行音频追焦以及图像追焦之后得到的视频。关于该情况1的详细描述具体可以参考下述对实施例1-实施例4的详细描述。其中，情况1中终端获取追焦视频的过程可以参考下述对步骤S101-步骤S111的描述。

情况2：终端可以在原视频录制完成之后触发图像追焦以及音频追焦生成追焦视频。关于该情况2的详细描述具体可以参考下述对实施例5的描述，此处暂不赘述。其中，情况2中终端获取追焦视频的过程可以参考下述对步骤S801-步骤S811的描述。

其中，不同的实施例中，终端具体触发执行图像追焦以及音频追焦的时机不同。本申请实施例对其中的几种优选的触发时机进行描述，具体可以参考下述对各实施例的相关描述。

实施例1：终端触发执行图像追焦以及音频追焦的时机(后文中可以称为时机1)为：在预览过程中，终端首先检测到针对追焦控件的操作。然后终端检测到用户针对开始录像控件的操作以及检测到用户针对原图像确定焦点的操作之后，即可以触发进行图像追焦以及音频追焦。其中，追焦控件为用于使得终端可以进行图像追焦以及音频追焦的控件；开始录像控件是终端为用户提供的用于开始录制原视频以及追焦视频的控件。

其中，终端检测到用户针对开始录像控件的操作以及检测到用户针对原图像确定焦点的操作的顺序对触发终端进行图像追焦以及音频追焦没有影响。在一些可能的情况下，终端可以先检测到用户针对开始录像控件的操作，响应于该操作，终端开始录制视频，在录制视频的过程中，终端检测到用户针对原图像确定焦点的操作之后，响应于该操作，终端基于该焦点进行图像追焦以及音频追焦。在另一些可能的情况下，终端还可以先检测到用户针对原图像确定焦点的操作，响应于该操作，终端确定焦点，然后检测到用户针对开始录像控件的操作之后，响应于该操作，终端开始录制视频并进行图像追焦以及音频追焦。

下面以终端可以先检测到用户针对开始录像控件的操作，再检测到用户针对原图像确定焦点的操作之后触发终端进行图像追焦以及音频追焦为例进行描述。

其中，实施例1涉及的示例性用户界面可以参考下述对图5A-图5M的描述。

图5B-图5M中，终端利用后置摄像头录制视频。此时，被拍摄对象可以包括被拍摄对象101(小女孩)、被拍摄对象102(小男孩A)、被拍摄对象103(男子)、被拍摄对象104(小男孩B)以及被拍摄对象105(小狗)等。其中，图5B以及图5C为终端预览过程中涉及的一组示例性用户界面，预览过程中终端还没有开始录制视频。图5D-图5L为终端录制视频的过程中涉及的一组示例性用户界面，此时终端除了录制原视频以外，还可以利用本申请涉及的视频处理方法录制追焦视频。图5M为终端录制完成时涉及的一个示例性用户界面。

如图5A所示，终端可以显示用户界面50，该用户界面50为终端的一个桌面。该用户界面50中显示有相机应用图标501以及图库应用图标502。终端可以检测到用户作用于相机应用图标501上的操作(例如单击操作)，响应于该操作，终端启动相机且可以显示如图5B所示的用户界面51。

如图5B所示，用户界面51为终端开始录制视频之前涉及的一个示例性预览界面，该用户界面51中可以包括“录像模式”控件512以及追焦控件521等控件。其中，“录像模式”控件512可以用于触发终端进入录像模式，录像模式下终端可以录制视频。

该用户界面51中还包括追焦控件521，该追焦控件521可以使得终端从普通的录像模式转换到特殊的录像模式，该特殊的录像模式即为终端可以录制两个视频，其中一个为原视频，另一个为追焦视频。在一些实例中，该特殊的录像模式可以被称为：“追焦模式”，或者，“主角模式”等，在该特殊的录像模式下，终端可以录制追焦视频。

检测到针对该追焦控件521的操作(例如点击操作)，响应于该操作，终端可以通过第一方式通知用户终端进入了特殊的录像模式。该第一方式为：终端可以显示“追焦模式”控件。例如，响应于针对该追焦控件521的操作(例如点击操作)，终端可以显示下述图5C所示的用户界面52。

应该理解的是，除了前述涉及的第一方式以外，终端还可以通过第二方式通知用户终端进入了特殊的录像模式(追焦模式)。在该第二方式中，终端可以通过改变追焦控件521的显示状态以用户终端进入了特殊的录像模式。对该方式二的描述可以参考下述对图6C以及图6D的描述，此处暂不赘述。

如图5C所示，用户界面52为终端进入特殊的录像模式(追焦模式)之后的一个示例性预览界面。该用户界面52中包括“追焦模式”控件513，该“追焦模式”控件513可以用于提示用户终端进入了追焦模式。

该用户界面52中还可以包括开始录像控件540，终端检测到针对开始录像控件540的操作，响应于该操作，终端开始录制原视频，显示如下述图5D中示出的用户界面53。

如图5D所示，该用户界面53中可以包括录制时长提示552，图5D中终端录制的是第0s的视频。此时，终端可以获取原图像530。

在一些可能的情况下，终端在用户界面53中可以显示多个识别框，如图5D所示，用户界面53中可以包括识别框530-识别框533。其中，识别框530-识别框533中可以包括用户最有可能确定焦点的内容，例如，该内容可以为被拍摄对象的人脸。

在另一些可能的情况下，终端在用户界面53中可以不显示识别框。

在终端进入追焦模式的情况下，终端检测到用户针对原图像530确定焦点(图中焦点B)的操作之后，响应于该操作，终端可以在原图像530中确定包括该焦点B的第一图像区域530a，基于该第一图像区域530a中的内容生成原图像530对应的追焦图像。然后，终端可以显示该追焦图像，呈现如图5E中示出的用户界面54。

如图5E所示，用户界面54为终端录制视频时的一个录制界面。此时，该用户界面54中可以包括录制时长提示552，图5E中终端录制的是第1s的视频。该用户界面54中可以包括原图像530以及该原图像530对应的追焦图像，即图中的追焦图像530。

应该理解的是，图5E中追焦图像530的显示区域大小不是固定的，是可以根据需要进行调整的。例如，在一些示例中，追焦图像530包括的第一图像区域中内容可以比原图像530包括的第一图像区域中的内容更大，这样可以让用户更容易看清追焦图像中的内容。这里只是以追焦图像530为例进行说明，该说明对本申请中的其他追焦图像以及其对应的原图像同样适用。

此时，终端可以开始图像追焦以及音频追焦。终端可以基于焦点确定该焦点所在的第二图像区域(原图像530中的区域541)，此时，焦点(图中焦点B)在原图像530中偏右的区域，则第二图像区域(区域541)也为原图像530中偏右的区域。追焦图像530对应的音频信号中包括区域541中显示的被拍摄对象的声音。

在一些示例中，在显示追焦图像530的区域中，还可以包括追焦暂停控件522以及录像状态切换控件523。其中，追焦暂停控件522用于触发终端停止图像追焦以及音频追焦，将录制的追焦视频进行保存。但是，此时，终端没有退出追焦模式，再次确定焦点之后，终端可以继续图像追焦以及音频追焦，开始录制新的追焦视频。其中，关于该追焦暂停控件522的描述还可以参考下述对图5K的描述，此处暂不赘述。录像状态切换控件523用于触发终端改变录制追焦视频时追焦图像的显示状态，该显示状态包括竖直状态以及水平状态。其中竖直状态下追焦图像的长边(如前述图2中的第三边或者第四边)处于竖直状态，例如追焦图像530即处于竖直状态，其中水平状态下追焦图像的长边(如前述图2中的第三边或者第四边)处于水平状态。

后续用户界面中显示追焦图像的区域中，都可以包括该追焦暂停控件522以及录像状态切换控件523。其中，追焦暂停控件522可以为用户提供控制终端停止录制追焦视频且保存追焦视频的功能。录像状态切换控件523可以触发终端改变录制追焦视频时追焦图像的显示状态。

应该理解的是，用户确定焦点的过程也就是用户确定追焦对象的过程，此处用户确定的焦点(图中焦点B)在被拍摄对象101(小女孩)处，可以理解为用户确定追焦对象为被拍摄对象101(小女孩)。通常情况下，后续内容中焦点(图中焦点B)的移动方向与被拍摄对象101(小女孩)相同。图中示出的被拍摄对象101(小女孩)的移动即可以理解为焦点的移动，为了便于观察，后续示意图中可以不再显示焦点(焦点B)，焦点(焦点B)的移动以被拍摄对象101(小女孩)的移动为参考即可。

后续终端进行图像追焦以及音频追焦的过程可以参考下述对图5F-图5M的描述。图5F-图5M为终端录制视频(原视频以及追焦视频)的过程中涉及的一组示例性用户界面，此时终端除了录制原视频以外，还可以利用本申请涉及的视频处理方法录制追焦视频。图5F-图5M中以终端录制了12s的原视频以及11s(录制到第11s时检测到针对追焦暂停控件522的操作，结束录制追焦视频)的追焦视频为例进行讲解。在录制追焦视频的11s里，以焦点从原图像中偏右的区域移动到原图像的中间区域，再移动到原图像中偏左的区域为例进行说明。应该理解的是，这里涉及的焦点的移动即为图中追焦对象(例如被拍摄对象101)的移动，通常情况下，原图像中被拍摄对象101所在的区域(例如偏左的区域、偏右的区域以及中间区域中的一个)即为焦点所在区域。为了便于观察与理解，下述内容中以描述被拍摄对象101(小女孩)的移动代表焦点的移动，焦点(焦点B)在示意图中可以不再显示。但是特殊的情况下，被拍摄对象(例如被拍摄对象101)同时属于原图像中的两个区域(例如偏左的区域、偏右的区域以及中间区域中的两个区域)时，不能以被拍摄对象所在的区域表示焦点所在的区域，则不能以被拍摄对象所在的区域作为第二图像区域。此时，则需要进一步描述焦点所在的区域，将该焦点所在的区域作为第二图像区域。

如图5F所示，用户界面55为终端录制视频时的一个录制界面，该用户界面55中可以包括录制时长提示552，图5F中终端录制的是第2s的视频(第1s视频的录制过程可此处不再赘述)。用户界面55中包括原图像550以及该原图像550对应的追焦图像，即图中的追焦图像550。追焦图像550中可以包括被拍摄对象101(小女孩)以及被拍摄对象102(小男孩A)。

如图5F所示，被拍摄对象101(小女孩)在原图像550中偏右的区域，则表示焦点(图中未示出)在原图像550中偏右的区域，则第二图像区域也为原图像550中偏右的区域，即图中的区域551。此时，追焦图像550对应的音频信号中包括区域551中显示的被拍摄对象的声音，其中包括被拍摄对象101(小女孩)、被拍摄对象102(小男孩A)以及被拍摄对象105(小狗)。

基于前述对图5F的相关描述可知：追焦图像550中包括追焦对象，即被拍摄对象101(小女孩)，且，该追焦图像550对应的音频信号中也包括该追焦对象的声音。

该用户界面55中还可以包括抓拍控件553、暂停录像控件554以及结束录像控件555。其中，抓拍控件553用于终端在录制视频的过程中拍摄图像，并将该图像进行保存以图片的形式供用户查看，该图像可以包括原图像以及追焦图像中的至少一个。例如，在终端检测到针对该抓拍控件553的操作(例如点击操作)之后，终端可以对原图像550进行拍摄，然后将该原图像550进行保存以图片的形式供用户查看，其中保存后的原图像550可以参考下述对图6B的描述，此处暂不赘述。该暂停录像控件554可以用于触发终端暂停录制原视频，当终端检测到针对该暂停录像控件554的操作(例如单击操作)，响应于该操作，终端可以暂停录制原视频。此时，该用户界面中显示该暂停录像控件554的区域可以显示重启录像控件(图中未示出)，该重启录像控件可以用于终端重新开始录制原视频。该结束录像控件555用于触发终端结束录制原视频，当终端检测到针对该结束录像控件555的操作(例如单击操作)，响应于该操作，终端可以结束录制原视频。

然后，被拍摄对象101发生移动，其相对于终端的位置发生变化，终端获取的原图像中该被拍摄对象101的位置也发生变化，终端可以显示如图5G所示的用户界面56。

如图5G所示，用户界面56为终端录制视频时的一个录制界面，该用户界面56中可以包括录制时长提示552，图5G中终端录制的是第4s的视频(第3s视频的录制过程可此处不再赘述)。该用户界面56中包括原图像560以及该原图像560对应的追焦图像，即图中的追焦图像560。追焦图像560中可以包括被拍摄对象101(小女孩)以及被拍摄对象105(小狗)。

相比于前述图5F中示出的内容可知，被拍摄对象101(小女孩)的位置虽然发生了改变，但是仍然处于原图像560中偏右的区域，则第二图像区域也为原图像560中偏右的区域，即图中的区域561。此时，追焦图像560对应的音频信号中包括区域561中显示的被拍摄对象的声音，其中包括被拍摄对象101(小女孩)、被拍摄对象102(小男孩A)以及被拍摄对象105(小狗)。

基于前述对图5G的相关描述可知：虽然追焦对象，即被拍摄对象101(小女孩)相对于终端的位置发生了变化(在原图像560中的位置也发生了变化)，但是追焦图像560中仍然包括该追焦对象，即被拍摄对象101(小女孩)，且，该追焦图像560对应的音频信号中仍然也包括该追焦对象的声音。

应该理解的是，除了被拍摄对象101的位置相对于终端可以发生变化以外，其他被拍摄对象相对于终端的位置也可以发生变化，但是实施例1仅描述焦点所在的被拍摄对象(例如被拍摄对象101)的移动，其他被拍摄对象的移动可以参考图中的内容，不以文字进行说明。

然后，被拍摄对象101再次发生移动，其相对于终端的位置发生变化，终端获取的原图像中该被拍摄对象101的位置也发生变化，终端可以显示如图5H所示的用户界面57。

如图5H所示，用户界面57为终端录制视频时的一个录制界面，该用户界面57中可以包括录制时长提示552，图5H中终端录制的是第6s的视频(第5s视频的录制过程可此处不再赘述)。该用户界面57中包括原图像570以及该原图像570对应的追焦图像，即图中的追焦图像570。追焦图像570中可以包括被拍摄对象101(小女孩)。

如图5H所示，被拍摄对象101既包括在原图像570中偏右的区域也包括在原图像570的中间区域。但是，此时焦点属于原图像570中偏右的区域，则第二图像区域也为原图像570中偏右的区域，即图中的区域571。此时，追焦图像570对应的音频信号中包括区域571中显示的被拍摄对象的声音，其中包括被拍摄对象101(小女孩)、被拍摄对象102(小男孩A)以及被拍摄对象105(小狗)。

基于前述对图5H的相关描述可知：虽然追焦对象，即被拍摄对象101(小女孩)相对于终端的位置发生了变化(在原图像570中的位置也发生了变化)，但是追焦图像570中仍然包括该追焦对象，即被拍摄对象101(小女孩)，且，该追焦图像570对应的音频信号中仍然也包括该追焦对象的声音。

然后，被拍摄对象101发生移动，其相对于终端的位置发生变化，终端获取的原图像中该被拍摄对象101的位置也发生变化，终端可以显示如图5I所示的用户界面58。

如图5I所示，用户界面58为终端开始录制视频时的一个录制界面，该用户界面58中可以包括录制时长提示552，图5G中终端录制的是第8s的视频(第7s视频的录制过程可此处不再赘述)。该用户界面58中包括原图像580以及该原图像580对应的追焦图像，即图中的追焦图像580。追焦图像580中可以包括被拍摄对象101(小女孩)以及被拍摄对象104(小男孩B)。

相比于前述图5H中示出的内容可知，被拍摄对象101(小女孩)处于原图像580的中间区域，则第二图像区域也为原图像550的中间区域，即图中的区域581。此时，追焦图像580对应的音频信号中包括区域581中显示的被拍摄对象的声音，其中包括被拍摄对象101(小女孩)以及被拍摄对象104(小男孩B)。

基于前述对图5I的相关描述可知：虽然追焦对象，即被拍摄对象101(小女孩)相对于终端的位置发生了变化(在原图像580中的位置也发生了变化)，但是追焦图像580中仍然包括该追焦对象，即被拍摄对象101(小女孩)，且，该追焦图像580对应的音频信号中仍然也包括该追焦对象的声音。

然后，被拍摄对象101发生移动，其相对于终端的位置发生变化，终端获取的原图像中该被拍摄对象101的位置也发生变化，终端可以显示如图5J所示的用户界面59。

如图5J所示，用户界面59为终端开始录制视频时的一个录制界面，该用户界面59中可以包括录制时长提示552，图5J中终端录制的是第10s的视频(第9s视频的录制过程可此处不再赘述)。该用户界面59中包括原图像590以及该原图像590对应的追焦图像，即图中的追焦图像590。追焦图像590中可以包括被拍摄对象101(小女孩)以及被拍摄对象103(男子)。

相比于前述图5I中示出的内容可知，被拍摄对象101(小女孩)处于原图像590中偏左的区域，则第二图像区域也为原图像590的中间区域，即图中的区域591。此时，追焦图像590对应的音频信号中包括区域591中显示的被拍摄对象的声音，其中包括被拍摄对象101(小女孩)以及被拍摄对象103(男子)。

基于前述对图5J的相关描述可知：虽然追焦对象，即被拍摄对象101(小女孩)相对于终端的位置发生了变化(在原图像590中的位置也发生了变化)，但是追焦图像590中仍然包括该追焦对象，即被拍摄对象101(小女孩)，且，该追焦图像580对应的音频信号中仍然也包括该追焦对象的声音。

应该理解的是，终端在前述用户界面53中检测到针对原图像530确定焦点(图中焦点B)的操作之后，在后续的用户界面54-用户界面58中，终端不再检测到针对原图像确定焦点的操作(由于用户没有针对原图像再次确定焦点)，则用户界面54-用户界面58中，终端在录制视频时，都是基于焦点B确定追焦图像以及追焦图像对应的音频信号。

实际在录制视频的过程中，用户可以针对原图像改变焦点。终端检测到针对原图像再次确定焦点(新焦点)的操作之后，可以基于该新焦点确定追焦图像以及追焦图像对应的音频信号。例如，如图5J所示，终端检测到用户针对原图像590确定焦点(图中焦点C)的操作之后，响应于该操作，终端可以基于该焦点C确定第一图像区域以及第二图像区域。显示如下图5K所示的用户界面510。

如图5K所示，用户界面510为终端录制视频时的一个录制界面。此时，该用户界面510中可以包括录制时长提示552，图5K中终端录制的原视频中第11s对应的内容。同时也是追焦视频中第11s对应的内容。响应于用户确定焦点C的操作，终端可以在原图像5100中确定包括该焦点C的第一图像区域5100a，基于该第一图像区域5100a中的内容生成原图像5100对应的追焦图像。然后，终端可以显示该追焦图像，即图中的追焦图像5100，该追焦图像5100中可以包括被拍摄对象102(小男孩A)。

此时，终端基于该焦点C进行音频追焦：终端可以基于焦点C确定该焦点C所在的第二图像区域(原图像510中的区域5101)。此时，焦点(图中焦点C)在原图像5100中偏右的区域，则第二图像区域(区域5101)也为原图像5100中偏右的区域。追焦图像5100对应的音频信号中包括区域5101中显示的被拍摄对象的声音，其中包括被拍摄对象102(小男孩A)。

应该理解的是，在图5K示出的用户界面510中，追焦对象从前述被拍摄101(小女孩)更换成为了被拍摄对象102(小男孩A)。在终端没有检测到重新确定焦点的操作的情况下，后续都将基于该焦点C生成追焦图像以及追焦视频以生成追焦视频。

如图5K所示，用户可以通过追焦暂停控件522使得终端停止录制追焦视频并且保存该追焦视频。例如，检测到针对追焦暂停控件522的操作(例如单击操作)，响应于该操作，终端可以结束录制追焦视频，此时终端获取的追焦视频时长为11s。结束录制追焦视频之后，终端可以显示如下图5L所示的用户界面511。但是此时终端没有退出追焦模式，当终端再次确定焦点之后，可以开始录制新的追焦视频。

如图5L所示，用户界面511为终端结束录制追焦视频但是仍然在录制原视频时的一个示例性预览界面。该用户界面511中可以包括录制时长提示552，图5L中终端录制的是第12s的原视频。

检测到针对结束录像控件555的操作(例如单击操作)，响应于该操作，终端可以结束录制原视频。此时终端获取的追焦视频时长为12s。结束录制原视频之后，终端可以显示如图5M所示的用户界面512。

如图5M所示，用户界面512为终端结束录制视频时的一个示例性用户界面。该用户界面512中可以包括回显控件，该回显控件5120。该回显控件5120可以用于显示终端拍摄的图像的缩略图。

在一些可能的情况下，终端可以通过上述用户界面512中显示的回显控件5120查看前述图5D-图5L中录制的原视频(后文中被称为原视频1)、追焦视频(后文中被称为追焦视频1)以及拍摄的图像(后文中被称为图像1)等内容，其中，图像1可以为终端录制原视频中第2s对应的原图像时拍摄的原图像(即原图像550)，该图像1的获取过程可以参考前述对图5F的描述。

在该种情况下，终端检测到针对该回显控件5120的操作，响应于该操作，终端可以显示如图6A所示的用户界面60。

如图6A所示，用户界面60为终端显示最近录制的视频时涉及的一个用户界面。该用户界面中可以包括图库应用快捷控件601，该图库应用快捷控件601可以用于触发终端打开图库应用。检测到针对该图库应用快捷控件601的操作，终端可以打开图库应用，显示更多拍摄的图像以及录制的视频。例如，可以显示图6B所示的用户界面61。

如图6B所示，用户界面61为终端展示图像以及视频时涉及的一个示例性用户界面。其中，可以显示原视频1对应的展示框611，该展示框611中可以显示原视频1中某一帧原图像(例如第一帧原图像)的部分或者全部内容；可以显示录制原视频1时获取的追焦视频1对应的展示框612，该展示框612中还可以包括追焦视频指示符612a，该追焦视频指示符612a可以用于指示该追焦视频1为追焦视频；还可以显示展示框613，该展示框613中显示的内容为录制原视频1时获取的图像1，例如，该图像1可以为前述图5F中包括的原图像550。其中，原视频1、追焦视频1以及图像1都是终端在一次录制视频的过程中获得的，该过程也可以被称为“一录多得”。

在另一些可能的情况下，终端还可以通过前述涉及的图库应用直接打开图6B中示出的用户界面61。例如，检测到针对前述图5A中示出的图库应用图标502的操作(例如单击操作)，响应于该操作，终端即可以显示如图6B中示出的用户界面61，用户可以在用户界面61中查看原视频1、追焦视频1以及图像1。

应该理解的是，前述图5C中包括的“追焦模式”控件513还可以用于终端退出追焦模式，使得终端在录制原视频时可以不进行图像追焦以及音频追焦以录制追焦视频，此时录像模式可以看作普通的录像模式。例如，检测到针对该“追焦模式”控件513的操作(例如点击操作)，响应于该操作，终端可以退出追焦模式，再检测到针对开始录像控件540的操作时，响应于该操作，可以进入普通的录像模式，该普通的录像模式中终端可以录制原视频但是不可以录制追焦视频。

应该理解的是，在一些可能的情况下，如果在检测到针对结束录像控件555的操作(例如单击操作)时，终端除了在录制原视频以外还在录制追焦视频，则响应于该操作，终端不仅可以结束录制原视频还可以结束录制追焦视频。

基于图5F-图5K可以看出，每一帧追焦图像中都包括追焦对象，即被拍摄对象101(小女孩)，且，每一帧追焦图像对应的音频信号中都包括该追焦对象，因此还可以说终端实现了对追焦对象进行图像追焦以及音频追焦。

实施例1中，终端检测到针对追焦控件521的操作之后，录像模式可以理解为一种特殊的录像模式，终端在“录像模式”下录制视频时可以生成两个视频，其中一个为原视频，另一个为追焦视频。在一些可能的情况下，终端可以通过录像模式实现录制视频时生成原视频和追焦视频。在另一些可能的情况下，终端提供的录像模式只能按照常规的处理流程录制视频(现有技术中的录像模式)，此时，终端可以提供其他的模式以实现录制视频时可以生成原视频以及追焦视频，例如，该模式可以被称为：“多镜录像模式”。

对于实施例1，在一些可能的情况下，用户界面51中，如果终端没有检测到针对该追焦控件521的操作(例如单击操作)，则用户界面52中，终端检测到针对开始录像控件540的操作之后，可以不再显示该追焦控件521，以使得录制过程中的用户界面相对简洁。此时终端在录像模式下只能录制原视频，不能录制追焦视频。

应该理解的是，对于在检测到针对开始录像控件540的操作之前录制的原视频以及追焦视频可以不进行保存且不可以在图库中进查看，但是对于在检测到针对开始录像控件540的操作之后录制的原视频以及追焦视频可以进行保存且在图库应用中进行查看。

其中，对于通知用户终端进入了特殊的录像模式(追焦模式)的方式，除了前述图5B以及图5C涉及的第一方式以外，终端还可以通过第二方式通知用户终端进入了特殊的录像模式(追焦模式)。在该第二方式中，终端可以通过改变追焦控件521的显示状态以用户终端进入了特殊的录像模式。对该方式二的描述可以参考下述对图6C以及图6D的描述。即前述涉及的图5B以及图5C可以分别替换成下述涉及的图6C以及图6D。

如前述图5A所述，终端可以检测到用户作用于相机应用图标501上的操作(例如单击操作)，响应于该操作，终端可以显示下述图6C所示的用户界面63以代替显示前述图5B所示的用户界面5B。

如图6C所述。该用户界面63中可以包括追焦控件521，此时，该追焦控件521的显示状态为第一状态，第一状态下该追焦控件521是以虚线的形式呈现的。

在该追焦控件521的显示状态为第一状态的情况下，检测到针对该追焦控件521的操作(例如单击操作)，该追焦控件521的显示状态可以从第一状态切换为第二状态以提示用户终端进入了追焦模式，在确定焦点之后即可以进行图像追焦以及音频追焦以获取追焦视频了。此时，终端可以显示如下图6D所示的用户界面64，以代替前述涉及的用户界面5C。

如图6D所示，用户界面64为终端进入追焦模式之后的一个示例性预览界面。该用户界面52中，追焦控件521的显示状态可以为第二状态，该第二状态下该追焦控件521是以实线的形式呈现的。

该用户界面64中还可以包括开始录像控件540，终端检测到针对开始录像控件540的操作，响应于该操作，终端开始录制原视频，显示如前述图5D中示出的用户界面53。后续终端确定焦点以及录制追焦视频时涉及的用户界面可以参考前述对图5D-图5M的描述，此处不再赘述。

应该理解的是，在一些可能的情况下，在通过第二方式提示用户终端进入特殊的录像模式(追焦模式)的情况下，在开始录制视频的过程中涉及的用户界面中可以显示第二状态下的追焦控件521以提醒用户当前终端可以录制追焦视频，即前述涉及的用户界面53-用户界面511中可以包括该第二状态下的追焦控件。

还应该理解的是，此处示出的追焦控件521的形态以及其显示状态(虚线或者实线)只是一种示例，不应当构成对本申请实施例的限定。例如该追焦控件521的形态还可以为文字、动画或者其他形状等；该追焦控件521的第一状态可以为第一颜色(例如灰色)，该追焦控件521的第二状态可以为第二颜色(例如黑色)。该追焦控件在用户界面中的显示位置也可以变化，例如，可以为前述涉及的在用户界面的右上角，还可以在用户界面的左下角(未示出)，还可以为位置，可以根据需要进行调整，不应该构成对本申请实施例的限定。

在一些可能的情况下，终端开始图像追焦以及音频追焦以获取追焦视频的条件包括：检测到针对追焦控件521的操作、确定焦点以及检测到针对开始录像控件540的操作。其中，确定焦点的方式包括用户通过终端确定以及终端自动确定。本申请实施例中对终端检测到针对追焦控件521的操作、确定焦点以及检测到针对开始录像控件540的操作的时序给出了几种优选的实施例。实际对该时序是不进行限定的，例如，可以先检测到针对开始录像控件540的操作，再检测到针对追焦控件521的操作，最后确定焦点，然后开始录制追焦视频；也可以先检测到针对追焦控件521的操作，再检测到针对开始录像控件540的操作，最后确定焦点，然后开始录制追焦视频；还可以先确定焦点，再检测到针对开始录像控件540的操作，最后检测到针对追焦控件521的操作，然后开始录制追焦视频。不同的顺序在实际运用中各有优缺点，不应该构成对本申请实施例的限定。

在另一些可能的情况下，例如，下述涉及的场景2中，终端可以一边录制视频一边播放视频，则此时，终端开始图像追焦以及音频追焦以获取追焦视频的条件包括：检测到针对追焦控件521的操作以及确定焦点。或者在下述实施例5中，终端开始图像追焦以及音频追焦以获取追焦视频的条件也为：检测到针对追焦控件521的操作以及确定焦点。

下面对本申请实施中涉及的视频处理方法的一个示例性过程进行详细描述。

本申请中涉及的视频处理方法适用于具有N个麦克风的终端，其中N为大于等于2的整数。下面以终端具有三个麦克风为例，结合实施例1详细介绍本申请中视频处理方法的一个示例性过程。

前述实施例1中，终端可以基于采集的每一帧第一图像实时的进行处理(例如降噪，白平衡等)，得到一帧原图像；同时基于采集的每一帧第二图像实时的进行处理，得到一帧原图像，基于焦点确定该原图像中的第一图像区域，对该原图像进行裁剪获取该第一图像区域中的内容，基于该第一图像区域中的内容生成一帧追焦图像。该第一图像与第二图像可以相同也可不相同。在第一图像与第二图像不相同的情况下，终端采集第二图像时使用的焦距可以大于第一图像使用的焦距，这样，可以使得追焦图像的成像质量更好。

应该理解的是，实施例1中是以第一图像与第二图像相同为例进行说明的，下述内容中，也以第一图像与第二图像相同为例进行说明。在第一图像与第二图像相同时，该第一图像与第二图像可以统称为图像。

假设终端从开始录制视频到结束录制视频可以获取到X帧图像及每一帧图像对应的一帧输入音频信号集合(共计X帧输入音频信号集合)。则终端可以分别对该X帧图像进行常规处理(例如降噪，白平衡等)得到原图像流以及基于该X帧输入音频信号集合进行常规处理(降噪等)得到原音频流，再将该原图像流以及原音频流进行混流，得到录制的原视频。且，对于该X帧图像中的Y帧图像，终端可以基于该Y帧图像进行图像追焦处理得到追焦图像流以及基于该Y帧图像对应的Y帧输入音频信号集合进行音频追焦处理得到追焦音频流，再将该追焦图像流以及追焦音频流进行混流，得到录制的追焦视频。其中，X为大于等于2的整数，Y为大于等于2的整数且Y小于等于X。例如实施例1中，Y小于X。其中，一帧输入音频信号集合中可以包括一帧或多帧输入音频信号。下述内容中以Y等于X为例进行说明。

其中，终端可以基于该Y帧图像进行图像追焦处理为：对于每一帧图像进行常规处理得到一帧原图像，基于焦点确定该原图像中的第一图像区域，对该原图像进行裁剪获取该第一图像区域中的内容，基于该第一图像区域中的内容生成一帧追焦图像。

终端基于Y帧图像对应的Y帧输入音频信号集合进行音频追焦处理为：按照本申请实施例中涉及的音频追焦方法对该Y帧输入音频信号集合中的每一帧输入音频信号进行处理，得到追焦音频信号，该追焦音频信号即为追焦图像对应的音频信号。该过程的详细描述可以参考下述对步骤S101-步骤S111的描述，此处暂不赘述。

图7示出了实时处理每一帧图像及其对应的输入音频信号集合得到原视频以及追焦视频的一个示意图。

图7的过程为终端开始录制视频到结束视频录制的过程。在生成图像流(原图像流以及追焦图像流)和音频流(原音频流和追焦音频流)的过程中，终端将采集的当前帧图像按照采集顺序依次进行常规处理后得到原图像，将该原图像存入原图像流缓存；且将采集的当前帧图像按照采集顺序依次进行图像追焦处理后得到追焦图像，将该追焦图像存入追焦图像流缓存。同时将采集的当前帧输入音频信号集合按照采集顺序依次进行常规处理后存入原音频流缓存；且将采集的当前帧输入音频信号集合按照采集顺序依次进行音频追焦处理后存入原音频流缓存。然后，将原图像流缓存中的原图像进行编码等处理生成原图像流；将追焦图像流缓存中的追焦图像进行编码等处理生成追焦图像流；将原音频流缓存中的原音频信号(为原图像对应的音频信号)进行编码等处理生成原音频流；将追焦音频流缓存中的追焦音频信号进行编码等处理生成追焦音频流。

其中，对于当前帧图像生成原图像以及当前帧输入音频信号集合生成原音频信号的过程可以参考现有技术中的处理技术，本申请对此不再赘述。对于当前帧图像生成追焦图像的过程可以参考前述内容，此处不再赘述。

对于当前帧输入音频信号集合，终端可以采取本申请中涉及的音频追焦方法对该其进行处理得到追焦音频信号，该过程将在下述图8中的步骤S101-步骤S110进行详细描述，此处暂不赘述。

下面对终端基于当前帧图像得到追焦图像流以及基于当前帧输入音频信号集合得到追焦音频流的过程进行描述。终端基于当前帧图像得到原图像流以及基于当前帧输入音频信号集合得到原音频流的过程可以参考此描述，此处不再赘述。

具体的，首先，终端开始录制视频，采集第一帧图像以及第一帧输入音频信号集合。然后，对该第一帧图像进行图像追焦处理得到第一帧追焦图像，将第一帧追焦图像缓存到追焦图像流缓存的区域1中。同时，对该第一帧输入音频信号集合进行音频追焦处理得到该帧第一帧追焦图像对应的追焦音频信号，将处理完的第一帧输入音频信号集合缓存到追焦音频流缓存的区域1中。播放时，终端播放该处理后的第一帧追焦图像的同时可以播放该第一帧追焦图像对应的追焦音频信号。

然后，终端采集完第一帧图像以及第一帧输入音频信号集合之后，在对其进行处理的过程中，可以继续采集第二帧图像以及第二帧输入音频信号集合，处理过程与第一帧图像以及第一帧输入音频信号集合相似。终端可以将处理完第二帧图像缓之后得到的第二帧追焦图像缓存到追焦图像流缓存的区域2中，将处理完第二帧输入音频信号集合得到的第二帧追焦图像对应的追焦音频信号缓存到追焦音频流缓存的区域2中。播放时，终端播放该处理后的第二帧图像的同时可以播放该处理后的第二帧输入音频信号集合。

以此类推，终端采集完第X-1帧图像以及第X-1帧输入音频信号集合之后，在对其进行处理的过程中，可以继续采集第X帧图像以及第X帧输入音频信号集合，处理过程与第一帧图像以及第一帧输入音频信号集合相似。

在一些可能的情况下，终端播放一帧图像对应的时间为30ms，播放一帧音频信号对应的时间为10ms，则图7中，终端播放一帧图像时，该帧追焦图像对应的追焦音频信号中包括3帧音频信号。其中，30ms、10ms只是举例说明，不应该构成对本申请实施例的限定，还可以有其他的取值，例如终端播放一帧图像对应的时间为30ms，播放一帧音频信号对应的时间也为30ms。

图8中示出了本申请实施例中进行图像追焦以及音频追焦的一个示例性流程图。

关于该过程的详细描述可以参考下述对步骤S101-步骤S111的描述。

S101.终端通过N个麦克风获取输入音频信号，得到N路输入音频信号，N为大于等于2的正整数。

步骤S101中，终端获取输入音频信号时的示例性用户界面可以为前述涉及的图5D-图5L中的用户界面。

终端的每一个麦克风可以分别采集被拍摄对象的声音信号，得到一路输入音频信号，其中的一路输入音频信号可以被称为第一输入音频信号，N个麦克风中的一个麦克风可以被称为第一麦克风。在一些可能的情况下，终端获取的输入音频信号也可以被称为第一输入音频，该第一输入音频为N路输入音频信号中的至少两路输入音频信号中包括的音频信号。

第一输入音频信号为终端的第一麦克风在第一时间段内采集的声音信号转换而来的音频信号。该第一输入音频信号中可以包括H帧音频信号，其中H为大于等于1的整数，例如，该第一输入音频信号可以为前述图7中涉及的任一帧输入音频信号集合。

具体的，第一时间段内，终端的第一麦克风可以采集声音信号，然后将该声音信号转换为模拟的电信号。然后终端对该模拟的电信号进行采样，将其转化为时域上的音频信号。该时域上的音频信号为数字音频信号，为W个模拟的电信号的采样点。终端中可以用数组表示该第一输入音频信号，数组中的任一个元素用于表示一个采样点，任一元素包括两个值，其中一个值表示时间，另一个值表示该时间对应的音频信号的幅值，该幅值用于表示该音频信号对应的电压大小。

S102.终端将该N路输入音频信号转化到频域上，得到频域上的N路音频信号。

上述步骤S101中涉及的第一输入音频信号为时域上的音频信号。为了便于处理，终端可以将该第一输入音频信号转换到频域上，得到第一音频信号。该第一音频信号为N路音频信号的其中一路音频信号。

具体的，终端可以将该时域上的第一输入音频信号利用傅里叶变换(fouriertransform，FT)，例如离散傅里叶变换(discrete fourier transform，DFT)划分到频域上。

在一些实施例中，终端可以将该第一输入音频信号通过2N点DFT划分为对应N个频点的第一音频信号。该过程中，N为2的整数次方，N的取值可以由终端的计算能力决定，终端的处理速度越大，则N的取值可以越大。

本申请实施例以终端将第一输入音频信号通过2048点DFT划分为对应1024个频点的第一音频信号为例进行描述。则终端可以用数组表示该第一音频信号中的第i帧音频信号，数组中包括1024个元素。任一元素用于表示一个频点，其包括两个值，其中一个值表示该频点对应的音频信号的频率(hz)，另一个值表示该频点对应的音频信号的幅值，该幅值的单位为分贝(decibel，dB)，可以表示该时间对应的音频信号的电压大小，也可以表示该音频信号的能量大小，或者分贝大小。

应该理解的是，除了数组，终端还可以用其他的方式表达该第一音频信号，例如矩阵等，本申请实施例对此不作限定。

S103.终端获取原图像，基于该原图像确定焦点，基于该焦点确定追焦图像。

终端可以通过摄像机采集原图像，基于该原图像确定焦点，确定原图像中焦点所在的第一图像区域，对该原图像进行裁剪获取该第一图像区域中的内容，基于该第一图像区域中的内容生成追焦图像。其中，终端基于原图像确定焦点的时机包括但不限于以下时机：

时机1：检测到用户针对开始录像控件的操作(例如单击操作)之后，终端开始录制视频，在录制视频的过程中，终于可以显示原图像，检测到针对原图像中第一位置的操作(例如单击操作)，终端可以基于原图像中该第一位置处的像素点确定焦点。此时，确定焦点的方式包括：

(1)终端可以将原图像中该第一位置处的像素点作为焦点，该过程可以参考前述图5D中在原图像530中确定焦点C的描述。

(2)终端可以确定原图像中该第一位置处的像素点，在该像素点所在的第三图像区域做人脸识别，识别其中最靠近该像素点的人脸，将该人脸的中心位置处的像素点作为焦点。

时机2：在检测到针对追焦控件和开始录像控件的操作(例如单击操作)之后，在第一时间阈值内没有检测到用户针对原图像选择焦点的操作时，终端可以基于原图像自动确定一个焦点。或者，在追焦控件的显示状态更改之后或者确定显示追焦模式控件之后，在第一时间阈值内没有检测到用户针对原图像选择焦点的操作时，终端可以基于原图像自动确定一个焦点。此时，确定焦点的方式包括：

(1)识别原图像的中心区域中在移动的被拍摄对象，确定该被拍摄对象的中心位置处的像素点作为焦点。其中，原图像的中心区域为原图像的中心所在的第四图像区域。原图像的中心为原图像的几何中心。

(2)将原图像的中心位置处的像素点作为焦点。

时机3：在检测到针对追焦控件和开始录像控件的操作(例如单击操作)之后，响应于该操作，终端可以基于原图像自动确定一个焦点。或者，在追焦控件的显示状态更改之后或者确定显示追焦模式控件之后此时，端可以基于原图像自动确定一个焦点。终端确定焦点的方式与前述时机2相同。

(3)识别原图像的中心区域的被拍摄对象，确定该被拍摄对象的中心位置处的像素点作为焦点。

应该理解的是，终端基于前述时机2以及时机3中终端确定焦点(后文称为焦点1)之后，在检测到用户针对原图像确定焦点(后文称为焦点2)的操作时，终端可以将焦点从焦点1更新称为焦点2。这样，可以以用户选择的焦点2作为焦点实现图像追焦以及音频追焦。

S104.终端基于焦点在原图像中的位置确定音频追焦区域。

在一些可能的情况下，例如，参考前述对图3的描述可知，对于原图像，终端可以按照一定规则将该原图像划分为三个区域，然后，终端可以将焦点所在的区域确定为音频追焦区域。该音频追焦区域即为前述实施例1中涉及的第二图像区域。

该音频追焦区域与目标声音方向对应。其中一种对应的方式可以参考前述图4以及对图4的描述。该音频追焦区域与目标声音方向的对应关系可以用于在下述步骤S105中确定目标声音方向，该过程的相关描述可以参考下述对步骤S105的相关描述，此处暂不赘述。

其中，一种将原图像划分为三个区域的方式可以参考前述对图3的描述：该三个区域分别为原图像的中间区域(例如图3中的区域301)、原图像中偏右的区域(例如图3中的区域302)以及原图像中偏左的区域(例如图3中的区域303)。

应该理解的是，前述图3中是将原图像划分称为了三个不重复的区域。在其他的一些情况下，该三个区域之间可以有重复内容。

图9示出了原图像的中间区域、偏右的区域以及偏左的区域涉及的另一个示意图。

如图9所示，终端可以将该原图像划分为三个区域，分别包括区域901、区域902以及区域903。其中，区域901为原图像的中间区域，区域902为原图像中偏右的区域以及区域903为原图像中偏左的区域。焦点A处于区域902(偏右的区域)中，则此时该区域902为原图像中焦点所在的第二图像区域，即音频追焦区域。其中，原图像的中间区域(901)与原图像中偏左的区域(区域903)之间存在重复区域(图像区域904)，原图像的中间区域(区域901)与原图像中偏右的区域(区域902)之间存在重复区域(图像区域904)。

还应该理解的是，前述图3以及图9中是将原图像划分称为了三个区域，在其他的一些情况下，还可以将终端划分为更多或者更少的区域。例如划分为四个区域或者五个区域等。划分方式可以参考前述对图3或者图9的描述，每一个区域仍然可以对应一个目标声音方向，关于确定每个区域对应的目标声音方向的方式与前述划分成三个区域时确定每一个区域的目标声音方向的方式相似，可以参考对相关内容的描述，此处暂不赘述。

本申请实施例以将原图像划分为三个区域(原图像的中间区域，原图像中右的区域以及原图像中偏左的区域)为例进行说明，但不应该构成对本申请实施例的限定。

S105.终端基于N路音频信号以及音频追焦区域生成待处理目标音频信号以及该待处理目标音频信号对应的待处理噪声信号集合。

可选的，该待处理目标音频信号中包括目标声音，该目标声音可以包括音频追焦区域对应的声音，还可以包括部分噪声，该待处理噪声信号集合中包括T路待处理噪声信号，每一路待处理噪声信号中包括噪声，还可以包括部分目标声音。

可选的，终端基于N路音频信号以及音频追焦区域生成待处理目标音频信号以及待处理噪声信号。

目标声音可以包括音频追焦区域对应的声音，该音频追焦区域对应的声音为音频追焦区域中包括的被拍摄对象的声音。噪声是指音频追焦区域中不包括的被拍摄对象的声音。

终端可以确定该音频追焦区域对应的目标声音方向，参考前述图4，目标声音方向为音频追焦区域对应的拍摄区域(后文中可以称为追焦拍摄区域)中的任一方向。例如，在音频追焦区域为原图像的中间区域的情况下，目标声音方向可以为终端前方中间的拍摄区域(图4中10°方向顺时针到350°方向的范围内)范围内的任一方向，例如终端的正前方，即0°方向；在音频追焦区域为原图像中偏左的区域的情况下，目标声音方向可以为终端前方偏左的拍摄区域(图4中10°方向逆时针到图中90°方向的范围内)范围内的任一方向，例如图中的45°方向；在音频追焦区域为原图像中偏右的区域的情况下，目标声音方向可以为终端前方偏左的拍摄区域(图4中10°方向顺时针到图中270°方向的范围内)范围内的任一方向，例如图中的315°方向。

终端可以利用波束形成技术，基于目标声音方向对应的滤波器系数对N路音频信号进行滤波以及合成，得到一路待处理目标音频信号，该待处理目标音频信号中有H帧目标音频信号。其中，该目标声音方向对应的滤波器系数中包括N个麦克风在目标声音方向对应的滤波器系数。该第i个麦克风在目标声音方向对应的滤波器系数可以用于对第i路音频信号中的目标声音进行保留，对第i路音频信号中的噪声进行抑制；该第i路音频信号为第i个麦克风采集的输入音频信号转化得到的音频信号。其中，关于基于波束形成技术得到待处理目标音频信号的相关描述可以参考下述对图10A-图10C描述。该目标声音方向对应的滤波器系数是预先确定，然后设置在终端中的，其确定过程可以参考下述对步骤S202的描述。

其中，波束形成可以用于描述终端通过麦克风获取的音频信号与该音频信号传输到扬声器播放时的对应关系。该对应关系为一组增益系数，用于表示对麦克风获取的各个方向上的音频信号进行抑制的抑制程度。其中，抑制是指将音频信号的能量减小使得该音频信号听起来变小甚至听不见。抑制程度用于描述对音频信号进行减小的程度，抑制程度越大，则音频信号的能量减小越多。例如，增益系数为0.0表示完全除去该音频信号，增益系数为1.0表示不进行抑制。越接近于0.0则抑制程度越大，越接近与1.0则抑制程度越小。

图10A-图10C示出了生成待处理目标音频信号涉及的波束形成技术的一个示意图。

这里以前述实施例1中涉及的拍摄场景为例进行说明，描述终端在音频追焦区域(前述实施例1中的第一图像区域)分别为原图像的中间区域、原图像中偏左的区域以及原图像中偏右的区域时涉及的波束形成图。

图10A-图10C中的(a)分别表示第4s、第8s以及第10s时对应的原图像，此时焦点(图中焦点B，即前述实施例1中涉及的焦点B)与前述实施例1中相同，追焦图像为小女孩(前述涉及的被拍摄对象101)。图10A-图10C中的(b)分别表示终端播放第4s、第8s以及第10s时对应的追焦视频时的用户界面。图10A-图10C中的(c)分别表示生成第4s、第8s以及第10s时对应的待处理目标音频信号时涉及的波束形成图，其中，图标701中，声音信号为实线，在本申请实施例中表示被拍摄对象的声音属于目标声音，不会被抑制，则在播放的追焦视频中可以听到该被拍摄对象的声音。图标702中，声音信号上绘制了一个叉，在本申请实施例中表示被拍摄对象的声音属于噪声，会被抑制，则在播放的追焦视频中不可以听到该被拍摄对象的声音。图标703中，被拍摄对象以虚线绘制，表示该被拍摄对象不为图像追焦区域(前述实施例1中的第一图像区域)中的被拍摄对象，播放视频时不可以出现在追焦图像中。图标704中，被拍摄对象以实线绘制，表示该被拍摄对象为图像追焦区域中的被拍摄对象，播放视频时可以出现在追焦图像中。图10A-图10C中，相同绘制风格的图标表示相同的意思，这里不再一一标注以及解释。

如图10A中的(a)所示，原图像560为第4s的追焦视频中追焦图像对应的原图像，此时音频追焦区域(实施例1中涉及的第二图像区域)为原图像560中偏右的区域，焦点(图中焦点B)在原图像560中显示的小女孩(被拍摄对象101)上，则小女孩为追焦对象。如图10A中的(b)所示，用户界面70中播放的是前述图5G中录制的第4s对应的追焦视频，此时显示的追焦图像是该原图像560对应的追焦图像，该追焦图像中包括小女孩(被拍摄对象101)以及小狗(被拍摄对象105)。该追焦视频中包括的目标声音为音频追焦区域对应的声音，即小女孩(被拍摄对象101)、小男孩A(被拍摄对象102)以及小狗(被拍摄对象105)。噪声包括小男孩B(被拍摄对象104)以及男子(被拍摄对象103)，该噪声会被抑制，在播放第4s对应的追焦视频时听不见或者听起来很小。

用户界面70中显示的追焦图像对应的音频信号是基于待处理目标音频信号A经过下述步骤S106-步骤S111的处理之后生成的。其中，待处理目标音频信号A为终端获取的第4s对应的N路音频信号经过滤波以及合成之后生成的。终端可以通过图10A中的(c)示出的波束形成图生成该待处理目标音频信号A。

如图10A中的(c)所示，为音频追焦区域为原图像中偏右的区域(目标声音方向为315°方向)时，待处理目标音频信号A的波束形成图。该波束形成图的对称线在315°方向上，终端可以利用该待处理目标音频信号A的波束形成图生成该待处理目标音频信号A，从该波束形成图中可以看出：此时，终端获取的音频信号中包括小女孩(被拍摄对象101)、小男孩A(被拍摄对象102)、男子(被拍摄对象103)、小男孩B(被拍摄对象104)以及小狗(被拍摄对象105)的声音。但是，从该波束形成图中可以看出，终端利用该波束形成图基于该N路音频信号生成的待处理目标音频信号A中，小女孩、小男孩A以及小狗的声音所在方向上对应的增益系数均为1(或接近于1)，故终端不会对小女孩、小男孩A以及小狗的声音进行抑制(可以理解为：由于增益系数接近于1，故抑制作用微弱，可以认为没有进行抑制，其他实施例也同样适用)，可以理解为小女孩、小男孩A以及小狗的声音为目标声音。但是，男子以及小男孩B的声音所在方向上对应的增益系数均为0(或接近于0)，故终端可以对男子以及小男孩B的声音进行抑制(可以理解为：由于增益系数接近于0，故抑制作用强，其他实施例也同样适用)。则终端获取的音频信号中虽然包括小女孩、小男孩A、男子、小男孩B以及小狗的声音，但是播放追焦图像对应的音频信号时，男子以及小男孩B的声音是被抑制的，从听觉上，该男子以及小男孩B的声音听不见或者该男子以及小男孩B的声音听起来变小。

应该理解的是，对图10A进行描述的内容中涉及的噪声除了男子以及小男孩B的声音以外，还可以包括其他噪声，例如非拍摄区域对应的声音，该其他噪声在播放追焦图像对应的音频信号时仍然会被抑制。

如图10B中的(a)所示，原图像580为第8s的追焦视频中追焦图像对应的原图像，此时音频追焦区域(实施例1中涉及的第二图像区域)为原图像580的中间区域，焦点(图中焦点B)在原图像580中显示的小女孩(被拍摄对象101)上，则小女孩为追焦对象。如图10B中的(b)所示，用户界面71中播放的是前述图5I中录制的第8s对应的追焦视频，此时显示的追焦图像是该原图像580对应的追焦图像，该追焦图像中包括小女孩(被拍摄对象101)以及小男孩B(被拍摄对象104)。该追焦视频中包括的目标声音为音频追焦区域对应的声音，即小女孩、小男孩B。噪声包括小男孩A(被拍摄对象102)、小狗(被拍摄对象105)以及男子(被拍摄对象103)，该噪声会被抑制，在播放第8s对应的追焦视频时听不见或者听起来很小。

用户界面71中显示的追焦图像对应的音频信号是基于待处理目标音频信号B经过下述步骤S106-步骤S111的处理之后生成的。其中，待处理目标音频信号B为终端获取的第8s对应的N路音频信号经过滤波以及合成之后生成的。终端可以通过图10B中的(c)示出的波束形成图生成该待处理目标音频信号B。

如图10B中的(c)所示，为音频追焦区域为原图像的中间区域(目标声音方向为0°方向)时，待处理目标音频信号B的波束形成图。该波束形成图的对称线在0°方向上，终端可以利用该待处理目标音频信号B的波束形成图生成该待处理目标音频信号B，从该波束形成图中可以看出：此时，终端获取的音频信号中包括小女孩(被拍摄对象101)、小男孩A(被拍摄对象102)、男子(被拍摄对象103)、小男孩B(被拍摄对象104)以及小狗(被拍摄对象105)的声音。但是，从该波束形成图中可以看出，终端利用该波束形成图基于该N路音频信号生成的待处理目标音频信号B中，小女孩以及小男孩B的声音所在方向上对应的增益系数均为1(或接近于1)，故终端不会对小女孩以及小男孩B的声音进行抑制(可以理解为小女孩以及小男孩B的声音为目标声音)。但是，小男孩A、男子以及小狗的声音所在方向上对应的增益系数均为0(或接近于0)，故终端可以对小男孩A、男子以及小狗的声音进行抑制。则终端获取第8s对应的音频信号中虽然包括小女孩、小男孩A、男子、小男孩B以及小狗的声音，但是播放追焦图像对应的音频信号时，小男孩A、男子以及小狗的声音是被抑制的，从听觉上，该小男孩A、男子以及小狗的声音听不见或者该小男孩A、男子以及小狗的声音听起来变小。

应该理解的是，对图10B进行描述的内容中涉及的噪声除了小男孩A、男子以及小狗的声音以外，还可以包括其他噪声，例如非拍摄区域对应的声音，该其他噪声在播放追焦图像对应的音频信号时仍然会被抑制。

如图10C中的(a)所示，原图像590为第10s的追焦视频中追焦图像对应的原图像，此时音频追焦区域(实施例1中涉及的第二图像区域)为原图像590的中间区域，焦点(图中焦点B)在原图像590中显示的小女孩(被拍摄对象101)上，则小女孩为追焦对象。如图10C中的(b)所示，用户界面72中播放的是前述图5K中录制的第10s对应的追焦视频，此时显示的追焦图像是该原图像590对应的追焦图像，该追焦图像中包括小女孩(被拍摄对象101)以及男子(被拍摄对象103)。该追焦视频中包括的目标声音为音频追焦区域对应的声音，即小女孩以及男子。噪声包括小男孩A(被拍摄对象102)、小狗(被拍摄对象105)以及小男孩A(被拍摄对象102)，该噪声会被抑制，在播放第10s对应的追焦视频时听不见或者听起来很小。

用户界面72中显示的追焦图像对应的音频信号是基于待处理目标音频信号C经过下述步骤S106-步骤S111的处理之后生成的。其中，待处理目标音频信号C为终端获取的第10s对应的N路音频信号经过滤波以及合成之后生成的。终端可以通过图10C中的(c)示出的波束形成图生成该待处理目标音频信号C。

如图10C中的(c)所示，为音频追焦区域为原图像中的偏左区域(目标声音方向为45°方向)时，待处理目标音频信号C的波束形成图。该波束形成图的对称线在0°方向上，终端可以利用该待处理目标音频信号C的波束形成图生成该待处理目标音频信号C，从该波束形成图中可以看出：此时，终端获取的音频信号中包括小女孩(被拍摄对象101)、小男孩A(被拍摄对象102)、男子(被拍摄对象103)、小男孩B(被拍摄对象104)以及小狗(被拍摄对象105)的声音。但是，从该波束形成图中可以看出，终端利用该波束形成图基于该N路音频信号生成的待处理目标音频信号C中，男子以及小女孩的声音所在方向上对应的增益系数均为1(或接近于1)，故终端不会对男子以及小女孩的声音进行抑制(可以理解为男子以及小女孩的声音为目标声音)。但是，小男孩A以及小男孩B的声音所在方向上对应的增益系数均为0(或接近于0)，故终端可以对小男孩A以及小男孩B的声音进行抑制。则终端获取第10s对应的音频信号中虽然包括小女孩、小男孩A、男子、小男孩B的声音，但是播放追焦图像对应的音频信号时，小男孩A以及小男孩B的声音是被抑制的，从听觉上，该小男孩A以及小男孩B的声音听不见或者该小男孩A以及小男孩B的声音听起来变小。

应该理解的是，对图10C进行描述的内容中涉及的噪声除了小男孩A以及小男孩B的声音以外，还可以包括其他噪声，例如非拍摄区域对应的声音，该其他噪声在播放追焦图像对应的音频信号时仍然会被抑制。

这样，终端基于波束形成技术得到的待处理目标音频信号中，可以保留目标声音且抑制噪声。波束形成技术中，当噪声所在的噪声方向与目标声音方向的夹角较小时，对噪声的抑制效果较好；当噪声所在的噪声方向与目标声音方向的夹角较大时，对噪声的抑制效果较差。例如，当噪声方向与目标声音方向的夹角小于90°时，对噪声的抑制效果相比于噪声方向与目标声音方向的夹角大于90°的情况较好。

由于波束形成技术在得到待处理目标音频信号的局限性，会使得该待处理目标音频信号中除了包括目标声音以外，仍然存在部分噪声。噪声所在的噪声方向与目标声音方向的夹角越大，则该噪声的能量越大。因此，在一些可能的情况下，终端可以确定该目标声音方向对应的T个噪声方向，利用波束形成技术分别基于每一个噪声方向对应的滤波器系数对N路音频信号进行滤波以及合成，得到该待处理目标音频信号对应的待处理噪声信号集合。该待处理噪声信号集合中包括T路待处理噪声信号，每一路待处理噪声信号中包括噪声，还可以包括部分目标声音。其中，第i路待处理噪声信号中有H帧噪声信号，该第i路待处理噪声信号中包括的噪声是利用波束形成技术基于第i个噪声方向对应的滤波器系数生成的，越接近该第i个噪声方向上的噪声可以越多的保留在该第i路待处理噪声信号中，越远离该第i个噪声方向上的噪声被抑制得程度越大，可以称该第i路待处理噪声信号中的噪声为第i路噪声。其中，每一个噪声方向对应的滤波器系数是预先确定然后设置在终端中的，其确定过程可以参考下述对步骤S202中相关内容的描述，此处暂不赘述。

后续过程中(参考下述步骤S106)，终端可以基于该待处理目标音频信号对应的该待处理噪声信号集合作为参考，除去该待处理目标音频信号中的噪声，得到处理后的目标音频信号，该处理后的目标音频信号中包括目标声音但是噪声被滤除了，滤除完成时可以认为不包括噪声或者噪声被抑制(噪声很小)。对该后续过程的描述可以参考下述对步骤S106的描述，此处暂不赘述。

对于目标声音方向对应的T个噪声方向应该理解的是：T为大于等于2的整数，不同的目标声音方向对应的噪声方向的数量可以相同也可以不同。参考前述图4，目标声音方向为音频追焦区域对应的拍摄区域(后文中可以称为追焦拍摄区域)中的任一方向。噪声方向可以为其他拍摄区域以及非拍摄区域中的任一方向，其中，其他拍摄区域是指终端的拍摄区域中除追焦拍摄区域以外的拍摄区域，后文中也可以称为非追焦拍摄区域。

则目标声音可以包括音频追焦区域对应的声音，该音频追焦区域对应的声音为音频追焦区域中包括的被拍摄对象的声音。噪声是指音频追焦区域中不包括的被拍摄对象的声音。也可以理解为目标声音可以包括追焦拍摄区域对应的声音；噪声为非追焦拍摄区域的声音。

在一些可能的情况下，确定目标声音方向对应的至少一个噪声方向的规则可以是：

规则1：终端可以确定与目标声音方向的夹角相差较远的方向为噪声方向，通常来说噪声方向与目标声音方向的夹角可以大于等于90°。在一个目标声音方向只对应一个噪声方向(即T＝1)的情况下，则该噪声方向为与目标声音方向的夹角相差最大的方向。规则1是由于终端在利用波束形成技术的局限性决定的。其中，波束形成技术的局限性表现在：当噪声所在的噪声方向与目标声音方向的夹角较小时，对噪声的抑制效果较好；当噪声所在的噪声方向与目标声音方向的夹角较大时，对噪声的抑制效果较差。

规则2：在规则1满足的情况下，如果两个方向与目标声音方向的夹角相同，则可以任意选择其中的一个方向作为目标声音方向对应的噪声信号。例如，其中一个方向在终端的其他拍摄区域内，另一个方向在终端的非拍摄区域内。如果想强调拍摄区域内的声音，则终端可以确定在终端的拍摄区域内的方向为噪声方向，这样，可以使得终端在下述步骤S106中可以进一步抑制其他拍摄区域对应的声音。如果想强调非拍摄区域内的声音，则终端可以确定在终端的非拍摄区域内的方向为噪声方向，这样，可以使得终端在下述步骤S106中可以进一步抑制拍摄区域对应的声音。

图11示出了目标声音方向以及目标声音方向对应的噪声方向的示意图。

应该理解的是，终端的非拍摄区域内的任一方向都可以为噪声方向，终端可以预先设置至少一个非拍摄区域内的方向作为非拍摄区域内的噪声方向，后续可以基于该预先设置的非拍摄区域内的噪声方向确定目标声音方向对应的T个噪声方向。

在一些可能的情况下，终端可以提供两个非拍摄区域内的方向作为非拍摄区域内的噪声方向，例如图11中的135°方向以及225°方向。终端可以预先确定135°方向以及225°方向的滤波器系数，然后设置在终端中，其确定过程可以参考下述对步骤S202中相关内容的描述，此处暂不赘述。其中，135°方向上的滤波器系数可以用于结合N路音频信号生成一路待处理噪声信号(后文中称为待处理噪声信号1)。则终端可以利用波束形成技术，基于135°方向上的滤波器系数对N路音频信号进行滤波以及合成，得到待处理噪声信号1。越接近该135°方向上的噪声可以越多的保留在待处理噪声信号1中，例如，非拍摄区域中左边的非拍摄区域中的噪声可以保留在待处理噪声信号1中，该左边的非拍摄区域可以为图中90°方向逆时针到图中180°方向的范围内的区域。225°方向上的滤波器系数可以用于结合N路音频信号生成另一路待处理噪声信号(待处理噪声信号2)。则终端可以利用波束形成技术，基于225°方向上的滤波器系数对N路音频信号进行滤波以及合成，得到待处理噪声信号2。越接近该225°方向上的噪声可以越多的保留在该待处理噪声信号2中，例如，非拍摄区域中右边的非拍摄区域中的噪声可以保留在待处理噪声信号2中，该左边的非拍摄区域可以为图中180°方向逆时针到图中270°方向的范围内的区域。即，该待处理噪声信号1以及待处理噪声信号2中包括的噪声为非拍摄区域对应的声音。

图12为生成待处理噪声信号1以及待处理噪声信号2涉及的波束形成技术的一个示意图。

如图12中的(a)示出的是噪声方向为135°方向时，待处理噪声信号1的波束形成图，该波束形成图的对称线在135°方向上，终端可以利用该待处理噪声信号1的波束形成图生成该待处理噪声信号1，从该波束形成图中可以看出：越接近该135°方向上的噪声所在方向上对应的增益系数均为1(或越接近于1)，故终端对接近135°方向上的噪声不会进行抑制或者抑制程度越小，故越接近135°方向上的噪声可以越多的保留在待处理噪声信号1中。

如图12中的(b)示出的是噪声方向为225°方向时，待处理噪声信号2的波束形成图，该波束形成图的对称线在225°方向上，终端可以利用待处理噪声信号2的波束形成图生成该待处理噪声信号2，从该波束形成图中可以看出：越接近225°方向上的噪声所在方向上对应的增益系数均为1(或越接近于1)，故终端对接近225°方向上的噪声不会进行抑制或者抑制程度越小，故越接近该225°方向上的噪声可以越多的保留在待处理噪声信号2中。

其中，对图12中示出的波束形成图的更多详细描述可以参考前述对图10A-图10C中对波束形成图的描述，此处不再赘述。

此时，以目标声音方向可以为45°方向、0°方向或者315°方向中的一个方向，非拍摄区域内的噪声方向为135°方向以及225°方向中的至少一个方向，目标声音方向可以对应两个(T＝2)噪声方向为例，介绍目标声音方向对应的至少一个噪声方向。同时参考下述表1所示。

目标声音方向	噪声方向
		45°方向	225°方向、315°方向
0°方向	135°方向、225°方向
		315°方向	45°方向、135°方向

表1

如图11以及表1所示，在目标声音方向为45°方向的情况下，此时，按照前述规则1可知，终端可以确定目标声音方向对应的一个噪声方向为225°方向，因为该225°方向为与45°方向的夹角相差最大的方向。按照前述规则2，终端可以确定该目标声音方向对应的另一个噪声方向为315°方向。因为315°方向以及135°方向距离45°方向的夹角较大且相同，315°方向为其他拍摄区域中的方向，但是135°方向为非拍摄区域的方向。在目标声音方向为0°方向的情况下，此时，按照前述规则1可知，终端可以确定目标声音方向对应的两个噪声方向为135°方向以及225°方向，因为该225°方向为与45°方向的夹角相差最大的方向。在目标声音方向为315°方向的情况下，此时，按照前述规则1可知，终端可以确定目标声音方向对应的一个噪声方向为135°方向，因为该135°方向为与315°方向的夹角相差最大的方向。按照前述规则2，终端可以确定该目标声音方向对应的另一个噪声方向为45°方向。因为45°方向以及225°方向距离315°方向的夹角较大且相同，45°方向为其他拍摄区域中的方向，但是225°方向为非拍摄区域的方向。

基于前述表1可知，拍摄区域内的方向在一些情况下可以为目标声音方向，在另一些情况下可以为噪声方向。

下述内容中以目标声音方向对应两个噪声方向，以及目标声音方向可以为45°方向、0°方向或者315°方向中的一个方向，非拍摄区域内的噪声方向为135°方向以及225°方向为例对步骤S105进行详细描述。

应该理解的是，本申请实施例中的45°方向、0°方向、315°方向、135°方向以及225°方向只是举例说明，关于角度的描述可以参考前述对图4以及图12的描述，这些角度可以根据需要进行调节，更换成其他的角度，不应该构成对本申请实施例的限定。

图13示出了终端生成待处理目标音频信号以及其对应的待处理噪声信号集合的示例性流程图。

步骤S105中，终端基于N路音频信号以及音频追焦区域生成待处理目标音频信号以及该待处理目标音频信号对应的待处理噪声信号集合的过程可以参考下述对步骤S201-步骤S203的描述。

S201.终端基于音频追焦区域确定目标声音方向、第一噪声方向以及第二噪声方向，该目标声音方向为音频追焦区域所在的方向，第一噪声方向为第一路待处理噪声信号中包括的噪声(后文中被称为第一路噪声)所接近的方向，第二噪声方向为第二路待处理噪声信号中包括的噪声(后文中被称为第二路噪声)所接近的方向。

该第一噪声方向以及第二噪声方向为目标声音方向对应的噪声方向，此时T＝2，目标声音方向对应两个噪声方向。关于目标声音方向以及噪声方向的详细描述可以参考前述内容，此处不再赘述。

音频追焦区域对应的目标声音方向以及该目标声音方向对应的第一噪声方向以及第二噪声方向是预先设置在终端中的。例如，在音频追焦区域为原图像的中间区域的情况下，目标声音方向可以为终端前方中间的拍摄区域(图4中10°方向顺时针到350°方向的范围)范围内的任一方向，例如终端的正前方，即0°方向。此时，参考前述表1，目标声音方向对应的第一噪声方向为135°方向以及225°方向中的一个，第二噪声方向为135°方向以及225°方向中的另一个，例如第一噪声方向为与135°(此时第一路待处理噪声信号可以为前述涉及的待处理噪声信号1)，第二噪声方向为225°方向(此时第二路待处理噪声信号可以为前述涉及的待处理噪声信号2)；在音频追焦区域为原图像中偏左的区域的情况下，目标声音方向可以为终端前方偏左的拍摄区域(图4中10°方向逆时针到图中90°方向的范围内)范围内的任一方向，例如图中的45°方向。此时，参考表1，目标声音方向对应的第一噪声方向为225°方向以及315°方向中的一个，第二噪声方向为225°方向以及315°方向中的另一个，例如第一噪声方向为与225°，第二噪声方向为315°方向；在音频追焦区域为原图像中偏右的区域的情况下，目标声音方向可以为终端前方偏左的拍摄区域(图4中10°方向顺时针到图中270°方向的范围内)范围内的任一方向，例如图中的315°方向。此时，参考表1，目标声音方向对应的第一噪声方向为45°方向以及135°方向中的一个，第二噪声方向为45°方向以及135°方向中的另一个，例如第一噪声方向为与45°，第二噪声方向为135°方向。

S202.终端获取目标声音方向对应的滤波器系数、第一噪声方向对应的滤波器系数以及第二噪声方向对应的滤波器系数。

对于该目标声音方向对应的滤波器系数、第一噪声方向对应的滤波器系数以及第二噪声方向对应的滤波器系数的详细描述如下：

目标声音方向对应的滤波器系数可以用于对N路音频信号进行滤波以及合成，得到待处理目标音频信号，该过程可以参考下述对步骤S203的描述，此处暂不赘述。该目标声音方向对应的滤波器系数中包括N个麦克风分别在目标声音方向对应的滤波器系数。其中，第i个麦克风在目标声音方向对应的滤波器系数可以用于对第i路音频信号中相对于终端处于追焦拍摄区域的声音(目标声音)进行保留，且对相对于终端处于非追焦拍摄区域的声音(噪声)进行抑制。其中，相对于终端处于追焦拍摄区域的声音即为音频追焦区域对应的声音，该音频追焦区域对应的声音为音频追焦区域中包括的被拍摄对象的声音。相对于终端处于非追焦拍摄区域的声音即为音频追焦区域中不包括的被拍摄对象的声音。

第一噪声方向对应的滤波器系数可以用于对N路音频信号进行滤波以及合成，得到第一路待处理噪声信号，该过程可以参考下述对步骤S203的描述，此处暂不赘述。该第一噪声方向对应的滤波器系数中包括N个麦克风分别在第一噪声方向对应的滤波器系数。其中，第i个麦克风在第一噪声方向对应的滤波器系数可以用于对第i路音频信号中相对于终端接近第一噪声方向的声音进行保留，对第i路音频信号中相对于终端远离第一噪声方向的声音进行抑制。因此，可以说该第一噪声方向为第一路待处理噪声信号中包括的噪声(第一路噪声)所接近的方向，应该理解的是第一噪声方向本身也可以看做第一噪声方向接近的方向。例如，当目标声音方向为0°方向时，第一噪声方向可以为135°方向，参考前述图12，当第一噪声方向为135°方向时，接近135°方向上的噪声都可以保留在第一路待处理噪声信号，此时第一路待处理噪声信号可以看作前述涉及的待处理噪声信号1。

第二噪声方向对应的滤波器系数可以用于对N路音频信号进行滤波以及合成，得到第二路待处理噪声信号，该过程可以参考下述对步骤S203的描述，此处暂不赘述。该第二噪声方向对应的滤波器系数中包括N个麦克风分别在第二噪声方向对应的滤波器系数。其中，第i个麦克风在第二噪声方向对应的滤波器系数可以用于对第i路音频信号中相对于终端接近第二噪声方向的声音进行保留，对第i路音频信号中相对于终端远离第二噪声方向的声音进行抑制。因此，可以说该第二噪声方向为第二路待处理噪声信号中包括的噪声(第二路噪声)所接近的方向，应该理解的是第二噪声方向本身也可以看做第二噪声方向接近的方向。例如，当目标声音方向为0°方向时，第二噪声方向可以为225°方向，参考前述图12，当第二噪声方向为225°方向时，接近225°方向上的噪声都可以保留在第二路待处理噪声信号，此时第二路待处理噪声信号可以看作前述涉及的待处理噪声信号2。

其中，如果第i路音频信号中包括N个频点，则该第i个麦克风各个方向(目标声音方向、第一噪声方向以及第二噪声方向)对应的滤波器系数也应该有N个元素(系数)，其中第j个元素表示对第i路音频信号对应的N个频点中第j个频点的抑制程度。当该第j个元素等于1或接近1时，则终端对该第j个频点对应的音频信号不进行抑制，即为保留(接近1抑制程度很低几乎没有进行抑制，视为保留)。其他情况则是对该第j个频点对应的音频信号进行抑制，例如，当该第j个元素等于0或接近0时，则终端对该第j个频点对应的音频信号进行抑制的程度越大，即为抑制。

图14为终端生成该目标声音方向对应的滤波器系数的一个示例性流程图。

下面结合图14描述终端生成该目标声音方向对应的滤波器系数的一种方式，该过程可以参考下述对步骤S301-步骤S303的描述。

S301.终端在多个方向上分别获取不同距离上的N路测试音频信号，其中，每一路测试音频信号是通过不同的麦克风获取的。

方向是指发声对象与终端间的水平角，距离是指发声对象与终端的欧氏距离。该发声对象是单一的。

在多个方向上分别获取不同距离上的测试音频信号是为了让生成的目标声音方向对应的滤波器系数具有普适性。即，当终端出厂后，录制视频时，终端获取的第i路音频信号中声音的方向与该多个方向中的一个相同或相近。其中，第i路音频信号为终端通过第i个麦克风获取的音频信号。则该目标声音方向对应的滤波器系数适用于终端获取的路音频信号。

在一些实施例中，该多个方向可以包括36个方向，及终端周围，每隔10°为一个方向。多个距离可以包括3个距离分别为1m、2m以及3m。

该第i路测试音频信号为终端的第i麦克风在多个方向上分别获取的不同距离上的音频信号的集合。

S302.终端获取目标声音方向对应的目标波束，该目标波束是预设的，用于描述终端在目标声音方向及其周围多个方向上期望的滤波程度。

该目标声音方向对应的目标波束用于终端生成目标声音方向对应的滤波器系数，其描述了终端在多个方向上的滤波程度。该目标声音方向对应的目标波束是预期的波束或者希望所形成的波束，可以进行设定。

在一些实施例中，当该多个方向为36个方向时，则该目标声音方向对应的目标波束中有36个增益系数。第i个增益系数表示第i个方向上的抑制程度，任一方向都对应一个增益系数。其中，目标声音方向上对应的增益系数为1，然后，每与目标声音方向相差10°的方向，则增益系数依次减去1/36。则，越接近目标声音方向的方向对应的元素越接近1，越远离目标声音方向的方向对应的元素越接近0。

S303.通过设备相关传递函数，利用该N路测试音频信号以及目标声音方向对应的目标波束生成目标声音方向对应的滤波器系数。

终端生成该目标声音方向对应的滤波器系数的公式为下述公式(1)：

公式(1)中，w₁(ω)为目标声音方向对应的滤波器系数，其包括N个元素，其中第i个元素可以表示为w_1i(ω)，w_1i(ω)为第i个麦克风在目标声音方向对应的滤波器系数，H_i(ω)表示第i路测试音频信号，G(H₁(ω),H₂(ω)…H_n(ω))表示通过设备相关传递函数来处理N路测试音频信号，其可以用于描述N路测试音频信号间的相关性。H₁表示目标声音方向对应的目标波束，w₁表示目标声音方向上可以求得的滤波器系数，argmin表示使用最小二乘频率不变固定波束形成的方法求取的w₁作为目标声音方向对应的滤波器系数。

应该理解的是，前述步骤S301-步骤S302描述的是终端生成该目标声音方向对应的滤波器的一种方式。终端生成第一噪声方向对应的滤波器系数以及第二噪声方向对应的滤波器系数的方式可以参考前述过程。

其中，终端生成该第一噪声方向对应的滤波器系数的公式为下述公式(2)：

对公式(2)，w₂(ω)为第一噪声方向对应的滤波器系数，其包括N个元素，其中第i个元素可以表示为w_2i(ω)，w_2i(ω)为第i个麦克风在第一噪声方向对应的滤波器系数，H₂表示第一噪声方向对应的目标波束，w₂表示第一噪声方向上可以求得的滤波器系数，argmin表示使用最小二乘频率不变固定波束形成的方法求取的w₂作为第一噪声方向对应的滤波器系数。其中，第一噪声方向对应的目标波束可以参考前述对步骤S301-步骤S303中的相关描述，将目标声音方向相关的术语更换成第一噪声方向相关的术语即可，例如，将目标声音方向更换成第一噪声方向。

其中，该第一噪声方向对应的目标波束用于终端生成第一噪声方向对应的滤波器系数，其描述了终端在多个方向上的滤波程度。

在一些实施例中，当该多个方向为36个方向时，则该第一噪声方向对应的目标波束中有36个增益系数。第i个增益系数表示第i个方向上的滤波程度，任一方向都对应一个增益系数。其中，第一噪声方向上对应的增益系数为1，然后，每与第一噪声方向相差10°的方向，则增益系数依次减去1/36。则，越接近第一噪声方向的方向对应的元素越接近1，越远离第一噪声方向的方向对应的元素越接近0。

其中，终端生成该第二噪声方向对应的滤波器系数的公式为下述公式(3)：

对公式(3)，w₃(ω)为第二噪声方向对应的滤波器系数，其包括N个元素，其中第i个元素可以表示为w_3i(ω)，w_3i(ω)为第i个麦克风在第二噪声方向对应的滤波器系数，H₃表示第二噪声方向对应的目标波束，w₃表示第二噪声方向上可以求得的滤波器系数，argmin表示使用最小二乘频率不变固定波束形成的方法求取的w₃作为第二噪声方向对应的滤波器系数。其中，第二噪声方向对应的目标波束可以参考前述对步骤S301-步骤S303中的相关描述，将目标声音方向相关的术语更换成第二噪声方向相关的术语即可，例如，将目标声音方向更换成第二噪声方向。

其中，该第二噪声方向对应的目标波束用于终端生成第二噪声方向对应的滤波器系数，其描述了终端在多个方向上的滤波程度。

在一些实施例中，当该多个方向为36个方向时，则该第二噪声方向对应的目标波束中有36个增益系数。第i个增益系数表示第i个方向上的滤波程度，任一方向都对应一个增益系数。其中，第二噪声方向上对应的增益系数为1，然后，每与第二噪声方向相差10°的方向，则增益系数依次减去1/36。则，越接近第二噪声方向的方向对应的元素越接近1，越远离第二噪声方向的方向对应的元素越接近0。

S203.终端利用目标声音方向对应的滤波器系数，结合N路音频信号生成待处理目标音频信号、利用第一噪声方向对应的滤波器系数，结合N路音频信号生成第一路待处理噪声信号以及利用第二噪声方向对应的滤波器系数，结合N路音频信号生成第二路待处理噪声信号。

待处理目标音频信号是终端基于目标声音方向对应的滤波器系数对N路音频信号进行滤波以及合成的结果。在该过程中，终端可以对N路音频信号中相对于终端处于追焦拍摄区域的声音(目标声音)进行保留，且对相对于终端处于非追焦拍摄区域的声音(噪声)进行抑制。

终端利用该目标声音方向对应的滤波器系数结合N路音频信号生成待处理目标音频信号的公式如下述公式(4)：

y₁表示待处理目标音频信号，其包括N个元素，任一元素用于表示一个频点。该待处理目标音频信号对应的频点数目与第i路音频信号对应的频点相同。该待处理目标音频信号中包括H帧目标音频信号，其中第r帧目标音频信号可以表示为y_1r。

公式(4)中，N表示麦克风的数量，w_1i(ω)为第i个麦克风在目标声音方向对应的滤波器系数，w_1i(ω)中的第j个元素表示对第i路音频信号对应的N个频点中第j个频点的抑制程度。x_i(ω)为终端通过为第i个麦克风获取的音频信号(第i路音频信号)，x_i(ω)中的第j个元素表示该第j个频点的复数域，其表示该第j个频点对应的声音信号的幅值与相位信息。

应该理解的是，当该N个麦克风在目标声音方向对应的滤波器系数中的第j个元素等于1或接近1时，则终端对与该第j个元素相乘的频点对应的音频信号不进行抑制，即为保留，则认为该第j个频点对应的音频信号的方向接近目标声音方向。其他情况则是对与该第j个元素相乘的频点对应的音频信号进行抑制，例如，当该第j个元素等于0或接近0时，则终端对该第j个频点对应的音频信号进行抑制的程度越大，则认为该第j个频点对应的音频信号的方向远离目标声音方向。这表示，目标声音方向对应的滤波器系数中，该目标声音方向的声音对应的系数为1，表示不对音频信号(N路音频信号)中目标声音方向的声音进行抑制；越接近目标声音方向的声音对应的系数越接近1，抑制程度依次减小

第一路待处理噪声信号是终端基于第一噪声方向对应的滤波器系数对N路音频信号进行滤波以及合成的结果。在该过程中，终端可以对N路音频信号中相对于终端接近第一噪声方向的声音进行保留，相对于终端远离第一噪声方向的声音进行抑制。

终端利用该第一噪声方向对应的滤波器系数结合N路音频信号生成待处理目标音频信号的公式如下述公式(5)：

y₂表示第一路待处理噪声信号，其包括N个元素，任一元素用于表示一个频点。该第一路待处理噪声信号对应的频点数目与第i路音频信号对应的频点相同。该第一路待处理噪声信号中包括H帧噪声信号，其中第r帧噪声信号可以表示为y_2r。

公式(5)中，N表示麦克风的数量，w_2i(ω)为第i个麦克风在第一噪声方向对应的滤波器系数，w_2i(ω)中的第j个元素表示对第i路音频信号对应的N个频点中第j个频点的抑制程度。

应该理解的是，当该N个麦克风在第一噪声方向对应的滤波器系数中的第j个元素等于1或接近1时，则终端对与该第j个元素相乘的频点对应的音频信号不进行抑制，即为保留，则认为该第j个频点对应的音频信号的方向接近第一噪声方向。其他情况则是对与该第j个元素相乘的频点对应的音频信号进行抑制，例如，当该第j个元素等于0或接近0时，则终端对该第j个频点对应的音频信号进行抑制的程度越大，则认为该第j个频点对应的音频信号的方向远离第一噪声方向。这表示，第一噪声方向对应的滤波器系数中，该第一噪声方向的声音对应的系数为1，表示不对音频信号(N路音频信号)中第一噪声方向的声音进行抑制；越接近第一噪声方向的声音对应的系数越接近1，抑制程度依次减小。

第二路待处理噪声信号是终端基于第二噪声方向对应的滤波器系数对N路音频信号进行滤波以及合成的结果。在该过程中，终端可以对N路音频信号中相对于终端接近第二噪声方向的声音进行保留，相对于终端远离第二噪声方向的声音进行抑制。

终端利用该第二噪声方向对应的滤波器系数结合N路音频信号生成待处理目标音频信号的公式如下述公式(6)：

y₃表示第二路待处理噪声信号，其包括N个元素，任一元素用于表示一个频点。该第二路待处理噪声信号对应的频点数目与第i路音频信号对应的频点相同。该第二路待处理噪声信号中包括H帧噪声信号，其中第r帧噪声信号可以表示为y_3r。

公式(6)中，N表示麦克风的数量，w_3i(ω)为第i个麦克风在第二噪声方向对应的滤波器系数，w_3i(ω)中的第j个元素表示对第i路音频信号对应的N个频点中第j个频点的抑制程度。

应该理解的是，当该N个麦克风在第二噪声方向对应的滤波器系数中的第j个元素等于1或接近1时，则终端对与该第j个元素相乘的频点对应的音频信号不进行抑制，即为保留，则认为该第j个频点对应的音频信号的方向接近第二噪声方向。其他情况则是对与该第j个元素相乘的频点对应的音频信号进行抑制，例如，当该第j个元素等于0或接近0时，则终端对该第j个频点对应的音频信号进行抑制的程度越大，则认为该第j个频点对应的音频信号的方向远离第二噪声方向。这表示，第二噪声方向对应的滤波器系数中，该第二噪声方向的声音对应的系数为1，表示不对音频信号(N路音频信号)中第二噪声方向的声音进行抑制；越接近第二噪声方向的声音对应的系数越接近1，抑制程度依次减小。

S106.终端基于待处理噪声信号集合与待处理目标音频信号进行处理，除去该待处理目标音频信号中的噪声，得到处理后的目标音频信号，该处理后的目标音频信号中包括追焦区域对应的声音。

步骤S106中，终端可以基于待处理噪声信号集合结合待处理目标音频信号对该待处理目标音频信号进行滤波，滤除其中包括的噪声以得到滤波后的目标音频信号。

在一些示例中，在对待处理目标音频信号进行滤波得到滤波后的目标音频信号的过程中，由于待处理噪声信号集合中可能包括目标声音，因此终端首先可以利用待处理目标音频信号作为参考，滤除该待处理噪声信号集合中包括的目标声音，得到参考噪声信号集合，该参考噪声信号集合中包括的目标声音被滤除了，可以理解为目标声音减少了或者不包括目标声音只包括噪声。然后终端可以利用该参考噪声信号集合作为参考，对待处理目标音频信号进行滤波，滤除其中包括的噪声，得到滤波后的目标音频信号。对该示例的详细描述可以参考下述对步骤S401的描述，此处暂不赘述。

应该理解的是，该示例中，终端利用待处理目标音频信号作为参考，滤除该待处理噪声信号集合中包括的目标声音，得到参考噪声信号集合的目的在于：使得该参考噪声信号集合中的目标声音被滤除，可以理解为目标声音减小或者不再包括目标声音只包括噪声。这样，在以参考噪声信号集合为参考对待处理目标音频信号进行滤波，滤除其中包括的噪声时，可以减少以下错误发生的概率：把待处理目标音频信号中的目标声音识别成为噪声除去，导致待处理目标音频信号中不仅噪声被滤除了，目标声音也被滤除了。因为这里参考噪声信号集合中的目标声音已经被滤除了，可以理解为目标声音减少或者不包括目标声音只包括噪声，则以该参考噪声信号集合作为参考去滤除待处理目标音频信号中的噪声时，可以减少该待处理目标音频信号中的目标声音也被滤除的概率，提升滤波的准确性。

该示例中，参考噪声信号集合中包括T路参考噪声信号。第i路参考噪声信号是终端利用待处理目标音频信号作为参考，对第i路待处理噪声信号进行滤波，滤除其中包括的目标声音以得到的音频信号。对该过程的详细内容可以参考下述对步骤S401的描述，此处暂不赘述。

在一些示例中，该滤波后的目标音频信号中仍然可能还包括噪声，所以可以基于滤波后的噪声信号集合作参考，对该滤波后的目标音频信号再一次进行滤波，滤除其中包括的噪声，得到处理后的目标音频信号。该示例的详细过程可以参考下述对步骤S404的描述，此处暂不赘述。

其中，滤波后的噪声信号集合中包括T路滤波后的噪声信号。第i路滤波后的噪声信号是终端基于第i路待处理噪声信号结合待处理目标音频信号对该第i路待处理噪声信号进行滤波，滤除其中包括的目标声音以得到的音频信号。终端确定第i路滤波后的噪声信号的过程可以参考下述对步骤S402或者步骤S403的描述，此处暂不赘述。

在一些示例中，在对第i路待处理噪声信号进行滤波得到滤波后的第i路噪声信号的过程中，由于待处理目标音频信号中可能包括噪声，因此终端首先可以利用第i路待处理噪声信号作为参考(该第i路待处理噪声信号中包括的噪声为第i路噪声)，滤除该待处理目标音频信号中包括的第i路噪声，得到第i路参考目标音频信号，该第i路参考目标音频信号中包括的第i路噪声被滤除了，则可以理解为包括的第i路噪声减少或者不包括该第i路噪声。然后终端可以利用该第i路参考目标音频信号作为参考，对第i路待处理噪声信号进行滤波，滤除其中包括的目标声音，得到滤波后的第i路噪声信号。

应该理解的是，该示例中，终端利用第i路待处理噪声信号作为参考，滤除该待处理目标音频信号中包括的第i路噪声，得到第i路参考目标音频信号的目的在于：使得该第i路参考目标音频信号中的第i路噪声被滤除，可以理解为包括的第i路噪声减小或者不再包括该第i路噪声。这样，在以第i路参考目标音频信号为参考对第i路待处理噪声信号进行滤波，滤除其中包括的目标声音时，可以减少以下错误发生的概率：把第i路待处理噪声信号中的第i路噪声识别成为目标声音除去，导致第i路待处理噪声信号中不仅目标声音被滤除了，第i路噪声也被滤除了。因为这里第i路参考目标音频信号中的第i路噪声已经被滤除了，可以理解为第i路噪声减小了或者不包括第i路噪声，则以该第i路参考目标音频信号作为参考去滤除第i路待处理噪声信号中的目标声音时，可以减小该第i路待处理噪声信号中的第i路噪声也被滤除的概率，提升滤波的准确性。

下面以该待处理噪声信号集合中包括第一路待处理噪声信号以及包括第二路待处理噪声信号为例进行说明，描述步骤S106的实现过程。当该待处理噪声信号集合中包括更少或者更多的待处理噪声信号时，可以参考以下描述。则此时，前述涉及的滤波后的噪声信号集合中包括滤波后的第一路噪声信号以及滤波后的第二路噪声信号；前述涉及的参考噪声信号集合中包括第一路参考噪声信号以及第二路参考噪声信号。其中，该第一路参考噪声信号为对第一路待处理噪声信号进行滤波，滤除其中包括的目标声音之后的音频信号；该第二路参考噪声信号为对第二路待处理噪声信号进行滤波，滤除其中包括的目标声音之后的音频信号。

基于前述描述可知，在滤除一个音频信号(后文中称为被滤波音频信号)中的部分声音(被滤波声音)时，可以利用另外一个音频信号(后文中称为参考音频信号)做参考，然后，终端可以确定出该参考音频信号中包括的被滤波声音，从而除去该被滤波音频信号中与该被滤波声音相同的声音，得到滤波后的音频信号。该参考音频信号中可以包括该被滤波声音且尽可能少的包括其他声音或者不包括其他声音，防止终端将参考音频信号中的其他声音确定为被滤波声音从而导致误差，这样可以提升滤波效果。

图15示出了终端得到处理后的目标音频信号的一个示例性流程图。

S401.终端基于第一路待处理噪声信号以及第二路待处理噪声信号结合待处理目标音频信号对该待处理目标音频信号进行滤波，滤除该待处理目标音频信号中包括的噪声，得到滤波后的目标音频信号。

表2示出的了终端得到滤波后的目标音频信号时涉及的利用关系。

表2

结合表2可知，终端首先可以利用待处理目标音频信号作为参考，分别滤除该第一路处理噪声信号以及第二路待处理噪声信号中包括的目标声音，得到第一路参考噪声信号以及第二路参考噪声信号。然后，终端利用该第一路参考噪声信号以及第二路参考噪声信号作参考，滤除该待处理目标音频信号中包括的噪声，得到滤波后的目标音频信号。

其中，基于前述内容可知，该待处理目标音频信号中有H帧目标音频信号，终端对待处理目标音频信号的每一帧目标音频信号都进行滤波，则可以得到滤波后的目标音频信号。其中包括第一帧目标音频信号，该第一帧目标音频信号可以为待处理目标音频信号中的第k帧目标音频信号；终端对该第一帧目标音频信号进行滤波，得到滤波后的第一帧目标音频信号的过程为：终端首先可以利用第一帧目标音频信号作为参考，分别滤除该第一帧噪声信号以及第二帧噪声信号中包括的目标声音，得到第一帧参考噪声信号以及第二帧参考噪声信号。然后，终端利用该第一帧参考噪声信号以及第二帧参考噪声信号作参考，滤除该第一帧目标音频信号中包括的噪声，得到滤波后的第一帧目标音频信号。该第一路待处理噪声信号中有H帧噪声信号，该第一帧噪声信号可以为第一路待处理噪声信号中的第k帧噪声信号；该第二路待处理噪声信号中有H帧噪声信号，该第二帧噪声信号可以为第二路待处理噪声信号中的第k帧噪声信号，其中，k＝{k∈N+|1≤k≤H}。

图16示出了终端生成滤波后的第一帧目标音频信号的示例性流程图。

终端对该第一帧目标音频信号进行滤波，得到滤波后的第一帧目标音频信号的过程可以参考下述对步骤S501-步骤S506的描述。

S501.终端获取第一滤波器以及第二滤波器；其中，第一滤波器用于滤除第一帧噪声信号以及第二帧噪声信号中的目标声音，第二滤波器用于滤除第一帧目标音频信号中包括的噪声。

这里终端获取第一滤波器以及第二滤波器的时间没有先后之分。后续获取第三滤波器以及第四滤波器；获取第五滤波器以及第六滤波器的时间仍然没有先后之分。

第一滤波器可以用于以第一帧目标音频信号为参考，分别确定出该第一帧噪声信号以及第二帧噪声信号中包括的目标声音，从而滤除第一帧噪声信号以及第二帧噪声信号中包括的目标声音，得到第一帧参考噪声信号以及第二帧参考噪声信号。

该第一滤波器中包括N个元素，其中，第i个元素用于以第一帧目标音频信号中第i个频点作为参考，确定出噪声信号中第i个频点中包括的目标声音，然后除去该噪声信号中第i个频点中包括的目标声音。其中，该噪声信号包括第一帧噪声信号以及第二帧噪声信号。

第二滤波器可以用于以第一帧参考噪声信号以及第二帧参考噪声信号为参考，确定出该第一帧目标音频信号中包括的噪声，从而滤除该第一帧目标音频信号中的噪声，得到滤波后的第一帧目标音频信号。

该第二滤波器中包括N个元素，其中，第i个元素用于以第一帧参考噪声信号以及第二帧参考噪声信号中第i个频点作为参考，确定出第一帧目标音频信号中第i个频点中包括的噪声，然后除去该第一帧目标音频信号中第i个频点中包括的噪声。

在一些示例中，终端可以对该第一滤波器更新，以使得其可以更准确的确定出该第一帧噪声信号以及第二帧噪声信号中包括的目标声音，从而更好的滤除第一帧噪声信号以及第二帧噪声信号中包括的目标声音。其中，更新第一滤波器的时机以及更新该第一滤波器的过程可以参考下述对步骤S502以及步骤S503的描述，此处暂不赘述。

在另一些示例中，终端还可以对该第二滤波器更新，以使得其可以更准确的确定出该第一帧目标音频信号中包括的噪声，从而更好的滤除第一帧目标音频信号中包括的噪声。其中，更新第二滤波器的时机以及更新该第二滤波器的过程可以参考下述对步骤S502以及步骤S504的描述，此处暂不赘述。

S502.终端确定该第一帧目标音频信号中是否包括目标声音。

基于前述内容可知，待处理目标音频信号中可以包括目标声音，还可以包括部分噪声。

该第一帧目标音频信号为频域上的音频信号，可以表示为N个频点，在终端确定N个频点中携带目标声音的频点数量大于或者等于第一阈值时，终端可以确定该第一帧目标音频信号中包括目标声音。可以理解为，此时终端可以确定该第一帧目标音频信号中包括的目标声音大于或者等于第一阈值，该第一帧目标音频信号中包括的是目标声音(噪声较少或者不包括噪声)。在终端确定N个频点中携带目标声音的频点数量小于或者等于第一阈值时，终端可以确定该第一帧目标音频信号中包括噪声。可以理解为，此时终端可以确定该第一帧目标音频信号中包括的目标声音小于或者等于第一阈值，该第一帧目标音频信号中包括的是噪声(目标声音较少或者不包括目标声音)。

在终端确定该第一帧目标音频信号中包括目标声音的情况下，终端可以执行下述步骤S503。在步骤S503中，终端可以更新第一滤波器，将更新后的第一滤波器作为第一滤波器，该第一滤波器可以基于第一帧目标音频信号作参考，确定出第一帧噪声信号以及第二帧噪声信号中包括的目标声音，从而基于该确定出的目标声音滤除第一帧噪声信号以及第二帧噪声信号中包括的目标声音。更新第一滤波器的目的在于使得终端可以更准确的确定出该第一帧噪声信号以及第二帧噪声信号中包括的目标声音，使得到第一帧参考噪声信号以及第二帧参考噪声信号中包括的目标声音被滤除的更好。其中，终端更新第一滤波器的详细描述可以参加下述对步骤S503的描述，此处暂不赘述。

在终端确定该第一帧目标音频信号中不包括目标声音的情况下，可以理解为包括的是噪声，终端可以不更新第一滤波器，执行下述步骤S504。在该步骤S504中，终端可以更新第二滤波器，将更新后的第二滤波器作为第二滤波器，该第二滤波器可以基于第一帧参考噪声信号以及第二帧参考噪声信号为参考，确定出该第一帧目标音频信号中包括的噪声，从而基于该确定出的噪声滤除该第一帧目标音频信号中的噪声，得到滤波后的第一帧目标音频信号。更新第二滤波器的目的在于使得终端可以更准确的确定出该第一帧目标音频信号中包括的噪声，使得到滤波后的第一帧目标音频信号中包括的噪声被滤除的更好。其中，终端更新第二滤波器的详细描述可以参加下述对步骤S504的描述，此处暂不赘述。

在一些示例中，终端可以对该第一帧目标音频信号进行语音活动检测(voiceactivity detection,VAD)，确定其中每个频点是否携带目标声音。其中，该第一帧目标音频信号中的每一个频点都对应一个语音活动检测(VAD)值，则终端对该第一帧目标音频信号进行语音活动检测得到的结果为N个VAD值。其中包括第一频点，该第一频点可以为该第一帧目标音频信号中的任一频点。该第一频点的VAD值为1时表示该第一频点携带了目标语音，该第一频点的VAD值为0时表示该第一频点没有携带目标语音，其携带的可以是噪声或者不携带语音。对于第一帧目标音频信号中的第i个频点。终端可以基于下述公式(7)，确定该第i个频点的VAD值。

公式(7)中，pow(V₁(i))表示第一帧目标音频信号中第i个频点的能量，pow(V₂(i))表示第一帧噪声信号中第i个频点的能量，pow(V₃(i))表示第二帧噪声信号中第i个频点的能量。α为系数，其取值范围为(0.8，1.2)。公式(7)表示，在第一帧目标音频信号中第i个频点的能量大于第一帧噪声信号中第i个频点以及第二帧噪声信号中第i个频点的平均能量乘以系数之后的能量时，该第i个频点的VAD值为1；在目标音频信号中第i个频点的能量小于第一帧噪声信号中第i个频点以及第二帧噪声信号中第i个频点的平均能量乘以系数之后的能量时，该第i个频点的VAD值为0；在目标音频信号中第i个频点的能量等于第一帧噪声信号中第i个频点以及第二帧噪声信号中第i个频点的平均能量乘以系数之后的能量时，该第i个频点的VAD值可以为0也可以为1。其中，一个频点可以表示为一个复数，一个频点的能量可以表示为该复数实部的平方加上该复数虚部的平方之和。

应该理解的是，前述公式(7)是一个示例，在其他的示例中，终端也可以用其他的方式确定第i个频点的VAD值，不应该构成对本申请实施例的限定。

S503.终端对第一滤波器进行更新，将更新后的第一滤波器作为第一滤波器；

在第一帧目标音频信号中包括目标声音的情况下，终端对该第一滤波器进行更新。这样终端可以用第一帧目标音频信号作为参考，更准确的确定出该第一帧噪声信号以及第二帧噪声信号中包括的目标声音，使得到第一帧参考噪声信号以及第二帧参考噪声信号中包括的目标声音被滤除的更好。

其中，终端可以基于下述公式(8)对第一滤波器进行更新。

公式(8)中，其中，e(n)表示残差信号,X₁表示第一帧目标音频信号，在终端利用第一滤波器滤除第一帧噪声信号中包括的目标声音时，Z₁表示第一帧噪声信号；在终端利用第一滤波器滤除第二帧噪声信号中包括的目标声音时，Z₁表示第二帧噪声信号，/>表示更新前的第一滤波器；公式(8)中，等式左边(只有/>的一边)的/>表示更新后的第一滤波器，等式右边的/>表示更新前的第一滤波器，θ为系数，可以等于0.04；β为系数，可以等于0.001。|X₁|²表示该前一帧目标音频信号的能量谱，其中包括该前一帧目标音频信号中每个频点的能量。

S504.终端对第二滤波器进行更新，将更新后的第二滤波器作为第二滤波器。

在第一帧目标音频信号中不包括目标声音的情况下，终端对该第二滤波器进行更新。这样终端可以基于第一帧参考噪声信号以及第二帧参考噪声信号作为参考，更准确的确定出该第一帧目标声音信号中包括的噪声，使得到滤波后的第一帧目标声音信号中包括的噪声被滤除的更好。

其中，终端可以基于下述公式(9)对第二滤波器进行更新。

公式(9)中，其中，e(n)表示残差信号，Z₂表示第一帧目标音频信号，当终端利用第二滤波器滤除第一帧目标音频信号中包括的第一路噪声时，X₂表示第一帧参考噪声信号，当终端利用第二滤波器滤除第一帧目标音频信号中包括的第二路噪声时，X₂表示第二帧参考噪声信号，/>表示更新前的第二滤波器；公式(8)中，等式左边(只有的一边)的/>表示更新后的第二滤波器，等式右边的/>表示更新前的第二滤波器，θ为系数，可以等于0.04；β为系数，可以等于0.001。|X₁|²表示该前一帧目标音频信号的能量谱，其中包括该前一帧目标音频信号中每个频点的能量。

S505.终端将第一帧目标音频信号作为参考，利用第一滤波器分别滤除第一帧噪声信号以及第二帧噪声信号中的目标声音，得到第一帧参考噪声信号以及第二帧参考噪声信号。

终端可以将第一帧目标音频信号作为参考，利用第一滤波器结合该第一帧目标音频信号确定出该第一帧噪声信号中包括的目标声音，从该第一帧噪声信号中除去该确定的目标声音，得到第一帧参考噪声信号。该过程涉及的公式可以参考下述公式(10)。

公式(10)中，Yblock₁₁表示第一帧参考噪声信号，Yref₁表示第一帧噪声信号，Ytarget₁表示第一帧目标音频信号，表示第一滤波器。其中，/>表示利用第一滤波器结合该第一帧目标音频信号确定出该第一帧噪声信号中包括的目标声音。

终端可以将第一帧目标音频信号作为参考，利用第一滤波器结合该第一帧目标音频信号确定出该第二帧噪声信号中包括的目标声音，从该第二帧参考噪声信号中除去该确定的目标声音，得到第二帧参考噪声信号。该过程涉及的公式可以参考下述公式(11)。

公式(11)中，Yblock₁₂表示第二帧参考噪声信号，Yref₂表示第二帧噪声信号，Ytarget₁表示第一帧目标音频信号，表示第一滤波器。其中，/>表示利用第一滤波器结合该第一帧目标音频信号确定出该第二帧噪声信号中包括的目标声音。

S506.终端将第一帧参考噪声信号以及第二帧参考噪声信号作为参考，利用第二滤波器滤除第一帧目标音频信号中包括的噪声，得到滤波后的第一帧目标音频信号。

终端可以将第一帧参考噪声信号以及第二帧参考噪声信号作为参考，利用第二滤波器结合第一帧参考噪声信号以及第二帧参考噪声信号确定出该第一帧目标音频信号中包括的噪声，从该第一帧目标音频信号中除去该确定的噪声，得到滤波后的第一帧目标音频信号。该过程涉及的公式可以参考下述公式(12)。

公式(12)中Gscout₁表示滤波后的第一帧目标音频信号，Ytarget₁表示第一帧目标音频信号，表示第二滤波器，Yblock₁₁表示第一帧参考噪声信号，Yblock₁₂表示第二帧参考噪声信号。

S402.终端基于待处理目标音频信号结合第一路待处理噪声信号对该第一路待处理噪声信号进行滤波，得到滤波后的第一路噪声信号。

表3示出的了终端得到滤波后的第一路噪声信号时涉及的利用关系。

表3

结合表3可知，终端首先可以利用第一路待处理噪声信号作为参考，分别滤除该待处理目标音频信号中包括的第一路噪声，得到第一路参考目标音频信号。然后，终端利用该第一路参考目标音频信号作参考，滤除该第一路待处理噪声信号中包括的目标声音，得到滤波后的第一路噪声信号。

其中，基于前述内容可知，该第一路待处理噪声信号中有H帧噪声信号，终端对第一路待处理噪声信号的每一帧噪声信号都进行滤波，则可以得到滤波后的第一路噪声信号。其中，每一帧噪声信号滤波之后都可以得到滤波后的一帧噪声信号。该第一路待处理噪声信号中包括第一帧噪声信号，该第一帧噪声信号可以为第一路待处理噪声信号中的第k帧噪声信号；终端对该第一帧噪声信号进行滤波，得到滤波后的第一帧噪声信号的过程为：终端首先可以利用第一帧噪声信号作为参考，滤除该第一帧目标音频信号中包括的第一路噪声，得到第一帧参考目标音频信号。然后，终端利用该第一帧参考目标音频信号作参考，滤除该第一帧噪声信号中包括的目标声音，得到滤波后的第一帧噪声信号。该待处理目标音频信号中有H帧目标音频信号，该第一帧目标音频信号可以为待处理目标音频信号中的第k帧目标音频信号；其中，k＝{k∈N+|1≤k≤H}。

图17示出了终端生成滤波后的第一帧噪声信号的示例性流程图。

S601.终端获取第三滤波器以及第四滤波器；其中，第三滤波器用于滤除第一帧目标音频信号中的第一路噪声，第四滤波器用于滤除第一帧噪声信号中包括的目标声音。

第三滤波器可以用于以第一帧噪声信号为参考，确定出该第一帧目标音频中包括的第一路噪声，从而滤除第一帧目标音频信号中包括的第一路噪声，得到第一帧参考目标音频信号。

该第三滤波器中包括N个元素，其中，第i个元素用于以第一帧噪声信号信号中第i个频点作为参考，确定出第一帧目标音频信号中第i个频点中包括的第一路噪声，然后除去该第一帧目标音频信号中第i个频点中包括的第一路噪声。

第四滤波器可以用于以第一帧参考目标音频信号为参考，确定出该第一帧噪声信号中包括的目标声音，从而滤除该第一帧噪声信号中的目标声音，得到滤波后的第一帧噪声信号。

该第四滤波器中包括N个元素，其中，第i个元素用于以第一帧参考目标音频信号中第i个频点作为参考，确定出第一帧噪声信号中第i个频点中包括的目标声音，然后除去该第一帧噪声信号中第i个频点中包括的目标声音。

在一些示例中，终端可以对该第三滤波器更新，以使得其可以更准确的确定出该第一帧目标音频信号中包括的第一路噪声，从而更好的滤除第一帧目标音频信号中包括的第一路噪声。其中，更新第三滤波器的时机以及更新该第三滤波器的过程可以参考下述对步骤S602以及步骤S603的描述，此处暂不赘述。

在另一些示例中，终端还可以对该第四滤波器更新，以使得其可以更准确的确定出该第一帧噪声信号中包括的目标声音，从而更好的滤除第一帧噪声信号中包括的目标声音。其中，更新第四滤波器的时机以及更新该第四滤波器的过程可以参考下述对步骤S602以及步骤S604的描述，此处暂不赘述。

S602.终端确定该第一帧噪声信号中是否包括噪声。

基于前述内容可知，待处理噪声信号中可以包括噪声，还可以包括部分目标声音。

该第一帧噪声信号为频域上的音频信号，可以表示为N个频点，在终端确定N个频点中携带第一路噪声的频点数量大于或者等于第二阈值时，终端可以确定该第一帧噪声信号中包括第一路噪声。可以理解为，此时终端可以确定该第一帧噪声信号中包括的第一路噪声大于或者等于第二阈值，该第一帧噪声信号中包括的是第一路噪声(目标声音较少或者不包括目标声音)。在终端确定N个频点中携带第一路噪声的频点数量小于或者等于第二阈值时，终端可以确定该第一帧噪声信号中包括目标声音。可以理解为，此时终端可以确定该第一帧噪声信号中包括的第一路噪声小于或者等于第二阈值，该第一帧噪声信号中包括的是目标声音(噪声较少或者不包括噪声)。

在终端确定该第一帧噪声信号中包括第一路噪声的情况下，终端可以执行下述步骤S603。在步骤S603中，终端可以更新第三滤波器，将更新后的第三滤波器作为第三滤波器，该第三滤波器可以基于第一帧噪声信号作参考，确定出第一帧目标音频信号中包括的第一路噪声，从而基于该确定出的第一路噪声滤除第一帧目标音频信号中包括的第一路噪声。更新第三滤波器的目的在于使得终端可以更准确的确定出该第一帧目标音频信号中包括的第一路噪声，使得到第一帧目标音频信号中包括的第一路噪声被滤除的更好。其中，终端更新第三滤波器的详细描述可以参加下述对步骤S603的描述，此处暂不赘述。

在终端确定该第一帧噪声信号中不包括第一噪声的情况下，可以理解为包括的是目标声音，终端可以不更新第三滤波器，执行下述步骤S604。在该步骤S604中，终端可以更新第四滤波器，将更新后的第四滤波器作为第四滤波器，该第四滤波器可以基于第一帧参考目标音频信号为参考，确定出该第一帧噪声信号中包括的目标声音，从而基于该确定出的目标声音滤除该第一帧噪声信号中的目标声音，得到滤波后的第一帧噪声信号。更新第四滤波器的目的在于使得终端可以更准确的确定出该第一帧噪声信号中包括的目标声音，使得到滤波后的第一帧噪声信号中包括的目标声音被滤除的更好。其中，终端更新第四滤波器的详细描述可以参加下述对步骤S604的描述，此处暂不赘述。

在一些示例中，终端可以对该第一帧噪声信号进行语音活动检测(voiceactivity detection,VAD)，确定其中每个频点是否携带第一路噪声。其中，该第一帧噪声信号中的每一个频点都对应一个语音活动检测(VAD)值，则终端对该第一帧噪声信号进行语音活动检测得到的结果为N个VAD值。其中包括第二频点，该第二频点可以为该第一帧噪声信号中的任一频点。该第二频点的VAD值为1时表示该第二频点携带了第一路噪声，该第二频点的VAD值为0时表示该第二频点没有携带第一路噪声，其携带的可以是目标声音或者不携带语音。对于第一帧噪声信号中的第i个频点。终端可以基于下述公式(13)，确定该第i个频点的VAD值。

公式(13)中，pow(V₁(i))表示第一帧目标音频信号中第i个频点的能量，pow(V₂(i))表示第一帧噪声信号中第i个频点的能量。α为系数，其取值范围为(0.8，1.2)。公式(13)表示，在第一帧噪声信号中第i个频点的能量大于第一帧目标音频信号中第i个频点的能量乘以系数之后的能量时，该第i个频点的VAD值为1；在第一帧噪声信号中第i个频点的能量小于第一帧目标音频信号中第i个频点的能量乘以系数之后的能量时，该第i个频点的VAD值为0；在第一帧噪声信号中第i个频点的能量等于第一帧目标音频信号中第i个频点的能量乘以系数之后的能量时，该第i个频点的VAD值为0也可以为1。其中，一个频点可以表示为一个复数，一个频点的能量可以表示为该复数实部的平方加上该复数虚部的平方之和。

应该理解的是，前述公式(13)是一个示例，在其他的示例中，终端也可以用其他的方式确定第i个频点的VAD值，不应该构成对本申请实施例的限定。

S603.终端对第三滤波器进行更新，将更新后的第三滤波器作为第三滤波器。

在第一帧噪声信号中包括第一路噪声的情况下，终端对该第三滤波器进行更新。这样终端可以用第一帧噪声信号作为参考，更准确的确定出该第一帧目标音频信号中包括的第一路噪声，使得到第一帧参考目标音频信号中包括的第一路噪声被滤除的更好。

其中，终端可以基于下述公式(14)对第三滤波器进行更新。

公式(14)中，其中，h(n)表示残差信号,X₃表示第一帧噪声信号，Z₃表示第一帧目标音频信号，/>表示更新前的第三滤波器；公式(14)中，等式左边(只有/>的一边)的/>表示更新后的第三滤波器，等式右边的/>表示更新前的第三滤波器，θ为系数，可以等于0.04；β为系数，可以等于0.001。|X₂|²表示该前一帧噪声信号的能量谱，其中包括该前一帧噪声信号中每个频点的能量。

S604.终端对第四滤波器进行更新，将更新后的第四滤波器作为第四滤波器。

在第一帧噪声信号中不包括第一路噪声的情况下，终端对该第四滤波器进行更新。这样终端可以基于第一帧参考目标音频信号作为参考，更准确的确定出该第一帧噪声包括的目标声音，使得到滤波后的第一帧噪声信号中包括的目标声音被滤除的更好。

其中，终端可以基于下述公式(15)对第四滤波器进行更新。

公式(15)中，其中，h(n)表示残差信号,X₄表示第一帧参考目标音频信号，Z₄表示第一帧噪声信号，/>表示更新前的第四滤波器；公式(15)中，等式左边(只有/>的一边)的/>表示更新后的第四滤波器，等式右边的/>表示更新前的第四滤波器，θ为系数，可以等于0.04；β为系数，可以等于0.001。|X₂|²表示该前一帧噪声信号的能量谱，其中包括该前一帧噪声信号中每个频点的能量。

S605.终端将第一帧噪声信号作为参考，利用第三滤波器滤除第一帧目标音频信号中的第一路噪声，得到第一帧参考目标音频信号。

终端可以将第一帧噪声信号作为参考，利用第三滤波器结合该第一帧噪信号确定出该第一帧目标音频信号中包括的第一路噪声，从该第一帧目标音频信号中除去该确定的第一路噪声，得到第一帧参考目标音频信号。该过程涉及的公式可以参考下述公式(16)。

公式(16)中，Yblock₂表示第一帧参考目标音频信号，Yref₂表示第一帧目标音频信号，Ytarget₂表示第一帧噪声信号，表示第三滤波器。其中，/>表示利用第三滤波器结合该第一帧噪声信号确定出该第一帧目标音频信号中包括的第一路噪声。

S606.终端将第一帧参考目标音频信号作为参考，利用第四滤波器滤除第一帧噪声信号中包括的目标声音，得到滤波后的第一帧噪声信号。

终端可以将第一帧参考目标音频信号作为参考，利用第四滤波器结合第一帧参考目标音频信号确定出该第一帧噪声信号中包括的目标声音，从该第一帧噪声信号中除去该确定的目标声音，得到滤波后的第一帧噪声信号。该过程涉及的公式可以参考下述公式(17)。

公式(17)中Gscout₂表示滤波后的第一帧噪声信号，Ytarget₂表示第一帧噪声信号，表示第四滤波器，Yblock₂表示第一帧参考目标音频信号。

S403.终端基于待处理目标音频信号结合第二路待处理噪声信号对该第二路待处理噪声信号进行滤波，得到滤波后的第二路噪声信号。

表4示出的了终端得到滤波后的第二路噪声信号时涉及的利用关系。

表4

结合表4可知，终端首先可以利用第二路待处理噪声信号作为参考，分别滤除该待处理目标音频信号中包括的第二路噪声，得到第二路参考目标音频信号。然后，终端利用该第二路参考目标音频信号作参考，滤除该第二路待处理噪声信号中包括的目标声音，得到滤波后的第二路噪声信号。

其中，基于前述内容可知，该第二路待处理噪声信号中有H帧噪声信号，终端对第二路待处理噪声信号的每一帧噪声信号都进行滤波，则可以得到滤波后的第二路噪声信号。其中，每一帧噪声信号滤波之后都可以得到滤波后的一帧噪声信号。该第二路待处理噪声信号中包括第二帧噪声信号，该第二帧噪声信号可以为第二路待处理噪声信号中的第k帧噪声信号；终端对该第二帧噪声信号进行滤波，得到滤波后的第二帧噪声信号的过程为：终端首先可以利用第二帧噪声信号作为参考，滤除该第一帧目标音频信号中包括的第二路噪声，得到第二帧参考目标音频信号。然后，终端利用该第二帧参考目标音频信号作参考，滤除该第二帧噪声信号中包括的目标声音，得到滤波后的第二帧噪声信号。该待处理目标音频信号中有H帧目标音频信号，该第一帧目标音频信号可以为待处理目标音频信号中的第k帧目标音频信号；其中，k＝{k∈N+|1≤k≤H}。

图18示出了终端生成滤波后的第二帧噪声信号的示例性流程图。

S701.终端获取第五滤波器以及第六滤波器；其中，第五滤波器用于滤除第一帧目标音频信号中的第二路噪声，第六滤波器用于滤除第二帧噪声信号中包括的目标声音。

第五滤波器可以用于以第二帧噪声信号为参考，确定出该第一帧目标音频中包括的第二路噪声，从而滤除第一帧目标音频信号中包括的第二路噪声，得到第二帧参考目标音频信号。

第六滤波器可以用于以第二帧参考目标音频信号为参考，确定出该第二帧噪声信号中包括的目标声音，从而滤除该第二帧噪声信号中的目标声音，得到滤波后的第二帧噪声信号。

在一些示例中，终端可以对该第五滤波器更新，以使得其可以更准确的确定出该第一帧目标音频信号中包括的第二路噪声，从而更好的滤除第一帧目标音频信号中包括的第二路噪声。其中，更新第五滤波器的时机以及更新该第五滤波器的过程可以参考下述对步骤S702以及步骤S703的描述，此处暂不赘述。

在另一些示例中，终端还可以对该第六滤波器更新，以使得其可以更准确的确定出该第二帧噪声信号中包括的目标声音，从而更好的滤除第二帧噪声信号中包括的目标声音。其中，更新第六滤波器的时机以及更新该第六滤波器的过程可以参考下述对步骤S702以及步骤S704的描述，此处暂不赘述。

该步骤S701与前述步骤S601相似，做适应性修改即可。例如可以将步骤S601中涉及第一帧噪声信号及其相关的内容适应性更改为第二帧噪声信号及其相关的内容；将第三滤波器及其相关的内容更新为第五滤波器及其相关的内容，将第四滤波器及其相关的内容更新为第六滤波器及其相关的内容，第一路噪声及其相关的内容更改为第二路噪声及其相关的内容。

S702.终端确定该第二帧噪声信号中是否包括噪声。

该步骤S702与前述步骤S602相似，做适应性修改即可。例如可以将步骤S603中涉及第一帧噪声信号及其相关的内容适应性更改为第二帧噪声信号及其相关的内容；将第三滤波器及其相关的内容更新为第五滤波器及其相关的内容，将第四滤波器及其相关的内容更新为第六滤波器及其相关的内容，第一路噪声及其相关的内容更改为第二路噪声及其相关的内容。

S703.终端对第五滤波器进行更新，将更新后的第五滤波器作为第五滤波器。

该步骤S703与前述步骤S603相似，做适应性修改即可。例如可以将步骤S603中涉及第一帧噪声信号及其相关的内容适应性更改为第二帧噪声信号及其相关的内容；将第三滤波器及其相关的内容更新为第五滤波器及其相关的内容。

S704.终端对第六滤波器进行更新，将更新后的第六滤波器作为第六滤波器。

该步骤S704与前述步骤S604相似，做适应性修改即可。例如可以将步骤S604中涉及第一帧噪声信号及其相关的内容适应性更改为第二帧噪声信号及其相关的内容；将第四滤波器及其相关的内容更新为第六滤波器及其相关的内容。

S705.终端将第二帧噪声信号作为参考，利用第五滤波器滤除第一帧目标音频信号中的第二路噪声，得到第二帧参考目标音频信号。

该步骤S705与前述步骤S605相似，做适应性修改即可。例如可以将步骤S605中涉及第一帧噪声信号及其相关的内容适应性更改为第二帧噪声信号及其相关的内容；第一帧参考目标音频信号及其相关的内容适应性更改为第一帧参考目标音频信号及其相关的内容。

S706.终端将第二帧参考目标音频信号作为参考，利用第六滤波器滤除第二帧噪声信号中包括的目标声音，得到滤波后的第二帧噪声信号。

该步骤S705与前述步骤S605相似，做适应性修改即可。例如可以将步骤S605中涉及第一帧噪声信号及其相关的内容适应性更改为第二帧噪声信号及其相关的内容；第一帧参考目标音频信号及其相关的内容适应性更改为第一帧参考目标音频信号及其相关的内容；滤波后的第一帧噪声信号及其相关的内容适应性更改为滤波后的第二帧噪声信号及其相关的内容。

S404.终端通过滤波后的第一路噪声信号以及滤波后的第二路噪声信号计算噪声谱，基于该噪声谱对滤波后的目标音频信号再一次进行滤波，进一步滤除该滤波后的目标音频信号中包括的噪声，得到处理后的目标音频信号。

该步骤S404是可选的。在一些实例中，该步骤S404不执行的情况下，前述步骤S402以及步骤S403也不执行，终端可以将步骤S401中得到的滤波后的目标音频信号作为处理后的目标音频信号。

在一些可能的情况下，该滤波后的目标音频信号中仍然可能还包括噪声，所以可以基于滤波后的噪声信号集合作参考，对该滤波后的目标音频信号再一次进行滤波，滤除其中包括的噪声，得到处理后的目标音频信号。

噪声谱可以用于表示该滤波后的噪声信号集合中包括噪声的情况。该噪声的情况包括噪声的能量大小以及能量的分布。

此处，该滤波后的噪声信号集合中包括滤波后的第一路噪声信号以及滤波后的第二路噪声信号。则该滤波后的目标音频信号中包括的噪声可以为滤波后的第一路噪声信号中包括的噪声也可以为滤波后的第二路噪声信号中包括的噪声。终端可以基于该滤波后的第一路噪声信号以及滤波后的第二路噪声信号计算噪声谱，再基于该噪声谱估计该滤波后的目标音频信号中的噪声，然后再一次滤除该滤波后的目标音频信号中包括的噪声，得到处理后的目标音频信号。

其中，终端基于该滤波后的第一路噪声信号以及滤波后的第二路噪声信号计算噪声谱的相关公式可以参考下述公式(18)。

公式(18)中，N_k(m)表示噪声谱，其中，k＝{k∈N+|1≤k≤H}，m＝{m∈N+|1≤i≤N}，H表示滤波后的第一路噪声信号以及滤波后的第二路噪声信号中包括H帧滤波后的噪声信号，k表示噪声谱中的第k帧噪声谱信息，m表示该第k帧噪声谱信息中第m个元素对应的值，其中一共包括N个元素。N表示每一帧滤波后的噪声信号中包括N个频点，例如前述涉及的滤波后的第一帧噪声信号以及滤波后的第二帧噪声信号中包括N个频点。其中，噪声谱中第k帧噪声谱信号中第m个元素对应的值是通过滤波后的第一路噪声信号以及滤波后的第二路噪声信号中的第k帧噪声信号中第m个频点确定的。在一些示例中，该确定方式为：将滤波后的第一路噪声信号以及滤波后的第二路噪声信号中的第k帧噪声信号中第m个频点的振幅值之和作为噪声谱中第k帧噪声谱信号中第m个元素对应的值。公式(18)中，即表示该滤波后的第二路噪声信号中的第k帧噪声信号中第m个频点的振幅值，/>即表示该滤波后的第一路噪声信号中的第k帧噪声信号中第m个频点的振幅值。

应该理解的是，前述公式(18)中只是给出了一种计算噪声谱的示例，不应该构成对本申请实施例的限定。

在一些示例中，终端确定噪声谱之后，可以基于噪声谱以及滤波后的目标音频信号利用后置滤波算法估计该滤波后的目标音频信号中的噪声，然后再一次滤除该滤波后的目标音频信号中包括的噪声，得到处理后的目标音频信号。其中，常见的后置滤波算法可以包括最优改进对数谱幅度估计(optimally-modified log-spectral amplitude，OM-LSA)算法或者最小值控制的递归平均(minimum-contraled recursive averaging，MCRA)算法。

S107.终端基于N路音频信号做信号分离，得到N路候选目标音频信号。

应该理解的是，N路音频信号中每一路音频信号中都可以包括Z个被拍摄对象的声音。终端可以基于该N路音频信号做信号分离，得到N路候选目标音频信号。在Z小于等于N的情况下，每一路候选目标音频信号中为一个被拍摄对象的声音，其他被拍摄对象的声音被滤除了。在Z大于N的情况下，每一路候选目标音频信号中可以包括Q个被拍摄对象的声音，其中Q小于Z。

在一些实例中，终端可以基于N路音频信号利用盲源分离(blindsourceseparation，BSS)算法得到N路候选目标音频信号。该过程涉及的相关公式可以参考下述公式(19)。

公式(19)中，N表示麦克风的数量，D(ω)表示N路候选目标音频信号，x_i(ω)表示为终端通过为第i个麦克风获取的音频信号(第i路音频信号)。H_i(ω)表示信号分离过程中涉及的解混矩阵。

此处利用BSS算法做信号分离得到的N路候选目标音频信号中可以存在包括目标声音但是不包括噪声或者噪声被抑制(噪声很小)的M路候选目标音频信号，该M路候选音频信号可以与处理后的目标音频信号进行混音得到混音后的目标音频信号，该混音后的目标音频信号中仍然包括目标声音不包括噪声或者噪声被抑制(噪声很小)。这样做的目的在于，终端在得到处理后的目标音频信号的过程中可能存在误差，例如将噪声作为目标声音、或者将目标声音作为噪声滤除了，则可以利用该M路候选目标音频信号与处理后的目标音频信号进行混音，以修正这些误差导致的结果。该过程可以参考下述对步骤S108-步骤S111的描述。

S108.终端确定N路候选目标频信号与处理后的目标音频信号的相关性，得到相关性大于相关性阈值的M路候选目标音频信号，其中，M为小于等于N且大于等于0的整数。

其中，第i路候选目标频信号与处理后的目标音频信号的相关性用于表示该第i路候选目标频信号与处理后的目标音频信号的相似程度。相关性越大则越相似，终端可以确定该第i路候选目标频信号中包括的目标声音越多噪声越少。

终端可以基于N路候选目标频信号与处理后的目标音频信号的相关性，确定相关性大于相关性阈值的M路候选目标音频信号。该M路候选目标音频信号中包括目标声音不包括噪声或者噪声被抑制(噪声很小)。其中，相关性阈值的取值可以根据需要进行调整，例如可以为0.95或者0.9等。

其中，终端确定第i路候选目标频信号与处理后的目标音频信号的相关性的过程可以参考下述对公式(20)的描述。

式中，γ₁₂(t,f)表示第i路候选目标频信号与处理后的目标音频信号的相关性，φ₁₂(t,f)表示第i路候选目标频信号与处理后的目标音频信号之间的互功率谱，φ₁₁(t,f)表示处理后的目标音频信号的自功率谱，φ₂₂(t,f)表示该第i路候选目标频信号的自功率谱。

其中，求解φ₁₂(t,f)、φ₁₁(t,f)以及φ₂₂(t,f)的公式分别为：

上述3个公式中，E{}为运算符，X₁{t,f}表示该处理后的目标音频信号的幅度与相位信息。X₂{t,f}表示第i路候选目标频信号的幅度与相位信息。

在M等于0的情况下，则表示没有一路候选目标音频信号与处理后的目标音频信号相似(相关)，则终端可以不执行下述步骤S109以及步骤S110，将处理后的目标音频信号作为混音后的目标音频信号，执行步骤S111即可。

S109.在M大于等于2的情况下，终端将M路候选目标音频信号进行混音，得到分离后的候选目标音频信号。

该步骤S109是可选的。在M等于1的情况下，则表示只有一路候选目标音频信号，将该路候选目标音频信号作为分离后的目标音频信号。

终端对该M路候选目标音频信号进行混音，将其合成一路音频信号，将该路音频信号作为分离后的目标音频信号。

在一些示例中，终端对该M路候选目标音频信号可以以1:1比例进行混音。这样，得到的分离后的目标音频信号中第i个频点的值为M路候选目标音频信号中第i个频点的值之和。

S110.终端将分离后的候选目标音频信号与处理后的目标音频信号进行混音，得到混音后的目标音频信号。

在一些示例中，终端可以计算分离后的候选目标音频信号以及处理后的目标音频信号的相关性(记为相关性1)。基于该相关性1确定分离后的候选目标音频信号与处理后的目标音频信号进行混音时涉及的混音比例，基于该混音比例对分离后的候选目标音频信号与处理后的目标音频信号进行混音，得到混音后的目标音频信号。该过程可以参考下述对公式(21)的描述。

公式(21)中，Y_gsc(ω)，表示分离后的候选目标音频信号以及处理后的目标音频信号的相关性，/>即为混音比例，Y_t表示处理后的目标音频信号，Y_s表示分离后的候选目标音频信号。/>越大，则分离后的候选目标音频信号与处理后的目标音频信号越相似，因为现阶段信号分离技术成熟，因此在分离后的候选目标音频信号与处理后的目标音频信号很相似的情况下，可以认为信号分离结果好，在利用分离后的候选目标音频信号以及处理后的目标音频信号生成混音后的目标音频信号时，可以使得分离后的候选目标音频信号对混音后的目标音频信号的贡献更大，即混音时占的比例更大，因此/>作用在分离后的候选目标音频信号上。

其中，该相关性1的计算过程与前述计算第i路候选目标频信号与处理后的目标音频信号的相关性的过程相似。可以参考前述对公式(20)及其相关内容的描述。将其中的第i路候选目标频信号及其相关内容更改为分离后的候选目标音频信号及其相关内容即可，此处不再赘述。

分离后的候选目标音频信号以及处理后的目标音频信号的相关性可以用于表示分离后的候选目标音频信号以及处理后的目标音频信号的相似程度。该相关性越高则分离后的候选目标音频信号以及处理后的目标音频信号越相似。相关性越大则越相似，终端可以确定该分离后的候选目标音频信号中包括的目标声音越多噪声越少。

S111.终端将混音后的目标音频信号进行增强，得到增强后的目标音频信号，作为该追焦图像对应的音频信号。

该步骤S111是可选的。在一些实例中，可以将步骤S110中得到的混音后的目标音频信号作为该追焦图像对应的音频信号。

终端可以确定调整参数，该调整参数是预先设置在终端中的。该调整参数用于对混音后的目标音频信号进行增强，使得该混音后的目标音频的能量变大，分贝变大。

在一些实例中，终端可以通过增大该混音后的目标音频信号的幅值以生成增强后的目标音频信号。在该实例中，该调整参数为一个数值，其单位与幅值的单位相同，为dB。该调整参数用于对混音后的目标音频信号幅值进行增大，该调整参数越大则对混音后的目标音频信号进行增强的程度越大。

应该理解的是，每一帧原始图像对应的追焦图像中显示的内容都是原始图像的一部分(图像追焦区域中的那一部分)，但是终端在播放该追焦图像时，显示该追焦图像的区域通常大于图像追焦区域(前述涉及的第一图像区域)，此时被播放的追焦图像通常和原图像一样大。相当于播放时会将该追焦图像放大，通常可以放大至与原始图像一样大。例如，可以参考前述示出的图10A-图10B中的(a)以及参考前述示出的图10A-图10B中的(b)。因此终端可以将该混音后的目标音频信号进行增强以适应被播放的追焦图像。

在一些可能得情况下，该调整参数的取值与图像追焦区域(前述实施例1中的第一图像区域)和被播放的追焦图像的大小相关。被播放的追焦图像的大小与追焦图像区域的大小相差越大，则该调整参数越大。例如，图像追焦区域与被播放的追焦图像的长边之比越大，则终端可以将该调整参数设置得小一点。图像追焦区域与被播放的追焦图像的长边之比越小，则终端可以将该调整参数设置得大一点。这样可以使得增强后的目标音频信号可以更好的适应被播放的追焦图像。

在一些实例中，终端可以利用自动电平控制(automatic gain control，AGC)或动态范围控制算法(dynamic range compression，DRC)等方法结合调整参数对该混音后的目标音频信号的幅值进行调整。

以终端使用动态范围控制算法结合调整参数对该混音后的目标音频信号的幅值进行调整为例进行详细描述：

此时，终端对该混音后的目标音频信号进行增强的过程可以在时域上进行，终端可以利用反傅里叶变换(inversefourier transform，IFT)将该混音后的目标音频信号从频域转换到时域上。得到时域上的目标音频信号。

该时域上的目标音频信号为数字音频信号，可以为W个模拟的电信号的采样点。终端可以用数组表示该时域上的目标音频信号，数组中的任一个元素用于表示一个采样点，任一元素包括两个值，其中一个值表示时间，另一个值表示该时间对应音频信号的幅值，该幅值的单位为分贝(decibel，dB)，表示该时间对应的音频信号的分贝大小。

应该理解的是时域上的目标音频信号也是混音后的目标音频信号，只是表现形式不同，但其携带的语音信息相同。

然后，终端可以将该时域上的目标音频信号中全部采样点的幅值都进行增强，终端利用该调整参数对时域上的目标音频信号的幅值进行增加的公式如下：

A′_i＝A_i+|D|i∈(1,M) 公式(22)

公式(22)中，A_i表示第i个采样点的幅值，A′_i表示调整后的幅值。D为调整参数。M为时域上的目标音频信号的采样点总数。

终端再将该增强后的时域上的目标音频信号转化为到频域上，得到增强后的目标音频信号，将该增强后的目标音频信号作为该追焦图像对应的音频信号。

应该理解的是，上述步骤S101-步骤S111描述了在录制视频时，终端实时对获取的图像以及N路音频信号进行处理得到追焦视频的过程。对该过程的描述除了在实施例1中适用以外，对下述实施例2-实施例4同样适用。实施例2-实施例4描述了终端触发图像追焦以及音频追焦的其他时机，对于实施例2-实施例4的描述可以参考下述描述。

实施例2：终端触发执行图像追焦以及音频追焦的时机(后文中可以称为时机2)为：在预览过程中，终端先检测到针对追焦控件的操作，响应于该操作，终端可以改变追焦控件的显示状态以提示用户终端在确定焦点之后可以进行图像追焦以及音频追焦。再检测到针对开始录像控件的操作之后，在第一时间阈值内没有检测到用户针对原图像选择焦点的操作时，终端可以基于原图像自动确定一个焦点，终端确定焦点之后即可进行图像追焦以及音频追焦。

其中，实施例2涉及的示例性用户界面可以参考下述对图19A-图19E的描述。

图19B-图19E中，终端利用后置摄像头录制视频。此时，被拍摄对象可以包括被拍摄对象101(小女孩)、被拍摄对象102(小男孩A)、被拍摄对象103(男子)、被拍摄对象104(小男孩B)以及被拍摄对象105(小狗)等。其中，图19B-图19C为终端预览过程中涉及的一组示例性用户界面，预览过程中终端还没有开始录制视频。图19D以及图19E为终端录制视频的过程中涉及的一组示例性用户界面，此时终端除了录制原视频以外，还可以利用本申请涉及的视频处理方法录制追焦视频。

如图19A所示，终端可以显示用户界面20，该用户界面20为终端的一个桌面。该用户界面20中显示有相机应用图标501以及图库应用图标502。终端可以检测到用户作用于相机应用图标501上的操作(例如单击操作)，响应于该操作，终端可以显示如图19B所示的用户界面21。

如图19B所示，用户界面21为终端开始录制视频之前涉及的一个示例性预览界面，该用户界面21中可以包括“录像模式”控件512以及追焦控件521等控件。其中，“录像模式”控件512可以用于触发终端进入录像模式，开始录制视频。

该用户界面21中还包括追焦控件521，此时，该追焦控件521的显示状态为第一状态，第一状态下该追焦控件521是以虚线的形式呈现的。该追焦控件521可以使得终端从普通的录像模式转换到特殊的录像模式(追焦模式)，该特殊的录像模式即为终端可以录制两个视频，其中一个为原视频，另一个为追焦视频。

在该追焦控件521的显示状态为第一状态的情况下，检测到针对该追焦控件521的操作(例如单击操作)，该追焦控件521的显示状态可以从第一状态切换为第二状态以提示用户终端在确定焦点之后即可以进行图像追焦以及音频追焦以获取追焦视频了。此时，终端可以显示如下图19C所示的用户界面22。

如图19C所示，用户界面22为终端进入录像模式之后的另一个示例性预览界面。该用户界面22中还可以包括开始录像控件540，终端检测到针对开始录像控件540的操作，响应于该操作，终端开始录制原视频，显示如图19D中示出的用户界面23。

如图19D所示，该用户界面23中可以包括录制时长提示552，图19D中终端录制的是第0s的视频。此时，终端可以获取原图像730。

在一些可能的情况下，终端在用户界面23中可以显示多个识别框，如图19D所示，用户界面23中可以包括识别框530-识别框533。其中，识别框530-识别框533中可以包括用户最有可能确定焦点的内容，例如该内容可以为被拍摄对象的人脸。

在另一些可能的情况下，终端在用户界面23中可以不显示识别框。

在终端检测到针对开始录像控件540的操作之后，在第一时间阈值内没有检测到用户针对原图像选择焦点的操作的情况下，终端可以基于原图像自动确定一个焦点。例如，该第一时间阈值可以为5s。终端可以确定原图像中与该原图像的几何中心最近的一个识别框的几何中心为焦点。此时，终端可以显示如图19E所示的用户界面24。

如图19E所示，终端在中可以包括录制时长提示552，图19E中终端录制的是第5s的视频。此时，终端可以获取原图像740。此时，终端可以确定检测到针对开始录像控件540的操作之后，在第一时间阈值内没有检测到用户针对原图像选择焦点的操作，则终端可以确定该原图像740中与该原图像740的几何中心最近的识别框532的几何中心为焦点，例如焦点D。然后，终端可以基于该焦点D确定第一图像区域，基于第一图像区域中的内容生成追焦图像940。此时，焦点(图中焦点D)在原图像740的中间区域，则第二图像区域(区域741)也为原图像740的中间区域。追焦图像940对应的音频信号中包括区域741中显示的被拍摄对象的声音。

后续终端检测到用户针对原图像确定焦点的操作之后，可以确定新的焦点，基于该新的焦点生成追焦视频。在终端没有检测到用户针对原图像确定焦点的操作时，终端可以基于该焦点D生成追焦视频。可选的，对音频的追焦处理的第一帧是用户点击开始录像控件后，终端确定焦点之后的第一帧音频。可选的，检测到点击结束录像控件的操作之后，终端不再进行音频的追焦处理，结束录制，生成追焦视频。后续终端生成追焦视频的过程可以参考前述对实施例1中相关内容的描述，此处不再赘述。

在其他的实例中，终端确定焦点的方式还可以包括其他的方式，具体可以参考前述对相关内容的描述，此处不再赘述。

应该理解的是，实施例2中各用户界面中与实施例1中各用户界面中形状相同的控件涉及的功能和作用相同，对其的描述可以参考前述对实施例1中相关控件的描述，此处实施例2只是为了描述终端触发图像追焦和视频追焦的时机不同，不再赘述各控件的功能和作用。

还应该理解的是，前述图19B以及图19C中，终端是以第二方式通知用户终端进入了特殊的录像模式(追焦模式)的。在另一些可能的情况下，终端还可以通过前述涉及的第一方式通知用户终端进入了特殊的录像模式(追焦模式)。此时，前述涉及的图19B以及图19C中可以分别替换成前述图5B以及图5C。对图19B以及图19C的相关描述也可以分别适应性替换成前述图5B以及图5C对应的相关描述。

实施例3：终端触发执行图像追焦以及音频追焦的时机(后文中可以称为时机3)为：在预览过程中，终端先检测到针对追焦控件的操作，响应于该操作，终端可以改变追焦控件的显示状态以提示用户终端在确定焦点之后可以进行图像追焦以及音频追焦。再检测到针对开始录像控件的操作之后即可基于原图像自动确定一个焦点，然后可以触发进行图像追焦以及音频追焦。

其中，实施例3涉及的示例性用户界面可以参考下述对图20A-图20D的描述。

图20B-图20D中，终端利用后置摄像头录制视频。此时，被拍摄对象可以包括被拍摄对象101(小女孩)、被拍摄对象102(小男孩A)、被拍摄对象103(男子)、被拍摄对象104(小男孩B)以及被拍摄对象105(小狗)等。其中，图20B以及图20C为终端预览过程中涉及的一组示例性用户界面，预览过程中终端还没有开始录制视频。图20D为终端录制视频的过程中涉及的一组示例性用户界面，此时终端除了录制原视频以外，还可以利用本申请涉及的视频处理方法录制追焦视频。

如图20A所示，终端可以显示用户界面80，该用户界面80为终端的一个桌面。该用户界面80中显示有相机应用图标501以及图库应用图标502。终端可以检测到用户作用于相机应用图标501上的操作(例如单击操作)，响应于该操作，终端可以显示如图20B所示的用户界面81。

如图20B所示，用户界面81为终端开始录制视频之前涉及的一个示例性预览界面，该用户界面81中可以包括“录像模式”控件512以及追焦控件521等控件。其中，“录像模式”控件512可以用于触发终端进入录像模式，开始录制视频。

该用户界面81中还包括追焦控件521，此时，该追焦控件521的显示状态为第一状态，第一状态下该追焦控件521是以虚线的形式呈现的。该追焦控件521可以使得终端从普通的录像模式转换到特殊的录像模式(追焦模式)，该特殊的录像模式即为终端可以录制两个视频，其中一个为原视频，另一个为追焦视频。

在该追焦控件521的显示状态为第一状态的情况下，检测到针对该追焦控件521的操作(例如单击操作)，该追焦控件521的显示状态可以从第一状态切换为第二状态以提示用户终端进入了追焦模式，在确定焦点之后即可以进行图像追焦以及音频追焦以获取追焦视频了。此时，终端可以显示如下图20C所示的用户界面82。

如图20C所示，用户界面82为终端进入录像模式之后的另一个示例性预览界面。该用户界面82中还可以包括开始录像控件540，终端检测到针对开始录像控件540的操作，响应于该操作，终端开始录制原视频，同时可基于原图像自动确定一个焦点，基于该焦点开始图像追焦以及音频追焦，此时，终端可以显示如图20D中示出的用户界面83。

如图20D所示，用户界面83中包括录制时长提示552，图20D中终端录制的是第0s的视频，此时，终端可以获取原图像830。在检测到针对开始录像控件540的操作之后，终端可以基于原图像830确定一个焦点。在一些实例中，终端可以对原图像830进行人脸识别，确定其中最接近原图像830的几何中心的人脸中心为焦点，例如，焦点E。然后，终端可以基于该焦点E确定第一图像区域，基于第一图像区域中的内容生成追焦图像830。此时，焦点(图中焦点E)在原图像830的中间区域，则第二图像区域(区域831)也为原图像830的中间区域。追焦图像830对应的音频信号中包括区域831中显示的被拍摄对象的声音。

后续终端检测到用户针对原图像确定焦点的操作之后，可以确定新的焦点，基于该新的焦点生成追焦视频。在终端没有检测到用户针对原图像确定焦点的操作时，终端可以基于该焦点E生成追焦视频。后续终端生成追焦视频的过程可以参考前述对实施例1中相关内容的描述，此处不再赘述。

应该理解的是，实施例3中各用户界面中与实施例1中各用户界面中形状相同的控件涉及的功能和作用相同，对其的描述可以参考前述对实施例1中相关控件的描述，此处实施例3只是为了描述终端触发图像追焦和视频追焦的时机不同，不再赘述各控件的功能和作用。

可选的，对音频的追焦处理的第一帧是用户点击开始录像控件后，终端确定焦点之后的第一帧音频。可选的，检测到点击结束录像控件的操作之后，终端不再进行音频的追焦处理，结束录制，生成追焦视频。

还应该理解的是，前述图20B以及图20C中，终端是以第二方式通知用户终端进入了特殊的录像模式(追焦模式)的。在另一些可能的情况下，终端还可以通过前述涉及的第一方式通知用户终端进入了特殊的录像模式(追焦模式)。此时，前述涉及的图20B以及图20C中可以分别替换成前述图5B以及图5C。对图20B以及图20C的相关描述也可以分别适应性替换成前述图5B以及图5C对应的相关描述。

实施例4：终端触发执行图像追焦以及音频追焦的时机(后文中可以称为时机4)为：在终端检测到针对开始录像控件的操作之后，再检测到针对追焦控件的操作之后，响应于该操作，终端可以改变追焦控件的显示状态以提示用户终端在确定焦点之后可以进行图像追焦以及音频追焦。然后，在终端确定焦点之后，可以开始图像追焦以及音频追焦。其中，终端确定焦点的方式可以与前述实施例1-实施例3相同，此处以与实施例1相同为例进行说明。该过程可以参考下述对图21A-图21E的描述。

图21B-图21E中，终端利用后置摄像头录制视频。此时，被拍摄对象可以包括被拍摄对象101(小女孩)、被拍摄对象102(小男孩A)、被拍摄对象103(男子)、被拍摄对象104(小男孩B)以及被拍摄对象105(小狗)等。其中，图21B为终端预览过程中涉及的一组示例性用户界面，预览过程中终端还没有开始录制视频。图21C-图21E为终端录制视频的过程中涉及的一组示例性用户界面，此时终端除了录制原视频以外，还可以利用本申请涉及的视频处理方法录制追焦视频。

如图21A所述，终端可以显示用户界面210，该用户界面210为终端的一个桌面。该用户界面210中显示有相机应用图标501以及图库应用图标502。终端可以检测到用户作用于相机应用图标501上的操作(例如单击操作)，响应于该操作，终端可以显示如图21B所示的用户界面211。

如图21B所述，用户界面211中包括追焦控件521，此时，该追焦控件521的显示状态为第一状态，第一状态下该追焦控件521是以虚线的形式呈现的。该追焦控件521可以使得终端从普通的录像模式转换到特殊的录像模式，该特殊的录像模式即为终端可以录制两个视频，其中一个为原视频，另一个为追焦视频。

在一些实例中，该用户界面211中可以不包括追焦控件521，以使得该用户界面211相对简洁。

该用户界面211中还包括开始录像控件540，终端检测到针对开始录像控件540的操作，响应于该操作，终端可以开始录制原视频，但是此时终端还没有开始录制追焦视频。终端可以显示如图21C所述的用户界面212。

如图21C所述，该用户界面212中包括追焦控件521，此时，该追焦控件521的显示状态为第一状态，检测到针对该追焦控件521的操作(例如单击操作)，该追焦控件521的显示状态可以从第一状态切换为第二状态以提示用户终端在确定焦点之后即可以进行图像追焦以及音频追焦以获取追焦视频了。此时，终端可以显示如图21D所示的用户界面213。

如图21D所示，用户界面213中追焦控件521的显示状态为第二状态。终端可以获取原图像2140，检测到用户针对原图像2140确定焦点(图中焦点G)的操作之后，响应于该操作，终端可以在原图像2140中确定包括该焦点G的第一图像区域2140a，基于该第一图像区域2140a中的内容生成原图像2140对应的追焦图像。然后，终端可以显示该追焦图像，呈现如图21E中示出的用户界面214。

如图21E所述，用户界面214为终端进行图像追焦以及音频追焦时涉及的一个示例性用户界面。终端可以基于焦点确定该焦点所在的第二图像区域(原图像2140中的区域2141)，此时，焦点(图中焦点G)在原图像2140中偏右的区域，则第二图像区域(区域2141)也为原图像2140中偏右的区域。追焦图像2140对应的音频信号中包括区域2141中显示的被拍摄对象的声音。

可选的，对音频的追焦处理的第一帧音频是：终端进入追焦模式后，在录制过程中，确定焦点之后终端获取的第一帧音频。可选的，检测到点击结束录像控件的操作之后，终端不再进行音频的追焦处理，结束录制，生成追焦视频。

应该理解的是，实施例4中各用户界面中与实施例1中各用户界面中形状相同的控件涉及的功能和作用相同，对其的描述可以参考前述对实施例1中相关控件的描述，此处实施例4只是为了描述终端触发图像追焦和视频追焦的时机不同，不再赘述各控件的功能和作用。

实施例5：终端触发执行图像追焦以及音频追焦的时机(后文中可以称为时机5)为：在原视频录制完成之后，终端在播放该原视频的过程中可以触发图像追焦以及音频追焦。时机5为在播放原视频的过程中，终端检测到针对追焦控件的操作以及确定焦点之后，即可开始图像追焦以及音频追焦。其中，终端确定焦点的方式可以与前述实施例1-实施例3相同，此处以与实施例1相同为例进行说明。该过程可以参考下述对图22A-图22H的描述。

如图22A所示，用户界面90为终端展示图像以及视频时涉及的一个示例性用户界面。其中，用户界面90中可以显示显示原视频对应的展示框900。检测到针对该展示框900的操作(例如点击操作)，响应于该操作，终端可以显示图22B中示出的用户界面91。

如图22B所示，用户界面91为终端对原视频进行设置的一个用户界面。该用户界面91中包括更多设置项控件911，该更多设置项控件911可以用于显示对该原视频的更多设置项。响应于针对该更多设置项控件911的操作(例如点击操作)，终端可以显示如图22C所示的用户界面92。

如图22C所示，用户界面92中可以显示对原视频进行设置的设置项。其中包括追焦模式设置项921。该追焦模式设置项921可以用于接收对该原视频进行图像追焦以及音频追焦的指令。响应于用户在该追焦模式设置项921上的操作(例如点击操作)，终端可以显示如图22D所示的用户界面93。后续，终端可以在播放该原视频的过程中进行图像追焦以及音频追焦得到追焦视频。

如图22D所示，用户界面93中包括开始播放控件931，响应于针对该播放控件931的操作，终端可以开始播放原视频，在播放该原视频的过程中终端可以进行图像追焦以及音频追焦得到追焦视频。

如图22E所示，用户界面94为终端播放该原视频时涉及的一个示例性用户界面。该用户界面94中包括追焦控件521，此时，该追焦控件521的显示状态为第一状态，第一状态下该追焦控件521是以虚线的形式呈现的。在该追焦控件521的显示状态为第一状态的情况下，检测到针对该追焦控件521的操作(例如单击操作)，该追焦控件521的显示状态可以从第一状态切换为第二状态以提示用户终端在确定焦点之后即可以进行图像追焦以及音频追焦以获取追焦视频了。此时，终端可以显示如下图22F所示的用户界面95。

如图22F所示，用户界面95为终端播放该原视频时涉及的另一个示例性用户界面。终端检测到用户针对原图像950确定焦点(图中焦点F)的操作之后，响应于该操作，终端可以在原图像950中确定包括该焦点F的第一图像区域950a，基于该第一图像区域950a中的内容生成原图像950对应的追焦图像。然后，终端可以显示该追焦图像，呈现如图22G中示出的用户界面96。

如图22G所述，用户界面96为终端播放该原视频时进行图像追焦以及音频追焦时涉及的一个示例性用户界面。终端可以基于焦点确定该焦点所在的第二图像区域(原图像950中的区域961)，此时，焦点(图中焦点F)在原图像950中偏右的区域，则第二图像区域(区域961)也为原图像950中偏右的区域。追焦图像950对应的音频信号中包括区域961中显示的被拍摄对象的声音。

后续终端检测到用户针对原图像确定焦点的操作之后，可以确定新的焦点，基于该新的焦点生成追焦视频。后续终端生成追焦视频的过程可以参考前述对实施例1中相关内容的描述，此处不再赘述。

终端生成追焦视频之后，可以显示如下图22H所示的用户界面97。用户界面97为终端展示图像以及视频时涉及的一个示例性用户界面。其中包括原视频对应的展示框970以及在播放该原视频的过程中获取的追焦视频对应的展示框971。

在另一些实例中，终端在显示前述涉及的用户界面91之后，可以不通过更多设置项控件进行追焦模式的设置，即可以直接在播放原视频的过程中进行图像追焦以及音频追焦以获取追焦视频。

应该理解的是，实施例5为终端后期基于原视频进行处理得到追焦视频的一个实施例。该过程中终端生成追焦视频的过程可以参考生成追焦视频的描述。只是在获取原图像生成追焦图像的时机以及获取N路音频信号生成追焦音频的时机不同。具体可以参考下述对步骤S801-步骤S811的描述。

图23中示出了本申请实施例中进行图像追焦以及音频追焦的另一个示例性流程图。

关于该过程的详细描述可以参考下述对步骤S801-步骤S811的描述。

S801.终端获取N路输入音频信号流，N为大于等于2的正整数。

N路输入音频信号流是终端在录制原视频的过程中通过N个麦克风采集的采集被拍摄对象的声音信号。其中包括生成原视频时涉及的输入音频信号集合。第i路输入音频信号流是终端的第i个麦克风在录制原视频的过程中采集的输入音频信号的集合。

S802.终端基于该N路输入音频信号流确定N路音频信号。

该N路音频信号为与原图像在采集时间上相对应的一帧或者多帧输入音频信号转换到时域上之后的音频信号。

S803.终端获取原图像，基于该原图像确定焦点，基于该焦点确定追焦图像。

终端可以基于原视频中的原图像流获取原图像，基于该原图像确定焦点，再基于该焦点确定追焦图像。其中，终端基于该原图像确定焦点以及基于该焦点确定追焦图像的过程可以参考前述对步骤S103中的相关描述，此处不再赘述。

其中，步骤S802以及步骤S803的执行顺序没有先后之后。

S804.终端基于焦点在原图像中的位置确定音频追焦区域。

步骤S804与前述步骤S104涉及的过程相同，可以参考前述对步骤S104的描述，此处不再赘述。

S805.终端基于N路音频信号以及音频追焦区域生成待处理目标音频信号以及该待处理目标音频信号对应的待处理噪声信号集合；其中，该待处理目标音频信号中包括目标声音，该目标声音可以包括音频追焦区域对应的声音，还可以包括部分噪声，该待处理噪声信号集合中包括T路待处理噪声信号，每一路待处理噪声信号中包括噪声，还可以包括部分目标声音。

步骤S805与前述步骤S105涉及的过程相同，可以参考前述对步骤S105的描述，此处不再赘述。

S806.终端基于待处理噪声信号集合与待处理目标音频信号进行处理，除去该待处理目标音频信号中的噪声，得到处理后的目标音频信号，该处理后的目标音频信号中包括音频追焦区域对应的声音但是噪音被滤除了。

步骤S806与前述步骤S106涉及的过程相同，可以参考前述对步骤S106的描述，此处不再赘述。

S807.终端基于N路音频信号做信号分离，得到N路候选目标音频信号。

步骤S807与前述步骤S107涉及的过程相同，可以参考前述对步骤S107的描述，此处不再赘述。

S808.终端确定N路候选目标频信号与处理后的目标音频信号的相关性，得到相关性大于相关性阈值的M路候选目标音频信号，其中，M小于等于N且大于等于0。

步骤S808与前述步骤S108涉及的过程相同，可以参考前述对步骤S108的描述，此处不再赘述。

S809.在M大于等于2的情况下，终端将M路候选目标音频信号进行混音，得到分离后的目标音频信号。

步骤S809与前述步骤S109涉及的过程相同，可以参考前述对步骤S109的描述，此处不再赘述。

S810.终端将分离后的目标音频信号与处理后的目标音频信号进行混音，得到混音后的目标音频信号。

步骤S810与前述步骤S110涉及的过程相同，可以参考前述对步骤S110的描述，此处不再赘述。

S811.终端将混音后的目标音频信号进行增强，得到增强后的目标音频信号，作为该追焦图像对应的音频信号。

步骤S811与前述步骤S111涉及的过程相同，可以参考前述对步骤S111的描述，此处不再赘述。

应该理解的是，上述各实施例中，各用户界面中包括的控件是举例说明，终端可以显示更多或者更少的控件，且控件的形态可以变化。例如，用户界面中显示追焦图像的区域中，可以包括比追焦暂停控件522以及录像状态切换控件523更少的控件，例如只包括追焦暂停控件522或者录像状态切换控件。还可以包括其他的控件，例如关闭控件，该关闭控件可以用于不再显示追焦图像。用户界面中显示追焦图像的区域中还可以不包括任何控件。用户界面中显示追焦图像的区域中，可以包括比追焦暂停控件522以及录像状态切换控件523更多的控件，例如，还可以包括追焦暂停控件(图中为示出，与暂停录像控件554相似)，该追焦暂停控件为用户提供控制终端暂停录制追焦视频的功能。当终端检测到针对该追焦暂停的操作，响应于该操作，终端可以暂停录制追焦视频。此时，该用户界面中显示该追焦暂停控件的区域可以显示重启追焦控件(图中未示出)，该重启追焦控件可以用于终端重新开始录制追焦视频。

对于上述各实施例，终端在确定焦点之后，在后续的录制过程中可能会出现焦点移动到终端的拍摄范围之外的情况，如果该焦点移动到拍摄范围之外的时间持续达到预设时间没有重新出现在终端的拍摄范围内，则终端可以停止图像追焦或者音频追焦，在预设时间内终端可以设置一个新的焦点进行图像追焦或者视频追焦，该预设时间可以根据实际需要进行调整，例如可以为1s。此时，终端还可以显示提示信息以提示用户“焦点丢失”，该提示信息的内容可以为：“焦点丢失，终端将停止图像追焦以及音频追焦”。其中，焦点丢失即是指焦点移动到终端的拍摄范围之外。在一些情况中，若焦点在预设时间内重新出现在终端的拍摄范围内，则终端可以基于该焦点进行图像追焦或者音频追焦。

除了上述各实施例中涉及的触发进行图像追焦以及音频追焦的时机以外，还包括其他的触发时间，例如，在预览过程中，终端首先检测到针对追焦控件的操作，然后检测到用户针对原图像确定焦点的操作，再检测到用户点击开始录像控件之后，即可以触发进行图像追焦以及音频追焦。

在另一些实施例中，参考前述图5B中示出的用户界面51，终端可以不显示追焦控件521，在检测到用户针对开始录像控件540的操作之后，再显示该追焦控件521，终端可以检测到针对该追焦控件521的操作，然后，终端在确定焦点之后，可以开始图像追焦以及视频追焦。这表示终端触发执行图像追焦以及音频追焦的时机更改为：检测到开始录像控件之后，在检测到针对该追焦控件521的操作以及确定焦点之后，即可触发图像追焦以及音频追焦以获取追焦视频。

下面介绍本申请实施例中视频处理方法获取追焦视频的使用场景。其中，包括但不限于以下三个场景。

场景1：终端在录像模式下，终端在录制原视频的过程中，可以使用本申请涉及的视频处理方法录制追焦视频。该过程可以参考前述对实施例1-实施例4的描述，此处不再赘述。

场景2：终端在录制追焦视频的过程中，可以显示追焦图像，通过麦克风获取输入音频信号，然后将该输入音频信号进行处理得到追焦图像对应的音频信号，再通过连接的耳机播放追焦图像对应的音频信号。

其中，场景2涉及的示例性用户界面可以参考下述对图24A以及图24B的描述。

图24A以及图24B中，终端利用后置摄像头录制视频。此时，被拍摄对象可以包括被拍摄对象101(小女孩)、被拍摄对象102(小男孩A)、被拍摄对象103(男子)、被拍摄对象104(小男孩B)以及被拍摄对象105(小狗)等。

如图24A所示，用户界面30为终端预览视频时的一个示例性用户界面。该用户界面30在包括耳机连接指示符301。此时，终端可以还没有开始图像追焦以及音频追焦，则终端可以通过连接的耳机播放原图像对应的音频信号。

在其他的示例中，终端显示用户界面30的过程中，终端也可以不通过连接的耳机播放原图像对应的音频信号。

该用户界面30中包括追焦控件521，该追焦控件521的显示状态是以实线的形式呈现的。用于通知用户在确定焦点之后即可进行图像追焦以及音频追焦了。

如图24B所示，用户界面31为终端进行图像追焦以及音频追焦时涉及的一个示例性用户界面。此时，终端可以显示追焦图像，并通过连接的耳机播放追焦图像对应的音频信号。

应该理解的是，图24A以及图24B中未示出终端确定焦点时涉及的用户界面，可以参考前述对实施例1-实施例4的中确定焦点的描述，此处不再赘述。

在另一些场景中，终端可以不通过耳机播放音频，直接利用本机的扬声器进行音频播放，再利用声学回声消除(acoustic echo cancellation，AEC)消除终端的扬声器播放的音频。

场景3：本申请涉及的视频处理方法还可以应用于视频直播的过程中。在直播的过程中，终端可以生成追焦视频，然后将该追焦视频发送至其他终端，或者将原视频发送至其他终端。

其中，场景2涉及的示例性用户界面可以参考下述对图25A-图25C的描述。

如图25A所示，用户界面40a为终端在直播过程中涉及的一个示例性用户界面。该用户界面40a中包括追焦控件521，该追焦控件521的显示状态是以虚线的形式呈现的。响应于用户针对该追焦控件521的操作(例如单击操作)，终端可以显示下述涉及的用户界面41a。

在一种可能的情况下，如图25B中的(a)所示，该追焦控件521的显示状态是从虚线切换至了实线，用于通知用户在确定焦点之后即可进行图像追焦以及音频追焦了。此处确定焦点的过程可以参考前述对实施例1-实施例4的描述，此处不再赘述。用户界面41a为终端在直播过程中进行图像追焦以及视频追焦时涉及的一个示例性用户界面。该用户界面41a中可以显示原图像410以及追焦图像410。响应于针对追焦图像410的操作(例如长按操作)，终端可以将追焦图像以及该追焦图像对应的音频信号传输至其他终端。如图25B中的(b)所示，用户界面41b为其他终端显示追焦图像时涉及的一个示例性用户界面，此时，用户界面41b中显示的追焦图像410。

在另一种可能的情况下，如图25C中的(a)所示，该追焦控件521的显示状态是从虚线切换至了实线，用于通知用户在确定焦点之后即可进行图像追焦以及音频追焦了。此处确定焦点的过程可以参考前述对实施例1-实施例4的描述，此处不再赘述。用户界面41a为终端在直播过程中进行图像追焦以及视频追焦时涉及的一个示例性用户界面。该用户界面41a中可以显示原图像410以及追焦图像410。响应于针对原图像410的操作(例如长按操作)，终端可以将追焦图像以及该追焦图像对应的音频信号传输至其他终端。如图25C中的(b)所示，用户界面42为其他终端显示追焦图像时涉及的一个示例性用户界面，此时，用户界面42中显示的原图像410。

除了上述场景1-场景3，终端还可以在其他的场景下使用本申请实施例中涉及的视频处理方法，例如，可以使用本申请涉及的视频处理方法对原视频进行后期处理，在播放该原视频的过程进行图像追焦以及视频追焦获取追焦视频。该过程涉及的部分示例性用户界面可以参考前述对实施例5的描述，此处不再赘述。

本申请实施例中，开始录像控件可以被称为第一控件，结束录像控件可以被称为第二控件，追焦暂停控件可以被称为第三控件，追焦控件可以被称为第四控件，追焦模式控件可以被称为第五控件。说明书中的第二图像区域或者音频追焦区域可以被称为焦点区域。处理后的目标音频信号可以被称为第二目标音频。分离后的目标音频信号可以被称为第三目标音频。说明书中的参考噪声信号集合可以被称为第二噪声信号集合。滤波后的噪声信号集合可以被称为滤波后的第一噪声集合。第一帧目标音频信号可以被称为第一帧目标音频。

本申请实施例中，显示原图像的区域可以被称为预览框，显示追焦图像的区域可以被称为第一窗口。

下面首先介绍本申请实施例提供的示例性终端。

图26是本申请实施例提供的终端的结构示意图。

下面以终端为例对实施例进行具体说明。应该理解的是，终端可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

终端可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端的具体限定。在本申请另一些实施例中，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端的结构限定。在本申请另一些实施例中，终端也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

终端通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)。显示面板还可以采用有机发光二极管(organiclight-emitting diode，OLED)等制造。在一些实施例中，终端可以包括1个或N个显示屏194，N为大于1的正整数。

终端可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，颜色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端可以支持一种或多种视频编解码器。这样，终端可以播放或录制多种编码格式的视频，例如：动态图像专家组(movingpicture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器121可以包括一个或多个随机存取存储器(random access memory，RAM)和一个或多个非易失性存储器(non-volatile memory，NVM)。

终端可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端可以设置至少一个麦克风170C。在另一些实施例中，终端可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。

陀螺仪传感器180B可以用于确定终端的运动姿态。

加速度传感器180E可检测终端在各个方向上(一般为三轴)加速度的大小。

距离传感器180F，用于测量距离。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。

环境光传感器180L用于感知环境光亮度。终端可以根据感知的环境光亮度自适应调节显示屏194亮度。

指纹传感器180H用于采集指纹。

温度传感器180J用于检测温度。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端可以接收按键输入，产生与终端的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。

本申请实施例中，该处理器110可以调用内部存储器121中存储的计算机指令，以使得终端执行本申请实施例中的视频处理方法。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种视频处理方法，其特征在于，应用于终端，所述终端包括摄像头，所述方法包括：

所述终端启动相机；

显示预览界面，所述预览界面包括预览框和第一控件；

在所述预览框显示所述摄像头采集的第一图像，所述第一图像的第一区域包括第一拍摄对象；

检测到针对所述第一控件的第一操作；

响应于所述第一操作，开始录制，显示录制界面，所述录制界面包括所述预览框和第二控件；

在所述预览框中显示第二图像，所述第二图像包括第一区域和第二区域，所述第一区域包括所述第一拍摄对象；

基于对所述第一区域中所述第一拍摄对象的第三操作，确定第一区域为焦点区域以及所述第一拍摄对象为追焦对象；

显示第一窗口，所述第一窗口显示包括所述第一拍摄对象的第三图像；所述第一窗口中显示的内容少于所述预览框；

在第一时刻，预览框显示第四图像，所述第一窗口显示第五图像和获取第一输入音频，所述第四图像和所述第五图像都包括所述第一拍摄对象，所述第一输入音频包括所述第四图像的第一区域对应的声音以及所述第四图像的第二区域对应的声音；

检测到对所述第二控件的第四操作，响应于所述第四操作，停止录制，保存第一视频和第二视频，所述第一视频为对应所述预览框的视频，所述第二视频为对应所述第一窗口的视频，其中，

所述第二视频的所述第一时刻处包括所述第五图像和第一音频，所述第一音频对所述第一输入音频进行处理后得到的音频，所述第一音频包括对所述第四图像的所述第一区域对应的声音进行增强处理的声音以及所述第四图像的所述第二区域进行抑制处理后的声音。

2.根据权利要求1所述的方法，其特征在于，所述第一窗口中还包括第三控件，所述方法还包括：

在没有检测到所述第四操作的情况下，若检测到针对第三控件的操作，响应于针对第三控件的操作，保存有所述第二视频。

3.根据权利要求1或2中任一项所述的方法，其特征在于，所述预览界面还包括第四控件，检测到针对所述第一控件的第一操作之前，所述方法还包括：

在检测到针对第四控件的操作的情况下，响应于所述针对第四控件的操作，更改所述第四控件的显示状态；或者，

在检测到针对第四控件的操作的情况下，响应于所述针对第四控件的操作，显示第五控件；所述第五控件用于提示所述终端可以录制所述第一视频，所述第五控件还用于检测控制所述终端不开启录制所述第一视频的操作。

4.根据权利要求3所述的方法，其特征在于，所述第四控件还包括于所述录制界面，在没有检测到所述第四操作的情况下，显示第一图像之后，显示所述第一图像以及第二图像之前，所述方法还包括：

检测到针对所述第四控件的操作；

响应于针对所述第四控件的操作，更改所述第四控件的显示状态。

5.根据权利要求1-4中任一项所述的方法，其特征在于，基于对所述第一区域的第三操作，确定第一区域为焦点区域，具体包括：

检测到针对第一图像中第一区域的第六操作；所述第六操作作用于所述第一区域中第一位置；

响应于所述第六操作，将所述第一位置处的像素点设置为焦点，确定焦点所在的第一区域为焦点区域。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

所述终端基于所述焦点区域对第一输入音频进行处理得到第一目标音频以及第一噪声集合；所述第一噪声集合中包括T路噪声，所述T为大于等于1的整数；所述第一目标音频中包括目标声音，所述目标声音为所述焦点所在的区域对应的声音，还包括部分噪声；

基于所述第一目标音频以及所述第一噪声集合进行滤波，滤除所述第一目标音频中的噪声，得到第二目标音频；

在基于所述输入音频做信号分离，得到第三目标音频的情况下；基于所述第二目标音频以及第三目标音频进行混音，得到第四目标音频；所述第三目标音频中包括所述目标声音；

在基于所述输入音频做信号分离，没有得到第三目标音频的情况下；将所述第二目标音频作为第四目音频；

基于所述第四目标音频得到第一音频。

7.根据权利要求6所述的方法，其特征在于，所述终端基于所述焦点区域对第一输入音频进行处理得到第一目标音频以及第一噪声集合，具体包括：

所述终端基于所述焦点所在的区域确定目标声音方向以及该目标声音方向对应的T个噪声方向；所述目标声音方向为所述目标声音对应的方向，所述噪声方向为噪声对应的方向；

获取所述目标声音方向对应的滤波器系数以及每一个噪声方向对应的滤波器系数；

基于所述目标声音方向对应的滤波器系数结合所述输入音频得到所述第一目标音频，以及分别基于T个噪声方向对应的滤波器系数结合所述输入音频得到T路噪声，将所述T路噪声作为第一噪声集合。

8.根据权利要求6所述的方法，其特征在于，基于所述第一目标音频以及所述第一噪声集合进行滤波，滤除所述第一目标音频中的噪声，得到第二目标音频，具体包括：

所述终端将所述第一目标音频作为参考对所述第一噪声集合进行滤波，滤除所述第一噪声集合中包括部分目标声音，得到第二噪声集合；

将所述第二噪声集合作为参考对所述第一目标音频进行滤波，滤除所述第一目标音频中包括的噪声，得到所述第二目标音频。

9.根据权利要求6所述的方法，其特征在于，基于所述第一目标音频以及所述第一噪声集合进行滤波，滤除所述第一目标音频中的噪声，得到第二目标音频，具体包括：

所述终端将所述第一目标音频作为参考对所述第一噪声集合进行滤波，滤除所述第一噪声集合中包括的目标声音，得到第二噪声集合；

将所述第二噪声集合作为参考对所述第一目标音频进行滤波，滤除所述第一目标音频中包括的噪声，得到滤波后的第一目标音频；

所述终端基于滤波后的第一噪声集合对所述滤波后的第一目标音频再一次进行滤波，滤除所述滤波后的第一目标音频中包括的噪声，得到第二目标音频；其中，所述滤波后的第一噪声集合中包括至少一路滤波后的噪声，其中包括滤波后的第一路噪声，所述滤波后的第一路噪声为结合所述第一目标音频对第一路噪声进行滤波，滤除其中包括的目标声音后得到的，所述第一路噪声为所述第一噪声集合中的一路噪声。

10.根据权利要求6所述的方法，其特征在于，在基于所述输入音频做信号分离，得到第三目标音频的情况下，具体包括：

所述终端对所述输入音频进行信号分离，得到N路候选音频；所述N为所述终端的麦克风数量；

分别确定不同候选音频与所述第二目标音频的相关性，确定相关性大于相关性阈值的M路候选音频，所述M为小于等于N且大于0的整数；

在所述M大于等于2的情况下，将所述M路候选音频混音得到所述第三目标音频；

在所述M等于1的情况下，将所述M路候选音频作为第三目标音频。

11.根据权利要求6所述的方法，其特征在于，基于所述第二目标音频以及第三目标音频进行混音，得到第四目标音频，具体包括：

所述终端确定所述第二目标音频以及第三目标音频的相关性；

基于所述第二目标音频以及第三目标音频的相关性确定混音比例；

基于所述混音比例对所述第二目标音频以及第三目标音频进行混音，得到所述第四目标音频。

12.根据权利要求6所述的方法，其特征在于，基于所述第四目标音频得到第一音频，具体包括：

将所述第四目标音频作为第一音频。

13.根据权利要求6所述的方法，其特征在于，基于所述第四目标音频得到第一音频，具体包括：

将所述第四目标音频进行增强，得到增强后的第四目标音频，将所述增强后的第四目标音频作为第一音频。

14.根据权利要求8或9所述的方法，所述第一目标音频中包括第一帧目标音频，所述第一帧目标音频为所述第一目标音频中的第k帧目标音频，所述第一噪声集合中包括第一帧噪声集合，所述第一帧噪声集合中的每一帧噪声分别为第一噪声集合中不同的一路噪声中的第k帧噪声，所述第一帧噪声集合包括所述第一噪声集合中每路噪声中的第k帧噪声；其特征在于，所述终端将所述第一目标音频作为参考对所述第一噪声集合进行滤波，滤除所述第一噪声集合中包括的目标声音，包括：

所述终端获取第一滤波器；

在所述第一帧目标音频中包括目标声音的情况下，对所述第一滤波器进行更新，将更新后的第一滤波器作为第一滤波器；

将所述第一帧目标音频作为参考，通过所述第一滤波器分别滤除所述第一帧噪声集合中每一帧噪声中包括的目标声音；

将所述第二噪声集合作为参考对所述第一目标音频进行滤波，滤除所述第一目标音频中包括的噪声，包括：

所述终端获取第二滤波器；

在所述第一帧目标音频中不包括目标声音的情况下，对所述第二滤波器进行更新，将更新后的第二滤波器作为第二滤波器；

将所述第一帧噪声集合作为参考，通过所述第二滤波器滤除所述第一帧目标音频中的噪声。

15.根据权利要求7-13中任一项所述的方法，其特征在于，所述目标声音方向对应的滤波器系数以及每一个噪声方向对应的滤波器系数是预先设置在所述终端中的；其中，所述目标声音方向对应的滤波器系数中，所述目标声音方向的声音对应的系数为1，表示不对所述输入音频中目标声音方向的声音进行抑制；越接近所述目标声音方向的声音对应的系数越接近1，抑制程度依次减小；所述噪声方向对应的滤波器系数中包括第一噪声方向对应的滤波器系数，所述第一噪声方向为所述目标声音方向对应的T个噪声方向中的一个噪声方向；所述第一噪声方向对应的滤波器系数中，所述第一噪声方向的声音对应的系数为1，表示不对所述输入音频中第一噪声方向的声音进行抑制；越接近所述第一噪声方向的声音对应的系数越接近1，抑制程度依次减小。

16.根据权利要求7-13中任一项所述的方法，其特征在于，保存有第一视频之后，所述方法还包括：

17.根据权利要求1-16中任一项所述的方法，其特征在于，

所述第一视频的所述第一时刻处包括所述第四图像和所述第一输入音频。

18.一种终端，其特征在于，所述终端包括一个或多个处理器和一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述终端执行如权利要求1-17中任一项所述的方法。

19.一种芯片系统，所述芯片系统应用于终端，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述终端执行如权利要求1-17中任一项所述的方法。

20.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在终端上运行时，使得所述终端执行如权利要求1-17中任一项所述的方法。