CN114363512A

CN114363512A - 一种视频处理的方法及相关电子设备

Info

Publication number: CN114363512A
Application number: CN202111593768.0A
Authority: CN
Inventors: 刘镇亿; 玄建永; 高海宽
Original assignee: Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2021-09-30
Filing date: 2021-12-23
Publication date: 2022-04-15
Anticipated expiration: 2041-12-23
Also published as: US20240305890A1; EP4192024A1; EP4192024A4; WO2023051126A1; CN114363512B

Abstract

本申请提供一种视频处理的方法及相关电子设备，其中，视频处理的方法包括：电子设备在生成视频时，可以根据变焦倍率的变化进行图像变焦，也可以根据变焦倍率的变化对音频进行音频变焦。该电子设备对音频进行音频变焦包括：变焦倍率变大，视场角变小，抑制拍摄范围之外的对象的声音，增强拍摄范围之内的被拍摄者的声音。变焦倍率变小，视场角变大，抑制拍摄范围之外的对象的声音，减弱拍摄范围之内的被拍摄者的声音。

Description

一种视频处理的方法及相关电子设备

技术领域

本申请涉及视频处理领域，尤其涉及一种视频处理的方法及相关电子设备。

背景技术

随着终端技术的发展，越来越多的视频应用开始集成图像变焦的功能，所谓图像变焦就是在进行拍照或录制视频的过程中，通过改变焦距而使得视频或图像中拍摄对象的大小发生改变，焦距变大，拍摄图像变大，焦距变小，拍摄图像变小。在视频录制或直播过程中，通过改变图像的焦距可以放大目标拍摄对象，使得视频录制或直播更加符合观众需求。

电子设备在进行视频录制或直播过程中，电子设备通常在拍摄场景下接收多个音源的音频信号，在进行视频录制或直播过程中，可以对图像进行变焦，但不能对音频进行变焦，即：将焦距放大，视频画面中目标拍摄对象被放大时，该目标拍摄对象的音频信号并未放大，其它音源的音频信号也并未受到抑制。用户在观看视频或直播时，当画面中的拍摄对象变小时，用户往往希望拍摄对象的声音变小，当拍摄对象变大时，用户往往希望拍摄对象的声音变大。这样，用户在观看视频或直播时，在视觉和听觉上往往有更直观的感受，从而给用户带来良好的体验。

因此，如何在录制视频或直播时，在对图像变焦的情况下也能进行音频变焦，是技术人员日益关注的问题。

发明内容

本申请提供了一种视频处理方法及电子设备，使得电子设备录制的视频中，可以实现音频和图像同时变焦的效果。

第一方面，本申请提供了一种视频处理方法，应用于电子设备，该方法包括：电子设备启动相机；显示预览界面，该预览界面包括第一控件；检测到对第一控件的第一操作；响应于第一操作，开始拍摄；显示拍摄界面，该拍摄界面包括第二控件，第二控件用于调节变焦倍率；在第一时刻，变焦倍率为第一变焦倍率，显示第一拍摄图像；在第一时刻，麦克风采集第一音频；检测到对第三控件的第三操作；响应于第三操作，停止拍摄，保存第一视频；该方法还包括：对第一音频进行处理得到第一左声道输出音频和第一右声道输出音频；其中，所述对第一音频进行处理得到第一左声道输出音频和第一右声道输出音频，包括：基于第一变焦倍率对第一音频进行第一处理，得到第一左声道输入音频和第一右声道输入音频；对第一音频进行第二处理，得到M路第一音源音频，其中M为该电子设备的麦克风的个数；将第一左声道输入音频与第一目标音频进行融合，得到第一左声道音频；其中，第一目标音频为在该M路第一音源音频中，与第一左声道输入音频相关性最高的音源音频；将第一右声道输入音频与第二目标音频进行融合，得到第一右声道音频；第二目标音频为在该M路第一音源音频中，与第一右声道输入音频相关性最高的音源音频；对第一左声道音频和第一右声道音频进行增强处理，得到第一左声道输出音频和第一右声道输出音频。

在上述实施例中，在录制视频的过程中，电子设备可以根据拍摄图像的变焦倍率对音频和图像同时进行变焦，其中，对音频的变焦方式为：对拍摄图像中变大的被拍摄者的声音进行增强，使得该被拍摄者的声音听起来很大。对拍摄图像中变小的被拍摄者或未在拍摄图像中出现的被拍摄者的声音进行抑制，使得该被拍摄者的声音听起来很小。

结合第一方面，在一种可能实现的方式中，第一拍摄图像包括第一目标对象和第二目标对象，该方法还包括：检测到针对第二控件的第二操作；响应该第二操作，将变焦倍率调节为第二变焦倍率，第二变焦倍率大于第一变焦倍率；在第二时刻，显示第二拍摄图像，第二拍摄图像包括第一目标对象，不包括第二目标对象；在第二时刻，麦克风采集第二音频，述第二音频包括第一声音和第二声音，第一声音对应第一目标对象，第二声音对应第二目标对象；对第二音频进行处理得到第二左声道输出音频和第二右声道输出音频，第二左声道输出音频和第二右声道输出音频包括第三声音和第四声音，第三声音对应第一目标对象，第四声音对应第二目标对象，第三声音相对于第一声音被增强，第四声音相对于第二声音被抑制。这样，电子设备可以通过变焦倍率的改变，来对音频进行变焦，对在拍摄图像中变大的被拍摄者的声音被增强，使得该被拍摄者的声音听起来很大。对在拍摄图像中变小或未在该拍摄图像中出现的被拍摄者的声音被增强，使得该被拍摄者的声音听起来很大。

结合第一方面，在一种可能实现的方式中，对第二音频进行处理得到第二左声道输出音频和第二右声道输出音频，包括：基于第二变焦倍率对第二音频进行第一处理，得到第二左声道输入音频和第二右声道输入音频；对第二音频进行第二处理，得到M路第二音源音频，M为电子设备的麦克风个数；将第二左声道输入音频与第三目标音频进行融合，得到第二左声道音频；第三目标音频为在M路第二音源音频中，与第二左声道输入音频相关性最高的音源音频；将第二右声道输入音频与第四目标音频进行融合，得到第二右声道音频；第四目标音频为在该M路第二音源音频中，与第二右声道输入音频相关性最高的音源音频；对第二左声道音频和第二右声道音频进行增强处理，得到第二左声道输出音频和第二右声道输出音频。这样，电子设备通过第一音频进行第一处理(波束赋形)和第二处理(盲源分离)后，得到抑制了未在拍摄图像中出现的拍摄对象声音，增强了在拍摄图像中变大的拍摄对象声音的第一左声道输出音频和第一右声道输出音频，从而实现了音频变焦。

结合第一方面，在一种可能实现的方式中，对第一音频进行第二处理，得到M路第一音源音频，具体包括：根据公式

计算得到M路第一音源音频；其中，x_i(ω)为第i个麦克风采集的第一音频在频域上的音频信号，W_i(ω)为第i个麦克风对应的第一非负矩阵，Y(ω)为一个大小为M*L的第一矩阵，该第一矩阵的每一个行向量为一路第一音源音频。这样，通过对第一音频进行第二处理(盲源分离)，可以得到多路音源音频，使得电子设备可以选择相关性最高音源音频与第一左声道音频和第一右声道音频进行融合，从而提高音频变焦的准确性。

结合第一方面，在一种可能实现的方式中，对第二音频进行第二处理，得到M路第二音频音源，具体包括：根据公式

计算得到M路第二音源音频；其中，x′_i(ω)为第i个麦克风采集的第二音频在频域上的音频信号，W_i′(ω)为第i个麦克风对应的第二非负矩阵，Y′(ω)为一个大小为M*L的第二矩阵，第二矩阵的每一个行向量为一路第二音源音频。这样，通过对第二音频进行第二处理(盲源分离)，可以得到多路音源音频，使得电子设备可以选择相关性最高音源音频与第二左声道音频和第二右声道音频进行融合，从而提高音频变焦的准确性。

结合第一方面，在一种可能实现的方式中，基于第一变焦倍率对第一音频进行第一处理，得到第一左声道输入音频和第一右声道输入音频，具体包括：根据公式y_l1(ω)＝α₁*y₁(ω)+(1-α₁)*y₂(ω)得到第一左声道音频；根据公式y_r1(ω)＝α₁*y₃(ω)+(1-α₁)*y₂(ω)得到第一右声道音频；其中，y_l1为第一左声道输入音频，y_r1(ω)为第一右声道输入音频，α₁为基于第一变焦倍率得到的融合系数，y₁(ω)为基于第一音频和第一滤波器系数得到的第一波束，y₂(ω)为基于第一音频和第二滤波器系数得到的第二波束，y₃(ω)为基于第一音频和第三滤波器系数得到的第三波束。这样，电子设备通过基于变焦倍率得到的波束，对第一音频进行第一处理(波束赋形)，从而得到增强了在拍摄图像中放大的拍摄对象声音，抑制了在拍摄图像中缩小了或为出现在拍摄图像中拍摄对象声音的第一左声道输入音频和第一右声道输入音频，实现基于变焦倍率进行音频变焦。

结合第一方面，在一种可能实现的方式中，基于所述第一变焦倍率对所述第一音频进行第一处理，得到第一左声道输入音频和第一右声道输入音频之前，还包括：根据公式

公式

和公式

分别得到第一波束、第二波束和第三波束；其中，y₁(ω)为第一波束，y₂(ω)为第二波束，y₃(ω)为第三波束，w_1i(ω)为第i个麦克风在第一方向对应的第一滤波器系数，w_2i(ω)为第i个麦克风在第二方向对应的第二滤波器系数，w_3i(ω)为第i个麦克风在第三方向对应的第三滤波器系数，x_i1(ω)为第i个麦克风在采集的第一音频，第一方向为所述电子设备正前方逆时针10°到正前方逆时针90°范围内的任一方向，第二方向为电子设备正前方逆时针10°到正前方顺时针10°范围内任一方向，第三方向为电子设备正前方顺时针10°到正前方顺时针90°范围内的任一方向。这样，可以得到预设方向的不同波束，从而对第一音频进行第一处理(波束赋形)，从而实现基于变焦倍率进行音频变焦。

结合第一方面，在一种可能实现的方式中，将第一左声道输入音频与第一目标音源进行融合，得到第一左声道音频之前，还包括：根据公式

计算第一左声道输入音频与所述M路第一音源音频的相关值，

为E{y_l1(ω)Y_i(ω)^*}，

为E{y_l1(ω)y_l1(ω)^*}，

为E{Y_i(ω)Y_i(ω)^*}，γ_i为第一左声道输入音频与第i路第一音源音频的相关值，y_l1(ω)为第一左声道输入音频，Y_i(ω)为第i路第一音源音频；若在M个相关值中，仅存在一个最大相关值，确定相关值最大的第一音源音频为第一目标音频；若在M个相关值中，存在多个最大相关值，对多个最大相关值对应的第一音源音频进行平均值计算，得到第一目标音频。这样，电子设备可以选择将第一左声道输入音频与其相关性最高的音源音频进行融合，从而得到噪声更小的第一左声道音频，提高音频变焦的准确性。

结合第一方面，在一种可能实现的方式中，将第一左声道输入音频与第一目标音源进行融合，得到第一左声道音频，具体包括：根据公式y′_l1(ω)＝β₁*y_l1(ω)+(1-β₁)*Y_t1(ω)得到第二左声道音频；其中，y′_l1(ω)为第一左声道音频，β₁为第一融合系数，Y_t1(ω)为第一目标音频，y_l1(ω)为第一左声道输入音频。这样，电子设备将第一左声道输入音频与其相关性最高的音源音频进行融合，从而得到噪声更小的第一左声道音频，提高音频变焦的准确性。

结合第一方面，在一种可能实现的方式中，将第一右声道输入音频与第二目标音源进行融合，得到第一右声道音频之前，还包括：根据公式

计算第一右声道输入音频与M路第一音源音频的相关值，

为E{y_r1(ω)Y_j(ω)^*}，

为E{y_r1(ω)y_r1(ω)^*}，

为E{Y_j(ω)Y_j(ω)^*}，γ_j为第一右声道输入音频与第j路第一音源音频的相关值，y_r1(ω)为第一右声道输入音频，Y_j(ω)为第j路第一音源音频；在M个相关值中，确定相关值最大的第一音源音频为第二目标音频。这样，电子设备可以选择将第一右声道输入音频与其相关性最高的音源音频进行融合，从而得到噪声更小的第一右声道音频，提高音频变焦的准确性。

结合第一方面，在一种可能实现的方式中，将第一右声道输入音频与第二目标音源进行融合，得到第一右声道音频，具体包括：根据公式y′_r1(ω)＝β₁*y_r1(ω)+(1-β₁)*Y_t2(ω)得到第一右声道音频；其中，y′_r1(ω)为第一右声道音频，β₁为第一融合系数，Y_t2(ω)为第二目标音频，y_r1(ω)为第一右声道输入音频。这样，电子设备将第一右声道输入音频与其相关性最高的音源音频进行融合，从而得到噪声更小的第一右声道音频，提高音频变焦的准确性。

结合第一方面，在一种可能实现的方式中，基于第二变焦倍率对第二音频进行第一处理，得到第二左声道输入音频和第二右声道输入音频，具体包括：根据公式y_l2(ω)＝α₂*y₄(ω)+(1-α₂)*y₅(ω)得到第二左声道音频；根据公式y_r2(ω)＝α₂*y₆(ω)+(1-α₂)*y₅(ω)得到第二右声道音频；其中，y_l2为第二左声道输入音频，y_r2(ω)为第二右声道输入音频，α₂为基于第二变焦倍率得到的融合系数，y₄(ω)为基于第二音频和第一滤波器系数得到的第四波束，y₅(ω)为基于第二音频和第二滤波器系数得到的第五波束，y₆(ω)为基于第二音频和第三滤波器系数得到的第六波束。这样，电子设备通过基于变焦倍率得到的波束，对第二音频进行第一处理(波束赋形)，从而得到增强了在拍摄图像中放大的拍摄对象声音，抑制了在拍摄图像中缩小了或未出现在拍摄图像中拍摄对象声音的第二左声道输入音频和第二右声道输入音频，实现基于变焦倍率进行音频变焦。

结合第一方面，在一种可能实现的方式中，基于第二变焦倍率对第二音频进行第一处理，得到第二左声道输入音频和第二右声道输入音频之前，还包括：根据公式

公式

和公式

分别得到第四波束、第五波束和第六波束；其中，y₄(ω)为第四波束，y₅(ω)为第五波束，y₆(ω)为第六波束，w_1i(ω)为第i个麦克风在第一方向对应的第一滤波器系数，w_2i(ω)为第i个麦克风在第二方向对应的第二滤波器系数，w_3i(ω)为第i个麦克风在第三方向对应的第三滤波器系数，x_i2(ω)为第i个麦克风在采集的第二音频，第一方向为电子设备正前方逆时针10°到正前方逆时针90°范围内的任一方向，第二方向为所述电子设备正前方逆时针10°到正前方顺时针10°范围内任一方向，第三方向为所述电子设备正前方顺时针10°到正前方顺时针90°范围内的任一方向。这样，可以得到预设方向的不同波束，从而对第二音频进行第一处理(波束赋形)，从而实现基于变焦倍率进行音频变焦。

结合第一方面，在一种可能实现的方式中，将第二左声道输入音频与第三目标音源进行融合，得到第二左声道音频之前，还包括：根据公式

计算第二左声道输入音频与M路第二音源音频的相关值，

为E{y_l2(ω)Y_k(ω)^*}，

为E{y_l2(ω)y_l2(ω)^*}，所述

为E{Y_k(ω)Y_k(ω)^*}，所述γ_k为所述第二左声道输入音频与第i路第二音源音频的相关值，所述y_l2(ω)为第二左声道输入音频，所述Y_k(ω)为第i路第二音源音频；在M个相关值中，确定相关值最大的第二音源音频为第三目标音频。这样，电子设备可以将第二左声道输入音频与其相关性最高的音源音频进行融合，从而得到噪声更小的第二左声道音频，提高音频变焦的准确性。

结合第一方面，在一种可能实现的方式中，将第二左声道输入音频与第三目标音源进行融合，得到第二左声道音频，具体包括：根据公式y′_l2(ω)＝β₂*y_l2(ω)+(1-β₂)*Y_t3(ω)得到第二左声道音频；其中，y′_l2(ω)为所述第二左声道音频，β₂为第二融合系数，Y_t3(ω)为第三目标音频，y_l2(ω)为第二左声道输入音频。这样，电子设备将第二左声道输入音频与其相关性最高的音源音频进行融合，从而得到噪声更小的第二左声道音频，提高音频变焦的准确性。

结合第一方面，在一种可能实现的方式中，将第二右声道输入音频与第四目标音源进行融合，得到第二右声道音频之前，还包括：根据公式

计算第二右声道输入音频与M路第二音源音频的相关值，

为E{y_r2(ω)Y_t(ω)^*}，

为E{y_r2(ω)y_r2(ω)^*}，

为E{Y_t(ω)Y_t(ω)^*}，γ_t为第二右声道输入音频与第t路第二音源音频的相关值，y_r2(ω)为第二右声道输入音频，Y_t(ω)为第t路第二音源音频；在M个相关值中，确定相关值最大的第二音源音频为第四目标音频。这样，电子设备可以选择将第二右声道输入音频与其相关性最高的音源音频进行融合，从而得到噪声更小的第二右声道音频，提高音频变焦的准确性。

结合第一方面，在一种可能实现的方式中，将第二右声道输入音频与第四目标音源进行融合，得到第二右声道音频，具体包括：根据公式y′_r2(ω)＝β₂*y_r2(ω)+(1-β₂)*Y_t4(ω)得到第二右声道音频；其中，y′_r2(ω)为第二右声道音频，β₂为第二融合系数，Y_t4(ω)为第四目标音频，y_r2(ω)为第二右声道输入音频。这样，电子设备将第二右声道输入音频与其相关性最高的音源音频进行融合，从而得到噪声更小的第二右声道音频，提高音频变焦的准确性。

第二方面，本申请实施例提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执行：启动相机；显示预览界面，该预览界面包括第一控件；检测到对第一控件的第一操作；响应于第一操作，开始拍摄；显示拍摄界面，该拍摄界面包括第二控件，第二控件用于调节变焦倍率；在第一时刻，变焦倍率为第一变焦倍率，显示第一拍摄图像；在第一时刻，通过麦克风采集第一音频；检测到对第三控件的第三操作；响应于第三操作，停止拍摄，保存第一视频；

该一个或多个处理器调用该计算机指令以使得该电子设备执行：对第一音频进行处理得到第一左声道输出音频和第一右声道输出音频；其中，所述对第一音频进行处理得到第一左声道输出音频和第一右声道输出音频，包括：基于第一变焦倍率对第一音频进行第一处理，得到第一左声道输入音频和第一右声道输入音频；对第一音频进行第二处理，得到M路第一音源音频，其中M为该电子设备的麦克风的个数；将第一左声道输入音频与第一目标音频进行融合，得到第一左声道音频；其中，第一目标音频为在该M路第一音源音频中，与第一左声道输入音频相关性最高的音源音频；将第一右声道输入音频与第二目标音频进行融合，得到第一右声道音频；第二目标音频为在该M路第一音源音频中，与第一右声道输入音频相关性最高的音源音频；对第一左声道音频和第一右声道音频进行增强处理，得到第一左声道输出音频和第一右声道输出音频。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：检测到针对第二控件的第二操作；响应该第二操作，将变焦倍率调节为第二变焦倍率，第二变焦倍率大于第一变焦倍率；在第二时刻，显示第二拍摄图像，第二拍摄图像包括第一目标对象，不包括第二目标对象；在第二时刻，麦克风采集第二音频，述第二音频包括第一声音和第二声音，第一声音对应第一目标对象，第二声音对应第二目标对象；对第二音频进行处理得到第二左声道输出音频和第二右声道输出音频，第二左声道输出音频和第二右声道输出音频包括第三声音和第四声音，第三声音对应第一目标对象，第四声音对应第二目标对象，第三声音相对于第一声音被增强，第四声音相对于第二声音被抑制。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：基于第二变焦倍率对第二音频进行第一处理，得到第二左声道输入音频和第二右声道输入音频；对第二音频进行第二处理，得到M路第二音源音频，M为电子设备的麦克风个数；将第二左声道输入音频与第三目标音频进行融合，得到第二左声道音频；第三目标音频为在M路第二音源音频中，与第二左声道输入音频相关性最高的音源音频；将第二右声道输入音频与第四目标音频进行融合，得到第二右声道音频；第四目标音频为在该M路第二音源音频中，与第二右声道输入音频相关性最高的音源音频；对第二左声道音频和第二右声道音频进行增强处理，得到第二左声道输出音频和第二右声道输出音频。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：根据公式

计算得到M路第一音源音频；其中，x_i(ω)为第i个麦克风采集的第一音频在频域上的音频信号，W_i(ω)为第i个麦克风对应的第一非负矩阵，Y(ω)为一个大小为M*L的第一矩阵，该第一矩阵的每一个行向量为一路第一音源音频。

计算得到M路第二音源音频；其中，x′_i(ω)为第i个麦克风采集的第二音频在频域上的音频信号，W_i′(ω)为第i个麦克风对应的第二非负矩阵，Y′(ω)为一个大小为M*L的第二矩阵，第二矩阵的每一个行向量为一路第二音源音频。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：根据公式y_l1(ω)＝α₁*y₁(ω)+(1-α₁)*y₂(ω)得到第一左声道音频；根据公式y_r1(ω)＝α₁*y₃(ω)+(1-α₁)*y₂(ω)得到第一右声道音频；其中，y_l1为第一左声道输入音频，y_r1(ω)为第一右声道输入音频，α₁为基于第一变焦倍率得到的融合系数，y₁(ω)为基于第一音频和第一滤波器系数得到的第一波束，y₂(ω)为基于第一音频和第二滤波器系数得到的第二波束，y₃(ω)为基于第一音频和第三滤波器系数得到的第三波束。

公式

和公式

分别得到第一波束、第二波束和第三波束；其中，y₁(ω)为第一波束，y₂(ω)为第二波束，y₃(ω)为第三波束，w_1i(ω)为第i个麦克风在第一方向对应的第一滤波器系数，w_2i(ω)为第i个麦克风在第二方向对应的第二滤波器系数，w_3i(ω)为第i个麦克风在第三方向对应的第三滤波器系数，x_i1(ω)为第i个麦克风在采集的第一音频，第一方向为所述电子设备正前方逆时针10°到正前方逆时针90°范围内的任一方向，第二方向为电子设备正前方逆时针10°到正前方顺时针10°范围内任一方向，第三方向为电子设备正前方顺时针10°到正前方顺时针90°范围内的任一方向。

计算第一左声道输入音频与所述M路第一音源音频的相关值，

为E{y_l1(ω)Y_i(ω)^*}，

为E{y_l1(ω)y_l1(ω)^*}，

为E{Y_i(ω)Y_i(ω)^*}，γ_i为第一左声道输入音频与第i路第一音源音频的相关值，y_l1(ω)为第一左声道输入音频，Y_i(ω)为第i路第一音源音频；若在M个相关值中，仅存在一个最大相关值，确定相关值最大的第一音源音频为第一目标音频；若在M个相关值中，存在多个最大相关值，对多个最大相关值对应的第一音源音频进行平均值计算，得到第一目标音频。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：根据公式y′_l1(ω)＝β₁*y_l1(ω)+(1-β₁)*Y_t1(ω)得到第二左声道音频；其中，y′_l1(ω)为第一左声道音频，β₁为第一融合系数，Y_t1(ω)为第一目标音频，y_l1(ω)为第一左声道输入音频。

计算第一右声道输入音频与M路第一音源音频的相关值，

为E{y_r1(ω)Y_j(ω)^*}，

为E{y_r1(ω)y_r1(ω)^*}，

为E{Y_j(ω)Y_j(ω)^*}，γ_j为第一右声道输入音频与第j路第一音源音频的相关值，y_r1(ω)为第一右声道输入音频，Y_j(ω)为第i路第一音源音频；在M个相关值中，确定相关值最大的第一音源音频为第二目标音频。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：根据公式y′_r1(ω)＝β₁*y_r1(ω)+(1-β₁)*Y_t2(ω)得到第一右声道音频；其中，y′_r1(ω)为第一右声道音频，β₁为第一融合系数，Y_t2(ω)为第二目标音频，y_r1(ω)为第一右声道输入音频。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：根据公式y_l2(ω)＝α₂*y₄(ω)+(1-α₂)*y₅(ω)得到第二左声道音频；根据公式y_r2(ω)＝α₂*y₆(ω)+(1-α₂)*y₅(ω)得到第二右声道音频；其中，y_l2为第二左声道输入音频，y_r2(ω)为第二右声道输入音频，α₂为基于第二变焦倍率得到的融合系数，y₄(ω)为基于第二音频和第一滤波器系数得到的第一波束，y₅(ω)为基于第二音频和第二滤波器系数得到的第二波束，y₆(ω)为基于第二音频和第三滤波器系数得到的第三波束。

公式

和公式

分别得到第四波束、第五波束和第六波束；其中，y₄(ω)为第四波束，y₅(ω)为第五波束，y₆(ω)为第六波束，w_1i(ω)为第i个麦克风在第一方向对应的第一滤波器系数，w_2i(ω)为第i个麦克风在第二方向对应的第二滤波器系数，w_3i(ω)为第i个麦克风在第三方向对应的第三滤波器系数，x_i2(ω)为第i个麦克风在采集的第二音频，第一方向为电子设备正前方逆时针10°到正前方逆时针90°范围内的任一方向，第二方向为所述电子设备正前方逆时针10°到正前方顺时针10°范围内任一方向，第三方向为所述电子设备正前方顺时针10°到正前方顺时针90°范围内的任一方向。

计算第二左声道输入音频与M路第二音源音频的相关值，

为E{y_l2(ω)Y_k(ω)^*}，

为E{y_l2(ω)y_l2(ω)^*}，所述

为E{Y_k(ω)Y_k(ω)^*}，所述γ_k为所述第二左声道输入音频与第i路第二音源音频的相关值，所述y_l2(ω)为第二左声道输入音频，所述Y_k(ω)为第i路第二音源音频；在M个相关值中，确定相关值最大的第二音源音频为第三目标音频。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：根据公式y′_l2(ω)＝β₂*y_l2(ω)+(1-β₂)*Y_t3(ω)得到第二左声道音频；其中，y′_l2(ω)为所述第二左声道音频，β₂为第二融合系数，Y_t3(ω)为第三目标音频，y_l2(ω)为第二左声道输入音频。

计算第二右声道输入音频与M路第二音源音频的相关值，

为E{y_r2(ω)Y_t(ω)^*}，

为E{y_r2(ω)y_r2(ω)^*}，

为E{Y_t(ω)Y_t(ω)^*}，γ_t为第二右声道输入音频与第t路第二音源音频的相关值，y_r2(ω)为第二右声道输入音频，Y_t(ω)为第t路第二音源音频；在M个相关值中，确定相关值最大的第二音源音频为第四目标音频。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：根据公式y′_r2(ω)＝β₂*y_r2(ω)+(1-β₂)*Y_t4(ω)得到第二右声道音频；其中，y′_r2(ω)为第二右声道音频，β₂为第二融合系数，Y_t4(ω)为第四目标音频，y_r2(ω)为第二右声道输入音频。

第三方面，本申请实施例提供了一种电子设备，包括：触控屏、摄像头、一个或多个处理器和一个或多个存储器；所述一个或多个处理器与所述触控屏、所述摄像头、所述一个或多个存储器耦合，所述一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

第四方面，本申请实施例提供了一种芯片系统，该芯片系统应用于电子设备，该芯片系统包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，包括指令，当该指令在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

附图说明

图1A-图1E为本申请实施例提供的一组电子设备进行图像变焦的用户界面图；

图2A-图2B为本申请实施例提供的一组电子设备播放视频时的用户界面图和音频的波束赋形图；

图3A-图3B为本申请实施例提供的另一组电子设备播放视频时的用户界面图和音频的波束赋形图；

图4A-图4B为本申请实施例提供的另一组电子设备播放视频时的用户界面图和音频的波束赋形图；

图5A为本申请实施例提供的一种电子设备播放视频的用户界面图；

图5B为本申请实施例提供的一种左声道音频和右声道音频的波束赋形图；

图5C为本申请实施例提供的一种单声道音频的波束赋形图；

图6A为本申请实施例提供的另一种电子设备播放视频的用户界面图；

图6B为本申请实施例提供的另一种左声道音频和右声道音频的波束赋形图；

图6C为本申请实施例提供的另一种单声道音频的波束赋形图；

图7A为本申请实施例提供的另一种电子设备播放视频的用户界面图；

图7B为本申请实施例提供的另一种左声道音频和右声道音频的波束赋形图；

图7C为本申请实施例提供的另一种单声道音频的波束赋形图；

图8A-图8D为本申请实施例提供的一组电子设备在录制视频过程进行音频变焦的用户界面图；

图9A-图9E为本申请实施例提供的一组电子设备对已录制的视频进行音频变焦的用户界面图；

图10为本申请实施例提供的一种电子设备在录制视频过程中进行音频变焦的流程图；

图11为本申请实施例提供的一种电子设备录制视频时的俯视图；

图12为本申请实施例提供的一种DRC曲线图；

图13为本申请实施例提供的一种电子设备训练第一滤波器系数的流程图；

图14为本申请实施例提供的另一种电子设备在录制视频过程中进行音频变焦的流程图；

图15为本申请实施例提供的一种电子设备对已录制的视频进行音频变焦的流程图；

图16为本申请实施例提供的一种电子设备100的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例，也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元，或者可选地，还包括没有列出的步骤或单元，或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。

附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如，单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外，这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如，通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。

本申请以下实施例中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage，XML)等特定计算机语言编写的源代码，界面源代码在电子设备上经过解析，渲染，最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphicuser interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

下面，对本申请实施例中相关专业术语进行介绍。

(1)焦距与视场角

本申请实施例中，焦距是指电子设备在录制视频或者拍摄图像的过程中使用的焦距。

视场角是以电子设备的镜头为顶点，以被拍摄者可通过镜头的最大范围的两条边缘构成的夹角。该视场角的大小决定了电子设备的视野范围，即视场角内的被拍摄者也可以显示在图像中，视场角范围外的被拍摄者不可以显示在图像中。

具体的，当电子设备在录制视频或者拍摄图像时，对于与电子设备相对位置不改变的同一被拍摄者，焦距不同，则电子设备可以获取到不同的图像。例如，一种情况下，电子设备使用的焦距越大，则电子设备的视场角越小。这时，电子设备获取的图像中，该被拍摄者越大，由于电子设备的显示屏是有限的，有时该被拍摄者只能显示一部分。另一种情况下，电子设备使用的焦距越小，则电子设备的视场角越大。电子设备获取的图像中，该被拍摄者则越小。通常，电子设备的视场角越大，则获取的图像中会显示更多的其他被拍摄者。

在一些实施例中，电子设备在录制视频或者拍摄图像时，可以根据用户设置改变该焦距。

在另一些实施例中，电子设备在录制视频或者拍摄图像时，可以根据一些预设的规则改变该焦距。比如，在录制趣味视频时，电子设备可以根据预设的规则改变该焦距。

焦距的改变包括焦距变大以及焦距变小。在一些实施例中，电子设备可以通过调整变焦倍率实现改变焦距。用户可以通过用户界面中的变焦倍率控件进行变焦倍率的调整，也可以通过用户界面中输入手势命令，进行变焦倍率的选择。

其中，变焦倍率控件可以为图1B中，用户界面11中示出的变焦倍率控件1105所示。可以参考下述对变焦倍率控件1105的相关描述。用户通过调整变焦倍率，将拍摄物体在预览界面上不断放大。用户可以通过拍照设备上的变焦倍率按键进行变焦倍率的选择；也可以通过拍照设备的显示屏幕输入手势命令，进行变焦倍率的选择。通常，变焦拍摄包括光学变焦拍摄和数码变焦拍摄两种方式。这两种方式均可以改变电子设备显示的预览图像中物体的大小。

(2)图像变焦以及音频变焦

图像变焦是指电子设备在拍摄图像的过程中改变焦距，电子设备可以通过调整变焦倍率，实现改变焦距，完成图像变焦。例如用户通过电子设备拍摄远处的物体时，显示的预览图像中该物体必然会显示的较小。在不改变自身位置的情况下，用户可以选择调大变焦倍率，使电子设备界面显示的物体变大，从而实现图像变焦。在本申请实施例中，也可以理解为通过调整变焦倍率，使电子设备界面显示的物体放大或缩小；可以应用于录制视频的过程中，也可以应用于播放视频的过程中。

音频变焦可以类比图像变焦，变焦倍率变大，在视频中，电子设备显示的被拍摄者变大时，会给用户一种该被拍摄者相对更近的感觉，则此时，该电子设备显示的被拍摄者的声音也对应性变大；变焦倍率变小，在视频中，电子设备显示的被拍摄者变小时，会给用户一种该被拍摄者远离的感觉，则此时，该被拍摄者的声音也可以对应性变小。若图像和对应的音频都可以实现变焦，可以带来音频和图像同时变焦的效果，提高用户感官体验，增加趣味性。

(3)抑制与增强

本申请实施例中，抑制是指将音频信号的能量减小使得该音频信号听起来变小甚至听不见。可以通过将音频信号的幅值减小实现对该音频信号的抑制。

增强是指将音频信号的能量变大使得该音频信号听起来变大。可以通过将音频信号的幅值变大实现对该音频信号的增强。

其中，幅值用于表示该音频信号对应的电压大小；也可以表示该音频信号的能量大小；或者分贝大小。

(4)波束形成与增益系数

本申请实施例中，波束形成可以用于描述电子设备的麦克风采集的音频与该音频传输到扬声器播放时的对应关系。该对应关系为一组增益系数，用于表示对麦克风采集的各个方向上的音频信号进行抑制的抑制程度。其中，抑制是指将音频信号的能量减小使得该音频信号听起来变小甚至听不见。抑制程度用于描述对音频信号进行减小的程度。抑制程度越大，则音频信号的能量减小越多。例如，增益系数为0.0表示完全除去该音频信号，增益系数为1.0表示不进行抑制。越接近于0.0则抑制程度越大，越接近与1.0则抑制程度越小。

下面，结合图1A-图1E对用户在使用电子设备进行视频录制中，进行图像变焦的应用场景进行介绍。图1A-图1E是本申请实施例提供的一组视频录制过程中，进行图像变焦的示例性用户界面图。

其中，图1A-图1E中，电子设备100具有三个麦克风，以图1A为例进行举例说明，电子设备100包括第一麦克风101、第二麦克风102以及第三麦克风103。在电子设备100录制视频的过程中，这三个麦克风会接收拍摄环境的音频信号，并将其接收的音频信号进行处理，生成音频流。同时，电子设备的摄像头会获取多帧图像，并将这多帧图像进行处理，得到图像流，电子设备将图像流与音频流进行混流，得到录制的视频。

可以理解的是，电子设备100在录制视频的过程中，使用的麦克风可以包括N个，N可以为大于或等于2的整数，不受限于上述涉及的第一麦克风、第二麦克风和第三麦克风。

在图1A-图1D中，被拍摄的对象可以包括第一拍摄对象110、第二拍摄对象120以及第三拍摄对象130。本申请实施例以电子设备100利用后置摄像头录制视频，进行视频录制为例进行说明。假设在录制视频的过程中，电子设备100与上述三个拍摄对象的距离未发生改变且在录制全程，拍摄对象的音量也未发生改变。

如图1A所示，电子设备100屏幕上显示的用户界面10为录制视频的一个预览界面，该预览界面包括录制控件104。其中，录制控件104用于接收用户录制视频的输入操作后，录制视频，当电子设备100检测到用户针对录制控件104的输入操作(例如单击)，响应该操作，电子设备100显示如图1B所示的用户界面11。

如图1B所示，用户界面11为当前录制视频的界面，包括焦距显示图标1101、录制时间显示图标1102、暂停控件1103、停止控件1104以及变焦倍率控件1105。其中，焦距显示图标1101用于显示当前图像的变焦倍率，例如，1X表示1倍变焦倍率，3X表示3倍变焦倍率。录制时间显示图标1102用于显示当前录制的视频的时间，暂停控件1103用于响应暂停指令，暂停录制视频，停止控件1104用于响应停止录制指令，结束视频录制。变焦倍率控件1105用于响应焦距调节指令后，放大/缩小录制视频时的变焦倍率。例如，用户向上滑动变焦倍率控件1105，电子设备100响应用户向上滑动变焦倍率控件1105的操作，增大图像的变焦倍率，用户向下滑动变焦倍率控件1105，电子设备100响应用户向下滑动变焦倍率控件1105的操作，减小图像的变焦倍率，在电子设备100调节图像变焦倍率的过程中，焦距显示图标1101会实时显示视频图像的变焦倍率。由录制时间显示图标1102可知，当前视频录制的时间为第1秒，此时，电子设备100获取的是第1秒视频对应的图像和音频信号。由焦距显示图标1101可知，当前录制视频的变焦倍率为1倍变焦倍率且在用户界面11中，包括第一拍摄对象、第二拍摄对象以及第三拍摄对象。当电子设备100检测到用户向上滑动变焦倍率控件1105的操作后，响应于该操作，电子设备100放大视频图像的焦距，显示如图1C所示的用户界面12。

如图1C所示，用户界面12为当前录制视频的界面。由录制时间显示图标可知，当前视频录制的时间为第4秒，此时，电子设备100获取的是第4秒视频对应的图像和音频信号。由焦距显示图标可知，当前录制视频的变焦倍率为3倍变焦倍率且在用户界面12中，包括第二拍摄对象和第三拍摄对象。此时，可以看到在用户界面12中不再显示第一拍摄对象，同时，相较于用户界面11中显示的第二拍摄对象和第三拍摄对象，用户界面12中显示的第二拍摄对象和第三拍摄对象被放大。当电子设备100检测到用户向上滑动变焦倍率控件的操作后，响应于该操作，电子设备100增大录制视频图像的焦距，显示如图1D所示的用户界面13。

如图1D所示，用户界面13为当前录制视频的界面。由录制时间显示图标可知，当前视频录制的时间为第6秒，此时，电子设备100获取的是第6秒视频对应的图像和音频信号。由焦距显示图标可知，当前录制视频的变焦倍率为5倍变焦倍率且在用户界面13中，包括第二拍摄对象。此时，可以看到，在用户界面13中，不显示第一拍摄对象和第三拍摄对象，仅显示第二拍摄对象，相较于用户界面12中显示第二拍摄对象，用户界面13中显示的第二拍摄对象被放大。当电子设备100检测到用户针对停止控件的输入操作后，显示如图1E所示的用户界面14。

如图1E所示，用户界面14为电子设备100停止视频录制后的一个用户界面。用户界面14包括视频作品保存提示框1106，视频作品保存提示框1106用于提示用户是否保存当前的录制视频。当电子设备100检测到针对保存控件1107的输入操作(例如单击)后，响应于该输入操作，电子设备100保存录制的视频。

应该理解的是，上述图1A-图1E示出的是电子设备在录制视频的过程中，由于焦距的变化而引起视场角的改变，从而对获取的图像引起改变的一组示例性用户界面，不应该对本申请实施例形成限制。电子设备还可以通过其它方式改变焦距。本申请实施例对此不做限定。

在一些实施例中，电子设备在录制视频的过程中，可以根据变焦倍率的变化对图像进行变焦，但是，没有根据变焦倍率的变化对音频进行音频变焦。导致电子设备在播放录制的视频时，显示屏中的拍摄对象的画面在变大的过程中，其声音音量未随之变大，且在用户观看视频的过程中，也会听见未在显示屏中出现的拍摄对象的声音，从而干扰在显示画面中的拍摄对象的声音，给用户带来极差的观看体验。下面，结合图2A-图4B，对电子设备录制的视频中，进行图像变焦但没有音频变焦的应用场景进行说明。电子设备录制视频的过程请参见上述图1A-图1E中的相关叙述。图2A-图4B为电子设备播放录制的视频的一组示例性用户界面，该视频为只进行了图像变焦未进行音频变焦的视频。

在图2B、图3B以及图4B中，图标201为上述图1A-图1D实施例中的第一拍摄对象，图标202为上述图1A-图1D实施例中的第二拍摄对象，图标203为上述图1A-图1D实施例中的第三拍摄对象。其中，外轮廓为实线绘制的图标对应的拍摄对象为目标拍摄对象(例如图3B中的图标201)，外轮廓为虚线绘制的图标对应的拍摄对象为非目标拍摄对象(例如图4B中的图标203)，目标对象拍摄对象为在播放该视频的过程中，显示在电子设备的显示屏上的拍摄对象，非目标拍摄对象为在播放该视频的过程中，未显示在电子设备的显示屏上的拍摄对象。例如，在图3A的用户界面21中，显示第二拍摄对象和第三拍摄对象，未显示第一拍摄对象，因此，第二拍摄对象和第三拍摄对象为目标拍摄对象，第一拍摄对象为非目标拍摄对象。

此外，在图2B、图3B以及图4B中，每个拍摄对象的图标都带有如图2B所示的声音图标204，该声音图标用于表征拍摄对象正在发出声音。

应该理解是，图2B、图3B以及图4B中，具有相似形状的图标，且这些图标都具有相同的含义，不再一一解释。例如当拍摄对象为虚线绘制时，表示的含义都为该拍摄对象不会出现在视频的画面中，属于非目标拍摄对象。

如图2A所示，用户界面20为电子设备播放视频的界面，用户界面20包括进度条2011，该进度条2011用于指示当前视频的播放进度。由图2A可知，当前电子设备播放图像为上述图1B实施例中第1秒对应的拍摄图像，且该拍摄图像的变焦倍率为1倍变焦倍率，在用户界面20中显示第一拍摄对象、第二拍摄对象以及第三拍摄对象。

图2B为电子设备在播放上述图2A的视频内容中，第1秒对应的单声道音频波束赋形图。波束赋形图可以用于描述电子设备的麦克风采集的音频与该音频传输到扬声器播放时的对应关系。该对应关系为一组增益系数，用于表示对麦克风采集的各个方向上的音频信号进行抑制的抑制程度。电子设备可以根据该增益系数对麦克风采集的音频信号进行抑制，然后再传输到扬声器进行播放。

下面，结合图2B对本申请实施例中的音频信号的波束赋形图进行详细说明，对于本申请实施例中出现的所有音频的波束赋形图均可参考以下叙述进行理解。如图2B中的单声道音频波束赋形图所示，波束赋形图以角度来表征方向，波束赋形图的方向范围为0°～360°，本申请实施例以电子设备的后置摄像头所在面中心点的正前方为波束赋形图的0°(360°)方向，波束赋形图包括多条以视频拍摄点(图2B中视频拍摄点为矩形的中心点，所述矩形为电子设备的简化图)为圆心，半径不同的圆形虚曲线(图2B中只列举了5条圆形虚曲线)，每条圆形虚曲线为一个增益系数的等位线，即在该圆形虚曲线上的每一个点对应的增益系数都相同，视频拍摄点对应的增益系数为0，以圆心向外进行扩展，每条圆形虚曲线对应的增益系数依次增大(例如，图2B中，从圆心向外扩展的圆形曲线对应的增益系数依次为0.2、0.4、0.6、0.8、1.0)，增益系数代表对音频信号能量的抑制程度，增益系数等于1时，对音频信号的能量几乎不抑制，在用户的听觉感官上表现为声音的强度(音量)不发生变化。增益系数小于1时，代表电子设备会对音频信号的能量进行抑制，在用户的听觉感官上表现为声音的强度(音量)减小，且增益系数越小，对音频信号的能量的抑制程度越深，当增益系数为0时，表示对音频信号能量的完全抑制，在用户的听觉感官上表现为听不到被抑制的音频。除此之外，波束赋形图中的实曲线为增益系数的函数曲线，该函数曲线代表音频信号所在方向与增益系数的映射关系。从视频拍摄点开始，分别沿着图标201、图标202以及图标203方向作直线，直线与函数曲线的交点的增益系数为第一拍摄对象、第二拍摄对象以及第三拍摄对象对应方向上的音频信号的增益系数。

在本申请实施例中所涉及的波束赋形图中各组成元素的理解和解释，均可参考上述对图2B中波束赋形图的叙述，不再一一解释。

由图2B可知，在第1秒音频的单声道音频波束赋形图中，在第一拍摄对象对应的方向上、第二拍摄对象对应的方向上以及第三拍摄对象对应的方向上，增益系数均为1(或接近于1)，因此，电子设备不会对第一拍摄对象、第二拍摄对象以及第三拍摄对象的音频信号进行抑制，当电子设备播放第1秒对应的视频作品时，用户能够清楚地听到第一拍摄对象、第二拍摄对象以及第三拍摄对象的声音。

电子设备在播放视频第1秒的内容后，继续播放该视频。

如图3A所示，用户界面21为电子设备播放录制的视频作品的界面，由用户界面21可知，当前电子设备播放的图像为上述图1C实施例中，第4秒对应的拍摄图像和音频，且变焦倍率为3倍变焦倍率，在用户界面21中不再显示第一拍摄对象，显示第二拍摄对象和第三拍摄对象，且相较于用户界面20中的第二拍摄对象和第三拍摄对象，用户界面21中的第二拍摄对象和第三拍摄对象被放大。

图3B为电子设备播放上述图3A的视频内容中，第4秒对应的音频的单声道音频波束赋形图。在该波束赋形图中，第一拍摄对象对应的方向、第二拍摄对象对应的方向以及第三拍摄对象对应的方向，增益系数均为1(或接近于1)，因此，电子设备不会对第一拍摄对象、第二拍摄对象以及第三拍摄对象的音频信号进行抑制，当电子设备播放第4秒对应的视频作品时，即使第一拍摄对象未出现在用户界面21中，用户也能听到第一拍摄对象、第二拍摄对象以及第三拍摄对象的声音。

电子设备在播放视频第4秒的内容后，继续播放该视频。

如图4A所示，用户界面22为电子设备播放的视频的界面，由用户界面22可知，当前电子设备播放的图像为上述图1D实施例中，第6秒对应的拍摄图像和音频，且该拍摄图像的变焦倍率为5倍变焦倍率，在用户界面21中，不再显示第一拍摄对象和第三拍摄对象，显示第二拍摄对象，且相较于用户界面20和用户界面21中显示的第二拍摄对象，用户界面22中的第二拍摄对象被放大。

图4B为电子设备播放上述图4A的视频内容中，第6秒对应的音频的单声道音频波束赋形图。在该音频波束赋形图中，第一拍摄对象对应的方向上、第二拍摄对象对应的方向以及第三拍摄对象对应的方向，增益系数均为1(或接近于1)，因此，电子设备不会对第一拍摄对象、第二拍摄对象以及第三拍摄对象的音频信号进行抑制，当电子设备播放第6秒对应的视频作品时，即使第一拍摄对象和第三拍摄对象未出现在用户界面22中，用户也能听到第一拍摄对象、第二拍摄对象以及第三拍摄对象的声音。

在上述图2A-图4B的实施例中，由于在对视频图像进行变焦的过程中，未同时对图像对应的音频信号进行变焦，导致在观看视频的过程中，目标拍摄对象的图像被放大，其音量未被放大，且在观看视频的过程中，也能听见非目标对象的声音。

本申请实施例提供了一种音频变焦的方法，该方法具体包括：电子设备根据视频图像的焦距对该图像对应的音频信号进行变焦，在变焦倍率变大，视场角变小的情况下，抑制拍摄范围外的拍摄对象(非目标拍摄对象)的声音，增强/保留在拍摄范围内拍摄对象的声音(目标拍摄对象)。其中，所述拍摄范围为在拍摄视频过程中，显示在电子设备用户界面上的拍摄场景对应的范围，增强是指将音频信号的能量变大使得该音频信号听起来变大。抑制是指将音频信号的能量减小使得该音频信号听起来变小甚至听不见。可以通过调整音频信号的幅值实现其能量的变化。

这样，可以使得电子设备录制视频或播放视频的过程中，目标拍摄对象的画面有大小变化的同时其音量也会随着变化，且在录制视频或播放视频的过程中，几乎听不见非目标拍摄对象的声音，解决了在视频播放过程中，非目标拍摄对象的声音干扰目标拍摄对象的声音的问题，从而给予用户良好的视频观看体验。

下面，结合图5A-图7B，对电子设备录制的视频中，进行图像变焦的同时，也进行音频变焦的应用场景进行说明。电子设备进行视频录制的过程请参见上述图1A-图1E中的相关叙述。图5A-图7B为电子设备播放录制视频的一组示例性用户界面，该录制视频为进行了图像变焦的同时也进行了音频变焦的视频。

在图5B中图标301为上述图1A-图1D实施例中的第一拍摄对象，图标302为上述图1A-图1D实施例中的第二拍摄对象，图标303为上述图1A-图1D实施例中的第三拍摄对象。

应该理解是，在图5B～图5C、图6B～图6C以及图7B～图7C中，具有相似形状的图标，且这些图标都具有相同的含义，不再一一解释。其中，外轮廓为实线绘制的图标对应的拍摄对象为目标拍摄对象，外轮廓为虚线绘制的图标对应的拍摄对象为非目标拍摄对象，目标对象拍摄对象为在播放该视频的过程中，显示在电子设备的显示屏上的拍摄对象，非目标拍摄对象为在播放该视频的过程中，未显示在电子设备的显示屏上的拍摄对象。例如，在图6A的用户界面31中，显示第二拍摄对象和第三拍摄对象，未显示第一拍摄对象，因此，第二拍摄对象和第三拍摄对象为目标拍摄对象，第一拍摄对象为非目标拍摄对象。

此外，在图5B～图5C、图6B～图6C以及图7B～图7C中，每个拍摄对象的图标都带有如图5B所示的声音图标304，该声音图标用于表征拍摄对象正在发出声音。

如图5A所示，用户界面30为电子设备播放视频的界面，用户界面30包括进度条3011，该进度条3011用于指示视频播放的进度。由图5A可知，当前电子设备播放图像为上述图1B实施例中第1秒对应的拍摄图像，且当前视频图像的变焦倍率为1倍变焦倍率，在用户界面30中显示第一拍摄对象、第二拍摄对象以及第三拍摄对象。

若图5A中拍摄图像对应的输出音频为双声道音频(包括左声道输出音频和右声道输出音频)，电子设备可以通过图5B示出的左声道音频波束赋形图和右声道音频波束赋形图分别生成左声道音频信号和右声道音频信号。图5B为上述图5A对应的拍摄图像的左声道音频波束赋形图和右声道音频波束赋形图。

若图5A中拍摄图像对应的输出音频为单声道音频，电子设备可以将图5B中的左声道音频波束赋形图和右声道音频波束赋形图进行融合，得到如图5C所示的单声道音频波束赋形图。电子设备可以根据该单声道音频波束赋形图生成单声道音频。图5C为本申请实施例提供的上述图5A中拍摄图像对应的单声道音频波束赋形图。如图5C所示，当第1秒对应的拍摄图像的变焦倍率为1倍变焦倍率时，第一拍摄对象、第二拍摄对象和第三拍摄对象所在方向上对应的增益系数为1(或接近于1)，电子设备不会对第一拍摄对象、第二拍摄对象和第三拍摄对象的声音进行抑制。当电子设备播放第1秒视频对应的音频时，用户可以听见第一拍摄对象、第二拍摄对象以及第三拍摄对象的声音。

电子设备在播放视频第1秒的内容后，继续播放该视频。

如图6A所示，用户界面31为电子设备播放视频的界面，由用户界面31可知，当前电子设备播放的图像为上述图1C实施例中，第4秒对应的拍摄图像和音频，且该拍摄图像的变焦倍率为3倍变焦倍率，在用户界面31中不再显示第一拍摄对象，显示第二拍摄对象和第三拍摄对象，且相较于用户界面30中的第二拍摄对象和第三拍摄对象，用户界面31中的第二拍摄对象和第三拍摄对象被放大。

若图6A中拍摄图像对应的输出音频为双声道音频(包括左声道输出音频和右声道输出音频)时，可以通过图6B示出的左声道音频波束赋形图和右声道音频波束赋形图分别生成左声道音频信号和右声道音频信号。图6B为上述图6A对应的拍摄图像的左声道音频波束赋形图和右声道音频波束赋形图。

若图6A中拍摄图像对应的输出音频为单声道音频，电子设备可以将图6B中的左声道音频波束赋形图和右声道音频波束赋形图进行融合，得到如图6C所示的单声道音频波束赋形图。电子设备可以根据该单声道音频波束赋形图生成单声道音频。图6C为本申请实施例提供的上述图6A中拍摄图像对应的单声道音频波束赋形图。如图6C所示，当第4秒对应的拍摄图像的变焦倍率为3倍变焦倍率时，第二拍摄对象所在方向对应的增益系数为1(或接近于1)，第三拍摄对象所在方向对应的增益系数约为0.7，第一拍摄对象所在方向对应的增益系数约为0。因此，电子设备不会对第二拍摄对象的声音进行抑制，会对第一拍摄对象和第三拍摄对象的声音进行抑制，且对第一拍摄对象的声音抑制程度更深。因此，电子设备的麦克风采集的音频信号虽然包括第一拍摄对象、第二拍摄对象以及第三拍摄对象的声音，但在实际播放的音频中，第一拍摄对象和第三拍摄对象的声音被抑制，从听觉上，第三拍摄对象的声音有所减小，第一拍摄对象的声音几乎听不见，第二拍摄对象的声音强度保持不变。

如图7A所示，用户界面32为电子设备播放视频的界面，由用户界面32可知，当前电子设备播放的图像为上述图1D实施例中，第6秒对应的拍摄图像和音频，且该拍摄图像的变焦倍率为5倍变焦倍率，在用户界面32中不再显示第一拍摄对象和第三拍摄对象，显示第二拍摄对象，且相较于用户界面31中的第二拍摄对象，用户界面31中的第二拍摄对象被放大。

若图7A中拍摄图像对应的输出音频为双声道音频(包括左声道输出音频和右声道输出音频)时，可以通过图7B示出的左声道音频波束赋形图和右声道音频波束赋形图分别生成左声道音频信号和右声道音频信号。图7B为上述图7A对应的拍摄图像的左声道音频波束赋形图和右声道音频波束赋形图。

若图7A中拍摄图像对应的输出音频为单声道音频，电子设备可以将图7B中的左声道音频波束赋形图和右声道音频波束赋形图进行融合，得到如图7C所示的单声道音频波束赋形图。电子设备可以根据该单声道音频波束赋形图生成单声道音频信号。图7C为本申请实施例提供的上述图7A中拍摄图像对应的单声道音频波束赋形图。如图7C所示，当拍摄图像的变焦倍率为5倍变焦倍率时，第二拍摄对象所在方向上对应的增益系数为1(或接近于1)，电子设备不会对第二拍摄对象的声音进行抑制。但是，由于第一拍摄对象和第三拍摄对象所在方向对应的增益系数接近于0，电子设备可以对第一拍摄对象和第三拍摄对象的声音进行抑制。因此，电子设备的麦克风采集的音频信号虽然包括第一拍摄对象、第二拍摄对象以及第三拍摄对象的声音，但在实际播放的音频中，第一拍摄对象和第三拍摄对象的声音被抑制，从听觉上，第一拍摄对象和第三拍摄对象的声音很小或者几乎听不见第一拍摄对象和第三拍摄对象的声音。

下面，介绍本申请实施例涉及的三个使用场景。

场景1：电子设备在录制视频的过程中，根据焦距的变化对相机采集的每一帧图像进行实时变焦，同时根据变焦倍率的变化对麦克风采集的每一帧音频进行实时地音频变焦。最后根据多帧图像生成图像流以及根据多帧音频生成音频流，再将该图像流以及音频流进行混流，得到录制的视频并保存。

其中，场景1中录制视频的涉及的一组示例性用户界面可以参考上述图1A-图1E实施例中的相关描述，播放该视频涉及的一组示例性用户界面可以参考上述图5A-图7C实施例中的相关描述，此处不再赘述。

场景2：电子设备与耳机连接，在录制视频的过程中，电子设备的相机实时采集图像，并对每帧图像进行实时的处理，与此同时，电子设备根据变焦倍率的变化，基于图像的变焦倍率，实时对图像对应的音频进行变焦处理。然后，电子设备实时将处理后的每帧图像通过显示屏播放的同时，将每帧处理后的音频通过耳机进行播放。

其中，场景2涉及的一组示例性用户界面可以参考下述对图8A-图8D的描述。

在图8A-图8D中，被拍摄的对象可以包括第一拍摄对象110、第二拍摄对象120以及第三拍摄对象130。本申请实施例以电子设备100利用后置摄像头录制视频，进行视频录制为例进行举例说明。假设在录制视频的过程中，电子设备100与上述三个拍摄对象的距离未发生改变且在录制全程，拍摄对象的音量也未发生改变。为了避免预览视频时导致的播放的音频被电子设备进行采集，影响后续需要采集的音频，电子设备可以通过连接的耳机播放音频。

在一些实施例中，电子设备可以不通过耳机播放音频，直接利用本机的扬声器进行音频播放，再利用声学回声消除(acoustic echo cancellation，AEC)消除电子设备的扬声器播放的音频。

如图8A所示，电子设备100屏幕上显示的用户界面40为录制视频的一个预览界面，该预览界面包括录制控件401。其中，录制控件404用于接收录制视频的指令，当电子设备100检测到针对录制控件401的输入操作(例如单击)，响应该操作，电子设备100显示如图8B所示的用户界面41。

如图8B所示，用户界面41当前录制视频的界面，包括焦距显示图标4101、录制时间显示图标4102、暂停控件4103、停止控件4104以及变焦倍率控件4105。其中，焦距显示图标4101用于显示当前图像的变焦倍率，例如，1X表示1倍变焦倍率，3X表示3倍变焦倍率。录制时间显示图标4102用于显示当前录制的视频的时间，暂停控件4103用于响应暂停指令，暂停录制视频，停止控件4104用于响应停止录制指令，结束录制视频。变焦倍率控件4105用于响应变焦倍率调节指令后，放大/缩小录制视频时的变焦倍率。例如，用户向上滑动变焦倍率控件4105，电子设备100响应用户向上滑动变焦倍率控件4105的操作，增大图像的变焦倍率，用户向下滑动变焦倍率控件4105，电子设备100响应用户向下滑动变焦倍率控件4105的操作，减小图像的变焦倍率。由录制时间显示图标4102可知，当前视频录制的时间为第1秒，此时，电子设备100获取的是第1秒视频对应的图像和音频信号。由焦距显示图标4101可知，当前录制视频的变焦倍率为1倍变焦倍率且在用户界面41中，包括第一拍摄对象、第二拍摄对象以及第三拍摄对象。当电子设备100检测到用户向上滑动变焦倍率控件4105的操作后，响应于该操作，电子设备100改变录制视频时的变焦倍率，显示如图8C所示的用户界面42。

如图8C所示，用户界面42为录制视频的界面。由录制时间显示图标可知，当前视频录制的时间为第4秒，此时，电子设备100获取的是第4秒视频对应的图像和音频信号。由焦距显示图标可知，当前录制视频的变焦倍率为3倍变焦倍率且在用户界面42中，包括第二拍摄对象和第三拍摄对象。此时，可以看到在用户界面42中不再显示第一拍摄对象，同时，相较于用户界面41中显示的第二拍摄对象和第三拍摄对象，用户界面42中显示的第二拍摄对象和第三拍摄对象被放大。当电子设备100检测到用户向上滑动变焦倍率控件的操作后，响应于该操作，电子设备100改变录制视频时的变焦倍率，显示如图8D所示的用户界面43。

如图8D所示，用户界面43为录制视频的界面。由录制时间显示图标可知，当前视频录制的时间为第6秒，此时，电子设备100获取的是第6秒视频对应的图像和音频信号。由焦距显示图标可知，当前录制视频的变焦倍率为5倍变焦倍率且在用户界面43中，包括第二拍摄对象。此时，可以看到，在用户界面43中，不显示第一拍摄对象和第三拍摄对象，仅显示第二拍摄对象，相较于用户界面42中显示第二拍摄对象，用户界面43中显示的第二拍摄对象被放大。

这样，电子设备可以通过预览其录制的视频，去调试录制视频时的最佳变焦倍率。

在一些实施例中，电子设备除了可以对生成的每一帧图像以及音频即对其进行实时播放以外，还可以将每帧处理好的图像和每帧处理后的音频信号发送给其它电子设备，实现录制视频在多设备间的实时播放。

场景3：电子设备可以对已经录制好的视频中的音频流进行处理。电子设备获取每一帧图像对应的音频信号及其对应的焦距信息，并根据该帧图像的焦距，对该音频信号进行音频变焦处理，并对处理后的音频重新编码，得到新的音频流，电子设备将新的音频流和图像流进行混流，生成新的视频。

电子设备录制视频并保存视频的过程，请参见上述图1A-图1E的相关叙述。下面，结合图9A-图9E，对电子设备对已录制的视频进行音频变焦涉及的一组示例性用户界面进行详细叙述。

电子设备100在完成视频录制后，显示如图9A所示的用户界面50，用户界面50包括回显控件501和拍摄控件502。其中，回显控件501用于在接收回显指令后，显示已录制好的视频作品，拍摄控件502用于在接收拍摄指令后，录制视频。当电子设备100检测到针对回显控件501的输入操作(例如单击)后，响应该输入操作，电子设备100显示如图9B所示的用户界面51。

如图9B所示，用户界面51为编辑视频作品的界面，包括播放控件503、编辑控件504等其它功能性控件。当电子设备100检测到针对编辑控件504的输入操作(例如单击)后，电子设备100显示如图9C所示用户界面52。

如图9C所示，用户界面52为编辑视频作品的界面，包括编辑功能框505，编辑功能框505包括变焦模式控件506，所述变焦模式控件506用于接收到音频变焦指令后，根据视频中图像的焦距对视频中的音频进行变焦。当电子设备100检测到针对变焦模式控件506的输入操作(例如单击)，响应于该操作，电子设备100显示如图9D所示的用户界面53。

如图9D所示，用户界面53为编辑视频作品的界面，包括音频变焦处理信息框507，音频变焦处理信息框507包括音频变焦信息，该音频变焦信息用于提示用户当前电子设备100正在对视频作品进行音频变焦。示例性的，音频变焦信息可以为文字信息，该文字信息的内容可以为“请稍后，正在对该视频进行音频变焦”。本申请实施例仅对该文字信息的内容进行示例性说明，对于该文字信息的内容，本申请实施例不做任何限制。电子设备100对已录制的视频作品音频变焦完成后，电子设备100显示如图9E所示的用户界面54。

如图9E所示，用户界面54为编辑视频作品的界面，包括音频变焦完成提示框508，音频变焦完成提示框508包括文字提示信息，所述文字提示信息用于提示用户音频变焦完成。

示例性的，文字信息提示的内容可以为“该视频作品已完成音频变焦”，本申请实施例仅对文字提示的内容做示例性说明，不做任何限制。当电子设备100对该视频作品完成音频变焦的操作后，生成新的视频作品，电子设备100可以该新的视频作品代替原来未进行音频变焦的视频作品，从而删除原来的视频作品，电子设备100也可以将该新生成的视频作品与原来未进行音频变焦的视频作品都保存，本申请实施例对此不做限制。

本申请实施例所述的音频变焦的方法适用于具有N个麦克风的电子设备，其中，N为大于或等于2的整数。下面，以电子设备具有三个麦克风为例，对上述三个场景中，涉及到的视频处理方法的流程进行详细叙述。

在场景1下使用本申请实施例所述的音频变焦的方法所涉及的一组电子设备用户界面可以参考上述图1A-图1D的界面的描述，对场景1涉及的音频变焦的方法，电子设备在录制视频的过程中，相机采集帧图像形成图像流，麦克风采集音频信号形成音频流，电子设备在相机采集帧图像和麦克风采集音频信号的过程中，实时对帧图像进行处理，同时，根据帧图像的焦距变化，对音频信号进行变焦。然后，电子设备将处理后的图像流和处理后的音频流进行混流，生成视频。

下面，对上述场景1中涉及的音频变焦方法的流程进行介绍。请参见图10，图10是本申请实施例提供的一种电子设备在录制视频的过程中，根据视频图像的变焦倍率对音频进行实时变焦的流程图，电子设备对其进行处理的具体流程为：

步骤S1001：电子设备通过相机采集帧图像。

步骤S1002：电子设备采集第一输入音频信号、第二输入音频信号以及第三输入音频信号。

具体地，电子设备采集第一输入音频信号、第二输入音频信号以及第三输入音频信号的一组示例性界面请参见上述图1B-图1D的相关叙述，本申请实施例在此不再赘述。

第一输入音频信号为电子设备的第一麦克风在第一时间段内采集的声音信号转换而来的当前帧音频信号。

第二输入音频信号为电子设备的第二麦克风在第一时间段内采集的声音信号转换而来的当前帧音频信号。

第三输入音频信号为电子设备的第三麦克在第一时间段内采集的声音信号转换而来的当前帧音频信号。

以电子设备采集第一输入音频信号为例。

具体的，第一时间段内，电子设备的第一麦克风可以采集声音信号，然后将该声音信号转换为模拟的电信号。然后电子设备对该模拟的电信号进行采样，将其转化为时域上的音频信号。该时域上的音频信号为数字音频信号，为W个模拟的电信号的采样点。电子设备中可以用数组表示该第一输入音频信号，数组中的任一个元素用于表示一个采样点，任一元素包括两个值，其中一个值表示时间，另一个值表示该时间对应音频信号的幅值，该幅值用于表示该音频信号对应的电压大小。

可以理解的是，电子设备采集第二输入音频信号以及第三输入音频信号的过程可以参考对该第一输入音频信号的描述，此处不再赘述。

步骤S1003：电子设备获取第一变焦倍率。

具体地，第一变焦倍率为电子设备采集当前帧图像时所使用的变焦倍率。电子设备开始录制视频时，使用的默认变焦倍率为1倍变焦倍率，电子设备可以根据用户设置改变采集当前帧图像时所使用的变焦倍率。示例性的，当电子设备检测到用户调节变焦倍率的操作时，响应该操作，电子设备会改变当前帧图像的变焦倍率，从而实现对视频图像的变焦。电子设备变焦倍率的一组示例性界面可以参考上述图1B-图1D的界面的叙述，本申请实施例对此不再赘述。关于该变焦倍率的描述可以参考前述对术语(1)的描述。

步骤S1004：电子设备将第一输入音频信号、第二输入音频信号以及第三输入音频信号进行时频变换，得到第一音频信号、第二音频信号以及第三音频信号。

具体地，电子设备可以通过离散傅里叶变换(Discrete Fourier Transform，DFT)或快速傅里叶变换(Fast Fourier Transform，FFT)分别将第一输入音频信号、第二输入音频信号以及第三输入音频信号进行时频变换，得到第一音频信号、第二音频信号和第三音频信号。其中，第一音频信号为第一输入音频信号在频域上的信号，第二音频信号为第二输入音频信号在频域上的信号，第三音频信号为第三输入音频信号在频域上的信号。

在一些实施例中，电子设备可以将输入音频信号通过2L点FFT划分为对应L个频点的音频信号。其中，L为2的整数次方，L的取值由电子设备的计算能力决定，电子设备的计算处理能力越大，L的取值越大。例如，可以将第一输入音频信号通过2048点DFT划分为对应1024个频点的第一音频信号，然后可以用数组表示该第一音频信号，数组中包括1024个元素。任一元素用于表示一个频点，其包括两个值，其中一个值表示该频点对应的音频信号的频率(HZ)，另一个值表示该频点对应的音频信号的幅值，该幅值的单位为分贝(decibel，dB)，表示该时间对应的音频信号的分贝大小。应该理解的是，除了数组，电子设备还可以用其他的方式表达该第一音频信号，例如矩阵等，本申请实施例对此不作限定。

步骤S1005：电子设备根据第一变焦倍率，将第一音频信号、第二音频信号以及第三音频信号进行第一处理，得到第一左声道输入音频和第一右声道输入音频。

具体地，该第一处理为对第一音频信号、第二音频信号以及第三音频信号进行波束赋形，电子设备对第一音频信号、第二音频信号以及第三音频信号进行波束赋形的目的是为了抑制第一音频信号、第二音频信号以及第三音频信号中非目标拍摄对象的声音信号强度，增强目标拍摄对象的声音强度，从而使得生成的第一左声道输入音频和第一右声道输入音频中，目标拍摄对象的声音被增强，非目标拍摄对象的声音被压制。其中，目标拍摄对象为在录制视频的过程中，电子设备相机的视场角以内的发声对象，非目标对象为电子设备的相机视场角以外的发声对象。

下面，结合图11对第一方向、第二方向和第三方向进行示例性说明。图11是电子设备录制视频的俯视图，如图11所示，以电子设备的后置摄像头面向的方向为前方，第一方向可以为正前方(0°)逆时针10°到正前方逆时针90°范围内的任一方向，第二方向可以为正前方逆时针10°到正前方顺时针10°范围内任一方向，第三方向可以为正前方顺时针10°到正前方顺时针90°范围内的任一方向。以第一方向为正前方向逆时针45°，第二方向为正前方，第三方向为正前方向顺时针25°(在图11中标注为335°)进行举例说明，由图11可知，正前方向为0°对应的方向，第一方向为45°对应的方向，第三方向为335°对应的方向。

电子设备对第一音频信号、第二音频信号以及第三音频信号进行波束赋形的具体过程为：

1、电子设备基于第一音频信号、第二音频信号和第三音频信号生成第一波束。

第一波束为第一方向对应的波束，第一波束为电子设备对第一音频信号、第二音频信号以及第三音频信号进行合成之后的音频信号。在信号合成的过程中，电子设备对第一音频信号、第二音频信号以及第三音频信号中，第一方向及其附近方向的音频成分进行保留或增强，对其它方向的音频成分进行抑制。由于麦克风是全方向(0°～360°方向)采集拍摄环境的音频信号，因此，第一音频信号、第二音频信号以及第三音频信号可能包括各个方向(0°～360°方向)的音频信号，如图11所示，若第一方向为45°对应的方向，第一方向附近的方向可以为20°～45°范围对应的方向，在信号合成的过程中，电子设备可以对第一音频信号、第二音频信号以及第三音频信号中20°～45°范围对应方向的音频信号进行保留/增强，对其它方向的音频信号进行抑制。

电子设备可以基于公式(1)得到第一波束，公式(1)如下所示：

其中，y₁(ω)为第一波束，其包括L个元素，任一元素用于表示一个频点。该第一波束对应的频点数目与第一音频信号、第二音频信号以及第三音频信号对应的频点相同。N为麦克风的数量。w_1i(ω)为第i个麦克风在第一方向对应的第一滤波器系数，w_1i(ω)中第j个元素表示对音频信号中第j个频点对应的音频信号进行抑制的程度。x_i(ω)为第i个麦克风采集的音频信号，x_i(ω)中的第j个元素表示第j个频点的复数域，其表示该频点对应的声音信号的幅值与相位信息，M为电子设备麦克风的个数。

2、电子设备基于第一音频信号、第二音频信号和第三音频信号生成第二波束。

第二波束为第二方向对应的波束，第二波束为电子设备对第一音频信号、第二音频信号以及第三音频信号进行合成之后的音频信号。在信号合成的过程中，电子设备对第一音频信号、第二音频信号以及第三音频信号中，第二方向及其附近方向的音频成分进行保留或增强，对其它方向的音频成分进行抑制。电子设备可以基于公式(2)得到第二波束，公式(2)如下所示：

其中，y₂(ω)为第二波束，其包括L个元素，任一元素用于表示一个频点。该第二波束对应的频点数目与第一音频信号、第二音频信号以及第三音频信号对应的频点相同。w_2i(ω)为第i个麦克风在第二方向对应的第二滤波器系数，w_2i(ω)中第j个元素表示对音频信号中第j个频点对应的音频信号进行抑制的程度。x_i(ω)为第i个麦克风对应的音频信号，x_i(ω)中的第j个元素表示第j个频点的复数域，其表示该频点对应的声音信号的幅值与相位信息，M为电子设备麦克风的个数。

3、电子设备基于第一音频信号、第二音频信号和第三音频信号生成第三波束。

第三波束为第三方向对应的波束，第三波束为电子设备对第一音频信号、第二音频信号以及第三音频信号进行合成之后的音频信号。在信号合成的过程中，电子设备对第一音频信号、第二音频信号以及第三音频信号中，第二方向及其附近方向的音频成分进行保留或增强，对其它方向的音频成分进行抑制。电子设备可以基于公式(3)得到第三波束，公式(3)如下所示：

其中，y₃(ω)为第三波束，其包括L个元素，任一元素用于表示一个频点。该第三波束对应的频点数目与第一音频信号、第二音频信号以及第三音频信号对应的频点相同。w_3i(ω)为第i个麦克风在第三方向对应的第三滤波器系数，w_3i(ω)中第j个元素表示对音频信号中第j个频点对应的音频信号进行抑制的程度。x_i(ω)为第i个麦克风对应的音频信号，x_i(ω)中的第j个元素表示第j个频点的复数域，其表示该频点对应的声音信号的幅值与相位信息，M为电子设备麦克风的个数。

4、电子设备基于焦距信息将第一波束、第二波束以及第三波束进行融合，得到第一左声道音频信号和第一右声道音频信号。

电子设备可以根据公式(4)得到第一左声道音频信号，公式(4)如下所示：

y_l1(ω)＝α₁*y₁(ω)+(1-α₁)*y₂(ω) (4)

其中，y_l1(ω)为第一左声道输入音频，α₁为融合系数，α₁的取值与当帧图像的变焦倍率相关，每个变焦倍率都唯一对应一个第一融合系数，电子设备可以根据当帧图像的焦距信息确定第一融合系数，第一融合系数的取值为[0，1]。变焦倍率越大，第一融合系数越小。例如，当焦距为一倍焦距时，第一融合系数可以为1。当焦距为最大焦距时，第一融合系数可以为0。

电子设备可以根据公式(5)得到第一右声道音频信号，公式(5)如下所示：

y_r1(ω)＝α₁*y₃(ω)+(1-α₁)*y₂(ω) (5)

其中，y_r1(ω)为第一右声道输入音频。

应当理解的是，该融合系数α₁用于确定左声道音频信号是更偏左还是更偏正前方以及右声道音频信号时更右还是更偏正前方，第一融合系数的取值与变焦倍率直接相关。原理是变焦倍率越大时，视场角越小，则该左声道音频信号以及右声道音频信号应该更集中于正前方，即第二方向，结合公式(4)以及公式(5)可知，此时α₁应该越小。则应该理解的是变焦倍率越小时，视场角越大，α₁则越大，这样左声道音频信号才可以更多的保留相对于正前方偏左(即第一方向)的音频信号，这样右声道音频信号才可以更多的保留相对于正前方偏右(即第三方向)的音频信号。

可以理解的是，不同变焦倍率对应的融合系数α不同，则导致融合的时候，得到不同的波束形成图。例如，前述图5B示出的1倍变焦倍率下的左声道音频波束赋形图、图6B示出的3倍变焦倍率下的左声道音频波束赋形图、以及图7B示出的5倍变焦倍率下的左声道音频波束赋形图的形状不同。以及前述图5B示出的1倍变焦倍率下的右声道音频波束赋形图、图6B示出的3倍变焦倍率下的右声道音频波束赋形图、以及图7B示出的5倍变焦倍率下的右声道音频波束赋形图的形状不同。以及前述图5C示出的1倍变焦倍率下的单声道音频波束赋形图、图6C示出的3倍变焦倍率下的单声道音频波束赋形图、以及图7C示出的5倍变焦倍率下的单声道音频波束赋形图的形状不同。

在一些实施例中，电子设备还可以预先训练多个方向的波束，并利用这多个方向的波束对第一音频信号、第二音频信号和第三音频信号进行波束赋形。以电子设备利用第一波束、第二波束、第三波束、第四波束以及第五波束为例进行说明。其中，第一波束y₁₁(ω)为第一方向上对应的波束、第二波束y₁₂(ω)为第二方向上对应的波束、第三波束y₁₃(ω)为第三方向上对应的波束、第四波束y₁₄(ω)为第四方向上对应的波束、第五波束y₁₅(ω)为第五方向上对应的波束。第一方向为正前方逆时针45°、第二方向为正前方逆时针75°、第三方向为正前方、第四方向为正前方顺时针45°、第五方向为正前方顺时针75°为例进行说明。

可以根据公式y_l1(ω)＝a₁*y₁₁(ω)+a₂*y₁₂(ω)+a₃*y₁₃(ω)得到第一左声道输入音频；其中a₁、a₂、a₃为融合系数，且a₁+a₂+a₃＝1。

可以根据公式y_r1(ω)＝a₁*y₁₄(ω)+a₂*y₁₅(ω)+a₃*y₁₃(ω)得到第一右声道输入音频；其中a₁、a₂、a₃为融合系数，且a₁+a₂+a₃＝1。

步骤S1006：电子设备将第一音频信号、第二音频信号以及第三音频信号进行第二处理，得到M路第一音源音频。

具体地，M为麦克风的数量，该第二处理可以为对第一音频信号、第二音频信号以及第三音频信号进行盲源分离。电子设备可以使用盲源分离(Blind Signal Separation，BSS)的方法得到M路第一音源音频。麦克风采集的音频信号包括多个目标对象的音频信号，通过BBS可以将第一音频信号、第二音频信号和第三音频信号分成多路音源音频。

示例性的，电子设备可以采用非负矩阵分解的方法分离声源，具体为：电子设备根据公式(6)得到M路第一音源音频，公式(6)如下所示：

其中，x_i(ω)为第i个麦克风在频域上的音频信号，W_i(ω)为第i个麦克风对应的非负矩阵，所述Y(ω)为一个大小为M*L的矩阵，Y(ω)的每一个行向量为一路音源音频。因此，由Y(ω)可获得M路音源音频Y₁(ω)～Y_M(ω)。

应当理解的是，电子设备可以先执行步骤S1005，再执行步骤S1006，电子设备也可以先执行步骤S1006，再执行步骤S1005，电子设备也可以同时执行步骤S1005和步骤S1006，本申请实施例对此不做限制。

步骤S1007：电子设备基于第一左声道输入音频，在M路第一音源音频中确定第一目标音频。

具体地，电子设备将y_l1(ω)分别与Y₁(ω)～Y_M(ω)做相关性运算，得到M个相关值，然后，电子设备选择相关值最大的音源音频为第一目标音频。电子设备可以根据公式(7)计算相关值，公式(7)如下所示：

其中，i＝1…M，γ_i为第一左声道输入音频与Y_i(ω)的相关值，

然后，电子设备在γ₁～γ_M确定相关值最大的音源音频为第一目标音频Y_t1(ω)，该相关值最大的音源音频为与第一左声道输入音频相关性最高的音源音频。

在一些实施例中，电子设备可以设定第一阈值，γ_i大于第一阈值时，则确定Y_i(ω)为目标音源音频，在存在多个目标音源音频的情况下，电子设备可以将这多个目标音源音频做等比例的融合，得到融合后的音源音频，该融合后的音源音频为第一目标音频Y_t1(ω)，该第一目标音频为与第一左声道输入音频相关性最高的音源音频。

示例性的，若γ₁和γ₂为大于第一阈值，电子设备可以将Y₁(ω)和Y₂(ω)做1∶1的融合，得到Y_t1(ω)：

步骤S1008：电子设备将第一目标音频与第一左声道输入音频进行融合，得到第一左声道音频。

具体地，电子设备可以根据公式(8)将Y_t1(ω)和第一左声道音频信号进行融合，得到第二左声道音频信号，公式(8)如下所示：

y′_l1(ω)＝β₁*y_l1(ω)+(1-β₁)*Y_t1(ω) (8)

其中，y′_l1(ω)为第一左声道音频，β₁为融合系数，β₁的取值与当帧图像的变焦倍率，每个变焦倍率都唯一对应一个β₁，电子设备可以根据当帧图像的变焦倍率确定β₁，β₁的取值为[0，1]。变焦倍率越大，β₁越小。例如，若当前帧图像为1倍变焦倍率时，β₁可以为1。当当前帧图像的变焦倍率为最大变焦倍率时，β₁可以为0。

步骤S1009：电子设备基于第一右声道输入音频，在M路第一音源音频中确定第二目标音频。

具体地，电子设备在M路第一音源音频中确定第二目标音频Y_t2(ω)的方法请参考步骤S1007，在此不再赘述。

步骤S1010：电子设备将第二目标音频与第一右声道输入音频进行融合，得到第一右声道音频。

具体地，电子设备将第二目标音源信号与第一右声道音频信号进行融合，得到第二右声道音频信号y′_r(ω)的方法请参考步骤S1007，在此不再赘述。

应当理解的是，电子设备可以先对第一左声道输入音频进行处理得到第一左声道音频，再对第一右声道输入音频进行处理，得到第一右声道音频，即：电子设备先执行步骤S1007和步骤S1008，再执行步骤S1009和步骤S1010。电子设备也可以先对第一右声道输入音频进行处理得到第一右声道音频，再对第一左声道输入音频进行处理，得到第一左声道音频，即：电子设备先执行步骤S1009和步骤S1010，再执行步骤S1007和步骤S1008。电子设备还可以同时对第一左声道输入音频和第一右声道输入音频进行处理，同时得到第一左声道音频和第一右声道音频，即：电子设备同时执行步骤S1007和步骤S1009后，再同时执行步骤S1008和步骤S1010，本申请实施例对此不做限制。

步骤S1011：电子设备将第一左声道音频和第一右声道音频进行增强处理，得到第一左声道输出音频信号和第一右声道输出音频信号。

具体地，电子设备可以采用动态范围调整(Dynamic Range Control，DRC)算法对第一左声道音频和第一右声道音频进行处理，具体方法为：电子设备根据预置的DRC调整曲线，对第一左声道音频和第一右声道音频进行处理，得到第一左声道输出音频信号和第一右声道输出音频信号。

示例性的，如图12所示，包括多条DRC曲线(图12中只列举了3条DCR曲线)，每条DRC曲线与变焦倍率唯一对应，曲线1为1倍变焦倍率对应的DRC曲线，曲线1为3倍变焦倍率对应的DRC曲线，曲线3为5倍变焦倍率对应的DRC曲线。其中，横轴为输入信号，即第一左声道音频或第一右声道音频，纵轴为输出音频信号，即第一左声道输出音频信号或第一右声道输出音频信号。变焦倍率越大，电子设备通过DRC曲线对第一左声道音频或第一右声道音频的能量的抬升就越大，即对音频信号进行能量增强。若当前帧图像的变焦倍率为1倍变焦倍率或1倍以下的变焦倍率时，电子设备对第一左声道音频和第一右声道音频不做增强处理。

以电子设备对第一左声道音频基于DRC曲线进行处理，得到第一左声道输出音频信号为例进行说明。若当前帧图像的变焦倍率为1倍变焦倍率时，电子设备基于曲线1处理第一左声道音频，若第一左声道音频的能量强度为-15dB，根据曲线1的对应关系，第一左声道输出音频信号的能量强度为-15dB。若当前帧图像的变焦倍率为3倍变焦倍率时，电子设备基于曲线2处理第一左声道音频，若第一左声道音频的能量强度为-15dB，根据曲线2的对应关系，第一左声道输出音频信号的能量强度为-12dB，相较于第一左声道音频，第一左声道输出音频信号的能量增强了3dB。若当前帧图像的变焦倍率为5倍变焦倍率时，电子设备基于曲线3处理第一左声道音频，若第一左声道音频的能量强度为-15dB，根据曲线3的对应关系，第一左声道输出音频信号的能量强度为-8dB，相较于第一左声道音频，第一左声道输出音频信号的能量增强了7dB。

在一些实施例中，电子设备还可以使用自动增益控制(Automatic Gain Control，AGC)的方法对第一左声道音频和第一右声道音频进行处理，得到第一左声道输出音频信号和第一右声道音频输出信号。

步骤S1012：电子设备将第一左声道音频输出信号和第一右声道音频输出信号进行频时变换，得到第一左声道输出音频和第一右声道输出音频。

具体地，频时变换为上述步骤S1003中，时频变换的逆变换。例如，当步骤S1003中的时频变换采用的是离散傅里叶变换(Discrete Fourier Transform，DFT)，则频时变换采用离散傅里叶逆变换(Inverse Discrete Fourier Transform，IDFT)，当时频变换采用快速傅里叶变换(Fast Fourier Transform，FFT)，则频时变换采用快速傅里叶逆变换(Inverse Fast Fourier Transform，IFFT)。

步骤S1013：电子设备保存第一左声道输出音频、第一右声道输出音频以及当前帧图像。

在一些实施例中，当电子设备输出的音频为单声道音频时，电子设备将第一左声道输出音频和第一右声道输出音频进行融合，得到并保存第一单声道输出音频。

本申请实施例，电子设备进行视频录制的过程，在检测到用户调节视频图像变焦倍率的操作后，会实时调节视频中图像的焦距。同时，电子设备也会根据视频中图像焦距的变化对音频进行实时的变焦，即：在变焦倍率变大，视场角变小的情况下，抑制拍摄范围外的拍摄对象的声音，增强在拍摄范围内拍摄对象的声音，从而带给用户更好的视听体验。

在上述图10的实施例中，电子设备通过已训练好的滤波器系数对音频信号进行波束赋形，要使得第一左声道输出音频以及第一右声道输出音频可以体现立体声，就需要第一左声道输入音频以及第一右声道输入音频中保留的音频信号与抑制的音频信号不同。即在第一左声道输入音频中，对于电子设备正前方偏左方向采集的音频信号进行保留，偏右方向采集的音频信号进行抑制。第一右声道输入音频中，对电子设备正前方偏右方向采集的音频信号进行保留，偏左方向采集的音频信号进行抑制。本申请实施例以上述图11中的第一方向、第二方向、第三方向为例，进行说明。本申请实施例中，偏左即是偏向第一方向，正前方即是第二方向，偏右即是偏向第三方向。

该第一方向相对于电子设备的正前方偏左，第三方向相对于电子设备的正前方偏右，第二方向相对处于电子设备的正前方。

该第一方向对应的第一滤波器系数以及第二方向对应的第二滤波器系数用于生成第一左声道输入音频。其可以对电子设备正前方偏左方向采集的音频信号进行保留，偏右方向采集的音频信号进行抑制。该第二方向对应的第一滤波器系数以及第三方向对应的第三滤波器系数用于生成第一右声道输入音频。其可以对电子设备正前方偏右方向采集的音频信号进行保留，偏左方向采集的音频信号进行抑制。

该第一方向对应的第一滤波器系数、第二方向对应的第二滤波器系数以及第三方向对应的第三滤波器系数是在电子设备出厂前预先配置在电子设备中的。

以电子设备生成该第一方向对应的第一滤波器为例进行详细介绍，该过程可以参考下述图13中对步骤S1301-步骤S1303的描述。

对第一滤波器的详细介绍如下：

该第一方向对应的第一滤波器系数中包括第一麦克风在第一方向对应的第一滤波器系数、第二麦克风在第一方向对应的第一滤波器系数以及第三麦克风在第一方向对应的第一滤波器系数。其中，该第一麦克风在第一方向对应的第一滤波器系数可以用于对第一输入音频信号中相对于电子设备正前方偏左方向采集的音频信号进行保留，正前方以及偏右方向采集的音频信号进行抑制。该第二麦克风在第一方向对应的第一滤波器系数可以用于对第二输入音频信号中相对于电子设备正前方偏左方向采集的音频信号进行保留，正前方以及偏右方向采集的音频信号进行抑制。该第一麦克风在第三方向对应的第三滤波器系数可以用于对第三音频输入信号中相对于电子设备正前方偏左方向采集的音频信号进行保留，正前方以及偏右方向采集的音频信号进行抑制。该过程涉及的详细内容可以参考下述对步骤S1302的描述。

其中，如果第一音频输入信号中包括L个频点，则该第一麦克风在第一方向对应的第一滤波器系数也应该有L个元素(系数)，其中第j个元素表示对第一音频信号对应的L个频点中第j个频点的抑制程度。

具体的，当该第j个元素等于1或接近1时，则电子设备对该第j个频点对应的音频信号不进行抑制(接近1抑制程度很低几乎没有进行抑制，视为保留)，即为保留，则认为该第j个频点对应的音频信号的方向偏左。其他情况则是对该第j个频点对应的音频信号进行抑制，例如，当该第j个元素等于0或接近0时，则电子设备对该第j个频点对应的音频信号进行抑制的程度越大，即为抑制，则认为该第j个频点对应的音频信号的方向越偏右。

本申请实施例以电子设备具有三个麦克风、训练第一方向对应的第一滤波器系数为例，对电子设备训练滤波器系数的过程进行详细说明。请参见图13，图13是本申请实施例提供的电子设备训练第一滤波器系数的流程图，具体流程如下：

步骤S1301：电子设备在多个方向上分别获取不同距离上的第一测试音频信号、第二测试音频信号以及第三测试音频信号。

具体地，所述方向为发声对象与电子设备间的水平角，距离是指发声对象与电子设备的欧氏距离，所述发声对象为单一发生对象。电子设备在多个方向上分别获取不同距离上的测试音频信号是为了让生成的第一滤波器系数具有普适性。即，当电子设备录制视频时，若麦克风采集的第一输入音频信号、第二输入音频信号以及第三输入音频信号的方向与该多个方向中的一个相同或相近，电子设备仍然可以使用第一滤波器系数对第一输入音频信号、第二输入音频信号以及第三输入音频信号进行波束赋形。

在一些实施例中，该多个方向可以包括36个方向，即在电子设备周围，每隔10°为一个方向。多个距离可以包括3个距离分别为1m、2m以及3m。

该第一测试音频信号为电子设备的第一麦克风在多个方向上分别采集的不同距离上的输入音频信号的集合。

该第二测试音频信号为电子设备的第二麦克风在多个方向上分别采集的不同距离上的输入音频信号的集合。

该第三测试音频信号为电子设备的第三麦克风在多个方向上分别采集的不同距离上的输入音频信号的集合。

步骤S1302：电子设备获取第一方向对应的第一目标波束。

具体地，该第一目标波束用于电子设备生成第一方向对应的第一滤波器系数，其描述了电子设备在多个方向上的滤波程度。

在一些实施例中，当该多个方向为36个方向时，则该第一目标波束中有36个增益系数。第i个增益系数表示第i个方向上的抑制程度，任一方向都对应一个增益系数。其中，第一方向上对应的增益系数为1，然后，每与第一方向相差10°的方向，则增益系数依次减去1/36。则，越接近第一方向的方向对应的元素越接近1，越远离第一方向的方向对应的元素越接近0。

步骤S1303：电子设备通过设备相关传递函数，利用该第一测试音频、第二测试音频、第三测试音频以及第一目标波束生成第一方向上对应的第一滤波器系数。

电子设备生成该第一方向对应的第一滤波器系数的公式为下述公式(9)：

公式(9)中，w₁(ω)为第一滤波器系数，其包括3个元素，其中第i个元素可以表示为w_1i(ω)，w_1i(ω)为第i个麦克风在第一方向对应的第一滤波器系数，H₁(ω)表示第一测试音频信号、H₂(ω)表示第二测试音频信号以及H₃(ω)表示第三测试音频信号，G(H₁(ω)，H₂(ω)，H₃(ω))表示通过设备相关传递函数来处理第一测试音频信号、第二测试音频信号以及第三测试音频信号，其可以用于描述该第一测试音频信号、第二测试音频信号以及第三测试音频信号间的相关性。H₁表示第一目标波束，w₁表示第一方向上可以求得的滤波器系数，argmin表示使用最小二乘频率不变固定波束形成的方法求取的w₁作为第一方向对应的第一滤波器系数。

该第二方向对应的第二滤波器系数中包括第一麦克风在第二方向对应的第二滤波器系数、第二麦克风在第二方向对应的第二滤波器系数以及第三麦克风在第二方向对应的第二滤波器系数。其中，该第一麦克风在第二方向对应的第二滤波器系数可以用于对第一音频信号中相对于电子设备正前方采集的音频信号进行保留，偏左及偏右方向采集的音频信号进行抑制。该第二麦克风在第二方向对应的第二滤波器系数可以用于对第二音频信号中相对于电子设备正前方采集的音频信号进行保留，偏左及偏右方向采集的音频信号进行抑制。该第一麦克风在第三方向对应的第三滤波器系数可以用于对第三音频信号中相对于电子设备正前方采集的音频信号进行保留，偏左及偏右方向采集的音频信号进行抑制。

对该第二滤波器的详细描述可以参考上述对第一滤波器的详细介绍，此处不再赘述。

电子设备生成该第二方向对应的第二滤波器系数的公式为下述公式(10)：

对公式(10)的描述可以参考前述对公式(9)的描述。不同之处在于，w₂(ω)为第二滤波器系数，其包括3个元素，其中第i个元素可以表示为w_2i(ω)，w_2i(ω)为第i个麦克风在第二方向对应的第二滤波器系数，H₂表示第二方向对应的第二目标波束，w₂表示第二方向上可以求得的滤波器系数，argmin表示使用最小二乘频率不变固定波束形成的方法求取的w₂作为第二方向对应的第二滤波器系数。

其中，该第二目标波束用于电子设备生成第二方向对应的第二滤波器，其描述了电子设备在多个方向上的滤波程度。

在一些实施例中，当该多个方向为36个方向时，则该第二目标波束中有36个增益系数。第i个增益系数表示第i个方向上的滤波程度，任一方向都对应一个增益系数。其中，第二方向上对应的增益系数为1，然后，每与第二方向相差10°的方向，则增益系数依次减去1/36。则，越接近第二方向的方向对应的元素越接近1，越远离第二方向的方向对应的元素越接近0。

该第三方向对应的第三滤波器系数中包括第一麦克风在第三方向对应的第三滤波器系数、第二麦克风在第三方向对应的第三滤波器系数以及第三麦克风在第三方向对应的第三滤波器系数。其中，该第一麦克风在第三方向对应的第三滤波器系数可以用于对第一音频信号中相对于电子设备正前方偏右方向采集的音频信号进行保留，正前方以及偏左方向采集的音频信号进行抑制。该第二麦克风在第三方向对应的第三滤波器系数可以用于对第二音频信号中相对于电子设备正前方偏右方向采集的音频信号进行保留，正前方以及偏左方向采集的音频信号进行抑制。该第一麦克风在第三方向对应的第三滤波器系数可以用于对第三音频信号中相对于电子设备正前方偏右方向采集的音频信号进行保留，正前方以及偏左方向采集的音频信号进行抑制。

对该第三滤波器的详细描述可以参考上述对第一滤波器的详细介绍，此处不再赘述。

电子设备生成该第三方向对应的第三滤波器系数的公式为下述公式(11)：

对公式(11)的描述可以参考前述对公式(9)的描述。不同之处在于，w₃(ω)为第三滤波器系数，其包括3个元素，其中第i个元素可以表示为w_3i(ω)，w_3i(ω)为第i个麦克风在第三方向对应的第三滤波器系数，H₃表示第三方向对应的第三目标波束，w₃表示第三方向上可以求得的滤波器系数，argmin表示使用最小二乘频率不变固定波束形成的方法求取的w₃作为第三方向对应的第三滤波器系数。

其中，该第三目标波束用于电子设备生成第三方向对应的第三滤波器，其描述了电子设备在多个方向上的滤波程度。

在一些实施例中，当该多个方向为36个方向时，则该第三目标波束中有36个增益系数。第i个增益系数表示第i个方向上的滤波程度，任一方向都对应一个增益系数。其中，第三方向上对应的增益系数为1，然后，每与第三方向相差10°的方向，则增益系数依次减去1/36。则，越接近第三方向的方向对应的元素越接近1，越远离第三方向的方向对应的元素越接近0。

在场景2下使用本申请实施例提供的音频变焦方法的一组示例性用户界面可以参考上述图1A-图1E中，对用户界面10-用户界面14的描述。对于场景2中涉及的音频变焦的方法，电子设备从录制视频开始，对相机采集的当前帧图像进行实时处理，同时根据图像变焦倍率对当前帧输入的音频信号集合进行音频变焦，每处理一帧图像和一帧输入音频信号的集合都会对其进行播放。

下面，对上述场景2中涉及的音频变焦方法的流程进行介绍。请参见图14，图14是本申请实施例提供的一种电子设备在录制视频的过程中，根据视频图像的变焦倍率对音频进行实时变焦的另一种流程图，电子设备对其进行处理的具体流程为：

步骤S1401：电子设备通过相机采集帧图像。

步骤S1402：电子设备采集第一输入音频信号、第二输入音频信号以及第三输入音频信号。

步骤S1403：电子设备获取当前帧图像的第一变焦倍率。

步骤S1404：电子设备将第一输入音频信号、第二输入音频信号以及第三输入音频信号进行时频变换，得到第一音频信号、第二音频信号以及第三音频信号。

步骤S1405：电子设备基于第一变焦倍率，将第一音频信号、第二音频信号以及第三音频信号进行第一处理，得到第一左声道输入音频和第一右声道输入音频。

步骤S1406：电子设备将第一音频信号、第二音频信号以及第三音频信号进行第二处理，得到M路第一音源音频。

应当理解的是，电子设备可以先执行步骤S1405，再执行步骤S1406，电子设备也可以先执行步骤S1406，再执行步骤S1405，电子设备也可以同时执行步骤S1405和步骤S1406，本申请实施例对此不做限制。

步骤S1407：电子设备基于第一左声道输入音频，在M路第一音源音频中确定第一目标音频。

步骤S1408：电子设备将第一目标音频与第一左声道输入音频进行融合，得到第一左声道音频。

步骤S1409：电子设备基于第一右声道输入音频，在M路第一音源音频中确定第二目标音频。

步骤S1410：电子设备将第二目标音频与第一右声道输入音频进行融合，得到第一右声道音频。

应当理解的是，电子设备可以先对第一左声道输入音频进行处理得到第一左声道音频，再对第一右声道输入音频进行处理，得到第一右声道音频，即：电子设备先执行步骤S1407和步骤S1408，再执行步骤S1409和步骤S1410。电子设备也可以先对第一右声道输入音频进行处理得到第一右声道音频，再对第一左声道输入音频进行处理，得到第一左声道音频，即：电子设备先执行步骤S1409和步骤S1410，再执行步骤S1407和步骤S1408。电子设备还可以同时对第一左声道输入音频和第一右声道输入音频进行处理，同时得到第一左声道音频和第一右声道音频，即：电子设备同时执行步骤S1407和步骤S1409后，再同时执行步骤S1408和步骤S1410，本申请实施例对此不做限制。

步骤S1411：电子设备将第一左声道音频和第一右声道音频进行增强处理，得到第一左声道音频输出信号和第一右声道音频输出信号。

步骤S1412：电子设备将第一左声道音频输出信号和第一右声道音频输出信号进行频时变换，得到第一左声道输出音频和第一右声道输出音频。

步骤S1401～步骤S1412请参见上述步骤S1001～步骤S1012，在此不做赘述。

步骤S1413：电子设备播放第一左声道输出音频、第一右声道输出音频及其对应的当前帧图像。

在场景3下使用本申请实施例所述的音频变焦的方法所涉及的一组电子设备用户界面可以参考上述图9A-图9E的界面的描述，对于场景3所涉及的音频变焦的方法，在录制视频结束后，电子设备可以在后期对录制的视频作品进行音频变焦的处理，生成新的视频作品。

在电子设备录制视频的过程中，电子设备可以将视频中每帧图像的变焦倍率进行保存，这样，视频作品中的每帧输入音频信号就会对应一个变焦倍率。电子设备的每个麦克风采集了N帧输入音频信号，即可得到N个变焦倍率。同时电子设备可以将任一麦克风采集的N帧输入音频信号分别进行保存，得到输入音频流，若电子设备有M个麦克风，则可以得到M个输入音频流。

电子设备可以获取该M个输入音频流，从每个音频流中的第一帧输入音频信号开始，依次获取这M个输入音频流中的N帧输入音频信号，例如，首先获取这M个输入音频流中第一帧输入音频信号，然后获取这M个输入音频流的第二帧输入音频信号，依次类推。对于该M个输入音频流中的M个第i帧输入音频信号，电子设备都可以参考下述步骤S1001-步骤S1007的方法对其进行音频变焦。本申请实施例以电子设备具有3个麦克风(M＝3)为例进行举例说明

下面，结合图15对场景3中已录制好的视频作品中的第i帧音频信号进行音频变焦处理进行详细说明。请参见图15，图15是本申请实施例提供的另一种音频变焦流程图，具体流程如下：

步骤S1501：电子设备获取第一输入音频流、第二输入音频流、第三输入音频流。

具体地，电子设备获取第一输入音频流、第二输入音频流以及第三输入音频流的一个示例性用户界面可以参考图9D所示的用户界面53。

第一输入音频流为电子设备的第一麦克风采集的N帧输入音频信号的集合，第二输入音频流为电子设备的第二麦克风采集的N帧输入音频信号的集合，第三输入音频流是指电子设备的第三麦克风采集的N帧输入音频信号的集合。

步骤S1502：电子设备从第一音频流中确定第一输入音频信号、第二音频流中确定第二输入音频信号以及从第三音频流中确定第三输入音频信号。

具体地，第一输入音频信号为第一输入音频流中当前没有进行音频变焦的全部输入音频信号中采集时间最早的那一帧输入音频信号。

第二输入音频信号为第二输入音频流中当前没有进行音频变焦的全部输入音频信号中采集时间最早的那一帧输入音频信号。

第三输入音频信号为第三输入音频流中当前没有进行音频变焦的全部输入音频信号中采集时间最早的那一帧输入音频信号。

步骤S1503：电子设备获取第一变焦倍率。

具体地，所述第一变焦倍率为第一输入音频信号、第二输入音频信号以及第三输入音频信号对应的帧图像的变焦倍率。

步骤S1504：电子设备将电子设备将第一输入音频信号、第二输入音频信号以及第三输入音频信号进行时频变换，得到第一音频信号、第二音频信号以及第三音频信号。

具体地，第一音频信号为第一输入音频信号在频域上的信号，第二音频信号为第二输入音频信号在频域上的信号，第三音频信号为第三输入音频信号在频域上的信号。电子设备进行时频变换的相关叙述请参考步骤S1004的相关叙述，在此不再赘述。

步骤S1505：电子设备基于焦距信息，将第一音频信号、第二音频信号以及第三音频信号进行第一处理，得到第一左声道输入音频和第一右声道输入音频。

步骤S1506：电子设备将第一音频信号、第二音频信号以及第三音频信号进行第二处理，得到M路第一音源音频。

应当理解的是，电子设备可以先执行步骤S1405，再执行步骤S1406，电子设备也可以先执行步骤S1506，再执行步骤S1505，电子设备也可以同时执行步骤S1405和步骤S1406，本申请实施例对此不做限制。

步骤S1507：电子设备基于第一左声道输入音频，在M路第一音源音频中确定第一目标音频。

步骤S1508：电子设备将第一目标音频与第一左声道输入音频进行融合，得到第一左声道音频。

步骤S1509：电子设备基于第一右声道输入音频，在M路第一音源音频中确定第二目标音频。

步骤S1510：电子设备将第二目标音频与第一右声道输入音频进行融合，得到第一右声道音频。

应当理解的是，电子设备可以先对第一左声道输入音频进行处理得到第一左声道音频，再对第一右声道输入音频进行处理，得到第一右声道音频，即：电子设备先执行步骤S1507和步骤S1508，再执行步骤S1509和步骤S1510。电子设备也可以先对第一右声道输入音频进行处理得到第一右声道音频，再对第一左声道输入音频进行处理，得到第一左声道音频，即：电子设备先执行步骤S1509和步骤S1510，再执行步骤S1507和步骤S1508。电子设备还可以同时对第一左声道输入音频和第一右声道输入音频进行处理，同时得到第一左声道音频和第一右声道音频，即：电子设备同时执行步骤S1507和步骤S1509后，再同时执行步骤S1508和步骤S1510，本申请实施例对此不做限制。

步骤S1511：电子设备将第一左声道音频和第二右声道音频进行增强处理，得到第一左声道音频输出信号和第一右声道音频输出信号。

步骤S1512：电子设备将第一左声道音频输出信号和第一右声道音频输出信号进行频时变换，得到第一左声道输出音频和第一右声道输出音频。

步骤S1505-步骤S1512请参见步骤S1005-步骤S1012的叙述，在此不再赘述。

步骤S1513：电子设备将第一左声道音频输出信号和第一右声道音频输出信号进行保存。

在一些实施例中，当电子设备输出的音频为单声道音频时，电子设备将第一左声道音频输出信号和第一右声道音频输出信号进行融合，得到并保存第一单声道音频输出信号。

下面对电子设备100的结构进行介绍。请参阅图16，图16是本申请实施例提供的电子设备100的硬件结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serialbus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。显示屏194可以用于显示电子设备拍摄的图像。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号、降噪、还可以识别声音来源，实现定向录音功能等。在本申请实施例中，麦克风用于采集拍摄环境中的第一音频。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

总之，以上所述仅为本发明技术方案的实施例而已，并非用于限定本发明的保护范围。凡根据本发明的揭露，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频处理的方法，其特征在于，应用于电子设备，所述方法包括：

所述电子设备启动相机；

显示预览界面，所述预览界面包括第一控件；

检测到对所述第一控件的第一操作；

响应于所述第一操作，开始拍摄；

显示拍摄界面，所述拍摄界面包括第二控件，所述第二控件用于调节变焦倍率；

在第一时刻，变焦倍率为第一变焦倍率，显示第一拍摄图像；

在第一时刻，麦克风采集第一音频；

检测到对第三控件的第三操作；

响应于所述第三操作，停止拍摄，保存第一视频；

所述方法还包括：对所述第一音频进行处理得到第一左声道输出音频和第一右声道输出音频；

其中，所述对所述第一音频进行处理得到第一左声道输出音频和第一右声道输出音频，包括：

基于所述第一变焦倍率对所述第一音频进行第一处理，得到第一左声道输入音频和第一右声道输入音频；

对所述第一音频进行第二处理，得到M路第一音源音频，其中所述M为所述电子设备的麦克风的个数；

将所述第一左声道输入音频与第一目标音频进行融合，得到第一左声道音频；其中，所述第一目标音频为在所述M路第一音源音频中，与所述第一左声道输入音频相关性最高的音源音频；

将所述第一右声道输入音频与第二目标音频进行融合，得到第一右声道音频；所述第二目标音频为在所述M路第一音源音频中，与所述第一右声道输入音频相关性最高的音源音频；

对所述第一左声道音频和所述第一右声道音频进行增强处理，得到第一左声道输出音频和第一右声道输出音频。

2.如权利要求1所述的方法，其特征在于，所述第一拍摄图像包括第一目标对象和第二目标对象，所述方法还包括：

检测到针对所述第二控件的第二操作；

响应所述第二操作，将所述变焦倍率调节为第二变焦倍率，所述第二变焦倍率大于所述第一变焦倍率；

在第二时刻，显示第二拍摄图像，所述第二拍摄图像包括所述第一目标对象，不包括所述第二目标对象；

在所述第二时刻，麦克风采集第二音频，所述第二音频包括第一声音和第二声音，所述第一声音对应所述第一目标对象，所述第二声音对应所述第二目标对象；

对所述第二音频进行处理得到第二左声道输出音频和第二右声道输出音频，所述第二左声道输出音频和所述第二右声道输出音频包括第三声音和第四声音，所述第三声音对应所述第一目标对象，所述第四声音对应所述第二目标对象，所述第三声音相对于所述第一声音被增强，所述第四声音相对于所述第二声音被抑制。

3.如权利要求2所述的方法，其特征在于，所述对所述第二音频进行处理得到第二左声道输出音频和第二右声道输出音频，包括：

基于所述第二变焦倍率对所述第二音频进行第一处理，得到第二左声道输入音频和第二右声道输入音频；

对所述第二音频进行第二处理，得到M路第二音源音频，所述M为所述电子设备的麦克风个数；

将所述第二左声道输入音频与第三目标音频进行融合，得到第二左声道音频；所述第三目标音频为在所述M路第二音源音频中，与所述第二左声道输入音频相关性最高的音源音频；

将所述第二右声道输入音频与第四目标音频进行融合，得到第二右声道音频；所述第四目标音频为在所述M路第二音源音频中，与所述第二右声道输入音频相关性最高的音源音频；

对所述第二左声道音频和所述第二右声道音频进行增强处理，得到第二左声道输出音频和第二右声道输出音频。

4.如权利要求1-3任一项所述的方法，其特征在于，所述对所述第一音频进行第二处理，得到M路第一音源音频，具体包括：

根据公式

计算得到所述M路第一音源音频；

其中，所述x_i(ω)为第i个麦克风采集的第一音频在频域上的音频信号，所述W_i(ω)为第i个麦克风对应的第一非负矩阵，所述Y(ω)为一个大小为M*L的第一矩阵，所述第一矩阵的每一个行向量为一路第一音源音频。

5.如权利要求3-4任一项所述的方法，其特征在于，所述对所述第二音频进行第二处理，得到M路第二音频音源，具体包括：

根据公式

计算得到所述M路第二音源音频；

其中，所述x′_i(ω)为第i个麦克风采集的第二音频在频域上的音频信号，所述W_i′(ω)为第i个麦克风对应的第二非负矩阵，所述Y′(ω)为一个大小为M*L的第二矩阵，所述第二矩阵的每一个行向量为一路第二音源音频。

6.如权利要求1-5任一项所述的方法，其特征在于，所述基于所述第一变焦倍率对所述第一音频进行第一处理，得到第一左声道输入音频和第一右声道输入音频，具体包括：

根据公式y_l1(ω)＝α₁*y₁(ω)+(1-α₁)*y₂(ω)得到第一左声道音频；

根据公式y_r1(ω)＝α₁*y₃(ω)+(1-α₁)*y₂(ω)得到第一右声道音频；

其中，所述y_l1为第一左声道输入音频，所述y_r1(ω)为第一右声道输入音频，所述α₁为基于所述第一变焦倍率得到的融合系数，所述y₁(ω)为基于所述第一音频和第一滤波器系数得到的第一波束，所述y₂(ω)为基于所述第一音频和第二滤波器系数得到的第二波束，所述y₃(ω)为基于所述第一音频和第三滤波器系数得到的第三波束。

7.如权利要求1-6任一项所述的方法，其特征在于，所述基于所述第一变焦倍率对所述第一音频进行第一处理，得到第一左声道输入音频和第一右声道输入音频之前，还包括：

根据公式

公式

和公式

分别得到第一波束、第二波束和第三波束；

其中，所述y₁(ω)为第一波束，所述y₂(ω)为第二波束，所述y₃(ω)为第三波束，所述w_1i(ω)为第i个麦克风在第一方向对应的第一滤波器系数，所述w_2i(ω)为第i个麦克风在第二方向对应的第二滤波器系数，所述w_3i(ω)为第i个麦克风在第三方向对应的第三滤波器系数，所述x_i1(ω)为第i个麦克风在采集的第一音频，所述第一方向为所述电子设备正前方逆时针10°到正前方逆时针90°范围内的任一方向，所述第二方向为所述电子设备正前方逆时针10°到正前方顺时针10°范围内任一方向，所述第三方向为所述电子设备正前方顺时针10°到正前方顺时针90°范围内的任一方向。

8.如权利要求1-7任一项所述的方法，其特征在于，所述将所述第一左声道输入音频与第一目标音源进行融合，得到第一左声道音频之前，还包括：

根据公式

计算所述第一左声道输入音频与所述M路第一音源音频的相关值，所述

为E{y_l1(ω)Y_i(ω)^*}，所述

为E{y_l1(ω)y_l1(ω)^*}，所述

为E{Y_i(ω)Y_i(ω)^*}，所述γ_i为所述第一左声道输入音频与第i路第一音源音频的相关值，所述y_l1(ω)为第一左声道输入音频，所述Y_i(ω)为第i路第一音源音频；

若在M个相关值中，仅存在一个最大相关值，确定相关值最大的第一音源音频为第一目标音频；

若在M个相关值中，存在多个最大相关值，对所述多个最大相关值对应的第一音源音频进行平均值计算，得到所述第一目标音频。

9.如权利要求1-8任一项所述的方法，其特征在于，所述将所述第一左声道输入音频与第一目标音源进行融合，得到第一左声道音频，具体包括：

根据公式y′_l1(ω)＝β₁*y_l1(ω)+(1-β₁)*Y_t1(ω)得到第二左声道音频；

其中，所述y′_l1(ω)为所述第一左声道音频，所述β₁为第一融合系数，所述Y_t1(ω)为第一目标音频，所述y_l1(ω)为第一左声道输入音频。

10.如权利要求1-9任一项所述的方法，其特征在于，所述将所述第一右声道输入音频与第二目标音源进行融合，得到第一右声道音频之前，还包括：

根据公式

计算所述第一右声道输入音频与所述M路第一音源音频的相关值，所述

为E{y_r1(ω)Y_j(ω)^*}，所述

为E{y_r1(ω)y_r1(ω)^*}，所述

为E{Y_j(ω)Y_j(ω)^*}，所述γ_j为所述第一右声道输入音频与第j路第一音源音频的相关值，所述y_r1(ω)为第一右声道输入音频，所述Y_j(ω)为第j路第一音源音频；

在M个相关值中，确定相关值最大的第一音源音频为第二目标音频。

11.如权利要求1-10任一项所述的方法，其特征在于，所述将所述第一右声道输入音频与第二目标音源进行融合，得到第一右声道音频，具体包括：

根据公式y′_r1(ω)＝β₁*y_r1(ω)+(1-β₁)*Y_t2(ω)得到第一右声道音频；

其中，所述y′_r1(ω)为所述第一右声道音频，所述β₁为第一融合系数，所述Y_t2(ω)为第二目标音频，所述y_r1(ω)为第一右声道输入音频。

12.如权利要求3-11任一项所述的方法，其特征在于，所述基于所述第二变焦倍率对所述第二音频进行第一处理，得到第二左声道输入音频和第二右声道输入音频，具体包括：

根据公式y_l2(ω)＝α₂*y₄(ω)+(1-α₂)*y₅(ω)得到第二左声道音频；

根据公式y_r2(ω)＝α₂*y₆(ω)+(1-α₂)*y₅(ω)得到第二右声道音频；

其中，所述y_l2为第二左声道输入音频，所述y_r2(ω)为第二右声道输入音频，所述α₂为基于所述第二变焦倍率得到的融合系数，所述y₄(ω)为基于所述第二音频和第一滤波器系数得到的第四波束，所述y₅(ω)为基于所述第二音频和第二滤波器系数得到的第五波束，所述y₆(ω)为基于所述第二音频和第三滤波器系数得到的第六波束。

13.如权利要求3-12任一项所述的方法，其特征在于，所述基于所述第二变焦倍率对所述第二音频进行第一处理，得到第二左声道输入音频和第二右声道输入音频之前，还包括：

根据公式

公式

和公式

分别得到第四波束、第五波束和第六波束；

其中，所述y₄(ω)为第四波束，所述y₅(ω)为第五波束，所述y₆(ω)为第六波束，所述w_1i(ω)为第i个麦克风在第一方向对应的第一滤波器系数，所述w_2i(ω)为第i个麦克风在第二方向对应的第二滤波器系数，所述w_3i(ω)为第i个麦克风在第三方向对应的第三滤波器系数，所述x_i2(ω)为第i个麦克风在采集的第二音频，所述第一方向为所述电子设备正前方逆时针10°到正前方逆时针90°范围内的任一方向，所述第二方向为所述电子设备正前方逆时针10°到正前方顺时针10°范围内任一方向，所述第三方向为所述电子设备正前方顺时针10°到正前方顺时针90°范围内的任一方向。

14.如权利要求3-13任一项所述的方法，其特征在于，所述将所述第二左声道输入音频与第三目标音源进行融合，得到第二左声道音频之前，还包括：

根据公式