CN113840087B

CN113840087B - 声音处理方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN113840087B
Application number: CN202111055469.1A
Authority: CN
Inventors: 翟雁琦
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2023-06-16
Anticipated expiration: 2041-09-09
Also published as: CN113840087A

Abstract

本申请涉及一种声音处理方法、装置、计算机设备和存储介质。所述方法包括：在拍摄过程中，对目标拍摄主体进行追焦；获取追焦的所述目标拍摄主体在拍摄画面中的位置；确定所述位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取所述目标子画面区间所对应的目标空间角度；所述目标空间角度用于表征所述目标拍摄主体在拍摄场景中相对于电子设备所处的方向；采集所述目标空间角度上的声音。采用本方法能够提高声音处理的准确性。

Description

声音处理方法、装置、电子设备和计算机可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种声音处理方法、装置、电子设备和计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的电子设备具有拍摄功能，不仅可以拍摄图片，还可以拍摄视频。在拍摄过程中，不仅采集拍摄场景中的图像数据，还可以同时采集声音数据。

在拍摄过程中，传统的声音处理方法，通常是采集电子设备所有方向的声音数据，再进行压缩、降噪等处理。然而，传统的声音处理方法，存在声音处理的准确性较低的问题。

发明内容

本申请实施例提供了一种声音处理方法、装置、电子设备、计算机可读存储介质，可以提高声音处理的准确性。

一种声音处理方法，包括：

在拍摄过程中，对目标拍摄主体进行追焦；

获取追焦的所述目标拍摄主体在拍摄画面中的位置；

确定所述位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取所述目标子画面区间所对应的目标空间角度；所述目标空间角度用于表征所述目标拍摄主体在拍摄场景中相对于电子设备所处的方向；

采集所述目标空间角度上的声音。

一种声音处理装置，包括：

追焦模块，用于在拍摄过程中，对目标拍摄主体进行追焦；

获取模块，用于获取追焦的所述目标拍摄主体在拍摄画面中的位置；

角度确定模块，用于确定所述位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取所述目标子画面区间所对应的目标空间角度；所述目标空间角度用于表征所述目标拍摄主体在拍摄场景中相对于电子设备所处的方向；

采集模块，用于采集所述目标空间角度上的声音。

一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述的声音处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的方法的步骤。

上述声音处理方法、装置、电子设备和计算机可读存储介质，在拍摄过程中，对目标拍摄主体进行追焦，获取追焦的目标拍摄主体在拍摄画面中的位置，可以确定出该位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取目标子画面区间所对应的目标空间角度，而该目标空间角度用于表征目标拍摄主体在拍摄场景中相对于电子设备所处的方向，那么，电子设备采集该目标空间角度上的声音，可以准确地获取到所追焦的目标拍摄主体的声音，避免了采集所有空间角度上声音而导致噪声较多的问题，提高了采集的声音的信噪比，可以在拍摄过程中更准确地采集用户所需的对象的声音，从而可以提高声音处理的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中声音处理方法的应用环境图；

图2为一个实施例中声音处理方法的流程图；

图3为另一个实施例中声音处理方法的流程图；

图4为另一个实施例中声音处理方法的流程图；

图5为一个实施例中子画面区间与空间角度之间的映射关系的构建方式的步骤的流程图；

图6为另一个实施例中声音处理方法的流程图；

图7为一个实施例中电子设备确定人脸的空间角度的示意图；

图8为一个实施例中电子设备实现声音处理的整体架构图；

图9为一个实施例中声音处理方法的模块交互示意图；

图10为一个实施例中声音处理装置的结构框图；

图11为一个实施例中电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一客户端称为第二客户端，且类似地，可将第二客户端称为第一客户端。第一客户端和第二客户端两者都是客户端，但其不是同一客户端。

图1为一个实施例中声音处理方法的应用环境示意图。如图1所示，该应用环境包括电子设备110。电子设备110包括摄像头102和多个麦克风104。在本实施例中，电子设备110包括一个摄像头和2个麦克风，并且2个麦克风分别设置于电子设备的顶部和底部，即呈纵向排列。电子设备110控制摄像头102进行拍摄，在拍摄过程中，对目标拍摄主体进行追焦；获取追焦的目标拍摄主体在拍摄画面中的位置；确定位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取目标子画面区间所对应的目标空间角度；目标空间角度用于表征目标拍摄主体在拍摄场景中相对于电子设备110所处的方向；通过麦克风104采集目标空间角度上的声音。其中，电子设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

图2为一个实施例中声音处理方法的流程图。本实施例中的声音处理方法，以运行于图1中的电子设备上为例进行描述。如图2所示，声音处理方法包括步骤202至步骤208。

步骤202，在拍摄过程中，对目标拍摄主体进行追焦。

电子设备中安装有摄像头，通过摄像头进行拍摄。例如，摄像头可以是电子设备的前置摄像头，也可以是电子设备的后置摄像头，还可以是独立可拆分的摄像头。

目标拍摄主体指的是拍摄的主要的物体。例如，目标拍摄主体具体可以是人体、人脸、宠物、植物、建筑物或白云等。目标拍摄主体的数量也不做限定，也可以是一个，也可以是至少两个。

追焦是设定对焦对象后，连续对该对焦对象进行对焦的状态。可以理解的是，电子设备对目标拍摄主体进行追焦过程中，即使目标拍摄主体与电子设备相对移动，也仍可以对该目标拍摄主体进行对焦。例如，电子设备在拍摄过程中，对人脸A进行追焦，则连续对该人脸A进行对焦。又如，电子设备在拍摄过程中，对建筑物B进行追焦，则在电子设备移动过程中，仍可以连续对该建筑物B进行对焦。

具体地，在拍摄过程中，电子设备确定目标拍摄主体，对目标拍摄主体进行追焦。电子设备对目标拍摄主体进行追焦后，可以采集到更加清晰的目标拍摄主体的图像数据，并将该目标拍摄主体的图像数据绘制在下一帧图像中。

在一种实施方式中，电子设备可以对拍摄画面进行主体检测，从而检测到目标拍摄主体。在另一种实施方式中，电子设备可以获取用户手动选择的目标拍摄主体。在其他实施方式中，还可以采用其他方式确定目标拍摄主体，在此不做限定。

步骤204，获取追焦的目标拍摄主体在拍摄画面中的位置。

具体地，电子设备对目标拍摄主体生成框中该目标拍摄主体的主体框，获取该主体框的位置，作为目标拍摄主体在拍摄画面中的位置。其中，主体框可以是矩形框、圆形框或不规则框等。例如，电子设备对人脸A生成矩形框，获取框中该人脸A的矩形框的位置，作为人脸A在拍摄画面中的位置。

在另一种实施方式中，电子设备计算确定目标拍摄主体后，确定目标拍摄主体在拍摄画面中的中心点，获取该中心点的位置作为目标拍摄主体在拍摄画面中的位置。

在其他实施方式中，电子设备可以采用其他的方式获取追焦的目标拍摄主体在拍摄画面中的位置，在此不做限定。

步骤206，确定位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取目标子画面区间所对应的目标空间角度；目标空间角度用于表征目标拍摄主体在拍摄场景中相对于电子设备所处的方向。

目标空间角度是目标拍摄主体在拍摄场景中相对于电子设备所处的角度，该目标空间角度也表征了目标拍摄主体在拍摄场景中相对于电子设备所处的方向。例如，目标空间角度具体可以是0度，即目标拍摄主体在拍摄场景中相对于电子设备的正向方向、目标拍摄主体在拍摄场景中相对于电子设备的左侧30度方向或目标拍摄主体在拍摄场景中相对于电子设备的右侧60度方向等。

步骤208，采集目标空间角度上的声音。

电子设备采集目标空间角度上的声音。可以理解的是，当目标空间角度上仅有目标拍摄主体时，则采集到的目标空间角度上的声音仅有目标拍摄主体的声音；当目标空间角度上包括目标拍摄主体和其他对象时，则采集到的目标空间角度上的声音包括目标拍摄主体的声音和其他对象发出的声音。

进一步地，当目标空间角度上包括目标拍摄主体和其他对象时，从采集到的声音中分离出目标声音。目标声音指的是所需的声音。可以理解的是，不同对象的音色、声音信号频率等参数不同，故可以从采集到的声音中分离出各种声音，并从各种声音中确定目标声音。在一种实施方式中，电子设备可以将音量最大的声音作为目标声音。可以理解的是，目标拍摄主体越靠近电子设备，则采集到的声音的音量越大，那么音量最大的声音则最有可能是最靠近电子设备的对象发出的声音，也即用户所要拍摄的目标拍摄对象发出的声音。在另一种实施方式中，电子设备可以将清晰度最高的声音作为目标声音。可以理解的是，目标拍摄主体越靠近电子设备，则采集到的声音包含噪声越少、清晰度越高，那么清晰度最高的声音则最有可能是最靠近电子设备的对象发出的声音，也即用户所要拍摄的目标拍摄对象发出的声音。在其他实施方式中，还可以采用其他方式从目标空间角度上采集到的各种声音中确定目标声音，在此不做限定。

电子设备采集目标空间角度上的声音之后，可以调用多麦克风波束成形算法对目标空间角度上的声音进行正常处理，也可以对目标空间角度上的声音进行增强处理。其中，波束成形是用于定向信号传输或接收的技术。

电子设备采用放大器增益对目标空间角度上的声音进行增强处理。增益的一般含义简而言之就是放大倍数，通常为一个系统的讯号输出与讯号输入的比率。放大器增益是对目标空间角度上的声音进行增强处理的增益。放大器增益的数值可以用户手动设置，可以采用增益放大器中对声音进行增强处理的增益值，并不限定。

上述方法还包括：电子设备不采集目标空间角度之外的声音。

在另一个实施例中，电子设备还可以采集目标空间角度上的声音和目标空间角度之外的声音，并对目标空间角度之外的声音进行抑制处理。

具体地，电子设备调用多麦克风波束成形算法，对目标空间角度之外的声音进行抑制处理。

上述声音处理方法，在拍摄过程中，对目标拍摄主体进行追焦，获取追焦的目标拍摄主体在拍摄画面中的位置，可以确定出该位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取目标子画面区间所对应的目标空间角度，而该目标空间角度用于表征目标拍摄主体在拍摄场景中相对于电子设备所处的方向，那么，电子设备采集该目标空间角度上的声音，可以准确地获取到所追焦的目标拍摄主体的声音，避免了采集所有方向上声音而导致噪声较多的问题，提高了采集的声音的信噪比，可以在拍摄过程中更准确地采集用户所需的对象的声音，从而可以提高声音处理的准确性。

在一个实施例中，上述方法还包括：在拍摄过程中，对拍摄画面进行主体检测，得到检测结果；当检测结果表示拍摄画面中存在候选拍摄主体时，从各候选拍摄主体中确定目标拍摄主体。

候选拍摄主体指的是对拍摄画面进行主体检测得到的拍摄主体。目标拍摄主体指的是从各候选拍摄主体中确定出用户所要拍摄的拍摄主体。候选拍摄主体的数量可以是一个，也可以是多个。目标拍摄主体的数量可以是一个，也可以是多个。

电子设备可以采用主体检测模型对拍摄画面进行主体检测，得到检测结果。检测结果可以至少包括是否检测到拍摄画面中存在候选拍摄主体、候选拍摄主体的数量、候选拍摄主体的位置和候选拍摄主体的类型等。

在一个实施例中，当检测结果表示拍摄画面中存在一个候选拍摄主体时，可以直接将该候选拍摄主体作为目标拍摄主体。在另一个实施例中，当检测结果表示拍摄画面中存在多个候选拍摄主体时，可以从各个候选拍摄主体中确定一个或者多个目标拍摄主体。

在本实施例中，在拍摄过程中，对拍摄画面进行主体检测，得到检测结果，当检测结果表示拍摄画面中存在候选拍摄主体时，从各候选拍摄主体中可以更准确地确定出目标拍摄主体。

在一个实施例中，从各候选拍摄主体中确定目标拍摄主体，包括：从各候选拍摄主体中确定符合第一尺寸条件的中间拍摄主体；确定各中间拍摄主体的深度距离；基于各深度距离，从各中间拍摄主体中确定目标拍摄主体。

第一尺寸条件是与尺寸大小相关的、并且能够筛选出中间拍摄主体的条件。第一尺寸条件具体可以是候选拍摄主体在拍摄画面中的面积大于第一预设面积、候选拍摄主体在拍摄画面的主体框的面积大于第一预设面积、候选拍摄主体在拍摄画面中的大小占比大于预设数值、候选拍摄主体在拍摄画面的主体框的大小占比大于预设数值等，不限于此。其中，第一预设面积和预设数值均可以根据需要进行设置。

深度距离指的是中间拍摄主体与电子设备之间的距离。可以理解的是，深度距离越小，则中间拍摄主体越靠近电子设备，该中间拍摄主体越可能是用户所要拍摄的目标拍摄主体。

在一个实施例中，电子设备在同一侧安装至少两个摄像头，采用双摄像头测距算法测量拍摄画面中各中间拍摄主体的深度距离。在另一个实施例中，电子设备中安装距离传感器，采用距离传感器测量拍摄画面中各中间拍摄主体的深度距离。

在一种实施方式中，电子设备将深度距离最小的中间拍摄主体确定为目标拍摄主体。在另一种实施方式中，电子设备将深度距离次小的中间拍摄主体确定为目标拍摄主体。在另一种实施方式中，电子设备还可以将深度距离小于预设距离阈值的中间拍摄主体确定为目标拍摄主体；其中，预设距离阈值可以根据需要进行设置。

在本实施例中，从各候选拍摄主体中确定符合第一尺寸条件的中间拍摄主体；确定各中间拍摄主体的深度距离，基于各深度距离，可以从各中间拍摄主体中更准确地确定出目标拍摄主体。

在一个实施例中，从各候选拍摄主体中确定符合第一尺寸条件的中间拍摄主体，包括：获取各候选拍摄主体在拍摄画面中的候选尺寸；从各候选尺寸中筛选出符合第一尺寸条件的候选拍摄主体，作为中间拍摄主体；第一尺寸条件为拍摄主体在拍摄画面中的面积大于第一预设面积。

候选尺寸是候选拍摄主体在拍摄画面的尺寸。候选尺寸具体可以是候选拍摄主体在拍摄画面中的面积。

中间拍摄主体是符合第一尺寸条件的候选拍摄主体。中间拍摄主体的数量可以是一个，也可以是多个。若候选拍摄主体的数量为一个，则可以直接将该候选拍摄主体作为中间拍摄主体。若候选拍摄主体的数量为多个，则从各候选尺寸中筛选出符合第一尺寸条件的候选拍摄主体，作为中间拍摄主体。

可以理解的是，候选拍摄主体在拍摄画面中的面积越大，则该候选拍摄主体越靠近电子设备，该候选拍摄主体也越可能是用户所要拍摄的对象，因此从各候选尺寸中筛选出在拍摄画面中的面积大于第一预设面积的候选拍摄主体，作为中间拍摄主体，可以筛选出更准确的中间拍摄主体，避免了从所有的候选拍摄主体中筛选目标拍摄主体，从而可以在中间拍摄主体中更准确地确定目标拍摄主体。

在一个实施例中，从各候选拍摄主体中确定目标拍摄主体，包括：获取各候选拍摄主体在拍摄画面中的候选尺寸；从各候选尺寸中筛选出符合第二尺寸条件的候选拍摄主体，作为目标拍摄主体；第二尺寸条件为拍摄主体在拍摄画面中的面积大于第二预设面积。

第二尺寸条件是与尺寸大小相关的、并且能够筛选出目标拍摄主体的条件。第二预设面积可以根据需要进行设置。需要说明的是，第二尺寸条件可以跟第一尺寸条件相同，也可以跟第一尺寸条件不同，在此不做限定。

可以理解的是，候选拍摄主体在拍摄画面中的面积越大，则该候选拍摄主体越靠近电子设备，该候选拍摄主体也越可能是用户所要拍摄的对象，因此从各候选尺寸中筛选出在拍摄画面中的面积大于第二预设面积的候选拍摄主体，可以更准确地筛选出目标拍摄主体。

在一个实施例中，上述方法还包括：当检测结果表示拍摄画面中不存在候选拍摄主体时，获取历史时刻中所确定的历史空间角度；采集历史空间角度上的声音。

历史时刻是当前时刻之前的时刻。历史空间角度是历史时刻中所确定的目标空间角度。

具体地，当检测结果表示拍摄画面中不存在候选拍摄主体时，电子设备获取历史时刻中该目标拍摄主体所确定的各个候选空间角度，将各候选空间角度中最新一次的候选空间角度确定为历史空间角度，采集该历史空间角度上的声音。

在另一种实施方式中，检测结果表示拍摄画面中不存在候选拍摄主体时，电子设备获取历史时刻中该目标拍摄主体所确定的各个候选空间角度，将各候选空间角度中次新一次的候选空间角度确定为历史空间角度，采集该历史空间角度上的声音。在另一种实施方式中，检测结果表示拍摄画面中不存在候选拍摄主体时，电子设备获取历史时刻中该目标拍摄主体所确定的各个候选空间角度，将各候选空间角度中随机选择一个候选空间角度作为历史空间角度，采集该历史空间角度上的声音。

在本实施例中，当检测结果表示拍摄画面中不存在候选拍摄主体时，获取历史时刻中所确定的历史空间角度，该历史空间角度可以用于表示用户历史时刻中追焦的目标拍摄主体所处的空间角度，则采集该历史空间角度上的声音，可以更大概率地采集到目标拍摄主体的声音，从而提高声音处理的准确性。

在一个实施例中，上述方法还包括：当检测结果表示拍摄画面中不存在候选拍摄主体时，统计拍摄画面中连续不存在候选拍摄主体的时长；当时长达到预设时长阈值时，采集所有空间角度上的声音。

预设时长阈值可以根据需要进行设置。例如，预设时长阈值可以是10ms、1s或5s等。

当检测结果表示拍摄画面中不存在候选拍摄主体时，统计拍摄画面中连续不存在候选拍摄主体的时长；当时长达到预设时长阈值时，表示未拍摄到候选拍摄主体或者未检测到候选拍摄主体，则采集所有空间角度上的声音。

在一个实施例中，上述方法还包括：在拍摄过程中，对拍摄画面进行人脸检测；当检测到拍摄画面中存在人脸时，分别生成各人脸的人脸框，并确定各人脸框的面积；基于各人脸框的面积，从各人脸中确定目标拍摄主体。

在拍摄过程中，电子设备采用人脸检测模型对拍摄画面进行人脸检测。当检测到拍摄画面中存在人脸时，分别生成各人脸的人脸框，每个人脸框包含对应的人脸，并确定各人脸框的面积。其中，人脸框的形状并不限定，可以是圆形、矩形或不规则图形等。电子设备计算出人脸框的面积，该面积即可表征对应的人脸的面积。也就是说，人脸框的面积越大，则该人脸框对应的人脸的面积也越大，则该人脸越接近电子设备，该人脸越可能是用户所要拍摄的对象。

在一种实施方式中，电子设备可以将人脸框面积最大的人脸确定为目标拍摄主体。在另一种实施方式中，电子设备可以将人脸框面积次大的人脸确定为目标拍摄主体。在另一种实施方式中，电子设备可以将人脸框面积大于预设面积的人脸确定为目标拍摄主体。在其他实施例中，还可以采用其他方式从各人脸中确定目标拍摄主体，在此不做限定。

在本实施例中，在拍摄过程中，对拍摄画面进行人脸检测；当检测到拍摄画面中存在人脸时，分别生成各人脸的人脸框，并确定各人脸框的面积；基于各人脸框的面积，可以从各人脸中更准确地确定目标拍摄主体。

在一个实施例中，上述方法还包括：当拍摄画面中不存在人脸时，获取历史时刻中所确定的历史空间角度；采集历史空间角度上的声音。

具体地，当拍摄画面中不存在人脸时，电子设备获取历史时刻中该目标拍摄主体所确定的各个候选空间角度，将各候选空间角度中最新一次的候选空间角度确定为历史空间角度，采集该历史空间角度上的声音。

在另一种实施方式中，当拍摄画面中不存在人脸时，电子设备获取历史时刻中该目标拍摄主体所确定的各个候选空间角度，将各候选空间角度中次新一次的候选空间角度确定为历史空间角度，采集该历史空间角度上的声音。在另一种实施方式中，当拍摄画面中不存在人脸时，电子设备获取历史时刻中该目标拍摄主体所确定的各个候选空间角度，将各候选空间角度中随机选择一个候选空间角度作为历史空间角度，采集该历史空间角度上的声音。

在本实施例中，当拍摄画面中不存在人脸时，获取历史时刻中所确定的历史空间角度，该历史空间角度可以用于表示用户历史时刻中追焦的目标拍摄主体所处的空间角度，则采集该历史空间角度上的声音，可以更大概率地采集到目标拍摄主体的声音，从而提高声音处理的准确性。

在一个实施例中，上述方法还包括：当拍摄画面中不存在人脸时，统计拍摄画面中连续不存在人脸的时长；当时长达到预设时长阈值时，采集所有空间角度上的声音。

当拍摄画面中不存在人脸时，统计拍摄画面中连续不存在人脸的时长；当时长达到预设时长阈值时，表示未拍摄到人脸或者未检测到人，则采集所有空间角度上的声音。

在一个实施例中，如图3所示，采集目标空间角度上的声音，包括：

步骤302，根据目标空间角度确定角度采集范围，角度采集范围包括目标空间角度。

角度采集范围是包括目标空间角度的范围。例如，目标空间角度为电子设备的左侧10度，则角度采集范围可以是电子设备的左侧0度至20度的范围。又如，目标空间角度为电子设备的0度，即电子设备的正向方向，则角度采集范围可以是电子设备的左侧10度至右侧5度。角度采集范围可以根据需要进行设置。

步骤304，采集角度采集范围内的声音。

在本实施例中，电子设备根据目标空间角度可以确定包括目标空间角度的角度采集范围，再采集该角度采集范围上的声音，可以避免角度计算误差导致采集不到目标拍摄主体的声音的情况，同时也可以避免采集所有空间角度上的声音带来的资源浪费，兼顾了采集目标拍摄主体的声音和节约资源的平衡。

在一个实施例中，如图4所示，电子设备开始进行声音处理，在拍摄过程中，同时进行启动预览和检测指令的输入。在启动预览后，可以收到预览帧。若检测到单击对焦，则关闭人脸检测；若检测到双击追焦，则开启人/物追焦功能，对人/物进行追焦，再关闭人脸检测。在收到预览帧之后，分别判断是否检测到人脸，以及判断是否检测到追焦人/物。若均判断为是，则角度转换，可以确定人/物与电子设备之间的目标空间角度，采集目标空间角度上的声音。若均判断为否，则保持最新一次的历史方向采集声音。

在一个实施例中，如图5所示，子画面区间与空间角度之间的映射关系的构建方式，包括以下步骤：

步骤502，获取摄像头在初始放大倍数下所获取的拍摄画面，以及初始放大倍数对应的拍摄角度范围。

初始放大倍数指的是摄像头默认状态下的放大倍数。通常地，初始放大倍数为1x，即1倍。拍摄角度范围是电子设备拍摄到的角度的范围。例如，拍摄角度范围可以是-60度至60度，即电子设备的左侧60度至后侧60度。在本实施例中，电子设备获取电子设备在水平方向上的拍摄角度范围。

拍摄角度范围是电子设备预先设置的拍摄参数，电子设备可以从电子设备预先存储的拍摄参数中获取得到。

步骤504，将初始放大倍数下所获取的拍摄画面分割为多个子画面区间。

子画面区间是初始放大倍数下所获取的拍摄画面所切分的画面区间。例如，电子设备将初始放大倍数下所获取的拍摄画面按照水平方向进行切分，得到多个子画面区间。例如，电子设备将初始放大倍数下所获取的拍摄画面切分为6个子角度区间。又如，电子设备将初始放大倍数下所获取的拍摄画面切分为120个子角度区间。

步骤506，基于初始放大倍数下拍摄画面和拍摄角度范围的对应关系，确定出各个子画面区间对应的空间角度，构建子画面区间与空间角度之间的映射关系。

可以理解的是，初始放大倍数下的拍摄画面是摄像头以拍摄角度范围所拍摄到的画面，也即该拍摄角度范围拍摄到的画面为初始放大倍数下的拍摄画面。因此，初始放大倍数下拍摄画面和拍摄角度范围存在对应关系。例如，拍摄画面中的中心位置对应拍摄角度为0度，拍摄画面的左边缘位置对应拍摄角度为-60度，拍摄画面的右边缘位置对应拍摄角度为60度。

具体地，电子设备可以将拍摄角度范围分割为与各个子画面区间相应的多个子角度区间，子角度区间与子画面区间一一对应；从每个子角度区间中确定出空间角度，用于表征所在的子角度区间，并构建该子角度区间所确定的空间角度与对应的子画面区间之间的映射关系。

可选地，电子设备可以将该子角度区间的中心值作为空间角度，也可以将子角度区间的最小值或最大值作为空间角度，还可以将子角度区间中的随机值作为空间角度等，不限于此。

在本实施例中，电子设备获取摄像头在初始放大倍数下所获取的拍摄画面，以及初始放大倍数对应的拍摄角度范围；将初始放大倍数下所获取的拍摄画面分割为多个子画面区间；基于初始放大倍数下拍摄画面和拍摄角度范围的对应关系，确定出各个子画面区间对应的空间角度，构建子画面区间与空间角度之间的映射关系，可以更准确地确定出目标拍摄主体与电子设备之间的空间角度。

在一个实施例中，如图6所示，提供了另一种声音处理方法，包括以下步骤：

步骤602，获取摄像头在初始放大倍数下所获取的拍摄画面，以及初始放大倍数对应的拍摄角度范围。

步骤604，将初始放大倍数下所获取的拍摄画面分割为多个子画面区间。

步骤606，基于初始放大倍数下拍摄画面和拍摄角度范围的对应关系，确定出各个子画面区间对应的空间角度，构建子画面区间与空间角度之间的映射关系。

步骤608，在拍摄过程中，获取目标放大倍数，以及在目标放大倍数下所获取的拍摄画面。

目标放大倍数指的是用户在拍摄过程中所确定的放大倍数。例如，初始放大倍数为1倍(1x)，用户将拍摄画面放大2倍，即目标放大倍数为2x，则2x下所获取的拍摄画面的长和宽均是初始放大倍数的1/2，2x下所获取的拍摄画面的面积是1x下所获取的拍摄画面的面积的1/4。

目标放大倍数与拍摄角度范围成负相关关系。目标放大倍数越大，则拍摄画面越大，电子设备的拍摄视角越小，即电子设备的拍摄角度范围也越小。也就是说，目标放大倍数与拍摄角度范围成负相关关系。

步骤610，对目标拍摄主体进行追焦。

步骤612，获取追焦的目标拍摄主体在目标放大倍数下所获取的拍摄画面中的第一位置；其中，目标放大倍数下所获取的拍摄画面是初始放大倍数下所获取的拍摄画面中的部分区域。

第一位置是目标拍摄主体在目标放大倍数下所获取的拍摄画面中的位置。可以理解的是，初始放大倍数通常是1倍，具有最大的拍摄角度范围和拍摄画面，则目标放大倍数所获取的拍摄画面是初始放大倍数下所获取到拍摄画面中的部分区域，目标放大倍数的拍摄角度范围也是初始放大倍数下的拍摄角度范围的一部分。

步骤614，确定第一位置在预先分割的初始放大倍数下的拍摄画面中的第二位置，并确定第二位置所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取目标子画面区间所对应的目标空间角度；目标空间角度用于表征目标拍摄主体在拍摄场景中相对于电子设备所处的方向。

第二位置是第一位置在初始放大倍数下的拍摄画面中对应的位置。例如，初始放大倍数为1倍，初始放大倍数的拍摄角度范围是(-60°～60°)，目标放大倍数为2倍，目标拍摄主体在目标放大倍数为2倍的拍摄画面中的第一位置是左边缘，则第一位置在预先分割的初始放大倍数下的拍摄画面中的第二位置为左边缘线与中轴线之间的中间位置，则可以确定出第二位置所处的目标子画面区间，从而获取该目标子画面区间对应的目标空间角度为-30°。

步骤616，采集目标空间角度上的声音。

在本实施例中，电子设备获取目标放大倍数，以及在目标放大倍数下所获取的拍摄画面，获取追焦的目标拍摄主体在目标放大倍数下所获取的拍摄画面中的第一位置，再确定第一位置在预先分割的初始放大倍数下的拍摄画面中的第二位置，并确定第二位置所处的目标子画面区间，，从而可以准确地确定出目标拍摄主体与电子设备之间的目标空间角度。

在另一个实施例中，获取目标拍摄主体在拍摄场景中相对于电子设备的目标空间角度，包括：基于位置，确定目标拍摄主体与拍摄画面参考线之间的直线距离；获取参考线对应的参考角度；基于参考线的参考角度和该直线距离，确定目标拍摄主体与电子设备之间的目标空间角度。

参考线可以根据需要进行设置。例如，参考线可以是中轴线或屏幕边缘所在的线等。参考角度是参考线对应于拍摄场景中的角度。例如，参考线是中轴线，该参考角度可以是0度，也即电子设备的正向方向。又如，参考线是屏幕左边缘所在的线，该参考角度可以是-60度，也即电子设备的左侧60度。

电子设备确定目标拍摄主体与参考线之间的直线距离为d，获取参考线对应的参考角度为A度，则目标拍摄主体的目标空间角度与参考线的参考角度之间的角度差值，与目标拍摄主体和参考线之间的直线距离成正相关关系，那么基于该正相关关系可以求取目标拍摄主体与电子设备之间的目标空间角度。

如图7所示，以参考线为中轴线、目标拍摄主体为人脸进行说明，电子设备的拍摄角度范围为120°(-60°～60°)，电子设备确定人脸与中轴线之间的直线距离d为20mm，中轴线对应的参考角度为0度(0°)，人脸的目标空间角度与中轴线的参考角度之间的角度差值，与人脸和中轴线之间的直线距离成正相关关系，该正相关关系为Y＝3x，其中，Y是角度差值，x是直线距离，那么人脸的目标空间角度与中轴线的参考角度之间的角度差值为60度，从而可以确定出人脸与电子设备之间的目标空间角度为60度，即人脸处于电子设备右侧的60度方向上。

在本实施例中，基于位置，确定目标拍摄主体与拍摄画面参考线之间的直线距离，以及获取参考线对应的参考角度，则可以基于参考线的参考角度和该直线距离，准确地确定目标拍摄主体与电子设备之间的目标空间角度。

在一个实施例中，上述方法还包括：若电子设备包括多个麦克风，并且多个麦克风在电子设备上呈第一方向排列，则获取电子设备在拍摄过程中的屏幕显示方向；当屏幕显示方向为第二方向时，执行对目标拍摄主体进行追焦的步骤；第一方向和第二方向相互垂直。

麦克风是将声音信号转换为电信号的能量转换器件。通常地，电子设备具有通话、播音、录音等功能，需要包括多个麦克风采集声音信号。以电子设备为智能手机为例，在智能手机的顶部、底部和镜头模组处均设有麦克风，可以多方位采集声音信号。

第一方向和第二方向相互垂直。在一个实施例中，第一方向为纵向，则第二方向为横向。在另一个实施例中，第一方向为横向，则第二方向为纵向。

屏幕显示方向是屏幕使用过程中所显示的方向。若电子设备纵向放置，则屏幕显示方向为纵向；若电子设备横向放置，则屏幕显示方向为横向。

需要说明的是，屏幕显示方向并不等同于屏幕中的内容显示方向。电子设备纵向放置，则屏幕显示方向为纵向，但是屏幕中的内容显示方向可以设置为横向，也可以设置为纵向。同样的，电子设备横向放置，则屏幕显示方向为横向，但是屏幕中的内容显示方向可以设置为横向，也可以设置为纵向。

以电子设备为智能手机为例，智能手机横向放置，则智能手机的屏幕显示方向为横向，但是屏幕中所播放的视频，可以设置为横向，也可以设置为纵向。同样的，智能手机纵向放置，则智能手机的屏幕显示方向为纵向，但是屏幕中所播放的图片，可以设置为横向，也可以设置为纵向。

以电子设备为智能手机为例，智能手机包括多个麦克风，并且在智能手机的顶部，底部和镜头模组处均设有麦克风，即多个麦克风在智能手机上呈纵向排列；当屏幕显示方向为横向时，也即智能手机横屏拍摄时，则对目标拍摄主体进行追焦。

可以理解的是，若电子设备包括多个麦克风，并且多个麦克风在电子设备上呈第一方向排列，则获取电子设备在拍摄过程中的屏幕显示方向；当屏幕显示方向为第二方向时，即电子设备旋转至第二方向，那么多个麦克风也随着电子设备排列在第二方向上，可以在第二方向上多个方位采集声音，从而更准确地采集到用户所需的声音。

图8为一个实施例中电子设备实现声音处理的整体架构图。电子设备包括摄像头、摄像头服务层、摄像头HAL层和音频系统。摄像头中包括对焦系统和录音器；对焦系统可以采集数据和上报用户意图至摄像头服务层；录像器可以采集图像数据。具体地，对焦系统可以对人脸进行对焦和追焦、以及获取人脸信息和追焦焦点。摄像头服务层(Camera Server)可以对图像数据进行采集与解析，与摄像头HAL层进行交互，包含人脸信息识别、对锁焦的人/物进行识别和采集景深信息等。摄像头HAL层定义了供硬件供应商实施的标准接口，该接口使Android无需考虑底层驱动程序的实现。

电子设备获取用户意图，将用户意图的信息输入至摄像头服务层，摄像头服务层可以与摄像头HAL层进行交互，将对用户意图的解析信息返回至对焦系统。其中，用户意图可以包括用户单击对焦的对象，或者双击追焦的对象；解析信息包括追焦的对象与电子设备之间的目标空间角度。对焦系统将目标空间角度传输至录像器，录像器可以针对该目标空间角度所追焦的对象采集图像数据，并将目标空间角度下发至音频系统。音频系统可以采集目标空间角度上的声音，并可以对该声音进行录音波束角调整和录音波束角处理，将处理后的声音返回至录像器。录像器接收到处理后的声音，将声音和采集的图像数据融合生成视频数据。其中，音频系统对该声音进行录音波束角调整和录音波束角处理，可以消除误差。

在一个实施例中，如图9所示，提供了另一种声音处理方法。用户打开相机应用程序，通过指定接口(LVACFS接口)将算法初始化参数发送给音频服务模块。通过音频驱动模块对音频服务模块进行驱动，该音频服务模块选择对应的算法进行音频模块的初始化，同时运行指定算法(LVACFS算法)，打开麦克风接口(MIC)开始采集声音。相机应用程序将所需录制的声音调度信息和音频数据发送给媒体服务模块，通过媒体服务模块调用初始化好的算法对音频数据进行处理，得到处理后的音频数据，再发送至原生编码器进行编码。通过原生编码器模块可以生成编码后的视频数据。其中，视频数据包括图像数据和音频数据。

在一个实施例中，提供了另一种声音处理方法，应用于电子设备，该方法包括以下步骤：

步骤A1：获取摄像头在初始放大倍数下所获取的拍摄画面，以及所述初始放大倍数对应的拍摄角度范围；将所述初始放大倍数下所获取的拍摄画面分割为多个子画面区间；基于所述初始放大倍数下拍摄画面和拍摄角度范围的对应关系，确定出各个子画面区间对应的空间角度，构建所述子画面区间与空间角度之间的映射关系。

步骤A2：在拍摄过程中，获取目标放大倍数，以及在目标放大倍数下所获取的拍摄画面。

电子设备执行步骤A2之后，执行步骤A31至步骤A33中的其中一个步骤，再执行步骤A4。

步骤A31：对拍摄画面进行主体检测，得到检测结果；当检测结果表示拍摄画面中存在候选拍摄主体时，获取各候选拍摄主体在拍摄画面中的候选尺寸；从各候选尺寸中筛选出符合第一尺寸条件的候选拍摄主体，作为中间拍摄主体；确定各中间拍摄主体的深度距离；基于各深度距离，从各中间拍摄主体中确定目标拍摄主体。其中，第一尺寸条件为拍摄主体在拍摄画面中的面积大于第一预设面积。

步骤A32：对拍摄画面进行主体检测，得到检测结果；当检测结果表示拍摄画面中存在候选拍摄主体时，获取各候选拍摄主体在拍摄画面中的候选尺寸；从各候选尺寸中筛选出符合第二尺寸条件的候选拍摄主体，作为目标拍摄主体；第二尺寸条件为拍摄主体在拍摄画面中的面积大于第二预设面积。

步骤A33：对拍摄画面进行人脸检测；当检测到拍摄画面中存在人脸时，分别生成各人脸的人脸框，并确定各人脸框的面积；基于各人脸框的面积，从各人脸中确定目标拍摄主体。

步骤A4：在拍摄过程中，若电子设备包括多个麦克风，并且多个麦克风在电子设备上呈第一方向排列，则获取电子设备在拍摄过程中的屏幕显示方向；当屏幕显示方向为第二方向时，对目标拍摄主体进行追焦；第一方向和第二方向相互垂直。

步骤A5：获取追焦的目标拍摄主体在目标放大倍数下所获取的拍摄画面中的第一位置；其中，目标放大倍数下所获取的拍摄画面是初始放大倍数下所获取的拍摄画面中的部分区域。

步骤A6：确定第一位置在预先分割的初始放大倍数下的拍摄画面中的第二位置，并确定第二位置所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取目标子画面区间所对应的目标空间角度；目标空间角度用于表征目标拍摄主体在拍摄场景中相对于电子设备所处的方向。

步骤A7：当检测结果表示拍摄画面中不存在候选拍摄主体或人脸时，获取历史时刻中所确定的历史空间角度，将该历史空间角度作为目标空间角度。

步骤A8：当检测结果表示拍摄画面中不存在候选拍摄主体或人脸时，统计拍摄画面中连续不存在候选拍摄主体或人脸的时长；当时长达到预设时长阈值时，将所有空间角度作为目标空间角度。

步骤A9：根据目标空间角度确定角度采集范围，角度采集范围包括目标空间角度；采集角度采集范围内的声音。

步骤A10：对目标空间角度之外的声音进行抑制处理。

应该理解的是，虽然图2至图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图10为一个实施例的声音处理装置的结构框图。如图10所示，提供了一种声音处理装置，包括：追焦模块1002、获取模块1004、角度确定模块1006和采集模块1008，其中：

追焦模块1002，用于在拍摄过程中，对目标拍摄主体进行追焦。

获取模块1004，用于获取追焦的目标拍摄主体在拍摄画面中的位置。

角度确定模块1006，用于确定位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取目标子画面区间所对应的目标空间角度；目标空间角度用于表征目标拍摄主体在拍摄场景中相对于电子设备所处的方向。

采集模块1008，用于采集目标空间角度上的声音。

上述声音处理装置，

在拍摄过程中，对目标拍摄主体进行追焦，获取追焦的目标拍摄主体在拍摄画面中的位置，可以确定出该位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取目标子画面区间所对应的目标空间角度，而该目标空间角度用于表征目标拍摄主体在拍摄场景中相对于电子设备所处的方向，那么，电子设备采集该目标空间角度上的声音，可以准确地获取到所追焦的目标拍摄主体的声音，避免了采集所有空间角度上声音而导致噪声较多的问题，提高了采集的声音的信噪比，可以在拍摄过程中更准确地采集用户所需的对象的声音，从而可以提高声音处理的准确性。

在一个实施例中，上述装置还包括主体检测模块，用于在拍摄过程中，对拍摄画面进行主体检测，得到检测结果；当检测结果表示拍摄画面中存在候选拍摄主体时，从各候选拍摄主体中确定目标拍摄主体。

在一个实施例中，上述主体检测模块还用于从各候选拍摄主体中确定符合第一尺寸条件的中间拍摄主体；确定各中间拍摄主体的深度距离；基于各深度距离，从各中间拍摄主体中确定目标拍摄主体。

在一个实施例中，上述主体检测模块还用于获取各候选拍摄主体在拍摄画面中的候选尺寸；从各候选尺寸中筛选出符合第二尺寸条件的候选拍摄主体，作为目标拍摄主体；第二尺寸条件为拍摄主体在拍摄画面中的面积大于第二预设面积。

在一个实施例中，上述角度确定模块1006还用于当检测结果表示拍摄画面中不存在候选拍摄主体时，获取历史时刻中所确定的历史空间角度；上述采集模块1008还用于采集历史空间角度上的声音。

在一个实施例中，上述采集模块1008还用于当检测结果表示拍摄画面中不存在候选拍摄主体时，统计拍摄画面中连续不存在候选拍摄主体的时长；当时长达到预设时长阈值时，采集所有空间角度上的声音。

在一个实施例中，上述装置还包括人脸检测模块，用于在拍摄过程中，对拍摄画面进行人脸检测；当检测到拍摄画面中存在人脸时，分别生成各人脸的人脸框，并确定各人脸框的面积；基于各人脸框的面积，从各人脸中确定目标拍摄主体

在一个实施例中，10上述采集模块1008还用于根据目标空间角度确定角度采集范围，角度采集范围包括目标空间角度；采集角度采集范围内的声音。

在一个实施例中，上述装置还包括映射关系构建模块，用于获取摄像头在初始放大倍数下所获取的拍摄画面，以及初始放大倍数对应的拍摄角度范围；将初始放大倍数下所获取的拍摄画面分割为多个子画面区间；基于初始放大倍数下拍摄画面和拍摄角度范围的对应关系，确定出各个子画面区间对应的空间角度，构建子画面区间与空间角度之间的映射关系10。

在一个实施例中，上述获取模块还用于在拍摄过程中，获取目标放大倍数，以及在目标放大倍数下所获取的拍摄画面；上述获取模块还用于获取追焦的目标拍摄主体在目标放大倍数下所获取的拍摄画面中的第一位置；其中，目标放大倍数下所获取的拍摄画面是初始放大倍数下所获取的拍摄画面中的部分区域；上述角度确定模块还用于确定第一位置在预先分割的初始放大倍数下的拍摄画面中的第二位置，并确定第二位置所处的目标子画面区间。

在一个实施例中，上述获取模块还用于若电子设备包括多个麦克风，并且多个麦克风在电子设备上呈第一方向排列，则获取电子设备在拍摄过程中的屏幕显示方向；当屏幕显示方向为第二方向时，上述追焦模块还用于对目标拍摄主体进行追焦；第一方向和第二方向相互垂直。

在一个实施例中，上述装置还包括抑制模块，用于对目标空间角度之外的声音进行抑制处理。

上述声音处理装置中各个模块的划分仅仅用于举例说明，在其他实施例中，可将声音处理装置按照需要划分为不同的模块，以完成上述声音处理装置的全部或部分功能。

关于声音处理装置的具体限定可以参见上文中对于声音处理方法的限定，在此不再赘述。上述声音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图11为一个实施例中电子设备的内部结构示意图。该电子设备可以是手机、平板电脑、笔记本电脑、台式电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑、穿戴式设备等任意终端设备。该电子设备包括通过系统总线连接的处理器和存储器。其中，该处理器可以包括一个或多个处理单元。处理器可为CPU(Central Processing Unit,中央处理单元)或DSP(Digital Signal Processing，数字信号处理器)等。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种声音处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。

本申请实施例中提供的声音处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在电子设备的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行声音处理方法的步骤。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行声音处理方法。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器可包括ROM(Read-Only Memory，只读存储器)、PROM(Programmable Read-only Memory，可编程只读存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-only Memory，电可擦除可编程只读存储器)或闪存。易失性存储器可包括RAM(Random Access Memory，随机存取存储器)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如SRAM(Static Random Access Memory，静态随机存取存储器)、DRAM(Dynamic Random Access Memory，动态随机存取存储器)、SDRAM(Synchronous Dynamic Random Access Memory，同步动态随机存取存储器)、双数据率DDRSDRAM(Double Data Rate Synchronous Dynamic Random Access memory，双数据率同步动态随机存取存储器)、ESDRAM(Enhanced Synchronous Dynamic Random Access memory，增强型同步动态随机存取存储器)、SLDRAM(Sync Link Dynamic Random Access Memory，同步链路动态随机存取存储器)、RDRAM(Rambus Dynamic Random Access Memory，总线式动态随机存储器)、DRDRAM(Direct Rambus Dynamic Random Access Memory，接口动态随机存储器)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种声音处理方法，其特征在于，包括：

在拍摄过程中，对目标拍摄主体进行追焦；

获取追焦的所述目标拍摄主体在拍摄画面中的位置；

确定所述位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取所述目标子画面区间所对应的目标空间角度；所述目标空间角度用于表征所述目标拍摄主体在拍摄场景中相对于电子设备所处的方向；所述子画面区间与空间角度之间的映射关系是通过摄像头在初始放大倍数下获取的拍摄画面所分割的各个子画面区间对应的空间角度构建得到的，所述各个子画面区间对应的空间角度是基于所述初始放大倍数下的拍摄画面和所述初始放大倍数对应的拍摄角度范围的对应关系确定的；

采集所述目标空间角度上的声音。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在拍摄过程中，对拍摄画面进行主体检测，得到检测结果；

当所述检测结果表示所述拍摄画面中存在候选拍摄主体时，从各所述候选拍摄主体中确定目标拍摄主体。

3.根据权利要求2所述的方法，其特征在于，所述从各所述候选拍摄主体中确定目标拍摄主体，包括：

从各所述候选拍摄主体中确定符合第一尺寸条件的中间拍摄主体；

确定各所述中间拍摄主体的深度距离；

基于各所述深度距离，从各所述中间拍摄主体中确定目标拍摄主体。

4.根据权利要求2所述的方法，其特征在于，所述从各所述候选拍摄主体中确定目标拍摄主体，包括：

获取各所述候选拍摄主体在所述拍摄画面中的候选尺寸；

从各所述候选尺寸中筛选出符合第二尺寸条件的候选拍摄主体，作为目标拍摄主体；所述第二尺寸条件为拍摄主体在拍摄画面中的面积大于第二预设面积。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当所述检测结果表示所述拍摄画面中不存在候选拍摄主体时，获取历史时刻中所确定的历史空间角度；

采集所述历史空间角度上的声音。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述检测结果表示所述拍摄画面中不存在候选拍摄主体时，统计所述拍摄画面中连续不存在候选拍摄主体的时长；

当所述时长达到预设时长阈值时，采集所有空间角度上的声音。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在拍摄过程中，对拍摄画面进行人脸检测；

当检测到所述拍摄画面中存在人脸时，分别生成各人脸的人脸框，并确定各所述人脸框的面积；

基于各所述人脸框的面积，从各所述人脸中确定目标拍摄主体。

8.根据权利要求1所述的方法，其特征在于，所述采集所述目标空间角度上的声音，包括：

根据所述目标空间角度确定角度采集范围，所述角度采集范围包括所述目标空间角度；

采集所述角度采集范围内的声音。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在拍摄过程中，获取目标放大倍数，以及在所述目标放大倍数下所获取的拍摄画面；

所述获取追焦的所述目标拍摄主体在拍摄画面中的位置，包括：

获取追焦的所述目标拍摄主体在所述目标放大倍数下所获取的拍摄画面中的第一位置；其中，所述目标放大倍数下所获取的拍摄画面是所述初始放大倍数下所获取的拍摄画面中的部分区域；

所述确定所述位置在预先分割的拍摄画面中所处的目标子画面区间，包括：

确定所述第一位置在预先分割的所述初始放大倍数下的拍摄画面中的第二位置，并确定所述第二位置所处的目标子画面区间。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

若电子设备包括多个麦克风，并且多个麦克风在所述电子设备上呈第一方向排列，则获取所述电子设备在拍摄过程中的屏幕显示方向；

当所述屏幕显示方向为第二方向时，执行所述对目标拍摄主体进行追焦的步骤；所述第一方向和所述第二方向相互垂直。

11.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

对所述目标空间角度之外的声音进行抑制处理。

12.一种声音处理装置，其特征在于，包括：

追焦模块，用于在拍摄过程中，对目标拍摄主体进行追焦；

角度确定模块，用于确定所述位置在预先分割的拍摄画面中所处的目标子画面区间，从子画面区间与空间角度之间的映射关系中，获取所述目标子画面区间所对应的目标空间角度；所述目标空间角度用于表征所述目标拍摄主体在拍摄场景中相对于电子设备所处的方向；所述子画面区间与空间角度之间的映射关系是通过摄像头在初始放大倍数下获取的拍摄画面所分割的各个子画面区间对应的空间角度构建得到的，所述各个子画面区间对应的空间角度是基于所述初始放大倍数下的拍摄画面和所述初始放大倍数对应的拍摄角度范围的对应关系确定的；

采集模块，用于采集所述目标空间角度上的声音。

13.一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述的声音处理方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的方法的步骤。