CN111050269A

CN111050269A - 音频处理方法和电子设备

Info

Publication number: CN111050269A
Application number: CN201811196568.XA
Authority: CN
Inventors: 陶凯; 鲍光照; 陈松; 尹明婕; 缪海波; 胡伟湘
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2020-04-21
Anticipated expiration: 2038-10-15
Also published as: WO2020078237A1; CN111050269B

Abstract

本申请实施例提供一种音频处理方法和电子设备，该音频处理方法包括：对摄像组件获取的第一图像进行图像识别，得到第一图像中被摄目标的目标类型、被摄目标相对于麦克风的方位和被摄目标相对于麦克风的距离；根据被摄目标的目标类型、被摄目标相对于麦克风的方位和被摄目标相对于麦克风的距离确定音频处理策略；根据音频处理策略对麦克风拾取的音频信号进行处理。实施本申请实施例，可以提高音频处理策略选择的便利性。

Description

音频处理方法和电子设备

技术领域

本申请涉及电子技术领域，尤其涉及一种音频处理方法和电子设备。

背景技术

录音应用是电子设备用户最为重要的多媒体影音体验之一。由于录音场景的复杂性，用户录音目的的多样性，导致用户对录音的效果在不同场景下存在多样化的需求。例如，在课堂、会议等场景，为了提升录音记录的清晰度，需要对主讲人的语音进行增强，而对其他的噪声干扰进行衰减。又例如，在古典乐器演奏等音乐录制场合，则强调录音的保真性，避免过度处理带来的音质损伤。再例如，在自拍录像、直播等近场人声录音场景，需要弱化远场声音，保证近场声音干净清晰。

为了提升用户体验，近年来电子设备上出现越来越多的录音模式来适应不同的录音场景和不同的录音目的。不同模式下电子设备对接收到的原始音频信号的参数处理存在差异。参数处理例如可以包含数字滤波、增益控制和均衡器(equalizer，EQ)频响控制。

例如，如图1所示，用户可以选取电子设备上的各个不同的录音模式。录音模式可以包含课堂、会议等场景对应设置“会议模式”，音乐录制场合的场景对应设置“音乐模式”，近场录音场景对应设置“人声模式”，访谈、采访对应设置的“采访模式”，被录目标较远时对应的“远距离模式”，被录目标为自然环境时对应设置的“自然环境模式”等等。用户可以在电子设备上选取不同的模式来适应不同的录音场景和不同的录音目的。用户选取模式可以是通过触控屏触控选取，也可以是利用电子设备对应的遥控设备遥控选取。

越来越多的录音模式增加了用户操作的复杂度，且录音场景的细化导致用户对不同录音场景不易理解，易出现选择场景错误的情况，从而增加了录音场景确定的复杂度。

发明内容

本申请技术方案公开了一种音频处理方法和电子设备，可以提高音频处理策略选择的便利性。

第一方面，本申请技术方案提供一种音频处理方法，所述方法包括：对摄像组件获取的第一图像进行图像识别，得到所述第一图像中被摄目标的目标类型、所述被摄目标相对于麦克风的方位和所述被摄目标相对于所述麦克风的距离；根据所述被摄目标的目标类型、所述被摄目标相对于麦克风的方位和所述被摄目标相对于所述麦克风的距离确定音频处理策略；根据所述音频处理策略对所述麦克风拾取的音频信号进行处理。

上述的音频处理方法中，可以利用图像识别的方法确定对麦克风拾取的音频信号进行处理的音频处理策略。从而可以提高音频处理策略选择的便利性，并提高音频信号的处理效果。

作为一种可能的技术方案，所述根据所述被摄目标的目标类型、所述被摄目标相对于麦克风的方位和所述被摄目标相对于所述麦克风的距离确定音频处理策略，包括：根据所述被摄目标相对于麦克风的方位确定空间增强的方位；根据所述被摄目标的目标类型确定滤波器；根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定第一增益控制曲线和第一均衡器频响曲线；所述音频处理策略包括所述空间增强的方位、所述滤波器、所述第一增益控制曲线和所述第一均衡器频响曲线。

本申请技术方案对电子设备中处理器确定空间增强的方位、滤波器、第一增益控制曲线、第一增益控制曲线和第一均衡器频响曲线的先后顺序可以不作限定。

作为一种可能的技术方案，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行处理，包括：根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和均衡器频响控制。

作为一种可能的技术方案，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和均衡器频响控制，包括：对原始音频信号在所述空间增强的方位上进行空间增强，得到第一音频信号；所述原始音频信号是所述麦克风拾取的音频信号；使用所述滤波器对所述第一音频信号进行滤波，得到第二音频信号；使用所述第一增益控制曲线对所述第二音频信号进行增益控制，得到第三音频信号；使用所述第一均衡器频响曲线对所述第三音频信号进行均衡器频响控制，得到第四音频信号。

其中，电子设备中处理器也可以利用图像识别得到图像场景作为录音场景。电子设备中处理器可以根据以下一个或多个来确定第一增益控制曲线和第一均衡器频响曲线：被录目标的目标类型、录音场景、被录目标与麦克风之间的距离。

作为一种可能的技术方案，所述根据所述被摄目标相对于麦克风的方位确定空间增强的方位，包括：将所述被摄目标相对于麦克风的方位确定为所述麦克风拾取的音频信号的空间增强的方位；所述根据被摄目标的目标类型确定滤波器，包括：根据所述被摄目标的目标类型从第一映射表中获取滤波器；其中，所述第一映射表中包含多个目标类型以及所述多个目标类型中每个目标类型对应的滤波器；所述多个目标类型包含所述被摄目标的目标类型。

其中，所述根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定所述第一增益控制曲线，可为：根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，从第二映射表中获取所述第一增益控制曲线；其中，所述第二映射表中包含多个目标类型、多个距离，以及目标类型i和距离j共同对应的增益控制曲线；其中，所述目标类型i为所述多个目标类型中任一个目标类型，所述距离j为所述多个距离中任一个距离；所述多个目标类型包含所述被摄目标的目标类型，所述多个距离包含所述被摄目标相对于所述麦克风的距离。

其中，所述根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定所述第一增益控制曲线，也可为：根据所述被摄目标的目标类型从第三映射表中获取第二增益控制曲线；其中，所述第三映射表中包含多个目标类型以及所述多个目标类型中每个目标类型对应的增益控制曲线；所述多个目标类型包含所述被摄目标的目标类型；根据所述被摄目标相对于所述麦克风的距离从第四映射表中获取第一增益补偿曲线；其中，所述第四映射表中包含多个距离以及所述多个距离中每个距离对应的增益补偿曲线；所述多个距离包含所述被摄目标相对于所述麦克风的距离。

其中，所述根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定所述第一EQ频响曲线，可为：根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，从第五映射表中获取所述第一EQ频响曲线；其中，所述第五映射表中包含多个目标类型、多个距离，以及所述目标类型i和距离j共同对应的EQ频响曲线；其中，所述目标类型i为所述多个目标类型中任一个目标类型，所述距离j为所述多个距离中任一个距离；所述多个目标类型包含所述被摄目标的目标类型，所述多个距离包含所述被摄目标相对于所述麦克风的距离。

其中，所述根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定所述第一EQ频响曲线，可为：根据所述被摄目标的目标类型从第六映射表中获取第二EQ频响曲线；其中，所述第六映射表中包含多个目标类型以及所述多个目标类型中每个目标类型对应的EQ频响曲线；所述多个目标类型包含所述被摄目标的目标类型；根据所述被摄目标相对于所述麦克风的距离从第七映射表中获取第一EQ频响补偿曲线；其中，所述第七映射表中包含多个距离以及所述多个距离中每个距离对应的EQ频响补偿曲线；所述多个距离包含所述被摄目标相对于所述麦克风的距离。

作为一种可能的技术方案，所述对摄像组件获取的第一图像进行图像识别，得到所述被摄目标的目标类型、所述被摄目标相对于麦克风的方位和所述被摄目标相对于所述麦克风的距离，可具体实施为：对所述第一图像进行图像识别得到被摄目标的图像内容，根据所述被摄目标的图像内容从第八映射表中获取所述被摄目标的目标类型；其中，所述第八映射表中包含多个图像内容以及所述多个图像内容中每个图像内容对应的目标类型；所述多个图像内容包含所述被摄目标的图像内容；根据所述被摄目标的图像内容和所述第一图像中被摄目标聚焦得到的二维图框的尺寸，从第九映射表中获取所述被摄目标相对于所述麦克风的距离；其中，所述第九映射表中包含多个图像内容、多个二维图框尺寸，以及图像内容k和二维图框尺寸l共同对应的距离；其中，所述图像内容k为所述多个图像内容中任一个图像内容，所述二维图框尺寸l为所述多个二维图框尺寸中任一个二维图框尺寸；所述多个图像内容包含所述被摄目标的图像内容，所述多个二维图框尺寸包含所述被摄目标聚焦得到的二维图框的尺寸；获取所述被摄目标聚焦得到的二维图框中包含的坐标点；根据所述二维图框中包含的坐标点从第十映射表中获取所述被摄目标上的点相对于麦克风的方位；其中，所述第十映射表中包含多个坐标点和所述多个坐标点中每个坐标点对应的方位；所述多个坐标点包含所述二维图框中包含的坐标点。

其中，被摄目标聚焦得到二维图像框可以是利用电子设备中自动对焦原理实现。被摄目标的聚焦也可以是响应于用户手动对焦操作实现的，即被摄目标聚焦得到二维图像框也可以是响应于用户手动对焦操作得到的。

其中，被摄目标相对于所述麦克风的距离还可以利用多摄像头测距确定。例如在两个摄像头的场景下，利用公式Z＝ft/d确定被摄目标到摄像头的距离。其中，Z为被摄目标到摄像头的距离，f为这两个摄像头的焦距，d为被摄目标在两个摄像头对应图像上坐标位置的距离差，t为两个摄像头之间的物理距离。

在被摄目标相对于电子设备距离足够远时，摄像头和麦克风之间的距离可以忽略，则无需进行坐标系转换，可以直接将被摄目标相对于摄像头的距离作为被摄目标相对于麦克风的距离，被摄目标相对于摄像头的方位作为被摄目标相对于麦克风的方位。

在摄像头和麦克风之间的距离不可忽略时，则可以利用公式(2)进行坐标系转换，得到被摄目标上的点在麦克风为原点的三维坐标系的坐标，进而得到被摄目标相对于麦克风的距离和被摄目标相对于麦克风的方位。

可以理解的，被摄目标与麦克风之间的距离还可以采用其他方式，例如利用结构光测距。本申请技术方案对被摄目标与麦克风之间的距离的测量方式不作限定。

作为一种可能的技术方案，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和EQ频响控制之后，所述方法还包括：将所述麦克风拾取的音频信号与第四音频信号叠加得到第五音频信号；所述第四音频信号为所述麦克风拾取的音频信号经过空间增强、滤波、增益控制和EQ频响控制之后得到的音频信号。

其中，第五音频信号可以是处理完成后用于音频输出的音频信号。

可以理解的，对麦克风拾取的音频信号进行处理的过程，本申请技术方案对空间增强、滤波、增益控制和EQ频响控制的先后顺序不作限定。

其中，可以按照空间增强、滤波、增益控制和EQ频响控制的顺序执行，首先执行空间增强和滤波，可以提升处理得到的音频信号中来自被摄目标的音频信号所占的比例，降低噪声所占的比例，从而提升对音频信号的处理效果。

作为一种可能的技术方案，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和EQ频响控制，可以具体实施为：根据所述麦克风拾取的音频信号确定多个声道中每个声道的原始音频信号；根据所述音频处理策略对所述每个声道的原始音频信号进行空间增强、滤波、增益控制和EQ频响控制。左右声道分别单独执行空间增强、滤波、增益控制和EQ频响控制，两个声道之间的音频信号处理和播放互不影响，从而可以提高输出音频信号的立体感。

作为一种可能的技术方案，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行处理之前，所述方法还包括：显示所述音频处理策略；所述根据所述音频处理策略对所述麦克风拾取的音频信号进行处理，包括：响应于用户对所述音频处理策略的操作，根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和EQ频响控制。通过用户对电子设备自动识别得到的音频处理策略进行确认，可以提高音频处理策略识别的准确性和便利性。

其中，电子设备中处理器可以是在开始录制音视频时，执行对麦克风拾取的音频信号进行处理。可以实时对拾音组件拾取的音频信号进行处理，在边录边播的场景下，可以实时的自动选择音频处理策略，提高音频处理策略选择的便利性，并提高不同被摄目标的目标类型或者不同录音场景下音频信号的处理效果。

其中，电子设备中处理器可以是在录制音视频结束后，执行对麦克风拾取的音频信号进行处理。可以在录制音视频过程中减少处理器的占用，提高音视频录制过程的流畅度，提高音频处理策略选择的便利性，并提高不同被摄目标的目标类型或者不同录音场景下音频信号的处理效果。

其中，电子设备中处理器还可以是在录制音视频结束，将录制得到音视频信号存储进存储器时，执行对麦克风拾取的音频信号进行处理。可以在录制音视频过程中减少处理器的占用，提高音视频录制过程的流畅度。这样，在需要保存录制得到音视频信号时才执行对麦克风拾取的音频信号进行处理，减少不需要保存录制得到音视频信号时对处理器资源的浪费，从而可以节省处理器资源。

第二方面，本申请技术方案提供一种音频处理方法，所述方法包括：对摄像组件获取的第一图像进行图像识别，得到所述第一图像中被摄目标的目标类型；根据所述被摄目标的目标类型确定滤波器；使用所述滤波器对麦克风拾取的音频信号进行滤波。

上述的音频处理方法中，可以利用图像识别的方法确定对麦克风拾取的音频信号进行处理的滤波器。从而可以提高音频处理策略选择的便利性，并提高音频信号的处理效果。

在一种可能的技术方案中，所述使用所述滤波器对麦克风拾取的音频信号进行滤波之前，所述方法还包括：根据所述图像识别得到所述被摄目标相对于所述麦克风的方位；对原始音频信号在所述被摄目标相对于麦克风的方位上进行空间增强，得到第一音频信号；所述原始音频信号是所述麦克风拾取到的音频信号；所述使用所述滤波器对麦克风拾取的音频信号进行滤波，可具体实施为：使用所述滤波器对所述第一音频信号进行滤波，得到第二音频信号。上述的音频处理方法中，还可以利用图像识别的方法确定空间增强的方向，从而可以进一步提高音频信号的处理效果。

其中，在对音频信号进行滤波之前进行空间增强，可以提升处理得到的音频信号中来自被摄目标的音频信号所占的比例，降低噪声所占的比例，从而提升对音频信号的处理效果。

本申请技术方案对电子设备中处理器确定空间增强的方位、滤波器的先后顺序不作限定。

在一种可能的技术方案中，所述方法还包括：根据所述图像识别，得到所述被摄目标相对于所述麦克风的距离；根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，确定所述第一增益控制曲线和第一均衡器频响曲线；所述使用所述滤波器对麦克风拾取的音频信号进行滤波之后，所述方法还包括：使用所述第一增益控制曲线对第二音频信号进行增益控制，得到第三音频信号；所述第二音频信号为所述滤波器对所述麦克风拾取到的音频信号进行滤波得到的音频信号；使用所述第一均衡器频响曲线对所述第三音频信号进行均衡器频响控制，得到第四音频信号。

其中，在对音频信号进行增益控制、EQ控制之前进行空间增强、滤波，可以提升处理得到的音频信号中来自被摄目标的音频信号所占的比例，降低噪声所占的比例，从而提升对音频信号的处理效果。

本申请技术方案对电子设备中处理器确定空间增强的方位、滤波器、第一增益控制曲线和第一均衡器频响曲线的先后顺序不作限定。

在一种可能的技术方案中，所述根据所述被摄目标的目标类型确定滤波器，可具体实施为：根据所述被摄目标的目标类型从第一映射表中获取所述滤波器；其中，所述第一映射表中包含多个目标类型以及所述多个目标类型中每个目标类型对应的滤波器；所述多个目标类型包含所述被摄目标的目标类型。

在一种可能的技术方案中，所述根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，确定所述第一增益控制曲线，可为：根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，从第二映射表中获取所述第一增益控制曲线；所述第二映射表中包含多个目标类型、多个距离，以及目标类型i和距离j共同对应的增益控制曲线；其中，所述目标类型i为所述多个目标类型中任一个目标类型，所述距离j为所述多个距离中任一个距离；所述多个目标类型包含所述被摄目标的目标类型，所述多个距离包含所述被摄目标相对于所述麦克风的距离。

在一种可能的技术方案中，所述根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，确定所述第一增益控制曲线，还可为：根据所述被摄目标的目标类型从第三映射表中获取第二增益控制曲线；其中，所述第三映射表中包含多个目标类型以及所述多个目标类型中每个目标类型对应的增益控制曲线；所述多个目标类型包含所述被摄目标的目标类型；根据所述被摄目标相对于所述麦克风的距离从第四映射表中获取第一增益补偿曲线；其中，所述第四映射表中包含多个距离以及所述多个距离中每个距离对应的增益补偿曲线；所述多个距离包含所述被摄目标相对于所述麦克风的距离。

在一种可能的技术方案中，所述根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，确定所述第一均衡器频响曲线，可为：根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，从第五映射表中获取所述第一均衡器频响曲线；其中，所述第五映射表中包含多个目标类型、多个距离，以及所述目标类型i和距离j共同对应的均衡器频响曲线；其中，所述目标类型i为所述多个目标类型中任一个目标类型，所述距离j为所述多个距离中任一个距离；所述多个目标类型包含所述被摄目标的目标类型，所述多个距离包含所述被摄目标相对于所述麦克风的距离。

在一种可能的技术方案中，所述根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，确定所述第一均衡器频响曲线，还可为：根据所述被摄目标的目标类型从第六映射表中获取第二均衡器频响曲线；其中，所述第六映射表中包含多个目标类型以及所述多个目标类型中每个目标类型对应的均衡器频响曲线；所述多个目标类型包含所述被摄目标的目标类型；根据所述被摄目标相对于所述麦克风的距离从第七映射表中获取第一均衡器频响补偿曲线；其中，所述第七映射表中包含多个距离以及所述多个距离中每个距离对应的均衡器频响补偿曲线；所述多个距离包含所述被摄目标相对于所述麦克风的距离。

在一种可能的技术方案中，对摄像组件获取的第一图像进行图像识别，得到所述第一图像中被摄目标的目标类型，可为：对所述第一图像进行图像识别得到被摄目标的图像内容，根据所述被摄目标的图像内容从第八映射表中获取所述被摄目标的目标类型；其中，所述第八映射表中包含多个图像内容以及所述多个图像内容中每个图像内容对应的目标类型；所述多个图像内容包含所述被摄目标的图像内容。

在一种可能的技术方案中，所述根据所述图像识别得到所述被摄目标相对于所述麦克风的方位，可为：获取所述被摄目标聚焦得到的二维图框中包含的坐标点；根据所述二维图框中包含的坐标点从第十映射表中获取所述被摄目标上的点相对于麦克风的方位；其中，所述第十映射表中包含多个坐标点和所述多个坐标点中每个坐标点对应的方位；所述多个坐标点包含所述二维图框中包含的坐标点。

在一种可能的技术方案中，所述根据所述图像识别，得到所述被摄目标相对于所述麦克风的距离，可为：根据所述被摄目标的图像内容和所述第一图像中被摄目标聚焦得到的二维图框的尺寸，从第九映射表中获取所述被摄目标相对于所述麦克风的距离；其中，所述第九映射表中包含多个图像内容、多个二维图框尺寸，以及图像内容k和二维图框尺寸l共同对应的距离；其中，所述图像内容k为所述多个图像内容中任一个图像内容，所述二维图框尺寸l为所述多个二维图框尺寸中任一个二维图框尺寸；所述多个图像内容包含所述被摄目标的图像内容，所述多个二维图框尺寸包含所述被摄目标聚焦得到的二维图框的尺寸。

在一种可能的技术方案中，被摄目标相对于所述麦克风的距离还可以利用多摄像头测距确定。例如在两个摄像头的场景下，利用公式Z＝ft/d确定被摄目标到摄像头的距离。其中，Z为被摄目标到摄像头的距离，f为这两个摄像头的焦距，d为被摄目标在两个摄像头对应图像上坐标位置的距离差，t为两个摄像头之间的物理距离。

其中，被摄目标与麦克风之间的距离还可以采用其他方式，例如利用结构光测距。本申请技术方案对被摄目标与麦克风之间的距离的测量方式不作限定。

在一种可能的技术方案中，所述使用所述第一均衡器频响曲线对所述第三音频信号进行均衡器频响控制，得到第四音频信号之后，所述方法还包括：将所述原始音频信号与第四音频信号叠加得到第五音频信号；所述原始音频信号是所述麦克风拾取到的音频信号。

在一种可能的技术方案中，所述使用所述滤波器对麦克风拾取的音频信号进行滤波，可具体实施为：根据所述麦克风拾取的音频信号确定多个声道中每个声道的原始音频信号；对所述每个声道的原始音频信号进行处理，所述处理包含使用所述滤波器进行滤波。左右声道分别单独执行空间增强、滤波、增益控制和EQ频响控制，两个声道之间的音频信号处理和播放互不影响，从而可以提高输出音频信号的立体感。

在一种可能的技术方案中，所述使用所述滤波器对麦克风拾取的音频信号进行滤波之前，所述方法还包括：显示所述音频处理策略；所述音频处理策略包含所述滤波器；所述使用所述滤波器对麦克风拾取的音频信号进行滤波，可具体实施为：响应于用户对所述音频处理策略的操作，使用所述滤波器对麦克风拾取的音频信号进行滤波。通过用户对电子设备自动识别得到的音频处理策略进行确认，可以提高音频处理策略识别的准确性和便利性。

作为一种可能的技术方案中，电子设备中处理器可以是在开始录制音视频时，执行对麦克风拾取的音频信号进行处理。可以实时对拾音组件拾取的音频信号进行处理，在边录边播的场景下，可以实时的自动选择音频处理策略，提高音频处理策略选择的便利性，并提高不同被摄目标的目标类型或者不同录音场景下音频信号的处理效果。

在一种可能的技术方案中，电子设备中处理器可以是在录制音视频结束后，执行对麦克风拾取的音频信号进行处理。可以在录制音视频过程中减少处理器的占用，提高音视频录制过程的流畅度，提高音频处理策略选择的便利性，并提高不同被摄目标的目标类型或者不同录音场景下音频信号的处理效果。

作为一种可能的技术方案中，电子设备中处理器还可以是在录制音视频结束，将录制得到音视频信号存储进存储器时，执行对麦克风拾取的音频信号进行处理。可以在录制音视频过程中减少处理器的占用，提高音视频录制过程的流畅度。这样，在需要保存录制得到音视频信号时才执行对麦克风拾取的音频信号进行处理，减少不需要保存录制得到音视频信号时对处理器资源的浪费，从而可以节省处理器资源。

第三方面，本申请技术方案提供一种音频处理方法，所述方法包括：对摄像组件获取的第一图像进行图像识别，得到所述第一图像中被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离；根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定音频处理策略；根据所述音频处理策略对所述麦克风拾取的音频信号进行处理。

作为一种可能的技术方案中，所述被摄目标的目标类型可以包含语音类型和非语音类型。

在一种可能的技术方案中，当图像识别得到包含“人”这一被摄目标时，可以确定被摄目标的目标类型为语音类型。当图像识别得到第一图像不包含“人”这一被摄目标时，可以确定被摄目标的目标类型为非语音类型。

作为一种可能的技术方案，所述根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定音频处理策略，包括：根据所述被摄目标的目标类型确定滤波器；根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定第一增益控制曲线和第一均衡器频响曲线；所述音频处理策略包括所述滤波器、所述第一增益控制曲线和所述第一均衡器频响曲线。

可以理解的，本申请技术方案对电子设备中处理器确定滤波器、第一增益控制曲线、第一增益控制曲线和第一均衡器频响曲线的先后顺序不作限定。

作为一种可能的技术方案，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行处理，包括：根据所述音频处理策略对所述麦克风拾取的音频信号进行滤波、增益控制和均衡器频响控制。

作为一种可能的技术方案，所述使用所述滤波器对麦克风拾取的音频信号进行滤波之前，所述方法还包括：根据所述图像识别得到所述被摄目标相对于所述麦克风的方位；对原始音频信号在所述被摄目标相对于麦克风的方位上进行空间增强，得到第一音频信号；所述原始音频信号是所述麦克风拾取到的音频信号；所述使用所述滤波器对麦克风拾取的音频信号进行滤波，可具体实施为：使用所述滤波器对所述第一音频信号进行滤波，得到第二音频信号。上述的音频处理方法中，还可以利用图像识别的方法确定空间增强的方向，从而可以进一步提高音频信号的处理效果。

所述根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和EQ频响控制之后，所述方法还包括：将所述麦克风拾取的音频信号与第四音频信号叠加得到第五音频信号；所述第四音频信号为所述麦克风拾取的音频信号经过空间增强、滤波、增益控制和EQ频响控制之后得到的音频信号。

作为一种可能的技术方案，对麦克风拾取的音频信号进行处理的过程，本申请技术方案对空间增强、滤波、增益控制和EQ频响控制的先后顺序不作限定。

作为一种可能的技术方案，可以按照空间增强、滤波、增益控制和EQ频响控制的顺序执行，首先执行空间增强和滤波，可以提升处理得到的音频信号中来自被摄目标的音频信号所占的比例，降低噪声所占的比例，从而提升对音频信号的处理效果。

作为一种可能的技术方案，电子设备中处理器可以是在开始录制音视频时，执行对麦克风拾取的音频信号进行处理。可以实时对拾音组件拾取的音频信号进行处理，在边录边播的场景下，可以实时的自动选择音频处理策略，提高音频处理策略选择的便利性，并提高不同被摄目标的目标类型或者不同录音场景下音频信号的处理效果。

作为一种可能的技术方案，电子设备中处理器可以是在录制音视频结束后，执行对麦克风拾取的音频信号进行处理。可以在录制音视频过程中减少处理器的占用，提高音视频录制过程的流畅度，提高音频处理策略选择的便利性，并提高不同被摄目标的目标类型或者不同录音场景下音频信号的处理效果。

作为一种可能的技术方案，电子设备中处理器还可以是在录制音视频结束，将录制得到音视频信号存储进存储器时，执行对麦克风拾取的音频信号进行处理。可以在录制音视频过程中减少处理器的占用，提高音视频录制过程的流畅度。这样，在需要保存录制得到音视频信号时才执行对麦克风拾取的音频信号进行处理，减少不需要保存录制得到音视频信号时对处理器资源的浪费，从而可以节省处理器资源。

第四方面，本申请技术方案提供了一种电子设备，包括一个或多个处理器和一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行第一方面、第二方面、第三方面和第一至三方面任一个方面的任一个可能的技术方案所提供的方法。

第五方面，本申请技术方案提供一种电子设备，该电子设备包括用于执行第一方面、第二方面、第三方面和第一至三方面任一个方面的任一个可能的技术方案所提供的方法的模块或单元。

第六方面，本申请技术方案提供一种芯片系统，该芯片系统包括至少一个处理器，存储器和接口电路，该存储器、该接口电路和该至少一个处理器连接，该至少一个存储器中存储有程序指令；该程序指令被该处理器执行时，实现第一方面、第二方面、第三方面和第一至三方面任一个方面的任一个可能的技术方案所提供的方法。

第七方面，本申请技术方案提供一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，当该程序指令由处理器运行时，实现第一方面、第二方面、第三方面和第一至三方面任一个方面的任一个可能的技术方案所提供的方法。

第八方面，本申请技术方案提供一种计算机程序产品，当该计算机程序产品在由处理器上运行时，实现第一方面、第二方面、第三方面和第一至三方面任一个方面的任一个可能的技术方案所提供的方法。

其中，上述技术方案中，摄像组件可以为至少一个摄像头，例如电子设备包括一个摄像头，或电子设备上具有两个摄像头，或电子设备具有三个摄像头，或四个摄像头等，其中，这些可选方案中的摄像头可以位于电子设备的同一侧，例如位于电子设备的后侧。

附图说明

下面对本申请实施例用到的附图进行介绍。

图1是现有技术提供的一种电子设备上录音模式选取示意图；

图2是本申请实施例提供的一种音视频拍摄场景示意图；

图3是本申请实施例提供的一种空间增强的实现示意图；

图4是本申请实施例提供的一种音频处理方法的流程示意图；

图5是本申请实施例提供的一种识别被摄目标的示意图；

图6是本申请实施例提供的一种坐标系换算确定被摄目标与麦克风之间的方位的示意图；

图7是本申请实施例提供的一种被摄目标相对于麦克风的方位确定原理的示意图；

图8是本申请实施例提供的一种音频处理策略用户交互界面的示例；

图9是本申请实施例提供的另一种音频处理策略用户交互界面的示例；

图10是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

下面介绍本申请实施例涉及的应用场景。在手机、平板电脑、摄像设备或者包含摄像头和麦克风的其他设备等这些电子设备中，电子设备中处理器可以调用摄像头来实现对目标拍摄视频片段，并调用麦克风来采集目标在被录过程中的音频。

请参阅图2，图2是本申请实施例提供的一种音视频拍摄场景示意图。如图2所示，电子设备中摄像头与显示屏上显示的“相机”图标关联，例如相机app，响应于用户对该图标的操作，例如对该图标的触摸选择，电子设备中处理器可以启动摄像头来捕捉图像。在相机的“视频”模式下，摄像头可以被配置为拍摄视频的功能。响应于用户对第一按键的用户操作，例如用户触摸该第一按键，电子设备中处理器可以从第一按键检测到触摸操作之后采集摄像头捕捉到的视频，并采集麦克风捕捉到的音频。在处理器检测到触摸操作之后，显示屏上可以显示第一显示控件，第一显示控件用于计时从第一按键被触摸操作之后录制视频的时长。当检测到用户对第二按键的操作，例如触摸操作，电子设备停止采集摄像头捕捉到的视频，并停止采集麦克风捕捉到的音频，且第一显示控件停止计时。可以理解的，第一按键和第二按键可以为相同的按键，也可以为不同的按键。

上述过程中电子设备完成一次音视频拍摄过程，得到的音视频片段的播放时长为用户对第二按键的操作的时刻和用户对第一按键操作的时刻之间的差值。音视频片段中，视频部分包含从用户对第一按键的操作开始到用户对第二按键操作结束期间摄像头持续捕捉到的画面。音视频片段中，音频部分包含从用户对第一按键的操作开始到用户对第二按键的操作结束期间麦克风持续捕捉到的音频。如图2所示，在用户对第一按键操作时，第一显示控件显示的时刻为00:00，第一显示控件持续计时直至用户对第二按键的操作，第一显示控件停止计时，显示计时时长02:15。则用户对第二按键的操作(例如，用户点击第二按键)后得到的音视频片段的播放时长可以是02:15。

可选的，上述音视频拍摄过程中，电子设备可以调用一个或多个摄像头来完成视频信号的拾取。在使用多个摄像头来完成视频信号的拾取的场景下，这多个摄像头均与显示屏上显示的“相机”图标关联，这多个摄像头拾取的视频信号可以被处理器获取。

可以理解的，图2对应用场景的举例仅用于解释本申请实施例，不应构成限定。本申请实施例对于其他利用摄像头拾取视频信号，利用麦克风拾取音频信号的场景同样适用。

在图2所描述的音视频拍摄过程中，音频信号的采集依靠麦克风来捕捉。为适应不同的录音场景和不同的录音目的，电子设备中处理器对麦克风采集到的原始音频信号进行不同的参数处理。参数处理例如可以包含数字滤波、空间增强、增益控制和EQ频响控制。

为了提高录音场景选择的便利性，并提高不同录音场景下参数处理的精确度，本申请实施例提供一种音频处理方法。该音频处理方法可以应用在使用电子设备进行音视频拍摄的场景中，例如图2所描述的音视频拍摄场景中。

该音频处理方法中，电子设备中处理器可以对摄像头拾取的图像进行被摄目标对焦，识别得到图像中被摄目标。利用图像识别确定该被摄目标的目标类型、相对于麦克风的方位和相对于麦克风的距离。根据被摄目标相对于麦克风的方位，对拾音组件拾取的音频信号进行空间增强，来使该被摄目标相对于麦克风的方位上的音频强度增加，该被摄目标相对于麦克风的方位以外的方向上的音频强度减弱。根据被摄目标所属的目标类型，确定该被摄目标的目标类型对应的滤波器，该滤波器可以滤除被摄目标音频信号的噪声信号。根据被摄目标相对于麦克风的距离和该被摄目标所属的目标类型确定增益控制曲线和EQ频响曲线，并根据该增益控制曲线对被摄目标的音频信号进行增益控制和EQ频响输出处理后的音频信号。其中，为增加声音的空间感，利用麦克风组件拾取的原始音频信号叠加在处理后的音频信号中。

上述的音频处理方法中，利用图像识别得到被摄目标的类型、相对于麦克风的方位和相对于麦克风的距离，可以提高录音场景中场景识别和被摄目标识别的精确度。然后根据被摄目标的类型、相对于麦克风的方位和相对于麦克风的距离来确定音频处理策略，可以过滤掉音频信号中的干扰信号，提升音频信号的处理效果。其中，音频处理策略可以包含选取的滤波器、增益控制曲线和EQ频响曲线。音频信号的处理效果可以是结合音频信号来自的被摄目标的目标类型和录音场景，符合该类型和录音环境下用户听取规律。

为了理解本申请实施例，下面介绍本申请实施例涉及的概念。

(1)滤波器

滤波器可以用于频域降噪，保留来自被录目标的音频信号，滤除来自被录目标以外的目标的音频信号。本申请实施例涉及的滤波器可以是数字滤波器，由处理器调用算法模型实现。

不同类型的音频信号的频域分布概率特征不同，不同录音场景下麦克风拾取音频信号的频域分布概率特征不同。可以归纳不同类型音频信号的频域分布概率特征，作为先验信息指导各类型音频在各个频率点上的增益估计，归纳不同录音场景下音频信号的频域分布概率特征，作为先验信息指导各录音场景下音频信号在各个频率点上的增益估计。不同类型的音频例如可以包括：语音、鸟鸣、流水声、钢琴曲和音乐等等。具体的，例如人的语音的频率范围为85HZ-8kHZ，语音信号的一个重要特征是基音周期，基音周期是人的声门相邻两次开闭之间的时间间隔或开闭的频率。不同录音场景可以包含：会议场景、K歌场景、远距离场景等等。例如，在会议场景和k歌场景人的语音频率范围、增益大小需求差别很大。

每个音频信号的目标类型可以对应一个滤波器，每个录音场景也可以对应一个滤波器。其中，音频信号的目标类型即来自被录目标的音频的目标类型，即前后文中的被录目标的目标类型。电子设备中也可以是由一个音频信号的目标类型和一个录音场景对应一个滤波器。录音场景对应一个滤波器可以是处理器实现的算法模型，该滤波器可以经过机器学习确定。如对于语音类型来说，将干净的语音信号作为监督信号，通过对滤波器参数迭代优化直至滤波器对混合音频信号的输出结果逼近监督信号并收敛，从而生成针对语音类型目标信号的频域降噪滤波器。混合音频信号中包含语音信号和其他类型的音频信号，电子设备中处理器可以通过训练得到的语音信号对应的滤波器滤除混合音频信号中的其他类型的音频信号，仅保留语音信号。在该混合音频信号中，其他类型的音频信号相对于语音信号来说即为噪音信号。其中，机器学习过程中，用于机器学习的混合音频信号可以由干净的语音信号叠加上噪音信号得到。将该干净的语音信号作为监督信号，将混合音频信号作为滤波器的输入信号对滤波器进行参数迭代优化。

(2)空间增强

空间增强可以实现将特定方位的音频信号增强，将该特定方向以外的方向上的音频信号弱化。其中，该特定方向可以是被录目标相对于麦克风的方位。

由于被录目标相对于麦克风所在方位不同，电子设备中处理器可以对麦克风接收到的原始音频信号进行处理或者调整麦克风的指向，来使采集到的音频信号在目标所在的方位上的音频强度增强，其余方位上的音频强度弱化，即对被录目标的音频进行空间增强。该空间增强的方位可以包含方向中心和角度范围。方向中心表征该方位的中心位置，角度范围表征该方位覆盖的角度区域。根据麦克风是否可变指向性，空间增强的实现方式可包含两种：(a)麦克风为可变指向时，电子设备中处理器可以调节麦克风的指向到目标所在的方向中心；(b)麦克风为不可变指向时，电子设备中处理器可以通过算法来实现目标所在的方位上的音频强度增强。以下分别进行描述。

(a)麦克风为可变指向时，调节麦克风的指向到目标所在的方向中心

麦克风捕获音频信号的强度与被录目标相对于麦克风的方位相关。请参阅图3，图3是本申请实施例提供的一种空间增强的实现示意图。如图3所示，当麦克风的指向正对被录目标时，麦克风的指向与目标所在的方向中心可以重合，麦克风采集到来自被录目标的音频信号的强度最强，来自被录目标以外的噪音信号的强度最弱。其中，麦克风的指向可以是指麦克风捕捉音频信号的方向。目标所在的方位中，方向中心和角度范围可以是目标相对于麦克风而言的。

当电子设备中包含的可变指向的麦克风的数量为多个时，为实现空间增强，电子设备中处理器可以将每个麦克风的指向调节到目标相对于该麦克风所在的方向中心，进而实现多个麦克风中每个麦克风均对被录目标的音频进行空间增强。

(b)麦克风为不可变指向时，通过算法来实现目标所在的方位上的音频强度增强

空间中传播的音频信号是振动产生的信号。由于电子设备中多个麦克风与声源之间的距离不同，多个麦克风在同一时刻接收到来自声源的音频信号不同。具体的，这多个麦克风捕捉声源得到多个音频信号，由于存在时延，这多个音频信号的相位不同。则在将这多个音频信号进行叠加时，相位相同的音频信号之间叠加增强，相位相反的音频信号之间叠加相消。

利用这个原理，对于来自非目标方向的音频信号，电子设备中处理器可以对多个麦克风拾取的多个音频信号进行时延补偿或者相位补偿，使得这多个音频信号在叠加时相消，从而减弱来自非目标方向的音频信号的强度。其中，非目标方向为目标所在方位以外的方向。对于来自目标所在方位的音频信号，电子设备中处理器可以对多个麦克风拾取的多个音频信号进行时延补偿或者相位补偿，使得这多个音频信号在叠加时增强，从而增强来自目标所在方位的音频信号的强度。利用上述的算法原理，来实现多个麦克风对被录目标的音频进行空间增强。

可以理解的，本申请实施例涉及的空间增强的实现方式可以包含上述(a)和(b)中的任意一个或多个。

(3)增益控制和增益控制曲线

增益控制是指对麦克风拾取到的音频信号进行音频信号强度的调整。增益控制可以调节各种幅值信号的放大倍数。不同的信号幅度对应的增益可以不同。增益控制与以下一个或多个因素相关：被录目标的目标类型、录音场景、被录目标与麦克风之间的距离。以下分别对影响增益控制的因素进行介绍。

本申请实施例中，被录目标的目标类型即为前后文中图像识别得到的被摄目标的目标类型，被录目标即为前后文中图像识别得到的被摄目标。

(a)增益控制与被录目标的目标类型

对于不同目标类型的音频信号，用户对音频信号在不同输入声压级下的录音信号强度要求不同，对应的增益大小不同。例如，对于古典乐来说，用户希望保留麦克风拾取的原始录音信号的保真性，避免过度调节增益导致动态压缩失真。因此在古典乐录音类型中，无需将声压级下的录音音频信号都放大到固定的信号强度，声压级下的录音音频信号的放大倍数可以相等，来保留古典音乐录音的动态范围。对于流行音乐来说，用户更加追求录音音频信号的录音强度足够大。因此在流行音乐录音类型中，电子设备中处理器可以将各声压级下的录音音频信号放大到固定的信号强度。

其中，音频信号的强度可以表征音频信号的振动幅值。声压级(sound pressurelevel，SPL)是指以对数尺衡量有效声压相对于一个基准值的大小，用分贝(dB)来描述有效声压与基准值的关系。人类的对于1KHz的声音的听阈(即产生听觉的最低声压)为20μPa，通常以该听阈作为声压级的基准值。

对于每种音源类型，可以对应一个增益控制曲线。该增益控制曲线的横坐标可以是输入音频信号的幅值大小，纵坐标可以是增益大小。该增益控制曲线可以针对对应的目标类型设，使该目标类型的音频信号在经过增益控制后符合用户听取规律。例如，对于语音信号，对应的增益控制曲线可以实现经过增益控制后输出的音频信号的信号强度恒定。具体的，当麦克风拾取到的语音信号强度过大时，根据语音对应的增益控制曲线，可以降低增益来使经过增益控制后输出的语音信号的信号强度不至过大。当麦克风拾取到的语音信号强度过小时，根据语音对应的增益控制曲线，可以增大增益来使经过增益控制后输出的语音信号的信号强度不至过小。

(b)增益控制与录音场景

不同录音场景下，用户对音频信号的信号在不同频率点的信号强度要求也不同，对应的增益大小不同。在自拍录像、采访、k歌直播录音场景中，用户希望弱化远场音频信号，而保证近场音频信号清晰。则在自拍录像、采访、k歌直播录音场景中，远场音频信号经过麦克风拾取得到的即为小信号，可以减小小信号增益，增大普通信号的增益。

对于每种录音场景，也可以对应一个增益控制曲线。该增益控制曲线的横坐标可以是拾取到的信号的幅值大小，纵坐标可以是增益大小。该增益控制曲线可以针对对应的录音场景设置，来使该类型的音频信号在经过增益控制后符合用户听取规律。例如，同为语音信号，k歌录音场景和远场录音场景对应的增益控制曲线完全不同。在k歌录音场景，对应的增益控制曲线可以实现经过增益控制后，麦克风采集的小信号以外的信号对应输出的音频信号的信号强度恒定，小信号被抑制，则小信号的增益减小。在远场录音场景，对应的增益控制曲线可以实现经过增益控制后，麦克风采集的小信号被放大，即增大小信号的增益。其中，小信号可以是信号幅值小于预设幅值的信号的总和。

本申请实施例中，电子设备中可以存储映射关系：一个被录目标的目标类型和一个录音场景共同映射一个增益控制曲线。电子设备中也可以存储映射关系：一个被录目标的目标类型映射一个增益控制曲线。电子设备中还可以存储映射关系：一个录音场景映射一个增益控制曲线。

可选的，电子设备中还可以存储以下映射关系：被录目标的目标类型A、录音场景B、被录目标与麦克风之间的距离C映射一条增益控制曲线。其中，目标类型A为任一个目标类型，录音场景B为任一个录音场景，被录目标与麦克风之间的距离C为任一个距离梯度。

(c)增益控制、被录目标与麦克风之间的距离

距离越远，音频信号衰减幅度越大，因此电子设备中处理器可以设置增益大小与音源目标的距离成正比。

对于每个距离梯度，可以对应一个增益补偿曲线。该增益补偿曲线可以叠加在增益控制曲线上，补偿被录目标与麦克风之间的距离对增益的影响，共同完成增益控制。距离梯度例如可以包含：远、较远、中、较近和近。

(4)EQ频响和EQ频响曲线

EQ频响的调节可以补偿扬声器和声场的缺陷，准确还原原始录制的音频信号。

EQ频响可以调节音频信号中各种频率成分音频信号的放大倍数。

对于不同的被录目标的目标类型、不同的录音场景、不同的被录目标与麦克风之间的距离，EQ频响需求也不同。因此EQ频响也与以下一个或多个因素相关：被录目标的目标类型、录音场景、被录目标与麦克风之间的距离。以下分别对影响EQ频响的因素进行介绍。

(a)EQ频响与被录目标类型

对于不同目标类型的音频信号，用户对音频信号中不同的频率成分的增益要求不同。例如，对于语音这一目标类型，可以将语音信号中5kHz成分的增益提高来提升语音信号的清晰度。可以将语音信号中1.8kHz成分和2.5kHz成分的增益降低来柔化和净化语音信号。而对于钢琴曲这一目标类型，钢琴曲的音频信号多集中在中频区，如3kHz或4kHz。将钢琴曲的音频信号中8kHz成分附近增益略作提升可以使高音键听起来更明亮。

在电子设备中对于每种目标类型，可以对应一个EQ频响曲线。该EQ频响曲线的横坐标可以是输入音频信号的频率大小，纵坐标可以是增益大小。该EQ频响曲线可以针对对应的目标类型设置，来使该目标类型的音频信号在经过EQ频响后符合用户听取规律。

(b)EQ频响与录音场景

EQ频响调节可以调整音频信号的音色。对于不同录音场景的音频信号，用户对音频信号中不同的频率成分的增益要求也不同。例如，在K歌场景下，可以通过提升中频成分的增益来突出人声信号。中频成分例如可以包含1-4kHz。而在会议场景下，需要声音尽量厚重，则可以尽可能保留更多的低频成分，即提升低频成分的增益。如果需要声音宏亮，则可以提升60Hz成分及120Hz成分的增益，并提升7kHz附近的高频成分的增益。

在电子设备中对于每种录音场景，可以对应一个EQ频响曲线。该EQ频响曲线的横坐标可以是输入音频信号的频率大小，纵坐标可以是增益大小。该EQ频响曲线可以针对对应的录音场景设置，来使该录音场景的音频信号在经过EQ频响后符合用户听取规律。

(c)EQ频响、被录目标与麦克风之间的距离

由于高频信号随距离衰减速度比低频信号快，与麦克风之间距离相等的情况下，高频信号的增益大于低频信号的增益。

EQ频响也可以对应EQ频响曲线。EQ频响曲线的横坐标可以是音频信号的频率大小，纵坐标可以是增益大小。对于每种目标类型，可以对应一个EQ频响曲线。对于每种录音场景，也可以对应一个EQ频响曲线。对于每个距离梯度，可以对应一个EQ频响补偿曲线。该EQ频响补偿曲线可以叠加在EQ频响曲线上作为最终用于调节音频信号的曲线。

可选的，电子设备中还可以存储以下映射关系：被录目标的目标类型A、录音场景B、被录目标与麦克风之间的距离C映射一条EQ频响曲线。其中，目标类型A为任一个目标类型，录音场景B为任一个录音场景，被录目标与麦克风之间的距离C为任一个距离梯度。

(5)图像识别

图像识别技术的过程可以包括：信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。以下分别进行介绍。

信息的获取是指通过传感器，将光信息转化为电信息。也就是获取研究对象的基本信息并通过某种方法将其转变为机器能够认识的信息。

预处理主要是指图像处理中的去噪、平滑、变换等的操作，从而加强图像的重要特征。

特征提取和选择是指在模式识别中，需要进行特征的抽取和选择。由于需要分类不同的图像，可以通过这些图像所具有的特征来进行区分，而获取这些特征的过程就是特征抽取。在特征抽取中所得到的特征也许对此次识别并不都是有用的，这个时候就要提取有用的特征，这就是特征的选择。

分类器设计是指通过训练而得到一种识别规则，通过此识别规则，电子设备中处理器可以得到一种特征分类，使图像识别技术能够得到高识别率。分类决策是指在特征空间中对被识别对象进行分类，从而更好地识别所研究的对象具体属于哪一类。

图像识别技术可以利用计算机视觉算法实现。计算机视觉算法是帮助计算机理解图像的一种数学模型。计算机视觉算法的核心思想是利用数据驱动的方法从大数据之中学习出统计特性和模式，一般需要大量的训练样本对模型进行训练。具体地，可以使用计算机视觉算法对包括纹理、颜色、形状、空间关系和高层语义等的图像特征进行建模。通过训练样本对初始的模型进行训练，调整初始的模型中的参数来使图像识别的误差收敛，以构建新的模型。训练完成后，电子设备中处理器可以通过新的模型预测图像分类及分类的概率，从而进行图像识别。

计算机视觉算法可以使用基于人工神经网络的深度学习算法来实现。人工神经网络的深度学习算法可以通过多层神经网络层来提取图像特征，并计算图像包含预设图像特征的概率。人工神经网络的深度学习算法例如可以是卷积神经网络(convolutionalneural network，CNN)。深度学习算法可以通过卷积神经网络提取图像特征并计算图像包含预设图像特征的概率。用于进行图像识别的卷积神经网络可以看作是一个分类器，使用卷积神经网络对图像进行分类，对输入卷积神经网络的图像分类，并得到每个分类的概率。该卷积神经网络可以是一定网络架构的初始模型经过训练样本对初始模型中的参数进行调整以使识别误差收敛，从而得到的新的模型。模型中的参数例如可以包括卷积核大小、池化核大小和全连接层的个数等。

本申请实施例中，可以通过信息的获取、预处理、特征抽取和选择、分类器设计和分类决策确定被摄目标的目标类型。另外，本申请实施例的图像识别还可以包括：根据二维图框大小确定被摄目标到摄像头的距离、根据目标所在图像网格线的交叉点确定被摄目标的方位。

(6)拾音组件和摄像组件

本申请实施例中，拾音组件可以包含一个麦克风或多个麦克风组成的麦克风阵列。麦克风阵列即一定数量的麦克风组成，用来对空间声场进行采样并处理的系统。电子设备中处理器可以利用这多个麦克风接收到音频信号的相位之间的差异对声波进行过滤，能最大限度将环境背景声音清除掉，留下来自被录目标的音频信号。

可选的，拾音组件还可以包含与麦克风相连的专用处理芯片，该专用处理芯片可以用于实现以下一项或多项：滤波器、空间增强、增益控制和EQ频响。

摄像组件可以包含摄像头，摄像头用于拾取视角范围内的图像，这些图像在时间上累积可以得到视频信号。其中，摄像组件中摄像头的数量可以是一个或多个。在使用多个摄像头来完成视频信号的拾取的场景下，这多个摄像头拾取的视频信号可以被处理器获取。电子设备中的处理器可以采集摄像头拾取的图像，并将这些图像和视频信号存入缓存或者存储设备中。

可选的，摄像组件还可以包含与摄像头相连的专用处理芯片，该专用处理芯片可以用于实现以下一项或多项：被摄目标识别、目标类型识别、被摄场景识别、目标在图像上的方位识别和目标相对于摄像头的距离识别。

(7)被摄目标的目标类型

被摄目标的目标类型可以是对摄像头拾取图像进行图像识别得到的。图像识别得到图像内容，该图像内容例如可以是人像、鸟、瀑布、钢琴、乐队等。可以根据各个图像内容关联的音频类型，来确定被摄目标的目标类型。该被摄目标的目标类型对应不同类型的音频信号。具体的，请参阅表一，表一是本申请实施例提供的一种图像内容与被摄目标的目标类型的映射关系示例。

表一本申请实施例提供的一种图像内容与被摄目标的目标类型的映射关系示例

如表一所示，电子设备可以预存该映射表，在图像识别得到图像内容为“人像”时，通过表一对应得到被摄目标的目标类型是“语音”类型。另外，表一中，可以多个图像内容对应一个被摄目标的目标类型。这是由于同一个被摄目标的目标类型对应的可能包含多个图像内容，例如，对于“流水声”可以对应图像内容“瀑布”和“河流”。对于“钢琴曲”可以对应图像内容“钢琴”和“琴谱”。对于“音乐”可以对应图像内容“乐队”和“演奏者”。其中，表一可以是根据先验经验预先设置在电子设备中的存储器中，该表一可供电子设备中处理器调用来确定被摄目标的目标类型。上述表一即为前后文中第八映射表的一种示例。

下面介绍本申请实施例的具体实现流程。请参阅图4，图4是本申请实施例提供的一种音频处理方法的流程示意图。该音频处理方法应用于电子设备，该电子设备包含摄像组件和拾音组件。摄像组件用于拾取视频信号并进行图像识别。拾音组件用于拾取音频信号。下面结合图4介绍本申请实施例涉及的音频处理方法。

S101、电子设备中处理器采集摄像组件拾取的图像，进行图像对焦，得到被摄目标。

S102、电子设备中的处理器利用图像识别确定被摄目标的目标类型、相对于麦克风的方位和相对于麦克风的距离。

S103、电子设备中的处理器根据被摄目标相对于麦克风的方位，确定空间增强的方位。电子设备中的处理器根据被摄目标的目标类型确定滤波器。电子设备中的处理器根据被摄目标相对于麦克风的距离和该被摄目标所属的目标类型确定增益控制曲线和EQ频响曲线。

S104、电子设备中的处理器获取拾音组件拾取的原始音频信号。电子设备中的处理器根据空间增加的方位，对拾音组件拾取的音频信号进行空间增强，输出第一音频信号。

S105、电子设备中的处理器根据确定的滤波器对第一音频信号进行滤波，以滤除噪音信号，得到第二音频信号。

S106、电子设备中的处理器根据确定的增益控制曲线对第二音频信号进行增益控制，以得到第三音频信号。

S107、电子设备中的处理器根据确定的增益控制曲线对第三音频信号进行EQ频响，以得到第四音频信号。

S108、电子设备中的处理器将第四音频信号和拾音组件拾取的原始音频信号叠加得到第五音频信号。

该第五音频信号可以是处理完成后用于音频输出的音频信号。

上述的音频处理方法中，利用图像识别得到被摄目标的类型、相对于麦克风的方位和相对于麦克风的距离，可以提高录音场景中场景识别和被摄目标识别的精确度。然后根据被摄目标的类型、相对于麦克风的方位和相对于麦克风的距离来确定音频处理策略，可以过滤掉音频信号中的干扰信号，提升音频信号的处理效果。

关于步骤S101，请参阅图5，图5是本申请实施例提供的一种识别被摄目标的示意图。在音视频拍摄场景中，处理器开始采集摄像头拾取到的视频信号之后，摄像头可以聚焦到被摄目标，并通过二维图框框出的二维像素区域显示出聚焦到的被摄目标。当用户对第二按键进行操作，例如触摸操作，电子设备停止采集摄像头捕捉到的视频，并停止采集麦克风捕捉到的音频，且第一显示控件停止计时。

可选的，如图5所示，被摄目标聚焦得到二维图像框可以是利用电子设备中自动对焦原理实现。可选的，列出一种自动对焦原理：可以利用马达带动摄像头中镜头沿光轴移动来实现对焦。利用马达驱动芯片输出对应的电流，马达会做出相应的位移，在该位移下摄像头拾取图像，通过拾取的图像的清晰度来判断镜头是否达到拍摄图像清晰的位置(例如最清晰的位置)，如果未达到清晰的位置，重新通知马达驱动芯片调整输出电流，并重复执行上述流程直至判断结果是镜头达到拍摄图像清晰的位置。通过上述闭环调节过程完成对焦。

可选的，本申请实施例中，被摄目标的聚焦也可以是响应于用户手动对焦操作实现的。

关于步骤S102，如图5所示，二维图框对应的二维像素区域可以作为被摄目标所对应的图像区域。通过该二维像素区域可以确定被摄目标的目标类型、被摄目标与麦克风之间的距离和被摄目标与摄像头之间的方位。以下分别介绍怎样通过图像识别确定被摄目标的目标类型、被摄目标与麦克风之间的距离、被摄目标与麦克风之间的方位。

(1)图像识别确定被摄目标的目标类型

首先，电子设备中的处理器通过对二维像素区域进行图像识别可以得到图像内容，也可以是对被摄目标的图像进行图像识别得到图像内容。其次，电子设备中的处理器可以利用表一查表得到被摄目标的目标类型。本申请实施例中，表一即为前后文中第八映射表的一种示例。

(2)图像识别确定被摄目标与麦克风之间的距离

图像识别可以确定被摄目标与摄像头之间的距离。由于摄像头和麦克风均设置在电子设备中，被摄目标与摄像头之间的距离可以近似看作是被摄目标与麦克风之间的距离。图像识别确定被摄目标与摄像头之间的距离，可以是距离梯度，例如可以包含：远、较远、中、较近和近。图像识别确定被摄目标与摄像头之间的距离可以是利用二维图框的大小和图像内容确定。对于同一种图像内容，聚焦得到的二维图框越大，表明被摄目标与摄像头之间的距离越近，聚焦得到的二维图框越小，表明被摄目标与摄像头之间的距离越远。利用该规律，针对于每一种图像内容，可以预存聚焦得到的二维图框大小与距离梯度之间的映射关系。请参阅表二，表二是本申请实施例提供的一种图像内容为人像时，二维图框大小与距离梯度之间的映射关系示例。

表二一种图像内容为人像时，二维图框大小与距离梯度之间的映射关系示例

如表二所示，二维图框大小可以用二维框所占用的像素区域的像素数量表示。其中a、b、c、d、e和f分别表示像素数量，且a＜b＜c＜d＜e＜f。二维图框大小在a×a～b×b范围内，映射得到的距离梯度为“远”，二维图库大小依次为b×b～c×c、c×c～d×d、d×d～e×e和e×e～f×f，对应得到的距离梯度依次为“较远”、“中”、“较近”和“近”。

电子设备中的处理器在识别得到图像内容为人像之后，根据该图像内容人像查找得到该人像对应的二维图框大小与距离梯度之间的映射关系，即表二，根据该表二和二维图像框的大小从上述表二中查找出二维图像框对应的距离梯度。本申请实施例中，表二也可以具体实现为二维映射表，该二维映射表包含多个图像内容、多个二维图框尺寸，以及图像内容k和二维图框尺寸l共同对应的距离；其中，图像内容k为所述多个图像内容中任一个图像内容，所述二维图框尺寸l为所述多个二维图框尺寸中任一个二维图框尺寸；所述多个图像内容包含被摄目标的图像内容，所述多个二维图框尺寸包含所述被摄目标聚焦得到的二维图框的尺寸。该二维映射表即为前后文中第九映射表。

可选的，被摄目标与麦克风之间的距离还可以使用多个摄像头测距的原理确定。将多个摄像头测量得到被摄目标与摄像头之间的距离作为被摄目标与麦克风之间的距离。具体的，可以利用被摄目标在多个摄像头中成像的视差(disparity)来确定被摄目标与摄像头之间的距离。被摄目标到摄像头的距离与被摄目标到成像平面的距离成反比。在两个摄像头的场景下即：

Z＝ft/d (1)

其中，Z为被摄目标到摄像头的距离，f为这两个摄像头的焦距，d为被摄目标在两个摄像头对应图像上坐标位置的距离差，t为两个摄像头之间的物理距离。

可以理解的，上述确定被摄目标与麦克风之间的距离的举例仅用于解释本申请实施例，不应构成限定。被摄目标与麦克风之间的距离还可以采用其他方式，例如利用结构光测距。本申请实施例对被摄目标与麦克风之间的距离的测量方式不作限定。

(3)图像识别确定被摄目标与麦克风之间的方位

以摄像头和麦克风分别为坐标原点建立两个三维坐标系。这两个三维坐标系之间的换算关系可以根据摄像头麦克风之间固定的位置关系确定。电子设备中处理器通过图像识别可以得到被摄目标上在摄像头对应的三维坐标系中的坐标。电子设备中处理器可以利用两个坐标系之间的换算关系可以确定被摄目标在麦克风对应的三维坐标系中的坐标。电子设备中处理器可以根据被摄目标在麦克风对应的三维坐标系中的坐标来确定被摄目标与麦克风之间的方位。

其中，由于被摄目标被摄像头捕捉到的形状可以是二维形状，被摄目标上在摄像头对应的三维坐标系中的坐标可以是被摄目标上多个点中每个点在摄像头对应的三维坐标系中的坐标。换算到麦克风对应的三维坐标系中，电子设备中处理器可以得到被摄目标上多个点在克风对应的三维坐标系中的坐标。电子设备中处理器可以根据被摄目标上多个点在麦克风对应的三维坐标系中的坐标，确定被摄目标与麦克风之间的方位。

下面介绍一种坐标系换算确定被摄目标与麦克风之间的方位的示例。请参阅图6，图6是本申请实施例提供的一种坐标系换算确定被摄目标与麦克风之间的方位的示意图。如图6所示，以摄像头所在的位置为坐标原点O，X、Y和Z为空间中三个互相垂直的坐标轴，建立三维坐标系OXYZ。图像识别可以确定被摄目标上点A在该三维坐标系OXYZ内的坐标(i，j，k)。同样的，以麦克风所在的位置为另一坐标原点O1，X1、Y1和Z1为空间中三个互相垂直的坐标轴，建立另一个三维坐标系O1X1Y1Z1。利用点A在三维坐标系OXYZ内的坐标(i，j，k)和两个坐标系之间的位置关系进行坐标换算可以得到点A在三维坐标系O1X1Y1Z1内的坐标。

在一种可能的实施方式中，如图6所示，在电子设备为手机的场景下X轴为平行于水平面且平行于手机显示平面的方向，Y轴为平行于手机显示平面且垂直于Z轴的方向，Z轴为摄像头的光轴方向。X1轴为平行于水平面且平行于手机显示平面的方向，Y1轴为平行于手机显示平面且垂直于Z1轴的方向，Z1轴为垂直于手机显示平面的方向。可以得到，X轴与X1轴平行，Y轴与Y1轴平行，Z轴与Z1轴平行。

如果三维坐标系OXYZ的坐标原点O在三维坐标系O1X1Y1Z1中的坐标为(i0，j0，k0)，设点A在三维坐标系O1X1Y1Z1内的坐标为(i1，j1，k1)，则可以得到点A在三维坐标系O1X1Y1Z1中的坐标为：

其中，i0、j0和k0的取值可以根据电子设备中摄像头麦克风之间固定的位置关系确定。

其中，在图像识别得到点A在三维坐标系OXYZ内的坐标(i，j，k)时，沿被摄目标与摄像头之间的距离的方向上的坐标值k可以根据表二得到的距离梯度估算得到。沿被摄目标与摄像头之间的距离的方向上的坐标值k也可以是利用双摄像头测距得到。

电子设备中的处理器可以利用上述坐标系转换确定被摄目标上多个点在三维坐标系O1X1Y1Z1内的坐标。然后电子设备中的处理器可以根据被摄目标上多个点在三维坐标系O1X1Y1Z1内的坐标计算得到被摄目标与麦克风之间的方位。

可以理解的，上述利用坐标变换来确定被摄目标与麦克风之间的方位的举例仅用于解释本申请实施例，不应构成限定。三维坐标系OXYZ和三维坐标系O1X1Y1Z1中坐标轴还可以是其他方向。另外，不限于直角坐标系，以摄像头和麦克风建立的坐标系还可以是其他类型的坐标系，例如球坐标系。

在一种可能的实施例中，电子设备中处理器可以利用被摄目标在摄像头拾取的图像中的位置确定被摄目标相对于摄像头的方位。然后将该被摄目标相对于摄像头的方位作为被摄目标相对于麦克风的方位。可以理解的，在被摄目标相对于电子设备距离足够远时，摄像头和麦克风之间的距离可以忽略，则无需进行坐标系转换，可以直接将被摄目标相对于摄像头的方位作为被摄目标相对于麦克风的方位。

具体的，请参阅图7，图7是本申请实施例提供的一种被摄目标相对于麦克风的方位确定原理的示意图。如图7所示，电子设备中处理器可以对摄像头拍摄的画面进行网格离散化，并预先存储每个网格线的交叉点上和该交叉点对应的方位。电子设备中处理器可以根据聚焦得到的二维图像区域内的一个或多个交叉点，确定交叉点对应的方位。如图7所示，二维图像区域内的网格交叉点A、B的坐标为(x0，y0)和(x1，y1)。根据预存的网格线的交叉点和方向的映射关系，得到该交叉点A(x0，y0)对应的方向表示为(θ0，ψ0)，以及交叉点B(x1，y1)对应的方向表示为(θ1，ψ1)。根据被摄目标的方向(θ0，ψ0)和(θ1，ψ1)得到被摄目标相对于摄像头的方位。

电子设备中处理器利用被摄目标在摄像头拾取的图像中的位置确定被摄目标相对于摄像头的方位，可具体实施为：获取被摄目标聚焦得到的二维图框中包含的坐标点。根据二维图框中包含的坐标点从第十映射表中获取被摄目标上的点相对于麦克风的方位。

其中，第十映射表中包含多个坐标点和多个坐标点中每个坐标点对应的方位；多个坐标点包含二维图框中包含的坐标点。其中，网格线的交叉点A和B即为被摄目标聚焦得到的二维图框中包含的坐标点。

其中，θ0和ψ0为坐标系OXYZ对应的球坐标系表示中的被摄目标上与A点对应的点的天顶角和方位角。被摄目标上与A点对应的点的径向距离为r0。θ1和ψ1为坐标系OXYZ对应的球坐标系表示中的被摄目标上与B点对应的点的天顶角和方位角。被摄目标上与B点对应的点的径向距离为r1。

根据被摄目标的方向(θ0，ψ0)和(θ1，ψ1)表示，电子设备中处理器可以得到被摄目标上的点A和B在坐标系OXYZ中的坐标为

和

可以理解的，电子设备中处理器可以利用被摄目标在摄像头拾取的多张图像中每张图像的位置来确定被摄目标相对于摄像头的方位。

可选的，电子设备中预存每个网格线的交叉点和该交叉点对应的方位可以是预先测量得到：网格线的交叉点(xi，yi)与其对应的方位(θi，ψi)。其中的交叉点(xi，yi)为任一个交叉点。网格线交叉点的数量可以为k，k为正整数，i为满足1≤i≤k的正整数。

一种测量交叉点C(xi，yi)和该交叉点C(xi，yi)对应的方位过程示例可以是：将被摄目标首先置于摄像头的正前方，即坐标系OXYZ对应的球坐标系表示中被摄目标的天顶角和方位角均为0。保持摄像头位置不动，旋转电子设备直至被摄目标出现在摄像头拍摄图像中交叉点C(xi，yi)的位置。记录电子设备旋转的角度θi和ψi，即为交叉点C(xi，yi)对应的方位。

可选的，在摄像头和麦克风之间的距离不可忽略的场景下，可以通过多个摄像头测距测得被摄目标上的点的径向距离。然后利用公式(2)中的坐标变换得到被摄目标上的点在坐标系O1X1Y1Z1中的坐标，进而得到被摄目标上相对于麦克风的方位。例如前例中的A点对应的被摄目标上的点的径向距离r0和B点对应的被摄目标上的点的径向距离r1，可以通过双摄像头测距得到。被摄目标上的点A和B在坐标系OXYZ中的坐标为

和

利用公式(2)进行坐标转换得到被摄目标上这两个点在三维坐标系O1X1Y1Z1内的坐标。根据被摄目标上这两个点在三维坐标系O1X1Y1Z1内的坐标计算得到被摄目标与麦克风之间的方位。

关于步骤S103，以下分别对空间增强的方位、滤波器和增益控制曲线和EQ频响曲线的具体确定过程进行介绍。

(a)空间增强的方位的确定

电子设备中的处理器可以将步骤S102得到的被摄目标相对于麦克风的方位确定为空间增强的方位。该空间增强的方位用于对原始音频信号进行空间增强。关于空间增强的具体描述可以参考前述概念具体描述，这里不再赘述。

(b)滤波器的确定

电子设备中的处理器可以根据步骤S102得到的被摄目标的目标类型确定滤波器。电子设备中的存储器中可以存储第一映射表，根据所述被摄目标的目标类型从第一映射表中获取滤波器。其中，所述第一映射表中包含多个目标类型，以及多个目标类型中每个目标类型对应的滤波器。这多个目标类型包含所述被摄目标的目标类型。电子设备中的处理器可以根据上述存储器中存储内容和被摄目标的目标类型确定滤波器。关于滤波器的具体描述可以参考前述概念具体描述，这里不再赘述。

可选的，在步骤S102的图像识别过程中，电子设备中处理器也可以利用图像识别得到图像场景作为录音场景。图像识别得到图像场景的过程可以类比步骤S102中图像识别得到被摄目标的目标类型。电子设备中处理器可以根据以下一个或多个来确定滤波器：被摄目标的目标类型和录音场景。

(c)增益控制曲线和EQ频响曲线的确定

电子设备中的处理器可以根据步骤S102得到的被摄目标相对于麦克风的距离和该被摄目标所属的目标类型确定增益控制曲线和EQ频响曲线。

可选的，在步骤S102的图像识别过程中，电子设备中处理器也可以利用图像识别得到图像场景作为录音场景。图像识别得到图像场景的过程可以类比步骤S102中图像识别得到被摄目标的目标类型。电子设备中处理器可以根据以下一个或多个来确定增益控制曲线：被录目标的目标类型、录音场景、被录目标与麦克风之间的距离。关于增益控制曲线的具体描述可以参考前述增益控制的概念具体描述，这里不再赘述。

电子设备中处理器根据被摄目标的目标类型和被摄目标相对于麦克风的距离确定第一增益控制曲线，可具体实施为：根据被摄目标的目标类型和被摄目标相对于麦克风的距离，从第二映射表中获取所述第一增益控制曲线。

其中，该第二映射表中包含多个目标类型、多个距离，以及目标类型i和距离j共同对应的增益控制曲线。目标类型i为这多个目标类型中任一个目标类型，距离j为这多个距离中任一个距离。这多个目标类型包含被摄目标的目标类型，这多个距离包含被摄目标相对于所述麦克风的距离。第一增益控制曲线为从多个增益控制曲线中选取的增益控制曲线。

具体实现中，电子设备中处理器根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定所述第一增益控制曲线，也可具体实施为：根据被摄目标的目标类型从第三映射表中获取第二增益控制曲线。

其中，第三映射表中包含多个目标类型以及多个目标类型中每个目标类型对应的增益控制曲线；多个目标类型包含被摄目标的目标类型；根据被摄目标相对于麦克风的距离从第四映射表中获取第一增益补偿曲线；其中，第四映射表中包含多个距离以及多个距离中每个距离对应的增益补偿曲线；多个距离包含被摄目标相对于麦克风的距离。

电子设备中处理器也可以根据以下一个或多个来确定EQ频响曲线：被录目标的目标类型、录音场景、被录目标与麦克风之间的距离、音频信号的频率。关于EQ频响曲线的具体描述可以参考前述EQ频响的概念具体描述，这里不再赘述。

具体实现中，电子设备中处理器根据被摄目标的目标类型和被摄目标相对于麦克风的距离确定第一EQ频响曲线，可具体实施为：根据被摄目标的目标类型和被摄目标相对于麦克风的距离，从第五映射表中获取第一EQ频响曲线。

其中，第五映射表中包含多个目标类型、多个距离，以及目标类型i和距离j共同对应的EQ频响曲线。其中，目标类型i为多个目标类型中任一个目标类型，距离j为多个距离中任一个距离。多个目标类型包含被摄目标的目标类型，多个距离包含被摄目标相对于麦克风的距离。

第一EQ频响曲线为从多个EQ频响曲线中选取的EQ频响曲线。

具体实现中，电子设备中处理器根据被摄目标的目标类型和被摄目标相对于麦克风的距离确定第一EQ频响曲线，可具体实施为：根据被摄目标的目标类型从第六映射表中获取第二EQ频响曲线。

其中，第六映射表中包含多个目标类型以及多个目标类型中每个目标类型对应的EQ频响曲线。多个目标类型包含被摄目标的目标类型；根据被摄目标相对于麦克风的距离从第七映射表中获取第一EQ频响补偿曲线。其中，第七映射表中包含多个距离以及多个距离中每个距离对应的EQ频响补偿曲线；多个距离包含被摄目标相对于麦克风的距离。

可以理解的，本申请实施例对电子设备中处理器确定空间增强的方位、第一增益控制曲线、滤波器、第一增益控制曲线和第一均衡器频响曲线的先后顺序不作限定。

根据步骤S101-S103可以确定了以下音频处理策略：空间增强的方位、滤波器增益控制曲线和EQ频响曲线。确定得到的音频处理策略可以通过步骤S104-S108，来实现对音频信号进行处理。具体的，依次对从拾音组件中获取的原始音频信号进行空间增强、增强滤波、增益控制和EQ均衡。关于空间增强可以参考前述空间增强的概念具体描述，这里不再赘述。关于增强滤波可以参考前述滤波器的概念具体描述，这里不再赘述。关于增益控制和EQ均衡可以参考前述增益控制和EQ均衡的概念具体描述，这里不再赘述。

另外，步骤S105-S107执行的先后顺序也可以是其他的顺序，本申请实施例对此不作限定。按照图4所示出的空间增强、滤波、增益控制和EQ频响控制的顺序执行，首先执行空间增强和滤波，可以提升输出的音频信号中来自被摄目标的音频信号所占的比例，降低噪声所占的比例，从而提升对音频信号的处理效果。

关于步骤S108，由于空间中被摄目标以外的声源的音频信号可以增强空间声场的立体感，可以将拾音组件拾取的原始音频信号叠加到第四音频信号中，来提高输出音频信号的立体感。

具体实现中，为了提高电子设备播放音频的立体感，电子设备中处理器可以根据拾音组件拾取的原始音频信号确定多个声道中每个声道的原始音频信号。

例如在声道数量为两个(左声道和右声道)、麦克风数量也是两个(左侧麦克风和右侧麦克风)的场景下，为提高音频信号的立体感，可以利用拾音组件形成一对正交指向性输出，分别将两个输出指向电子设备的左前方和右前方。将指向左前方的输出音频信号作为左声道的原始音频信号，将指向右前方的输出音频信号作为右声道的原始音频信号。将左声道的原始音频信号执行步骤S101-S107，得到左声道的第四音频信号。之后将左声道的原始音频信号与左声道的第四音频信号叠加，得到左声道的第五音频信号。将右声道的原始音频信号执行步骤S101-S107，得到右声道的第四音频信号。之后将右声道的原始音频信号与右声道的第四音频信号叠加，得到右声道的第五音频信号。通过左声道播放左声道的第五音频信号，通过右声道播放右声道的第五音频信号。上述左右声道分别单独执行步骤S101-S107的音频处理策略的过程中，两个声道之间的音频信号处理和播放互不影响，从而可以提高输出音频信号的立体感。

可以理解的，上述对多个声道分别单独执行步骤S101-S107的音频处理策略的过程的举例仅用于解释本申请实施例，不应构成限定。电子设备中处理器根据拾音组件拾取的原始音频信号确定多个声道中每个声道的原始音频信号的算法还可以是其他算法，拾音组件中包含的麦克风的数量也可以是更多或更少，电子设备中声道的数量也可以是更多或更少，本申请实施例对此不作限定。

可选的，对焦得到的被摄目标的数量可以是多个。如图5所示，则在执行步骤S102-S108时，可以根据这多个被摄目标的位置确定使用以下一种方式实现：a.将这多个被摄目标作为一个被摄目标执行步骤S102-S108；b.多个被摄目标中每个被摄目标单独执行步骤S102-S108。

下面列出两种根据这多个被摄目标的位置确定使用上述a和b方式的示例。

①根据这多个被摄目标相对于麦克风的角度范围确定方式a或b

具体的，当电子设备中处理器检测到这多个被摄目标相对于麦克风的角度范围大于或等于预设角度阈值时，表明这多个被摄目标相对于麦克风的方位相对分散。电子设备中处理器可以使用方式b将多个被摄目标中每个被摄目标单独执行步骤S102-S108。当电子设备中处理器检测到这多个被摄目标相对于麦克风的角度范围小于或等于预设角度阈值时，表明这多个被摄目标相对于麦克风的方位比较聚集，可以作为一个被摄目标处理。则电子设备中处理器可以使用方式a将多个被摄目标作为一个被摄目标执行步骤S102-S108。

②根据这多个被摄目标的目标类型确定方式a或b

具体的，当电子设备中处理器检测到这多个被摄目标中属于同一目标类型的数量或者比例大于或等于设定阈值时，表明这多个被摄目标可以作为同一目标类型进行处理。电子设备中处理器可以使用方式a将多个被摄目标作为一个被摄目标执行步骤S102-S108。当电子设备中处理器检测到这多个被摄目标中属于同一目标类型的数量或者比例小于或等于设定阈值时，电子设备中处理器可以使用方式b将多个被摄目标中每个被摄目标单独执行步骤S102-S108。

可以理解的，上述两种根据这多个被摄目标的位置确定使用上述a和b方式的示例仅用于解释本申请实施例，不应构成限定。

可选的，在步骤S102之后，电子设备中处理器可以调用显示屏显示音频处理策略供用户选择。在检测到用户操作后，根据用户操作确定是否执行步骤S104-S108。下面介绍显示音频处理策略供用户选择的相关界面。

请参阅图8和图9，图8和图9是本申请实施例提供的一种音频处理策略用户交互界面的示例。以下分别进行介绍。

如图8所示，在电子设备的处理器确定音频处理策略后，电子设备中处理器利用显示屏显示识别得到的与目标内容、录音场景相关的提示操作控件，即第一操作控件。在显示屏中第一操作控件检测到用户操作时，例如触摸操作时，电子设备中处理器执行步骤S103-S108。

如图9所示，在电子设备的处理器确定音频处理策略后，电子设备中处理器利用显示屏显示第一显示界面。该第一显示界面显示音频处理策略调整区域，在该区域内，显示屏可以根据检测到的用户操作显示用户选择的目标类型、被摄目标的目标方位、被摄目标与麦克风之间的距离。具体的，如图9所示，音频处理策略调整区域中“类型”对应的选取列表显示多个被摄目标的目标类型，这多个被摄目标的目标类型可供用户选择。“目标的方向”对应的方向选择条包含多个方向中心的角度值可供用户选择。“距离”对应的选取列表显示多个距离梯度，这多个距离梯度可供用户选择。

其中，目标类型、被摄目标的目标方位、被摄目标与麦克风之间的距离默认被选取的取值可以是电子设备中处理器根据步骤S102识别得到的参数取值。如图9所示，电子设备中处理器可以根据接收到的用户操作调整被摄目标的目标类型、被摄目标的目标方位、被摄目标与麦克风之间的距离的取值。在用户对显示屏中“确认”控件操作时，例如触摸操作时，表明用户调整参数完成，电子设备中处理器根据调整完成的参数取值执行步骤S103-S108。

通过用户对电子设备自动识别得到的音频处理策略进行确认，可以提高音频处理策略识别的准确性和便利性。

可以理解的，图8和图9示出的音频处理策略用户交互界面示例仅用于解释本申请实施例，不应构成限定。音频处理策略用户交互界面还可以有其他的设计，例如图9音频处理策略调整区域中不仅显示目标方向供用户选择，也可以显示角度范围供用户选择。本申请实施例对音频处理策略用户交互界面的具体设计不作限定。

电子设备中的处理器利用图像识别确定被摄目标的目标类型，可选的，电子设备中的处理器还可以利用图像识别确定以下中的一个或多个：被摄目标相对于麦克风的方位和相对于麦克风的距离。则电子设备中的处理器利用被摄目标的目标类型确定滤波器，电子设备中的处理器可选执行：根据被摄目标相对于麦克风的方位，确定空间增强的方位。电子设备中的处理器可选执行：根据被摄目标相对于麦克风的距离和该被摄目标所属的目标类型确定增益控制曲线和EQ频响曲线。

可选的，电子设备中处理器可以是在开始录制音视频时，执行图4所示出的音频处理方法。即在图2示出的场景中响应于第一按键的用户操作之后，电子设备中处理器执行图4所示出的音频处理方法。电子设备中处理器在开始录制视频时执行图4所示出的音频处理方法，可以实时对拾音组件拾取的音频信号进行处理，在边录边播的场景下，可以实时的自动选择音频处理策略，提高音频处理策略选择的便利性，并提高不同被摄目标的目标类型或者不同录音场景下音频信号的处理效果。

可选的，电子设备中处理器可以是在录制音视频结束后，执行图4所示出的音频处理方法。即在图2示出的场景中响应于第二按键的用户操作之后，电子设备中处理器执行图4所示出的音频处理方法。电子设备中处理器在结束录制视频时执行图4所示出的音频处理方法，可以在录制音视频过程中减少处理器的占用，提高音视频录制过程的流畅度，提高音频处理策略选择的便利性，并提高不同被摄目标的目标类型或者不同录音场景下音频信号的处理效果。

可选的，电子设备中处理器还可以是在录制音视频结束，将录制得到音视频信号存储进存储器时，执行图4所示出的音频处理方法。电子设备中处理器在结束录制音视频，将录制得到音视频信号存储进存储器时执行图4所示出的音频处理方法，可以在录制音视频过程中减少处理器的占用，提高音视频录制过程的流畅度。这样，在需要保存录制得到音视频信号时才对音视频信号执行图4所示出的音频处理方法，减少不需要保存录制得到音视频信号时对处理器资源的浪费，从而可以节省处理器资源。

下面介绍本申请实施例的装置。请参阅图10，图10是本申请实施例提供的一种电子设备100的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

电子设备100可以是手机、平板电脑、独立的摄像设备或者包含摄像头和麦克风的其他设备。可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110用于读取存储器1302中存储的程序代码，执行本申请实施例提供的音频处理方法，例如图4所描述的音频处理方法。

具体的，处理器110用于读取存储器1302中存储的程序代码，执行对摄像组件获取的第一图像进行图像识别，得到第一图像中被摄目标的目标类型、被摄目标相对于麦克风的方位和被摄目标相对于麦克风的距离。

处理器110还用于读取存储器1302中存储的程序代码，执行根据被摄目标的目标类型、被摄目标相对于麦克风170C的方位和被摄目标相对于麦克风170C的距离确定音频处理策略；根据音频处理策略对麦克风拾取的音频信号进行处理。具体的，根据音频处理策略对麦克风170C拾取的音频信号进行空间增强、滤波、增益控制和均衡器频响控制。

处理器110还用于读取存储器1302中存储的程序代码，执行将所述麦克风170C拾取的音频信号与第四音频信号叠加得到第五音频信号；第四音频信号为麦克风170C拾取的音频信号经过空间增强、滤波、增益控制和均衡器频响控制之后得到的音频信号。

其中，第五音频信号可以利用扬声器170A进行播放，第五音频信号还可以通过耳机接口170D外接的有线耳机播放。第五音频信号可以是播放视频时同步播放的音频信号。

本申请实施例中，摄像组件可以包含摄像头193。在一些实施例中，摄像组件也可以包含视频编解码器。拾音组件可以包含麦克风170C。在一些实施例中，拾音组件也可以包含音频模块170。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。当N大于2时，电子设备可以使用这N个摄像头测量被摄目标与摄像头之间的距离。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

本申请实施例还提供一种电子设备，该电子设备包括用于实现图4描述的音频处理方法的模块或单元。

本申请实施例还提供一种芯片系统，该芯片系统包括至少一个处理器，存储器和接口电路，该存储器、该接口电路和该至少一个处理器连接，该至少一个存储器中存储有程序指令；该程序指令被该处理器执行时，可以实现图4描述的音频处理方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，当该程序指令由处理器运行时，实现图4描述的音频处理方法。

在上述实施例中，全部或部分功能可以通过软件、硬件、或者软件加硬件的组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solidstate disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

对摄像组件获取的第一图像进行图像识别，得到所述第一图像中被摄目标的目标类型、所述被摄目标相对于麦克风的方位和所述被摄目标相对于所述麦克风的距离；

根据所述被摄目标的目标类型、所述被摄目标相对于麦克风的方位和所述被摄目标相对于所述麦克风的距离确定音频处理策略；

根据所述音频处理策略对所述麦克风拾取的音频信号进行处理。

2.根据权利要求1所述的方法，其特征在于，所述根据所述被摄目标的目标类型、所述被摄目标相对于麦克风的方位和所述被摄目标相对于所述麦克风的距离确定音频处理策略，包括：

根据所述被摄目标相对于麦克风的方位确定空间增强的方位；

根据所述被摄目标的目标类型确定滤波器；

根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离确定第一增益控制曲线和第一均衡器频响曲线；

所述音频处理策略包括所述空间增强的方位、所述滤波器、所述第一增益控制曲线和所述第一均衡器频响曲线。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行处理，包括：根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和均衡器频响控制。

4.根据权利要求3所述的音频处理方法，其特征在于，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和均衡器频响控制，包括：

对原始音频信号在所述空间增强的方位上进行空间增强，得到第一音频信号；所述原始音频信号是所述麦克风拾取的音频信号；

使用所述滤波器对所述第一音频信号进行滤波，得到第二音频信号；

使用所述第一增益控制曲线对所述第二音频信号进行增益控制，得到第三音频信号；

使用所述第一均衡器频响曲线对所述第三音频信号进行均衡器频响控制，得到第四音频信号。

5.根据权利要求4所述的音频处理方法，其特征在于，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和均衡器频响控制之后，所述方法还包括：

将所述麦克风拾取的音频信号与所述第四音频信号叠加得到第五音频信号。

6.根据权利要求1至5任一项所述的音频处理方法，其特征在于，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行处理，包括：

根据所述麦克风拾取的音频信号确定多个声道中每个声道的原始音频信号；

根据所述音频处理策略对所述每个声道的原始音频信号进行处理。

7.根据权利要求1至6任一项所述的音频处理方法，其特征在于，所述根据所述音频处理策略对所述麦克风拾取的音频信号进行处理之前，所述方法还包括：

显示所述音频处理策略；

所述根据所述音频处理策略对所述麦克风拾取的音频信号进行处理，包括：

响应于用户对所述音频处理策略的操作，根据所述音频处理策略对所述麦克风拾取的音频信号进行处理。

8.一种音频处理方法，其特征在于，所述方法包括：

对摄像组件获取的第一图像进行图像识别，得到所述第一图像中被摄目标的目标类型；

根据所述被摄目标的目标类型确定滤波器；

使用所述滤波器对麦克风拾取的音频信号进行滤波。

9.根据权利要求8所述的音频处理方法，其特征在于，所述使用所述滤波器对麦克风拾取的音频信号进行滤波之前，所述方法还包括：根据所述图像识别得到所述被摄目标相对于所述麦克风的方位；

对原始音频信号在所述被摄目标相对于麦克风的方位上进行空间增强，得到第一音频信号；所述原始音频信号是所述麦克风拾取到的音频信号；

所述使用所述滤波器对麦克风拾取的音频信号进行滤波，包括：

使用所述滤波器对所述第一音频信号进行滤波，得到第二音频信号。

10.根据权利要求8或9所述的音频处理方法，其特征在于，所述方法还包括：

根据所述图像识别，得到所述被摄目标相对于所述麦克风的距离；

根据所述被摄目标的目标类型和所述被摄目标相对于所述麦克风的距离，确定所述第一增益控制曲线和第一均衡器频响曲线；

所述使用所述滤波器对麦克风拾取的音频信号进行滤波之后，所述方法还包括：

使用所述第一增益控制曲线对第二音频信号进行增益控制，得到第三音频信号；所述第二音频信号为所述滤波器对所述麦克风拾取到的音频信号进行滤波得到的音频信号；

11.根据权利要求10所述的音频处理方法，其特征在于，所述使用所述第一均衡器频响曲线对所述第三音频信号进行均衡器频响控制，得到第四音频信号之后，所述方法还包括：

将所述原始音频信号与第四音频信号叠加得到第五音频信号；所述原始音频信号是所述麦克风拾取的音频信号。

12.根据权利要求8至11任一项所述的音频处理方法，其特征在于，所述使用所述滤波器对麦克风拾取的音频信号进行滤波，包括：

对所述每个声道的原始音频信号进行处理，所述处理包含使用所述滤波器进行滤波。

13.根据权利要求8至12任一项所述的音频处理方法，其特征在于，所述使用所述滤波器对麦克风拾取的音频信号进行滤波之前，所述方法还包括：

显示所述音频处理策略；

响应于用户对所述音频处理策略的操作，使用所述滤波器对麦克风拾取的音频信号进行滤波。

14.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储程序指令，所述处理器调用所述程序指令，用于：

15.根据权利要求14所述的电子设备，其特征在于，所述处理器调用所述程序指令，用于：

根据所述被摄目标的目标类型确定滤波器；

16.根据权利要求14或15所述的电子设备，其特征在于，所述处理器调用所述程序指令，用于：根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和均衡器频响控制。

17.根据权利要求16所述的电子设备，其特征在于，所述处理器调用所述程序指令，用于：

18.根据权利要求16或17所述的电子设备，其特征在于，所述处理器执行根据所述音频处理策略对所述麦克风拾取的音频信号进行空间增强、滤波、增益控制和均衡器频响控制之后，所述处理器调用所述程序指令，用于：

将所述麦克风拾取的音频信号与第四音频信号叠加得到第五音频信号；所述第四音频信号为所述麦克风拾取的音频信号经过空间增强、滤波、增益控制和均衡器频响控制之后得到的音频信号。

19.根据权利要求14至18任一项所述的电子设备，其特征在于，所述处理器调用所述程序指令，用于：

20.根据权利要求14至19任一项所述的电子设备，其特征在于，所述电子设备还包括显示屏，所述处理器执行根据所述音频处理策略对所述麦克风拾取的音频信号进行处理之前，所述显示屏，用于显示所述音频处理策略；

所述处理器调用所述程序指令，用于：

21.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储程序指令，所述处理器调用所述程序指令，用于：

根据所述被摄目标的目标类型确定滤波器；

使用所述滤波器对麦克风拾取的音频信号进行滤波。

22.根据权利要求21所述的电子设备，其特征在于，所述处理器执行所述使用所述滤波器对麦克风拾取的音频信号进行滤波之前，所述处理器调用所述程序指令，用于：

根据所述图像识别得到所述被摄目标相对于所述麦克风的方位；

所述处理器还用于调用所述程序指令来执行如下操作：

23.根据权利要求21或22所述的电子设备，其特征在于，所述处理器调用所述程序指令，用于：

所述处理器执行所述使用所述滤波器对麦克风拾取的音频信号进行滤波之后，所述处理器还用于调用所述程序指令来执行如下操作：

24.根据权利要求23所述的电子设备，其特征在于，所述处理器执行所述使用所述第一均衡器频响曲线对所述第三音频信号进行均衡器频响控制，得到第四音频信号之后，所述处理器调用所述程序指令，用于：

25.根据权利要求21至24任一项所述的电子设备，其特征在于，所述处理器调用所述程序指令，用于：

26.根据权利要求21至24任一项所述的电子设备，其特征在于，所述电子设备还包括显示屏：

所述显示屏，用于显示所述音频处理策略；

所述处理器调用所述程序指令，用于：