CN114338965A

CN114338965A - 音频处理的方法及电子设备

Info

Publication number: CN114338965A
Application number: CN202011063396.6A
Authority: CN
Inventors: 陈代挺
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-12
Anticipated expiration: 2040-09-30
Also published as: CN114338965B; US20220272200A1; WO2022068613A1; EP4044578A1; CN116887015A; US11870941B2; EP4044578A4

Abstract

本申请实施例提供一种音频处理的方法及电子设备，属于音频处理技术领域。该方法应用于包括摄像头的电子设备中，该电子设备在录像模式下，录制多路音频和与音频对应视频画面，在录像播放时，播放部分视频画面和多路音频合并后的音频，其中，当视频画面中的说话人开始说话时，播放的音频切换为说话人所在视频画面对应的音频。本申请实施例通过基于拍摄的视频图像检测说话人开始说话，然后对合并后的音频中与说话人所在视角对应音频的权重进行调整，在呈现完整音频的基础上，优化音频之间的切换效果，解决了不支持播放多路音频的电子设备在播放视频时，为获取音频内容需要进行切换，导致的声音突变感。

Description

音频处理的方法及电子设备

技术领域

本申请涉及音频处理领域，尤其涉及一种音频处理的方法及电子设备。

背景技术

随着在社交平台分享视频日益普遍，越来越多的用户会采用电子设备拍摄视频进行分享。在视频拍摄时，用户可以启动电子设备的多麦克风功能，录制不同角度或对象的音频，例如说话人的声音或环境中的声音等。以视频录像为例，越来越多的电子设备已经开始支持双景录像(包括前后双景录像等)功能。在双景录像过程中，对应的录音方式一般有两种方式：一是传统正常录音中的单路录音方式；二是采用双路录音，其中，双路录音中的一路音频可以为电子设备通过本机麦克风正常录音，另一路音频可以为基于蓝牙耳机的麦克风功能或者3mic的音频变焦(audio zoom)等无线麦克风录音。对于单路录音来说，只能获取一路音频，无法使用户获取不同视频画面对应的音频，导致音频内容不完整；对于双路录音，虽然在双景录像时能够录制各视频画面对应的多路音频，但是在视频分享时，由于被分享的设备可能不支持双音轨播放，只能选择其中一路录音分享，或者即使能够进行双音轨播放，由于各路音轨的声音会互相干扰，使得用户无法获得良好的收听体验。

发明内容

本申请提供了一种音频处理的方法及电子设备，通过基于拍摄的视频图像检测到说话人开始说话这一事件，对多路音频合并后的音频中与视频图像对应音频的权重进行调整，解决了电子设备在播放音视频文件时，为获取音频内容需要进行音频切换，导致的声音突变感。

第一方面，提供了一种音频处理的方法，所述电子设备包括第一摄像头、第二摄像头，其中，所述第一摄像头拍摄第一视角，所述第二摄像头拍摄第二视角，所述方法包括：

响应于所述用户输入的录像操作时，进入录像模式；在所述录像模式下，所述第一摄像头对所述第一视角录制第一视频画面；录制多个声音通道的音频，所述多个声音通道的音频包括所述第一视角对应的第一音频和所述第二视角对应的第二音频；在第一时刻，第一说话人说话，所述第一说话人位于所述第二视角内；

生成目标录像文件，所述目标录像文件包括第三音频和第一视频画面，其中，所述第三音频包括至少部分所述第一音频和至少部分第二音频；以及

响应于用户输入对所述目标录像文件的播放操作，播放所述目标录像文件；其中，

当播放到所述第一时刻对应的画面时，所述第二音频的音频特征发生变化。

在一种实现方式中，第一摄像头为后置摄像头，第二摄像头为前置摄像头。则在录像过程中，电子设备通过后置摄像头录制后置视角的视频画面；而第一说话人位于前置视角范围内，此时第一说话人例如可以是手持电子设备的用户等。

或者，在一种实现方式中，第一摄像头为前置摄像头，第二摄像头为后置摄像头。则在录像过程中，电子设备可以通过前置摄像头录制前置视角的视频画面；而第一说话人位于后置视角范围内，此时第一说话人例如可以是距离电子设备较远的被拍摄对象等。

应理解，本申请实施例中的说话人可以是在录像过程中说话，并被录制到说话声音的人，如：手持电子设备的用户；或者出现在视频画面中的被拍摄对象；或者未出现在视频画面中，但被录制到说话声音的人。

在一种实现方式中，多个声音通道的音频(或称多路音频)可以为不同视角对应的音频，例如，多路音频分别与多个拍摄视角对应。

在一种实现方式中，在录像过程中，多路音频可以分别由多个麦克风同时采集。例如，在双景录像过程中，可以通过电子设备的本机麦克风和无线麦克风分别采集不同音频，该双路音频可以分别对应两个拍摄视角。其中，本机麦克风可以为安装于电子设备内部的麦克风，无线麦克风可以为与电子设备建立无线连接的麦克风。

在一种实现方式中，目标录像文件可以为电子设备对录像模式下获取的视频或音频处理后的录像文件，如MP4格式的文件。其中，目标录像文件中的第三音频为对多个声音通道的音频合并后的音频，包括至少部分第一音频和至少部分第二音频。

在一种实现方式中，对多个声音通道的音频进行音频合并时，各通道音频可以设置不同的权重，换言之，在第三音频中，各通道音频可以占据不同比例的增益。示例性的，当第二视角内的第一说话人未说话时，第二音频的权重可以设置的较低，如为0.2或者为0。

在一种实现方式中，当第二音频的权重为0时，第三音频按照多个声音通道中的其他路音频的编码方式进行编码。例如，在双路音频处理的场景下，当第一音频的权重为0时，第三音音频按照第二音频的编码方式进行编码。

在一种实现方式中，当电子设备接收到输入的多个声音通道的音频后，还可以分别对各通道音频进行单独编码。

应理解，为避免各路音频合并后溢出，导致用户收听体验下降，在对第三音频调整后的各路音频应满足权重之和为1。

根据本申请实施例提供的音频处理的方法，通过基于拍摄的视频图像检测到说话人开始说话这一事件，对第三音频中与视频图像对应音频的音频特征进行调整，可以在呈现完整音频的基础上，优化音频之间的切换效果，实现音频之间的自然光滑切换，并有针对性地凸显多路音频中的重点内容，提升用户的收听体验。

结合第一方面，在第一方面的某些实现方式中，所述音频特征包括音量，播放所述目标录像文件，具体包括：当播放到所述第一时刻对应的视频画面时，所述第二音频的音量增大。

在一种实现方式中，在音频处理时，当检测到说话人开始说话时，以说话人开始说话的时刻为基准，由该时刻回退预设时间段，提前i帧音频帧调整第三音频中第二音频的权重，直至到达目标权重。示例性的，调整后的第二音频的目标权重大于其他路音频的权重，使得第三音频更多呈现第二音频的内容。

根据根据本申请实施例提供的音频处理的方法，通过在说话人说话时，提高第二音频的音量，能够使第三音频中的播放音频切换为说话人所在视角对应的音频，使用户清晰的听到说话人的声音。

结合第一方面，在第一方面的某些实现方式中，当播放到所述第一时刻对应的视频画面时，所述第二音频的音量逐渐增大。

在一种实现方式中，播放目标录像文件时，当第一说话人开始说话时，当前播放的第三音频中，第二音频的音量会逐渐增大，使得播放的音频逐渐切换至第二音频。

具体地，在音频处理时，当检测到第一说话人开始说话时，以说话人开始说话的时刻为基准，由该时刻回退预设时间段，提前i帧音频帧，动态增大第二音频的权重。

根据本申请实施例提供的音频处理的方法，通过逐渐增大第二音频的音量，可以在录像播放时，第二音频的音量由弱渐强，实现由其他音频自然切换至第二音频的效果，避免播放录像时的声音突变感。

结合第一方面，在第一方面的某些实现方式中，在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，所述电子设备显示拍摄界面，所述拍摄界面包括所述第一视频画面和第二视频画面；

所述目标录像文件还包括所述第二视频画面；

所述电子设备播放所述目标录像文件时，所述电子设备显示所述第一视频画面和所述第二视频画面。

应理解，在播放过程中，电子设备例如可以同时播放前置视角画面和后置视角画面，或者，同时播放双前置视角的视频画面或同时播放双后置视角的视频画面。

在该场景下，电子设备通过显示多个视频画面，使得用户能够观看不同视角的视频画面，并且当其中一个视角中的说话人开始说话时，播放的音频开始切换到该视角对应的音频，实现与视频画面内容匹配的音频切换效果。

结合第一方面，在第一方面的某些实现方式中，所述第二摄像头对所述第二视角录制第二视频画面，所述电子设备显示拍摄界面，所述拍摄界面不包括所述第二视频画面；

所述电子设备播放所述目标录像文件时，所述电子设备不显示所述第二视频画面。

应理解，电子设备可以通过多个摄像头采集不同视角的视频画面，然而，在录像过程中，电子设备可以仅显示其中部分视频画面，其中，未显示的视频画面可以用于电子设备进行图像识别，判断该未显示视频画面对应视角中的说话人是否说话。

比如，当第一摄像头为后置摄像头，第二摄像头为前置摄像头时，在录像过程中，电子设备分别通过后置摄像头和前置摄像头采集前置视角对应的视频画面和后置视角对应的视频画面，然而在电子设备的拍摄预览界面可以仅显示后置视角对应的视频画面；和/或，在播放录像时，可以仅播放后置视角对应的视频画面。

此时，电子设备可以在后台运行前置摄像头，采集前置视角对应的视频画面，比如：电子设备不将前置视频画面的数据传输显示器，因而在录像过程中，拍摄预览界面不显示前置视频画面；并且，不将前置视频画面的数据写入目标录像文件，因而，在录像播放过程中不播放该前置视频画面。

电子设备利用前置视频画面，判断其中包括的说话人是否说话，当说话人开始说话的时刻，则第三音频中第二音频的音量提高，播放的音频切换为前置视角对应的音频。

根据本申请实施例提供的音频处理的方法，当录像播放时，仅播放部分视角的视频画面时，未播放视角范围内的说话人开始说话时，播放的音频仍然能够切换至该说话人所在视角对应的音频，能够满足用户在不同视频画面观看需求下，保证音频切换与音频内容匹配。

结合第一方面，在第一方面的某些实现方式中，在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，在所述第一时刻，所述第二视频画面中的所述第一说话人张口。

应理解，当第一说话人张口时，可以表示该第一说话人开始说话，因此，可以将第一说话人张口的时刻，作为第一说话人开始说话的时刻。通过本申请实施例，能够根据说话人图像判断说话人是否开始说话，进而改变该说话人所在视角对应的音频特征。

结合第一方面，在第一方面的某些实现方式中，在所述录像模式下，在第二时刻，第二说话人说话，所述第二说话人位于所述第一视角内；

所述电子设备播放所述目标录像文件时，当播放到所述第二时刻对应的画面时，所述第三音频中所述第一音频的音频特征发生变化。

在一种实现方式中，第一视角为后置视角，第二说话人可以为处于后置视角内的被拍摄对象。

其中，在播放目标录像文件时，当第二说话人开始说话时，播放的第三音频的音频切换为后置视角对应的音频，例如，后置视角对应音频的音量增大，凸显第二说话人的说话声音。

根据本申请实施例提供的音频处理的方法，在视频播放时，不同的开始说话时，则播放的音频就会切换为当前说话人所在视角对应的音频，使得用户能够及时完整地获取当前说话人的说话内容，无需用户手动切换播放音轨，提升用户的收听体验。

结合第一方面，在第一方面的某些实现方式中，当播放到所述第二时刻对应的画面时，所述第三音频中所述第一音频的音量逐渐增大。

示例性的，当检测到第二说话人开始说话时，第一音频的音量可以随时间动态增大，使得播放录像时，第一音频的音量可以由弱渐强，实现自然切换至第一音频，从而使用户清晰地听到第二说话人的声音。

根据本申请实施例提供的音频处理的方法，通过逐渐增大第一音频的音量，能实现第三音频中由其他音频自然切换至第一音频的效果，避免播放录像时的声音突变感。

结合第一方面，在第一方面的某些实现方式中，所述电子设备包括第一麦克风和第二麦克风；

在所述录像模式下，所述第一麦克风录制所述第一音频，所述第二麦克风录制所述第二音频；或，

在所述录像模式下，所述第一麦克风录制所述第二音频，所述第二麦克风录制所述第一音频。

示例性的，第一麦克风和第二麦克风可以为电子设备内部安装的麦克风装置，为电子设备的本机麦克风。

换句话说，电子设备可以通过多个本机麦克风录制不同视角的音频。其中，多个本机麦克风可以安装于电子设备的不同位置，能够录制不同视角范围内的音频。

结合第一方面，在第一方面的某些实现方式中，所述电子设备包括第一麦克风，第二麦克风与所述电子设备无线连接；

示例性的，第一麦克风可以为电子设备内部安装的麦克风装置，为电子设备的本机麦克风；第二麦克风可以为无线麦克风，例如，蓝牙耳机、蓝牙音箱、其他用户的手机等多种具有录音功能的设备。

在一种实现方式下，电子设备可以通过本机麦克风录制前置视角对应的音频，后置视角对应的音频则由无线麦克风录制。其中，无线麦克风例如可以由后置视角范围内的被拍摄对象佩戴，或者无线麦克风放置于便于录制后置视角音频的位置。

根据本申请实施例提供的音频处理的方法，电子设备能够与无线麦克风无线连接，使得电子设备能够通过由无线麦克风录制不同位置的音频，尤其是与电子设备距离较远位置的音频，从而增加了音频录制的灵活性，提高了不同视角音频录制的质量。

结合第一方面，在第一方面的某些实现方式中，第一麦克风和第二麦克风均与所述电子设备无线连接；

示例性的，第一麦克风和第二麦克风均为无线麦克风，且与电子设备无线连接。

应理解，无线麦克风可以灵活布置于不同的位置，因而可以根据拍摄视角将无线麦克风分别布置在便于录制不同视角对应音频的位置，从而提高音频质量以及音频录制的灵活性。

比如：当进行前后置双路录像时，第一麦克风可以由前置视角中的说话人佩戴，第二麦克风可以由后置视角中的说话人佩戴，分别录制不同说话人的音频，此时，即使说话人与电子设备之间的距离发生变化，也不会影响音频的录制效果。

结合第一方面，在第一方面的某些实现方式中，在所述录像模式下，缓存所述第一音频的音频帧、第二音频的音频帧和第一视频画面的视频帧；

检测所述第一说话人的动作；

在检测到所述第一说话人开始说话时，在当前音频帧的前i帧音频帧开始，调整所述第三音频中所述第一音频的音频特征，并调整所述第三音频中所述第二音频的音频特征，i大于等于1。

应理解，说话人从实际开始说话到电子设备检测到该事件，期间需要一定的时间，导致检测到开说话时对应的音频帧可能会晚于说话人实际开始说话的时刻，因此，为了呈现完整的音频内容，本申请实施例对第三音频的各路音频的音频特征进行调整时，可以由当前帧之前的某一帧开始执行。

可选地，第一音频帧可以为：在检测到第一说话人张口的时刻，缓存至缓冲区的音频帧。

其中，基于第一音频帧可以确定调整各路音频的音频特征的起始时刻，具体包括：可以由当前缓存的第一音频帧为基准，回退预设时间长度，开始对多路音频进行合并。其中，预设时间长度例如可以是100ms。

因此，根据本申请实施例提供的音频处理的方法，可以避免电子设备处理时延，导致第三音频不能完整包括目标音频内容的问题。

结合第一方面，在第一方面的某些实现方式中，所述第一视角和第二视角是前置视角、广角视角、变焦视角中的任意两个视角。

第二方面，提供了一种音频处理的方法，应用于电子设备，所述电子设备包括第一摄像头、第二摄像头，其中，所述第一摄像头拍摄第一视角，所述第二摄像头拍摄第二视角，所述方法包括：

响应于所述用户输入的录像操作时，进入录像模式；在所述录像模式下，所述第一摄像头对所述第一视角录制第一视频画面；录制多个声音通道的音频，所述多个声音通道的音频包括所述第一视角对应的第一音频和所述第二视角对应的第二音频；在第一时刻，第一说话人说话，所述第一说话人位于所述第一视角内；

当播放到所述第一时刻对应的画面时，所述第一音频的音频特征发生变化。

在一种实现方式中，第一摄像头为后置摄像头，第一视角为后置视角，第一视频画面为后置视角的画面，且第一音频为后置视角范围内的声音，其中，第一音频可以包括第一说话人的说话声音，第一说话人为位于后置视角范围内的被拍摄对象。第二视角为前置视角，第二音频为前置视角范围内的声音。

或者，第一摄像头也可以是电子设备的前置摄像头，第一视角为前置视角，第一视频画面为前置视角的画面，且第一音频为前置视角范围内的声音。第二视角为后置视角，第二音频为后置视角范围内的声音。

示例性的，第三音频为对多个声音通道的音频合并后的音频，包括至少部分第一音频和至少部分第二音频。

根据本申请实施例提供的音频处理的方法，通过基于拍摄的视频图像检测到说话人开始说话这一事件，对第三音频中与视频图像对应音频的权重进行动态调整，可以在呈现完整音频的基础上，优化音频之间的切换效果，实现音频之间的自然光滑切换，并有针对性地凸显多路音频中的重点内容，提升用户的收听体验。

结合第二方面，在第二方面的某些实现方式中，所述音频特征包括音量，播放所述目标录像文件，具体包括：

当播放到所述第一时刻对应的视频画面时，所述第一音频的音量增大。

根据根据本申请实施例提供的音频处理的方法，通过在说话人说话时，提高第一音频的音量，能够使第三音频中的播放音频切换为说话人所在视角对应的音频，使用户清晰的听到说话人的声音。

结合第二方面，在第二方面的某些实现方式中，当播放到所述第一时刻对应的视频画面时，所述第一音频的音量逐渐增大。

具体地，当检测到第一说话人开始说话时，第一音频的权重可以随时间动态增大，使得播放录像时，第一音频可以由弱渐强，实现自然切换。

第三方面，提供了一种电子设备，包括：多个摄像头，用于采集视频画面；

屏幕，用于显示界面；

音频播放部件，用于播放音频；

一个或多个处理器；

存储器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：

结合第三方面，在第三方面的某些实现方式中，所述音频特征包括音量，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：当播放到所述第一时刻对应的视频画面时，所述第二音频的音量增大。

结合第三方面，在第三方面的某些实现方式中，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：当播放到所述第一时刻对应的视频画面时，所述第二音频的音量逐渐增大。

结合第三方面，在第三方面的某些实现方式中，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，所述电子设备显示拍摄界面，所述拍摄界面包括所述第一视频画面和第二视频画面；

所述目标录像文件还包括所述第二视频画面；

结合第三方面，在第三方面的某些实现方式中，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，所述电子设备显示拍摄界面，所述拍摄界面不包括所述第二视频画面；

结合第三方面，在第三方面的某些实现方式中，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，在所述第一时刻，所述第二视频画面中的所述第一说话人张口。

结合第三方面，在第三方面的某些实现方式中，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：当播放到所述第二时刻对应的画面时，所述第三音频中所述第一音频的音量逐渐增大。

结合第三方面，在第三方面的某些实现方式中，所述电子设备包括第一麦克风和第二麦克风；当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：在所述录像模式下，所述第一麦克风录制所述第一音频，所述第二麦克风录制所述第二音频；或，

结合第三方面，在第三方面的某些实现方式中，所述电子设备包括第一麦克风，第二麦克风与所述电子设备无线连接；当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：在所述录像模式下，所述第一麦克风录制所述第一音频，所述第二麦克风录制所述第二音频；或，

结合第三方面，在第三方面的某些实现方式中，第一麦克风和第二麦克风均与所述电子设备无线连接；当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：在所述录像模式下，所述第一麦克风录制所述第一音频，所述第二麦克风录制所述第二音频；或，

结合第三方面，在第三方面的某些实现方式中，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：在所述录像模式下，缓存所述第一音频的音频帧、第二音频的音频帧和第一视频画面的视频帧；

检测所述第一说话人的动作；

第四方面，提供了一种电子设备，包括：多个摄像头，用于采集视频画面；屏幕，用于显示界面；音频播放部件，用于播放音频；一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：

结合第四方面，在第四方面的某些实现方式中，所述音频特征包括音量，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：当播放到所述第一时刻对应的视频画面时，所述第一音频的音量增大。

结合第四方面，在第四方面的某些实现方式中，当所述指令被所述电子设备执行时，使得所述电子设备执行如下步骤：当播放到所述第一时刻对应的视频画面时，所述第一音频的音量逐渐增大。

第五方面，提供了一种音频处理的系统，包括电子设备和至少一个无线麦克风，所述电子设备与所述无线麦克风无线连接，其中，所述电子设备用于执行如第一方面或第二方面中任一实现方式所述的音频处理的方法，无线麦克风用于录制音频，并将录制的音频发送至所述电子设备。

第六方面，提供了一种装置，该装置包含在电子设备中，该装置具有实现上述方面及上述方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如，显示模块或单元、检测模块或单元、处理模块或单元等。

第七方面，提供了一种计算机可读存储介质，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如第一方面或第二方面中任一实现方式所述的音频处理的方法。

第八方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面或第二方面中任一实现方式所述的音频处理的方法。

第九方面，提供了一种电子设备，包括屏幕、计算机存储器、摄像头，用于实现如第一方面或第二方面中任一实现方式所述的音频处理的方法。

附图说明

图1是本申请实施例提供的电子设备的结构示意图。

图2是本申请实施例的电子设备的软件结构示意图。

图3A～图3D是本申请实施例提供的用户界面示意图。

图4A～图4C是本申请实施例提供的一些音频处理方法可能的应用场景的示意图。

图5A和图5B是本申请实施例提供的另一些音频处理方法可能的应用场景的示意图。

图6是本申请实施例提供的一种音频处理方法的可能的应用场景的示意图。

图7是本申请实施例提供的一种音频处理的方法的流程示意图。

图8是本申请实施例提供的一种音频权重变化的示意图。

图9是本申请实施例提供的另一种音频处理的方法的流程示意图。

图10是本申请实施例提供的一种多路音频合并的示意图。

图11是本申请实施例提供的又一种音频处理的方法的流程示意图。

图12是本申请实施例提供的一种多路音频合并的示意图。

图13是本申请实施例提供的另一种多路音频合并的示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个，“多路”是指两路或多于两路。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性护着隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

随着电子设备录像功能的发展，越来越多的用户习惯用录像的方式记录生活或分享乐趣。根据获取录制视频画面的线路数量，可以将录像模式分为单路录像模式和多路录像模式(或称多景录像模式)。

在单路录像模式下，电子设备在录像过程中可以录制单路视频画面，即录制一条线路的视频画面。根据拍摄视角的不同，可以将单路录像模式具体分为以下两种情形：(1)拍摄视角为前置拍摄视角的录像模式(下文简称前置单路录像模式)；(2)拍摄视角为后置拍摄视角的录像模式(下文简称后置单路录像模式)。

在多路录像模式下，电子设备在录像过程中可以录制多路视频画面，即录制多条线路的视频画面。其中，不同线路的视频画面可以对应不同的拍摄视角。

其中，拍摄视角可以根据待拍摄对象为前置对象还是后置对象，和/或变焦倍数的大小来划分。例如，在本申请的实施例中，拍摄视角可以包括前置视角和后置视角；而根据变焦倍数的大小，后置视角又可以包括广角视角(或称后置广角视角)和变焦视角(或称后置变焦视角)。其中，广角视角可以为变焦倍数小于或者等于预设值K的场景对应的拍摄视角。例如，该预设值K可以为2，1.5或1等。变焦视角可以为变焦倍数大于预设值K的场景对应的拍摄视角。前置视角为自拍等前置拍摄场景对应的拍摄视角。

在一种可能的实现方式中，多路录像模式下，各路视频画面对应的拍摄视角在本次录像过程中是固定不变的。该种情况下的多路录像也可以称为多视角录像。根据拍摄视角的不同，该情形下的多路录像模式还可以具体分为以下几种情形：(1)拍摄视角包括前置拍摄视角和后置拍摄视角的录像模式(下文简称为前后多路录像模式)；(2)拍摄视角包括多个前置拍摄视角，而不包括后置拍摄视角的录像模式(下文简称前置多路录像模式)；(3)拍摄视角包括多个后置拍摄视角，而不包括前置拍摄视角的录像模式(下文简称后置多路录像模式)。

示例性的，以后置拍摄视角为广角视角和/或变焦视角为例，对拍摄模式和拍摄视角的对应关系进行说明。如表1所示，为拍摄模式和对应的拍摄视角。该拍摄模式对应的拍摄视角可以是广角视角、变焦视角或前置视角中任意一种或多种拍摄视角的组合。其中，每种拍摄模式可以包括一条或多条线路，每条线路可以对应一种拍摄视角。拍摄模式1-4为多路录像模式，拍摄模式5-6为单路录像模式。采用多路录像模式下的拍摄模式录制的视频画面，可以包括广角视角下的视频画面、变焦视角下的视频画面或前置视角下的视频画面中任意多路视频画面的组合。

表1

在另一种可能的实现方式中，多路录像模式下，录像过程中的拍摄视角在本次录像过程中是可以发生变化的。示例性的，当检测到某一拍摄视角内的说话人开始说话，而其他拍摄视角的说话人未说话时，则可以仅对该视角进行拍摄，获取对应的视频画面；如果检测到其他视角的说话人开始说话，则可以切换到当前说话人对应的视角进行拍摄，获取新的视频画面。

例如，在表1的拍摄模式2下，广角视角和前置视角可以发生切换。比如，广角视角中存在第一说话人，前置视角存在第二说话人，假设在初始录像阶段第一说话人在说话，而第二说话人未说话，此时可以仅拍摄广角视角的视频画面，电子设备在拍摄预览界面显示该广角视角对应的视频画面；而后，当第一说话人停止说话，第二说话人开始说话时，拍摄视角切换为前置视频，电子设备的拍摄预览界面显示前置视角对应的视频画面。

其中，如果当第一说话人和第二说话人同时说话，则可以同时拍摄广角视角和前置视角两条线路的视频画面，此时，电子设备的拍摄预览界面可以同时显示上述两个视角对应的视频画面。

在本申请的一些实施例中，在单路录制模式下，电子设备在录制单个视频画面的同时，还可以录制多路音频(即多个声音通道的音频)，该多路音频包括分别与多个视频画面对应的音频。

例如，在前置单路录像模式下(如用户自拍)，电子设备录制前置视角对应的视频画面的同时，还可以录制前置视角对应的音频(以下简称前置视角对应的音频)。此外，为获取环境中其它视角范围的音频，电子设备还可以录制该前置视角范围之外的其它视角范围对应的音频(以下简称其它视角音频)，例如，录制后置视角对应的音频等。其中，该模式下，如果前置视频画面包括一个或多个说话人，则前置视角范围的音频可以是说话人的说话声音；其它视角音频例如可以是位于前置视角范围之外区域中的其他人的说话声音或者环境中的声音等。

又如，在后置单路录像模式下，电子设备可以录制后置视角对应的视频画面，同时录制该后置视角对应的音频(以下简称后置视角对应的音频)。此外，电子设备还可以录制后置视角范围之外的其它视角音频，例如，录制前置视角对应的音频等。其中，该模式下，如果后置视频画面包括一个或多个说话人，则后置视角范围的音频可以是说话人的说话声音；其它视角音频例如可以是位于后置视角范围之外区域中的其他人的说话声音或者环境中的其他声音等。

在本申请的另一些实施例中，在多路录像模式下，电子设备在录制多个拍摄视角分别对应的视频画面的同时，还可以录制不同拍摄视角和视频画面对应的音频。

在一种可能的实现方式下，在前后多路录像模式下，电子设备可以分别录制前置视角和后置视角对应的视频画面，同时录制前置视角对应的音频和后置视角对应的音频。此外，电子设备还可以录制前置视角和后置视角范围之外的其它视角音频。其中，该模式下，如果前置视频画面包括一个或多个说话人，则前置视角对应的音频可以是前置视频画面中说话人的说话声音；如果后置视频画面包括一个或多个说话人，则后置视角对应的音频可以是后置视频画面中说话人的说话声音；或者，前置视角对应的音频或后置视角对应的音频还可以包括环境中的其它声音等。

比如，上述表1的拍摄模式4中，广角视角对应的音频内容可以包括周围各个方向的全景声音(即周围360度的声音)，变焦视角对应的音频内容主要包括变焦范围内的声音，前置视角对应的音频内容主要是前置视角范围内的声音。则在拍摄模式4下，电子设备可以录制线路1对应的广角视角下的视频画面，并根据广角视角录制线路1对应的音频；电子设备可以录制线路2对应的变焦视角下的视频画面，并根据变焦视角录制线路2对应的音频；电子设备可以录制线路3对应的前置视角下的视频画面，并根据前置视角录制线路3对应的音频。

在一种可能的实现方式下，在前置多路录像模式下，电子设备可以录制多个不同前置视角对应的视频画面，同时录制多路前置视角对应的音频。此外，电子设备还可以录制各前置视角范围之外的其它视角音频。其中，该模式下，如果前置视频画面包括一个或多个说话人，则前置视角对应的音频可以是该说话人的说话声音；或者，前置视角的音频还可以包括环境中其它的声音等。

在一种可能的实现方式下，在后置多路录像模式下，电子设备可以录制多个不同后置视角对应的视频画面，同时录制视频画面对应的多路后置视角对应的音频。此外，电子设备还可以录制各后置视角范围之外的其它视角音频。其中，该模式下，如果后置视频画面包括一个或多个说话人，则后置视角对应的音频可以是该说话人的说话声音；或者，后置视角的音频还可以包括环境中的其它声音等。

应理解，本申请实施例中，在各录像模式下，电子设备录制的不同视角的音频与视频画面对应可以是：音频主要为视频画面对应的视角范围内的音频。例如，前置视角对应的音频的音频内容主要包括前置视角范围内的声音，后置视角对应的音频主要包括后置视角范围内的声音。

在实际应用时，为了在录像回放或者分享时，获得更好的录音音频体验，用户不再满足于仅保留一路音频的内容，而是希望录音作品既能展现更加丰富的音频内容，又能实现自然流畅的音频切换效果。然而，正如背景技术中所介绍的，目前的录像音频只能进行单路录音，不能保留完整的音频内容；或者即使能够进行如前述介绍的多路录音，但是在视频回放时，若要获得不同路音频的内容，需要切换播放音轨，这样会导致声音突变。又如，录像分享时，只能选择其中一路音频进行分享，无法提供完整的音频内容。

针对上述问题，本申请实施例提供了一种音频处理的方法，该方法可以应用于上述介绍的录像模式下。在上述不同录像场景中，电子设备进入录像模式后，可以录制不同视角对应的视频画面，同时录制不同视角范围的多路音频。而后，电子设备生成包括视频画面和多路音频的第三音频的音视频文件。在视频回放时，电子设备在播放视频画面的同时，还播放第三音频；在录像播放过程中，如果某一说话人开始说话，则第三音频中该说话人的音量会逐渐增加，使得第三音频由其他声音逐步切换为说话人的声音，使得每一个说话人的声音均能够被清楚地播放出来。

例如，在上述前置单路录音模式下，当视频播放(或视频回放)时，在播放前置视角对应的视频画面的同时，还播放前置视角对应的音频和其他视角音频的第三音频。示例性的，假设录像播放的初始阶段，前置视角的说话人没有开始说话，可以认为此时并不需要录制前置视角的说话人的声音，此时第三音频中其它视角音频(例如后置视角对应的音频)的音量较高，更多呈现的是其它视角音频，例如前置视角范围之外的环境中的声音或者其他人的说话声音，以获得更需要录制的声音；而后，当前置视频画面中的说话人开始说话时，第三音频中前置视角对应的音频的音量逐渐增加，其它视角音频的音量可以逐渐降低，此时，播放的音频逐渐切换为前置视角对应的音频，用户可以更清楚地听到说话人的声音从而可以有效地避免其他视角中的杂音(例如后置视角中的杂音)。之后，如果说话人停止说话，第三音频中的其它视角音频的音量可以又逐渐增加，而前置视角对应的音频的音量逐渐降低，此时播放的音频逐渐切换为其他人的说话声音或者环境中的其它声音。

又如，在上述前后置多路录音模式下，当视频回放时，播放前置视角和后置视角分别对应的视频画面，同时电子设备还播放前置视角对应的音频和后置视角对应的音频的第三音频。示例性的，假设在视频回放的初始阶段，前置视频画面中的说话人没有说话，而后置视频画面中的说话人在说话，则第三音频中后置视角对应的音频的音量较高，前置视角对应的音频的音量较低甚至无声音；而后，当前置视频画面中的说话人开始说话时，第三音频中前置视角对应的音频的音量开始逐渐增加，后置视角对应的音频开始逐渐降低，第三音频由后置视角对应的音频逐渐向前置视角对应的音频切换，使得第三音频更多地呈现前置视角对应的音频的内容；之后，当后置视频画面中的说话人再次开始说话时，第三音频中后置视角对应的音频的音量再次逐渐增加，而前置视角对应的音频的音量可以逐渐降低，第三音频由前置视角对应的音频逐渐切换为后置视角对应的音频。如果前置视频画面的说话人之后再次开始说话时，则第三音频中，前置视角对应的音频和后置视角对应的音频的切换可以重复上述相应过程，实现由后置视角对应的音频逐渐切换为前置视角对应的音频的效果。当前置视频画面中的说话人和后置视频画面中的说话人同时说话时，前置视频画面中说话人的声音和后置视频画面中说话人的声音被播放出来。

示例性的，在前后多路录像模式下，在视频播放时，如果播放的视频画面为广角视频画面和前置视角组成的多路视频画面，那么电子设备播放的音频可以为全景音频和前置视角对应的音频的第三音频；如果播放的视频画面切换为变焦视角画面和前置画面时，那么电子设备播放的音频可以为广角范围对应的音频和前置视角对应的音频的第三音频。其中，第三音频中各路音频的切换过程与上述介绍的前后置多路录音模式下的各路音频切换过程类似，此处不再赘述。

其它录像模式下视频回放时的音频切换场景与上述描述的场景类似。示例性的，在视频回放时，当某一说话人开始说话时，则该说话人的说话声音的音量会逐渐增大，播放的第三音频逐渐切换为该说话人的声音，而当另一说话人开始说话时，则最新开始说话的说话人的声音的音量会逐渐增大，之前说话人的音量则会逐渐降低，第三音频由之前说话人的声音切换为当前说话人的声音，使用户清楚地听到不同说话人的声音。

根据本申请实施例提供的音频处理的方法，当视频回放时，电子设备播放多路音频的第三音频，并且第三音频中的各路音频能够自然切换，从而提高用户的录像的音频体验。

本申请实施例提供的音频处理的方法，可以应用于电子设备。例如，该电子设备具体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)或专门的照相机(例如单反相机、卡片式相机)等，本申请实施例对电子设备的具体类型不作任何限制。

示例性的，图1示出了本申请实施例提供的一种电子设备100的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

其中，麦克风170C可以有多个，摄像头193也可以有多个，例如前置摄像头、后置摄像头等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的不见，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processiong，GPU)，图像信号处理器(image signal processor，ISP)，音频处理器/数字处理器(theaudio processor)，控制器、存储器、视频编解码器、音频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器器，和/或神经网络出合理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待事件，因而提高了系统的效率。

例如，本申请中，存储器中存储有固件程序(firmware)，用于使控制器或处理器可以通过接口或协议实现本申请的音频处理的方法。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-intergrated circuit，I2C)接口，集成电路内置音频(inter-intergratedcircuit sound，I2S)接口，脉冲编码调制(pluse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)，用户标识模块接口，和/或通用串行总线接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，麦克风，摄像头193等。例如，处理器110器可以通过I2C接口耦合触摸传感器180K，是处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频数据传输。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口接收音频信号，实现录制音频的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能；或者，通过PCM接口接收无线通信模块160输入的音频信号，实现获取无线麦克风采集的音频数据。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如，处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口接收蓝牙模块传递的音频信号，实现通过蓝牙耳机中的无线麦克风的录制音频的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO可以被配置为控制信号，也可以被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

应理解，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块163等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数，在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接受的电磁波信号解调为低频基带信号。无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local areanetworks，WLAN)(如无线保真(wireless fidelity，WI-FI)网络)，蓝牙(bluetooth，BT)，北斗卫星导航系统(BeiDou navigation satellite system，BDS)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。

电子设备100通过图形处理器(graphics processing unit，GPU)，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数据和几何计算，用于图形渲染。处理器110可以包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体(active-matrix organic light emittingdiode，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括一个或多个显示屏194。

电子设备100可以通过图像信号处理器(image signal processor，ISP)，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。在本申请中，摄像头193可以包括电子设备100的前置摄像头和后置摄像头，其可以是光学变焦镜头等，本申请对此不作限定。

在一些实施例中，ISP可以设置在摄像头193中，本申请对此不作限定。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以使电荷耦合器件(charge couple device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括一个或多个摄像头193。

其中，电子设备100可以包括多个摄像头193，比如至少一个前置摄像头和后置摄像头、多个前置摄像头或多个后置摄像头等。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如，动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如，图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音频、视频等文件保存在外部存储卡中。

内部存储卡121可以用于存储计算机可执行程序代码，所述可执行可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如音频播放功能，图像播放功能等)等。存储数据去可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如，至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如，音频播放，录音等。

音频模块170用于数字音频信息转换为模拟信号输出，也用于将模拟模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A使用户收听音频，或收听免提通话等。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠人耳接听语音。

麦克风170C，也称“话筒”、“传声器”，用于将声音信号转换成电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。在本申请中，电子设备100可以设置至少两个麦克风170C，例如本机麦克风或者无线麦克风。在另一些实施例中，电子设备100可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

在本申请中，电子设备可以通过多个麦克风170C采集多路音频。除了通过电子设备内部安装的本机麦克风外，电子设备还可以通过与电子设备无线连接的无线麦克风采集音频。

在本申请实施例中，多个麦克风170C可以将获取的声音信号转换为电信号传递至处理器110，处理器110中的音频处理器接收到该多路音频信号后，对多路音频信号进行处理，例如通过音频编解码器对各通道音频进行编码等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

图2是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，硬件抽象层(hardware abstraction layer，HAL)，以及内核层。应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

HAL层为位于操作系统内核与硬件电路之间的接口层，可以将硬件抽象化。HAL层包括音频处理模块。音频处理模块可以用于，根据拍摄视角对麦克风获得的模拟音频电信号进行处理，生成不同拍摄视角和视频画面对应的音频。例如，对于广角视角来说，音频处理模块可以包括音色修正模块、立体声波束形成模块和增益控制模块等。对于变焦视角来说，音频处理模块可以包括音色修正模块，立体声/单声道波束成形模块，环境噪声控制模块和增益控制模块等。对于前置视角来说，音频处理模块可以包括音色修正模块、立体声/单声道波束呈现模块，人声增强模块和增益控制模块等。

内核层是硬件层和上述软件层之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。其中，该硬件层可以包括摄像头、显示屏，麦克风，处理器，以及存储器等。

在本申请的实施例中，在录制多路音频的录像模式下，硬件层中的显示屏可以显示录像时的拍摄预览界面、录像预览界面和拍摄界面。硬件层中的摄像头可以用于采集多路视频画面。硬件层中的麦克风可以用于采集声音信号，并生成模拟音频电信号。HAL层中的音频处理模块可以用于对模拟音频电信号转换成的数字音频数据进行处理，从而生成不同拍摄视角和视频画面对应的音频。在视频回放时，显示屏可以显示视频播放界面，扬声器可以播放用户关注的多路音频以及多路音频的第三音频，从而提升用户多路录像的音频体验。

为便于理解，本申请实施例以手机作为电子设备，首先对录像过程中人机交互的过程进行介绍。示例性的，图3A至图3D提供了音频处理过程中的图形用户界面(graphicaluser interface，GUI)示意图。

其中，图3A示出了手机的解锁模式下，手机的屏幕显示系统显示了当前输出的界面内容301，该界面内容301为手机的主界面。该界面内容301显示了多款应用程序(application，App)，例如图库、设置、音乐、相机等应用程序。应理解，界面内容301还可以包括其他更多的应用，本申请对此不作限定。

当手机检测到用户点击主界面301上的相机应用的图标302的操作后，可以启动相机应用，显示如图3B所示的界面，该界面可以称为相机的拍摄界面303。该拍摄界面303可以包括取景框、相册图标、拍摄控件304和旋转控件等。

其中，取景框用于获取拍摄预览的图像，实时显示预览图像，如图3B所示的后置视角中的人物的预览图像。相册图标用于快捷进入相册，当手机检测到用户点击相册的图标后，可以在触摸屏上展示已经拍摄的照片或者视频等。拍摄控件304用于拍摄或者录像，当手机检测到用户点击拍摄控件304后，手机执行拍照操作，并将拍摄的照片保存下来；或者，当手机处于录像模式时，用户点击拍摄控件304后，手机执行录像操作，并将录制的录像保存下来。摄像头旋转控件用于控制前置摄像头和后置和摄像头的切换。

此外，该拍摄界面303还包括用于设置拍摄模式的功能控件，例如图3B所示的光圈拍摄模式、夜景拍摄模式、人像拍摄模式、拍照模式、录像模式、专业模式和更多模式等。其中，如图3C所示，更多模式还可以包括慢动作模式、全景模式、黑白艺术模式、双景录像模式、滤镜模式、高动态范围图像((high-dynamic range，HDR)模式以及多路录像模式(图中未示出)等。应理解，当用户点击图标302后，响应于该点击操作，手机打开相机应用后默认在拍照模式下，本申请对此不作限定。

示例性的，当电子设备检测到用户在相机的拍摄界面303点击录像图标时，可以进入单路录像模式，例如默认进入后置单路录像模式；当电子设备检测到用户点击摄像头旋转控件时，录像的视角由后置视角切换为前置视角，录像模式切换为前置单路录像模式。

或者，当电子设备检测到用户在相机的拍摄界面303点击更多图标时，显示如图3D所示的界面，该界面可以称为更多功能界面。例如，当电子设备在更多功能界面检测到用户点击双景录像图标时，进入双景录像模式。示例性的，在双景录像模式下，电子设备的图像预览界面默认显示前置视角的视频画面和后置视角(例如，变焦视角)的视频画面，当电子设备检测到用户点击摄像头旋转控件时，图像预览界面显示的视频画面可以发生切换，如检测到用户点击一次摄像头旋转控件，图像预览界面显示双前置视频按画面，检测到用户再次点击一次摄像头旋转控件，图像预览界面显示双后置视频画面等。

为便于理解，以下结合附图，对录像过程中的多路音频录制过程进行介绍。图4A至图4C示出了一些录像场景的示意图。在图4中，说话人1为第一说话人，说话人2为第二说话人，音频2为第一音频，音频1为第二音频。或者，说话人1为第二说话人，说话人2为第一说话人，音频1为第一音频，音频2为第二音频。或者，说话人1为第一说话人，说话人2为第二说话人，音频1为第一音频，音频2为第二音频。

应理解，多路音频可以由多个麦克风进行录制，在一个实施例中，电子设备包括多个麦克风(电子设备的麦克风可以称为本机麦克风)，多个本机麦克风可以设置在电子设备的不同位置，以录制不同视角的音频；在一个实施例中，电子设备可以与至少一个无线麦克风进行无线连接，电子设备可以利用一个无线麦克风采集到的音频来录制一个视角的音频，电子设备还可以利用多个无线麦克风采集到的音频来分别录制多个视角的音频。其中，无线麦克风例如可以是具有录音功能的无线耳机、无线音箱、平板电脑、可穿戴设备或者其他用户的手机等。使用无线麦克风采集到的音频来录制音频，可以更清晰地采集所拍摄的视角中说话人的声音。

结合上述介绍可知，根据录像时的拍摄视角和录像线路数量的不同，可以将本申请实施例中的录像模式分为以下几种模式：前置单路录像模式、后置单路录像模式、前后多路录像模式、前置多路录像模式和后置多路录像模式。

根据录像场地的不同，可以将本申请实施例中的录像分为：室外录像场地和室内录像。

根据采集音频的麦克风的类型(或称录音类型)不同，可以将本申请实施例中的录像分为：多个本机麦克风参与录音，无线麦克风不参与录音的情形；多个无线麦克风参与录音，本机麦克风不参与录音的情形；本机麦克风和无线麦克风共同参与录音的情形。

其中，在不同的录像模式、录像场地中，电子设备均可以通过至少一个本机麦克风和/或至少一个无线麦克风采集的音频录制多路音频，该多路音频至少包括各拍摄视角范围的声音。

本申请实施例提供的音频处理的方法可以应用于上述录像场地、录像模式和录音类型的多种组合场景中。以下结合其中部分组合场景，对本申请实施例提供的音频处理的方法所涉及的录像过程进行介绍。

在一种实现方式中，电子设备可以预先与无线麦克风建立有无线连接。示例性的，当电子设备按照图3中所示的相关步骤，进入录像模式后，响应于电子设备的模式变化，电子设备可以显示提示消息，提示用户使用哪些麦克风进行录音，并可以提示用户是否需要无线麦克风参与本次录像；用户可以根据需要点击确认或取消按键；当电子设备检测用户点击取消按键，则可以启动多个本机麦克风录制多路音频；当电子设备检测到用户点击确认按键后，可以继续提示用户选择哪个无线麦克风录音，使用户对可用的无线麦克风进行选择，电子设备还可以提示用户是否还需要本机麦克风参与录音；当电子设备检测到用户选择不需要本机麦克风参与录音，则在录像过程中，由多个无线麦克风进行录音；当电子设备检测到用户选择需要本机麦克风参与录音，则在录像过程中，由本机麦克风和无线麦克风共同参与录音。其中，无线麦克风可以在录像过程中录制其拾音范围内的声音。

应理解，上述电子设备对麦克风类型的选择过程仅为一种示例，该过程还可以有多种其它实现方式，比如电子设备可以先提示用户是否需要本机麦克风参与录音，检测到用户输入的选择后，然后再提示用户是否需要无线麦克风参与录音，以及提示用户选择哪个或哪些麦克风参与录音等。本申请对此不作限定。

作为其中一个示例，如图4A所示，为一种录音场景的示意图。该场景可以是室外场地中，电子设备在前置单路录像模式下，采用本机麦克风和无线麦克风录制多路音频的情形。

在该情形下，电子设备进入前置单路录像模式后，如图4A所示，电子设备通过前置摄像头录制位于前置视角中的说话人1的图像，电子设备的拍摄预览界面显示前置视频画面；并且在录像过程中，电子设备的本机麦克风录制说话人1的说话声音(记为音频1)，位于位置1的无线麦克风(可以是说话人2的无线耳机或手机等设备上的麦克风)录制其拾音范围内声音，如说话人2的说话声音(记为音频2)。音频1和音频2可以存在电子设备的缓存中。

应理解，在图4A所示的场景中，位置1可以在前置视角范围之外，例如，位置1位于后置视角。但在其它一些实现方式中，位置1也可以在前置视角范围之内。当位置1在前置视角范围之内时，拍摄预览界面显示的前置视频画面中，还可以包括说话人2的图像。

在录像过程中或者录像完成后，无线麦克风可以通过无线连接将音频2发送给电子设备。

当用户点击关闭录像控件时，电子设备响应于用户的点击操作，停止录像，退出录像模式。电子设备对音频和视频进行打包，生成录像文件，该录像文件包括前置视频画面和第三音频，该第三音频包括至少部分音频1和至少部分音频2。例如，音频1和音频2一直在录制，第三音频包括部分音频1和部分音频2，由部分音频1和部分音频2合并而成，且在音频1和音频2切换的过程中，由音频1和音频2按照设定的权重合并而成。又如，音频1仅在说话人1说话时录制，音频2仅在说话人2说话时录制，第三音频包括全部音频1和全部音频2，由音频1和音频2合并而成，且在音频1和音频2切换的过程中，由音频1和音频2按照设定的权重合并而成。其中，电子设备可以将录像文件保存下来，可以存在内部存储器(内存)或外部存储器(外存)中，如保存在相册图标中。

应理解，这里相册中最终保存的录像文件(即目标录像文件)是电子设备经过处理后的录像文件，例如，经过对多路音频合并，并对说话人进行图像识别，检测说话人开始说话时，增大第三音频中音频1的音量，使得音频1的音量在说话人开始说话时随之提高等处理。上述处理过程可以在电子设备内部完成，直到得到最终的录像文件保存在相册中。

在图4A所示的场景中，在一个实施例中，在电子设备通过前置摄像头录制前置视角时，后置摄像头还在后台录制后置视角，电子设备的拍摄预览界面不显示后置视频画面，但对后置摄像头录制的后置视频画面进行存储，例如存在电子设备的缓存中，以便对说话人2张口的动作进行检测，例如，在时刻t1，说话人2张口，并开始说话。在对录像文件进行播放时，电子设备显示前置视频画面，当播放时刻t1对应的画面时，音频2的音频特征发生变化，例如音频2的声音增大。

在一个实施例中，在电子设备通过前置摄像头录制的前置视频画面进行存储，例如存在电子设备的缓存中，以便对说话人1张口的动作进行检测，例如，在时刻t2，说话人1张口，并开始说话。在对录像文件进行播放时，电子设备显示前置视频画面，当播放时刻t2对应的画面时，音频1的音频特征发生变化，例如音频1的声音增大。

在一个实施例中，在电子设备通过前置摄像头录制前置视角时，后置摄像头还在后台录制后置视角，电子设备的拍摄预览界面不显示后置视频画面，同时对前置视频画面和后置视频画面进行存储，以便对说话人1和说话人2张口的动作进行检测，例如，在时刻t3，说话人1张口，并开始说话；在时刻t4，说话人2张口，并开始说话。在对录像文件进行播放时，电子设备显示前置视频画面，当播放时刻t3对应的画面时，音频1的音频特征发生变化，例如音频1的声音增大。当播放时刻t4对应的画面时，音频2的音频特征发生变化，例如音频2的声音增大。

在一种可能的实现方式中，上述处理过程也可以在云端服务器完成在。例如，在录像过程中或者录像结束后，电子设备和无线麦克风可以将获取的视频和音频发送给云端服务器；或者，无线麦克风将录制的音频先发送给电子设备，再由电子设备发送给云端服务器；然后由云端服务器完成上述处理过程，生成最终的录像文件，再发送给电子设备；电子设备再将录像文件保存在相册中。应理解，在各录像场景中均可以采用该处理方式，为避免重复，下文其它场景的描述中，对此以下不再赘述。

在另一个场景中，如图4B所示，为电子设备在后置单路录像模式下，采用两个无线麦克风录制多路音频的情形示意图。其中，无线麦克风1例如可以是无线耳机，由位于前置视角中的说话人1佩戴，无线麦克风2例如可以是说话人2的手机(或无线耳机)，由位于后置视角范围中的说话人2携带。此外，前置视角还可以通过本机麦克风进行录制。

应理解，在实际应用时，无线麦克风的类型不限于图4B示出的无线耳机和手机，还可以是其它具有录音功能的设备，本申请对此不作限定。

示例性的，在该情形下，电子设备进入后置单路录像模式后，如图4B图所示，电子设备通过后置摄像头录制位于后置视角中的说话人2的视频图像，电子设备的拍摄预览界面显示后置视频画面；并且在录像过程中，说话人1佩戴的无线麦克风1录制说话人1的说话声音(记为音频1)，说话人2携带的无线麦克风2录制说话人2说话的声音(记为音频2)。

在一种实现方式中，在该后置单路录像过程中，电子设备的前置摄像头在后台开启，录制说话人1的图像，其中，该说话人1的图像用于电子设备在音频处理时，对说话人1是否说话进行识别。应理解，这里所说的前置摄像头在后台开启，是指在录像过程中，前置摄像头实时采集前置视角的视频画面，但拍摄预览界面并不显示该前置视频画面；生成录像文件后，该录像文件不包括前置视频画面，在之后视频回放时，播放界面也不显示该前置视频画面。

在图4B所示的场景中，在一个实施例中，在电子设备通过前置摄像头录制后置视角时，前置摄像头还在后台录制前置视角，电子设备的拍摄预览界面不显示前置视频画面，但前置摄像头录制的前置视频画面进行存储，例如存在电子设备的缓存中，以便对说话人1张口的动作进行检测，例如，在时刻t5，说话人1张口，并开始说话。在对录像文件进行播放时，电子设备显示前置视频画面，当播放时刻t5对应的画面时，音频1的音频特征发生变化，例如音频1的声音增大。

在一个实施例中，在电子设备通过后置摄像头录制的后置视频画面进行存储，例如存在电子设备的缓存中，以便对说话人2张口的动作进行检测，例如，在时刻t6，说话人2张口，并开始说话。在对录像文件进行播放时，电子设备显示前置视频画面，当播放时刻t6对应的画面时，音频2的音频特征发生变化，例如音频2的声音增大。

在一个实施例中，在电子设备通过后置摄像头录制后置视角时，前置摄像头还在后台录制前置视角，电子设备的拍摄预览界面不显示前置视频画面，同时对前置视频画面和后置视频画面进行存储，以便对说话人1和说话人2张口的动作进行检测，例如，在时刻t7，说话人2张口，并开始说话；在时刻t8，说话人1张口，并开始说话。在对录像文件进行播放时，电子设备显示前置视频画面，当播放时刻t7对应的画面时，音频2的音频特征发生变化，例如音频2的声音增大。当播放时刻t8对应的画面时，音频1的音频特征发生变化，例如音频1的声音增大。

在录像过程中或者录像完成后，无线麦克风1将音频1发送给电子设备，无线麦克风2将音频2发送给电子设备。

当用户点击关闭录像控件时，电子设备响应于用户的点击操作，停止录像，退出录像模式。录像结束后，电子设备生成录像文件，该录像文件包括前置视频画面和第三音频，该第三音频为音频1和音频2的第三音频。其中，电子设备可以将录像文件保存下来，如保存在相册图标中。

应理解，这里相册中最终保存的录像文件是电子设备经过处理后的录像文件，例如，对多路音频合并，并对说话人1进行图像识别，检测说话人1开始说话时，增大第三音频中音频1的音量，使得音频1的音量在说话人开始说话时随之提高。上述处理过程可以在电子设备内部完成，直到得到最终的录像文件保存在相册中。

在一个场景中，如图4C所示，为电子设备在前后置多路录像模式下，采用两个无线麦克风录制多路音频的情形示意图。其中，无线麦克风1例如可以是无线耳机，由位于前置视角中的说话人1佩戴，无线麦克风2例如可以是说话人2的无线耳机(或手机)，由位于后置视角范围中的说话人2携带。此外，前置视角还可以通过本机麦克风进行录制。

应理解，在实际应用时，无线麦克风的类型不限于图4C示出的无线耳机和手机，还可以是其它具有录音功能的设备，本申请对此不作限定。

示例性的，在该情形下，电子设备进入前后置多路录像模式后，如图4C所示，电子设备通过前置摄像头录制位于前置视角中的说话人1的视频图像，通过后置摄像头录制位于后置视角中的说话人2的视频图像，电子设备的拍摄预览界面显示前置视频画面和后置视频画面；并且在录像过程中，说话人1佩戴的无线麦克风1录制说话人1的说话声音(记为音频1)，说话人2携带的无线麦克风2录制说话人2说话的声音(记为音频2)。

在一种实现方式中，在录像过程中，录制说话人1的图像，其中，该说话人1的图像用于电子设备在音频处理时，对说话人1是否说话进行识别。应理解，这里所说的前置摄像头在后台开启，是指在录像过程中，前置摄像头实时采集前置视角的视频画面，但拍摄预览界面并不显示该前置视频画面；生成录像文件后，该录像文件不包括前置视频画面，在之后视频回放时，播放界面也不显示该前置视频画面。

在一个实施例中，同时对前置视频画面和后置视频画面进行存储，以便对说话人1和说话人2张口的动作进行检测，例如，在时刻t9，说话人2张口，并开始说话；在时刻t10，说话人1张口，并开始说话。在对录像文件进行播放时，电子设备显示前置视频画面和后置视频画面，当播放时刻t9对应的画面时，音频2的音频特征发生变化，例如音频2的声音增大。当播放时刻t10对应的画面时，音频1的音频特征发生变化，例如音频1的声音增大。

当用户点击关闭录像控件时，电子设备响应于用户的点击操作，退出录像模式。录像结束后，电子设备生成录像文件，该录像文件包括前置视频画面和第三音频，该第三音频为音频1和音频2的第三音频。其中，电子设备可以将录像文件保存下来，如保存在相册图标中。

在上述场景中，电子设备在进行录像时录制两路的音频。此外，在一些实施例中，电子设备在进行录像的时候，还可以录制三路以上的音频，第三音频可以包括三路以上的音频。在异形场景中，还可以将第一音频、第二音频和第三音频中的至少两个存储在内存或外存中，用户可以自行选择并合成不同的音频，以增加灵活性。

在一种实现方式中，当在录像时采用本机麦克风和无线麦克风共同录音的方式时，还可以基于电子设备与无线麦克风之间的定位功能，提示用户选择合适位置的无线麦克风进行录音。

以前后双景录像模式为例，如图5A和图5B所示，为室内场景下，电子设备在前后置双路录像模式下，采用本机麦克风和无线麦克风共同参与录音的场景示意图。

其中，电子设备可以与无线麦克风接入同一个接入点AP，或者使用同一WI-FI。

在一种实现方式中，电子设备发送广播消息，该广播消息用于请求建立无线连接(如配对)；无线麦克风接收到广播消息后，根据该广播消息与电子设备建立无线连接，即实现配对；或者，无线麦克风发送请求无线连接的广播消息，电子设备接收到广播消息后，根据该广播消息与无线麦克风建立无线连接。

其中，上述建立无线连接的过程可以发生电子设备启动录像模式时，例如：电子设备响应于录像模式启动，发送上述广播消息，并进行上述配对过程；或者，该建立无线连接的过程也可以发生在录像之前。

示例性的，再进行前后双景录像时，用户根据图3A图至图3C进行操作，然后电子设备检测到用户点击双景录像图标，响应于该点击动作，电子设备可以显示提示消息，如图5A所示，该提示消息的内容例如可以是：“发现周围有可用的无线麦克风，是否选择无线麦克风参与录像？”当电子设备检测到用户点击“选择”选项时，可以继续显示提示消息，如图5B所示，该提示消息的内容可以是当前可用的无线麦克风设备的名称、型号等，可以包括“已配对设备”和“可用设备”；用户可以选择合适的无线麦克风参与录像，当电子设备检测到用户点击的一个或多个麦克风后，电子设备与该一个或多个麦克风进行本次无线连接。

“已配对设备”表示已经与电子设备配对过的设备，且在可以进行无线通信的范围之内。如果用户选择“已配对设备”中的任何一个或多个已配对设备(例如智能音箱或无线耳机等具有麦克风的设备，即无线麦克风)，电子设备与已配对设备之间建立无线连接，已配对设备与电子设备之间传输数据，当电子设备在拍摄视频时，已配对设备可以将麦克风采集到的数据传输给电子设备。

“可用设备”表示可以与电子设备配对过的设备，且在可以进行无线通信的范围之内。如果用户选择“可用设备”中的任何一个或多个可用设备(例如智能音箱或无线耳机等具有麦克风的设备，即无线麦克风)，电子设备与可用设备进行配对，配对完成后，电子设备与可用设备之间建立无线连接，可用设备与电子设备之间传输数据，当电子设备在拍摄视频时，可用设备可以将麦克风采集到的数据传输给电子设备。

在一种实现方式下，电子设备和无线麦克风可以基于定位功能或测距功能，实现对无线麦克风的定位，然后根据录像视角自动选择该视角范围内的无线麦克风进行录音。示例性的，如图6所示，当电子设备在前后双景录像模式下进行录像，在进入双景录像模式时，电子设备检测到用户按照图5A和图5B选择的无线麦克风设备(如智能音箱1、智能音箱2)。

在录像过程中，前置视角对应的音频通过电子设备的本机麦克风录制，后置视角对应的音频通过智能音箱1或智能音箱2录制；假设初始阶段，后置视角为图6所示的拍摄视角1，电子设备基于智能音箱1的获知智能音箱1位于该拍摄视角1的范围内，电子设备自动实现本次与智能音箱1的连接，由该智能音箱1进行后置视角录音。而后，在录像过程中，如果电子设备的后置视角发生旋转，后置视角由拍摄视角1切换为拍摄视角2，则电子设备可以与智能音箱1断开连接，自动与智能音箱2建立本次无线连接，由无线麦克风2录制后置视角对应的音频。

上述结合附图描述了本申请实施例提供的音频处理的方法可能涉及到的录像场景以及录像过程中人机交互的实施例，为了更好地理解本申请提供的音频处理的方法，下面从实现层面介绍具体的实现过程和算法。

图7是本申请实施例提供的一例音频处理过程的示意图。该音频处理的方法应用于电子设备，该电子设备包括第一摄像头和第二摄像头，其中，第一摄像头拍摄第一视角，第二摄像头拍摄第二视角，该方法包括以下步骤：

S701，响应于用户输入的录像操作，进入录像模式。

其中，录像操作可以是单路录像操作或者多路录像操作。相应地，电子设备响应于录像操作，进入对应的单路录像模式或多路录像模式。

示例性的，如图3A所示，用户在主界面点击相机应用，响应于用户的点击操作，电子设备显示拍摄预览界面。其中，该拍摄预览界面可以对应图3B。

其中，这里的录像操作可以为：在拍摄预览界面，用户点击拍摄控件304的操作，响应于该操作；或者，在如图3D所示的更多功能界面，用户点击双景录像控件的操作；或者，在更多功能界面，用户点击多路录像控件的操作。

电子设备检测到用户的录像操作后，进入对应的录像模式。比如：检测到用户点击图3A的拍摄控件操作后，进入单路录像模式；或者，检测到用户在图3D界面点解双路录像控件的操作后，进入双路录像(或称双景录像)模式等。

S702，在录像模式下，第一摄像头对第一视角录制第一视频画面；录制多个声音通道的音频，该多个声音通道的音频包括第一视角对应的第一音频和第二视角对应的第二音频；在第一时刻，第一说话人说话，第一说话人位于所述第二视角内。

在一种实现方式中，第一摄像头可以是前置摄像头，第一视角为前置视角，第一视频画面为前置视频画面；第二视角为后置视角，其中，第一说话人位于后置视角范围，第二音频可以包括第一说话人的说话声音。例如可以对应图4B所示的场景，此时，第一说话人对应于图4B中的说话人2。

在一种实现方式中，第一摄像头可以是后置摄像头，第一视角为后置视角，第一视频画面为后置视频画面；第二视角为前置视角，其中，第一说话人位于前置视角范围，第二音频可以包括第一说话人的说话声音。例如可以对应图4B所示的场景，此时，第一说话人对应于图4B中的说话人1。

在一种实现方式中，多个声音通道的音频可以由至少两个麦克风分别录制。其中，至少两个麦克风可以包括手机的本机麦克风和/或无线麦克风。具体地，多个声音通道的音频可以分别由电子设备的本机麦克风和无线麦克风采集；或者，也可以由多个无线麦克风采集；或者，也可以由多个本机麦克风采集。

应理解，本申请中的无线麦克风可以是具有麦克风功能的多种设备，并且该无线麦克风可以在录制操作之前与手机建立无线连接。其中，无线麦克风例如可以是：无线耳机、无线音箱或者另一个手机等能够实现麦克风功能的设备。本申请对此不作具体限定。

可选地，无线麦克风与手机的无线连接方式可以包括多种，例如：蓝牙、行动热点(wireless fidelity，WI-FI)、第五代移动通信技术(the 5^th generation，5G)、第四代移动通信技术(the 4^th generation，4G)等。

在一种实现方式中，在第一时刻，第一说话人说话，可以包括：在第一时刻，第一说话人张口。

S703，生成目标录像文件，该目标录像文件包括第三音频和第一视频画面，其中，第三音频包括至少部分第一音频和至少第二音频。

其中，第三音频为多个通道的音频合并后的音频，换句话说，第三音频为多路音频的第三音频。示例性的，在录音过程中或录像结束后，电子设备可以根据预设权重对多路音频进行合并，并获取第三音频。在录音合并过程中，音频处理器对多路音频进行合并编码，获取第三音频。

在一种实现方式中，各路音频的预设权重可以结合说话人是否开始说话进行设置。示例性的，当在第一视频画面未检测到说话人开始说话时，该第一音频的权重可以低于第一阈值，第一阈值例如可以为0或0.2。其中，当第一音频的权重为0时，第三音频可以按照双路音频中另外一路音频的编码方式进行编码。

应理解，在第一视频画面中未检测到说话人说话，如未检测到说话人发生张口动作时，表示说话人未发出声音，或者第一视频画面对应的音频不存在用户需要的内容等，此时，第三音频可以降低第一视角对应的音频所占的增益比例(或权重)，以便更多地呈现其它音频内容。

当根据第一视频画面检测到说话人开始说话时，调整第三音频中第一视角对应的音频的权重至目标权重。例如，在前后景摄像时，当手持电子设备的用户开始说话时，则加大第三音频中该用户对应的音频的增益比例，以更多地凸显该用户的说话内容。

在一种实现方式中，对说话人是否开始说话的判断过程可以为：电子设备根据摄像头采集的说话人的图像，进行图像识别，判断说话人是否发生张口等目标动作，如果检测到说话人发生该目标动作时，则表示说话人开始说话。

具体地，电子设备的NPU计算处理器基于ISP对说话人图像的图形处理结果对目标动作进行识别，如检测被拍摄对象的是否张口。当检测到说话人发生目标动作时，则以缓存的当前音频帧为基准，对特定帧的多路音频的权重进行调整。

在一种实现方式中，可以预设权重调整策略，当检测到目标动作时，按照该权重调整策略对各路音频的权重进行调整。示例性的，该权重调整策略中，第一音频的权重可以随时间的增长而增加，相应地，其他音频的权重可以对时间的变化而减小，从而由其他音频逐渐切换为第一音频的效果，实现音频之间的光滑切换，避免声音突变。

示例性的，第一音频的权重可以与时间之间呈线性变化关系，如图8所示。在图8的权重与时间的关系示意图中，横轴为时间轴，纵轴为第一音频的权重，由开始第三音频的时刻(帧1)开始至帧i，第一音频的权重与时间呈线性关系。

应理解，各路音频的权重与时间关系可以不仅限于线性关系，在保证各路音频逐渐切换的基础上，权重与音频合并时间之间的关系还可以包括多种非线性关系，本申请对此不作限定。

S704，响应于用户输入对目标录像文件的播放操作，播放目标录像文件；其中，当播放到第一时刻对应的画面时，第二音频的音频特征发生变化。

应理解，目标录像文件包括第一视频画面和第三音频，因此，在播放目标录像文件时，电子设备在播放第一视频画面的同时，播放第三音频。

在一种实现方式中，目标录像文件还可以包括多个其它视频画面，使得在目标录像文件播放时，电子设备可以同时播放多个视角的视频画面，以及第三音频。

在一种实现方式中，当播放到第一时刻对应的画面时，说话人开始说话，此时，说话人所在视角对应的音频特征发生变化。

在一种实现方式中，音频特征包括音量，播放所述目标录像文件的过程中，当播放到所述第一时刻对应的视频画面时，所述第二音频的音量增大。

在一种实现方式中，播放所述目标录像文件的过程中，当播放到所述第一时刻对应的视频画面时，所述第二音频的音量逐渐增大。

在一种实现方式中，所述电子设备播放所述目标录像文件时，所述电子设备显示第一视频画面和第二视频画面。

在一种实现方式中，所述电子设备播放所述目标录像文件时，所述电子设备显示第一视频画面，而不显示第二视频画面。

在一种实现方式中，播放所述目标录像文件过程中，在第一时刻，第二视频画面中的第一说话人张口。

电子设备可以设置播放第三音频的播放音轨作为录像的缺省音轨，使得当播放该录像作品时，默认播放第三音频；或者，分享该录像作品时，默认分享该第三音频。其中，播放音轨为音频播放时的播放通道。

在本申请实施例提供的音频处理方法中，手机可以将获取到的多路音频存储至存储器，并且对多路音频进行合并，获取该多路音频的第三音频。具体地，手机可以在不同的播放时间针对不同音频设置有不同的预设权重，按照预设权重对多路音频的数据(如采样率)进行加权，获取第三音频。

手机利用前置摄像头获取说话人的图像，根据该说话人的图像判断说话人是否开始说话，若确定说话人开始说话，则可以调整第三音频中该前置画面对应的音频的权重，如动态增加手机近端音频(如说话人的音频)的比重，使第三音频逐步切换为手机近端的音频，凸显其音频内容。

根据本申请实施例提供的音频处理的方法，通过基于拍摄的视频图像检测到的目标结果，对第三音频中与视频图像对应音频的权重进行调整，在呈现完整音频的基础上，优化音频之间的切换效果，解决了不支持播放多路音频的电子设备在播放视频时，为获取音频内容需要进行切换，导致的声音突变感。

以下结合附图，以手机前后双路录像的场景为例，对本申请实施例提供的音频处理方法的内部实现过程以及处理流程进行介绍。本申请实施例提供的音频处理的方法，可以在录像过程中实时进行，也可以在录像之后进行。以下以在录像过程中进行音频处理为例，进行说明。

在用户通过手机进行录像的过程中，电子设备可以同时进行视频处理、音频处理以及基于图像识别的混音等操作流程。为便于理解，以前后双路录像模式为例，并以一帧音频和一帧视频的处理为例，对处理流程进行说明。其中，如图9所示，各流程可以包括以下内容。

在一种实现方式中，录像及视频处理流程可以包括：在当前的前后双路录像模式下，电子设备通过前置摄像头和后置摄像头分别采集一帧前置视频画面(记为前置视频帧ZX)和一帧后置视频画面(记为后置视频帧ZY)；前置摄像头和后置摄像头分别将采集到的视频数据传递至电子设备的ISP；电子设备例如可以是通过开放式图形接口(openGL接口)对前置视频帧ZX和后置视频帧ZY进行拼接，再由视频编解码器进行视频编码，而后按照一定的文件规范(如MP4 container文件规范)写入目标录像文件。

在一种实现方式中，录音及音频处理过程可以包括：在当前的前后双路录像模式下，电子设备可以由本机麦克风录制一帧音频(记为音频帧X)，无线麦克风录制一帧音频(记为音频帧Y)；电子设备在接收到音频数据后，可以将音频数据缓存至缓存区(例如内存的缓存区)，其中，不同声音通道的音频数据可以缓存至不同的缓存区，比如将音频帧X缓存至缓存区QX，将音频帧Y缓存至缓存区QY；音频处理器接收到多路音频数据后，可以对各路音频数据分别进行独立编码，并将编码后的各路音频的当前帧音频数据写入多路音频文件。其中，编码方式例如可以包括：脉冲编码调制(pulse code modulation，PCM)、高级音频编码(advanced audio coding，AAC)等。编码后目标音频的格式可以包括波形声音文件WAV、MP3格式等。完成音频帧X和音频帧Y的上述处理后，可以将处理后的音频帧X和音频帧Y写入目标录像文件，或者将上述多路音频音频文件写入目标录音文件。

此外，音频处理器可以根据预设权重，对音频帧X和音频帧Y进行合并，比如按照一定比例增益对两路音频进行合并编码，获取第三音频。

其中，各路音频的采样率可以相同或不同，本申请实施例以各路音频采样率相同(如均为8bit)进行说明。

在一种实现方式中，基于图像识别的混音流程可以包括：在当前的前后双路录像模式下，电子设备的前置摄像头采集的前置视频画面包括说话人，电子设备将采集的视频帧传输至IPS后，并由IPS处理后，可以将视频流分为两路，一路视频流数据用于实现与后置视频图像合并，另一路视频流用于电子设备进行图像识别，判断说话人是否说话。

为更好地理解该过程，结合图10示出的软件架构示意图进行具体介绍。

应理解，这里以视频图像的处理在硬件抽象HAL层进行处理为例进行介绍，然而在实际应用时，上述所说的视频处理过程、音频处理过程以及人脸识别过程不限于在HAL层实现，还可以在中间层或应用层实现，本申请对此不作限定。这里的HAL层可以为图2示出的内核层和硬件层之间的接口层；中间层可以为图2示出的系统库及应用程序框架层；应用层可以为图2示出的应用程序层。

其中，前置摄像头将采集到的前置视频帧ZX的图像信号传递至ISP进行图像处理，后置摄像头将采集到的后置视频帧ZY的图像信号传递至ISP进行图像处理；IPS处理外之后，将后置视频流传输至后处理单元，例如传输至美颜处理单元，以对后置视频图像进行美颜处理，而后在传输至防抖处理单元，以对后置视频图像进行防抖处理。同时，IPS可以将前置视频流，分别向人脸识别单元以及前置图像后处理单元传输，其中，人脸识别单元用于对前置视频画面中的说话人进行人脸识别，判断说话人是否嘴唇张开，进而确定说话人是否说话，后处理单元，则对前置视频图像进行美颜处理、防抖处理。

示例性的，根据前置视频图像判断说话人是否说话还可以包括以下具体内容：

前置视频帧被传递至NPU计算处理器进行图像识别，NPU计算处理器接收到当前帧的图像输入信息后，对该输入信息进行快速处理，如基于获取的当前视频帧ZX对说话人进行人脸检测，包括利用人脸坐标AI算法，判断说话人是否发生目标动作，其中：若确定在当前视频帧说话人发生目标动作，表示说话人开始说话，则音频处理器以检测到说话人说话时刻为基准，提前i帧调整各路音频在第三音频中的权重，也即调整音频帧[X-i，X]、音频帧[Y-i，Y]在第三音频中的组成权重；若未检测到目标动作，则该合并后的音频仍按照预设比例增益对本机麦克风录制的音频和无线麦克风录制的音频进行合并编码，其中，此时本机麦克风录制的音频帧X的增益例如可以设置为0。

此外，上述过程中的后处理例如包括：结合人脸坐标，通过YUV对图像颜色进行优化，获得具有美颜效果的前置视频帧和后置视频帧；而后可以再对当前帧视频图像进行防抖处理。

示例性的，上述过程中，视频图像每秒传输帧数相同，例如均为30fps。

上述对当前帧视频画面进行美颜处理和防抖处理的过程，可以参见已有技术，此处不再赘述。

应理解，由于电子设备检测到说话人开始说话时，可能比说话人实际开始说话的时刻有所滞后，也即当电子设备确定说话人开始说话时，实际开始说话时对应的音频帧早已缓存至缓存区，因此，提前i帧对各路音频的权重进行调整，是为了克服电子设备执行确定说话人开始过程中导致的时延，从而保证音频内容的完整性。

可选地，由当前音频帧X分别提前i帧(i为大于或等于1的整数)对各路音频进行编码，并将编码后的音频数据多路音频文件。此外，将上述获取的多路音频数据写入当前帧对应的目标音视频文件，获取包括当前视频和与视频对应的第三音频文件

应理解，对于各音频帧和视频帧，均可采用上述方法进行视频和音频的处理，进而在保证各声音通道的独立音频之外，获取与视频画面对应的完整合并后的音频以及流畅光滑的音频切换效果。

结合以上实施例及相关附图，本申请实施例还提供了一种音频处理的方法，该方法可以在如图1、图2所示的具有摄像头、麦克风的电子设备(如手机、平板电脑等)中实现。图11示出了本申请实施例提供的另一种音频处理的方法的示意性流程图，如图11所示，该方法可以包括以下步骤：

S1101，在录像模式下，缓存第一音频的音频帧、第二音频的音频帧和第一视频画面的视频帧。

在一种实现方式中，将各麦克风当前获取的音频帧记为第一音频帧。其中，各路音频的采样率可以相同或不同，这里以各路音频采样率相同(如均为8bit)进行说明。

示例性的，可以将本机麦克风当前录制的音频帧(记为音频帧X)存储至第一缓冲区(记为QX)，将无线麦克风当前录制的音频帧(记为音频帧Y)存储至第二缓冲区(记为QY)。并且当前时刻之前的预设时间段内的本机音频和无线麦克风音频也缓存在上述对应的位置。

在一种实现方式中，记当前时刻为N，则可以对当前时刻之前一定时间段内，如对[N-2s，N]或[N-1s，N]这一时间段内的音频数据进行缓存；或者，对当前音频帧之前的一定帧数，如对本机麦克风音频帧[X-i，X]和无线麦克风音频帧[Y-i，Y]的音频数据进行进行缓存，i为大于或等于1，且小于X，Y的整数。

应理解，通过缓存一定时间段内的音频数据，能够在无需存储所有音频内容的情况下，保证第三音频能获取完整音频内容的基础上，节省存储空间，提高音频处理效率。

S1102，检测第一说话人的动作。

例如，通过人脸识别，对第一说话人的动作进行检测。其中，当检测到第一说话人发生张口的动作时，认为该第一说话人开始说话。

S1103，在检测到第一说话人开始说话时，在当前音频帧的前i帧音频帧开始，调整第三音频中第一音频的音频特征，并调整第三音频中所述第二音频的音频特征，i大于等于1

其中，说话人开始说话可以指说话人发生目标动作，如张口的动作。电子设备可以基于说话人的目标动作确定其开始说话。

应理解，说话人从发生目标动作到电子设备检测到该目标动作，期间需要一定的时间，导致检测到目标动作时对应的音频帧可能会晚于目标动作实际发生的时刻，因此，为了呈现完整的音频内容，本申请实施例对多路音频进行合并时，可以由当前帧之前的某一帧开始执行。

第一音频帧可以为检测到目标动作时，对应的缓存至缓冲区的音频帧。基于第一音频帧可以确定合并多路音频的起始时刻。具体地，可以由当前缓存的第一音频帧为基准，回退预设时间长度，开始对多路音频进行合并。其中，预设时间长度例如可以是100ms。

在一种实现方式中，可以由当前缓存的第一音频帧为基准，回退i帧音频帧，开始对多路音频进行合并。

应理解，本申请实施例中的一帧音频帧可以对应一段时间间隔。

作为一个示例，如图12所示，假如检测到目标动作时，本机麦克风录制的音频恰好缓存的音频帧为[X]，无线麦克风录制的音频恰好缓存的音频帧为[Y]，那么对该双路音频的音频进行合并时，可以回退i帧，也就是说将音频帧[X-i，X]和音频帧[Y-i，Y]进行合并，获取的第三音频对应的音频帧可以是[M-i，M]。更进一步地，这一时间段音频对应的视频帧可以是[Z-i，Z]。其中，i为大于或等于1的整数，X，Y，M，Z均为大于i的整数。

根据本申请实施例提供的音频处理的方法，通过相对于检测到目标动作的时刻，提前一定时间对多路音频进行合并，可以避免由于检测目标动作过程造成的时延，导致音频内容不完整或者音效不连贯的问题。

以双路音频合并的场景为例，对调整第三音频中各路音频的权重的具体过程进行详细的介绍。为便于描述，将双路音频分别记为音频1(即音轨1)和音频2(即音轨2)，合并后的音频记为音频3(或称混合音轨)，在实际应用时，音频1例如可以是本机麦克风录制的音频，音频2例如可以是无线麦克风录制的音频。

作为一个示例，如图13所示，音频1和音频2采样率为8bit，待合并的音频帧分别为[X-i，X]和[Y-i，Y]，其中，第[X-i]帧的音频数据为11，第[(X-i)+1]帧的音频数据为12，第[(X-i)+2]帧的音频数据为200；第[Y-i]帧的音频数据为21，第[(Y-i)+1]帧的音频数据为22，第[(Y-i)+2]帧的音频数据为202。

对音频1和音频2进行合并得到的音频3(或称混合音轨)中，例如可以设置双路音频的权重均为0.5，此时，音频3各帧对应的音频数据如下：第[Z-i]帧的音频数据为(11+21)/2＝16，第[(Z-i)+1]帧的音频数据为(12+22)/2＝17，第[(Z-i)+2]帧的音频数据为(200+202)/2＝201。

以下，以改变音频1和音频2的音量的权重为例进行说明，在其它实施例中，还可以调整其它音频特征。当权重随时间动态变化时，如图8所示，音频1的权重随时间呈线性变化，此时音频1和音频2的调整过程如下：

音频1的第一帧，权重W₁₁＝0.2，此时，音频2的第一帧，权重W₂₁＝1-W₁₁＝0.8；

……

音频1的第i帧，权重W_1i＝0.8，此时，音频2的第i帧，权重W_2i＝1-W_1i＝0.2。

因此，对于音频1和音频2的第h帧(1≤h≤i)，其权重可以表示如下：

音频1的第h帧：权重

音频2的第h帧：权重W_2h＝1-W_1h。

此外，当对n路音频合并时，也可以采用与双路音频合并类似的方法调整各路音频的权重。假设各音频缓存的第1帧至第n帧的音频数据如图10所示，则第三音频中第i帧中各音频权重W和第i帧的音频数据Zi可以分别满足如下公式：

W_1i+W_2i+…+W_ni＝1

Z_i＝W_1i×X_1i+W_2i×X_2i+…+W_ni×X_ni

应理解，本申请实施例提供的音频处理的方法中的音频采样率可以为8bit，16bit或者24bit，本申请对此不作限定。

通过本申请实施例提供的音频处理的方法，通过一个音轨完整播放多个声音通道录制的音频，能够在保证音频内容完整的基础上，实现视频之间的光滑切换，并有针对性地凸显多路音频中的重点内容。并且各路音频自然光滑切换，给用户带来良好的收听体验。

可以理解的是，为了实现上述功能，电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请实施例还提供一种电子设备，包括一个或多个处理器以及一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行上述相关方法步骤实现上述实施例中的音频处理方法。

本申请的实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的音频处理方法。

本申请的实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中电子设备执行的音频处理方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件，模块或芯片系统，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中电子设备执行的音频处理方法。

其中，本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

结合上文，本申请还提供如下实施例：

实施例1、一种音频处理的方法，其中，应用于电子设备，所述电子设备包括第一摄像头、第二摄像头，其中，所述第一摄像头拍摄第一视角，所述第二摄像头拍摄第二视角，所述方法包括：

响应于用户输入对所述目标录像文件的播放操作，播放所述第三音频和第一视频画面；

其中，

当播放到所述第一时刻对应的画面时，所述第三音频中的第二音频的音频特征发生变化。

实施例2、根据实施例1所述的方法，其中，所述音频特征包括音量，播放所述目标录像文件，具体包括：

当播放到所述第一时刻对应的视频画面时，所述第二音频的音量增大。

实施例3、根据实施例2所述的方法，其中，当播放到所述第一时刻对应的视频画面时，所述第二音频的音量逐渐增大。

实施例4、根据实施例1-3中任一项所述的方法，其中，在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，所述电子设备显示拍摄界面，所述拍摄界面包括所述第一视频画面和第二视频画面；

所述目标录像文件还包括所述第二视频画面；

实施例5、根据实施例1-3中任一项所述的方法，其中，在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，所述电子设备显示拍摄界面，所述拍摄界面不包括所述第二视频画面；

实施例6、根据实施例1-5中任一项所述的方法，其中，在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，在所述第一时刻，所述第二视频画面中的所述第一说话人张口。

实施例7、根据实施例1-6中任一项所述的方法，其中，在所述录像模式下，在第二时刻，第二说话人说话，所述第二说话人位于所述第一视角内；

实施例8、根据实施例7所述的方法，其中，当播放到所述第二时刻对应的画面时，所述第三音频中所述第一音频的音量逐渐增大。

实施例9、根据实施例1-8中任一项所述的方法，其中，所述电子设备包括第一麦克风和第二麦克风；

实施例10、根据实施例1-8中任一项所述的方法，其中，所述电子设备包括第一麦克风，第二麦克风与所述电子设备无线连接；

在所述录像模式下，所述第一麦克风录制所述第一音频，所述第二麦克风录制所述第二音频，所述第二音频通过所述无线连接发送给所述电子设备；或，

在所述录像模式下，所述第一麦克风录制所述第二音频，所述第二麦克风录制所述第一音频，所述第一音频通过所述无线连接发送给所述电子设备。

实施例11、根据实施例1-8中任一项所述的方法，其中，第一麦克风和第二麦克风均与所述电子设备无线连接，所述第一音频和所述第二音频通过所述无线连接发送给所述电子设备；

实施例12、根据实施例1-11中任一所述的方法，其中，在所述录像模式下，缓存所述第一音频的音频帧、第二音频的音频帧和第一视频画面的视频帧；

检测所述第一说话人的动作；

实施例13、根据实施例1-12中任一所述的方法，其中，所述第一视角和第二视角是前置视角、广角视角、变焦视角中的任意两个视角。

实施例14、一种音频处理的方法，其中，应用于电子设备，所述电子设备包括第一摄像头、第二摄像头，其中，所述第一摄像头拍摄第一视角，所述第二摄像头拍摄第二视角，所述方法包括：

其中，

当播放到所述第一时刻对应的画面时，所述第三音频中的第一音频的音频特征发生变化。

实施例15、根据实施例14所述的方法，其中，所述音频特征包括音量，播放所述目标录像文件，具体包括：

实施例16、根据实施例15所述的方法，其中，当播放到所述第一时刻对应的视频画面时，所述第一音频的音量逐渐增大。

实施例17、根据实施例14-16中任一项所述的方法，其中，所述电子设备包括第一麦克风和第二麦克风；

实施例18、根据实施例14-16中任一项所述的方法，其中，所述电子设备包括第一麦克风，第二麦克风与所述电子设备无线连接；

实施例19、根据实施例14-16中任一项所述的方法，其中，第一麦克风和第二麦克风均与所述电子设备无线连接，所述第一音频和所述第二音频通过所述无线连接发送给所述电子设备；

实施例20、根据实施例14所述的方法，其中，在所述录像模式下，缓存所述第一音频的音频帧、第二音频的音频帧和第一视频画面的视频帧；

检测所述第一说话人的动作；

实施例21、根据实施例14所述的方法，其中，所述第一视角和第二视角是前置视角、广角视角、变焦视角中的任意两个视角。

实施例22、一种电子设备，其中，包括：

多个摄像头，用于采集视频画面；

屏幕，用于显示界面；

音频播放部件，用于播放音频；

一个或多个处理器；

存储器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行如实施例1-21任一项所述的音频处理方法。

实施例23、一种计算机可读存储介质，其中，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如实施例1至21中任一项所述的音频处理的方法。

实施例24、一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如实施例1至21中任一项所述的音频处理的方法。

实施例25、一种电子设备，包括屏幕、计算机存储器、摄像头，用于实现如实施例1至21中任一项所述的音频处理的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频处理的方法，其特征在于，应用于电子设备，所述电子设备包括第一摄像头、第二摄像头，其中，所述第一摄像头拍摄第一视角，所述第二摄像头拍摄第二视角，所述方法包括：

响应于所述用户输入的录像操作时，进入录像模式；在所述录像模式下，

所述第一摄像头对所述第一视角录制第一视频画面；

录制多个声音通道的音频，所述多个声音通道的音频包括所述第一视角对应的第一音频和所述第二视角对应的第二音频；

在第一时刻，第一说话人说话，所述第一说话人位于所述第二视角内；

响应于用户输入对所述目标录像文件的播放操作，播放所述第三音频和第一视频画面；其中，

2.根据权利要求1所述的方法，其特征在于，所述音频特征包括音量，播放所述目标录像文件，具体包括：

3.根据权利要求2所述的方法，其特征在于，当播放到所述第一时刻对应的视频画面时，所述第二音频的音量逐渐增大。

4.根据权利要求1-3中任一项所述的方法，其特征在于，在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，所述电子设备显示拍摄界面，所述拍摄界面包括所述第一视频画面和第二视频画面；

所述目标录像文件还包括所述第二视频画面；

播放所述目标录像文件时，显示所述第一视频画面和所述第二视频画面。

5.根据权利要求1-3中任一项所述的方法，其特征在于，在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，所述电子设备显示拍摄界面，所述拍摄界面不包括所述第二视频画面；

播放所述目标录像文件时，不显示所述第二视频画面。

6.根据权利要求1-5中任一项所述的方法，其特征在于，在所述录像模式下，所述第二摄像头对所述第二视角录制第二视频画面，在所述第一时刻，所述第二视频画面中的所述第一说话人张口。

7.根据权利要求1-6中任一项所述的方法，其特征在于，在所述录像模式下，在第二时刻，第二说话人说话，所述第二说话人位于所述第一视角内；

播放所述目标录像文件时，当播放到所述第二时刻对应的画面时，所述第三音频中所述第一音频的音频特征发生变化。

8.根据权利要求7所述的方法，其特征在于，当播放到所述第二时刻对应的画面时，所述第三音频中所述第一音频的音量逐渐增大。

9.根据权利要求1-8中任一项所述的方法，其特征在于，所述电子设备包括第一麦克风和第二麦克风；

10.根据权利要求1-8中任一项所述的方法，其特征在于，所述电子设备包括第一麦克风，第二麦克风与所述电子设备无线连接；

11.根据权利要求1-8中任一项所述的方法，其特征在于，第一麦克风和第二麦克风均与所述电子设备无线连接，所述第一音频和所述第二音频通过所述无线连接发送给所述电子设备；

12.根据权利要求1-11中任一所述的方法，其特征在于，在所述录像模式下，缓存所述第一音频的音频帧、第二音频的音频帧和第一视频画面的视频帧；

检测所述第一说话人的动作；

13.根据权利要求1-12中任一所述的方法，其特征在于，所述第一视角和第二视角是前置视角、广角视角、变焦视角中的任意两个视角。

14.一种音频处理的方法，其特征在于，应用于电子设备，所述电子设备包括第一摄像头、第二摄像头，其中，所述第一摄像头拍摄第一视角，所述第二摄像头拍摄第二视角，所述方法包括：

所述第一摄像头对所述第一视角录制第一视频画面；

在第一时刻，第一说话人说话，所述第一说话人位于所述第一视角内；

15.根据权利要求14所述的方法，其特征在于，所述音频特征包括音量，播放所述目标录像文件，具体包括：

16.根据权利要求15所述的方法，其特征在于，当播放到所述第一时刻对应的视频画面时，所述第一音频的音量逐渐增大。

17.一种电子设备，其特征在于，包括：

多个摄像头，用于采集视频画面；

屏幕，用于显示界面；

音频播放部件，用于播放音频；

一个或多个处理器；

存储器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行如权利要求1-13或14-16任一项所述的音频处理方法。

18.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-13或14-16中任一项所述的音频处理的方法。

19.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-13或14-16中任一项所述的音频处理的方法。

20.一种电子设备，包括屏幕、计算机存储器、摄像头，用于实现如权利要求1-13或14-16中任一项所述的音频处理的方法。