CN113709619A

CN113709619A - 音频处理方法、装置、用户终端及计算机可读介质

Info

Publication number: CN113709619A
Application number: CN202111015684.9A
Authority: CN
Inventors: 许逸君
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26
Also published as: WO2023029829A1

Abstract

本申请公开了一种音频处理方法、装置、用户终端及计算机可读介质，涉及音频处理技术领域，该方法包括：获取通过待处理音频数据，所述待处理音频数据预先由所述第一耳机和所述第二耳机采集；在所述用户终端的屏幕上显示调试组件；获取用户基于所述调试组件输入的目标调试参数值；基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。因此，基于用户对屏幕上现实的调试组件对待处理音频数据的音频参数调整，使得用户能够自主调整音频数据，而避免音频数据的音频效果太过单一。另外，由于该音频数据是由两个耳机采集的，因此，能够还原真实听感，表现真实的空间声场，降低了耳机侧的功耗和运算量。

Description

音频处理方法、装置、用户终端及计算机可读介质

技术领域

本申请涉及音频处理技术领域，更具体地，涉及一种音频处理方法、装置、用户终端及计算机可读介质。

背景技术

在一些场景中，有些用户会使用佩戴的耳机进行录音。然而，目前往往使用单耳机进行录音，录音效果差，并且，录音得到的音频数据受限于录制时所使用的设备和处理方式，音频效果比较单一。

发明内容

本申请提出了一种音频处理方法、装置、用户终端及计算机可读介质，以改善上述缺陷。

第一方面，本申请实施例提供了一种音频处理方法，应用于录音系统的用户终端，所述录音系统还包括第一耳机和第二耳机，所述第一耳机和所述第二耳机均设置有音频采集装置。音频处理方法包括：获取待处理音频数据，所述待处理音频数据预先由所述第一耳机和所述第二耳机采集；在所述用户终端的屏幕上显示调试组件；获取用户基于所述调试组件输入的目标调试参数值；基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。

第二方面，本申请实施例还提供了一种音频处理装置，应用于录音系统的用户终端，所述录音系统还包括第一耳机和第二耳机，所述第一耳机和所述第二耳机均设置有音频采集装置。音频处理装置包括：第一获取单元、显示单元、第二获取单元和处理单元。第一获取单元，用于获取待处理音频数据，所述待处理音频数据预先由所述第一耳机和所述第二耳机采集。显示单元，用于在所述用户终端的屏幕上显示调试组件。第二获取单元，用于获取用户基于所述调试组件输入的目标调试参数值。处理单元，用于基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。

第三方面，本申请实施例还提供了一种用户终端，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述方法。

第四方面，本申请实施例还提供了一种计算机可读介质，所述可读存储介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行上述方法。

本申请提供的音频处理方法、装置、用户终端及计算机可读介质，由所述第一耳机和所述第二耳机采集得到待处理音频数据，然后交由用户终端后处理，以对待处理音频数据的音频参数进行调整，以得到目标音频数据。具体的调整方式可以是，在用户终端的屏幕上显示调试组件，然后，获取用户基于该调试组件输入的目标调试参数值，基于该目标调试参数值调整所述待处理音频数据的音频参数。因此，基于用户对屏幕上现实的调试组件对待处理音频数据的音频参数调整，使得用户能够自主调整音频数据，而避免音频数据的音频效果太过单一。另外，由于该音频数据是由两个耳机采集的，因此，能够还原真实听感，表现真实的空间声场，降低了耳机侧的功耗和运算量。

本申请实施例的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的录音系统的示意图；

图2示出了本申请一实施例提供的无线耳机与终端的连接示意图；

图3示出了本申请另一实施例提供的无线耳机与终端的连接示意图；

图4示出了本申请一实施例提供的音频处理方法的方法流程图；

图5示出了本申请一实施例提供的录音流程的示意图；

图6示出了本申请另一实施例提供的音频处理方法的方法流程图；

图7示出了本申请一实施例提供的多媒体列表界面的示意图；

图8示出了本申请一实施例提供的音频处理系统的模块图；

图9示出了本申请一实施例提供的编辑按钮的示意图；

图10示出了本申请一实施例提供的方式选择界面的示意图；

图11示出了本申请一实施例提供的编辑界面的示意图；

图12示出了本申请另一实施例提供的编辑界面的示意图；

图13示出了本申请又一实施例提供的音频处理方法的方法流程图；

图14示出了本申请又一实施例提供的编辑界面的示意图；

图15示出了本申请一实施例提供的参数调整界面的示意图；

图16示出了本申请一实施例提供的指定选择界面的示意图；

图17示出了本申请一实施例提供的音频处理装置的模块框图；

图18示出了本申请一实施例提供的用户终端的示意图；

图19示出了本申请实施例的存储单元的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

目前，耳机作为音频播放器越来越广泛的被人们使用，而为了增加耳机的录音功能，会在耳机上设置音频采集装置，例如，麦克风。

在一些场景中，有些用户会使用佩戴的耳机进行录音。例如，在使用手机拍摄视频的时候，可以通过手机的摄像头采集视频画面，通过用户佩戴的耳机录音，或者同时使用手机的麦克风和用户佩戴的耳机共同采集声音。

目前，有些录音的场景下使用单耳机录拾音，拾取的为单声道的信号，通过蓝牙传送到手机端时将单声道复制到两个声道，变为平衡立体声。该录音方式的录音算法的部分放在耳机端，由于为单声道的录音，所以不需要进行声场相关的实时处理，所以可以在录制的时候就执行完所有的处理，包括降噪，人声增强等。

发明人在研究中发现，单耳机录音的方式存在以下缺点：录制出的音频或视频为平衡立体声，非真立体声，无法表现真实的空间声场，由于只使用单边的耳机的麦克风进行收音，需要输出给手机的音频应当是单声道的信号，所以录音的算法需要由耳机端执行，对于耳机的资源和功耗的压力比较大。

为了克服单耳机录音的缺陷，可以使用双耳机录音，具体地，使用双耳人头立体声录音技术进行录音。双耳人头立体声录音技术(Binaural Audio)是一种高度还原真实听感的录音技术。具体地，在用户头部的两只耳朵佩戴的耳机设置有麦克风，这样可以捕捉各个声源到达每只耳朵位置的声音信号，则在每个耳机分别播放所采集的声音信号的时候，两个声音信号就可以分别在每只耳朵上重现。这种重现不适用单声道播放，如果用扬声器来播放也达不到预期的效果，所以通常会使用耳机，将两只耳朵接收的声信号完全隔离开。

因此，于本申请实施例中，使用两个耳机的麦克风进行收音，可以达到以上双耳录音技术的效果。但拍摄过程中由于存在佩戴耳机拍摄者的头部会不停的有轻微的转动，实时处理的难度会比较大，如果实时进行处理，对于拍摄视频功耗的增加就没办法控制，且实时处理不一定会足够准确。另外，实时处理之后没有办法留下接口，以便后续编辑处理，用户无法根据自己拍摄的场景调用不同的后处理风格。

因此，为了克服上述缺陷，本申请实施例提供了一种音频处理方法，使得用户能够自主调整音频数据，而避免音频数据的音频效果太过单一。另外，由于该音频数据是由两个耳机采集的，因此，能够还原真实听感，表现真实的空间声场，降低了耳机侧的功耗和运算量。

具体地，在介绍本申请实施例的音频处理方法之前，先介绍该方法的应用场景，即录音系统。如图1所示，录音系统10包括用户终端100、第一耳机210和第二耳机220。该用户终端可以是智能手机、平板电脑、电子书、智能穿戴设备等能够运行应用程序、并且具有音频信号采集和视频信号采集的功能的设备。

作为一种实施方式，第一耳机和第二耳机均为无线耳机也可以是有线耳机，第一耳机和第二耳机均设置有麦克风。具体地，于本申请实施例中，第一耳机和第二耳机均为无线耳机，第一耳机210和第二耳机220构成真无线立体声(True Wireless Stereo，TWS)耳机，其中，TWS耳机的左右两只耳机相互独立、无需线缆相连，即可实现左右声道的无线分离。于本申请实施例中，可以通过第一耳机210和第二耳机220采集周围音频信号，即双耳录音。作为一种实施方式，第一耳机210和第二耳机220采集音频信号，将所采集的音频信号发送给用户终端执行后处理操作，从而能够降低耳机端的功耗。

于本申请实施例中，用户终端100内安装有能够采集图像和音频的应用程序，具体地，该应用程序可以是相机应用或者视频录制软件。用户终端100将需要播放的音频发送给第一耳机210或第二耳机220，由第一耳机210或第二耳机220播放语音，并且，第一耳机210和第二耳机220可以采集音频信号，并且由用户终端100将该音频信号处理之后生成音频文件。

作为一种实施方式，如图2所示，用户终端100能够同时与第一耳机210和第二耳机220连接。第一耳机210和第二耳机220能够直接将音频数据发送至用户终端100，或者，接收用户终端100发送的音频数据进行播放。

作为另一种实施方式，如图3所示，用户终端100与第一耳机210通过蓝牙连接，然后，第一耳机210再通过蓝牙和第二耳机220连接，从而，用户终端100、第一耳机210和第二耳机220通过组网的方式实现同时连接，即第一耳机210作为用户终端100和第二耳机220的中继器。

于本申请实施例中，用户终端100、第一耳机210和第二耳机220通过图3所示的方式连接，则该第一耳机210可以作为主耳机，第二耳机220可以作为从耳机。

请参阅图4，图4示出了本申请实施例提供的方法，该方法应用于上述录音系统，具体地，该方法的执行主体可以是上述用户终端。具体地，该方法包括：S401至S404。

S401：获取待处理音频数据。

所述待处理音频数据预先由所述第一耳机和所述第二耳机采集。

作为一种实施方式，在执行录音操作的时候，第一耳机和第二耳机开启录音，则第一耳机和第二耳机同时采集周围的声源发出的声音。在一些实施例中，将第一耳机采集的音频记为第一音频数据，第二耳机采集的音频记为第二音频数据，该音频数据由第一音频和第二音频合成。

具体地，用户终端可以设置双耳录音模式，并且可以通过用户输入的启动指令启动该双耳录音模式。则在用户终端进入该双耳录音模式之后，第一耳机采集第一音频数据，第二耳机采集第二音频数据。第一耳机采集的第一音频数据对应的时间戳为第一时间戳，第二耳机采集的第二音频数据对应的时间戳为第二时间戳。作为一种实施方式，用户终端可以接收第一耳机发送的第一音频数据和第一时间戳，以及第二耳机发送的第二音频数据和第二时间戳，基于所述第一音频数据的第一时间戳和所述第二音频数据的第二时间戳，将所述第一音频数据和所述第二音频数据整合成音频数据包，再基于音频数据包生成音频文件。作为另一种实施方式，还可以是第一耳机作为主耳机，接收第二耳机发送的第二音频数据和第二时间戳，基于所述第一音频数据的第一时间戳和所述第二音频数据的第二时间戳，将所述第一音频数据和所述第二音频数据整合成音频数据包，再将音频数据包发送至用户终端，用户终端基于音频数据包生成音频文件。

作为一种实施方式，由主耳机生成音频数据包，具体地，第一耳机基于该第一时间戳和第二时间戳将第一音频数据和所述第二音频数据整合成音频数据包，使得整合后的音频数据包内，不同的音频数据依据时间戳融合，例如，第一音频数据的第一时间戳为t1，第二音频数据的第二时间戳为t2，且t1早于t2，则整合后的音频数据包内被播放的时候，在t1的时刻，播放第一音频数据，到达t2的时候，播放第二音频数据。

第一耳机将音频数据包发送至所述用户终端，用户终端基于所述音频数据包生成音频文件，具体地，可以是对音频数据包执行编码或者优化处理等操作之后生成指定音频格式的音频文件，该指定音频格式可以是MP3、WAV、FLC等。

请参阅图5，第一耳机210和第二耳机220采集音频的流程如图5所示，第一音频被第一耳机210采集，第二音频被第二耳机220采集。第一音频信号经过第一耳机的编码并且添加同步信息(即第一时间戳)之后，输入主缓冲区内存储，其中，主缓冲区为用于存储第一耳机采集的音频数据的缓冲区。第二音频信号经过第二耳机的编码并且添加同步信息(即第二时间戳)之后，输入从缓冲区内存储，其中，从缓冲区为用于存储第二耳机采集的音频数据的缓冲区。其中，该编码方式可以是Opus编码，具体地，在此不做限定。

主耳机(即第一耳机)基于所述第一音频数据的第一时间戳和所述第二音频数据的第二时间戳，将所述第一音频数据和所述第二音频数据整合成音频数据包，基于标准并行接口(Standard Parallel Port,SPP)通过蓝牙通信模块，基于无线通讯网络(WirelessCommunication Network，WCN)将该音频数据包发送至用户终端100，用户终端100的蓝牙模块接收到该音频数据包之后，进行解码，解码成PCM的数据，给到后处理的算法模块，该后处理的算法模块可以是应用处理器AP内的模块，进行增益调整处理和频率处理的调整后给到录音的APK输出MP3的文件。

其中，增益调整处理包括增益增大操作和动态范围调整(Dynamic RangeControl，DRC)，其中，增益增大操作包括对目标声源的音频信号的整个频域或时域部分的增益增大，动态范围调整是指用来动态调整音频输出幅值，在音量大时压制音量在某一范围内，在音量小时适当提升音量。通常用于控制音频输出功率，使扬声器不破音，当处于低音量播放时也能清晰听到。频率处理用于对目标声源的音频信号的不同频率部分进行处理，例如，EQ和降噪，其中，EQ英文全称Equaliser，即均衡器，用于通过对音频信号的某一个或多个频段进行增益或衰减，从而达到调整音色的目的。降噪可以是滤波，即将音频信号中的部分频段的信号滤除等，以降低音频信号中的噪声。

通过上述方式获取到的音频文件可以被用户终端存储，也可以由用户终端对应存储在某个数据库内，在用户终端检测到编辑请求的时候，确定该编辑请求对应的音频数据，则该待处理音频数据即为该编辑请求对应的音频文件。

S402：在所述用户终端的屏幕上显示调试组件。

作为一种实施方式，在该用户终端的屏幕上显示指定界面，该指定界面上显示调试组件，其中，该指定界面可以是在用户输入编辑请求时被打开的界面。作为一种实施方式，该调试组件设置有参数输入控件，该参数输入控件可以包括虚拟键盘、选择框等多种能够输入信息的控件。

作为一种实施方式，该调试组件与音频数据的音频参数对应，例如，该调试组件可以包括多个子组件，每个子组件对应音频数据的一个参数，再例如，该调试组件可以是多个预设模式，每个预设模式对应特定的至少一个音频参数，选中该预设模式就相当于输入该模式对应的至少一个音频参数。

S403：获取用户基于所述调试组件输入的目标调试参数值。

作为一种实施方式，该音频数据可以对应有多个音频特性，每个音频特性由音频参数表示，例如，该音频特性可以包括人声占比，则该人声占比对应的音频参数为40％可以表示所有的声音中，人声部分与所有声音的时间长度的占比，则调整该音频参数就能够调整人声占比，进而调整音频数据的音频特征。例如，用户通过调试组件输入人声占比50％，该50％作为目标调试参数值。

S404：基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。

其中，可以将该目标调试参数值对应的音频参数记为目标音频参数，则基于所述目标调试参数值调整所述待处理音频数据的音频参数的实施方式可以是，确定目标调试参数值对应的目标音频参数，利用所述目标调试参数值调整音频数据对应的目标音频参数，以得到目标音频数据。

例如，该目标调试参数值为指定频段的强度值A，则该目标调试参数值对应的目标音频参数为指定频段的强度值，则用户终端将待处理音频数据的指定频段的强度值设置为A，以得到目标音频数据，即目标音频数据中的指定频段的强度值为A。

因此，本申请实施例提供的方法，由所述第一耳机和所述第二耳机采集得到待处理音频数据，然后交由用户终端后处理，以对待处理音频数据的音频参数进行调整，以得到目标音频数据。具体的调整方式可以是，在用户终端的屏幕上显示调试组件，然后，获取用户基于该调试组件输入的目标调试参数值，基于该目标调试参数值调整所述待处理音频数据的音频参数。因此，基于用户对屏幕上现实的调试组件对待处理音频数据的音频参数调整，使得用户能够自主调整音频数据，而避免音频数据的音频效果太过单一。另外，由于该音频数据是由两个耳机采集的，因此，能够还原真实听感，表现真实的空间声场，降低了耳机侧的功耗和运算量。

作为一种实施方式，处理的音频数据由第一耳机采集的第一音频和由第二耳机采集的第二音频合成的，其中，第一音频为第一耳机将采集的原始音频数据经过预处理之后得到的，第二音频为所述第二耳机将采集的原始音频数据经过预处理之后得到的。其中，预处理可以包括降噪处理和增益调整处理，该增益调整处理可以是上述的增益增大操作，降噪处理可以是高低通滤波，用于滤掉人耳不易感知的频段的声音。则该实施例中，第一音频和第二音频均为经过预处理的音频数据，然后，由主耳机(例如第一耳机)将第一音频和第二音频合成。

作为另一种实施方式，该预处理可以由用户终端执行，即第一耳机采集的原始音频数据作为第一音频，第二耳机采集的原始音频数据作为第二音频。在一些实施例中，第一耳机作为主耳机，第二耳机作为从耳机，第一耳机通过上述方式合成音频数据包之后，发送给用户终端，用户终端对该音频数据包执行预处理以及编码和分析等操作得到音频文件并且存储。其中，预处理的方式可以参考前述实施例，分析操作将在后续描述中介绍。

请参阅图6，图6示出了本申请实施例提供的方法，该方法应用于上述录音系统，具体地，该方法的执行主体可以是上述用户终端。具体地，该方法包括：S601至S605。

S601：获取待处理音频数据。

作为一种实施方式，用户终端内安装有多媒体应用程序，该多媒体应用程序可以显示音频或视频列表，用户基于该视频列表选中一个视频文件或音频文件，该被选中的音频文件或被选中的视频文件对应的音频文件作为待处理音频数据。

具体地，获取用户基于所述用户终端所显示的多个视频文件中选中的视频文件，将所述视频文件对应的音频数据作为待处理音频数据。于本申请实施例中，该多媒体应用程序可以是相册应用，该相册应用对应有多媒体列表界面，用户在视频录制过程中采集的视频文件被存储在相册应用对应的存储空间内，并且在用户启动该相册应用的多媒体列表界面的时候，录制视频时所生成的视频文件可以在多媒体列表界面内显示。

如图7所示，多媒体列表界面710上显示有多个视频文件的缩略图711，其中，该视频文件的缩略图可以作为视频文件的身份信息，当然也可以是采用名称、编号等其他的方式作为视频文件的身份信息。用户在多媒体列表界面中选择一个需要处理的视频文件，作为选中的视频文件，则该选中的视频文件对应的音频文件作为待处理音频数据。其中，该多媒体列表界面内可以显示图片或视频文件的缩略图。

用户在选择视频文件之后，用户终端可以显示编辑界面，以便在编辑界面上更改待处理音频数据的音频参数，具体请参阅后续描述。

S602：获取所述用户终端预先基于所述待处理音频数据分析得到的至少一个元数据。

作为一种实施方式，待处理音频数据对应有至少一个元数据，每个所述元数据用于表征所述音频数据的至少一个音频特性。于本申请实施例中，该元数据的数量为多个，且每个元数据用于表征音频数据的一个音频特性，并且，每个音频特性对应至少一个音频参数，即通过音频参数表征音频数据的一个音频特性，因此，调整该元数据的音频参数就能够调整待处理音频数据的音频参数，进而使得调整后的音频数据具有所期望的音频特性。

作为一种实施方式，该元数据是在对待处理音频数据分析操作时产生的，具体地，用户终端在获取到原始音频数据(例如，上述音频数据包)之后，会对该原始音频数据执行预处理和分析操作，其中，预处理的方式可以参考前述实施例，在此不再赘述。

分析操作是为了分析音频数据中各个音频参数的特性，即各个元数据。如图8所示，音频处理系统包括预处理模块、分析模块和编辑模块，预处理模块对双耳录制的原始音频数据执行预处理操作，分析模块对经过预处理之后的音频数据分析，得到多个元数据，然后，将经过预处理和分析操作之后的音频数据以及分析得到的元数据发送至编辑模块，以便由编辑模块为用户提供编辑功能。

作为一种实施方式，该元数据可以包括声场调节元数据、人声增强元数据、频响元数据、降噪元数据和拍摄模式元数据。其中，声场调节元数据用于表征第一音频和第二音频之间的幅值差值和相位差异，即该声场调节元数据所表征的音频数据的空间声音频特性，具体地，该空间声音频特性为录音过程中双耳所听到的音频数据的差异和周围环境的信息，该周围环境的信息可以是周围空间的信息，例如，用户在不同的空间内所收听的声音的空间感是不同的，具体地，该空间声音频特性表现为声音到达双耳的强度值和时间是不同的。则该声场调节元数据对应的音频参数为音频数据中的第一音频和第二音频之间的强度差和延时值，具体地，可以是第一音频中的直达声、早期反射声和混响声的强度值和延时值，以及第二音频中的直达声、早期反射声和混响声的强度值和延时值。

其中，人声增强元数据用于表征音频数据中人声占比，该人声增强元数据能够表征音频数据的人声特性，该人声占比为说话人的语音的时长与总录音时长的比值，即确定音频数据中包含人声的部分的持续时长以及该音频数据的总时长，将该持续时长与总时长之间的比值作为人声占比，则该人声增强元数据对应的音频参数为人声时长和总时长。另外，该人声占比也可以是人声的强度值与人声之外的音频的强度值的占比，在此不做限定。

其中，频响元数据用于表征所述音频数据的频率响应特性，对应的音频特性为音频数据的频响曲线，所对应的音频参数为各频段的强度值即幅值，其中，该各频段可以是预先划分的频段，例如，可以是前述的EQ对应的各个频段。降噪元数据用于表征所述音频数据中噪声强度，对应的音频特性为音频数据的环境噪声的强度，对应的音频参数为噪声强度，即音频数据中的环境噪声部分的强度值。

其中，拍摄模式元数据用于表征用户终端通过所述前摄摄像头还是后置摄像头执行视频录制。具体地，用户终端包括前置摄像头和后置摄像头，所述音频数据与所述用户终端在视频录制过程中所采集的视频画面对应，所述调试组件还包括录制模式组件，所述录制模式组件用于输入前摄模式和后摄模式，前摄模式用于表征所述用户终端通过所述前摄摄像头执行视频录制，所述后置模式用于表征所述用户终端通过所述后摄摄像头执行视频录制。作为一种实施方式，该拍摄模式元数据可以不通过对双耳机采集的音频数据的分析而获得，可以是在用户终端进行视频录制的时候，通过监控用户在视频录制时所选择使用的前置摄像头或后置摄像头而确定，然后，可以设置拍摄参数，该拍摄参数分别具有两个值，分别对应前置摄像头录制和后置摄像头录制，将该拍摄参数作为拍摄模式元数据发送给编辑模块。

S603：基于所述元数据在所述用户终端的屏幕上显示所述调试组件。

作为一种实施方式，调试组件包括至少一个子组件，每个所述子组件对应一个所述元数据，每个所述子组件用于输入该子组件对应的元数据的调试参数值。

具体地，声场调节元数据对应的子组件为声场组件，声场调节元数据对应的音频参数为第一音频和第二音频之间的强度差和延时值，即声场组件用于输入第一音频和第二音频之间的强度差和延时值。人声增强元数据对应的子组件为人声组件，人声增强元数据对应的音频参数为人声占比，即人声组件用于输入人声占比。频响元数据对应的子组件为频响组件，频响元数据对应的音频参数为各频段的强度值即幅值，即频响组件用于输入各频段的强度值即幅值。拍摄模式元数据对应的子组件为录制模式组件，拍摄模式元数据对应的音频参数为拍摄参数，即录制模式组件用于输入拍摄参数。降噪元数据对应的子组件为降噪组件，降噪元数据对应的音频参数为噪声强度，即降噪组件用于输入噪声强度值。

作为一种实施方式，在用户选中音频文件之后，基于前述分析所得到的元数据确定每个元数据对应的子组件并且在屏幕上显示各个子组件。在一些实施例中，该音频文件可以是视频文件对应的音频流，则用户在图7所示的界面选中某个视频文件之后，将该视频对应的音频文件作为待处理音频数据，并且在该视频文件的播放界面上显示编辑按钮，如图9所示，该界面上所显示的编辑按钮901用于触发显示编辑界面，从而能够在该编辑界面上显示调试组件。

作为一种实施方式，可以将上述每个元数据对应的子组件均显示，也可以是显示部分子组件。作为另一种实施方式，可以显示多种不同的参数调整方式，每种参数调整方式对应的子组件不同，即所对应的元数据不同。于本申请实施例中，可以设置三种参数调整方式，分别命名为第一参数调整方式、第二参数调整方式和第三参数调整方式。第一参数调整方式对应的调试组件可以包括人声组件、频响组件和降噪组件的至少一种，则第一参数调整方式用于对待处理音频数据中的人声占比、各频段的强度值和噪声强度值的至少一种进行调整，则第一参数调整方式可以作为对音频数据的基本属性的调整。于申请实施例中，至少一个元数据包括人声增强元数据、频响元数据、降噪元数据，则第一参数调整方式包括人声组件、频响组件和降噪组件。

第二参数调整方式可以作为至少对音频数据的空间声特性的调整，即在第二参数调整方式下，所显示的调试组件至少包括声场组件，即所对应的元数据为声场调节元数据，则第二参数调整方式用于对音频数据中的第一音频和第二音频之间的强度差和延时值调整，以调整音频数据的声场宽度。作为一种实施方式，第二参数调整对应的调试组件可以包括人声组件、频响组件、降噪组件和声场组件，从而第二参数调整方式可以对音频数据中的人声占比、各频段的强度值和噪声强度值以及第一音频和第二音频之间的强度差和延时值进行调整。

第三参数调整方式可以作为至少对音频数据的声源调整，即第三参数调整方式下，所显示的调试组件至少包括录制模式组件，即所对应的元数据为拍摄模式元数，则在第三参数调整方式下，用户可以输入拍摄参数，从而用户终端根据用户输入的拍摄参数确定前置摄像头内的目标为目标声源，还是后置摄像头内的目标为目标声源，从而能够对目标声源优化处理，例如，将目标声源的音频作为突出增强的人声。作为另一种实施方式，该第三参数调整方式还可以包括前述的子组件，例如，该第三参数调整方式对应的调试组件可以包括人声组件、频响组件、降噪组件、声场组件和录制模式组件。

如图10所述，用户在点击图9所示的编辑按钮901的时候，会显示方式选择界面1001，该方式选择界面1001内显示有多个参数调整方式的选择按钮，用户可以通过该选择按钮选中一个参数调整方式，进而显示编辑界面。如图10所示，方式选择界面1001内显示有第一参数调整方式、第二参数调整方式和第三参数调整方式的选择按钮。

于本申请实施例中，假设用户选中第三参数调整方式，并且第三参数调整方式对应的调试组件可以包括人声组件、频响组件、降噪组件、声场组件和录制模式组件，则显示图11所示的编辑界面，则在该编辑界面内显示有音频参数1、音频参数2、音频参数3、音频参数4和音频参数5的组件，即5个子组件，作为一种实施方式，该音频参数1、音频参数2、音频参数3、音频参数4和音频参数5的组件分别对应人声组件、频响组件、降噪组件、声场组件和录制模式组件。

S604：获取用户基于所述调试组件输入的目标调试参数值。

用户可以通过上述的子组件输入与该子组件对应的调试参数值，将用户输入的所有调试参数值作为目标调试参数值。具体地，获取用户在编辑界面输入的目标调试参数值。

以上述图11所示的编辑界面，该编辑界面1100上显示多个子组件1110，每个子组件1110对应有输入控件1111，用户通过每个子组件的输入控件1111输入该子组件对应的调试参数值，从而输入目标调试参数值。

作为一种实施方式，该编辑界面上还显示有对应每个子组件的播放按键1112，则在输入调试参数之后，可以通过播放按键1112预先收听该调试参数对应的音频效果，从而对用户输入调试参数做一个参考。

作为另一种实施方式，如图12所示，还可以是在显示编辑界面1100的时候，同时显示波形展示界面1200，用户在通过子组件输入调试参数的时候，用户终端能够实时获取用户输入的调试参数并内生成波形，然后将波形在波形展示界面1200上显示，也就是说，波形展示界面1200所显示的波形与用户所输入的调试参数对应，能够反应用户所输入的调试参数对音频数据的音频特性的影响。

S605：基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。

作为一种实施方式，用户通过人声组件输入的调试参数为人声占比值，用于对待处理音频数据中的人声部分与总音频的总时长的占比调整，还可以是对人声部分的强度值的调整，于本申请实施例中，该人声占比用于对人声部分的持续时长与总时长的占比调整。则在目标调试参数值包括人声占比值的时候，用户终端会对音频数据中的人声部分的持续时长和总时长调整，例如，可以是压缩总时长，或者对总时长截取，或者压缩人声部分的持续时长等方式来调整待处理音频数据。

另外，用户通过频响组件输入的调试参数为各频段的强度值，用于对待处理音频数据中的各频段的强度值调整。则在目标调试参数值包括各频段的强度值的实时，用户终端会对音频数据中的各频段的强度值调整，使各频段的强度值与目标调试参数值一致。降噪组件输入的调试参数为噪声强度，基于此，用户终端会对音频数据中的噪声的强度值进行调整，使其与目标调试参数值一致。需要说明的是，音频数据中的噪声可以是除了目标声源之外的音频部分，也可以是指定频段之外的音频部分，具体根据实际使用而设定，其中，目标声源可以是需要追焦录音的对象，也可以是需要重点突出的对象。

其中，追焦录音的方式为，由所述音频采集装置所采集的所有声源的音频信号中，对所述目标声源的音频信号优化处理。其中，音频采集装置为录制音频数据的装置，于本申请实施例中，可以是双耳机。具体地，音频采集装置可以采集周围的声音，所采集的音频可以对应多个声源，并且能够确定每个声源的方位信息，具体地，可以根据每个声源的音频信号的幅度确定该声源与音频采集装置之间的距离，根据音频信号与音频采集装置之间的到达角可以确定相位角，从而能够确定方位信息。从而就能确定每个声源所对应的方位信息，然后，基于预先获取的目标对象与音频采集装置的目标方位信息从多个方位信息中，确定出目标对象的目标声源的音频数据，从而进行追焦录音。其中，优化处理的方式为，对目标对象的音频信号提高增益以及滤波，例如上述的增益调整处理和频率处理。

作为一种实施方式，确定目标对象与音频采集装置的目标方位信息的实施方式可以是，在用户终端执行视频录制操作的情况下，基于目标对象在视频画面内的图像位置，确定目标对象与音频采集装置之间的目标方位信息。具体地，上述的音频数据的采集可以是用户终端在视频录制的过程中由双耳机采集的。在一些实施例中，音频采集装置所在的坐标系可以命名为空间声坐标系，其以音频采集装置的位置为坐标原点而建立的三维立体坐标系。视频画面内的每个位置点均与空间声坐标系的各个位置点建立了映射关系，具体地，该视频画面对应指定坐标系，所述指定坐标系为基于视频画面建立的坐标系，作为一种实施方式，该指定坐标系可以是相机坐标系。所述相机坐标系为基于所述图像采集装置建立的空间坐标系。具体地，是以图像采集装置为坐标原点，以图像采集装置对应的深度方向为Z轴而建立的三维坐标系。可以预先建立相机坐标系与空间声坐标系的映射关系，从而在确定了目标对象在相机坐标系内的坐标信息的时候，能够将该坐标信息映射到空间声坐标系内，从而能确定目标对象在空间声坐标系内的坐标，即空间声坐标，基于该空间声坐标能够确定目标对象与空间声坐标系的原点即音频采集装置的位置之间的方位信息，即目标方位信息。作为一种实施方式，该方位信息可以包括相位角和距离等信息，该相位角用于表征目标对象与音频采集装置之间的方位。

另外，用户通过声场组件输入的调试参数为第一音频和第二音频之间的强度差和延时值的至少一种，用于对待处理音频数据中的声场的宽度进行调整。其中，所述声场的对应的是音频数据的空间声效果。

声场调节是负责调节声场的宽窄，声场可以通过宽度来描述的，具体地，可以通过两个具体参数调整声场的宽度，其中，该两个参数分别为反射声的到达时间和左右耳之间的相位变化，具体地，上述的延时值就是调整反射声达到的延时，强度差就是调整左右耳之间的相位变化。延时越大，相位变化越大，声场越宽，反之，声场越小。

具体地，用户所在的空间内的空间声包括直达声、早期反射声和混响声(也成为后期反射声)。人们对于声音的空间感主要是依据早期反射声和混响声来建立的，首先直达声与早期反射声之间的初始延时大小决定了用户对空间大小的感知，同时早期反射声会来自三维空间内各个方向，声音在空间中不断反射、衰减，形成了均匀、密集的混响声，混响的时间、密度反应出了整个空间的声学特性，与直达声、早期反射生声共同建立起室内声场。通过混响声场，听音者感知到不同方向早期反射声不同的延时和响度，这有助于判断声源设备的位置和距离；另外，也能够让听音者在一定程度上感知到自己在空间中所处的位置，则此听觉上的感知就可以理解为声场的宽度。

前述的反射声可以是早期反射声和混响声的至少一种。于本申请实施例中，该反射声可以是后期反射声，用户基于声场组件调整音频数据中的后期反射声的延时以及第一音频和第二音频之间的强度差。

再者，用户通过录制模式组件输入的调试参数为拍摄参数，该拍摄参数分别具有两个值，分别对应前摄模式和后摄模式，前摄模式用于表征所述用户终端通过所述前摄摄像头执行视频录制，所述后置模式用于表征所述用户终端通过所述后摄摄像头执行视频录制，电子设备基于拍摄模块对待处理音频数据的音频参数中进行处理，该音频参数为待处理音频数据对应的多个声源中的目标声源，该目标声源作为需优化处理的声源。作为一种实施方式，在用户使用前置摄像头录制和后置摄像头录制的情况下，音频数据的音频处理方式不同。具体地，在使用前置摄像头录制的时候，需要重点对前置摄像头视野范围内的声源的音频数据优化，在使用后置摄像头录制的时候，需要对后置摄像头视野范围内的声源的音频数据优化，其中，该优化可以参考前述优化处理。在一些实施例中，在周围存在多个声源的时候，待处理音频数据对应的声音为多个，可以从该多个声源中确定位于所使用的摄像头视野范围内的声源，作为目标声源，对目标声源的音频数据优化处理。具体地，若所述目标调试参数为前摄模式，由所述待处理音频数据对应的多个声源中确定位于所述前置摄像头的视野范围内的第一目标声源，对所述第一目标声源的音频数据优化处理以得到目标音频数据；若所述目标调试参数为后摄模式，由所述待处理音频数据对应的多个声源中确定位于所述后置摄像头的视野范围内的第二目标声源，对所述第二目标声源的音频数据优化处理以得到目标音频数据。

例如，一般情况下，在使用前置摄像头的时候，目标声源位于用户终端的前方，在使用后置摄像头的时候，目标声源位于用户终端的后方。因此在不同的区域内的声源与双耳机的相位角是不同的，可以确定双耳机采集的多个声源的音频数据中，基于每个声源的音频数据确定每个声源的相位角，然后，将相位角位于第一角度范围内的声源作为位于第一区域内的对象的声源，将相位角位于第二角度范围内的声源作为位于第二区域内的对象的声源，其中，第一区域为前置摄像头视野范围，第二区域为后置摄像头视野范围。

需要说明的是，上述步骤未详细描述的部分可以参考前述实施例，在此不再赘述。

因此，通过上述的5个元数据中的至少一个元数据对应的子组件，用户能够对待处理音频数据的该至少一个元数据对应的音频参数调整，以得到目标音频数据。因此，本申请实施例基于元数据为用户提供了编辑接口，为用户提供了编辑音频数据的操作。

另外，针对一些对音频数据的音频特性不熟悉或者认为通过子组件编辑音频数据的操作过于繁琐的用户，还可以通过对预设模式的选择来对音频数据进行编辑，如图13所示，图13示出了本申请实施例提供的方法，该方法应用于上述录音系统，具体地，该方法的执行主体可以是上述用户终端。具体地，该方法包括：S1301至S1304。

S1301：获取待处理音频数据。

S1302：在所述用户终端的屏幕上显示所述至少一个预设模式选择组件。

作为一种实施方式，调试组件包括至少一个预设模式，每个所述预设模式对应有预设音频参数，其中，该预设音频参数可以基于前述的各个元数据对应的音频参数而设置。

在一些实施例中，该预设模式可以包括户外模式、街拍模式、室内模式和默认均衡模式。

其中，户外模式对应户外音频参数，在户外模式下，强调对于场景的还原，声场尽量大，降噪只处理基本的底噪，频响的调整注重清晰度和细节。其中，底噪可以是音频录制的固有噪声，比如，工频噪声或者环境噪声，作为一种实施方式，可以不需要突出某个声源的强度值，即可以不需要对其他声源的音频数据的强度值降低。声场尽量大可以是声场的宽度大于第一指定宽度，具体地，可以是反射声的延时大于指定时长，第一音频和第二音频之间的强度差大于指定差值，从而使得相位变化较大，声场较宽。因此，户外音频参数用于调整音频的声场宽度大于第一指定宽度、滤除底噪以及调整音频的清晰度大于指定清晰度。因此，户外音频参数对应的户外音频参数可以包括的前述的第一音频和第二音频之间的强度差和延时值和各频段的强度值以及噪声强度，具体地，通过各频段的强度值可以调整音频数据的频响，具体地，可以提升中高频的强度值。然后通过第一音频和第二音频之间的强度差和延时值调整声场的宽度以及通过噪声强度对音频数据执行自适应滤波以消除底噪。因此，户外模式对应的元数据为声场调节元数据、频响元数据、降噪元数据。

另外，街拍模式对应街拍音频参数，在街拍模式下，强调对于人声的增强，降噪开的较大，声场不用调的很大，注重人声的增强。其中，对人声的增强可以是将音频数据中的人声部分的强度值增大，作为一种实施方式，可以是对音频数据中的指定对象的人声音频的强度值增大，其中，该指定对象的确定方法可以是将距离用户终端最近的对象作为指定对象，也可以参考前述确定目标对象的方式。降噪开的较大的是指将人声以外的噪声通过传统的双MIC降噪方式和机器学习降噪的方式进行消除。声场不用调的很大是指声场宽度小于第二指定宽度，其中，第二指定宽度可以小于第一指定宽度，且宽度对应的音频参数为反射声的延时和双耳的音频的强度差，即不同的宽度所对应的反射声的延时和双耳的音频的强度差也不同。因此，街拍音频参数用于调整音频中人声的强度大于指定强度、对音频中人声之外的部分降噪以及调整音频的声场宽度小于第二指定宽度。具体地，通过人声占比值和噪声强度可以对音频中人声之外的部分降噪，还可以通过第一音频和第二音频之间的强度差和延时值调整声场的宽度。因此，街拍模式对应的元数据为人声增强元数据、声场调节元数据、降噪元数据。

另外，室内模式对应室内音频参数，在室内模式下，声场还原定位准确，基本不做降噪，突出还原整个室内场景下的实际情况。具体地，可以不对音频数据中的噪声较早，保留所采集的各个声源的音频数据，即可以不消除待处理音频数据中的音频成分，则可以基于预设空间分布，调整音频中的空间声部分，即室内音频参数用于基于预设空间分布调整音频中的空间声部分，所述空间声部分包括直达声、早期反射声和后期反射声的至少一种。其中，预设空间声分布可以是预先设定的几种空间分布，每个空间分布对应的空间声的音频参数不同，具体地，该音频参数可以包括双耳的音频之间的强度差以及后期反射声的延时，其中，双耳的音频之间的强度差可以是对每个耳机采集的音频部分的直达声、早期反射声和后期反射声与另一个耳机采集的直达声、早期反射声和后期反射声的强度值，例如，第一音频的直达声与第二音频的直达声的强度差，第一音频的早期反射声与第二音频的早期反射声的强度差，第一音频的后期反射声与第二音频的后期反射声的强度差。

作为一种实施方式，可以是正在选择室内模式的时候，会同时选择预设空间分布，具体地，该预设空间分布包括多个分布模式，每个分布模式对应不同属性的空间，该属性可以是体积或复杂度等。然后，在用户选择分布模式后，确定用户所选择的分布模式对应的室内音频参数。室内模式对应的音频参数包括第一音频和第二音频之间的强度差和延时值，室内模式对应的元数据为声场调节元数据。

再者，默认均衡模式对应默认均衡音频参数，默认均衡音频参数用于将音频的音频参数设置为默认值，具体地，在默认模式下，用户终端使用默认处理方式对待处理音频数据处理，即音频数据的各个音频参数为默认值。具体地，各频段的强度值相同，例如，可以是EQ频响尽量拉平；声场调整延时设置成默认值，可对应的为所处环境的空间大小；人声增强默认不开启；降噪参数只处理底噪参数；前后置参数设置成后摄的，及左右声道不反转。

S1303：获取用户基于所述至少一个预设模式选择组件选中的目标预设模式，所述目标预设模式对应的预设音频参数作为目标调试参数值。

作为一种实施方式，在用户终端的屏幕上显示编辑界面，该编辑界面也可以是在视频文件的播放界面操作之后显示的，例如，用户点击上述图9的编辑按钮显示图14所示的编辑界面1401，在该编辑界面1401显示有多个预设模式，用户可以在该编辑界面1401内选中一个预设模式，作为目标预设模式。另外，还可以在该编辑界面1401显示每个预设模式对应的播放按钮，用户点击该播放按钮能够播放该预设模式对音频数据处理之后的音频效果。

作为一种实施方式，该用户选中目标预设模式之后，可以直接将该目标预设模式对应的预设音频参数作为目标调试参数值。作为另一种实施方式，该用户选中目标预设模式之后，可以显示参数调整界面，在目标预设模式对应的预设音频参数的基础上对预设音频参数调整，将调整后的预设音频参数作为目标调试参数值。由前述描述可知，每个预设模式都对应一个音频参数，如图15所示，在该参数调整界面1501显示目标预设模式对应的音频调整组件，该音频调整组件可以对应前述的子组件，也可以在前述子组件的基础上增加新的子组件，在此不做限定，具体地，可以参考前述实施例。

S1304：基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。

作为一种实施方式，还可以在编辑界面1401上显示智能模式，由用户终端自动识别音频数据对应的场景，基于所识别的场景确定该场景对应的预设模式。具体地，该待处理音频数据为视频录制时所采集的音频，即该音频数据对应有视频文件，基于对该视频文件内的多个视频帧的分析，能够确定该视频文件对应的场景，如果该场景是户外场景，则所对应的预设模式为户外模式，如果该场景是街拍场景，则所对应的预设模式为街拍模式，如果该场景是室内场景，则所对应的预设模式为室内模式。其中，户外场景和街拍场景的区别为，街拍场景强调的是所处的环境为街道，该街拍场景内的背景是街道且有较多的行人和车辆，户外场景可以是较空旷的区域，例如，公园、操场、山川等场景。

作为一种实施方式，用户可以通过编辑按钮选择进入参数调整还是模式选择，具体地，可以是在检测到编辑按钮被触发的时候，显示指定选择界面，如图16所示，该指定选择界面1601包括参数调整对应的选择按钮和模式选择对应的选择按钮，用户通过参数调整对应的选择按钮进入参数调整，即通过参数调整对应的选择按钮显示上述方式选择界面1001，还可以通过模式选择对应的选择按钮显示编辑界面1401。

请参阅图17，其示出了本申请实施例提供的一种音频处理装置1700的结构框图，该装置应用于录音系统的用户终端，所述录音系统还包括第一耳机和第二耳机，所述第一耳机和所述第二耳机均设置有音频采集装置，该音频处理装置1700可以包括：第一获取单元1701、显示单元1702、第二获取单元1703和处理单元1704。

第一获取单元1701，用于获取待处理音频数据，所述待处理音频数据预先由所述第一耳机和所述第二耳机采集。

进一步地，第一获取单元1701还用于获取待处理音频数据之前，获取基于第一耳机和第二耳机采集的原始音频数据；对所述原始音频数据预处理，得到待处理音频数据，其中，预处理包括降噪处理和增益调整处理的至少一种。

进一步地，第一获取单元1701还用于获取用户基于所述用户终端所显示的多个视频文件中选中的视频文件，将所述视频文件对应的音频数据作为待处理音频数据。

显示单元1702，用于在所述用户终端的屏幕上显示调试组件。

进一步地，显示单元1702还用于显示编辑界面；在所述编辑界面上显示调试组件。

进一步地，显示单元1702还用于获取所述用户终端预先基于所述待处理音频数据分析得到的至少一个元数据，每个所述元数据用于表征所述音频数据的至少一个音频特性；基于所述元数据在所述用户终端的屏幕上显示所述调试组件，所述调试组件包括至少一个子组件，每个所述子组件对应一个所述元数据，每个所述子组件用于输入该子组件对应的元数据的调试参数值。

进一步地，所述至少一个元数据包括人声增强元数据、频响元数据、降噪元数据的至少一种，所述人声增强元数据用于表征音频数据中人声占比，所述频响元数据用于表征所述音频数据的频率响应特性，所述降噪元数据用于表征所述音频数据中噪声强度。

进一步地，所述音频数据包括由第一耳机采集的第一音频和由第二耳机采集的第二音频，所述至少一个元数据还包括：声场调节元数据，声场调节元数据用于表征第一音频和第二音频之间的幅值差值和相位差异。

进一步地，所述用户终端包括前置摄像头和后置摄像头，所述音频数据与所述用户终端在视频录制过程中所采集的视频画面对应，所述调试组件还包括录制模式组件，所述录制模式组件用于输入前摄模式和后摄模式，所述前摄模式用于表征所述用户终端通过所述前摄摄像头执行视频录制，所述后置模式用于表征所述用户终端通过所述后摄摄像头执行视频录制。

进一步地，所述调试组件包括至少一个预设模式，每个所述预设模式对应有预设音频参数，显示单元1702还用于在所述用户终端的屏幕上显示所述至少一个预设模式选择组件。

第二获取单元1703，用于获取用户基于所述调试组件输入的目标调试参数值。

进一步地，第二获取单元1703还用于获取用户基于所述至少一个预设模式选择组件选中的目标预设模式，所述目标预设模式对应的预设音频参数作为目标调试参数值。

进一步地，所述至少一个预设模式包括户外模式，所述户外模式对应户外音频参数，所述户外音频参数用于调整音频的声场宽度大于第一指定宽度、滤除底噪以及调整音频的清晰度大于指定清晰度。

进一步地，所述至少一个预设模式包括街拍模式，所述街拍模式对应街拍音频参数，所述街拍音频参数用于调整音频中人声的强度大于指定强度、对音频中人声之外的部分降噪以及调整音频的声场宽度小于第二指定宽度。

进一步地，所述至少一个预设模式包括室内模式，所述室内模式对应室内音频参数，所述室内音频参数用于基于预设空间分布调整音频中的空间声部分，所述空间声部分包括直达声、早期反射声和后期反射声的至少一种。

进一步地，所述至少一个预设模式包括默认均衡模式，所述默认均衡模式对应默认均衡音频参数，所述默认均衡音频参数用于将音频的音频参数设置为默认值。

处理单元1704，用于基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图18，其示出了本申请实施例提供的一种电子设备的结构框图。该用户终端100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的用户终端100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。其中，音频采集装置130可以是麦克风，例如，可以是多个麦克风组成的麦克风阵列，图像采集装置140可以是摄像头等装置。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个用户终端100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行用户终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图19，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1900包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1900具有执行上述方法中的任何方法步骤的程序代码1910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1910可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的一种音频处理方法、装置、用户终端及计算机可读介质，获取待处理音频数据，所述待处理音频数据预先由所述第一耳机和所述第二耳机采集；在所述用户终端的屏幕上显示调试组件；获取用户基于所述调试组件输入的目标调试参数值；基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。因此，基于用户对屏幕上现实的调试组件对待处理音频数据的音频参数调整，使得用户能够自主调整音频数据，而避免音频数据的音频效果太过单一。另外，由于该音频数据是由两个耳机采集的，因此，能够还原真实听感，表现真实的空间声场，降低了耳机侧的功耗和运算量。

另外，降低了录制时的运算量和功耗，并提供接口给后处理编辑模块，给对于有追求的用户提供编辑的部分，也给不想太复杂的小白用户提供模式选择，根据不同的拍摄场景预设不一样的处理效果。考虑到了拍摄过程中的人头的实时转动带来的对声场的影响，所以把相应的模块放在拍摄完成之后再进行处理。保证了双耳录音拍摄的效果，有人声增强，声场处理，降噪处理，前后摄区分处理，频响处理，效果完整。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频处理方法，其特征在于，应用于录音系统的用户终端，所述录音系统还包括第一耳机和第二耳机，所述第一耳机和所述第二耳机均设置有音频采集装置，所述方法包括：

获取待处理音频数据，所述待处理音频数据由所述第一耳机和所述第二耳机预先采集；

在所述用户终端的屏幕上显示调试组件；

获取用户基于所述调试组件输入的目标调试参数值；

基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述在所述用户终端的屏幕上显示调试组件，包括：

获取所述用户终端基于所述待处理音频数据预先分析得到的至少一个元数据，每个所述元数据用于表征所述音频数据的至少一个音频特性；

基于所述元数据在所述用户终端的屏幕上显示所述调试组件，所述调试组件包括至少一个子组件，每个所述子组件对应一个所述元数据，每个所述子组件用于输入该子组件对应的元数据的调试参数值。

3.根据权利要求2所述的方法，其特征在于，所述至少一个元数据包括人声增强元数据、频响元数据、降噪元数据的至少一种，所述人声增强元数据用于表征音频数据中人声占比，所述频响元数据用于表征所述音频数据的频率响应特性，所述降噪元数据用于表征所述音频数据中噪声强度。

4.根据权利要求2所述的方法，其特征在于，所述音频数据包括由第一耳机采集的第一音频和由第二耳机采集的第二音频，所述至少一个元数据包括：声场调节元数据，声场调节元数据用于表征第一音频和第二音频之间的幅值差值和相位差异。

5.根据权利要求2所述的方法，其特征在于，所述用户终端包括前置摄像头和后置摄像头，所述音频数据与所述用户终端在视频录制过程中所采集的视频画面对应，所述调试组件还包括录制模式组件，所述录制模式组件用于输入前摄模式和后摄模式，所述前摄模式用于表征所述用户终端通过所述前摄摄像头执行视频录制，所述后置模式用于表征所述用户终端通过所述后摄摄像头执行视频录制。

6.根据权利要求5所述的方法，其特征在于，所述基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据，包括：

若所述目标调试参数为前摄模式，由所述待处理音频数据对应的多个声源中确定位于所述前置摄像头的视野范围内的第一目标声源，对所述第一目标声源的音频数据优化处理以得到目标音频数据；

若所述目标调试参数为后摄模式，由所述待处理音频数据对应的多个声源中确定位于所述后置摄像头的视野范围内的第二目标声源，对所述第二目标声源的音频数据优化处理以得到目标音频数据。

7.根据权利要求1所述的方法，其特征在于，所述调试组件包括至少一个预设模式，每个所述预设模式对应有预设音频参数，所述在所述用户终端的屏幕上显示调试组件，获取用户基于所述调试组件输入的目标调试参数值，包括：

在所述用户终端的屏幕上显示所述至少一个预设模式选择组件；

获取用户基于所述至少一个预设模式选择组件选中的目标预设模式，所述目标预设模式对应的预设音频参数作为目标调试参数值。

8.根据权利要求7所述的方法，其特征在于，所述至少一个预设模式包括户外模式，所述户外模式对应户外音频参数，所述户外音频参数用于调整音频的声场宽度大于第一指定宽度、滤除底噪以及调整音频的清晰度大于指定清晰度。

9.根据权利要求7所述的方法，其特征在于，所述至少一个预设模式包括街拍模式，所述街拍模式对应街拍音频参数，所述街拍音频参数用于调整音频中人声的强度大于指定强度、对音频中人声之外的部分降噪以及调整音频的声场宽度小于第二指定宽度。

10.根据权利要求7所述的方法，其特征在于，所述至少一个预设模式包括室内模式，所述室内模式对应室内音频参数，所述室内音频参数用于基于预设空间分布调整音频中的空间声部分，所述空间声部分包括直达声、早期反射声和后期反射声的至少一种。

11.根据权利要求7所述的方法，其特征在于，所述至少一个预设模式包括默认均衡模式，所述默认均衡模式对应默认均衡音频参数，所述默认均衡音频参数用于将音频的音频参数设置为默认值。

12.根据权利要求1-11任一所述的方法，其特征在于，所述获取通过待处理音频数据之前，还包括：

获取基于第一耳机和第二耳机采集的原始音频数据；

对所述原始音频数据预处理，得到待处理音频数据，其中，预处理包括降噪处理和增益调整处理的至少一种。

13.根据权利要求1-11任一所述的方法，其特征在于，所述获取通过待处理音频数据，在所述用户终端的屏幕上显示调试组件，包括：

获取用户基于所述用户终端所显示的多个视频文件中选中的视频文件，将所述视频文件对应的音频数据作为待处理音频数据，并显示编辑界面；

在所述编辑界面上显示调试组件。

14.一种音频处理装置，其特征在于，应用于录音系统的用户终端，所述录音系统还包括第一耳机和第二耳机，所述第一耳机和所述第二耳机均设置有音频采集装置，所述音频处理装置包括：

第一获取单元，用于获取待处理音频数据，所述待处理音频数据由所述第一耳机和所述第二耳机预先采集；

显示单元，用于在所述用户终端的屏幕上显示调试组件；

第二获取单元，用于获取用户基于所述调试组件输入的目标调试参数值；

处理单元，用于基于所述目标调试参数值调整所述待处理音频数据的音频参数，得到目标音频数据。

15.一种用户终端，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-13任一项所述的方法。

16.一种计算机可读介质，其特征在于，所述计算机可读介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行权利要求1-13任一项所述方法。