CN113096686B

CN113096686B - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN113096686B
Application number: CN202110335660.5A
Authority: CN
Inventors: 雷东川
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2023-04-14
Anticipated expiration: 2041-03-29
Also published as: CN113096686A

Abstract

本申请公开了一种音频处理方法、装置、电子设备及存储介质，属于音频分析技术领域。该方法包括在音频播放的过程中，接收用户的第一输入，响应于所述第一输入，以目标方式显示所述音频对应的声源，接收用户对声源显示界面的第二输入，响应于所述第二输入，对所述音频对应的声源进行目标处理，所述目标处理用于基于所述第二输入，调整所述音频对应的声源的种类和位置中的至少一项，能够对音频进行重新组合，改善音频播放效果不佳的问题。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本申请属于音频分析技术领域，具体涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

现有的音频剪辑工具能够对音频整体的播放速度、播放顺序以及音效进行调整，然而并不能对音频中各声源的声音进行单独调整，导致音频播放效果不佳。

发明内容

本申请实施例的目的是提供一种音频处理方法、装置、电子设备及存储介质，以解决现有音频播放效果不佳的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种音频处理方法，包括：

在音频播放的过程中，接收用户的第一输入；

响应于所述第一输入，以目标方式显示所述音频对应的声源；

接收用户对声源显示界面的第二输入；

响应于所述第二输入，对所述音频对应的声源进行目标处理；

所述目标处理用于基于所述第二输入，调整所述音频对应的声源的种类和位置中的至少一项。

第二方面，本申请实施例提供了一种音频处理装置，包括：

第一接收模块，用于在音频播放的过程中，接收用户的第一输入；

声源显示模块，用于响应于所述第一输入，以目标方式显示所述音频对应的声源；

第二接收模块，用于接收用户对声源显示界面的第二输入；

音频处理模块，用于响应于所述第二输入，对所述音频对应的声源进行目标处理；

第三方面，本申请实施例提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的音频处理方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的音频处理方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的音频处理方法的步骤。

在本申请实施例提供的音频处理方法、装置、电子设备及存储介质，在音频播放的过程中，接收用户的第一输入，响应于所述第一输入，以目标方式显示所述音频对应的声源，接收用户对声源显示界面的第二输入，响应于所述第二输入，对所述音频对应的声源进行目标处理，所述目标处理用于基于所述第二输入，调整所述音频对应的声源的种类和位置中的至少一项，能够对音频进行重新组合，改善音频播放效果不佳的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频处理方法的流程示意图；

图2是本申请实施例提供的声源分析的界面示意图；

图3是本申请实施例提供的声源分析结果的显示界面示意图；

图4是本申请实施例提供的调换声源位置的操作界面示意图；

图5是本申请实施例提供的替换声源的操作界面示意图；

图6是本申请实施例提供的删除声源的操作界面示意图；

图7是本申请发明实施例提供的音频处理装置的结构示意图；

图8为实现本申请实施例提供的电子设备的结构示意图；

图9为实现本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应理解，说明书中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本申请的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法、装置、电子设备及存储介质进行详细地说明。

图1为本申请实施例提供的音频处理方法的流程示意图。如图1所示，所述方法包括：

步骤101，在音频播放的过程中，接收用户的第一输入。

具体来说，所述音频可以为视频对应的音频或其它类似音频，也可以为纯音频。音频处理装置在播放音频的过程中，用户可以通过第一输入触发声源分析功能。所述第一输入可以为对所述音频处理装置的点击操作，例如点击相应的声源分析触发按键，所述按键可以为实体按键，也可以为相应界面(根据具体情况，所述界面可以为视频播放界面，也可以为音频对应的播放界面，例如音乐软件中的音频播放界面)中的虚拟按键。所述第一输入也可以为对所述音频处理装置的摇晃操作，亦或是眨眼等交互方式，本申请实施例对此不作具体限定。如图2所示为本申请实施例提供的声源分析的界面示意图，用户可通过点击图中输入界面右上角的声源分析按键触发声源分析功能。

步骤102，响应于所述第一输入，以目标方式显示所述音频对应的声源。

具体来说，音频处理装置响应于所述第一输入，根据声源定位技术和机器学习方法，确定所述音频对应的声源并以目标方式显示。如图3所示为本申请实施例提供的声源分析结果的显示界面示意图，以图片标识的形式形象地表征声源种类以及声源的位置，当然，也可以采用其它任意可行方式表征声源种类和位置，本申请实施例对此不作具体限定。

步骤103，接收用户对声源显示界面的第二输入。

具体来说，用户可以在声源显示界面(即声源分析结果的显示界面)进行第二输入，以对所述声源进行目标处理。值得注意的是，所述声源显示界面可以为新建的显示界面，也可以为前述视频播放界面或音频对应的播放界面。当所述声源显示界面为视频播放界面或音频对应的动态播放界面的情况下，所述声源可以浮动显示于所述界面中。例如，当所述视频播放界面播放的是音乐会现场的演奏画面时，可以将各个乐器(即声源)对应的标识浮动显示于所述播放画面中，且与画面中的实际声源一一对应，基于此，可以更加直观地显示声源分析结果。

步骤104，响应于所述第二输入，对所述音频对应的声源进行目标处理；

具体来说，音频处理装置响应于所述第二输入，对所述音频对应的声源的种类和位置中的至少一项进行调整，从而达到不同的音频播放效果。

本申请实施例提供的音频处理方法，在音频播放的过程中，接收用户的第一输入，响应于所述第一输入，以目标方式显示所述音频对应的声源，接收用户对声源显示界面的第二输入，响应于所述第二输入，对所述音频对应的声源进行目标处理，所述目标处理用于基于所述第二输入，调整所述音频对应的声源的种类和位置中的至少一项，能够对音频进行重新组合，改善音频播放效果不佳的问题。

基于上述实施例，所述以目标方式显示所述音频对应的声源，包括：

确定所述音频对应的声源的种类和位置；

基于所述声源的种类和位置，以目标方式显示所述声源对应的标识；

其中，所述声源的位置指在所述音频录制过程中，所述声源相对于录音设备的位置。

具体来说，音频处理装置根据声源定位技术和机器学习方法，确定所述音频对应的声源种类以及所述声源的位置。值得注意的是，所述声源的位置指在所述音频录制过程中，所述声源相对于录音设备的位置。音频处理装置基于所述声源的种类和位置，以目标方式显示所述声源对应的标识，以直观地呈现声源的种类和位置，方便用户进行后续调整。可以理解的是，调整所述声源的位置实质上是对所述声源对应的音频进行调整，以达到播放出来的音频给用户以声源位置发生了改变的感觉。至于具体的调整手段，可以为降低或增大目标声源对应的音频的音量以营造出声源位置变远或变近的播放效果，当然，也可以为其它任意可行的调整方式，本申请实施例对此不作具体限定。

本申请实施例提供的音频处理方法，确定所述音频对应的声源种类以及所述声源的位置，基于所述声源的种类和位置，以目标方式显示所述声源对应的标识，其中，所述声源的位置指在所述音频录制过程中，所述声源相对于录音设备的位置，以便后续对声源进行调整，能够基于声源种类以及所述声源的位置对音频进行重新组合，改善音频播放效果不佳的问题。

基于上述实施例，所述目标处理包括以下至少一项：

调换目标声源的位置、删除目标声源、用第一声源替换目标声源和增加第二声源；

其中，所述第一声源的种类与所述目标声源不同。

具体来说，图4是本申请实施例提供的调换声源位置的操作界面示意图，图5是本申请实施例提供的替换声源的操作界面示意图，图6是本申请实施例提供的删除声源的操作界面示意图。如图4所示，用户可以通过对显示界面中的两个目标声源的标识的点击操作实现目标声源的位置调换，相应的，音频处理装置调整目标声源对应的音频的播放效果，实现音频播放效果给用户以声源位置发生改变的感觉，通过图4中的调整，实现了“音乐1”和“音乐4”的位置调换。

如图5所示，用户可以通过对显示界面中的目标声源的标识的长按操作实现目标声源的替换，相应的，音频处理装置用预存的第一声源对应的音频替换目标声源对应的音频，实现不同的音乐组合效果。如图5所示，通过长按“音乐1”，音频处理装置将“音乐1”原本的手风琴声音替换为预存的小提琴声音。当然，所述第一声源也可以与目标声源为同一种乐器，但其对应的音频不同，例如，第一声源和目标声源均为手风琴，但第一声源对应的音频是曲目1，目标声源对应的音频是曲目2，对于这种情形，也可以视为第一声源与目标声源种类不同。

如图6所示，用户亦可以通过长按显示界面中的目标声源的标识，调起相应的操作界面，进而编辑删除目标声源或增加第二声源，相应的，音频处理装置删除目标声源对应的音频或新增预存的第二声源对应的音频，实现不同的音乐组合效果。如图6所示为删除了“音乐1”的操作界面。

本申请实施例提供的音频处理方法，所述目标处理包括以下至少一项：调换目标声源的位置、删除目标声源、用第一声源替换目标声源和增加第二声源，其中，所述第一声源的种类与所述目标声源不同，能够对音频进行重新组合，改善音频播放效果不佳的问题。

基于上述实施例，所述以目标方式显示所述声源对应的标识，包括：

通过所述声源对应的标识在所述声源显示界面中的位置以及所述标识的大小，表征所述声源的位置。

具体来说，通过所述声源对应的标识在所述声源显示界面中的位置以及所述标识的大小，表征所述声源的位置，例如，可以认为越靠近声源显示界面上方的声源位置越远，其在声源显示界面中的左右位置对应于实际场景中的左右位置，同时，通过调节标识的大小，进一步改变声源的位置(大小不同，景深信息不同，位置也就不同)，可以参考标识的大小确定声源的位置，即标识越大，表示声源位置越近，标识越小，表示声源位置越远。

本申请实施例提供的音频处理方法，通过所述声源对应的标识在所述声源显示界面中的位置以及所述标识的大小，表征所述声源的位置，能够更加直观地反映声源的位置信息，方便用户进行后续调整。

图7为本申请发明实施例提供的音频处理装置的结构示意图，如图7所示，所述音频处理装置包括：

第一接收模块701，用于在音频播放的过程中，接收用户的第一输入；

声源显示模块702，用于响应于所述第一输入，以目标方式显示所述音频对应的声源；

第二接收模块703，用于接收用户对声源显示界面的第二输入；

音频处理模块704，用于响应于所述第二输入，对所述音频对应的声源进行目标处理；

具体来说，本申请实施例提供的音频处理装置，用于执行上述相应实施例中的方法，通过本实施例提供的音频处理装置执行上述相应实施例中所述方法的具体步骤与上述相应实施例相同，此处不再赘述。

基于上述任一实施例，

所述声源显示模块包括：声源分析子模块，用于确定所述音频对应的声源的种类和位置；

显示子模块，用于基于所述声源的种类和位置，以目标方式显示所述声源对应的标识；

基于上述任一实施例，所述目标处理包括以下至少一项：

其中，所述第一声源的种类与所述目标声源不同。

基于上述任一实施例，所述以目标方式显示所述声源对应的标识，包括：

本申请实施例中的音频处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频处理装置能够实现图1-6的方法实施例中音频处理装置实现的各个过程，为避免重复，这里不再赘述。

本申请实施例提供的音频处理装置，在音频播放的过程中，接收用户的第一输入，响应于所述第一输入，以目标方式显示所述音频对应的声源，接收用户对声源显示界面的第二输入，响应于所述第二输入，对所述音频对应的声源进行目标处理，所述目标处理用于基于所述第二输入，调整所述音频对应的声源的种类和位置中的至少一项，能够对音频进行重新组合，改善音频播放效果不佳的问题。

可选的，如图8所示，本申请实施例还提供一种电子设备，包括处理器801，存储器802，存储在存储器802上并可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。

本领域技术人员可以理解，电子设备900还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

应理解的是，本申请实施例中，输入单元904可以包括图形处理器(GraphicsProcessing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器909可用于存储软件程序或指令以及各种数据。存储器909可主要包括存储程序或指令区和存储数据区，其中，存储程序或指令区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器909可以包括高速随机存取存储器，还可以包括非易失性存储器，其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

处理器910可包括一个或多个处理单元；可选的，处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序或指令等，调制解调处理器主要处理无线通信，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

其中，用户输入单元907，用于在音频播放的过程中，接收用户的第一输入；

显示单元906，用于响应于所述第一输入，以目标方式显示所述音频对应的声源；

用户输入单元907，还用于接收用户对声源显示界面的第二输入；

处理器910，用于响应于所述第二输入，对所述音频对应的声源进行目标处理；

本申请实施例提供的电子设备，在音频播放的过程中，接收用户的第一输入，响应于所述第一输入，以目标方式显示所述音频对应的声源，接收用户对声源显示界面的第二输入，响应于所述第二输入，对所述音频对应的声源进行目标处理，所述目标处理用于基于所述第二输入，调整所述音频对应的声源的种类和位置中的至少一项，能够对音频进行重新组合，改善音频播放效果不佳的问题。

可选的，处理器910，还用于确定所述音频对应的声源的种类和位置；

显示单元906，具体用于基于所述声源的种类和位置，以目标方式显示所述声源对应的标识；

本申请实施例提供的电子设备，确定所述音频对应的声源的种类和位置，基于所述声源的种类和位置，以目标方式显示所述声源对应的标识，其中，所述声源的位置指在所述音频录制过程中，所述声源相对于录音设备的位置，以便后续对声源进行调整，能够基于声源种类以及所述声源的位置对音频进行重新组合，改善音频播放效果不佳的问题。

可选的，显示单元906，具体用于通过所述声源对应的标识在所述声源显示界面中的位置以及所述标识的大小，表征所述声源的位置。

本申请实施例提供的电子设备，通过所述声源对应的标识在所述声源显示界面中的位置以及所述标识的大小，表征所述声源的位置，能够更加直观地反映声源的位置信息，方便用户进行后续调整。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频处理方法，其特征在于，包括：

在音频播放的过程中，接收用户的第一输入；

接收用户对声源显示界面的第二输入；

所述目标处理用于基于所述第二输入，调整所述音频对应的声源的种类和位置中的至少一项；

其中，所述目标处理包括以下至少一项：用第一声源替换目标声源、增加第二声源、调换目标声源的位置、删除目标声源，所述第一声源的种类与所述目标声源不同，所述目标声源为所述音频对应的声源中的声源；

所述以目标方式显示所述音频对应的声源，包括：

确定所述音频对应的声源的种类和位置；

其中，所述声源的位置指在所述音频录制过程中，所述声源相对于录音设备的位置；

所述以目标方式显示所述声源对应的标识，包括：

通过所述声源对应的标识在所述声源显示界面中的位置以及所述标识的大小，表征所述声源的种类和位置，其中，所述标识的大小用于表征所述声源的位置远近，所述标识的大小越大，所述声源的位置越近，所述标识的大小越小，所述声源的位置越远。

2.一种音频处理装置，其特征在于，包括：

第二接收模块，用于接收用户对声源显示界面的第二输入；

所述声源显示模块包括：

声源分析子模块，用于确定所述音频对应的声源的种类和位置；

所述以目标方式显示所述声源对应的标识，包括：

3.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1所述的音频处理方法的步骤。

4.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1所述的音频处理方法的步骤。