CN117059121A - 音频处理方法、装置、设备及存储介质 - Google Patents

音频处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117059121A
CN117059121A CN202210495460.0A CN202210495460A CN117059121A CN 117059121 A CN117059121 A CN 117059121A CN 202210495460 A CN202210495460 A CN 202210495460A CN 117059121 A CN117059121 A CN 117059121A
Authority
CN
China
Prior art keywords
audio
control
target
processed
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210495460.0A
Other languages
English (en)
Inventor
林豪
刘文武
黄昊
黄锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202210495460.0A priority Critical patent/CN117059121A/zh
Priority to PCT/CN2023/092363 priority patent/WO2023216999A1/zh
Publication of CN117059121A publication Critical patent/CN117059121A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

本公开提供一种音频处理方法、装置、设备及存储介质,该方法包括:响应于音频获取指示,获取待处理音频,响应于针对待处理音频的音频分离指示,对待处理音频进行音频分离,以获取目标音频,其中,该目标音频为从待处理音频分离出的人声和/或伴奏;呈现所述目标音频。该技术方案,可以将分离出的人声和/或伴奏直接呈现给用户,以供用户播放、保存、分享或处理等,能够满足用户多样化的需求,提高了用户使用体验。

Description

音频处理方法、装置、设备及存储介质
技术领域
本申请涉及信息处理技术领域,尤其涉及一种音频处理方法、装置、设备及存储介质。
背景技术
随着计算机技术的不断发展以及人们个性化需求的不断增长,越来越多的用户开始不满足一成不变的媒体创作风格,而是希望能够创作出具有自己风格的媒体内容。音频编辑是用户对媒体内容进行编辑以创作具有风格媒体内容的典型方式。
现有的音频编辑功能有限,无法满足用户多样化、个性化的媒体创作需求,因而,亟需扩展出不同的音频编辑功能以满足用户多样化、个性化的需求。
发明内容
本申请实施例提供一种音频处理方法、装置、设备及存储介质,用于提高音频编辑功能的多样化,以满足用户的个性化需求。
第一方面,本公开实施例提供一种音频处理方法,包括:
响应于音频获取指示,获取待处理音频;
响应于针对所述待处理音频的音频分离指示,对所述待处理音频进行音频分离,以获取目标音频,其中,所述目标音频为从所述待处理音频分离出的人声和/或伴奏;
呈现所述目标音频。
第二方面,本公开实施例提供一种音频处理装置,包括:
获取模块,用于响应于音频获取指示,获取待处理音频;
处理模块,用于响应于针对所述待处理音频的音频分离指示,对所述待处理音频进行音频分离,以获取目标音频,其中,所述目标音频为从所述待处理音频分离出的人声和/或伴奏;
呈现模块,用于呈现所述目标音频。
第三方面,本公开实施例提供一种电子设备,包括:处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
本公开实施例提供一种音频处理方法、装置、设备及存储介质,通过响应于音频获取指示,获取待处理音频,响应于针对待处理音频的音频分离指示,对待处理音频进行音频分离,以获取目标音频,其中,该目标音频为从待处理音频分离出的人声和/或伴奏;呈现所述目标音频,可以将直接分离出的人声和/或伴奏呈现给用户,以供用户播放、保存、分享或处理等,能够满足用户多样化的需求,提高了用户使用体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开实施例提供的一种音频处理方法的流程示意图;
图2是本公开实施例提供的另一种音频处理方法的流程示意图;
图3是本公开实施例提供的一种音频处理的界面示意图;
图4是本公开实施例提供的另一种音频处理的界面示意图;
图5是本公开实施例提供的再一种音频处理的界面示意图;
图6是本公开实施例提供的又一种音频处理的界面示意图;
图7是本公开实施例提供的再一种音频处理方法的流程示意图;
图8是本公开实施例提供的又一种音频处理方法的流程示意图;
图9是本公开实施例提供的一种伴奏分离的实现原理示意图;
图10是本公开实施例提供的一种音频文件保存的实现原理示意图;
图11为本公开实施例提供的一种音频处理装置的结构示意图;
图12为本公开实施例提供的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的实施例针对现有音频编辑功能无法满足用户多样化、个性化音频制作需求的问题,提出了一种音频处理方法,该方法不仅可以对音频进行分离处理,例如,分离出人声和/或伴奏,而且还可以将分离出的人声和/或伴奏呈现给用户,以供用户进行试听、保存、分享或后处理,能够满足用户多样化的需求,提高了用户使用体验。
本公开实施例提供的技术方案可应用于电子设备对音频进行处理的场景。其中,电子设备可以为具有音频处理功能的任意设备,可以是终端设备,也可以是服务器或者虚拟机等,还可以是一个或多个服务器和/或计算机等组成的分布式计算机系统等。其中,终端设备包括但不限于智能手机、笔记本电脑、台式电脑、平台电脑、车载设备、智能穿戴设备、智慧屏等,本公开实施例不作限定。服务器可以为普通服务器或者云服务器,云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
值得说明的是,本公开的产品实现形态是包含在平台软件中,并部署在电子设备(也可以是计算云或移动终端等具有计算能力的硬件)上的程序代码。示例性的,本公开的程序代码可以存储在电子设备内部。运行时,程序代码运行于电子设备的主机内存和/或GPU内存。
本公开实施例中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面,通过具体实施例对本公开的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
示例性的,图1是本公开实施例提供的一种音频处理方法的流程示意图。该方法以图1中的电子设备作为执行主体进行解释说明。如图1所示,该音频处理方法可以包括如下步骤:
S101、响应于音频获取指示,获取待处理音频。
在本公开的实施例中,当用户使用电子设备对音频进行处理时,可以向电子设备发出音频获取指示,以便电子设备响应于获取到的音频获取指示,获取待处理音频。
示例性的,音频获取指示可以是用户通过电子设备的人机交互界面发出的,例如,通过触控人机交互界面上的控件发出,还可以是通过语音方式发出的(此时,电子设备具有语音获取或播放等功能的控件),此处不作限定。
可选的,电子设备响应于检测或接收到的音频获取指示,可以从其他设备接收待处理音频,也可以从自身存储的数据库中读取待处理音频(此时,电子设备中部署有数据库),还可以从云端获取待处理音频。本公开实施例并不对待处理音频的获取方式进行限定,其可以根据实际场景确定,此处不作赘述。
可理解,在本公开的实施例中,电子设备获取到的待处理音频可以是经过预处理后的音频,例如,是电子设备对获取到的目标视频进行音频提取后得到的音频数据,也可以是未经处理的音频,本实施例不作限定。
S102、响应于针对待处理音频的音频分离指示,对待处理音频进行音频分离,以获取目标音频,其中,该目标音频为从待处理音频分离出的人声和/或伴奏。
示例性的,电子设备在获取到待处理音频时,用户便可以向电子设备发出音频分离指示,以便电子设备响应于该音频分离指示,对待处理音频进行音频分离,从待处理音频中分离出目标音频,进而得到从待处理音频分离出的人声和/或伴奏,即,该目标音频可以是人声和伴奏中的至少一种。
示例性的,电子设备可以获取用户通过人机交互界面发出的音频分离指示,也可以获取用户通过语音方式发出的音频分离指示,本实施例不作限定。
S103、呈现目标音频。
在本实施例中,电子设备从待处理音频中分离出目标音频后,便可以呈现该目标音频,以供用户播放、保存、分享和/或处理。
示例性的,电子设备可以将目标音频呈现在目标应用的界面上,该界面上部署有用户可以操作的控件,例如,保存控件、播放控件、处理控件等。可选的,处理控件用于触发在处理页面上呈现目标音频,该处理页面可以是用于执行音频处理的页面,在该页面上可以供用户进行各种音频编辑和/或处理,并输出最终的处理结果。
本公开实施例提供的音频处理方法,响应于音频获取指示,获取待处理音频,响应于针对该待处理音频的音频分离指示,对待处理音频进行音频分离,以获取目标音频,其中,该目标音频为从待处理音频分离出的人声和/或伴奏,最后呈现目标音频。该技术方案中,通过呈现分离出的目标音频,即向用户开放和输出伴奏分离结果的方案,能够使得用户根据需求可以选择对目标音频进行播放、保存、分享、处理等各种操作,满足了用户的个性化需求,提高了用户的使用体验。
为使读者更深刻地理解本公开的实现原理,现结合以下实施例进行进一步细化。
示例性的,在上述实施例的基础上,图2是本公开实施例提供的另一种音频处理方法的流程示意图。如图2所示,在本公开的实施例中,该音频处理方法可以包括如下步骤:
S201、响应于针对第一界面上的第一控件的触控操作,获取待处理音频。
在本公开的实施例中,假设待处理音频是电子设备响应于用户在第一界面上的触控操作而获取到的音频。即,在本实施例中,第一界面是音频上传的界面。
示例性的,图3是本公开实施例提供的一种音频处理的界面示意图。参照图3的(a)所示,假设该第一界面31是伴奏分离的上传界面,该第一界面31上部署有第一控件311,该第一控件用于触发加载音频。因而,在本实施例中,当用户触控第一界面31上的第一控件311时,电子设备会检测到该触控操作,并响应于针对该第一控件311的触控操作,便会从本地相册获取待处理音频,并呈现在第二界面32上,参见图3的(b)所示。
可理解,触控操作也可以解释为按压操作、触摸操作或点击操作等,按压操作可以是长按、短按或持续按压等。本实施例并不限定触控操作的具体含义。
示例性的,参照图3的(b)所示,当待处理音频上传之后,在第二界面31上的第一区域321中不仅包含待处理音频、用于触发播放待处理音频的播放控件322,还包括位于待处理音频下方的分离选项。
可选的,分离选项可以包括去除人声控件和去除伴奏控件,去除人声控件用于触发去除音频中的人声,去除伴奏控件用于触发去除音频中的伴奏。
在本实施例的一种可能设计中,该分离选项还可以包括伴奏分离控件(未示出),该伴奏分离控件可以用于触发将音频中的人声、伴奏等各种不同类型的音频分离出来,得到音频中的人声和伴奏等。本实施例不对其进行限定。
S202、响应于针对第二界面上的第二控件的触控操作,对待处理音频进行音频分离,以获取目标音频,该第二控件用于触发分离音频。
在本公开的实施例中,在电子设备获取到待处理音频后,便可以对待处理音频执行分离操作,以获取目标音频。
示例性的,参照图3的(b)所示,在第二界面32中,第一区域321的下方还包括用于触发分离音频的第二控件323。可选的,当电子设备检测到用户选定去除人声控件的分离选项后,若再检测到用户针对该第二控件323的触控操作,则响应于针对该第二控件323的触控操作,对待处理音频进行音频分离,从而得到去除人声后的伴奏,参见图3的(c)所示。
可理解,在本公开的实施例中,第一界面、第二界面以及后续的界面表示不同的界面,并没有先后之分。同理,第一控件、第二控件以及后续的控件也仅表示不同的控件,没有先后的顺序,例如,第二控件可以是第二界面上的第一控件等。
示例性的,在本公开实施例的一种可能设计中,上述S103可以通过下述S203实现:
S203、在第三界面上显示与该目标音频相对应的音频图形和/或与该目标音频相关联的第三控件,所述第三控件用于触发播放该目标音频。
示例性的,在本实施例的该种可能设计中,电子设备在获取到目标音频后,可以在第三界面上显示与该目标音频相对应的音频图形和/或与该目标音频相关联的第三控件,从而将目标音频呈现给用户。
示例性的,参照图3的(c)所示,第三界面33是第二界面32更新后的界面,该第三界面33的第一区域330可以包括分离处理之前的待处理音频和分离处理之后的目标音频。
可选的,在图3(c)的第一区域330中,存在用于触发播放该目标音频的第三控件331和与该目标音频相对应的音频图形332。例如,该音频图形332可以是目标音频的波形幅度包络图。
相应的,在用户触控第三控件331时,电子设备响应于针对第三控件331的触控操作,可以播放该目标音频,并呈现出随目标音频的波形幅度变化的音频图形332。
示例性的,在本公开实施例的另一种可能设计中,上述S103可以通过下述S204实现:
S204、在第三界面上显示与目标音频相关联的第四控件,该第四控件用于触发将与目标音频相关联的数据导出到目标位置。
其中,该目标位置包括相册或文件系统。
示例性的,在本实施例的该种可能设计中,电子设备在获取到目标音频后,将目标音频呈现给用户的方式可以是在第三界面上显示与目标音频相关联的第四控件。
示例性的,参照图3的(c)所示,在第三界面33的在第一区域330的下方存在第四控件333。可选的,该第四控件333可以是导出控件,其用于触发将与目标音频相关的数据导出到相册或文件系统等目标位置。
相应的,在用户触控第四控件333时,电子设备响应于针对该第四控件333的触控操作,可以将目标音频导出到目标位置。
示例性的,电子设备导出目标音频时可以以音频格式导出到目标位置,也可以以文件格式导出到目标位置,本实施例不作限定。
示例性的,在本公开实施例的另一种可能设计中,上述S103可以通过下述S205实现:
S205、在第三界面上显示与目标音频相关联的第五控件,第五控件用于触发对目标音频进行音频编辑。
示例性的,在本实施例的该种可能设计中,电子设备在获取到目标音频后,还可以通过在第三界面显示与目标音频相关联的第五控件。
示例性的,参照图3的(c)所示,在第三界面33的在第一区域330的下方存在第五控件334。可选的,该第五控件334可以触发执行对目标音频进行音频编辑,例如,第五控件334可以是导入到音轨的控件,用于触发将音频导入到第四界面(例如,音轨界面)进行音频编辑。
相应的,在用户触控第五控件334时,电子设备响应于针对该第五控件334的触控操作,可以执行对目标音频进行音频编辑的操作。
可选的,在本实施例中,音频编辑可以包括以下中的一个或多个:对音频进行编辑以优化音频;从音频分离人声和/或伴奏;从音频分离人声,并将分离出的人声与预设伴奏进行混合;以及从第一音频分离人声,从第二音频分离伴奏,并将分离出的人声与分离出的伴奏进行混合。
可选的,本实施例并不限定音频编辑的具体内容,其可以根据实际情况确定,此处不作赘述。
本实施例提供的音频处理方法,通过响应于针对第一界面上的第一控件的触控操作,获取待处理音频,响应于针对第二界面上的第二控件的触控操作,对待处理音频进行音频分离,以获取目标音频,该第二控件用于触发分离音频,最后可以在第三界面上显示与该目标音频相对应的音频图形和/或与该目标音频相关联的用于触发播放该目标音频的第三控件,和/或,在第三界面上显示与目标音频相关联的用于触发将与目标音频相关联的数据导出到目标位置的第四控件,和/或,在第三界面上显示与目标音频相关联的用于触发对目标音频进行音频编辑的第五控件。该技术方案中,通过界面上的控件执行音频上传、音频处理以及多种方式的音频呈现,丰富了电子设备的音频处理功能,提高了电子设备的音频处理智能化,满足了用户的个性化需求,提高了用户体验。
可选的,在本公开的实施例中,上述S205中的对目标音频进行音频编辑可以包括如下步骤:
A1、响应于音频处理指示,呈现一个或多个音频处理功能控件,该一个或多个音频处理功能控件用于触发执行相应的音频处理功能。
A2、响应于针对一个或多个音频处理功能控件中的一个音频处理功能控件的触控操作,对目标音频执行与所述音频处理功能控件对应的音频处理,以获取处理后的目标音频。
可选的,在本步骤中,当电子设备将获取到的目标音频呈现在第三界面33上,用户通过第三控件331播放目标音频并试听目标音频之后,确定目标音频还未能满足要求时,用户还可以发出音频处理指示,以便继续对目标音频进行继续编辑,以得到处理后的目标音频。
示例性的,电子设备在接收到用户的音频处理指示时,可以对其作出响应,并呈现出一个或多个音频处理功能控件,以便检测用户通过触控不同的音频处理功能控件发出的音频处理指示,进而响应于检测到的操作,执行不同的音频处理功能。
可选的,在本实施例的一种可能设计中,电子设备检测到用户针对第三界面上第五控件334(例如,图3中的导出到音轨)的触控操作时,便从第三界面33跳转到第四界面,从而在第四界面上显示出多个与音频编辑相关的控件。
作为一种示例,电子设备响应于针对第四界面上的第六控件的触控操作,呈现一个或多个音频处理功能控件或与一个或多个音频处理功能控件相关联的第七控件,该第七控件用于触发在第五界面上呈现一个或多个音频处理功能控件。
可选的,呈现一个或多个音频处理功能控件包括通过窗口形式呈现一个或多个音频处理功能控件,或者,通过第五界面呈现多个音频处理功能控件。
在一种可能的设计中,图4是本公开实施例提供的另一种音频处理的界面示意图。如图4的(a)所示,第四界面41上部署有第六控件411。该第六控件411可以设计成用于触发一个或多个音频处理功能控件呈现的控件。因而,当用户触控该第六控件411,且电子设备检测到针对该第六控件411的触控操作时,便可以呈现一个或多个音频处理功能控件。
示例性的,电子设备响应于检测到针对第六控件411的触控操作时,如图4的(b)所示,可以在第四界面上呈现一个窗口,在该窗口上呈现一个或多个音频处理功能控件,或者,如图4的(c)所示,在第五界面42上呈现一个或多个音频处理功能控件。
在另一种可能的设计中,图5是本公开实施例提供的再一种音频处理的界面示意图。如图5的(a)所示,第四界面41上部署有第六控件411。该第六控件411可以设计成用于触发与一个或多个音频处理功能控件相关联的第七控件的呈现。因而,当用户触控该第六控件411,且电子设备检测到针对该第六控件411的触控操作时,如图5的(b)所示,便可以呈现出与一个或多个音频处理功能控件相关联的第七控件512。
示例性的,如图5的(b)所示,电子设备响应于检测到针对第六控件411的触控操作时,电子设备的界面从第四界面41跳转到调音台界面51,从而在调音台界面51的第一区域511呈现与一个或多个音频处理功能控件相关联的第七控件512。
相应的,响应于检测到针对第七控件512的触控操作,如图5的(c)所示,电子设备可以在调音台界面51上呈现一个窗口,在该窗口上呈现一个或多个音频处理功能控件,或者,如图5的(d)所示,在第五界面42上呈现一个或多个音频处理功能控件。
作为另一种示例,电子设备响应于针对第四界面的滑动操作,呈现一个或多个音频处理功能控件或与一个或多个音频处理功能控件相关联的第七控件,该第七控件用于触发在第五界面上呈现一个或多个音频处理功能控件。
在本公开的实施例的一种可能设计中,当用户对第四界面41发出滑动操作,相应的,电子设备响应于针对第四界面41的滑动操作可以直接通过窗口形式或者在第五界面上呈现一个或多个音频处理功能控件。具体界面示意图可以参见图4所示。
在本公开实施例的另一种可能设计中,当用户对第四界面发出滑动操作(例如,左滑操作,相应的,当用户发出右滑操作时,可以从调音台界面51返回至第四界面41),相应的,电子设备响应于针对第四界面的滑动操作可以呈现出与一个或多个音频处理功能控件相关联的第七控件,进而响应于检测到针对第七控件的触控操作,可以直接通过窗口形式或者在第五界面上呈现一个或多个音频处理功能控件。具体界面示意图可以参见图5所示。
可选的,在本公开的实施例中,参见上述图4和图5所示,第四界面41和调音台界面51上除了第六控件411(也可以称为界面切换按钮,用于触发音轨界面和调音台界面的切换)外,还可以包括:
节拍器开关412,用于触发设置节拍器速度、拍号、输入设备以及预备拍等;
耳机监听开关413,用于触发监听电子设备所连接的耳机开关状态;
其他设置414;
轨道添加按钮415,用于触发加载新的轨道。
可理解,本公开实施并不限定各个界面上包括的控件类型以及功能,其可以根据实际需求设定,此处不作赘述。
示例性的,在第四界面41上还可支持如下功能:
支持音频编辑能力,例如,音频导入与录音,点击新建轨道按钮,便可新建录音轨道;
支持导入文件、相册与应用中的音频与视频,在导入时,在直接导入以外,还可以支持在导入前对音频进行伴奏分离与音频优化;
支持从第四界面41左滑可进入调音台界面51,且,在调音台界面51上存在声音控件513以及删除控件514,该声音控件513用于触发对音轨执行静音操作,该删除控件514用于触发对音轨执行删除操作;
还可支持通过界面下方的播控按钮来控制操作的撤回和恢复。
同时,在调音台界面51,还可以支持控制分轨515和总输出通道516的音量;在音量滑块右侧,还包括效果器控件517,通过触控该效果器控件517,可以选择进入效果器界面,在效果器界面可以选择需要的效果预制,并能对效果的应用程度作出修改,在效果器按钮的下方,还可以选择音频处理,解锁更多音频处理玩法,此处不作赘述。
进一步的,在本公开的实施例中,在完成了音频的各种生成处理,需要对音轨进行时长剪辑时,回到第四界面(音轨界面)点击选择音轨波形,可以支持以下操作:音频分割、音频剪切、音频复制和片段删除。
可选的,在空白轨道上长按,即可唤出粘贴按钮,可将剪切或复制的音频进行粘贴,此外,还支持拖动音频开头与结尾以改变音频时长。
可选的,在本公开的实施例中,参见上述的图4和/或图5所示,上述音频处理功能控件包括:
音频优化控件,用于触发对音频进行编辑以优化音频;
伴奏分离控件,用于触发从音频分离人声和/或伴奏;
风格合成控件,用于触发从音频分离人声,并将分离出的人声与预设伴奏进行混合和编辑;
音频混搭控件,用于触发从第一音频分离人声,从第二音频分离伴奏,并将分离出的人声与分离出的伴奏进行混合和编辑。
可选的,在本实施例中,音频优化也可以称为弹唱优化,其是对音频进行人声和/或乐器方面进行优化处理的方案。例如,参见图4和/或图5,音频优化可以包括但不局限于包括男声吉他、女声吉他、男声钢琴、女声钢琴等选项。
伴奏分离可以包括去除人声、去除伴奏或者伴奏分离(即,在分离后得到人声和伴奏)的选项。
风格合成也可以称为一键remix,即可以将分离出的人声与预设伴奏进行混合和编辑。可选的,预设伴奏可以包括但不局限与包括车载嗨歌、经典流行、心动瞬间、放松时刻、童年乐趣、嘻哈后街、未来低音、雷鬼风情、咚鼓等不同的类型,而且,本公开实施例也不限定各类型的名称,其可以基于用户的需求进行命名,此处不作赘述。
音频混搭(mashup)是将至少两段音频进行混合和编辑的方案,其可以是人声和伴奏的混合编辑,也可以是至少两段人声的混合编辑,还可以是至少两段伴奏的混合编辑,本公开实施例不对使用的源音频进行限定。
在本实施例中,电子设备可以响应于针对第一音频处理功能控件的触控操作,执行与该第一音频处理功能控件相对应的音频处理功能。其中,第一音频处理功能控件可以是音频优化控件、伴奏分离控件、风格合成控件、音频混搭控件等多种类型控件中的至少一组控件。
在本公开的实施例中,为用户提供了从伴奏分离功能界面跳转到音频处理功能界面的方案,节省了路径,并可继续编辑和创作,能够满足用户多样化、个性化的创作需求,提高了用户的使用体验。
在上述各实施例的基础上,当电子设备将获取到的目标音频呈现在第三界面33上,用户通过第三控件331播放目标音频并试听目标音频之后,确定目标音频已满足要求时,用户便可以通过第三界面33上的第四控件333发出音频导出指示,以便将目标音频导出到目标位置,例如,导出到相册或文件系统。
作为一种示例,响应于针对第三界面33上第四控件333的操作,可以直接将与目标音频相关的数据导出到目标位置,其中,与目标音频相关的数据可以包括待处理音频、执行音频分离得到的目标音频(伴奏和/或人声)等,还可以是音频处理过程中使用的音频片段等,此处不作赘述。
作为另一种示例,本公开实施例还提供了为目标音频添加封面的功能。因而,响应于针对第三界面33上第四控件333的触控操作,界面可以从第三界面33跳转到第六界面,并在第六界面上显示目标音频。
相应的,响应于用户在第六界面上发出的界面编辑指示,可以为生成的目标音频添加封面或者更改原有的封面,同理,响应于检测到的保存指示,可以将生成的目标封面和与目标音频相关的数据保存到目标位置;响应于检测到的分享指示,可以将生成的目标封面和与目标音频相关的数据分享到目标应用;响应于检测到的导入到音轨指示,还可以将与目标音频相关的数据导入到音轨界面,以供用户继续编辑。
可理解,本公开实施例并不限定在第六界面上的具体操作,其可以基于用户指示执行相应的操作,以实现不同的功能。
在本公开的一种可能设计中,响应于针对第三界面33上第五控件334的操作,跳转到音频处理界面并呈现一个或多个音频处理功能控件,响应于针对一个或多个音频处理功能控件中的一个音频处理功能控件的触控操作,对目标音频执行与所述音频处理功能控件对应的音频处理,以获取处理后的目标音频,进而在检测到导出指示时,跳转到第六界面,并在第六界面上显示处理后的目标音频。
示例性的,图6是本公开实施例提供的又一种音频处理的界面示意图。如图6的(a)所示,该第六界面61包括第八控件611,该第八控件611用于触发播放处理后的目标音频。
可选的,在图6的(a)中,第六界面61还包括第九控件612,即编辑界面的控件,该第九控件612用于触发处理后的目标音频的封面编辑。
可选的,在图6的(a)中,第六界面61还包括导出控件、导入到音轨控件和分享控件。其中,导出控件用于将与处理后的目标音频相关联的数据导出到目标位置,导入到音轨控件用于将与处理后的目标音频相关联的数据导入到音轨界面进行处理,分享控件用于将与处理后的目标音频相关联的数据分享到目标应用等。可理解,本实施例并不限定第六界面上包括的控件以及各个控件的功能,此处不作赘述。
示例性的,图7是本公开实施例提供的再一种音频处理方法的流程示意图。如图7所示,在本公开的实施例中,该音频处理方法还可以包括如下步骤:
S701、响应于针对第六界面上的第九控件的触控操作,显示第一窗口,该第一窗口包括封面导入控件、一个或多个预设的静态封面控件以及一个或多个预设的动画效果控件。
在本公开的实施例中,当电子设备呈现出用于触发封面编辑的第九控件612时,用户可以通过该第九控件612发出封面编辑指示。例如,当电子设备检测到用户针对该第九控件612的触控操作时,响应于该触控操作,电子设备可以呈现如图6的(b)所示的界面。
参照图6的(b)所示,第六界面61的下方可以呈现一个窗口,在本实施例中,将该窗口称为第一窗口613,在该第一窗口613中存在封面部分和动画部分。
可选的,该封面部分包括一个自定义的封面导入控件,一个或多个预设的静态封面控件。其中,该封面导入控件用于触发导入本地图片,一个或多个预设的静态封面控件用于触发选择预置的静态封面。可理解,静态封面是预置在该电子设备的目标应用中的多张图片,例如,封面1、封面2和封面3。
可选的,该动画部分包括无动画控件以及一个或多个预设的动画效果控件。其中,无动画控件用于触发不选择动画,即电子设备生成的封面没有动画效果。一个或多个预设的动画效果控件用于触发选择预置的动画效果。可理解,动画效果是预置在该电子设备的目标应用中的多种动态变化形式,例如,动画效果可以包括动画1、动画2和动画3。
S702、响应于针对第一窗口上的控件选择操作,获取目标封面;该目标封面为静态封面或者动态封面。
在本实施例中,对于呈现在第六界面上的各种控件,用户可以根据实际需求进行选择。例如,当用户触控自定义的封面导入控件时,电子设备可以将从本地导入的相片作为音频的静态封面,当用户从动画部分选择无动画控件时,生成的目标封面则是静态封面。
作为另一种示例,当用户分别从封面部分选择封面和从动画部分选择动画时,则可以生成动态封面。具体的,在本公开的实施例中,若目标封面为动态封面,则该S702可以通过如下步骤实现:
B1、响应于针对该第一窗口上的控件选择操作,获取静态封面和动画效果。
B2、根据该处理后的目标音频的音频特征、静态封面和动画效果,生成随处理后的目标音频的音频特征变化的动态封面;其中,该音频特征包括音频节拍和/或音量。
可选的,在本实施例中,电子设备可以检测用户的控件选择操作,例如,如图6的(b)所示,当用户选择了封面1和动画1,电子设备会检测到在第一窗口613中针对封面1对应控件和动画1对应控件的选择操作,响应于该控件选择操作,可以生成如图6的(c)所示的动态封面620,该动态封面620可以包括封面1和动画1对应的动画特效图层。
可理解,在本公开的实施例中,当用户点击图6(c)中动态封面620下方的第八控件611时,电子设备响应于针对该第八控件611的点击操作,可以播放处理后的目标音频,且此时动态封面可以随处理后的目标音频的音频节拍和/或音量等音频特征进行实时变化。
可选的,当完成了最终的音频处理与剪辑操作,电子设备响应于用户的操作还可以将生成的目标封面和与目标音频相关的数据进行导出,可选的,支持导出到相册或者文件,并且导出到相册时可以更换封面,导出完成后可以选择完成或分享到目标应用。
此外,用户还可以选择分享到文件,此时,会自动生成一个包含音频的压缩包,方便用户发送到其他地方继续编辑。
可选的,在本公开的实施例中,在上述S702之后,该音频处理方法还可以包括如下步骤:
S703、响应于针对第六界面的导出指示,将与处理后的目标音频相关联的数据导出到目标位置;该目标位置包括相册或文件系统。
在本实施例中,导出指示可以是语音、导出控件的触控操作等。
例如,在第六界面上的语音识别功能开启时,用户可以通过语音方式发出导出指示。
再比如,参照图6的(a)和(c)所示,该第六界面61还包括导出控件621,相应的,当用户触摸或按压了第六界面上的导出控件621时,电子设备响应于针对该导出控件621的触控操作,可以将与处理后的目标音频相关联的数据导出到目标位置,例如,导出到相册或文件系统。
可选的,在本公开的实施例中,在上述S702之后,该音频处理方法还可以包括如下步骤:
S704、响应于针对第六界面上的分享控件的触控操作,将与处理后的目标音频相关联的数据分享到目标应用。
示例性的,在本实施例中,分享指示可以是语音、分享控件的触控操作等。例如,在第六界面上的语音识别功能开启时,用户可以通过语音方式发出分享指示。
再比如,参照图6的(a)和(c)所示,该第六界面61还包括分享控件622,相应的,当用户触摸或按压了第六界面上的分享控件622时,电子设备响应于针对该分享控件622的触控操作,可以将与处理后的目标音频相关联的数据分享到目标应用,例如,小视频应用程序或小程序应用或聊天应用等各种应用中。
可理解,在本公开的实施例中,上述的与处理后的目标音频相关联的数据包括以下至少一项:
处理后的目标音频,人声,伴奏,处理后的目标音频的静态封面、处理后的目标音频的动态封面。
可理解,在本实施例中,与处理后的目标音频相关联的数据可以是音频处理各个阶段的音频片段、音频数据(例如,人声、伴奏等)等素材,还可以是目标音频的静态封面、目标音频的动态封面等素材,也可以是由多个音频数据压缩成的压缩包、素材包等。本实施例不对与处理后的目标音频相关联的数据的具体表现形式进行限定。
示例性的,电子设备可以将与处理后的目标音频的各种相关数据进行分享和/或导出。例如,电子设备可以基于用户的指示,将生成的与处理后的目标音频相关的数据进行导出和/或分享,也可以将经过音频处理后的目标音频(人声或伴奏等)进行导出和/或分享,还可以将生成的目标封面(静态封面或动态封面)随目标音频一同导出或分享,本实施例并不对其进行限定。
在上述各实施例的基础上,图8是本公开实施例提供的又一种音频处理方法的流程示意图。如图8所示,本公开实施例提供的音频处理方法可以包括如下步骤:
S801、响应于检测到针对伴奏分离控件的触控操作,对待处理音频进行音频分离,得到目标音频。
作为一种示例,电子设备可以对待处理音频进行处理,得到目标音频。
作为另一种示例,电子设备还可以将待处理音频上传至云端,以便调用远程分离服务,从待处理音频中分离出目标音频。可选的,图9是本公开实施例提供的一种伴奏分离的实现原理示意图。如图9所示,在本实施例中,电子设备可以基于用户的选择操作,首先从相册获取第一视频,然后从第一视频中抽离出待处理音频,随后将该待处理音频上传到云端,并通过调用远程分离服务,对待处理音频进行音频分离,从而得到分离后的目标音频。进而,电子设备在创建音轨后,可以在界面上呈现出创建的目标音频的音轨。
具体的,如图9所示,上传到云端的待处理音频首先被传输到视频云,然后在云端经过分离语音服务,待处理音频中的目标音频被分离出来,并被保存至视频云,最后电子设备通过与云端进行交互,从云端的视频云下载得到分离出的目标音频。
可理解,在得到目标音频后,电子设备可以响应于用户针对不同控件的触控操作执行不同的流程。
作为一种示例,在S801之后,该音频处理方法可以包括:
S802、响应于检测到针对导出到音轨控件的触控操作,将目标音频导出到音轨界面进行后续编辑,得到处理后的目标音频。
S803、响应于检测到针对保存控件的触控操作,将与处理后的目标音频相关的数据保存到文件系统或相册。
示例性的,对于生成的音频文件,为了方便后续在其他设备进行编辑,可以将处理后的目标音频以及与其相关的数据进行压缩,得到压缩包形式的文件,以便共同处理和保存。
可选的,在本实施例中,当将与处理后的目标音频相关的数据保存到相册时,可以支持更换目标音频等文件的封面或默认添加封面,以提高用户欣赏该目标音频时的美感。
作为另一种示例,在S801之后,该音频处理方法可以包括:
S804、响应于检测到针对保存控件的触控操作,保存与目标音频相关的数据。
示例性的,可以将与目标音频相关的数据保存到文件系统或相册。
可选的,在上述S803和S804中,对与目标音频相关的数据进行保存的方式可以参照下述的图10所示。可选的,图10是本公开实施例提供的一种音频文件保存的实现原理示意图。如图10所示,在本实施例中,电子设备检测到用户的保存指示时,一方面,首先按照音频块的形式对目标视频的音轨进行效果器处理,然后合成音频处理过程中的其他音频轨并对合成后的结果进行渲染,随后对渲染的结果进行音频编码,输出音频文件;另一方面,响应于用户的封面选择操作,生成目标封面(静态封面或动态封面);最后,将音频文件和目标封面封装在一起,得到添加封面的目标音频。
关于本实施例中各步骤的具体实现可以参见上述各实施例中的记载,此处不作赘述。
由上述各实施例记载的内容可知,本公开实施例提供的音频处理方法提供了向用户开放和输出伴奏分离的结果,满足了用户多样化的需求,提供了从伴奏分离功能跳转到音轨处理的界面,不仅节省了界面跳转的路径,并且提供了对伴奏分离的结果进行继续编辑和创作的可能性,提供了一种新的保存方式,即支持保存到文件和保存到相册,而且支持更换文件的封面,提高了音频处理方法所适用应用程序的智能化,提高了用户的使用体验。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图11为本公开实施例提供的一种音频处理装置的结构示意图。该音频处理装置1100可以集成在电子设备中,也可以通过电子设备实现。参照图11所示,该音频处理装置1100可以包括:
获取模块1101,用于响应于音频获取指示,获取待处理音频;
处理模块1102,用于响应于针对所述待处理音频的音频分离指示,对所述待处理音频进行音频分离,以获取目标音频,其中,所述目标音频为从所述待处理音频分离出的人声和/或伴奏;
呈现模块1103,用于呈现所述目标音频。
在本公开的一个可选实施例中,所述获取模块1101,具体用于响应于针对第一界面上的第一控件的触控操作,获取所述待处理音频,其中,所述第一控件用于触发加载音频。
在本公开的一个可选实施例中,所述处理模块1102,具体用于响应于针对第二界面上的第二控件的触控操作,对所述待处理音频进行音频分离,以获取所述目标音频,所述第二控件用于触发分离音频。
在本公开的一个可选实施例中,所述呈现模块1103,具体用于在第三界面上显示与所述目标音频相对应的音频图形和/或与所述目标音频相关联的第三控件,所述第三控件用于触发播放所述目标音频。
在本公开的一个可选实施例中,所述呈现模块1103,具体用于在第三界面上显示与所述目标音频相关联的第四控件,所述第四控件用于触发将与所述目标音频相关联的数据导出到目标位置;所述目标位置包括相册或文件系统。
在本公开的一个可选实施例中,所述呈现模块1103,具体用于在第三界面上显示与所述目标音频相关联的第五控件,所述第五控件用于触发对所述目标音频进行音频编辑。
在本公开的一个可选实施例中,所述呈现模块1103,还用于响应于音频处理指示,呈现一个或多个音频处理功能控件,所述一个或多个音频处理功能控件用于触发执行相应的音频处理功能;
所述处理模块1102,还用于响应于针对所述一个或多个音频处理功能控件中的一个音频处理功能控件的触控操作,对所述目标音频执行与所述音频处理功能控件对应的音频处理,以获取处理后的目标音频。
在本公开的一个可选实施例中,所述呈现模块1103,具体用于响应于针对第四界面上的第六控件的触控操作,呈现所述一个或多个音频处理功能控件或与所述一个或多个音频处理功能控件相关联的第七控件,所述第七控件用于触发在第五界面上呈现所述一个或多个音频处理功能控件。
在本公开的一个可选实施例中,所述呈现模块1103,具体用于响应于针对第四界面的滑动操作,呈现所述一个或多个音频处理功能控件或与所述一个或多个音频处理功能控件相关联的第七控件,所述第七控件用于触发在第五界面上呈现所述一个或多个音频处理功能控件。
在本公开的一个可选实施例中,所述音频处理功能控件包括:
音频优化控件,用于触发对音频进行编辑以优化所述音频;
伴奏分离控件,用于触发从音频分离人声和/或伴奏;
风格合成控件,用于触发从音频分离人声,并将分离出的人声与预设伴奏进行混合和编辑;
音频混搭控件,用于触发从第一音频分离人声,从第二音频分离伴奏,并将分离出的人声与分离出的伴奏进行混合和编辑。
在本公开的一个可选实施例中,所述呈现模块1103,还用于在第六界面上显示所述处理后的目标音频,所述第六界面包括第八控件,所述第八控件用于触发播放所述处理后的目标音频。
在本公开的一个可选实施例中,所述第六界面还包括第九控件,所述呈现模块1103,还用于响应于针对所述第六界面上的所述第九控件的触控操作,显示第一窗口,所述第一窗口包括封面导入控件、一个或多个预设的静态封面控件以及一个或多个预设的动画效果控件;
所述处理模块1102,还用于响应于针对所述第一窗口上的控件选择操作,获取目标封面;
所述目标封面为静态封面或者动态封面。
在本公开的一个可选实施例中,若所述目标封面为动态封面,所述处理模块1102,具体用于:
响应于针对所述第一窗口上的控件选择操作,获取静态封面和动画效果;
根据所述处理后的目标音频的音频特征、所述静态封面和所述动画效果,生成随所述处理后的目标音频的音频特征变化的动态封面;
其中,所述音频特征包括音频节拍和/或音量。
在本公开的一个可选实施例中,所述处理模块1102,还用于响应于针对第六界面的导出指示,将与所述处理后的目标音频相关联的数据导出到目标位置;所述目标位置包括相册或文件系统。
在本公开的一个可选实施例中,所述处理模块1102,还用于响应于针对第六界面的分享指示,将与所述处理后的目标音频相关联的数据分享到目标应用。
在本公开的一个可选实施例中,所述与所述处理后的目标音频相关联的数据包括以下至少一项:
所述处理后的目标音频,所述人声,所述伴奏,所述处理后的目标音频的静态封面,和所述处理后的目标音频的动态封面。
本实施例提供的音频处理装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图12为本公开实施例提供的电子设备的结构框图。如图12所示,该电子设备1200可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable Media Player,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图12示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,电子设备1200可以包括处理装置(例如中央处理器、图形处理器等)1201,其可以根据存储在只读存储器(Read Only Memory,简称ROM)1202中的程序或者从存储装置1208加载到随机访问存储器(Random Access Memory,简称RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中,还存储有电子设备1200操作所需的各种程序和数据。处理装置1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
通常,以下装置可以连接至I/O接口1205:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1206;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置1207;包括例如磁带、硬盘等的存储装置1208;以及通信装置1209。通信装置1209可以允许电子设备1200与其他设备进行无线或有线通信以交换数据。虽然图12示出了具有各种装置的电子设备1200,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1209从网络上被下载和安装,或者从存储装置1208被安装,或者从ROM1202被安装。在该计算机程序被处理装置1201执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的装置或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,装置的名称在某种情况下并不构成对该装置或模块本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
第一方面,根据本公开的一个或多个实施例,提供一种音频处理方法,包括:
响应于音频获取指示,获取待处理音频;
响应于针对所述待处理音频的音频分离指示,对所述待处理音频进行音频分离,以获取目标音频,其中,所述目标音频为从所述待处理音频分离出的人声和/或伴奏;
呈现所述目标音频。
根据本公开的一个或多个实施例,所述响应于音频获取指示,获取待处理音频,包括:
响应于针对第一界面上的第一控件的触控操作,获取所述待处理音频,其中,所述第一控件用于触发加载音频。
根据本公开的一个或多个实施例,所述响应于针对所述待处理音频的音频分离指示,对所述待处理音频进行音频分离,以获取目标音频,包括:
响应于针对第二界面上的第二控件的触控操作,对所述待处理音频进行音频分离,以获取所述目标音频,所述第二控件用于触发分离音频。
根据本公开的一个或多个实施例,所述呈现所述目标音频,包括:
在第三界面上显示与所述目标音频相对应的音频图形和/或与所述目标音频相关联的第三控件,所述第三控件用于触发播放所述目标音频。
根据本公开的一个或多个实施例,所述呈现所述目标音频,包括:
在第三界面上显示与所述目标音频相关联的第四控件,所述第四控件用于触发将与所述目标音频相关联的数据导出到目标位置;所述目标位置包括相册或文件系统。
根据本公开的一个或多个实施例,所述呈现所述目标音频,包括:
在第三界面上显示与所述目标音频相关联的第五控件,所述第五控件用于触发对所述目标音频进行音频编辑。
根据本公开的一个或多个实施例,所述对所述目标音频进行音频编辑包括:
响应于音频处理指示,呈现一个或多个音频处理功能控件,所述一个或多个音频处理功能控件用于触发执行相应的音频处理功能;
响应于针对所述一个或多个音频处理功能控件中的一个音频处理功能控件的触控操作,对所述目标音频执行与所述音频处理功能控件对应的音频处理,以获取处理后的目标音频。
根据本公开的一个或多个实施例,所述响应于音频处理指示,呈现一个或多个音频处理功能控件,包括:
响应于针对第四界面上的第六控件的触控操作,呈现所述一个或多个音频处理功能控件或与所述一个或多个音频处理功能控件相关联的第七控件,所述第七控件用于触发在第五界面上呈现所述一个或多个音频处理功能控件。
根据本公开的一个或多个实施例,所述响应于音频处理指示,呈现一个或多个音频处理功能控件,包括:
响应于针对第四界面的滑动操作,呈现所述一个或多个音频处理功能控件或与所述一个或多个音频处理功能控件相关联的第七控件,所述第七控件用于触发在第五界面上呈现所述一个或多个音频处理功能控件。
根据本公开的一个或多个实施例,所述音频处理功能控件包括:
音频优化控件,用于触发对音频进行编辑以优化所述音频;
伴奏分离控件,用于触发从音频分离人声和/或伴奏;
风格合成控件,用于触发从音频分离人声,并将分离出的人声与预设伴奏进行混合和编辑;
音频混搭控件,用于触发从第一音频分离人声,从第二音频分离伴奏,并将分离出的人声与分离出的伴奏进行混合和编辑。
根据本公开的一个或多个实施例,所述方法还包括:在第六界面上显示所述处理后的目标音频,所述第六界面包括第八控件,所述第八控件用于触发播放所述处理后的目标音频。
根据本公开的一个或多个实施例,所述第六界面还包括第九控件,所述方法还包括:
响应于针对所述第六界面上的所述第九控件的触控操作,显示第一窗口,所述第一窗口包括封面导入控件、一个或多个预设的静态封面控件以及一个或多个预设的动画效果控件;
响应于针对所述第一窗口上的控件选择操作,获取目标封面;
所述目标封面为静态封面或者动态封面。
根据本公开的一个或多个实施例,若所述目标封面为动态封面,所述响应于针对所述第一窗口上的控件选择操作,获取目标封面,包括:
响应于针对所述第一窗口上的控件选择操作,获取静态封面和动画效果;
根据所述处理后的目标音频的音频特征、所述静态封面和所述动画效果,生成随所述处理后的目标音频的音频特征变化的动态封面;
其中,所述音频特征包括音频节拍和/或音量。
根据本公开的一个或多个实施例,所述方法还包括:
响应于针对第六界面的导出指示,将与所述处理后的目标音频相关联的数据导出到目标位置;所述目标位置包括相册或文件系统。
根据本公开的一个或多个实施例,所述方法还包括:
响应于针对第六界面的分享指示,将与所述处理后的目标音频相关联的数据分享到目标应用。
根据本公开的一个或多个实施例,所述与所述处理后的目标音频相关联的数据包括以下至少一项:
所述处理后的目标音频,所述人声,所述伴奏,所述处理后的目标音频的静态封面,和所述处理后的目标音频的动态封面。
第二方面,根据本公开的一个或多个实施例,提供一种音频处理装置,包括:
获取模块,用于响应于音频获取指示,获取待处理音频;
处理模块,用于响应于针对所述待处理音频的音频分离指示,对所述待处理音频进行音频分离,以获取目标音频,其中,所述目标音频为从所述待处理音频分离出的人声和/或伴奏;
呈现模块,用于呈现所述目标音频。
根据本公开的一个或多个实施例,所述获取模块,具体用于响应于针对第一界面上的第一控件的触控操作,获取所述待处理音频,其中,所述第一控件用于触发加载音频。
根据本公开的一个或多个实施例,所述处理模块,具体用于响应于针对第二界面上的第二控件的触控操作,对所述待处理音频进行音频分离,以获取所述目标音频,所述第二控件用于触发分离音频。
根据本公开的一个或多个实施例,所述呈现模块,具体用于在第三界面上显示与所述目标音频相对应的音频图形和/或与所述目标音频相关联的第三控件,所述第三控件用于触发播放所述目标音频。
根据本公开的一个或多个实施例,所述呈现模块,具体用于在第三界面上显示与所述目标音频相关联的第四控件,所述第四控件用于触发将与所述目标音频相关联的数据导出到目标位置;所述目标位置包括相册或文件系统。
根据本公开的一个或多个实施例,所述呈现模块,具体用于在第三界面上显示与所述目标音频相关联的第五控件,所述第五控件用于触发对所述目标音频进行音频编辑。
根据本公开的一个或多个实施例,所述呈现模块,还用于响应于音频处理指示,呈现一个或多个音频处理功能控件,所述一个或多个音频处理功能控件用于触发执行相应的音频处理功能;
所述处理模块,还用于响应于针对所述一个或多个音频处理功能控件中的一个音频处理功能控件的触控操作,对所述目标音频执行与所述音频处理功能控件对应的音频处理,以获取处理后的目标音频。
根据本公开的一个或多个实施例,所述呈现模块,具体用于响应于针对第四界面上的第六控件的触控操作,呈现所述一个或多个音频处理功能控件或与所述一个或多个音频处理功能控件相关联的第七控件,所述第七控件用于触发在第五界面上呈现所述一个或多个音频处理功能控件。
根据本公开的一个或多个实施例,所述呈现模块,具体用于响应于针对第四界面的滑动操作,呈现所述一个或多个音频处理功能控件或与所述一个或多个音频处理功能控件相关联的第七控件,所述第七控件用于触发在第五界面上呈现所述一个或多个音频处理功能控件。
根据本公开的一个或多个实施例,所述音频处理功能控件包括:
音频优化控件,用于触发对音频进行编辑以优化所述音频;
伴奏分离控件,用于触发从音频分离人声和/或伴奏;
风格合成控件,用于触发从音频分离人声,并将分离出的人声与预设伴奏进行混合和编辑;
音频混搭控件,用于触发从第一音频分离人声,从第二音频分离伴奏,并将分离出的人声与分离出的伴奏进行混合和编辑。
根据本公开的一个或多个实施例,所述呈现模块,还用于在第六界面上显示所述处理后的目标音频,所述第六界面包括第八控件,所述第八控件用于触发播放所述处理后的目标音频。
根据本公开的一个或多个实施例,所述第六界面还包括第九控件,所述呈现模块,还用于响应于针对所述第六界面上的所述第九控件的触控操作,显示第一窗口,所述第一窗口包括封面导入控件、一个或多个预设的静态封面控件以及一个或多个预设的动画效果控件;
所述处理模块,还用于响应于针对所述第一窗口上的控件选择操作,获取目标封面;
所述目标封面为静态封面或者动态封面。
根据本公开的一个或多个实施例,若所述目标封面为动态封面,所述处理模块,具体用于:
响应于针对所述第一窗口上的控件选择操作,获取静态封面和动画效果;
根据所述处理后的目标音频的音频特征、所述静态封面和所述动画效果,生成随所述处理后的目标音频的音频特征变化的动态封面;
其中,所述音频特征包括音频节拍和/或音量。
根据本公开的一个或多个实施例,所述处理模块,还用于响应于针对第六界面的导出指示,将与所述处理后的目标音频相关联的数据导出到目标位置;所述目标位置包括相册或文件系统。
根据本公开的一个或多个实施例,所述处理模块,还用于响应于针对第六界面的分享指示,将与所述处理后的目标音频相关联的数据分享到目标应用。
根据本公开的一个或多个实施例,所述与所述处理后的目标音频相关联的数据包括以下至少一项:
所述处理后的目标音频,所述人声,所述伴奏,所述处理后的目标音频的静态封面,和所述处理后的目标音频的动态封面。
第三方面,根据本公开的一个或多个实施例,提供了一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第四方面,根据本公开的一个或多个实施例,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
第五方面,根据本公开的一个或多个实施例,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的音频处理方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (20)

1.一种音频处理方法,其特征在于,包括:
响应于音频获取指示,获取待处理音频;
响应于针对所述待处理音频的音频分离指示,对所述待处理音频进行音频分离,以获取目标音频,其中,所述目标音频为从所述待处理音频分离出的人声和/或伴奏;
呈现所述目标音频。
2.根据权利要求1所述的方法,其特征在于,所述响应于音频获取指示,获取待处理音频,包括:
响应于针对第一界面上的第一控件的触控操作,获取所述待处理音频,其中,所述第一控件用于触发加载音频。
3.根据权利要求2所述的方法,其特征在于,所述响应于针对所述待处理音频的音频分离指示,对所述待处理音频进行音频分离,以获取目标音频,包括:
响应于针对第二界面上的第二控件的触控操作,对所述待处理音频进行音频分离,以获取所述目标音频,所述第二控件用于触发分离音频。
4.根据权利要求3所述的方法,其特征在于,所述呈现所述目标音频,包括:
在第三界面上显示与所述目标音频相对应的音频图形和/或与所述目标音频相关联的第三控件,所述第三控件用于触发播放所述目标音频。
5.根据权利要求3所述的方法,其特征在于,所述呈现所述目标音频,包括:
在第三界面上显示与所述目标音频相关联的第四控件,所述第四控件用于触发将与所述目标音频相关联的数据导出到目标位置;所述目标位置包括相册或文件系统。
6.根据权利要求3所述的方法,其特征在于,所述呈现所述目标音频,包括:
在第三界面上显示与所述目标音频相关联的第五控件,所述第五控件用于触发对所述目标音频进行音频编辑。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标音频进行音频编辑包括:
响应于音频处理指示,呈现一个或多个音频处理功能控件,所述一个或多个音频处理功能控件用于触发执行相应的音频处理功能;
响应于针对所述一个或多个音频处理功能控件中的一个音频处理功能控件的触控操作,对所述目标音频执行与所述音频处理功能控件对应的音频处理,以获取处理后的目标音频。
8.根据权利要求7所述的方法,其特征在于,所述响应于音频处理指示,呈现一个或多个音频处理功能控件,包括:
响应于针对第四界面上的第六控件的触控操作,呈现所述一个或多个音频处理功能控件或与所述一个或多个音频处理功能控件相关联的第七控件,所述第七控件用于触发在第五界面上呈现所述一个或多个音频处理功能控件。
9.根据权利要求7所述的方法,其特征在于,所述响应于音频处理指示,呈现一个或多个音频处理功能控件,包括:
响应于针对第四界面的滑动操作,呈现所述一个或多个音频处理功能控件或与所述一个或多个音频处理功能控件相关联的第七控件,所述第七控件用于触发在第五界面上呈现所述一个或多个音频处理功能控件。
10.根据权利要求7所述的方法,其特征在于,所述音频处理功能控件包括:
音频优化控件,用于触发对音频进行编辑以优化所述音频;
伴奏分离控件,用于触发从音频分离人声和/或伴奏;
风格合成控件,用于触发从音频分离人声,并将分离出的人声与预设伴奏进行混合和编辑;
音频混搭控件,用于触发从第一音频分离人声,从第二音频分离伴奏,并将分离出的人声与分离出的伴奏进行混合和编辑。
11.根据权利要求7-10中任一项所述的方法,其特征在于,还包括:在第六界面上显示所述处理后的目标音频,所述第六界面包括第八控件,所述第八控件用于触发播放所述处理后的目标音频。
12.根据权利要求11所述的方法,其特征在于,所述第六界面还包括第九控件,所述方法还包括:
响应于针对所述第六界面上的所述第九控件的触控操作,显示第一窗口,所述第一窗口包括封面导入控件、一个或多个预设的静态封面控件以及一个或多个预设的动画效果控件;
响应于针对所述第一窗口上的控件选择操作,获取目标封面;
所述目标封面为静态封面或者动态封面。
13.根据权利要求12所述的方法,其特征在于,若所述目标封面为动态封面,所述响应于针对所述第一窗口上的控件选择操作,获取目标封面,包括:
响应于针对所述第一窗口上的控件选择操作,获取静态封面和动画效果;
根据所述处理后的目标音频的音频特征、所述静态封面和所述动画效果,生成随所述处理后的目标音频的音频特征变化的动态封面;
其中,所述音频特征包括音频节拍和/或音量。
14.根据权利要求7-10中任一项所述的方法,其特征在于,所述方法还包括:
响应于针对第六界面的导出指示,将与所述处理后的目标音频相关联的数据导出到目标位置;所述目标位置包括相册或文件系统。
15.根据权利要求7-10中任一项所述的方法,其特征在于,所述方法还包括:
响应于针对第六界面上的分享指示,将与所述处理后的目标音频相关联的数据分享到目标应用。
16.根据权利要求14或15所述的方法,其特征在于,所述与所述处理后的目标音频相关联的数据包括以下至少一项:
所述处理后的目标音频,所述人声,所述伴奏,所述处理后的目标音频的静态封面,和所述处理后的目标音频的动态封面。
17.一种音频处理装置,其特征在于,包括:
获取模块,用于响应于音频获取指示,获取待处理音频;
处理模块,用于响应于针对所述待处理音频的音频分离指示,对所述待处理音频进行音频分离,以获取目标音频,其中,所述目标音频为从所述待处理音频分离出的人声和/或伴奏;
呈现模块,用于呈现所述目标音频。
18.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1至16中任一项所述的音频处理方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至16中任一项所述的音频处理方法。
20.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至16中任一项所述的方法。
CN202210495460.0A 2022-05-07 2022-05-07 音频处理方法、装置、设备及存储介质 Pending CN117059121A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210495460.0A CN117059121A (zh) 2022-05-07 2022-05-07 音频处理方法、装置、设备及存储介质
PCT/CN2023/092363 WO2023216999A1 (zh) 2022-05-07 2023-05-05 音频处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210495460.0A CN117059121A (zh) 2022-05-07 2022-05-07 音频处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117059121A true CN117059121A (zh) 2023-11-14

Family

ID=88652386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210495460.0A Pending CN117059121A (zh) 2022-05-07 2022-05-07 音频处理方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN117059121A (zh)
WO (1) WO2023216999A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916039B (zh) * 2019-05-08 2022-09-23 北京字节跳动网络技术有限公司 音乐文件的处理方法、装置、终端及存储介质
CN112885318A (zh) * 2019-11-29 2021-06-01 阿里巴巴集团控股有限公司 多媒体数据生成方法、装置、电子设备及计算机存储介质
CN113411516B (zh) * 2021-05-14 2023-06-20 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2023216999A1 (zh) 2023-11-16

Similar Documents

Publication Publication Date Title
US8499253B2 (en) Individualized tab audio controls
CN101743531B (zh) 使用用户运动输入用户命令的方法及其多媒体设备
CN113365134B (zh) 音频分享方法、装置、设备及介质
CN110324718B (zh) 音视频生成方法、装置、电子设备及可读介质
US20130159853A1 (en) Managing playback of supplemental information
EP4124052A1 (en) Video production method and apparatus, and device and storage medium
WO2022257874A1 (zh) 交互方法、装置、介质和电子设备
WO2023011318A1 (zh) 媒体文件处理方法、装置、设备、可读存储介质及产品
US11272136B2 (en) Method and device for processing multimedia information, electronic equipment and computer-readable storage medium
WO2024032635A1 (zh) 媒体内容获取方法、装置、设备、可读存储介质及产品
CN112883223A (zh) 音频展示方法、装置、电子设备及计算机存储介质
US9705953B2 (en) Local control of digital signal processing
CN117059121A (zh) 音频处理方法、装置、设备及存储介质
CN117059066A (zh) 音频处理方法、装置、设备及存储介质
WO2023217003A1 (zh) 音频处理方法、装置、设备及存储介质
WO2023066276A1 (zh) 页面处理方法、装置、设备及存储介质
CN115442639B (zh) 一种特效配置文件的生成方法、装置、设备及介质
KR102488623B1 (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
EP4365888A1 (en) Method and apparatus for processing audio data
CN116055799B (zh) 多轨道视频编辑方法、图形用户界面及电子设备
WO2024077498A1 (zh) 一种播放界面的显示方法、装置、设备及可读存储介质
TW201110012A (en) Method for generating a playlist
CN117032510A (zh) 媒体内容处理、展示方法、设备、存储介质及程序产品
Hamanaka Implementation of Melody Slot Machines
CN117437897A (zh) 音频处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination