CN106531202A

CN106531202A - 一种音频处理方法及装置

Info

Publication number: CN106531202A
Application number: CN201611032664.1A
Authority: CN
Inventors: 曹硕
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2017-03-22
Anticipated expiration: 2036-11-14
Also published as: CN106531202B

Abstract

本发明实施例提供一种音频处理方法及装置，其中音频处理方法包括：接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件。采用本发明使用方便，效率高。

Description

一种音频处理方法及装置

技术领域

本发明涉及电子技术领域，具体涉及一种音频处理方法及装置。

背景技术

随着媒体技术的发展，音频处理已经成为比较重要的一项媒体处理技术，同时随着音频处理技术的发展，各种音频应用也应运而生，用户可以通过音频应用从网上下载歌曲，保存至本地，当需要播放时，进行播放，或者用户可以直接通过音频应用在线播放歌曲，通常存在这样一种情况，用户在听某一首音乐时，很喜欢其中一段，比如音乐高潮部分，非常希望能够将该段音乐从整个音频文件中截取出来成为一个单独的音频文件，后续可以将该段音乐作为铃声，现有的音乐截取方式采用的是，用户需要反复设置开始和结束点试听才能确定要截取音频的精确起始时间和结束时间，这种方案效率非常低。

发明内容

本发明实施例提供一种音频处理方法及装置，可通过选择音频文本的第一位置和第二位置，从待处理音频文件中截取音频，使用方便，效率高。

本发明第一方面提供一种音频处理方法，包括：

接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；

从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；

从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；

提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件。

本发明第二方面提供一种音频处理装置，包括：

接收模块，用于接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；

第一查找模块，用于从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；

第二查找模块，用于从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；

第一提取模块，用于提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件。

实施本发明实施例，具有如下有益效果：

本发明实施例，接收音频截取指令，该音频截取指令中包括音频文本中的第一位置和音频文本中的第二位置，该音频文本为待处理音频文件对应的文本，所述第一位置和第二位置为用户在音频文本中选取的位置，从待处理音频文件中查找与第一位置对应的第一音频时间，从待处理音频文件中查找与第二位置对应的第二音频时间，提取待处理音频文件中第一音频时间与第二音频时间之间的音频数据，并生成第一目标音频文件，这种方式可通过选择音频文本的第一位置和第二位置，从待处理音频文件中截取音频，使用方便，效率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频处理方法的流程图；

图2为本发明实施例提供的另一种音频处理方法的流程图；

图3为本发明实施例提供的又一种音频处理方法的流程图；

图4为本发明实施例提供的又一种音频处理方法的流程图；

图5为本发明实施例提供的一种界面显示示意图；

图6为本发明实施例提供的一种音频处理装置的结构示意图；

图7为本发明实施例提供的一种提取模块的结构示意图；

图8为本发明实施例提供的另一种音频处理装置的结构示意图；

图9为本发明实施例提供的又一种音频处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将结合附图1-附图5，对本发明实施例提供的音频处理方法进行详细介绍。

请参照图1，为本发明实施例提供的一种音频处理方法的流程图；该方法可包括以下步骤S100-步骤S103。

S100，接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；

本发明实施例中的待处理音频文件的音频格式可以是高级音频编码(AdvancedAudio Coding，AAC)或者也可以是MP3等等，音频格式即是音频数据的文件封装格式。

本发明实施例的音频处理方法可以由客户端执行处理，也可以由服务器执行处理，比如，若该音频处理方法是由客户端执行处理，则音频截取指令可以是用户在终端进行操作从而触发音频截取指令，该操作可以是在终端屏幕的触屏操作或者按键操作，或者也可以是输入关键字等等。若该音频处理方法是由服务器执行处理，则该音频截取指令可以是由安装有音频播放客户端的终端发送的。

进一步可选的，该音频截取指令包括音频文本中的第一位置和音频文本中的第二位置，音频文本即是待处理音频文件对应的文本，比如，待处理音频文件为歌曲文件，则该音频文本可以是该歌曲对应的歌词，或者该待处理音频文件为演讲音频文件，则该音频文本可以是该演讲音频文件的演讲稿等等。

第一位置和第二位置为用户选择的希望截取的音频数据的开始位置和结束位置，如图5所示，即是本发明实施例提供的一种歌词界面显示示意图，若用户需要截取的开始位置为“忘了我让我一个人自由自在”，结束位置为“没错，你快先离开”，则可以通过对终端屏幕的操作实现位置的选取，第一位置为开始位置，第二位置为结束位置。

具体可选的，以下将接收音频截取指令进行具体阐述：

1)使用音频客户端的音频截取工具打开一个要截取的待处理音频文件；

2)音频客户端解析这个待处理音频文件以后，通过音频指纹匹配到后台服务器获取歌曲文件的歌词信息；

3)截取工具解析歌词信息并且显示，用户通过歌词的位置来快速设置音频截取的开始位置和结束位置，即是本发明实施例的第一位置和第二位置。

S101，从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；

S102，从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；

本发明实施例中，当用户从音频文本中选取了第一位置和第二位置之后，即从待处理音频文件中查找与第一位置对应的第一音频时间，以及从待处理音频文件中查找与第二位置对应的第二音频时间，具体可选的，音频文件中包括了音频文本的每一句的开始时间，当确定了第一位置与第二位置之后，即可获得与第一位置对应的第一音频时间，以及与第二位置对应的第二音频时间。

需要说明的是，第一音频时间即是该第一位置的文本在整个音频文件播放时的时间点，第二音频时间即是该第二位置的文本在整个音频文件播放时的时间点，如图5所示，第一位置对应的第一音频时间为1分38秒，第二位置对应的第二音频时间为2分25秒。

S103，提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件。

本发明实施例中，从待处理音频文件中提取该第一音频时间与第二音频时间之间的音频数据，并生成第一目标音频文件，具体提取方法可以是，读取该待处理音频文件的头信息，根据头信息对该第一音频时间与第二音频时间之间的音频数据进行解码，获得脉冲编码调制(Pulse-code modulation，PCM)文件，并进一步将该PCM文件进行转码处理，得到新的第一目标音频文件，该第一目标音频文件即是从待处理音频文件中截取的一部分音频数据。

请参照图2，为本发明实施例提供的另一种音频处理方法的流程示意图，如图所示，本发明实施例的音频处理方法包括步骤S200～S205；

S200，接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；

S201，从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；

S202，从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；

本发明实施例步骤S200～S202请参照图1的实施例步骤S100～S102，在此不再赘述。

S203，提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据；

S204，对所述音频数据进行解码，生成脉冲编码调制PCM文件；

本发明实施例中，从待处理音频文件中将第一音频时间与第二音频数据之间的音频数据提取出来之后，并对该音频数据进行解码，生成PCM文件，PCM是一种模拟信号的数码化方法。PCM将信号的强度依照同样的间距分成数段，然后用独特的数码记号(通常是二进制)来量化。PCM常被用于数码电信系统上，也是电脑和CD红皮书中的标准形式。

S205，对所述PCM文件进行转码处理，生成第一目标音频文件。

本发明实施例中，对该PCM文件进行转码处理，生成第一目标音频文件，若需要对该第一目标音频文件进行播放时，则可以通过音频解码进行播放，音频解码播放接收到压缩的音频数据以后，把数据通过解码程序还原成PCM数据，然后，通过输出设备转换成模拟信息进行播放。

请参照图3，为本发明实施例提供的又一种音频处理方法的流程示意图，如图所示，本发明实施例的音频处理方法包括步骤S300～S308；

S300，接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；

S301，从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；

S302，从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；

本发明实施例步骤S300～S302请参照图1的实施例步骤S100～S102，在此不再赘述。

S303，在所述待处理音频文件中检测在所述第一音频时间之前预设时长内是否包含无文本音频数据；

本发明实施例中，在实际的待处理音频文件中，包含音频文本的音频数据占据了整个文件的大部分，但是待处理音频文件中也会存在无文本音频数据，比如，该待处理音频文件为歌曲，则无文本音频数据可以是歌曲的伴奏，或者某一句歌词的前奏等等，或者该待处理音频文件为演讲音频，则无文本音频数据可以是演讲音频中穿插的轻音乐。

为了方便用户准确截取自己需要的音频数据，本发明实施例在提取第一音频时间与第二音频时间之间的音频数据之前，还会检测在该第一音频时间之前预设时长内是否包含无文本音频数据。

S304，若否，则提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件。

本发明实施例中，若检测到在该第一音频时间之前预设时长内不包含无文本音频数据，则说明没用前奏，可以直接提取待处理音频文件中第一音频时间与第二音频时间之间的音频数据，并生成第一目标音频文件。

S305，若所述待处理音频文件中在所述第一音频时间之前预设时长内包含无文本音频数据，输出至少一个选项，所述选项用于提示用户选择是否需要音频前奏；

本发明实施例中，若检测到在该第一音频时间之前预设时长内包含无文本音频数据，则说明该第一音频时间之前包含前奏部分，则终端输出至少一个选项供用户选择，该至少一个选项可以是，“您所选取的歌词之前包含前奏部分，是否需要一同截取”；或者终端输出该前奏部分的时长，并根据该前奏的连贯性预先将该时长划分成至少两个时间段，输出选项，供用户选择需要哪几个时间段的前奏。

S306，若用户选择需要音频前奏，获取所述无文本音频数据的目标时长；

本发明实施例中，若用户选择需要音频前奏，则获取该无文本音频数据的目标时长，比如，该目标时长为5秒。

S307，根据所述第一音频时间和所述目标时长，获取所述无文本音频数据开始的第三音频时间；

本发明实施例中，进一步根据第一音频时间和目标时长，获取无文本音频数据开始的第三音频数据，比如，第一音频时间为1分52秒，目标时长为5秒，则将第一音频时间往前移动目标时长即可得到第三音频时间，即第三音频时间为1分47秒。

S308，提取所述待处理音频文件中所述第三音频时间与所述第二音频时间之间的音频数据，并生成第二目标音频文件。

本发明实施例中，提取该待处理音频文件中第三音频时间与第二音频时间之间的音频数据，并且生成第二目标音频文件，继续以上述例子作为举例，若第二音频时间为2分50秒，则第二目标音频文件为待处理音频文件中1分47秒到2分50秒之间的音频数据。

请参照图4，为本发明实施例提供的又一种音频处理方法的流程示意图，如图所示，本发明实施例的音频处理方法包括步骤S400～S406；

S400，在终端显示待处理音频文件的音频文本；

本发明实施例中，使用音频客户端的音频截取工具打开一个要截取的待处理音频文件；音频客户端解析这个待处理音频文件以后，通过音频指纹匹配到后台服务器获取该待处理音频文件的音频文本，比如歌曲文件的歌词信息，进一步终端显示该音频文本。

S401，捕获用户针对所述音频文本的操作轨迹；

本发明实施例中，当终端显示音频文本时，则用户可以通过触屏操作对该音频文本进行位置选择，终端捕获用户针对该音频文本的操作轨迹，该操作轨迹可以是点击操作轨迹，或者滑动操作轨迹等等，本发明不作限定，例如，如图5所示，用户可以点击第一位置(忘了我让我一个人自由自在)和第二位置(没错，你快先离开)，或者用户可以从第一位置向下滑动到第二位置。

S402，根据所述操作轨迹确定用户所选取的第一位置和第二位置，并根据所述第一位置和所述第二位置生成音频截取指令。

本发明实施例中，终端根据操作轨迹确定用户所选取的第一位置和第二位置，若该操作轨迹为滑动操作轨迹，则第一位置为该滑动操作轨迹的起点位置，第二位置为该滑动操作轨迹的结束位置，根据该第一位置和第二位置生成音频截取指令，若后续音频处理过程是在终端进行，则将该音频截取指令发送至终端的处理器，由处理器分析执行，若后续音频处理过程是在服务器侧进行，则终端将该音频截取指令发送至服务器，由服务器分析执行。

S403，接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；

S404，从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；

S405，从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；

S406，提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件。

本发明实施例步骤S403～S406请参照图1的实施例步骤S100～S103，在此不再赘述。

请参照图6，为本发明实施例提供的一种音频处理装置的结构示意图，如图所示，本发明实施例的音频处理装置包括：

接收模块100，用于接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；

具体可选的，以下将接收音频截取指令进行具体阐述：

第一查找模块101，用于从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；

第二查找模块102，用于从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；

第一提取模块103，用于提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件。

进一步可选的，请参照图7，为本发明实施例提供的一种第一提取模块的结构示意图，如图所示，本发明实施例的第一提取模块103包括提取单元1030、解码单元1031以及转码单元1032；

提取单元1030，用于提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据；

解码单元1031，用于对所述音频数据进行解码，生成脉冲编码调制PCM文件；

转码单元1032，用于对所述PCM文件进行转码处理，生成第一目标音频文件。

请参照图8，为本发明实施例提供的另一种音频处理装置的结构示意图，如图所示，本发明实施例的音频处理装置包括：

接收模块200，用于接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；

第一查找模块201，用于从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；

第二查找模块202，用于从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；

检测模块203，用于在所述待处理音频文件中检测在所述第一音频时间之前预设时长内是否包含无文本音频数据；

第一提取模块204具体用于若在所述第一音频时间之前预设时长内不包含无文本音频数据，则提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件。

输出模块205，用于若所述待处理音频文件中在所述第一音频时间之前预设时长内包含无文本音频数据，输出至少一个选项，所述选项用于提示用户选择是否需要音频前奏；

第一获取模块206，用于若用户选择需要音频前奏，获取所述无文本音频数据的目标时长；

第二获取模块207，用于根据所述第一音频时间和所述目标时长，获取所述无文本音频数据开始的第三音频时间；

第二提取模块208，用于提取所述待处理音频文件中所述第三音频时间与所述第二音频时间之间的音频数据，并生成第二目标音频文件。

请参照图9，为本发明实施例提供的又一种音频处理装置的结构示意图，如图所示，本发明实施例的音频处理装置包括：

显示模块300，用于在终端显示待处理音频文件的音频文本；

捕获模块301，用于捕获用户针对所述音频文本的操作轨迹；

生成模块302，用于根据所述操作轨迹确定用户所选取的第一位置和第二位置，并根据所述第一位置和所述第二位置生成音频截取指令。

接收模块303，用于接收音频截取指令，所述音频截取指令包括音频文本中的第一位置和所述音频文本中的第二位置，所述音频文本为待处理音频文件对应的文本，所述第一位置和所述第二位置为用户在所述音频文本中选取的位置；

第一查找模块304，用于从所述待处理音频文件中查找与所述第一位置对应的第一音频时间；

第二查找模块305，用于从所述待处理音频文件中查找与所述第二位置对应的第二音频时间；

第一提取模块306，用于提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，附图6-附图9所示音频处理装置对应的程序可存储在终端的可读存储介质内，并被该终端中的至少一个处理器执行，以实现上述音频处理方法，该方法包括图1-图4中方法实施例所述的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据，并生成第一目标音频文件，包括：

提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据；

对所述音频数据进行解码，生成脉冲编码调制PCM文件；

对所述PCM文件进行转码处理，生成第一目标音频文件。

3.如权利要求1所述的方法，其特征在于，所述提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据之前，还包括：

在所述待处理音频文件中检测在所述第一音频时间之前预设时长内是否包含无文本音频数据；

若否，则提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

若所述待处理音频文件中在所述第一音频时间之前预设时长内包含无文本音频数据，输出至少一个选项，所述选项用于提示用户选择是否需要音频前奏；

若用户选择需要音频前奏，获取所述无文本音频数据的目标时长；

根据所述第一音频时间和所述目标时长，获取所述无文本音频数据开始的第三音频时间；

提取所述待处理音频文件中所述第三音频时间与所述第二音频时间之间的音频数据，并生成第二目标音频文件。

5.如权利要求1所述的方法，其特征在于，所述接收音频截取指令之前，还包括：

在终端显示待处理音频文件的音频文本；

捕获用户针对所述音频文本的操作轨迹；

根据所述操作轨迹确定用户所选取的第一位置和第二位置，并根据所述第一位置和所述第二位置生成音频截取指令。

6.一种音频处理装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述第一提取模块包括：

提取单元，用于提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据；

解码单元，用于对所述音频数据进行解码，生成脉冲编码调制PCM文件；

转码单元，用于对所述PCM文件进行转码处理，生成第一目标音频文件。

8.如权利要求6所述的装置，其特征在于，所述装置还包括：

检测模块，用于在所述待处理音频文件中检测在所述第一音频时间之前预设时长内是否包含无文本音频数据；

所述第一提取模块具体用于，若在所述第一音频时间之前预设时长内不包含无文本音频数据，则提取所述待处理音频文件中所述第一音频时间与所述第二音频时间之间的音频数据。

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

输出模块，用于若所述待处理音频文件中在所述第一音频时间之前预设时长内包含无文本音频数据，输出至少一个选项，所述选项用于提示用户选择是否需要音频前奏；

第一获取模块，用于若用户选择需要音频前奏，获取所述无文本音频数据的目标时长；

第二获取模块，用于根据所述第一音频时间和所述目标时长，获取所述无文本音频数据开始的第三音频时间；

第二提取模块，用于提取所述待处理音频文件中所述第三音频时间与所述第二音频时间之间的音频数据，并生成第二目标音频文件。

10.如权利要求6所述的装置，其特征在于，所述装置还包括：

显示模块，用于在终端显示待处理音频文件的音频文本；

捕获模块，用于捕获用户针对所述音频文本的操作轨迹；

生成模块，用于根据所述操作轨迹确定用户所选取的第一位置和第二位置，并根据所述第一位置和所述第二位置生成音频截取指令。