CN113742511A

CN113742511A - 一种音频处理方法及相关装置

Info

Publication number: CN113742511A
Application number: CN202110853390.7A
Authority: CN
Inventors: 崔旋
Original assignee: Xi'an Guanghetong Wireless Communication Co ltd
Current assignee: Xi'an Guanghetong Wireless Communication Co ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-12-03

Abstract

本申请公开了一种音频处理方法及相关装置，应用于数据处理技术领域。该方法包括：获取待播放音频文件，所述待播放音频文件包括两个或两个以上待播放音频；在所述两个或两个以上待播放音频的音频格式相同的情况下，保留所述两个或两个以上待播放音频的第一数据，去除所述两个或两个以上待播放音频的第二数据，整合得到一个音频文件；所述第一数据包括待播放音频中的音频源内容的数据，所述第二数据包括待播放音频中除音频源内容之外的数据；播放整合后的音频文件。本方法通过对获取到的音频格式相同的待播放音频进行音频源数据整合，得到一个音频文件，播放该音频文件，以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

Description

一种音频处理方法及相关装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种音频处理方法及相关装置。

背景技术

听歌是现代人在日常生活中一种常见的娱乐方式，人们通过听歌打发时间，缓解压力，联络情感。出于这一庞大的市场需求以及智能手机的日益普及和应用，越来越多的音乐软件以提高用户在线听歌的体验感为切入点，聚焦音乐，为广大用户提供极致的听歌体验，吸引更多的人加入使用。

目前，无论是在电脑端还是手机端播放音频文件，连续播放时各个音频之间总会存在一小段迟滞，无法实现音频的连续顺畅播放。连续播放的音频之间的迟滞问题，在云喇叭播放等业务终端更为明显，严重拉低了音频播放效果。

因此，如何解决音频播放中停顿的迟滞感，实现音频的连续顺畅播放，已成为技术领域内的重点研究课题。

发明内容

本申请实施例提供了一种音频处理方法及相关装置，通过对获取到的音频格式相同的待播放音频进行音频源数据整合，得到一个音频文件，播放该音频文件，以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

第一方面，本申请实施例提供了一种音频处理方法，该方法包括：

获取待播放音频文件，所述待播放音频文件包括两个或两个以上待播放音频；

在所述两个或两个以上待播放音频的音频格式相同的情况下，保留所述两个或两个以上待播放音频的第一数据，去除所述两个或两个以上待播放音频的第二数据，整合得到一个音频文件；所述第一数据包括待播放音频中的音频源内容的数据，所述第二数据包括待播放音频中除音频源内容之外的数据；

播放整合后的音频文件。

本申请实施例中，首先获取两个或两个以上的待播放音频，为了解决各个待播放音频在连续播放中停顿的迟滞感，对获取到的音频格式相同的待播放音频进行音频源数据整合，保留待播放音频中的音频源数据，去除待播放音频中除音频源数据之外的其他数据，整合得到一个音频文件，该音频文件包括上述待播放音频中的音频源内容，播放该音频文件，可以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

在一种可能的实施方式中，所述方法还包括：

在所述两个或两个以上待播放音频的音频格式不同的情况下，若第一音频和第二音频的音频格式相同，将所述第一音频和所述第二音频整合得到一个音频文件；或者，若所述第一音频和所述第二音频的音频格式不同，整合所述第一音频得到一个音频文件，整合所述第二音频得到一个音频文件；所述第一音频和所述第二音频为所述两个或两个以上待播放音频中位置相邻的待播放音频；

按照位置排列顺序播放整合后的多个音频文件。

在本申请实施例中，提供了另一种音频处理的可能的具体实施方式。对于获取到的两个或两个以上的待播放音频，如果该两个或两个以上的待播放音频的音频格式不同，则需要根据音频所处的位置分别整合，具体为，若两个位置相邻的待播放音频的音频格式相同，保留这两个相邻的待播放音频中的音频源数据，去除待播放音频中除音频源数据之外的其他数据，整合得到一个音频文件；若两个位置相邻的待播放音频的音频格式不同，则按照上述方法分别对其整合，得到两个不同的音频文件。比如，若第一音频和第二音频位置相邻且音频格式不同，则保留第一音频中的音频源数据，去除第一音频中除音频源数据之外的其他数据，整合得到一个音频文件，保留第二音频中的音频源数据，去除第二音频中除音频源数据之外的其他数据，整合得到一个音频文件。完成对待播放音频文件中的所有待播放音频的整合后，最后按照位置排列顺序播放整合后的多个音频文件。通过本申请实施例，可以减少音频编解码器的初始化次数和关闭次数，降低播放中停顿的迟滞感，提高音频播放的流畅度。

在一种可能的实施方式中，所述保留所述两个或两个以上待播放音频的第一数据，包括：

基于所述两个或两个以上待播放音频的音频格式，截取待播放音频中表示音频源内容的数据，得到所述第一数据。

在本申请实施例中，提供了一种保留待播放音频的第一数据的可能的具体实施方式。具体为，基于解析待播放音频得到的音频格式，截取待播放音频中表示音频源内容的数据，得到第一数据，具体可以是通过将该待播放音频中表示音频源内容的音频数据偏移一定的偏移量，以实现截取待播放音频中表示音频源内容的数据，从而得到上述第一数据。在待播放音频的音频格式为动态影像专家压缩标准音频层面三MP3格式的情况下，根据MP3的数据格式，去除帧头和后缀TAG，计算得到待播放音频的音频源数据位置和大小，偏移一定的偏移量，即得到上述第一数据。或者，在待播放音频的音频格式为波形声音文件WAV格式的情况下，根据WAV的数据格式，去除帧头，将待播放音频的音频源数据偏移固定帧头大小的位置，即得到上述第一数据。或者，在待播放音频的音频格式为自适应多速率AMR格式的情况下，根据AMR的数据格式，去除帧头，将待播放音频的音频源数据偏移固定帧头大小的位置，即得到上述第一数据。通过本申请实施例，基于解析待播放音频得到的音频格式，将该待播放音频中表示音频源内容的音频数据偏移一定的偏移量，以实现截取待播放音频中表示音频源内容的数据，从而得到上述第一数据，可以最大程度的消除不同待播放音频之间停顿的迟滞感。

在一种可能的实施方式中，所述整合得到一个音频文件，包括：

将所述两个或两个以上待播放音频的所述第一数据按照播放顺序头尾拼接，整合得到一个音频文件。

在本申请实施例中，提供了一种整合得到一个音频文件的可能的具体实施方式，具体为，将上述两个或两个以上待播放音频的第一数据按照播放顺序头尾拼接，整合得到一个音频文件，该音频文件包括上述待播放音频中的音频源内容，播放该音频文件，可以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

在一种可能的实施方式中，所述待播放音频的音频格式包括：动态影像专家压缩标准音频层面三MP3格式，或波形声音文件WAV格式，或自适应多速率AMR格式。

第二方面，本申请实施例提供了一种音频处理装置，该装置包括：

获取单元，用于获取待播放音频文件，所述待播放音频文件包括两个或两个以上待播放音频；

整合单元，用于在所述两个或两个以上待播放音频的音频格式相同的情况下，保留所述两个或两个以上待播放音频的第一数据，去除所述两个或两个以上待播放音频的第二数据，整合得到一个音频文件；所述第一数据包括待播放音频中的音频源内容的数据，所述第二数据包括待播放音频中除音频源内容之外的数据；

播放单元，用于播放整合后的音频文件。

在一种可能的实施方式中，所述整合单元，还用于在所述两个或两个以上待播放音频的音频格式不同的情况下，若第一音频和第二音频的音频格式相同，将所述第一音频和所述第二音频整合得到一个音频文件；或者，若所述第一音频和所述第二音频的音频格式不同，整合所述第一音频得到一个音频文件，整合所述第二音频得到一个音频文件；所述第一音频和所述第二音频为所述两个或两个以上待播放音频中位置相邻的待播放音频；

所述播放单元，还用于按照位置排列顺序播放整合后的多个音频文件。

在一种可能的实施方式中，所述整合单元，具体用于基于所述两个或两个以上待播放音频的音频格式，截取待播放音频中表示音频源内容的数据，得到所述第一数据。

在一种可能的实施方式中，所述整合单元，具体还用于将所述两个或两个以上待播放音频的所述第一数据按照播放顺序头尾拼接，整合得到一个音频文件。

第三方面，本申请实施例提供一种音频处理装置，所述音频处理装置包括处理器和存储器；所述存储器用于存储计算机执行指令；所述处理器用于执行所述存储器所存储的计算机执行指令，以使所述音频处理装置执行如上述第一方面以及任一项可能的实施方式的方法。可选的，所述音频处理装置还包括收发器，所述收发器，用于接收信号或者发送信号。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储指令或计算机程序；当所述指令或所述计算机程序被执行时，使得第一方面以及任一项可能的实施方式所述的方法被实现。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括指令或计算机程序；当所述指令或所述计算机程序被执行时，使得第一方面以及任一项可能的实施方式所述的方法被实现。

第六方面，本申请实施例提供一种芯片，该芯片包括处理器，所述处理器用于执行指令，当该处理器执行所述指令时，使得该芯片执行如第一方面以及任一项可能的实施方式所述的方法。可选的，该芯片还包括通信接口，所述通信接口用于接收信号或发送信号。

第七方面，本申请实施例提供一种系统，所述系统包括至少一个如第二方面或第三方面所述的音频处理装置或第六方面所述的芯片。

此外，在执行上述第一方面以及任一项可能的实施方式所述的方法的过程中，上述方法中有关发送信息和/或接收信息等的过程，可以理解为由处理器输出信息的过程，和/或，处理器接收输入的信息的过程。在输出信息时，处理器可以将信息输出给收发器(或者通信接口、或发送模块)，以便由收发器进行发射。信息在由处理器输出之后，还可能需要进行其他的处理，然后才到达收发器。类似的，处理器接收输入的信息时，收发器(或者通信接口、或发送模块)接收信息，并将其输入处理器。更进一步的，在收发器收到该信息之后，该信息可能需要进行其他的处理，然后才输入处理器。

基于上述原理，举例来说，前述方法中提及的发送信息可以理解为处理器输出信息。又例如，接收信息可以理解为处理器接收输入的信息。

可选的，对于处理器所涉及的发射、发送和接收等操作，如果没有特殊说明，或者，如果未与其在相关描述中的实际作用或者内在逻辑相抵触，则均可以更加一般性的理解为处理器输出和接收、输入等操作。

可选的，在执行上述第一方面以及任一项可能的实施方式所述的方法的过程中，上述处理器可以是专门用于执行这些方法的处理器，也可以是通过执行存储器中的计算机指令来执行这些方法的处理器，例如通用处理器。上述存储器可以为非瞬时性(non-transitory)存储器，例如只读存储器(Read Only Memory，ROM)，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。

在一种可能的实施方式中，上述至少一个存储器位于装置之外。

在又一种可能的实施方式中，上述至少一个存储器位于装置之内。

在又一种可能的实施方式之中，上述至少一个存储器的部分存储器位于装置之内，另一部分存储器位于装置之外。

本申请中，处理器和存储器还可能集成于一个器件中，即处理器和存储器还可以被集成在一起。

本申请实施例中，通过对获取到的音频格式相同的待播放音频进行音频源数据整合，得到一个音频文件，播放该音频文件，以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种常规的音频播放方法的流程示意图。

图2为本申请实施例提供的一种音频处理方法的流程示意图；

图3为本申请实施例提供的另一种音频处理方法的流程示意图；

图4为本申请实施例提供的又一种音频处理方法的流程示意图；

图5为本申请实施例提供的一种音频处理装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例进行描述。

本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等，没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元等，或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。

在本文中提及的“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

本申请提供了一种音频处理方法，为了更清楚地描述本申请的方案，下面先介绍一些与音频处理相关的知识。

音频编解码器(Audio Codec)：是编码器encoder与解码器decoder的混合体。音频编解码器，是指一种能够对数字音频流进行编码和解码的设备或计算机程序。就软件层面来说，音频编解码器就是根据特定的音频文件格式或流媒体格式、对数字音频数据实现压缩/解压缩的计算机程序。

数字模拟转换器(Digital Analog Converter，DAC)：一种将二进制数字量形式的离散信号转换成以标准量(或参考量)为基准的模拟量的转换器。

模拟数字转换器(Analog-to-Digital Converter，ADC)：指模/数转换器或者模拟/数字转换器。是指将连续变量的模拟信号转换为离散的数字信号的器件。真实世界的模拟信号，例如温度、压力、声音或者图像等，需要转换成更容易储存、处理和发射的数字形式。模/数转换器可以实现这个功能。

MP3：是一种音频压缩技术，其全称是动态影像专家压缩标准音频层面三(MovingPicture Experts Group Audio Layer III，MP3)，简称为MP3。它被设计用来大幅度地降低音频数据量。

WAV：是最常见的声音文件格式之一，是微软公司专门为Windows开发的一种标准数字音频文件，该文件能记录各种单声道或立体声的声音信息，并能保证声音不失真。

AMR：自适应多速率(Adaptive Multi-Rate，AMR)音频格式，由欧洲通信标准化委员会提出，是在移动通信系统中使用最广泛的语音标准。

其中，音频播放的主要流程是通过硬件音频编解码器解析后，再经过DAC转换为人耳可听的声音，最后通过喇叭播放出来。或者，通过软件音频编解码器解析后，再经过DAC转换为人耳可听的声音，最后通过喇叭播放出来。

具体的播放流程可参阅图1，图1为一种常规的音频播放方法的流程示意图。如图1所示，在该播放流程中，不管是硬件音频编解码器直接完成解码后经过DAC输出到喇叭，还是软件音频编解码器处理后再到DAC输出到喇叭，对于每一个待播放音频，总会在播放时发起音频编解码器的初始化流程，并在播放结束时关闭音频编解码器。在播放下一个音频时再次发起音频编解码器的初始化流程，而音频编解码器的初始化和关闭均会带来不小的时延，导致在连续播放时会有明显的迟滞感。

此外，在嵌入式平台中，出于成本等因素考虑，通常不会有专门的音频编解码器和DAC/ADC一体的芯片来执行音频处理方法，故音频源文件的解析通常是通过软件方式进行编解码的，硬件层面只做ADC/DAC转换。而软件编解码通常是以二进制的形式提供，对其二次开发的可行性较低，因此大大限制了其灵活性，导致无法满足多场合音频播放的需求。

针对上述音频连续播放中存在的迟滞问题，本申请实施例提供了一种新的音频处理方法，通过实施本申请实施例中的音频处理方法，对获取到的音频格式相同的待播放音频进行音频源数据整合，得到一个音频文件，播放该音频文件，可以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图2，图2为本申请实施例提供的一种音频处理方法的流程示意图，该方法包括但不限于如下步骤：

步骤201：获取待播放音频文件。

电子设备获取待播放音频文件，该待播放音频文件包括两个或两个以上的待播放音频。

其中，本申请实施例中的电子设备为搭载了可用于执行计算机执行指令的处理器的设备，该电子设备可以是计算机、手机等，具体还可以是可执行音频处理的播放器设备，用于对待连续播放的音频进行音频数据处理，以解决各个音频连续播放中停顿的迟滞感，实现各个音频的连续顺畅播放。

步骤202：在待播放音频文件中的待播放音频的音频格式相同的情况下，保留待播放音频的第一数据，去除待播放音频的第二数据，整合得到一个音频文件。

首先解析待播放音频文件中的待播放音频，得到待播放音频的音频格式，在待播放音频文件中的待播放音频的音频格式相同的情况下，电子设备保留待播放音频的第一数据，去除待播放音频的第二数据，整合得到一个音频文件，上述第一数据包括待播放音频中的音频源内容的数据，上述第二数据包括待播放音频中除音频源内容之外的数据。

通过本申请实施例，可以使得到的音频文件完全覆盖待播放音频文件中的各个待播放音频的音频源数据，且一次性通过内存播放，音频编解码器只需初始化一次，消除不同待播放音频之间停顿的迟滞感，实现各个音频的连续顺畅播放。

在一种可能的实施方式中，保留待播放音频的第一数据，具体可以是，基于解析待播放音频得到的音频格式，截取待播放音频中表示音频源内容的数据，得到第一数据，具体可以是通过将该待播放音频中表示音频源内容的音频数据偏移一定的偏移量，以实现截取待播放音频中表示音频源内容的数据，从而得到上述第一数据。

其中，第一音频的音频格式包括但不限于以下格式：动态影像专家压缩标准音频层面三MP3格式，或波形声音文件WAV格式，或自适应多速率AMR格式。

在待播放音频的音频格式为动态影像专家压缩标准音频层面三MP3格式的情况下，根据MP3的数据格式，去除帧头和后缀TAG，计算得到待播放音频的音频源数据位置和大小，偏移一定的偏移量，即得到上述第一数据。或者，在待播放音频的音频格式为波形声音文件WAV格式的情况下，根据WAV的数据格式，去除帧头，将待播放音频的音频源数据偏移固定帧头大小的位置，即得到上述第一数据。或者，在待播放音频的音频格式为自适应多速率AMR格式的情况下，根据AMR的数据格式，去除帧头，将待播放音频的音频源数据偏移固定帧头大小的位置，即得到上述第一数据。

通过本申请实施例，基于解析待播放音频得到的音频格式，将该待播放音频中表示音频源内容的音频数据偏移一定的偏移量，以实现截取待播放音频中表示音频源内容的数据，从而得到上述第一数据，可以最大程度的消除不同待播放音频之间停顿的迟滞感。

在一种可能的实施方式中，整合得到一个音频文件，具体可以是，将上述两个或两个以上待播放音频的第一数据按照播放顺序头尾拼接，整合得到一个音频文件，该音频文件包括上述待播放音频中的音频源内容，播放该音频文件，可以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

另一方面，对于获取到的两个或两个以上的待播放音频，如果该两个或两个以上的待播放音频的音频格式不同，则需要根据音频所处的位置分别整合。

具体为，若两个位置相邻的待播放音频的音频格式相同，保留这两个相邻的待播放音频中的音频源数据，去除待播放音频中除音频源数据之外的其他数据，整合得到一个音频文件。比如，若第一音频和第二音频位置相邻且音频格式相同，则保留第一音频中的音频源数据和第二音频中的音频源数据，去除第一音频中除音频源数据之外的其他数据，去除第二音频中除音频源数据之外的其他数据，将第一音频中的音频源数据和第二音频中的音频源数据整合得到一个音频文件。具体可以基于解析待播放音频得到的音频格式，将该待播放音频中表示音频源内容的音频数据偏移一定的偏移量，以实现截取待播放音频中表示音频源内容的数据，再将上述两个位置相邻的待播放音频的音频源数据按照播放顺序头尾拼接，整合得到一个音频文件，该音频文件包括上述两个位置相邻的待播放音频中的音频源内容，播放该音频文件，可以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。若两个位置相邻的待播放音频的音频格式不同，则按照上述方法分别对两个位置相邻的待播放音频整合，得到两个不同的音频文件。比如，若第一音频和第二音频位置相邻且音频格式不同，则保留第一音频中的音频源数据，去除第一音频中除音频源数据之外的其他数据，整合得到一个音频文件，保留第二音频中的音频源数据，去除第二音频中除音频源数据之外的其他数据，整合得到一个音频文件。

完成对待播放音频文件中的所有待播放音频的整合后，最后按照位置排列顺序播放整合后的多个音频文件。通过本申请实施例，可以减少音频编解码器的初始化次数和关闭次数，降低播放中停顿的迟滞感，提高音频播放的流畅度。

步骤203：播放整合后的音频文件。

播放上述整合后的音频文件，与直接连续播放上述待播放音频文件中包含的两个或两个以上的待播放音频相比，本申请实施例播放的音频更加顺畅，可以满足多场合音频播放的需求。

请参阅图3，图3为本申请实施例提供的另一种音频处理方法的流程示意图，也可以理解为是上述图2中的音频处理方法的补充或变形。

如图3所示，首先获取待播放音频文件，其中，该待播放音频文件包括了两个或两个以上的待播放音频。然后，分别判断各个待播放音频的音频格式，基于音频格式对其进行音频数据的提取并整合。本申请实施例主要针对基于音频格式提取得到的音频数据进行整合这一过程进行详细说明。

在各个待播放音频的音频格式均相同的情况下，将各个待播放音频中的音频数据按照播放顺序头尾拼接，得到目标音频。此时，实现了将各个待播放音频提取音频源数据并整合为一个音频文件，一次性通过内存播放，音频编解码器只需初始化一次，大大降低了播放中停顿的迟滞感，提高音频播放的流畅度。

或者，在各个待播放音频的音频格式存在不相同的情况下，对其进行多次整合。具体为，分别将上述各个待播放音频中音频格式相同的待播放音频的音频数据按照播放顺序头尾拼接，分别整合得到若干个不同格式的音频文件，分多次播放，与上述图1中常规的音频播放方法相比，也可以减少音频编解码器的初始化次数和关闭次数，降低音频播放中停顿的迟滞感，提高音频播放的流畅度。

请参阅图4，图4为本申请实施例提供的又一种音频处理方法的流程示意图，也可以理解为是上述图2和图3中的音频处理方法的补充或变形。

如图4所示，首先获取待播放音频文件，其中，该待播放音频文件包括了两个或两个以上的待播放音频。然后，分别判断各个待播放音频的音频格式，基于音频格式对其进行音频数据的提取并整合。本申请实施例主要针对基于音频格式提取得到音频数据这一过程进行详细说明。

对于用户设定播放的MP3文件，以ID3V2为例，但不局限于ID3V2标准。首先根据MP3编码格式校验标签帧(前10字节)，其中，前6字节为固定帧头，后4字节包含实际音频偏移位置。根据MP3数据格式规定，可以计算出音频源数据的位置和大小，从而可以将待播放音频中的音频源数据偏移至原始数据所在位置处，并将待播放音频中的音频源数据保存在内存中。此外，还需考虑音频文件是否有ID3V1后缀TAG，若有则需要将后缀TAG去掉。如果有多个MP3文件，则按照顺序将待播放音频中的音频源数据依次拼接在首个音频文件末尾即可。

对于WAV文件，根据WAV文件格式，解析出文件包含的数据块大小(SubchunkSize)，即可得出该待播放音频的音频源数据大小。因WAV的帧头是固定大小的，故将待播放音频中的音频源数据偏移固定帧头大小后即可获取到音频源数据，并将待播放音频中的音频源数据保存在内存中。当多个WAV音频待播放时，依次将获取到的各个音频源数据拼接在首个音频文件末尾，每一个音频文件的SubchunkSize累加后，修改最终拼接文件的ChunkSize。

对于AMR文件，以12.20Kbps速率AMRNB为例，但不限于该速率AMRNB，对于AMRWB本方法同样适用。该速率的AMRNB文件每帧数据为32字节，其中，前6字节为帧头，后26字节为原始数据，每整合一个音频文件，只需要抛弃后面音频文件的前6字节，将后面的音频文件直接拼接在前一个音频文件的末尾即可，并将得到的待播放音频中的音频源数据保存在内存中。

完成对不同音频格式的音频数据提取之后，还需对提取到的音频数据进行整合，从而得到最终的目标音频。具体为，对于同一格式的音频文件，将整合后的音频源文件保存在内存中，一次性通过内存播放完，无需每播放一个音频文件都要去初始化和重新初始化音频编解码器。对于不同格式的音频文件，首先解析格式，按照顺序将同一格式的音频文件按照上述步骤进行整合，并按照不同格式分多次播放，降低音频编解码器的初始化次数。

可以看出，通过实施本申请实施例中的音频处理方法，对获取到的待播放音频进行音频源数据提取和整合，得到目标音频，播放该目标音频，可以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

上述详细阐述了本申请实施例的方法，下面提供本申请实施例的装置。

请参阅图5，图5为本申请实施例提供的一种音频处理装置的结构示意图，该音频处理装置50可以包括获取单元501、整合单元502以及播放单元503，其中，各个单元的描述如下：

获取单元501，用于获取待播放音频文件，所述待播放音频文件包括两个或两个以上待播放音频；

整合单元502，用于在所述两个或两个以上待播放音频的音频格式相同的情况下，保留所述两个或两个以上待播放音频的第一数据，去除所述两个或两个以上待播放音频的第二数据，整合得到一个音频文件；所述第一数据包括待播放音频中的音频源内容的数据，所述第二数据包括待播放音频中除音频源内容之外的数据；

播放单元503，用于播放整合后的音频文件。

在一种可能的实施方式中，所述整合单元502，还用于在所述两个或两个以上待播放音频的音频格式不同的情况下，若第一音频和第二音频的音频格式相同，将所述第一音频和所述第二音频整合得到一个音频文件；或者，若所述第一音频和所述第二音频的音频格式不同，整合所述第一音频得到一个音频文件，整合所述第二音频得到一个音频文件；所述第一音频和所述第二音频为所述两个或两个以上待播放音频中位置相邻的待播放音频；

所述播放单元503，还用于按照位置排列顺序播放整合后的多个音频文件。

在一种可能的实施方式中，所述整合单元502，具体用于基于所述两个或两个以上待播放音频的音频格式，截取待播放音频中表示音频源内容的数据，得到所述第一数据。

在一种可能的实施方式中，所述整合单元502，具体还用于将所述两个或两个以上待播放音频的所述第一数据按照播放顺序头尾拼接，整合得到一个音频文件。

在一种可能的实施方式中，所述第一音频的音频格式包括：动态影像专家压缩标准音频层面三MP3格式，或波形声音文件WAV格式，或自适应多速率AMR格式。

根据本申请实施例，图5所示的装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于网络设备也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

需要说明的是，各个单元的实现还可以对应参照上述图2、图3、图4所示的方法实施例的相应描述。本申请实施例中的音频处理装置具体可以是上述图2、图3、图4所示的方法实施例中的电子设备。

在图5所描述的音频处理装置50中，通过实施本申请实施例中的音频处理方法，对获取到的音频格式相同的待播放音频进行音频源数据整合，得到一个音频文件，播放该音频文件，可以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

请参阅图6，图6为本申请实施例提供的一种电子设备60的结构示意图。该电子设备60可以包括存储器601、处理器602。进一步可选的，还可以包含通信接口603以及总线604，其中，存储器601、处理器602以及通信接口603通过总线604实现彼此之间的通信连接。通信接口603用于与上述音频处理装置50进行数据交互。

其中，存储器601用于提供存储空间，存储空间中可以存储操作系统和计算机程序等数据。存储器601包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)。

处理器602是进行算术运算和逻辑运算的模块，可以是中央处理器(centralprocessing unit，CPU)、显卡处理器(graphics processing unit，GPU)或微处理器(microprocessor unit，MPU)等处理模块中的一种或者多种的组合。

存储器601中存储有计算机程序，处理器602调用存储器601中存储的计算机程序，以执行上述图2、图3、图4所示的音频处理方法：

播放整合后的音频文件。

上述处理器602执行方法的具体内容可参阅上述图2、图3、图4，此处不再赘述。

相应的，处理器602调用存储器601中存储的计算机程序，还可以用于执行上述图5所示的音频处理装置50中的各个单元所执行的方法步骤，其具体内容可参阅上述图5，此处不再赘述。

在图6所描述的电子设备60中，通过实施本申请实施例中的音频处理方法，对获取到的音频格式相同的待播放音频进行音频源数据整合，得到一个音频文件，播放该音频文件，可以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

本申请实施例还提供一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，当上述计算机程序在一个或多个处理器上运行时，可以实现上述图2、图3、图4所示的方法。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括计算机程序，当上述计算机程序产品在处理器上运行时，可以实现上述图2、图3、图4所示的方法。

本申请实施例还提供一种芯片，该芯片包括处理器，所述处理器用于执行指令，当该处理器执行所述指令时，可以实现上述图2、图3、图4所示的方法。可选的，该芯片还包括通信接口，该通信接口用于输入信号或输出信号。

本申请实施例还提供了一种系统，该系统包括了至少一个如上述音频处理装置50或电子设备60或芯片。

综上上述，通过实施本申请实施例中的音频处理方法，对获取到的音频格式相同的待播放音频进行音频源数据整合，得到一个音频文件，播放该音频文件，可以解决播放中停顿的迟滞感，实现音频的连续顺畅播放。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序相关的硬件完成，该计算机程序可存储于计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储计算机程序代码的介质。

Claims

1.一种音频处理方法，其特征在于，包括：

播放整合后的音频文件。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按照位置排列顺序播放整合后的多个音频文件。

3.根据权利要求1所述的方法，其特征在于，所述保留所述两个或两个以上待播放音频的第一数据，包括：

4.根据权利要求1或3所述的方法，其特征在于，所述整合得到一个音频文件，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述待播放音频的音频格式包括：动态影像专家压缩标准音频层面三MP3格式，或波形声音文件WAV格式，或自适应多速率AMR格式。

6.一种音频处理装置，其特征在于，包括：

播放单元，用于播放整合后的音频文件。

7.根据权利要求6所述的装置，其特征在于，所述整合单元，还用于在所述两个或两个以上待播放音频的音频格式不同的情况下，若第一音频和第二音频的音频格式相同，将所述第一音频和所述第二音频整合得到一个音频文件；或者，若所述第一音频和所述第二音频的音频格式不同，整合所述第一音频得到一个音频文件，整合所述第二音频得到一个音频文件；所述第一音频和所述第二音频为所述两个或两个以上待播放音频中位置相邻的待播放音频；

8.根据权利要求6所述的装置，其特征在于，所述整合单元，具体用于将所述两个或两个以上待播放音频的所述第一数据按照播放顺序头尾拼接，整合得到一个音频文件。

9.一种音频处理装置，其特征在于，包括：处理器和存储器；

所述存储器用于存储计算机执行指令；

所述处理器用于执行所述存储器所存储的计算机执行指令，以使所述音频处理装置执行如权利要求1至5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括：

所述计算机可读存储介质用于存储指令或计算机程序；当所述指令或所述计算机程序被执行时，使如权利要求1至5中任一项所述的方法被实现。