CN112435678A

CN112435678A - 一种音频播放处理方法

Info

Publication number: CN112435678A
Application number: CN202011282518.0A
Authority: CN
Inventors: 叶国洪; 胡胜发
Original assignee: Guangzhou Ankai Microelectronics Co ltd
Current assignee: Guangzhou Ankai Microelectronics Co ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-03-02

Abstract

本申请提供一种音频播放处理方法，包括：计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的差值；在当前音频帧的采样点数差值大于上一音频帧的采样点数差值时，降低音频数据的采样率，或者，在当前音频帧的采样点数差值小于或等于上一音频帧的采样点数差值时，提高音频数据的采样率，使本地设备能够稳定播放远端设备传送的音频数据。本申请通过在音频播放初始阶段设置实际采样率低于原本采样率，以让缓冲区无需缓存较多音频数据才能开启音频播放，解决现有问题中音频播放时出声音延时较大的问题；通过降低播放采样率来延长当前数据的播放时间，降低音频卡顿的问题，解决现有问题中远端的音频数据没有及时到达设备端出现卡顿的问题。

Description

一种音频播放处理方法

技术领域

本发明涉及音频处理技术领域，特别是涉及一种音频播放处理方法。

背景技术

随着数字音乐技术的不断发展，用户对于音乐或者视频的传输速度的要求也越来越高，刚开启音频播放时因为各种因素的影响会导致声音输出较慢，播放过程中出现断音、卡顿等现象，影响产品体验，为了降低这种影响，市面上主要对网络传送和本地缓冲技术进行优化。但是这种方法往往会因为系统的稳定性波动导致音频播放卡顿，影响用户体验。

发明内容

本发明提供一种音频播放处理方法，解决现有技术中音频播放的声音出音较慢、播放过程中出现断音、卡顿等问题。

本发明一个实施例提供一种音频播放处理方法，包括：

计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的差值；

在当前音频帧的采样点数差值大于上一音频帧的采样点数差值时，降低音频数据的采样率，或者，

在当前音频帧的采样点数差值小于或等于上一音频帧的采样点数差值时，提高音频数据的采样率，

使本地设备能够稳定播放远端设备传送的音频数据。

进一步地，所述降低音频数据的采样率，包括：

计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的比值；记所述理论采样点数与实际采样点数的比值为采样点数比值；

计算每个音频帧被播放时音频数据的当前采样率与上一个音频帧被播放时音频数据的采样率的比值；记每个音频帧被播放时音频数据的当前采样率与上一个音频帧被播放时音频数据的采样率的比值为采样率比值；

根据所述采样率比值与所述采样点数比值，计算上一个音频帧被播放时音频数据的采样率缩放系数；其中，采样率缩放系数为所述采样率比值除以所述采样点数比值的商；

通过提高所述采样率缩放系数实现降低音频数据的采样率。

进一步地，所述通过提高所述采样率缩放系数实现降低音频数据的采样率，包括：

根据所述上一个音频帧被播放时音频数据的采样率缩放系数乘以110％，得到的积为每个音频帧被播放时音频数据的当前采样率缩放系数。

进一步地，所述的一种音频播放处理方法，还包括：

将所述当前采样率缩放系数与预设采样率缩放系数的最大值进行对比；

在所述当前采样率缩放系数大于预设采样率缩放系数的最大值时，设置所述当前采样率缩放系数等于预设采样率缩放系数的最大值；

在所述当前采样率缩放系数不大于预设采样率缩放系数的最大值时，保持当前采样率缩放系数不变；

其中，所述预设采样率缩放系数的最大值等于2。

进一步地，所述计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的差值之前，还包括：

初始化音频播放处理系统；所述初始化音频播放处理系统包括：设置预设采样率缩放系数为预设采样率缩放系数的最大值，设置上一音频帧的采样点数差值为0。

进一步地，所述提高音频数据的采样率，包括：

通过降低所述采样率缩放系数实现提高音频数据的采样率。

进一步地，所述通过降低所述采样率缩放系数实现提高音频数据的采样率，包括：

根据所述上一个音频帧被播放时音频数据的采样率缩放系数乘以90％，得到的积为每个音频帧被播放时音频数据的当前采样率缩放系数。

进一步地，所述的一种音频播放处理方法，还包括：

将所述当前采样率缩放系数与预设采样率缩放系数的最小值进行对比；

在所述当前采样率缩放系数小于预设采样率缩放系数的最小值时，设置所述当前采样率缩放系数等于预设采样率缩放系数的最小值；

在所述当前采样率缩放系数不小于预设采样率缩放系数的最小值时，保持当前采样率缩放系数不变；

其中，所述预设采样率缩放系数的最小值等于1。

进一步地，所述的一种音频播放处理方法，所述采样率通过以下公式计算：

其中，x_i表示每个音频帧被播放时音频数据的实际采样点数；

n表示音频帧数；

ts表示音频帧数的时间；

sr表示每个音频帧被播放时音频数据的当前采样率。

其中，SR表示上一个音频帧被播放时音频数据的采样率；

a表示每个音频帧被播放时音频数据的当前采样率与上一个音频帧被播放时音频数据的采样率的比值；

n表示音频帧数；

ts表示音频帧数的时间；

sr表示每个音频帧被播放时音频数据的当前采样率。

与现有技术相比，本发明实施例的有益效果在于：

本申请提供一种音频播放处理方法，包括：计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的差值；在当前音频帧的采样点数差值大于上一音频帧的采样点数差值时，降低音频数据的采样率，或者，在当前音频帧的采样点数差值小于或等于上一音频帧的采样点数差值时，提高音频数据的采样率，使本地设备能够稳定播放远端设备传送的音频数据。本申请通过在音频播放初始阶段设置实际采样率低于原本采样率，以让缓冲区无需缓存较多音频数据才能开启音频播放，解决现有问题中音频播放时出声音延时较大的问题；同时，本方法通过降低播放的采样率来延长当前数据的播放时间，大大降低音频卡顿的问题，解决现有问题中远端的音频数据没有及时到达设备端出现卡顿的问题。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的一种音频播放处理方法的流程图；

图2是本发明某一实施例提供的一种音频播放处理方法中的降低音频数据的采样率方法的流程图；

图3是本发明另一实施例提供的一种音频播放处理方法中的降低音频数据的采样率方法的流程图；

图4是本发明另一实施例提供的一种音频播放处理方法的流程图；

图5是本发明某一实施例提供的一种音频播放处理方法中的提高音频数据的采样率方法的流程图；

图6是本发明另一实施例提供的一种音频播放处理方法中的提高音频数据的采样率方法的流程图；

图7是本发明某一实施例提供的一种音频数据传输过程的示意图；

图8是本发明某一实施例提供的一种音频数据传输过程中本地端接收音频数据的示意图；

图9是本发明另一实施例提供的一种音频播放处理方法的流程图；

图10是本发明又一实施例提供的一种音频播放处理方法的流程图；

图11是本发明某一实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

刚开启音频播放时因为各种因素的影响会导致声音输出较慢，从而影响产品体验。为了降低这种影响，市面上主要对网络传送和本地缓冲技术进行优化。

音频播放开启慢,播放过程中断音、卡顿等现象除了从网络、本地缓冲等手段进行优化，也可以从驱动层的播放逻辑进行优化。本方法通过音频的采样率控制和相关逻辑算法来消除或降低这些问题的影响。

第一方面。

请参阅图1，本发明提供一种音频播放处理方法，包括：

S100、计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的差值。

S200、在当前音频帧的采样点数差值大于上一音频帧的采样点数差值时，降低音频数据的采样率，或者，在当前音频帧的采样点数差值小于或等于上一音频帧的采样点数差值时，提高音频数据的采样率，使本地设备能够稳定播放远端设备传送的音频数据。

本申请通过在音频播放初始阶段设置实际采样率低于原本采样率，以让缓冲区无需缓存较多音频数据才能开启音频播放，解决现有问题中音频播放时出声音延时较大的问题；同时，本方法通过降低播放的采样率来延长当前数据的播放时间，大大降低音频卡顿的问题，解决现有问题中远端的音频数据没有及时到达设备端出现卡顿的问题。

在某一具体实施方式中，请参阅图2，所述降低音频数据的采样率，包括：

S211、计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的比值；记所述理论采样点数与实际采样点数的比值为采样点数比值。

S212、计算每个音频帧被播放时音频数据的当前采样率与上一个音频帧被播放时音频数据的采样率的比值；记每个音频帧被播放时音频数据的当前采样率与上一个音频帧被播放时音频数据的采样率的比值为采样率比值。

S213、根据所述采样率比值与所述采样点数比值，计算上一个音频帧被播放时音频数据的采样率缩放系数；其中，采样率缩放系数为所述采样率比值除以所述采样点数比值的商。

S214、通过提高所述采样率缩放系数实现降低音频数据的采样率。

优选地，请参阅图3，所述S214、通过提高所述采样率缩放系数实现降低音频数据的采样率，包括：

S215、根据所述上一个音频帧被播放时音频数据的采样率缩放系数乘以110％，得到的积为每个音频帧被播放时音频数据的当前采样率缩放系数。

S216、将所述当前采样率缩放系数与预设采样率缩放系数的最大值进行对比。

S217、在所述当前采样率缩放系数大于预设采样率缩放系数的最大值时，设置所述当前采样率缩放系数等于预设采样率缩放系数的最大值。

S218、在所述当前采样率缩放系数不大于预设采样率缩放系数的最大值时，保持当前采样率缩放系数不变。

其中，所述预设采样率缩放系数的最大值等于2。

在某一具体实施方式中，请参阅图4，所述的一种音频播放处理方法，所述S100、计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的差值之前，还包括：

S001、初始化音频播放处理系统；所述初始化音频播放处理系统包括：设置预设采样率缩放系数为预设采样率缩放系数的最大值，设置上一音频帧的采样点数差值为0。

在某一具体实施方式中，请参阅图5，所述提高音频数据的采样率，包括：

S221、计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的比值；记所述理论采样点数与实际采样点数的比值为采样点数比值。

S222、计算每个音频帧被播放时音频数据的当前采样率与上一个音频帧被播放时音频数据的采样率的比值；记每个音频帧被播放时音频数据的当前采样率与上一个音频帧被播放时音频数据的采样率的比值为采样率比值。

S223、根据所述采样率比值与所述采样点数比值，计算上一个音频帧被播放时音频数据的采样率缩放系数；其中，采样率缩放系数为所述采样率比值除以所述采样点数比值的商；

S224、通过降低所述采样率缩放系数实现提高音频数据的采样率。

在某一具体实施方式中，请参阅图6，所述S224、通过降低所述采样率缩放系数实现提高音频数据的采样率，包括：

S225、根据所述上一个音频帧被播放时音频数据的采样率缩放系数乘以90％，得到的积为每个音频帧被播放时音频数据的当前采样率缩放系数。

S226、将所述当前采样率缩放系数与预设采样率缩放系数的最小值进行对比。

S227、在所述当前采样率缩放系数小于预设采样率缩放系数的最小值时，设置所述当前采样率缩放系数等于预设采样率缩放系数的最小值。

S228、在所述当前采样率缩放系数不小于预设采样率缩放系数的最小值时，保持当前采样率缩放系数不变。

其中，所述预设采样率缩放系数的最小值等于1。

在某一具体实施方式中，所述采样率通过以下公式计算：

n表示音频帧数；

ts表示音频帧数的时间；

sr表示每个音频帧被播放时音频数据的当前采样率。

在某一具体实施方式中，所述采样率通过以下公式计算：

其中，SR表示上一个音频帧被播放时音频数据的采样率；

n表示音频帧数；

ts表示音频帧数的时间；

sr表示每个音频帧被播放时音频数据的当前采样率。

在某一具体实施例中，如图7，音频数据从远端(例如手机端)采集到声音数据，然后经过媒介(例如有线网络、无需网络、RF等)传输到播放设备(例如嵌入式系统、另一台手机等)，然后在设备端开启播放远端的声音数据。整个链路中有诸多延时就会导致设备端输出声音的时刻与远端采集声音的时刻延时较大，影响体验。其中音频驱动层的缓冲是其中一个会影响延时的环节。

音频数据是固定采样率产生的数据，例如8000采样率采样的音频数据固定是8000(采样点/秒)，不会因为环境的变化而变化。所以音频数据的单位时间内产生的数据量是固定的。如果发生设备接收端单位时间内收到数据量少了，则之后的某时间内收到的数据量会多些，总的单位时间数据量还是固定的。

如图8，应用程序将音频数据传到驱动，驱动会将数据放到缓冲区中，而不是直接播放。因为应用程序与驱动的交互不能保证绝对的实时性，所以需要驱动缓冲区缓存一定量的音频数据后才开启声音播放。正因为做了数据缓存，会导致增加了一些延时。开启声音播放的缓冲数据阀值越大延时就越大。

一般产品应用中都有要求声音开启时间的时延，即从远端传输第一帧音频数据到本地播放设备的喇叭发出声音的时延。举个例子：用户按住手机的对讲按钮与设备端音频播放链接上，用户马上说出“abcdefg”，在设备端经过一段小延时后才播出第一个字“a”。上述驱动缓冲区是影响播放时延的一个因数。

如图9-10，本方法提供一种快速开始音频播放，但又不会因为系统的稳定性波动导致音频播放卡顿等问题的方法。

上电时基本逻辑如上。

上电后远端传小量音频数据给设备端，当设备端已经收到小量音频数据即可开始播放音频数据，不用等接收到并缓存较多的音频数据才开始播放。设备端刚开启播放音频前必须将播放采样率比音频数据理论采样率低，例如系统设计要求音频采样率是8000，那么设备端刚开始播放时采样率会比8000低一些。

上式中：

x_i指每个时隔实际播放的采样点个数；

n表示播放了多少个时隔；

ts表示每个时隔的时间(单位秒)，不易过大或过小，比较合适的时隔是0.032s，0.064s等；

sr表示采样率，即每秒消耗的采样点个数。长时间得到的sr采样率值跟音频数据的理论采样率是一致的。

这个式子要表达的是，平均每秒播放的音频数据的采样个数与音频数据本身的采样率值一致，即播放音频的总体采样率是音频数据本身的采样率。

举个例子，分别每个时隔的播放采样率为：

6000、7000、9000、10000、8000、8000、8000......

可以计算得到上面的平均采样率是8000，跟数据本身采样率8000是一致的。

SR：音频数据本来的采样率。

a：每个时隔实际播放时的采样率与音频数据原本的采样率的比例系数。范围(0<a<+无穷)。可以看出SR*a＝x_i。

需要指出的是a不能过大或过小，即不能偏差原本的采样率太多，否则会导致音色、音调和音量明显异常。所以实际应用中a的范围可取:(0<a<2)。

(SR*t)-Sact+SR*ts＝Sbuf (3)

上式是计算缓冲区理论采样点数。

SR：音频数据原本的采样率。

t：表示累计播放的时间(单位秒)。则(SR*t)即为理论已播放的采样点数。

Sact：实际累计已播放的采样点数。((SR*t)-Sact)则表示理应已经播放但实际没有播放的采样点数，出现这个现象是系统刚上电时会设置实际播放的采样率比理论采样率小。

ts：表示每个播放时隔的大小，单位秒。则(SR*ts)表示一个时隔中理论播放的采样点数。在这里也表示下个时隔播放的理论采样点数。

Sbuf：表示当前缓冲区中音频数据的理论采样点数。实际缓存的采样点数<＝Sbuf，这是因为网络、系统等环节可能会出现不稳定导致音频数据没有到达设备端。

Sbuf/Sbufcurrent＝m

a＝m*W

sr＝SR/a

m：表示理论采样点数与缓冲区实际采样点数的比值。这个值必定为m>＝1。因为远端的采样率固定，设备端是消费者端，所以Sbuf必定不会小于Sbufcurrent，即设备端m>＝1。

W：表示采样率缩放系数，1<＝W<2。当缓冲区实际缓存的数据比较接近理论采样点数时，W趋向1。

a：跟式2一致，表示理论采样率与实际采样率的比例系数。

sr：跟式1一致，表示本次时隔应该设置的采样率大小。

其实系数W的本质是：

当当前缓冲区的数据采样点比较少时则适当降低设备端播放的采样，这样可以播放更长的时间。使得留出一些时间用于接收已经延迟了的远端的音频数据。不至于远端的音频数据还没到达前，当前时隔没有数据可以播放，导致无数据可以播放，从而出现卡顿问题。

当收到远端传来的已经延迟的音频数据时，通过提高采样率来消耗更多的采样点数据，从而实际的总体采样率接近理论采样率，即式1所示。

图10中Wmax表示W的最大值，可以根据产品对音色、音量和音调的容忍度调整，一般Wmax＝1.2就比较合适。

需要指出的是：上述所述采样率的调整，并不仅仅指soc中音频播放控制器的采样率寄存器的设置，也包括音频重采样等能间接影响采样率的方法。

音频重采样：将原始的采样频率变化为新的采样频率以适应不同采样率的要求。

第二方面。

本发明提供了一种电子设备，该电子设备包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，可执行指令使处理器执行如本申请的第一方面所示的一种音频播放处理方法对应的操作。

在一个可选实施例中提供了一种电子设备，如图11所示，图11所示的电子设备5000包括：处理器5001和存储器5003。其中，处理器5001和存储器5003相连，如通过总线5002相连。可选地，电子设备5000还可以包括收发器5004。需要说明的是，实际应用中收发器5004不限于一个，该电子设备5000的结构并不构成对本申请实施例的限定。

处理器5001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器5001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线5002可包括一通路，在上述组件之间传送信息。总线5002可以是PCI总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器5003用于存储执行本申请方案的应用程序代码，并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

第三方面。

本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的一种音频播放处理方法

本申请的又一实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

Claims

1.一种音频播放处理方法，其特征在于，包括：

使本地设备能够稳定播放远端设备传送的音频数据。

2.如权利要求1所述的一种音频播放处理方法，其特征在于，所述降低音频数据的采样率，包括：

通过提高所述采样率缩放系数实现降低音频数据的采样率。

3.如权利要求2所述的一种音频播放处理方法，其特征在于，所述通过提高所述采样率缩放系数实现降低音频数据的采样率，包括：

4.如权利要求3所述的一种音频播放处理方法，其特征在于，还包括：

其中，所述预设采样率缩放系数的最大值等于2。

5.如权利要求4所述的一种音频播放处理方法，其特征在于，所述计算每个音频帧被播放时音频数据的理论采样点数与实际采样点数的差值之前，还包括：

6.如权利要求1所述的一种音频播放处理方法，其特征在于，所述提高音频数据的采样率，包括：

通过降低所述采样率缩放系数实现提高音频数据的采样率。

7.如权利要求6所述的一种音频播放处理方法，其特征在于，所述通过降低所述采样率缩放系数实现提高音频数据的采样率，包括：

8.如权利要求6所述的一种音频播放处理方法，其特征在于，还包括：

其中，所述预设采样率缩放系数的最小值等于1。

9.如权利要求1所述的一种音频播放处理方法，其特征在于，所述采样率通过以下公式计算：

其中，xⁱ表示每个音频帧被播放时音频数据的实际采样点数；

n表示音频帧数；

ts表示音频帧数的时间；

sr表示每个音频帧被播放时音频数据的当前采样率。

10.如权利要求1所述的一种音频播放处理方法，其特征在于，所述采样率通过以下公式计算：

其中，SR表示上一个音频帧被播放时音频数据的采样率；

n表示音频帧数；

ts表示音频帧数的时间；

sr表示每个音频帧被播放时音频数据的当前采样率。