CN106970771B

CN106970771B - 音频数据处理方法和装置

Info

Publication number: CN106970771B
Application number: CN201610025708.1A
Authority: CN
Inventors: 杨将
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2020-01-14
Anticipated expiration: 2036-01-14
Also published as: JP6765650B2; KR20180082521A; KR102099029B1; WO2017121304A1; CN106970771A; US20180234721A1; MY191125A; EP3404652A4; US10194200B2; JP2019508722A; EP3404652A1; EP3404652B1

Abstract

本发明涉及一种音频数据处理方法和装置，该方法包括：从音频数据流中获取相邻的第一音频帧和第二音频帧，第一音频帧在时序上先于第二音频帧；确定帧分割位置，第一音频帧中帧分割位置处的采样点值与第二音频帧中帧分割位置处的采样点值满足距离接近条件；获取第二音频帧中帧分割位置以前的采样点值以及第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将第三音频帧插入第一音频帧和第二音频帧之间。本发明提供的音频数据处理方法和装置，可基本克服在插入音频帧时产生的噪声。

Description

音频数据处理方法和装置

技术领域

本发明涉及音频数据处理技术领域，特别是涉及一种音频数据处理方法和装置。

背景技术

音频数据处理技术的应用，使得人们可以通过拾音器采集声音生成音频数据并存储，在需要时可通过音频播放器将存储的音频数据播放出来，重现声音。音频数据处理技术的广泛应用，使得声音的记录和再现变的非常容易，对人们的生活和工作都有重要影响。

目前，在对音频数据流进行处理时，存在需要在相邻的两帧音频数据之间插入一帧音频数据的情况。比如，在一些特殊的音效中，通过将左右声道中其中一个声道的音频数据流相邻的两帧音频数据之间插入一帧音频数据，使得左右声道的音频数据流相差一帧音频数据，可以实现环绕声的特殊效果。又比如，当左右声道的音频数据流不同步时，也可以通过在其中一个音频数据流中插入音频数据来缓解左右声道的音频数据流不同步的问题。

然而，目前在音频数据流中相邻的两帧音频数据之间插入音频数据，一般是直接插入这两帧音频数据中的一个，但插入后在播放时会在插入的音频数据处存在明显的噪声，需要克服。类似地，在音频数据流中删除一帧音频数据也会存在噪声。

发明内容

基于此，有必要针对目前在处理音频数据流时，插入或者删除一帧音频数据时会产生噪声的问题，提供一种音频数据处理方法和装置。

一种音频数据处理方法，所述方法包括：

从音频数据流中获取相邻的第一音频帧和第二音频帧，所述第一音频帧在时序上先于所述第二音频帧；

确定帧分割位置，所述第一音频帧中所述帧分割位置处的采样点值与所述第二音频帧中所述帧分割位置处的采样点值满足距离接近条件；

获取所述第二音频帧中帧分割位置以前的采样点值以及所述第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将所述第三音频帧插入所述第一音频帧和第二音频帧之间；或者，

获取所述第一音频帧中帧分割位置以前的采样点值以及所述第二音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧，并将所述第一音频帧和第二音频帧一并替换为所述第四音频帧。

一种音频数据处理装置，所述装置包括：音频帧获取模块和帧分割位置确定模块，还包括音频帧插入模块和音频帧替换模块中的至少一种；

所述音频帧获取模块，用于从音频数据流中获取相邻的第一音频帧和第二音频帧，所述第一音频帧在时序上先于所述第二音频帧；

所述帧分割位置确定模块，用于确定帧分割位置，所述第一音频帧中所述帧分割位置处的采样点值与所述第二音频帧中所述帧分割位置处的采样点值满足距离接近条件；

所述音频帧插入模块，用于获取所述第二音频帧中帧分割位置以前的采样点值以及所述第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将所述第三音频帧插入所述第一音频帧和第二音频帧之间；

所述音频帧替换模块，用于获取所述第一音频帧中帧分割位置以前的采样点值以及所述第二音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧，并将所述第一音频帧和第二音频帧一并替换为所述第四音频帧。

上述音频数据处理方法和装置，在需要插入音频帧时，将第二音频帧的帧分割位置以前的部分与第一音频帧的帧分割位置以后的部分进行拼接后获得第三音频帧，插入第一音频帧和第二音频帧之间。插入之后，第三音频帧的前部分是第二音频帧的前部分，而第三音频帧的后部分则是第一音频帧的后部分。由于第一音频帧和第二音频帧本身是无缝连接的，这样第一音频帧能够与第三音频帧的前部分无缝连接，第三音频帧的后部分与第二音频帧无缝连接，而且第三音频帧在帧分割位置处满足距离接近条件，这样拼接处也不会产生太大突变，因此可基本克服在插入音频帧时因为音频帧之间的跳跃而产生的噪声问题。

在需要删除音频帧时，将第一音频帧的帧分割位置以前的部分与第二音频帧的帧分割位置以后的部分进行拼接后获得第四音频帧，替换掉第一音频帧和第二音频帧。替换之后，第四音频帧的前部分是第一音频帧的前部分，而第四音频帧的后部分则是第二音频帧的后部分。由于第一音频帧和前一音频帧、第二音频帧和后一音频帧都是无缝连接的，这样替换后第四音频帧能够与第一音频帧的前一音频帧无缝连接，与第二音频帧的后一音频帧无缝连接，而且第四音频帧在帧分割位置处满足距离接近条件，这样拼接处也不会产生太大突变，因此可基本克服在删除音频帧时因为音频帧之间的跳跃而产生的噪声问题。

附图说明

图1为一个实施例中用于实现音频数据处理方法的终端的结构示意图；

图2为一个实施例中音频数据处理方法的流程示意图；

图3A为一个实施例中在相邻的第一音频帧和第二音频帧之间插入音频帧的示意图；

图3B为一个实施例中在相邻的第一音频帧和第二音频帧之中删除一帧的示意图；

图4为一个实施例中第一音频帧的局部采样点值分布图；

图5为一个实施例中第二音频帧的局部采样点值分布图；

图6为一个实施例中第一音频帧和第二音频帧重叠的局部采样点值分布图；

图7A为一个实施例中分割音频帧、拼接音频帧以及插入音频帧的过程的示意图；

图7B为一个实施例中分割音频帧、拼接音频帧以及替换音频帧的过程的示意图；

图8为一个实施例中保留副本以及进行播放处理的过程的示意图；

图9为一个实施例中确定帧分割位置的步骤的流程示意图；

图10为一个实施例中第一音频帧的第一拟合曲线和第二音频帧的第二拟合曲线在同一坐标系下的示意图；

图11为另一个实施例中音频数据处理方法的流程示意图；

图12为一个实施例中音频数据处理装置的结构框图；

图13为另一个实施例中音频数据处理装置的结构框图；

图14为一个实施例中帧分割位置确定模块的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提供了一种用于实现音频数据处理方法的终端100，包括通过系统总线连接的处理器、非易失性存储介质、内存储器、输入装置以及音频输出接口。其中处理器具有计算功能和控制终端100工作的功能，该处理器被配置为执行一种音频数据处理方法。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种，非易失性存储介质存储有操作系统和音频数据处理装置。该音频数据处理装置用于实现一种音频数据处理方法。输入装置包括物理按钮、轨迹球、触控板、用于接入外接控制设备的物理接口以及与显示屏重叠的触控层中的至少一种，外接控制设备比如鼠标或者多媒体线控装置等。终端100包括台式计算机、便携式笔记本电脑、手机、音乐播放器以及智能手表等各种可进行音频数据处理的电子设备。

如图2所示，在一个实施例中，提供了一种音频数据处理方法，本实施例以该方法应用于上述图1中的终端100来举例说明。该方法具体包括如下步骤：

步骤202，从音频数据流中获取相邻的第一音频帧和第二音频帧，第一音频帧在时序上先于第二音频帧。

具体地，音频数据流包括具有时序的一系列的采样点值，采样点值通过将原始的模拟声音信号按照特定的音频采样率采样获得，一系列的采样点值就可以描述声音。音频采样率则是一秒钟内所采集的采样点的数量，单位为赫兹(Hz)，音频采样率越高所能描述的声波频率就越高。

音频帧包括具有时序的、数量固定的采样点值。按照音频数据流的编码格式，若编码格式本身存在音频帧则直接采用，若不存在音频帧而只是一系列具有时序的采样点值，则可以按照预设帧长度从这一系列具有时序的采样点值中划分出音频帧。预设帧长度是指预设的一帧音频帧中所包括的采样点值的数量。

从音频数据流中获取的第一音频帧和第二音频帧是相邻的，且第一音频帧在时序上先于第二音频帧，就是说在对音频数据流进行播放处理时，第一音频帧先播放，当第一音频帧播放完毕之后播放第二音频帧。第一音频帧和第二音频帧是需要在两者之间插入音频帧的两个相邻音频帧。

举例说明，参照图3A，一段音频数据流中包括按照时序排列的第一音频帧A、第二音频帧B……，在需要插入音频帧时，需要在第一音频帧A和第二音频帧B之间插入音频帧F。参照图3B，在需要删除音频帧时，需要将第一音频帧A和第二音频B这两帧音频帧的采样点值中删除掉一个音频帧的采样点值，保留一个音频帧G。

步骤204，确定帧分割位置，第一音频帧中帧分割位置处的采样点值与第二音频帧中帧分割位置处的采样点值满足距离接近条件。

具体地，帧分割位置是指将第一音频帧和第二音频帧进行分割的位置，是相对于一个音频帧的相对位置。距离是指两个音频帧中对应的位置处的采样点值对的差值的绝对值。举例说明，参照图4所示的第一音频帧A的局部采样点值分布图以及图5所示的第二音频帧B的局部采样点值分布图，第一音频帧A的第一个采样点值与第二音频帧B的第一个采样点值的差值的绝对值，便是第一音频帧A的第一个采样点值与第二音频帧B的第一个采样点值的距离。

距离接近条件是指用来判定两个采样点值的距离是否接近的量化条件。在一个实施例中，距离接近条件可以包括距离等于0的情况，还可以包括两个采样点值的距离不相等但接近的情况，比如距离小于等于阈值，该阈值可以是预先设置的，也可以是根据第一音频帧和/或第二音频帧中的采样点值动态确定的，比如可以是第一音频帧和/或第二音频帧中采样点值的平均值乘以预设百分比。

在一个实施例中，终端可计算第一音频帧和第二音频帧中每个采样点值对的距离，从而筛选出距离最小的采样点值对，帧分割位置便是筛选出的距离最小的采样点值对所对应的位置，此时距离接近条件便是第一音频帧和第二音频帧中帧分割位置对应的采样点值对的距离最小化。这里的采样点值对是指两个音频帧中相同位置处的两个采样点值，采样点值的位置则是该采样点值相对于所属音频帧的相对位置。

举例说明，将图4和图5重叠得到图6所示的重叠的局部采样点值分布图，以便对音频帧A的音频帧B的局部采样点值分布进行比较。假设帧分割位置为S，则音频帧A中S处的采样点值与音频帧B中S处的采样点值的差值的绝对值很接近甚至相等，也就是音频帧A中S处的采样点值与音频帧B中S处的采样点值满足距离接近条件。

步骤206，获取第二音频帧中帧分割位置以前的采样点值以及第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将第三音频帧插入第一音频帧和第二音频帧之间；或者，获取第一音频帧中帧分割位置以前的采样点值以及第二音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧，并将第一音频帧和第二音频帧一并替换为第四音频帧。

具体地，在需要插入音频帧时，获取第二音频帧中帧分割位置以前的采样点值，并获取第一音频帧中帧分割位置以后的采样点值，获取的采样点值的总数恰好等于一个音频帧长度。将来自于第二音频帧的采样点值在前，来自于第一音频帧中的采样点值在后按顺序进行拼接，生成第三音频帧。而且，来自于第二音频帧的采样点值仍保留所在第二音频帧中的顺序，来自于第一音频帧中的采样点值仍保留所在第一音频帧中的顺序。最后将生成的第三音频帧插入第一音频帧和第二音频帧之间。

举例说明，参照图7A，第一音频帧A按照帧分割位置S划分为前部分和后部分，第二音频帧B也按照帧分割位置S划分为前部分和后部分。其中前部分是指帧分割位置S以前的采样点值，相应地后部分则是帧分割位置以后的采样点值。将第二音频帧B的前部分与第一音频帧A的后部分进行拼接，获得第三音频帧F，然后便可以将拼接获得的第三音频帧F插入第一音频帧A与第二音频帧B之间。

在需要删除音频帧时，获取第一音频帧中帧分割位置以前的采样点值，并获取第二音频帧中帧分割位置以后的采样点值，获取的采样点值的总数恰好等于一个音频帧长度。将来自于第一音频帧的采样点值在前、来自于第二音频帧的采样点值在后按顺序进行拼接，获得第四音频帧。而且，来自于第一音频帧的采样点值仍保留所在第一音频帧中的顺序，来自于第二音频帧中的采样点值仍保留所在第二音频帧中的顺序。最后用生成的第四音频帧替换掉第一音频帧和第二音频帧。

举例说明，参照图7B，第一音频帧D按照帧分割位置S划分为前部分和后部分，第二音频帧E也按照帧分割位置S划分为前部分和后部分。其中前部分是指帧分割位置S以前的采样点值，相应地后部分则是帧分割位置以后的采样点值。将第一音频帧A的前部分与第二音频帧B的后部分进行拼接，获得第四音频帧G，然后便可以用拼接获得的第四音频帧G替换掉第一音频帧A与第二音频帧B。

上述音频数据处理方法，在需要插入音频帧时，将第二音频帧的帧分割位置以前的部分与第一音频帧的帧分割位置以后的部分进行拼接后获得第三音频帧，插入第一音频帧和第二音频帧之间。插入之后，第三音频帧的前部分是第二音频帧的前部分，而第三音频帧的后部分则是第一音频帧的后部分。由于第一音频帧和第二音频帧本身是无缝连接的，这样第一音频帧能够与第三音频帧的前部分无缝连接，第三音频帧的后部分与第二音频帧无缝连接，而且第三音频帧在帧分割位置处满足距离接近条件，这样拼接处也不会产生太大突变，因此可基本克服在插入音频帧时因为音频帧之间的跳跃而产生的噪声问题。

在一个实施例中，该音频数据处理方法还包括：在对音频数据流进行实时的播放处理时，保留至少一个音频帧长度的采样点值的副本。且步骤202包括：在检测到用于插入音频帧的指令时，根据当前正在进行播放处理的采样点值之前保留的副本获得第一音频帧，并根据当前正在进行播放处理的采样点值之后的一个音频帧长度的采样点值获得第二音频帧。

其中，播放处理是指根据采样点值还原出声音信号的处理，保留至少一个音频帧长度的采样点值的副本，也就是保留至少一个音频帧的副本。具体地，参照图8，终端在对一个采样点值A1进行播放处理时，保留该采样点值A1的副本A1’，在该采样点值A1之前进行了播放处理的采样点值的副本也会保留下来，保留的副本的总长度至少为一个音频帧长度。

终端在经过一个音频帧长度之后，正在对采样点值B1进行播放处理，此时也会保留该采样点值B1的副本B1’，此时保留的副本至少包括音频帧A的副本A’。假设此时终端检测到用于插入音频帧的指令，则终端会将副本A1’到当前正在进行播放处理的采样点值B1之间的这一个音频帧长度的采样点值的副本作为第一音频帧A，并将采样点值B1之后的一个音频帧长度的音频帧B作为第二音频帧。

本实施例中，通过在对音频数据流进行实时的播放处理时保留至少一个音频帧的副本，在检测到用于插入音频帧的指令时可以立即做出响应，不需要再等待一个音频帧长度的时间，提高了插入音频帧的效率。

如图9所示，在一个实施例中，步骤204具体包括如下步骤：

步骤902，获取候选位置，第一音频帧中候选位置处的采样点值与第二音频帧中相应候选位置处的采样点值满足距离接近条件。

其中，候选位置是筛选出的可作为帧分割位置的音频帧中的位置，具体终端可遍历音频帧中的所有位置，在遍历到每个位置时，判断第一音频帧中和第二音频帧中相应位置处的采样点值对是否满足距离接近条件。若满足距离接近条件则将遍历到的位置加入候选位置集合中，并继续遍历；若不满足距离接近条件，则继续遍历。若遍历之后候选位置集合仍未空，则可选择预设位置(比如音频帧的中间位置)或者采样点值对的距离最小的位置加入到候选位置集合中。

距离接近条件是指用来判定两个采样点值的距离是否接近的量化条件。在一个实施例中，距离接近条件可以包括距离等于0的情况，还可以包括两个采样点值的距离不相等但接近的情况，比如距离小于等于阈值，该阈值可以是预先设置的，也可以是根据第一音频帧和/或第二音频帧中的采样点值动态确定的。

在一个实施例中，终端可计算第一音频帧和第二音频帧中每个采样点值对的距离并升序排序，从而将排序靠前的预设数量的距离所对应的位置加入候选位置集合中，或者可从排序的距离的最小距离起获取占所有计算出的距离中的预设比例的距离所对应的位置加入候选位置集合中，此时距离接近条件便是第一音频帧和第二音频帧中候选位置对应的采样点值对的距离是将所有计算出的距离升序排序后靠前的预设数量的距离，或者是将所有计算出的距离升序排序后靠前的占所有计算出的距离中的预设比例的距离。

在一个实施例中，距离接近条件为：第一差值与第二差值的乘积小于等于0；其中，第一差值为第一音频帧中候选位置处的采样点值与第二音频帧中相应候选位置处的采样点值的差值；第二差值为第一音频帧中候选位置的下一位置的采样点值与第二音频帧中相应位置处的采样点值的差值。

具体地，假设第一音频帧A为[a₁，a₂，……，a_m]，第二音频帧B为[b₁，b₂，……，b_m]，则距离接近条件可用以下公式(1)表示：

(a_i-b_i)*(a_i+1-b_i+1)≤0，(i∈[1，m-1]) 公式(1)

其中，i表示第一音频帧A以及第二音频帧B中的候选位置，可称为采样点值序号，m为一个音频帧长度；(a_i-b_i)为第一差值，表示第一音频帧A中候选位置i处的采样点值a_i与第二音频帧B中相应候选位置i处的采样点值b_i的差值；(a_i+1-b_i+1)为第二差值，表示第一音频帧A中候选位置i的下一位置i+1的采样点值a_i+1与第二音频帧B中相应位置i+1处的采样点值b_i+1的差值；公式(1)表示第一差值(a_i-b_i)与第二差值(a_i+1-b_i+1)的乘积小于等于0。

上述公式(1)所表示的距离接近条件，是为了找到第一音频帧的采样点值构成的第一拟合曲线和第二音频帧中的采样点值构成的第二拟合曲线的交点，还可以用其它求取两个曲线交点的方式来确定交点。若该交点正好是一个采样点值的位置，则将该位置加入候选位置集合；若该交点不是任何采样点值的位置，则可将音频帧的所有位置中最靠近该交点的位置加入候选位置集合。比如图10中的第一拟合曲线和第二拟合曲线存在交点X，则可将最靠近该交点X的两个位置S1或S2加入候选位置集合。其它求取两个曲线交点的方式比如先分别求取两个拟合曲线的数学表达，从而通过函数计算来直接求取交点。上述公式(1)所表示的距离接近条件效率更高。

步骤904，获取第一音频帧和第二音频帧中在覆盖候选位置的预设长度的离散位置范围内的各采样点值对的距离和。

其中，覆盖候选位置的预设长度的离散位置范围，包括某候选位置，该离散位置集合包括的离散位置的数量是固定的即预设长度。优选可以在候选位置前后等量选取一定数量的离散位置与候选位置一同构成离散位置范围，也可以在候选位置前后不等量地选取离散位置与候选位置一同构成离散位置范围。离散位置集合中的各个位置优选可以是顺序相邻的，当然也可以间隔地选取离散位置与候选位置一同构成离散位置范围。

终端具体可逐个从候选位置集合中选择候选位置，并获取第一音频帧和第二音频帧中在覆盖所选择的候选位置的预设长度的离散位置范围内的各采样点值对的距离和。

在一个实施例中，可采用以下公式(2)来获取第一音频帧和第二音频帧中在覆盖候选位置的预设长度的离散位置范围内的各采样点值对的距离和：

公式(2)

其中，n为候选位置减去N，N可取[1，(m-1)/2]，优选可取[2，(m-1)/100]，更优可取5；候选位置为n+N，此时离散位置范围为以候选位置n+N为中心向左右分别取N个位置与候选位置n+N构成预设长度为2N+1的离散位置范围[n，…，n+N，…2N+n]；|a_j-b_j|是第一音频帧A和第二音频帧B中在离散位置范围内的各采样点值对(a_j，b_j)的距离，R_n则是第一音频帧A和第二音频帧B中在离散位置范围内的各采样点值对(a_j，b_j)的距离和。

步骤906，将最小距离和所对应的候选位置确定为帧分割位置。

具体地，为了从候选位置集合中找出最优的候选位置作为帧分割位置，可对候选位置集合中的所有候选位置分别计算距离和之后，找出最小的距离和所对应的候选位置作为帧分割位置。具体可表示为如下公式(3)：

T＝Min(R_n)

其中，T为目标函数，通过优化目标函数T，求得最小距离和对应的候选位置n，从而获得帧分割位置n+N。确定的帧分割位置也满足距离接近条件：第一差值与第二差值的乘积小于等于0；其中，第一差值为第一音频帧中帧分割位置处的采样点值与第二音频帧中相应帧分割位置处的采样点值的差值；第二差值为第一音频帧中帧分割位置的下一位置的采样点值与第二音频帧中相应位置处的采样点值的差值。

上述通过步骤904到步骤906找到的帧分割位置，是通过找到在第一拟合曲线和第二拟合曲线的交点附近最相似的交点处的候选位置作为帧分割位置。上述步骤904是获取第一音频帧和第二音频帧中在相应的候选位置处的局部相似度的具体步骤，而步骤906则是根据局部相似度确定帧分割位置的具体步骤。候选位置处的局部相似度是指在候选位置附近固定范围内第一拟合曲线和第二拟合曲线相似的程度，通过上述公式(2)计算出的局部相似度越小表示越相似。若第一拟合曲线和第二拟合曲线在候选位置附近越相似，相应的两种曲线具有越相似的斜率，分割之后再拼接获得的第三音频帧过渡越平缓，对噪声的抑制作用更好。

局部相似度还可以通过互相关函数计算互相关度而获得。设两个函数分别是f(t)和g(t)，则互相关函数定义为R(u)＝f(t)*g(-t)，它反映的是两个函数在不同的相对位置上互相匹配的程度。互相关函数虽然也可以表示两个信号的相似程度，但是如果应用于本方案，在进行少量点的互相关度的计算时，单独的两个同向大采样点值可能会获得一个较大的互相关度，表示两条曲线越相似，但却不是最佳的帧分割位置。但通过上述公式(2)获得的局部相似度克服了利用互相关函数计算互相关度的缺点，公式(2)中每个位置的采样点值在计算互相关度时所起的作用比较平衡，同时利用差值的绝对值作为衡量一个位置的采样点值所起作用的作用值，可以很好地描述交点前后的斜率差异，可以找到最合适的候选位置作为帧分割位置。

在一个实施例中，该音频数据处理方法还包括：对于在开启音效时从指定声道的音频数据流中获取的相邻的第一音频帧和第二音频帧，执行获取第二音频帧中帧分割位置以前的采样点值以及第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将第三音频帧插入第一音频帧和第二音频帧之间的步骤，并对插入的第三音频帧进行淡入处理，使插入的第三音频帧按时序从无音效状态逐渐过渡到完整音效状态。

具体地，对指定声道的音频数据流执行步骤202、步骤204以及步骤206的前半部分插入音频帧的步骤。开启音效的指令是用于插入音频帧的指令，此时开启的音效是基于声道异步的音效，通过在指定声道插入一帧音频帧，使得指定声道的音频数据流比剩余的其它声道延迟一个音频帧，从而达到因音源到达人两耳的时间相差一个音频帧的时间而产生的环绕音效。

无音效状态是指开启音效之前的状态，完整音效状态是开启音效之后的状态，通过对第三音频帧进行淡入处理，使得插入的第三音频帧按照其中采样点值的时序，按时序从无音效状态逐渐过渡到完整音效状态，从而达到音效平缓过渡的效果。比如若完整音效状态下需要音量提高5倍，则可以逐步提升音量的倍数，直至最高达到5倍时与处于完整音效状态的第二音频帧无缝连接。逐渐过渡可以是线性过渡，也可以是曲线性过渡。

本实施例中，在关闭音效时，可对指定声道的音频数据流执行步骤202、步骤204以及步骤206的后半部分替换音频帧的步骤，并对替换为的第四音频帧进行淡出处理，使替换为的第四音频帧按时序从完整音效状态逐渐过渡到无音效状态。淡出处理与淡入处理相反，是逐渐消除音效的影响的处理过程。

本实施例中，通过将指定声道的两帧音频帧替换为一帧音频帧，删除掉一帧音频帧，使得指定声道恢复到与其它声道同步的状态。可快速开启和/或关闭基于声道异步的音效，提高了切换音效的效率。

在一个实施例中，对于在开启音效时从指定声道的音频数据流中获取的相邻的第一音频帧和第二音频帧，还可对指定声道执行获取第一音频帧中帧分割位置以前的采样点值以及第二音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧，并将第一音频帧和第二音频帧一并替换为第四音频帧的步骤，并对替换为的第四音频帧进行淡入处理，使替换为的第四音频帧按时序从无音效状态逐渐过渡到完整音效状态。

本实施例中，在关闭音效时，则可以对指定声道执行步骤202、步骤204，以及步骤206的前半部分：获取第二音频帧中帧分割位置以前的采样点值以及第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将第三音频帧插入第一音频帧和第二音频帧之间。并且对插入的第三音频帧进行淡出处理，使插入的第三音频帧按时序从完整音效状态逐渐过渡到无音效状态。本实施例也可实现快速开启和/或关闭基于声道异步的音效，提高了切换音效的效率。

如图11所示，在一个实施例中，一种音频数据处理方法，包括如下步骤：

步骤1102，在开启音效时，从指定声道的音频数据流中获取相邻的第一音频帧和第二音频帧，第一音频帧在时序上先于第二音频帧。

步骤1104，获取第一候选位置，第一音频帧中第一候选位置处的采样点值与第二音频帧中相应第一候选位置处的采样点值满足距离接近条件。其中，距离接近条件可为：第一差值与第二差值的乘积小于等于0。且第一差值为第一音频帧中候选位置处的采样点值与第二音频帧中相应候选位置处的采样点值的差值。第二差值为第一音频帧中候选位置的下一位置的采样点值与第二音频帧中相应位置处的采样点值的差值。

步骤1106，获取第一音频帧和第二音频帧中在覆盖第一候选位置的预设长度的离散位置范围内的各采样点值对的距离和。

步骤1108，将最小距离和所对应的第一候选位置确定为第一帧分割位置。

步骤1110，获取第二音频帧中帧分割位置以前的采样点值以及第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧。

步骤1112，将第三音频帧插入第一音频帧和第二音频帧之间。

步骤1114，对插入的第三音频帧进行淡入处理，使插入的第三音频帧按时序从无音效状态逐渐过渡到完整音效状态。

步骤1116，在关闭音效时，从指定声道的音频数据流中获取相邻的第五音频帧和第六音频帧，第五音频帧在时序上先于第六音频帧。其中，第五音频帧相当于图2所示的实施例的步骤206中用来生成第四音频帧的第一音频帧，第六音频帧相当于图2所示的实施例的步骤206中用来生成第四音频帧的第二音频帧。

步骤1118，获取第二候选位置，第五音频帧中第二候选位置处的采样点值与第六音频帧中相应第二候选位置处的采样点值满足距离接近条件。其中，距离接近条件可为：第一差值与第二差值的乘积小于等于0。且第一差值为第五音频帧中候选位置处的采样点值与第六音频帧中相应候选位置处的采样点值的差值。第二差值为第五音频帧中候选位置的下一位置的采样点值与第六音频帧中相应位置处的采样点值的差值。

步骤1120，获取第五音频帧和第六音频帧中在覆盖第二候选位置的预设长度的离散位置范围内的各采样点值对的距离和。

步骤1122，将最小距离和所对应的第二候选位置确定为第二帧分割位置。

步骤1124，获取第五音频帧中第二帧分割位置以前的采样点值以及第六音频帧中第二帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧。

步骤1126，将第五音频帧和第六音频帧一并替换为第四音频帧。

步骤1128，对替换为的第四音频帧进行淡出处理，使替换为的第四音频帧按时序从完整音效状态逐渐过渡到无音效状态。

如图12所示，在一个实施例中，提供了一种音频数据处理装置1200，包括音频帧获取模块1201和帧分割位置确定模块1202，还包括音频帧插入模块1203和音频帧替换模块1204中的至少一种。

音频帧获取模块1201，用于从音频数据流中获取相邻的第一音频帧和第二音频帧，第一音频帧在时序上先于第二音频帧。

具体地，音频数据流包括具有时序的一系列的采样点值，采样点值通过将原始的模拟声音信号按照特定的音频采样率采样获得，一系列的采样点值就可以描述声音。音频采样率则是一秒钟内所采集的采样点的数量，单位为赫兹，音频采样率越高所能描述的声波频率就越高。

音频帧获取模块1201从音频数据流中获取的第一音频帧和第二音频帧是相邻的，且第一音频帧在时序上先于第二音频帧，就是说在对音频数据流进行播放处理时，第一音频帧先播放，当第一音频帧播放完毕之后播放第二音频帧。第一音频帧和第二音频帧是需要在两者之间插入音频帧的两个相邻音频帧。

帧分割位置确定模块1202，用于确定帧分割位置，第一音频帧中帧分割位置处的采样点值与第二音频帧中帧分割位置处的采样点值满足距离接近条件。

在一个实施例中，帧分割位置确定模块1202可计算第一音频帧和第二音频帧中每个采样点值对的距离，从而筛选出距离最小的采样点值对，帧分割位置便是筛选出的距离最小的采样点值对所对应的位置，此时距离接近条件便是第一音频帧和第二音频帧中帧分割位置对应的采样点值对的距离最小化。这里的采样点值对是指两个音频帧中相同位置处的两个采样点值，采样点值的位置则是该采样点值相对于所属音频帧的相对位置。

音频帧插入模块1203，用于获取第二音频帧中帧分割位置以前的采样点值以及第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将第三音频帧插入第一音频帧和第二音频帧之间。

具体地，在需要插入音频帧时，音频帧插入模块1203获取第二音频帧中帧分割位置以前的采样点值，并获取第一音频帧中帧分割位置以后的采样点值，获取的采样点值的总数恰好等于一个音频帧长度。将来自于第二音频帧的采样点值在前，来自于第一音频帧中的采样点值在后按顺序进行拼接，生成第三音频帧。而且，来自于第二音频帧的采样点值仍保留所在第二音频帧中的顺序，来自于第一音频帧中的采样点值仍保留所在第一音频帧中的顺序。最后将生成的第三音频帧插入第一音频帧和第二音频帧之间。

音频帧替换模块1204，用于获取第一音频帧中帧分割位置以前的采样点值以及第二音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧，并将第一音频帧和第二音频帧一并替换为第四音频帧。

在需要删除音频帧时，音频帧替换模块1204获取第一音频帧中帧分割位置以前的采样点值，并获取第二音频帧中帧分割位置以后的采样点值，获取的采样点值的总数恰好等于一个音频帧长度。将来自于第一音频帧的采样点值在前、来自于第二音频帧的采样点值在后按顺序进行拼接，获得第四音频帧。而且，来自于第一音频帧的采样点值仍保留所在第一音频帧中的顺序，来自于第二音频帧中的采样点值仍保留所在第二音频帧中的顺序。最后用生成的第四音频帧替换掉第一音频帧和第二音频帧。

上述音频数据处理装置1200，在需要插入音频帧时，将第二音频帧的帧分割位置以前的部分与第一音频帧的帧分割位置以后的部分进行拼接后获得第三音频帧，插入第一音频帧和第二音频帧之间。插入之后，第三音频帧的前部分是第二音频帧的前部分，而第三音频帧的后部分则是第一音频帧的后部分。由于第一音频帧和第二音频帧本身是无缝连接的，这样第一音频帧能够与第三音频帧的前部分无缝连接，第三音频帧的后部分与第二音频帧无缝连接，而且第三音频帧在帧分割位置处满足距离接近条件，这样拼接处也不会产生太大突变，因此可基本克服在插入音频帧时因为音频帧之间的跳跃而产生的噪声问题。

如图13所示，在一个实施例中，音频数据处理装置1200还包括：副本保留模块1205，用于在对音频数据流进行实时的播放处理时，保留至少一个音频帧长度的采样点值的副本。

音频帧获取模块1201还用于在检测到用于插入音频帧的指令时，根据当前正在进行播放处理的采样点值之前保留的副本获得第一音频帧，并根据当前正在进行播放处理的采样点值之后的一个音频帧长度的采样点值获得第二音频帧。

其中，播放处理是指根据采样点值还原出声音信号的处理，保留至少一个音频帧长度的采样点值的副本，也就是保留至少一个音频帧的副本。具体地，参照图8，在对一个采样点值A1进行播放处理时，副本保留模块1205保留该采样点值A1的副本A1’，在该采样点值A1之前进行了播放处理的采样点值的副本也会保留下来，保留的副本的总长度至少为一个音频帧长度。

在经过一个音频帧长度之后，正在对采样点值B1进行播放处理，此时副本保留模块1205也会保留该采样点值B1的副本B1’，此时保留的副本至少包括音频帧A的副本A’。假设此时音频帧获取模块1201检测到用于插入音频帧的指令，则音频帧获取模块1201会将副本A1’到当前正在进行播放处理的采样点值B1之间的这一个音频帧长度的采样点值的副本作为第一音频帧A，并将采样点值B1之后的一个音频帧长度的音频帧B作为第二音频帧。

如图14所示，在一个实施例中，帧分割位置确定模块1202包括：候选位置获取模块1202a、相似度量模块1202b和确定模块1202c。

候选位置获取模块1202a，用于获取候选位置，所述第一音频帧中所述候选位置处的采样点值与所述第二音频帧中相应候选位置处的采样点值满足距离接近条件。相似度量模块1202b，用于获取第一音频帧和第二音频帧中在相应的候选位置处的局部相似度。确定模块1202c，用于根据所述局部相似度确定帧分割位置。

候选位置获取模块1202a，用于获取候选位置，第一音频帧中候选位置处的采样点值与第二音频帧中相应候选位置处的采样点值满足距离接近条件。

其中，候选位置是筛选出的可作为帧分割位置的音频帧中的位置，位置是离散的，每个采样点值对应一个离散的位置。具体候选位置获取模块1202a可遍历音频帧中的所有位置，在遍历到每个位置时，判断第一音频帧中和第二音频帧中相应位置处的采样点值对是否满足距离接近条件。若满足距离接近条件则候选位置获取模块1202a将遍历到的位置加入候选位置集合中，并继续遍历；若不满足距离接近条件，则继续遍历。若遍历之后候选位置集合仍未空，则候选位置获取模块1202a可选择预设位置(比如音频帧的中间位置)或者采样点值对的距离最小的位置加入到候选位置集合中。

在一个实施例中，候选位置获取模块1202a可计算第一音频帧和第二音频帧中每个采样点值对的距离并升序排序，从而将排序靠前的预设数量的距离所对应的位置加入候选位置集合中，此时距离接近条件便是第一音频帧和第二音频帧中候选位置对应的采样点值对的距离是将所有计算出的距离升序排序后靠前的预设数量的距离。或者可从排序的距离的最小距离起获取占所有计算出的距离中的预设比例的距离所对应的位置加入候选位置集合中，此时距离接近条件便是第一音频帧和第二音频帧中候选位置对应的采样点值对的距离是将所有计算出的距离升序排序后靠前的占所有计算出的距离中的预设比例的距离。

(a_i-b_i)*(a_i+1-b_i+1)≤0，(i∈[1，m-1]) 公式(1)

相似度量模块1202b，用于获取第一音频帧和第二音频帧中在覆盖候选位置的预设长度的离散位置范围内的各采样点值对的距离和。

其中，覆盖候选位置的预设长度的离散位置范围，包括某候选位置，该离散位置集合包括的离散位置的数量是固定的即预设长度，且该位置集合中的位置是顺序相邻的。相似度量模块1202b具体可逐个从候选位置集合中选择候选位置，并获取第一音频帧和第二音频帧中在覆盖所选择的候选位置的预设长度的离散位置范围内的各采样点值对的距离和。

在一个实施例中，相似度量模块1202b可采用以下公式(2)来获取第一音频帧和第二音频帧中在覆盖候选位置的预设长度的离散位置范围内的各采样点值对的距离和：

公式(2)

确定模块1202c，用于将最小距离和所对应的候选位置确定为帧分割位置。

相似度量模块1202b用于获取第一音频帧和第二音频帧中在相应的候选位置处的局部相似度，确定模块1202c则用于根据局部相似度确定帧分割位置。

T＝Min(R_n)

本实施例中，通过找到在第一拟合曲线和第二拟合曲线的交点附近最相似的交点处的候选位置作为帧分割位置。候选位置处的局部相似度是指在候选位置附近固定范围内第一拟合曲线和第二拟合曲线相似的程度，通过上述公式(2)计算出的局部相似度越小表示越相似。若第一拟合曲线和第二拟合曲线在候选位置附近越相似，相应的两种曲线具有越相似的斜率，分割之后再拼接获得的第三音频帧过渡越平缓，对噪声的抑制作用更好。

局部相似度还可以通过互相关函数计算互相关度而获得，互相关函数虽然也可以表示两个信号的相似程度，但是如果应用于本方案，在进行少量点的互相关度的计算时，单独的两个同向大采样点值可能会获得一个较大的互相关度，表示两条曲线越相似，但却不是最佳的帧分割位置。但通过上述公式(2)获得的局部相似度克服了利用互相关函数计算互相关度的缺点，公式(2)中每个位置的采样点值在计算互相关度时所起的作用比较平衡，同时利用差值的绝对值作为衡量一个位置的采样点值所起作用的作用值，可以很好地描述交点前后的斜率差异，可以找到最合适的候选位置作为帧分割位置。

在一个实施例中，音频帧插入模块1203还用于对于在开启音效时从指定声道的音频数据流中获取的相邻的第一音频帧和第二音频帧，获取第二音频帧中帧分割位置以前的采样点值以及第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将第三音频帧插入第一音频帧和第二音频帧之间，并对插入的第三音频帧进行淡入处理，使插入的第三音频帧按时序从无音效状态逐渐过渡到完整音效状态。

本实施例中，音频帧替换模块1204还用于在关闭音效时，获取第一音频帧中帧分割位置以前的采样点值以及第二音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧，并将第一音频帧和第二音频帧一并替换为第四音频帧，并对替换为的第四音频帧进行淡出处理，使替换为的第四音频帧按时序从完整音效状态逐渐过渡到无音效状态。

在一个实施例中，音频帧替换模块1204还用于对于在开启音效时从指定声道的音频数据流中获取的相邻的所述第一音频帧和所述第二音频帧，获取第一音频帧中帧分割位置以前的采样点值以及第二音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧，并将第一音频帧和第二音频帧一并替换为第四音频帧，并对替换为的第四音频帧进行淡出处理，使替换为的第四音频帧按时序从完整音效状态逐渐过渡到无音效状态。

本实施例中，音频帧插入模块1203还用于对于在关闭音效时从指定声道的音频数据流中获取的相邻的第一音频帧和第二音频帧，获取第二音频帧中帧分割位置以前的采样点值以及第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将第三音频帧插入第一音频帧和第二音频帧之间，并对插入的第三音频帧进行淡出处理，使插入的第三音频帧按时序从完整音效状态逐渐过渡到无音效状态。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在对音频数据流进行实时的播放处理时，保留至少一个音频帧长度的采样点值的副本；

所述从音频数据流中获取相邻的第一音频帧和第二音频帧，包括：

在检测到用于插入音频帧的指令时，根据当前正在进行播放处理的采样点值之前保留的副本获得第一音频帧，并根据当前正在进行播放处理的采样点值之后的一个音频帧长度的采样点值获得第二音频帧。

3.根据权利要求1所述的方法，其特征在于，所述确定帧分割位置，包括：

获取候选位置，所述第一音频帧中所述候选位置处的采样点值与所述第二音频帧中相应候选位置处的采样点值满足距离接近条件；

获取第一音频帧和第二音频帧中在相应的候选位置处的局部相似度；

根据所述局部相似度确定帧分割位置。

4.根据权利要求1所述的方法，其特征在于，所述确定帧分割位置，包括：

获取所述第一音频帧和所述第二音频帧中在覆盖所述候选位置的预设长度的离散位置范围内的各采样点值对的距离和；

将最小距离和所对应的候选位置确定为帧分割位置。

5.根据权利要求4所述的方法，其特征在于，所述距离接近条件为：

第一差值与第二差值的乘积小于等于0；

其中，所述第一差值为所述第一音频帧中所述候选位置处的采样点值与所述第二音频帧中相应候选位置处的采样点值的差值；

所述第二差值为所述第一音频帧中所述候选位置的下一位置的采样点值与所述第二音频帧中相应位置处的采样点值的差值。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于在开启音效时从指定声道的音频数据流中获取的相邻的所述第一音频帧和所述第二音频帧，执行所述获取所述第二音频帧中帧分割位置以前的采样点值以及所述第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将所述第三音频帧插入所述第一音频帧和第二音频帧之间的步骤，并对插入的第三音频帧进行淡入处理，使插入的第三音频帧按时序从无音效状态逐渐过渡到完整音效状态；或者，

对于在开启音效时从指定声道的音频数据流中获取的相邻的所述第一音频帧和所述第二音频帧，执行所述获取所述第一音频帧中帧分割位置以前的采样点值以及所述第二音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧，并将所述第一音频帧和第二音频帧一并替换为所述第四音频帧的步骤，并对替换为的所述第四音频帧进行淡入处理，使替换为的所述第四音频帧按时序从无音效状态逐渐过渡到完整音效状态。

7.一种音频数据处理装置，其特征在于，所述装置包括：音频帧获取模块和帧分割位置确定模块，还包括音频帧插入模块和音频帧替换模块中的至少一种；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

副本保留模块，用于在对音频数据流进行实时的播放处理时，保留至少一个音频帧长度的采样点值的副本；

所述音频帧获取模块还用于在检测到用于插入音频帧的指令时，根据当前正在进行播放处理的采样点值之前保留的副本获得第一音频帧，并根据当前正在进行播放处理的采样点值之后的一个音频帧长度的采样点值获得第二音频帧。

9.根据权利要求7所述的装置，其特征在于，所述帧分割位置确定模块包括：

候选位置获取模块，用于获取候选位置，所述第一音频帧中所述候选位置处的采样点值与所述第二音频帧中相应候选位置处的采样点值满足距离接近条件；

相似度量模块，用于获取第一音频帧和第二音频帧中在相应的候选位置处的局部相似度；

确定模块，用于根据所述局部相似度确定帧分割位置。

10.根据权利要求7所述的装置，其特征在于，所述帧分割位置确定模块包括：

相似度量模块，用于获取所述第一音频帧和所述第二音频帧中在覆盖所述候选位置的预设长度的离散位置范围内的各采样点值对的距离和；

确定模块，用于将最小距离和所对应的候选位置确定为帧分割位置。

11.根据权利要求10所述的装置，其特征在于，所述距离接近条件为：

第一差值与第二差值的乘积小于等于0；

12.根据权利要求7所述的装置，其特征在于，所述音频帧插入模块还用于对于在开启音效时从指定声道的音频数据流中获取的相邻的所述第一音频帧和所述第二音频帧，获取所述第二音频帧中帧分割位置以前的采样点值以及所述第一音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第三音频帧，并将所述第三音频帧插入所述第一音频帧和第二音频帧之间，并对插入的第三音频帧进行淡入处理，使插入的第三音频帧按时序从无音效状态逐渐过渡到完整音效状态；或者，

所述音频帧替换模块还用于对于在开启音效时从指定声道的音频数据流中获取的相邻的所述第一音频帧和所述第二音频帧，获取所述第一音频帧中帧分割位置以前的采样点值以及所述第二音频帧中帧分割位置以后的采样点值，按顺序拼接以生成第四音频帧，并将所述第一音频帧和第二音频帧一并替换为所述第四音频帧，并对替换为的所述第四音频帧进行淡出处理，使替换为的所述第四音频帧按时序从完整音效状态逐渐过渡到无音效状态。

13.一种终端，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

14.一种存储介质，存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。