CN102855883B

CN102855883B - 一种基于音频特征的数字音频延展方法

Info

Publication number: CN102855883B
Application number: CN201110177195.3A
Authority: CN
Inventors: 王朝坤; 王建民; 汪浩; 刘璋
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-06-28
Filing date: 2011-06-28
Publication date: 2014-09-24
Anticipated expiration: 2031-06-28
Also published as: CN102855883A

Abstract

本发明提供了一种基于音频特征的数字音频延展方法，在数字音频时域延展前，根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段，保证插入操作后音频片段之间自然衔接。在插入操作后，通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展，重复进行至达到延展要求，最大限度地降低音频延展对于音频质量的影响，保证整首乐曲在延展后的播放效果，由于乐曲在被延展后听觉效果与原乐曲接近，没有破坏乐曲的欣赏性。

Description

一种基于音频特征的数字音频延展方法

技术领域

本发明涉及音频处理技术领域，特别是涉及一种基于音频特征的数字音频延展方法。

背景技术

随着互联网和多媒体技术的迅速发展，音乐已经成为人们生活中不可或缺的组成部分。在现实生活中，我们经常会遇到为某个场景添加背景音乐的情况，一般而言背景音乐的时长和用户需求的时长并不相符。在改变音乐时长时，为了保证音乐的播放质量，我们需要调整乐曲的结构。现有的调整乐曲结构的方法分均匀和非均匀两种。其中均匀的调整乐曲结构的方法在音频时域改变较大的情况下的效果并不理想。而非均匀的调整乐曲结构的方法往往仅考虑了用户需求的时长小于数字音频时长的情况。

因此，需要本领域技术人员迫切解决的一个技术问题就是：如何能够创新的提出有一种有效措施以克服现有技术存在的缺陷，满足实际中用户的需求。

发明内容

本发明所要解决的技术问题是提供一种基于音频特征的数字音频延展方法，用以保证乐曲在被延展后听觉效果与原乐曲接近，不破坏乐曲的欣赏性。

为了解决上述问题，本发明公开了一种基于音频特征的数字音频延展方法，所述方法包括：

将原始数字音频文件按照预设标准进行分段，得到以段落为单位记录乐曲信息的数据；

根据段落间的相似性对段落分类；

选取合适的连续段落插入原乐曲，使其达到用户需求时长的80％到120％；

对于插入后的乐曲，选取抗性符合预设需求的段落，对该段落进行长度的时域修改，并重复该步骤，直到达到用户需求时长。

优选的，所述音频文件是以采样点来记录乐曲信息。

优选的，所述方法还包括：

预设指定个数采样点为一帧，获取以帧为单位记录乐曲信息的数据。

优选的，所述方法还包括：

采用音频处理工具提取音频文件中各个帧的特征值。

优选的，所述段落间相似性的度量以两个段落内所有帧的特征值组成的向量的距离为依据。

优选的，定义抗性为对乐曲进行时域修改(延展或者压缩)后乐曲效果的变化，抗性好则表示对乐曲进行时域修改后乐曲效果变化小。

与现有技术相比，本发明具有以下优点：

本发明涉及一种基于音频特征的数字音频延展方法，在数字音频时域延展前，根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段，保证插入操作后音频片段之间自然衔接。在插入操作后，通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展，重复进行至达到延展要求，最大限度地降低音频延展对于音频质量的影响，保证整首乐曲在延展后的播放效果，由于乐曲在被延展后听觉效果与原乐曲接近，没有破坏乐曲的欣赏性。

附图说明

图1是本发明具体实施方式所述的一种基于音频特征的数字音频延展方法的示意图；

图2是本发明具体实施方式所述的方法的延展过程中，各个步骤的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明一种基于音频特征的数字音频延展方法的示意图，

(1)将原始数字音频按照指定个数的采样点进行划分，得到一个音频帧序列，记为f₁、f₂、f₃、……、f_m-1、f_m，如图2(a)所示。

在本发明的实施例中，上述原始数字音频的音频格式可以为WAV格式，其采样率为fHz，原始时长为T秒。通常指定采样点个数为N＝512×n(n一般取1，2，4，8)，音频结尾采样点个数不足N个则用0补足。则每个帧的时长单位为秒，上述音频帧序列的帧的个数

(2)对于上述音频帧序列f₁、f₂、f₃、……、f_m-1、f_m，分别提取它们的音频特征值，得到一个音频帧特征值序列ft₁、ft₂、ft₃、……、ft_m-1、ft_m，如图2(a)所示。

在本发明的实施例中，上述的音频特征值可以为基频、过零率、梅尔倒谱系数的均值、谱质心或者它们中几个特征值的加权平均。

(3)采用指定长度的方法，将上述音频帧序列进行切分，得到一个音频片段序列s₁、s₂、s₃、……、s_n-1、s_n，同时，根据上述音频帧特征值序列，得到一个音频片段特征向量序列v₁、v₂、v₃、……、v_n-1、v_n，如图2(b)所示。

在本发明的实例中，上述指定的长度为24，所以上述的音频片段特征向量为24维的向量。

(4)根据用户输入的目标时长T_u和上述原始数字音频时长T_v，计算得出时域音频延展率

在本发明实例中，上述时域音频延展率的取值范围为1<p<+∞，T_v的初始值为每个帧的时长乘以上述音频帧序列的长度m。

(5)将上述时域音频延展率p与系统设定的最大延展阀域p_max作比较，若p小于或者等于最大延展阀域p_max，则跳转至步骤10，否则，跳转至步骤6。

在本发明的实例中，上述系统设定的最大延展阀域的取值范围为1<p_max<2，设定p_max＝1.2。

(6)对上述n个音频片段中的任意两个音频片段s_i、s_j，通过计算它们所对应的上述音频片段特征向量序列中v_i、v_j的距离D_i,j,得到它们的相似度重复该步骤，遍历n个音频片段中的任意两个音频片段，得到音频片段两两之间的相似度，构成n×n维的音频片段相似度矩阵M_n×n，如图2(c)所示。

在本发明的实例中，采用欧拉距离计算上述特征向量序列中v_i、v_j的距离。D_i,j＝D_j,i，d_i,j＝d_j,i，上述相似度矩阵M_n×n为上三角矩阵。

(7)根据上述音频片段相似度矩阵M_n×n，将上述n个音频片段分成w类，记为C₁、C₂、C₃、…、C_x、…、C_w,满足类C_x中的任意一个音频片段s_i，在类C_x中至少存在一个音频片段s_j，它们的相似度d_i,j大于或者等于系统指定阀域I，且在类C_x以外不存在音频片段s_k，它与C_x内的任意一个音频片段相似度d_i,k大于或者等于系统指定阀域I。

在本发明的实施例中，上述系统指定阀域I的取值范围为0<I<+∞,设定相似度阀域为I＝2。在图2(c)所显示的矩阵中，s₁、s_x的相似度d_1,x>2且s_n、s_x的相似度d_n,x>2，而s₁、s_k的相似度d_1,k<2，s_n、s_k的相似度d_n,k<2，s_x、s_k的相似度d_x,k<2。如图2(d)所示，s₁、s_x、s_n属于类C₁，s_k不属于类C₁。

(8)用上述类序列C₁、C₂、C₃、…、C_x、…、C_w中的类名的下标为类中的每一个音频片段用上标的形式进行标识，得到带标识的音频片段序列遍历带标识的音频片段序列，得到所有插入点以及对应的可插入子序列，插入点与之间的空隙和对应的可插入子序列应满足：在带标识的音频片段序列中存在两个相邻的带标识的音频片段，这两个带标识的音频片段的标识符分别与带标识的音频片段和的标识符相对应；同时，在带标识的音频片段序列中存在两个相邻的带标识的音频片段，这两个带标识的音频片段的标识符分别与带标识的音频片段和的标识符相对应；其中，a、b、c为正整数，用于下标，满足1<b≤c<n，1<a<n；p、q、r、t为正整数，用于上标，满足1≤p,q,r,t≤w。

在图2(e)中，如这样一个带标识的音频片段序列，可以得到如图2(f)中所示的插入点与之间的空隙、可插入子序列插入点与之间的空隙、可插入子序列插入点与之间的空隙、可插入子序列等。

(9)从上述所有可插入子序列中找出插入后数字音频时长T_h与上述用户输入的目标时长T_u差值最小的可插入子序列，在对应的插入点插入，得到新的带标识的音频片段序列新的带标识的音频片段序列的片段数n’＝插入前带标识的音频片段序列的片段数+c-b+1，重新计算上述音频延展率并与上述系统设定的最大延展阀域p_max作比较，若p小于或者等于最大延展阀域p_max，则跳转至步骤10，否则，跳转至步骤8。

在本发明的实施例中，插入后数字音频时长T_h计算方法为带标识的音频片段的时长t乘以带标识的音频片段序列的片段数。

(10)根据上述音频片段特征向量序列得到上述音频片段数为n′的带标识的音频片段的延展抗性序列L₁、L₂、L₃、…、L_a、L_b、…、L_c、L_a+1、…、L_n-1、L_n，从延展抗性序列中得到一个抗性最优的音频片段，使用数字音频时域延展方法对其进行延展，延展时长为ΔT，得到新的音频片段，提取新的音频片段的特征向量，计算得到相应的延展抗性并修改其在延展抗性序列中的值。

在本发明的实施例中，上述延展时长ΔT的取值范围为0<ΔT<上述音频帧的时长，由系统设定，如果上述选择的是延展抗性序列中L_b对应的带标识的音频片段经过延展后，我们可以通过重新提取新的带标识的音频片段的特征向量并计算得到其新的延展抗性进而得到上述带标识的音频片段的新的延展抗性序列L₁、L₂、L₃、…、L_a、…、L_c、L_a+1、…、L_n-1、L_n。

(11)比较上述用户输入的目标时长T_u和经过上述延展时长ΔT延展后的当前数字音频时长T_c，若T_c和T_u的差的绝对值大于或者等于系统设定阀域I，跳转至步骤10，否则，输出时域延展后的音频文件。

在本发明的实施例中，上述系统设定阀域I的取值范围为0<I<上述音频帧的时长。

以上对本发明所提供的一种基于音频特征的数字音频延展方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于音频特征的数字音频延展方法，其特征在于，所述方法包括：

将原始数字音频文件按照预设标准进行分段，得到以段落为单位记录乐曲信息的数据，其中，所述音频文件是以采样点来记录乐曲信息，且预设指定个数采样点为一帧，获取以帧为单位记录乐曲信息的数据；

根据段落间的相似性对段落分类，其中，所述段落间相似性的度量以两个段落内所有帧的特征值组成的向量的距离为依据；

对于插入后的乐曲，选取抗性符合预设需求的段落，对该段落进行长度的时域修改，并重复所述选取抗性符合预设需求的段落，对该段落进行长度的时域修改的步骤，直到达到用户需求时长，其中，定义抗性为对乐曲进行时域延展或者压缩后乐曲效果的变化，抗性好则表示对乐曲进行时域修改后乐曲效果变化小；

其中，所述将原始数字音频文件按照预设标准进行分段，得到以段落为单位记录乐曲信息的数据的步骤包括：

(1)将原始数字音频按照指定个数的采样点进行划分，得到一个音频帧序列，记为f₁、f₂、f₃、……、f_m-1、f_m；

(2)对于所述音频帧序列f₁、f₂、f₃、……、f_m-1、f_m，分别提取它们的音频特征值，得到一个音频帧特征值序列ft₁、ft₂、ft₃、……、ft_m-1、ft_m；

(3)采用指定长度的方法，将所述音频帧序列进行切分，得到一个音频片段序列s₁、s₂、s₃、……、s_n-1、s_n，同时，根据所述音频帧特征值序列，得到一个音频片段特征向量序列v₁、v₂、v₃、……、v_n-1、v_n；

所述根据段落间的相似性对段落分类的步骤包括：

(4)根据用户输入的目标时长T_u和获取的原始数字音频时长T_v，计算得出时域音频延展率

(5)将所述时域音频延展率p与系统设定的最大延展阀域p_max作比较，若p大于最大延展阀域p_max，则对所述n个音频片段中的任意两个音频片段s_i、s_j，通过计算它们所对应的上述音频片段特征向量序列中v_i、v_j的距离D_i,j,得到它们的相似度重复所述对所述n个音频片段中的任意两个音频片段s_i、s_j，通过计算它们所对应的上述音频片段特征向量序列中v_i、v_j的距离D_i,j,得到它们的相似度的步骤，遍历n个音频片段中的任意两个音频片段，得到音频片段两两之间的相似度，构成n×n维的音频片段相似度矩阵M_n×n；

(6)根据上述音频片段相似度矩阵M_n×n，将上述n个音频片段分成w类，记为C₁、C₂、C₃、…、C_x、…、C_w；满足类C_x中的任意一个音频片段s_i，在类C_x中至少存在一个音频片段s_j，它们的相似度d_i,j大于或者等于系统指定阀域I，且在类C_x以外不存在音频片段s_k，它与C_x内的任意一个音频片段相似度d_i,k大于或者等于系统指定阀域I；

所述选取合适的连续段落插入原乐曲的步骤包括：

(7)用上述类序列C₁、C₂、C₃、…、C_x、…、C_w中的类名的下标为类中的每一个音频片段用上标的形式进行标识，得到带标识的音频片段序列遍历带标识的音频片段序列，得到所有插入点以及对应的可插入子序列，插入点与之间的空隙和对应的可插入子序列应满足：在带标识的音频片段序列中存在两个相邻的带标识的音频片段，这两个带标识的音频片段的标识符分别与带标识的音频片段和的标识符相对应；同时，在带标识的音频片段序列中存在两个相邻的带标识的音频片段，这两个带标识的音频片段的标识符分别与带标识的音频片段和的标识符相对应；其中，a、b、c为正整数，用于下标，满足1<b≤c<n，1<a<n；p、q、r、t为正整数，用于上标，满足1≤p,q,r,t≤w；

(8)从所述所有可插入子序列中找出插入后数字音频时长T_h与所述用户输入的目标时长T_u差值最小的可插入子序列作为合适的连续段落，在对应的插入点插入，得到新的带标识的音频片段序列新的带标识的音频片段序列的片段数n’＝插入前带标识的音频片段序列的片段数+c-b+1，重新计算上述音频延展率并与所述系统设定的最大延展阀域p_max作比较，若p大于最大延展阀域p_max，则跳转至步骤(7)；

所述对于插入后的乐曲，选取抗性符合预设需求的段落，对该段落进行长度的时域修改，并重复所述选取抗性符合预设需求的段落，对该段落进行长度的时域修改的步骤，直到达到用户需求时长的步骤包括：

(9)若p小于或等于最大延展阀域p_max，则根据上述音频片段特征向量序列得到上述音频片段数为n′的带标识的音频片段的延展抗性序列L₁、L₂、L₃、…、L_a、L_b、…、L_c、L_a+1、…、L_n-1、L_n，从延展抗性序列中得到一个抗性最优的音频片段，使用数字音频时域延展方法对其进行延展，延展时长为ΔT，得到新的音频片段，提取新的音频片段的特征向量，计算得到相应的延展抗性并修改其在延展抗性序列中的值；

(10)比较上述用户输入的目标时长T_u和经过上述延展时长ΔT延展后的当前数字音频时长T_c，若T_c和T_u的差的绝对值大于或者等于系统设定阀域I，跳转至步骤(9)，否则，输出时域延展后的音频文件。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

采用音频处理工具提取音频文件中各个帧的特征值。