CN102855883B - 一种基于音频特征的数字音频延展方法 - Google Patents

一种基于音频特征的数字音频延展方法 Download PDF

Info

Publication number
CN102855883B
CN102855883B CN201110177195.3A CN201110177195A CN102855883B CN 102855883 B CN102855883 B CN 102855883B CN 201110177195 A CN201110177195 A CN 201110177195A CN 102855883 B CN102855883 B CN 102855883B
Authority
CN
China
Prior art keywords
audio
sequence
audio fragment
paragraph
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110177195.3A
Other languages
English (en)
Other versions
CN102855883A (zh
Inventor
王朝坤
王建民
汪浩
刘璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201110177195.3A priority Critical patent/CN102855883B/zh
Publication of CN102855883A publication Critical patent/CN102855883A/zh
Application granted granted Critical
Publication of CN102855883B publication Critical patent/CN102855883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

本发明提供了一种基于音频特征的数字音频延展方法,在数字音频时域延展前,根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段,保证插入操作后音频片段之间自然衔接。在插入操作后,通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展,重复进行至达到延展要求,最大限度地降低音频延展对于音频质量的影响,保证整首乐曲在延展后的播放效果,由于乐曲在被延展后听觉效果与原乐曲接近,没有破坏乐曲的欣赏性。

Description

一种基于音频特征的数字音频延展方法
技术领域
本发明涉及音频处理技术领域,特别是涉及一种基于音频特征的数字音频延展方法。
背景技术
随着互联网和多媒体技术的迅速发展,音乐已经成为人们生活中不可或缺的组成部分。在现实生活中,我们经常会遇到为某个场景添加背景音乐的情况,一般而言背景音乐的时长和用户需求的时长并不相符。在改变音乐时长时,为了保证音乐的播放质量,我们需要调整乐曲的结构。现有的调整乐曲结构的方法分均匀和非均匀两种。其中均匀的调整乐曲结构的方法在音频时域改变较大的情况下的效果并不理想。而非均匀的调整乐曲结构的方法往往仅考虑了用户需求的时长小于数字音频时长的情况。
因此,需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新的提出有一种有效措施以克服现有技术存在的缺陷,满足实际中用户的需求。
发明内容
本发明所要解决的技术问题是提供一种基于音频特征的数字音频延展方法,用以保证乐曲在被延展后听觉效果与原乐曲接近,不破坏乐曲的欣赏性。
为了解决上述问题,本发明公开了一种基于音频特征的数字音频延展方法,所述方法包括:
将原始数字音频文件按照预设标准进行分段,得到以段落为单位记录乐曲信息的数据;
根据段落间的相似性对段落分类;
选取合适的连续段落插入原乐曲,使其达到用户需求时长的80%到120%;
对于插入后的乐曲,选取抗性符合预设需求的段落,对该段落进行长度的时域修改,并重复该步骤,直到达到用户需求时长。
优选的,所述音频文件是以采样点来记录乐曲信息。
优选的,所述方法还包括:
预设指定个数采样点为一帧,获取以帧为单位记录乐曲信息的数据。
优选的,所述方法还包括:
采用音频处理工具提取音频文件中各个帧的特征值。
优选的,所述段落间相似性的度量以两个段落内所有帧的特征值组成的向量的距离为依据。
优选的,定义抗性为对乐曲进行时域修改(延展或者压缩)后乐曲效果的变化,抗性好则表示对乐曲进行时域修改后乐曲效果变化小。
与现有技术相比,本发明具有以下优点:
本发明涉及一种基于音频特征的数字音频延展方法,在数字音频时域延展前,根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段,保证插入操作后音频片段之间自然衔接。在插入操作后,通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展,重复进行至达到延展要求,最大限度地降低音频延展对于音频质量的影响,保证整首乐曲在延展后的播放效果,由于乐曲在被延展后听觉效果与原乐曲接近,没有破坏乐曲的欣赏性。
附图说明
图1是本发明具体实施方式所述的一种基于音频特征的数字音频延展方法的示意图;
图2是本发明具体实施方式所述的方法的延展过程中,各个步骤的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明一种基于音频特征的数字音频延展方法的示意图,
(1)将原始数字音频按照指定个数的采样点进行划分,得到一个音频帧序列,记为f1、f2、f3、……、fm-1、fm,如图2(a)所示。
在本发明的实施例中,上述原始数字音频的音频格式可以为WAV格式,其采样率为fHz,原始时长为T秒。通常指定采样点个数为N=512×n(n一般取1,2,4,8),音频结尾采样点个数不足N个则用0补足。则每个帧的时长单位为秒,上述音频帧序列的帧的个数
(2)对于上述音频帧序列f1、f2、f3、……、fm-1、fm,分别提取它们的音频特征值,得到一个音频帧特征值序列ft1、ft2、ft3、……、ftm-1、ftm,如图2(a)所示。
在本发明的实施例中,上述的音频特征值可以为基频、过零率、梅尔倒谱系数的均值、谱质心或者它们中几个特征值的加权平均。
(3)采用指定长度的方法,将上述音频帧序列进行切分,得到一个音频片段序列s1、s2、s3、……、sn-1、sn,同时,根据上述音频帧特征值序列,得到一个音频片段特征向量序列v1、v2、v3、……、vn-1、vn,如图2(b)所示。
在本发明的实例中,上述指定的长度为24,所以上述的音频片段特征向量为24维的向量。
(4)根据用户输入的目标时长Tu和上述原始数字音频时长Tv,计算得出时域音频延展率
在本发明实例中,上述时域音频延展率的取值范围为1<p<+∞,Tv的初始值为每个帧的时长乘以上述音频帧序列的长度m。
(5)将上述时域音频延展率p与系统设定的最大延展阀域pmax作比较,若p小于或者等于最大延展阀域pmax,则跳转至步骤10,否则,跳转至步骤6。
在本发明的实例中,上述系统设定的最大延展阀域的取值范围为1<pmax<2,设定pmax=1.2。
(6)对上述n个音频片段中的任意两个音频片段si、sj,通过计算它们所对应的上述音频片段特征向量序列中vi、vj的距离Di,j,得到它们的相似度重复该步骤,遍历n个音频片段中的任意两个音频片段,得到音频片段两两之间的相似度,构成n×n维的音频片段相似度矩阵Mn×n,如图2(c)所示。
在本发明的实例中,采用欧拉距离计算上述特征向量序列中vi、vj的距离。Di,j=Dj,i,di,j=dj,i,上述相似度矩阵Mn×n为上三角矩阵。
(7)根据上述音频片段相似度矩阵Mn×n,将上述n个音频片段分成w类,记为C1、C2、C3、…、Cx、…、Cw,满足类Cx中的任意一个音频片段si,在类Cx中至少存在一个音频片段sj,它们的相似度di,j大于或者等于系统指定阀域I,且在类Cx以外不存在音频片段sk,它与Cx内的任意一个音频片段相似度di,k大于或者等于系统指定阀域I。
在本发明的实施例中,上述系统指定阀域I的取值范围为0<I<+∞,设定相似度阀域为I=2。在图2(c)所显示的矩阵中,s1、sx的相似度d1,x>2且sn、sx的相似度dn,x>2,而s1、sk的相似度d1,k<2,sn、sk的相似度dn,k<2,sx、sk的相似度dx,k<2。如图2(d)所示,s1、sx、sn属于类C1,sk不属于类C1
(8)用上述类序列C1、C2、C3、…、Cx、…、Cw中的类名的下标为类中的每一个音频片段用上标的形式进行标识,得到带标识的音频片段序列遍历带标识的音频片段序列,得到所有插入点以及对应的可插入子序列,插入点之间的空隙和对应的可插入子序列应满足:在带标识的音频片段序列中存在两个相邻的带标识的音频片段,这两个带标识的音频片段的标识符分别与带标识的音频片段的标识符相对应;同时,在带标识的音频片段序列中存在两个相邻的带标识的音频片段,这两个带标识的音频片段的标识符分别与带标识的音频片段的标识符相对应;其中,a、b、c为正整数,用于下标,满足1<b≤c<n,1<a<n;p、q、r、t为正整数,用于上标,满足1≤p,q,r,t≤w。
在图2(e)中,如这样一个带标识的音频片段序列,可以得到如图2(f)中所示的插入点之间的空隙、可插入子序列插入点之间的空隙、可插入子序列插入点之间的空隙、可插入子序列等。
(9)从上述所有可插入子序列中找出插入后数字音频时长Th与上述用户输入的目标时长Tu差值最小的可插入子序列,在对应的插入点插入,得到新的带标识的音频片段序列新的带标识的音频片段序列的片段数n’=插入前带标识的音频片段序列的片段数+c-b+1,重新计算上述音频延展率并与上述系统设定的最大延展阀域pmax作比较,若p小于或者等于最大延展阀域pmax,则跳转至步骤10,否则,跳转至步骤8。
在本发明的实施例中,插入后数字音频时长Th计算方法为带标识的音频片段的时长t乘以带标识的音频片段序列的片段数。
(10)根据上述音频片段特征向量序列得到上述音频片段数为n′的带标识的音频片段的延展抗性序列L1、L2、L3、…、La、Lb、…、Lc、La+1、…、Ln-1、Ln,从延展抗性序列中得到一个抗性最优的音频片段,使用数字音频时域延展方法对其进行延展,延展时长为ΔT,得到新的音频片段,提取新的音频片段的特征向量,计算得到相应的延展抗性并修改其在延展抗性序列中的值。
在本发明的实施例中,上述延展时长ΔT的取值范围为0<ΔT<上述音频帧的时长,由系统设定,如果上述选择的是延展抗性序列中Lb对应的带标识的音频片段经过延展后,我们可以通过重新提取新的带标识的音频片段的特征向量并计算得到其新的延展抗性进而得到上述带标识的音频片段的新的延展抗性序列L1、L2、L3、…、La…、Lc、La+1、…、Ln-1、Ln
(11)比较上述用户输入的目标时长Tu和经过上述延展时长ΔT延展后的当前数字音频时长Tc,若Tc和Tu的差的绝对值大于或者等于系统设定阀域I,跳转至步骤10,否则,输出时域延展后的音频文件。
在本发明的实施例中,上述系统设定阀域I的取值范围为0<I<上述音频帧的时长。
以上对本发明所提供的一种基于音频特征的数字音频延展方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (2)

1.一种基于音频特征的数字音频延展方法,其特征在于,所述方法包括:
将原始数字音频文件按照预设标准进行分段,得到以段落为单位记录乐曲信息的数据,其中,所述音频文件是以采样点来记录乐曲信息,且预设指定个数采样点为一帧,获取以帧为单位记录乐曲信息的数据;
根据段落间的相似性对段落分类,其中,所述段落间相似性的度量以两个段落内所有帧的特征值组成的向量的距离为依据;
选取合适的连续段落插入原乐曲,使其达到用户需求时长的80%到120%;
对于插入后的乐曲,选取抗性符合预设需求的段落,对该段落进行长度的时域修改,并重复所述选取抗性符合预设需求的段落,对该段落进行长度的时域修改的步骤,直到达到用户需求时长,其中,定义抗性为对乐曲进行时域延展或者压缩后乐曲效果的变化,抗性好则表示对乐曲进行时域修改后乐曲效果变化小;
其中,所述将原始数字音频文件按照预设标准进行分段,得到以段落为单位记录乐曲信息的数据的步骤包括:
(1)将原始数字音频按照指定个数的采样点进行划分,得到一个音频帧序列,记为f1、f2、f3、……、fm-1、fm
(2)对于所述音频帧序列f1、f2、f3、……、fm-1、fm,分别提取它们的音频特征值,得到一个音频帧特征值序列ft1、ft2、ft3、……、ftm-1、ftm
(3)采用指定长度的方法,将所述音频帧序列进行切分,得到一个音频片段序列s1、s2、s3、……、sn-1、sn,同时,根据所述音频帧特征值序列,得到一个音频片段特征向量序列v1、v2、v3、……、vn-1、vn
所述根据段落间的相似性对段落分类的步骤包括:
(4)根据用户输入的目标时长Tu和获取的原始数字音频时长Tv,计算得出时域音频延展率
(5)将所述时域音频延展率p与系统设定的最大延展阀域pmax作比较,若p大于最大延展阀域pmax,则对所述n个音频片段中的任意两个音频片段si、sj,通过计算它们所对应的上述音频片段特征向量序列中vi、vj的距离Di,j,得到它们的相似度重复所述对所述n个音频片段中的任意两个音频片段si、sj,通过计算它们所对应的上述音频片段特征向量序列中vi、vj的距离Di,j,得到它们的相似度的步骤,遍历n个音频片段中的任意两个音频片段,得到音频片段两两之间的相似度,构成n×n维的音频片段相似度矩阵Mn×n
(6)根据上述音频片段相似度矩阵Mn×n,将上述n个音频片段分成w类,记为C1、C2、C3、…、Cx、…、Cw;满足类Cx中的任意一个音频片段si,在类Cx中至少存在一个音频片段sj,它们的相似度di,j大于或者等于系统指定阀域I,且在类Cx以外不存在音频片段sk,它与Cx内的任意一个音频片段相似度di,k大于或者等于系统指定阀域I;
所述选取合适的连续段落插入原乐曲的步骤包括:
(7)用上述类序列C1、C2、C3、…、Cx、…、Cw中的类名的下标为类中的每一个音频片段用上标的形式进行标识,得到带标识的音频片段序列遍历带标识的音频片段序列,得到所有插入点以及对应的可插入子序列,插入点之间的空隙和对应的可插入子序列应满足:在带标识的音频片段序列中存在两个相邻的带标识的音频片段,这两个带标识的音频片段的标识符分别与带标识的音频片段的标识符相对应;同时,在带标识的音频片段序列中存在两个相邻的带标识的音频片段,这两个带标识的音频片段的标识符分别与带标识的音频片段的标识符相对应;其中,a、b、c为正整数,用于下标,满足1<b≤c<n,1<a<n;p、q、r、t为正整数,用于上标,满足1≤p,q,r,t≤w;
(8)从所述所有可插入子序列中找出插入后数字音频时长Th与所述用户输入的目标时长Tu差值最小的可插入子序列作为合适的连续段落,在对应的插入点插入,得到新的带标识的音频片段序列新的带标识的音频片段序列的片段数n’=插入前带标识的音频片段序列的片段数+c-b+1,重新计算上述音频延展率并与所述系统设定的最大延展阀域pmax作比较,若p大于最大延展阀域pmax,则跳转至步骤(7);
所述对于插入后的乐曲,选取抗性符合预设需求的段落,对该段落进行长度的时域修改,并重复所述选取抗性符合预设需求的段落,对该段落进行长度的时域修改的步骤,直到达到用户需求时长的步骤包括:
(9)若p小于或等于最大延展阀域pmax,则根据上述音频片段特征向量序列得到上述音频片段数为n′的带标识的音频片段的延展抗性序列L1、L2、L3、…、La、Lb、…、Lc、La+1、…、Ln-1、Ln,从延展抗性序列中得到一个抗性最优的音频片段,使用数字音频时域延展方法对其进行延展,延展时长为ΔT,得到新的音频片段,提取新的音频片段的特征向量,计算得到相应的延展抗性并修改其在延展抗性序列中的值;
(10)比较上述用户输入的目标时长Tu和经过上述延展时长ΔT延展后的当前数字音频时长Tc,若Tc和Tu的差的绝对值大于或者等于系统设定阀域I,跳转至步骤(9),否则,输出时域延展后的音频文件。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
采用音频处理工具提取音频文件中各个帧的特征值。
CN201110177195.3A 2011-06-28 2011-06-28 一种基于音频特征的数字音频延展方法 Active CN102855883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110177195.3A CN102855883B (zh) 2011-06-28 2011-06-28 一种基于音频特征的数字音频延展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110177195.3A CN102855883B (zh) 2011-06-28 2011-06-28 一种基于音频特征的数字音频延展方法

Publications (2)

Publication Number Publication Date
CN102855883A CN102855883A (zh) 2013-01-02
CN102855883B true CN102855883B (zh) 2014-09-24

Family

ID=47402409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110177195.3A Active CN102855883B (zh) 2011-06-28 2011-06-28 一种基于音频特征的数字音频延展方法

Country Status (1)

Country Link
CN (1) CN102855883B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499268A (zh) * 2008-02-01 2009-08-05 三星电子株式会社 自动生成音乐结构性界面信息的设备和方法及检索系统
CN102034514A (zh) * 2010-11-26 2011-04-27 清华大学 一种基于音乐特征的数字音频时域压缩方法
CN102063919A (zh) * 2010-11-26 2011-05-18 清华大学 一种基于音频片段切分的数字音频时域压缩方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1145519A (zh) * 1995-09-01 1997-03-19 苏勇 音频信号保真变速处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499268A (zh) * 2008-02-01 2009-08-05 三星电子株式会社 自动生成音乐结构性界面信息的设备和方法及检索系统
CN102034514A (zh) * 2010-11-26 2011-04-27 清华大学 一种基于音乐特征的数字音频时域压缩方法
CN102063919A (zh) * 2010-11-26 2011-05-18 清华大学 一种基于音频片段切分的数字音频时域压缩方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zuopanway.急求音乐剪辑!只求把音乐副歌复制使音乐延长!.《http://zhidao.baidu.com/question/87762647.html》.2009, *

Also Published As

Publication number Publication date
CN102855883A (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
CN108780653B (zh) 音频内容制作、音频排序和音频混合的系统和方法
CN104347080B (zh) 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质
CN104883642B (zh) 一种音效调节方法
CN110213670A (zh) 视频处理方法、装置、电子设备及存储介质
US9454342B2 (en) Generating a playlist based on a data generation attribute
CN103544140A (zh) 一种数据处理方法、展示方法和相应的装置
CN108172211B (zh) 可调节的波形拼接系统及方法
US11593550B2 (en) Computing device and corresponding method for generating data representing text
CN106847259A (zh) 一种音频关键词模板的筛选和优化方法
CN111883100B (zh) 语音转换方法、装置及服务器
CN115938338A (zh) 语音合成方法、装置、电子设备及可读存储介质
CN105719640A (zh) 声音合成装置及声音合成方法
CN102855883B (zh) 一种基于音频特征的数字音频延展方法
CN107910005A (zh) 交互文本的目标业务定位方法及装置
CN102063919B (zh) 一种基于音频片段切分的数字音频时域压缩方法
US10031899B2 (en) Computing device and corresponding method for generating data representing text
US20120197841A1 (en) Synchronizing data to media
CN102034514B (zh) 一种基于音乐特征的数字音频时域压缩方法
US10339219B2 (en) Computing device and corresponding method for generating data representing text
CN118364132A (zh) 资源分发的方法、装置、电子设备及存储介质
CN114283782A (zh) 语音合成方法及装置、电子设备和存储介质
Honarmand et al. The Study of Tintinnabuli, and Additive/Subtractive Process in the Music of Arvo Pärt, and a Comparison to Repetitive Elements of Iranian Traditional Music
KR20090089560A (ko) 장르 분류 택소노미 생성 시스템 및 그 방법, 상기 방법을구현하는 프로그램이 기록된 기록매체
Hager Jazz Cosmopolitanism in Accra: Five Musical Years in Ghana

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant