CN102063919B - 一种基于音频片段切分的数字音频时域压缩方法 - Google Patents
一种基于音频片段切分的数字音频时域压缩方法 Download PDFInfo
- Publication number
- CN102063919B CN102063919B CN2010105702229A CN201010570222A CN102063919B CN 102063919 B CN102063919 B CN 102063919B CN 2010105702229 A CN2010105702229 A CN 2010105702229A CN 201010570222 A CN201010570222 A CN 201010570222A CN 102063919 B CN102063919 B CN 102063919B
- Authority
- CN
- China
- Prior art keywords
- audio fragment
- audio
- time domain
- fragment
- melody
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种基于音频片段切分的数字音频时域压缩方法,属于音频处理技术领域。本方法通过提取乐曲的数字音频中的音频特征,分析并获得乐曲的结构信息,根据乐曲的结构信息选择并删除若干个可删除音频片段序列,最后使用数字音频时域压缩方法对删除后的数字音频进行时域压缩,从而改变乐曲的播放时间长度。本发明方法在数字音频时域压缩前,根据乐曲的结构信息找到满足特定条件的音频片段子序列,删除音频片段子序列后,可以保证乐曲中剩下的音频片段自然、平滑地连接,减少了数字音频时域压缩对数字音频播放质量的影响,改善了时域压缩后的数字音频的播放效果。
Description
技术领域
本发明涉及一种基于音频片段切分的数字音频时域压缩方法,属于音频处理技术领域。
背景技术
随着互联网和多媒体技术的发展,音乐已经成为人们日常生活中不可或缺的娱乐形式。当选用一首乐曲作为背景音乐的时候,通常会发生所选乐曲的播放时间长度与所需要的播放时间长度不相符的情况。此时,需要压缩和调整乐曲的内容,同时保证乐曲的播放效果。现有的数字音频时域压缩方法可以分为均匀数字音频时域压缩方法和非均匀数字音频时域压缩方法,如名称为“一种基于歌词的数字音频时域压缩方法”、申请号为CN200910235724.3、公开号为CN101702321A的发明专利,上述两类数字音频时域压缩方法在处理用户所要求的播放时间长度与乐曲的原始时间长度相差较大的情况时,会导致乐曲的播放速率过快、声音抖动等问题,无法达到理想的时域压缩效果。
发明内容
本发明的目的是提出一种基于音频片段切分的数字音频时域压缩方法,通过提取乐曲的数字音频中的音频特征,分析并获得乐曲的结构信息,根据乐曲的结构信息选择并删除若干个可删除音频片段序列,最后使用数字音频时域压缩方法对删除后的数字音频进行时域压缩,从而改变乐曲的播放时间长度。
本发明提出的基于音频片段切分的数字音频时域压缩方法,包括以下步骤:
(1)将原始乐曲数字音频分为n个音频片段,得到一个音频片段序列,记为:s1、s2、s3、......、sn-1、sn,设音频片段si的原始时间长度为ti;
(3)对上述时域压缩率p进行判断,若p小于或者等于用户设定的最小压缩率pmin,则转至步骤(4),若时域压缩率p大于用户设定的最小压缩率pmin,则转至步骤(8);
(4)对上述n个音频片段中的任意两个音频片段si、sj,使用音频片段相似度量方法计算音频片段si与音频片段sj之间的相似度值di,j,对相似度值di,j进行判断,若相似度值di,j大于或者等于设定的相似度阈值I,则判断音频片段si与音频片段sj为相似音频片段,若相似度值di,j小于设定的相似度阈值I,则判断音频片段si与音频片段sj为不相似音频片段,重复该步骤,遍历n个音频片段中的任意两个音频片段,得到所有任意两个音频片段之间的相似关系,相似度阈值I为从正无穷到负无穷的实数;
(5)根据上述音频片段之间的相似关系,将n个音频片段分为w个音频片段组,记为:G1、G2、...、Gx、...、Gw,满足音频片段组Gx中的任意一个音频片段si,在Gx中至少存在一个与音频片段si相似的音频片段sj,且在音频片段组Gx以外的音频片段组中不存在与音频片段si相似的音频片段;
(6)为每个音频片段组Gi设置一个唯一的音频片段组标识符Ai,用一个音频片段组标识符Ai对音频片段组Gi中的所有音频片段进行标记;用音频片段组标识符Ai表达上述音频片段序列s1、s2、s3、......、sn-1、sn,得到与乐曲的音频片段序列相对应的音频片段组标识符序列;形成一个可删除子序列sb、sb+1、......、se-1、se,该可删除子序列满足:在音频片段标识符序列中存在两个相邻的音频片段标识符,该两个音频片段标识符分别与音频片段sb-1和音频片段组标识符与se+1相对应,其中,b和e为正整数,1<b≤e<n;遍历音频片段组标识符序列,得到所有可删除子序列;
(7)从上述音频片段序列中删除一个可删除子序列,使删除可删除子序列后的乐曲数字音频的时间长度Tc与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝对值最小,转至步骤(2);
(8)根据步骤(2)得到时域压缩率p,使用数字音频时域压缩方法对上述数字音频文件进行时域压缩。
本发明提出的基于音频片段切分的数字音频时域压缩方法,在数字音频时域压缩前,根据乐曲的结构信息找到满足特定条件的音频片段子序列,删除音频片段子序列后,可以保证乐曲中剩下的音频片段自然、平滑地连接,减少了数字音频时域压缩对数字音频播放质量的影响,改善了时域压缩后的数字音频的播放效果。
附图说明
图1是本发明方法的原理框图。
图2为本发明方法的时域压缩过程中,各种不同音频序列的结构示意图。
具体实施方式
本发明提出的基于音频片段切分的数字音频时域压缩方法,其原理框图如图1所示,包括以下各步骤:
(1)将原始乐曲数字音频分为n个音频片段,得到一个音频片段序列,记为:s1、s2、s3、......、sn-1、sn,设音频片段si的原始时间长度为ti,如图2(a)所示。
在本发明的实施例中,上述数字音频数据的音频格式可以为WAV、MP3等音频格式。上述音频片段的时间长度的单位为秒。对于存在歌词的乐曲,每个音频片段对应于歌词文件中的一个歌词句子,n为歌词中的歌词句子数。对于不存在歌词的乐曲,采用通用的基于内容的数字音频切分方法将乐曲的数字音频切分为多个音频片段,n为正整数,由通用的基于内容的数字音频切分方法确定。
在本发明的实施例中,上述时域压缩率的取值范围为0<p<1。
(3)对上述时域压缩率p进行判断,若p小于或者等于用户设定的最小压缩率pmin,则转至步骤(4),若时域压缩率p大于用户设定的最小压缩率pmin,则转至步骤(8)。
在本发明的实施例中,最小压缩率pmin的取值范围为0<pmin<1。
(4)对上述n个音频片段中的任意两个音频片段si、sj,使用音频片段相似度量方法计算音频片段si与音频片段sj之间的相似度值di,j,对相似度值di,j进行判断,若相似度值di,j大于或者等于设定的相似度阈值I,则判断音频片段si与音频片段sj为相似音频片段,若相似度值di,j小于设定的相似度阈值I,则判断音频片段si与音频片段sj为不相似音频片段,重复该步骤,遍历n个音频片段中的任意两个音频片段,得到所有任意两个音频片段之间的相似关系,相似度阈值I为从正无穷到负无穷的实数;
在本发明的实施例中,上述音频片段si和音频片段sj之间的的相似度量方法采用基于自相关的数字音频相似度量方法。相似度值的取值范围为-∞<di,j<∞。相似度阈值I的取值范围为-∞<I<∞。
(5)根据上述音频片段之间的相似关系,将n个音频片段分为w个音频片段组,记为:G1、G2、...、Gx、...、Gw,满足音频片段组Gx中的任意一个音频片段si,在Gx中至少存在一个与音频片段si相似的音频片段sj,且在音频片段组Gx以外的音频片段组中不存在与音频片段si相似的音频片段,如图2(b)所示:音频片段组G1中包含音频片段s1、s2和s4等音频片段,其中音频片段s1与音频片段s2为相似音频片段,音频片段s1与音频片段s4为相似音频片段。音频片段组G2中包含音频片段s2、s6和s8等音频片段,其中音频片段s3与音频片段s6为相似音频片段,音频片段s6与音频片段s8为相似音频片段。音频片段组Gw中包含音频片段s5、s7和sn等音频片段,其中音频片段s5与音频片段s7为相似音频片段,音频片段s7与音频片段sn为相似音频片段。
(6)为每个音频片段组Gi设置一个唯一的音频片段组标识符Ai,用一个音频片段组标识符Ai对音频片段组Gi中的所有音频片段进行标记;用音频片段组标识符Ai表达上述音频片段序列s1、s2、s3、......、sn-1、sn,得到与乐曲的音频片段序列相对应的音频片段组标识符序列,例如:A1A1A2A1AwA2AwA2…Aw,如图2(c)中所示。形成一个可删除子序列sb、sb+1、......、se-1、se,该可删除子序列sb、sb+1、......、se-1、se满足:在音频片段标识符序列中存在两个相邻的音频片段标识符,该两个音频片段标识符分别与音频片段sb-1和音频片段组标识符与se+1相对应,其中,b和e为正整数,1<b≤e<n;遍历音频片段组标识符序列,得到所有可删除子序列,例如:可删除子序列s3、s4、s5,可删除子序列s3、s4和可删除子序列s2、s3,如图2(d)中所示。
(7)从上述音频片段序列中删除一个可删除子序列,使删除可删除子序列后的乐曲数字音频的时间长度Tc与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝对值最小,例如:删除可删除子序列s3、s4、s5后的乐曲数字音频的时间长度Tc=Tm-t3-t4-t5与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝对值最小,转至步骤(2)。
(8)根据步骤(2)得到时域压缩率p,使用数字音频时域压缩方法对上述数字音频文件进行时域压缩。
在本发明的实施例中,数字音频时域压缩方法采用基于歌词的数字音频时域压缩方法。
Claims (1)
1.一种基于音频片段切分的数字音频时域压缩方法,其特征在于该方法包括以下步骤:
(1)将原始乐曲数字音频分为n个音频片段,得到一个音频片段序列,记为:s1、s2、s3、……、sn-1、sn,设音频片段si的原始时间长度为ti;
(3)对上述时域压缩率p进行判断,若p小于或者等于用户设定的最小压缩率pmin,则转至步骤(4),若时域压缩率p大于用户设定的最小压缩率pmin,最小压缩率pmin的取值范围为0<pmin<1,则转至步骤(8);
(4)对上述n个音频片段中的任意两个音频片段si、sj,使用音频片段相似度量方法计算音频片段si与音频片段sj之间的相似度值di,j,对相似度值di,j进行判断,若相似度值di,j大于或者等于设定的相似度阈值I,则判断音频片段si与音频片段sj为相似音频片段,若相似度值di,j小于设定的相似度阈值I,则判断音频片段si与音频片段sj为不相似音频片段,重复该步骤,遍历n个音频片段中的任意两个音频片段,得到所有任意两个音频片段之间的相似关系,相似度阈值I为从正无穷到负无穷的实数,相似度值的取值范围为-∞<di,j<∞;
(5)根据上述音频片段之间的相似关系,将n个音频片段分为w个音频片段组,记为:G1、G2、…、Gx、…、Gw,满足音频片段组Gx中的任意一个音频片段si,在Gx中至少存在一个与音频片段si相似的音频片段sj,且在音频片段组Gx以外的音频片段组中不存在与音频片段si相似的音频片段;
(6)为每个音频片段组Gi设置一个唯一的音频片段组标识符Ai,用一个音频片段组标识符Ai对音频片段组Gi中的所有音频片段进行标记;用音频片段组标识符Ai表达上述音频片段序列s1、s2、s3、……、sn-1、sn,得到与乐曲的音频片段序列相对应的音频片段组标识符序列;形成一个可删除子序列sb、sb+1、……、se-1、se,该可删除子序列满足:在音频片段标识符序列中存在两个相邻的音频片段标识符,该两个音频片段标识符分别与音频片段sb-1和音频片段组标识符与se+1相对应,其中,b和e为正整数,1<b≤e<n;遍历音频片段组标识符序列,得到所有可删除子序列;
(7)从上述音频片段序列中删除一个可删除子序列,使删除可删除子序列后的乐曲数字音频的时间长度Tc与用户设定的压缩后的乐曲数字音频的时间长度Tu之间的差值的绝对值最小,转至步骤(2);
(8)根据步骤(2)得到时域压缩率p,使用数字音频时域压缩方法对上述数字音频文件进行时域压缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105702229A CN102063919B (zh) | 2010-11-26 | 2010-11-26 | 一种基于音频片段切分的数字音频时域压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105702229A CN102063919B (zh) | 2010-11-26 | 2010-11-26 | 一种基于音频片段切分的数字音频时域压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102063919A CN102063919A (zh) | 2011-05-18 |
CN102063919B true CN102063919B (zh) | 2012-05-09 |
Family
ID=43999159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105702229A Active CN102063919B (zh) | 2010-11-26 | 2010-11-26 | 一种基于音频片段切分的数字音频时域压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102063919B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855883B (zh) * | 2011-06-28 | 2014-09-24 | 清华大学 | 一种基于音频特征的数字音频延展方法 |
CN102831910B (zh) * | 2012-07-17 | 2015-01-14 | 清华大学 | 一种音乐片段的伸缩抗性区间的计算方法 |
CN109448752B (zh) | 2018-11-28 | 2021-01-01 | 广州市百果园信息技术有限公司 | 音频数据的处理方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1397137A (zh) * | 2000-10-19 | 2003-02-12 | 索尼公司 | 数据处理装置 |
CN101702321A (zh) * | 2009-10-15 | 2010-05-05 | 清华大学 | 一种基于歌词的数字音频时域压缩方法 |
-
2010
- 2010-11-26 CN CN2010105702229A patent/CN102063919B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1397137A (zh) * | 2000-10-19 | 2003-02-12 | 索尼公司 | 数据处理装置 |
CN101702321A (zh) * | 2009-10-15 | 2010-05-05 | 清华大学 | 一种基于歌词的数字音频时域压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102063919A (zh) | 2011-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102332262B (zh) | 基于音频特征的歌曲智能识别方法 | |
WO2018045988A1 (zh) | 歌曲的数字乐谱文件的生成方法、装置和存储介质 | |
CN102132341A (zh) | 鲁棒的媒体指纹 | |
CN106297844A (zh) | 音频数据的通用容器 | |
JP2005322401A (ja) | メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム | |
CN1636240A (zh) | 利用音频内容标识来销售产品的系统 | |
US20090132074A1 (en) | Automatic segment extraction system for extracting segment in music piece, automatic segment extraction method, and automatic segment extraction program | |
WO2016189307A1 (en) | Audio identification method | |
CN102063919B (zh) | 一种基于音频片段切分的数字音频时域压缩方法 | |
JP6021498B2 (ja) | データ圧縮装置、データ圧縮プログラム、データ圧縮システム、データ圧縮方法、データ伸張装置、データ圧縮伸張システム、および圧縮データのデータ構造 | |
CN101278350B (zh) | 通过分割的特征比较而自动生成播放列表的方法和设备 | |
CN111046226B (zh) | 一种音乐的调音方法及装置 | |
CN105975568A (zh) | 一种音频处理方法及装置 | |
CN1941160A (zh) | 音频播放模式自动选择装置及方法 | |
Firmansah et al. | Data audio compression lossless FLAC format to lossy audio MP3 format with Huffman shift coding algorithm | |
CN102170528A (zh) | 一种新闻节目的分段方法 | |
KR100842310B1 (ko) | 동영상 데이터들을 서로 동일성이 있는 동영상데이터들끼리 클러스터링하는 방법 및 시스템 | |
CN112597335B (zh) | 一种戏曲选段的输出装置及输出方法 | |
CN102034514B (zh) | 一种基于音乐特征的数字音频时域压缩方法 | |
CN101702321B (zh) | 一种基于歌词的数字音频时域压缩方法 | |
JP6589521B2 (ja) | 歌唱基準データ修正装置、カラオケシステム、プログラム | |
JP4278667B2 (ja) | 楽曲結合装置、楽曲結合方法、及び楽曲結合プログラム | |
KR102431737B1 (ko) | 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치 | |
Walczyński et al. | Effectiveness of the acoustic fingerprint in various acoustical environments | |
CN102549575A (zh) | 用于识别和播放录音的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |