CN102063919B

CN102063919B - 一种基于音频片段切分的数字音频时域压缩方法

Info

Publication number: CN102063919B
Application number: CN2010105702229A
Authority: CN
Inventors: 王朝坤; 王建民; 刘璋
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2010-11-26
Filing date: 2010-11-26
Publication date: 2012-05-09
Anticipated expiration: 2030-11-26
Also published as: CN102063919A

Abstract

本发明涉及一种基于音频片段切分的数字音频时域压缩方法，属于音频处理技术领域。本方法通过提取乐曲的数字音频中的音频特征，分析并获得乐曲的结构信息，根据乐曲的结构信息选择并删除若干个可删除音频片段序列，最后使用数字音频时域压缩方法对删除后的数字音频进行时域压缩，从而改变乐曲的播放时间长度。本发明方法在数字音频时域压缩前，根据乐曲的结构信息找到满足特定条件的音频片段子序列，删除音频片段子序列后，可以保证乐曲中剩下的音频片段自然、平滑地连接，减少了数字音频时域压缩对数字音频播放质量的影响，改善了时域压缩后的数字音频的播放效果。

Description

一种基于音频片段切分的数字音频时域压缩方法

技术领域

本发明涉及一种基于音频片段切分的数字音频时域压缩方法，属于音频处理技术领域。

背景技术

随着互联网和多媒体技术的发展，音乐已经成为人们日常生活中不可或缺的娱乐形式。当选用一首乐曲作为背景音乐的时候，通常会发生所选乐曲的播放时间长度与所需要的播放时间长度不相符的情况。此时，需要压缩和调整乐曲的内容，同时保证乐曲的播放效果。现有的数字音频时域压缩方法可以分为均匀数字音频时域压缩方法和非均匀数字音频时域压缩方法，如名称为“一种基于歌词的数字音频时域压缩方法”、申请号为CN200910235724.3、公开号为CN101702321A的发明专利，上述两类数字音频时域压缩方法在处理用户所要求的播放时间长度与乐曲的原始时间长度相差较大的情况时，会导致乐曲的播放速率过快、声音抖动等问题，无法达到理想的时域压缩效果。

发明内容

本发明的目的是提出一种基于音频片段切分的数字音频时域压缩方法，通过提取乐曲的数字音频中的音频特征，分析并获得乐曲的结构信息，根据乐曲的结构信息选择并删除若干个可删除音频片段序列，最后使用数字音频时域压缩方法对删除后的数字音频进行时域压缩，从而改变乐曲的播放时间长度。

本发明提出的基于音频片段切分的数字音频时域压缩方法，包括以下步骤：

(1)将原始乐曲数字音频分为n个音频片段，得到一个音频片段序列，记为：s₁、s₂、s₃、......、s_n-1、s_n，设音频片段s_i的原始时间长度为t_i；

(2)根据用户设定的压缩后的乐曲数字音频的时间长度T_u和压缩过程中的乐曲数字音频的当前时间长度T_m，得到时域压缩率

(3)对上述时域压缩率p进行判断，若p小于或者等于用户设定的最小压缩率p_min，则转至步骤(4)，若时域压缩率p大于用户设定的最小压缩率p_min，则转至步骤(8)；

(4)对上述n个音频片段中的任意两个音频片段s_i、s_j，使用音频片段相似度量方法计算音频片段s_i与音频片段s_j之间的相似度值d_i，j，对相似度值d_i，j进行判断，若相似度值d_i，j大于或者等于设定的相似度阈值I，则判断音频片段s_i与音频片段s_j为相似音频片段，若相似度值d_i，j小于设定的相似度阈值I，则判断音频片段s_i与音频片段s_j为不相似音频片段，重复该步骤，遍历n个音频片段中的任意两个音频片段，得到所有任意两个音频片段之间的相似关系，相似度阈值I为从正无穷到负无穷的实数；

(5)根据上述音频片段之间的相似关系，将n个音频片段分为w个音频片段组，记为：G₁、G₂、...、G_x、...、G_w，满足音频片段组G_x中的任意一个音频片段s_i，在G_x中至少存在一个与音频片段s_i相似的音频片段s_j，且在音频片段组G_x以外的音频片段组中不存在与音频片段s_i相似的音频片段；

(6)为每个音频片段组G_i设置一个唯一的音频片段组标识符A_i，用一个音频片段组标识符A_i对音频片段组G_i中的所有音频片段进行标记；用音频片段组标识符A_i表达上述音频片段序列s₁、s₂、s₃、......、s_n-1、s_n，得到与乐曲的音频片段序列相对应的音频片段组标识符序列；形成一个可删除子序列s_b、s_b+1、......、s_e-1、s_e，该可删除子序列满足：在音频片段标识符序列中存在两个相邻的音频片段标识符，该两个音频片段标识符分别与音频片段s_b-1和音频片段组标识符与s_e+1相对应，其中，b和e为正整数，1＜b≤e＜n；遍历音频片段组标识符序列，得到所有可删除子序列；

(7)从上述音频片段序列中删除一个可删除子序列，使删除可删除子序列后的乐曲数字音频的时间长度T_c与用户设定的压缩后的乐曲数字音频的时间长度T_u之间的差值的绝对值最小，转至步骤(2)；

(8)根据步骤(2)得到时域压缩率p，使用数字音频时域压缩方法对上述数字音频文件进行时域压缩。

本发明提出的基于音频片段切分的数字音频时域压缩方法，在数字音频时域压缩前，根据乐曲的结构信息找到满足特定条件的音频片段子序列，删除音频片段子序列后，可以保证乐曲中剩下的音频片段自然、平滑地连接，减少了数字音频时域压缩对数字音频播放质量的影响，改善了时域压缩后的数字音频的播放效果。

附图说明

图1是本发明方法的原理框图。

图2为本发明方法的时域压缩过程中，各种不同音频序列的结构示意图。

具体实施方式

本发明提出的基于音频片段切分的数字音频时域压缩方法，其原理框图如图1所示，包括以下各步骤：

(1)将原始乐曲数字音频分为n个音频片段，得到一个音频片段序列，记为：s₁、s₂、s₃、......、s_n-1、s_n，设音频片段s_i的原始时间长度为t_i，如图2(a)所示。

在本发明的实施例中，上述数字音频数据的音频格式可以为WAV、MP3等音频格式。上述音频片段的时间长度的单位为秒。对于存在歌词的乐曲，每个音频片段对应于歌词文件中的一个歌词句子，n为歌词中的歌词句子数。对于不存在歌词的乐曲，采用通用的基于内容的数字音频切分方法将乐曲的数字音频切分为多个音频片段，n为正整数，由通用的基于内容的数字音频切分方法确定。

乐曲数字音频的当前时间长度T_m的初始值为T_m＝t₁+t₂+t₃+…+t_n。

在本发明的实施例中，上述时域压缩率的取值范围为0＜p＜1。

(3)对上述时域压缩率p进行判断，若p小于或者等于用户设定的最小压缩率p_min，则转至步骤(4)，若时域压缩率p大于用户设定的最小压缩率p_min，则转至步骤(8)。

在本发明的实施例中，最小压缩率p_min的取值范围为0＜p_min＜1。

在本发明的实施例中，上述音频片段s_i和音频片段s_j之间的的相似度量方法采用基于自相关的数字音频相似度量方法。相似度值的取值范围为-∞＜d_i，j＜∞。相似度阈值I的取值范围为-∞＜I＜∞。

(5)根据上述音频片段之间的相似关系，将n个音频片段分为w个音频片段组，记为：G₁、G₂、...、G_x、...、G_w，满足音频片段组G_x中的任意一个音频片段s_i，在G_x中至少存在一个与音频片段s_i相似的音频片段s_j，且在音频片段组G_x以外的音频片段组中不存在与音频片段s_i相似的音频片段，如图2(b)所示：音频片段组G₁中包含音频片段s₁、s₂和s₄等音频片段，其中音频片段s₁与音频片段s₂为相似音频片段，音频片段s₁与音频片段s₄为相似音频片段。音频片段组G₂中包含音频片段s₂、s₆和s₈等音频片段，其中音频片段s₃与音频片段s₆为相似音频片段，音频片段s₆与音频片段s₈为相似音频片段。音频片段组G_w中包含音频片段s₅、s₇和s_n等音频片段，其中音频片段s₅与音频片段s₇为相似音频片段，音频片段s₇与音频片段s_n为相似音频片段。

(6)为每个音频片段组G_i设置一个唯一的音频片段组标识符A_i，用一个音频片段组标识符A_i对音频片段组G_i中的所有音频片段进行标记；用音频片段组标识符A_i表达上述音频片段序列s₁、s₂、s₃、......、s_n-1、s_n，得到与乐曲的音频片段序列相对应的音频片段组标识符序列，例如：A₁A₁A₂A₁A_wA₂A_wA₂…A_w，如图2(c)中所示。形成一个可删除子序列s_b、s_b+1、......、s_e-1、s_e，该可删除子序列s_b、s_b+1、......、s_e-1、s_e满足：在音频片段标识符序列中存在两个相邻的音频片段标识符，该两个音频片段标识符分别与音频片段s_b-1和音频片段组标识符与s_e+1相对应，其中，b和e为正整数，1＜b≤e＜n；遍历音频片段组标识符序列，得到所有可删除子序列，例如：可删除子序列s₃、s₄、s₅，可删除子序列s₃、s₄和可删除子序列s₂、s₃，如图2(d)中所示。

(7)从上述音频片段序列中删除一个可删除子序列，使删除可删除子序列后的乐曲数字音频的时间长度T_c与用户设定的压缩后的乐曲数字音频的时间长度T_u之间的差值的绝对值最小，例如：删除可删除子序列s₃、s₄、s₅后的乐曲数字音频的时间长度T_c＝T_m-t₃-t₄-t₅与用户设定的压缩后的乐曲数字音频的时间长度T_u之间的差值的绝对值最小，转至步骤(2)。

在本发明的实施例中，数字音频时域压缩方法采用基于歌词的数字音频时域压缩方法。

Claims

1.一种基于音频片段切分的数字音频时域压缩方法，其特征在于该方法包括以下步骤：

(1)将原始乐曲数字音频分为n个音频片段，得到一个音频片段序列，记为：s₁、s₂、s₃、……、s_n-1、s_n，设音频片段s_i的原始时间长度为t_i；

时域压缩率的取值范围为0＜p＜1；

(3)对上述时域压缩率p进行判断，若p小于或者等于用户设定的最小压缩率p_min，则转至步骤(4)，若时域压缩率p大于用户设定的最小压缩率p_min，最小压缩率p_min的取值范围为0＜p_min＜1，则转至步骤(8)；

(4)对上述n个音频片段中的任意两个音频片段s_i、s_j，使用音频片段相似度量方法计算音频片段s_i与音频片段s_j之间的相似度值d_i，j，对相似度值d_i，j进行判断，若相似度值d_i，j大于或者等于设定的相似度阈值I，则判断音频片段s_i与音频片段s_j为相似音频片段，若相似度值d_i，j小于设定的相似度阈值I，则判断音频片段s_i与音频片段s_j为不相似音频片段，重复该步骤，遍历n个音频片段中的任意两个音频片段，得到所有任意两个音频片段之间的相似关系，相似度阈值I为从正无穷到负无穷的实数，相似度值的取值范围为-∞＜d_i，j＜∞；

(5)根据上述音频片段之间的相似关系，将n个音频片段分为w个音频片段组，记为：G₁、G₂、…、G_x、…、G_w，满足音频片段组G_x中的任意一个音频片段s_i，在G_x中至少存在一个与音频片段s_i相似的音频片段s_j，且在音频片段组G_x以外的音频片段组中不存在与音频片段s_i相似的音频片段；

(6)为每个音频片段组G_i设置一个唯一的音频片段组标识符A_i，用一个音频片段组标识符A_i对音频片段组G_i中的所有音频片段进行标记；用音频片段组标识符A_i表达上述音频片段序列s₁、s₂、s₃、……、s_n-1、s_n，得到与乐曲的音频片段序列相对应的音频片段组标识符序列；形成一个可删除子序列s_b、s_b+1、……、s_e-1、s_e，该可删除子序列满足：在音频片段标识符序列中存在两个相邻的音频片段标识符，该两个音频片段标识符分别与音频片段s_b-1和音频片段组标识符与s_e+1相对应，其中，b和e为正整数，1＜b≤e＜n；遍历音频片段组标识符序列，得到所有可删除子序列；