CN101221762A

CN101221762A - 一种mp3压缩域音频分割方法

Info

Publication number: CN101221762A
Application number: CNA2007101718029A
Authority: CN
Inventors: 余小清; 万旺根; 常辽豫; 谭海英
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2007-12-06
Filing date: 2007-12-06
Publication date: 2008-07-16

Abstract

本发明涉及一种MP3压缩域音频分割方法。本方法先从MP3压缩音频数据中提取特征参数，再将音频信息进行静音分割，对非静音语音分割，在语音段中用统计判决模型进行说话人改变检测，最后由说话人改变点的得到分割结果。实验结果，采用本发明得分割方法比传统分割方法，在其准确率、召回率和综合性能均有显著提高。

Description

一种MP3压缩域音频分割方法

技术领域

本发明涉及信号处理和模式识别，主要是一种MP3(MPEG1-layer3)压缩域音频分割方法。

背景技术

说话人检索技术是指利用信号处理和模式识别方法，从大量音频文档中搜索特定说话人的技术。音频分割就是说话人检索技术需要解决的关键问题之一。

常用的音频分割方法，大部分工作都是在非压缩域中进行的，直接对压缩域中进行音频分割、并对说话人改变点进行检测的问题很少涉及。压缩域中的数据是来自于原始音频编码后的二进制码流，从这些数据流不能直接体现原始音频的一些特性。因此，压缩域中的音频分割首先要考虑的是特征提取的数据源问题，即如何对压缩数据进行处理，以最小的计算代价提取有效的音频特征来满足分割需要。理论分析及实验结果证明通过对压缩数据部分解码，可获得与原始音频谱特性相似的数据，以这些数据为数据源提取出的音频特征可以体现不同话者间语音的差别，并可用于进一步分割和分类。本发明正是采用上述的方法，从MPEG1标准声音第三层压缩技术MP3压缩域数据中提取特征参数梅尔倒谱系数MFCC(Mel-frequency CepstralCoefficients)、以及其他特征参数，对MP3压缩域的音频信息进行分割的。

本发明所提出的分割方法解决了MP3压缩域中不同话者的分割问题，可进一步用于MP3压缩域的语音识别与检索中。

发明内容

本发明的目的在于提供一种MP3压缩域音频分割方法，通过从MP3压缩数据中直接提取音频特征参数，通过语音检测和说话人改变的检测，实现将MP3音频数据分割成属于不同人的语音段，用于说话人检索的音频分割。

本发明解决其技术问题采用的技术方案为：先从MP3压缩音频数据中提取特征参数，再将音频信息进行静音分割，对非静音语音分割，在语音段中用统计判决模型进行说话人改变检测，最后由说话人改变点得到分割结果。

本发明解决其技术问题所采用的技术方案还可以进一步完善。首先从MP3压缩音频数据中生成修正离散余弦变换MDCT(Modified Discrete Cosine Transform)矩阵，再从中提取有效的特征参数，利用能量检测将静音去除，用基频特征去除非语音段，然后结合所提取的压缩域谱特征的变化趋势进行统计判决，实现了将音频分割成不同的说话人的语音段。该方法具体包括如下步骤：

1)、MP3压缩音频的预处理：包括对解码帧头，边信息读取，主数据读取，哈夫曼解码和量化四个部分；

2)、生成MDCT矩阵：找出每一子带中的MDCT系数，对子带中系数排列，形成矩阵三部分；

3)、压缩域特征参数的提取：包括能量参数，谱中心距，MFCC参数的求取；

4)、静音的检测：通过设定门限判别静音段和非静音段，并对结果做出修正；

5)、语音检测：对非静音部分进一不去除非语音成分；

6)、说话人改变点检测：根据高斯假设模型计算贝叶斯信息准则BIC值根据其值的变化趋势来寻找改变点。

本发明有益的效果是：直接从MP3压缩音频数据中提取有效的特征参数，比将压缩数据解压后再提取特征，既算法更简单，又节省计算时间；利用能量检测将静音去除，用基频特征去除非语音段，仅对语音段进行倒谱特征提取，又可节省计算时间，并且消除了非语音对说话人分割的不利影响；运用统计判决模型进行说话人检索的音频分割，比用传统的判决方法进行说话人检索的音频分割，精度提高了许多。

附图说明

图1是本发明的方法流程图

具体实施方式

本发明的一个优选实施例结合附图说明如下：本MP3压缩域音频分割方法，共分六步：

第一步：MP3压缩域音频数据处理

压缩域音频数据的处理分为帧头信息的读取，边信息的读取，主数据的读取，哈夫曼解码和量化。

1、帧头信息的读取

A)、定义存放帧头信息的结构体layer；

B)、读取帧中的同步信息；

C)、使解码器与数据流同步；

D)、确定该帧数据开始的位置，把帧头信息存放于layer类型的变量Head_i中。

2、边信息的读取

A)、定义存放边信息的结构体sideinf；

B)、由帧头结束的地方确定边信息开始位置；

C)、读取边信息存放于sideinf类型的变量Side_i中。

3、主数据的读取

A)、定义存放缩放因子的结构scalefac，存放主数据大小的变量Maindata；

B)、计算主数据的长度并将该值存放于Maindata变量中；

C)、申请Maindata大小的内存空间Memory；

D)、读取主数据到Memory中；

E)、从Memory中读取缩放因子到scalefac类型的变量Scale_i中。

4、哈夫曼解码和反量化

A)、定义一个颗粒中存放哈夫曼解码数据的数组is[32][18]；

B)、根据边信息Side_i确定主数据中的哈夫曼数据的起始位置；

C)、对哈夫曼数据进行解码并将解码数据放在is[32][18]中；

D)、对is[32][18]中的数据进行反量化，仍存放于is[32][18]中。

第二步：生成MDCT系数矩阵

每个颗粒的数据由32个子带构成且每一子带含有18个系数，根据频率由低到高分布的原则，每一颗粒可形成一个32×18的矩阵。该过程如下：

1、找出每一子带系数

A)、找出is[32][18]中每一子带的MDCT系数S_i，共32个；

B)、定义S_i子带中的系数为S_i[j]，每一子带系数18个。

2、形成行向量

A)、按频率高低原则重新排列S_i中系数，仍存放于S_i[j]中；

B)、将每一子带排列完成后的S_i[j]看作是矩阵中的行向量。

3、形成矩阵

A)、将S_i[j]行向量依子带序号组合形成32×18M[i][j]；

B)、依照上述原则，一帧中两个颗粒的MDCT系数矩阵表示为M₁[i][j]，M₂[i][j]。

第三步：压缩域特征参数的提取

所提取的压缩域特征包括能量参数E、谱中心距SC(Spectral Centroid)和谱特征参数MFCC。

1、能量参数

A)、能量提取

E_{t} = \frac{1}{2} \times (\sqrt{\frac{1}{576} Σ_{i = 1}^{32} Σ_{j = 1}^{18} M_{1}^{2} [i] [j]} + \sqrt{\frac{1}{576} Σ_{i = 1}^{32} Σ_{j = 1}^{18} M_{2}^{2} [i] [j]})

其中i表示边带的序号，j表示每一边带中MDCT系数的序号，M₁ ²[i][j]，表示第一颗粒的第i个边带中第j个MDCT系数的平方，M₂ ²[i][j]表示第二个颗粒的第i个边带中第j个MDCT系数的平方，E_t表示一帧的能量。

B)、能量阈值计算

能量阈值计算主要是为随后去除静音做准备。因语音信号能量在不同情况下是变化的，我们采用以下能量阈值计算方法：

T_E＝E_min+λ×[E_μ-E_min]

其中T_E是阈值，E_min是各帧能量的最小值，E_μ是各帧能量的平均值，λ是一个可变系数。

2、谱中心距SC

谱中心距体现了能量的集中区域，可以看作是时域中过零率的近似。计算此参数为静音和非静音的平滑修正做准备。计算公式如下：

SC = \frac{Σ_{i = 1}^{32} Σ_{j = 1}^{18} i \times j \times M [i] [j]}{Σ_{i = 1}^{32} Σ_{j = 1}^{18} M [i] [j]}

其中，i表示边带序号，j表示边带内的MDCT系数的序号，M[i][j]表示第i个边带第j个MDCT系数；

3、谱特征参数MFCC

A)、计算每帧两个颗粒中MDCT系数的平方M_1k ²，M_2k ²，0≤k≤575是MDCT系数的序号；

B)、计算两个颗粒平方和的平均

M_{k} = (M_{1 k}^{2} + M_{2 k}^{2}) / 2.0;

C)、定义N个滤波器组对应Mel域的中心为FC(m)，1≤m≤N为滤波器序号；

D)、采样率为F_s，信号的最高频率f_H＝F_s/2.0，最低频率为f_L＝0；

E)、

FC (m) = \frac{576}{F_{s}} B^{- 1} (B (f_{L}) + m \frac{B (f_{L}) + B (f_{H})}{N + 1}),

其中

B (f) = \ln (1 + \frac{f}{700}),

B^-1是其逆函数；

F)、Mel三角滤波器的函数为：

H_{m} (k) = \{\begin{matrix} \frac{k - FC (m - 1)}{FC (m) - FC (m - 1)} & FC (m - 1) \leq k \leq FC (m) \\ 0 & k < FC (m - 1) ork > FC (m) \\ \frac{FC (m + 1) - k}{FC (m + 1) - FC (m)} & FC (m) \leq k \leq FC (m + 1) \end{matrix}

G)、计算每个滤波器输出能量X(m)

X (m) = \ln (Σ_{k = 0}^{575} M_{k} \times H_{m} (k)), 0 \leq m \leq 14

H)、计算能量的余弦变换

Mef (n) = Σ_{m = 0}^{14} X (m) \times \cos [πn (m + 0.5) / 15], 0 \leq n \leq 14

第四步：静音的检测

1、静音与非静音段划分

A)、按能量提取方法计算每帧能量

B)、将算出的能量与能量阈值作对比，低于能量阈值的音频帧视为静音帧，并合并到静音段。

C)、大于等于能量阈值的音频帧视为非静音帧，并合并到非静音段。

2、静音/非静音段的平滑修正

A)、对静音段信号统计得到SC门限T_SC；

B)、计算每个静音段的SC记为SC_j；

C)、若SC_j＞T_SC，则该段是语音中的清音，合并到对应的非静音段；

D)、计算每个静音段中的帧数F_N；

E)、若F_N＜50，认为该段是连续音频的停顿，合并入对应的非静音段中；

F)、将连续的非静音部分合并成长的非静音段。

第五步：语音检测

经过上面步骤所得到的非静音段可能含有非语音的音频，为便于后面的话者分割，需要进一步进行语音的检测。基本的实现方法如下：

1、以每个颗粒中的子带为单位求取该子带MDCT系数绝对值的平均MD_i；

2、分别找出每个子带中所有大于3倍MD_i的值MDCT_j；

3、判断对一个颗粒中的MDCT_j值使用HPS(harmonic product spectrum)算法判断是否有谐波成分存在；

4、若一帧中HPS检测结果不为零，就判断为语音帧；反之，判为非语音帧。将HPS检测结果不为零的帧归为语音段用于说话人改变的检测。

第六步：说话人改变检测

每一说话人的语音特征在特征空间中都形成一定的分布。因而，在连续语音段内，对同一个说话人而言，其BIC值的总体趋势是一定的；当说话人改变时候，信号的到普特性将发生明显的变化。因而可以用统计判决模型来判别说话人的改变。其检测过程如下：

1、定义检测长度

每次检测的最小语音长度为window，最大语音检测长度为max window。

2、判断检测长度以决定首地址位置

判断当前语音的长度，若大于max window，则把当前语音段的首地址向后移动max window；重新选定window长的语音段并执行3。

3、检测改变点

进行说话人趋势判断，用统计判决方法检测这段有无改变点。

4、若没有改变点

若无改变点，则当前被检测语音段的长度增加window长，执行步骤2；否则把当前语音段的首地址移到检测出的改变点位置，重新定义被检测语音段长度为window，执行步骤2。

实验结果

本实验使用了中央电视台广播音频资料进行了试验。音频资料的格式为MP3，采样频率为44.1KHz，总计时间约为20小时。

我们对这些MP3压缩域音频资料同时使用传统分割检测方法和本发明的分割检测方法进行了实验。实验结果表明，本发明的分割检测方法比传统分割检测方法而言，大大提高了判别的准确率和召回率。

我们对分割方法的结果主要从三方面评估：

A)、准确率(PRC)：已经检测出来的正确的语音特征改变点占所有检测出来的语音特征改变点的百分比；

B)、召回率(RCL)：召回率为已检测出来的正确的语音特征改变点占真实语音特征改变点的百分比；

C)、综合性能(F₁)：

F_{1} = \frac{2 PRC \times RCL}{PRC + RCL} .

准确率体现了检测出的改变点中，正确的改变点在所有检测出的改变点中所占的比率，体现了检测结果的正确性；召回率体现了所检测出的正确的改变点在真实改变点中所占的比率，体现了距离实际结果的正确性；这两个指标与其综合性能可以很好地体现分割效果。因此，我们采用这些指标作为最终的衡量尺度。

统计实验结果如下：

采用的算法	准确率(PRC)	召回率(RCL)	综合性能(F₁)
采用的算法	准确率(PRC)	召回率(RCL)	综合性能(F₁)	本发明检测	82.85％	85.67％	83.81％
传统分割检测	21.91％	57.93％	31.14％	本发明检测	82.85％	85.67％	83.81％

实验结果表明，本发明的MP3压缩域音频分割方法能针对MP3压缩数据，有效地进行说话人改变检测，并且在数据源相同的情况下统计判决模型分割检测方法比传统分割检测方法的精度有很大提高。可以看出统计判决模型分割检测方法在压缩域中的话者分割效果平均性能指标达到82％以上，这与在非压缩域中采用其他分割法所得到的结果可相比拟。

Claims

1.一种MP3压缩域音频分割方法，其特征在于：首先从MPEG1标准声音第三层压缩技术MP3文件中得到体现原始音频频域特性的数据，其次对这些数据计算能量和频域特征参数，然后使用这些参数去除静音部分并检测出语音；最后在语音片段间检测话者的改变，由此得到最终分割结果。

2.根据权利要求1所述的MP3压缩域音频分割方法，其特征在于：具体操作步骤如下：

a.MP3压缩音频的预处理：包括对解码帧头，边信息读取，主数据读取，哈夫曼解码和量化；

b.生成修正离散余弦变换MDCT矩阵：找出每一子带中的MDCT系数，对子带中系数排列，形成矩阵；

c.压缩域特征参数的提取：包括能量参数，谱中心距SC，梅尔倒谱系数MFCC参数的求取；

d.静音的检测：通过设定门限判别静音段和非静音段，并对结果做出修正；

e.语音检测：对非静音部分进一步去除非语音成分；

f.说话人改变点检测：根据统计判决模型进行说话人改变检测。

3.根据权利要求2所述的MP3压缩域音频分割方法，其特征在于：所述的MP3压缩音频预处理具体步骤是：

a.帧头信息的读取

(a).定义存放帧头信息的结构体layer；

(b).读取帧中的同步信息；

(c).使解码器与数据流同步；

(d).确定该帧数据开始的位置，把帧头信息存放于layer类型的变量Head_i中；

b.边信息的读取

(a).定义存放边信息的结构体sideinf；

(b).由帧头结束的地方确定边信息开始位置；

(c).读取边信息存放于sideinf类型的变量Side_i中；

c.主数据的读取

(a).定义存放缩放因子的结构scalefac，存放主数据大小的变量Maindata；

(b).计算主数据的长度并将该值存放于Maindata变量中；

(c).申请Maindata大小的内存空间Memory；

(d).读取主数据到Memory中；

(e).从Memory中读取缩放因子到scalefac类型的变量Scale_i中；

c.哈夫曼解码和反量化

(a).定义一个颗粒中存放哈夫曼解码数据的数组is[32][18]；

(b).根据边信息Side_i确定主数据中的哈夫曼数据的起始位置；

(c).对哈夫曼数据进行解码并将解码数据放在is[32][18]中；

(d).对is[32][18]中的数据进行反量化，仍存放于is[32][18]中。

4.根据权利要求2所述的MP3压缩域音频分割方法，其特征在于：所述的生成MDCT矩阵具体步骤是：

a.找出每一子带系数

(a).找出is[32][18]中每一子带的MDCT系数S_i，共32个；

(b).定义S_i子带中的系数为S_i[j]，每一子带系数18个；

b.形成行向量

(a).按频率高低原则重新排列S_i中系数，仍存放于S_i[j]中；

(b).将每一子带排列完成后的S_i[j]看作是矩阵中的行向量；

c.形成矩阵

(a).将S_i[j]行向量依子带序号组合形成32×18M[i][j]；

(b).依照上述原则，一帧中两个颗粒的MDCT系数矩阵表示为M₁[i][j]，M₂[i][j]。

5.根据权利要求2所述的MP3压缩域音频分割方法，其特征在于：所述的特征参数提取的具体步骤是：

a.能量参数

(a).提取能量

E_{t} = \frac{1}{2} \times (\sqrt{\frac{1}{576} Σ_{i = 1}^{32} Σ_{j = 1}^{18} M_{1}^{2} [i] [j]} + \sqrt{\frac{1}{576} Σ_{i = 1}^{32} Σ_{j = 1}^{18} M_{2}^{2} [i] [j]})

(b).计算能量阈值

能量阈值计算主要是为随后去除静音做准备；采用以下能量阈值计算方法：

T_E＝E_min+λ×[E_μ-E_min]

其中T_E是阈值，E_min是各帧能量的最小值，E_μ是各帧能量的平均值，λ是一个可变系数；

b.求取谱中心距SC

SC = \frac{Σ_{i = 1}^{32} Σ_{j = 1}^{18} i \times j \times M [i] [j]}{Σ_{i = 1}^{32} Σ_{j = 1}^{18} M [i] [j]}

c.求取谱特征参数MFCC

(a).计算每帧中两个颗粒中MDCT系数的平方M_1k ²，M_2k ²，0≤k≤575是MDCT系数的序号；

(b).计算两个颗粒平方和的平均

M_{k} = (M_{1 k}^{2} + M_{2 k}^{2}) / 2.0;

(c).定义N个滤波器组对应Mel域的中心为FC(m)，1≤m≤N为滤波器序号；

(d).采样率为F_s，信号的最高频率F_H＝Fs/2.0，最低频率为F_L＝0；

(e).计算滤波器的中心频率

FC (m) = \frac{576}{F_{s}} B^{- 1} (B (f_{L}) + m \frac{B (f_{L}) + B (f_{H})}{N + 1}),

其中

B (f) = \ln (1 + \frac{f}{700}),

B^-1是其逆函数，B(f_L)表示信号最低频率变换到梅尔Mel域的频率，B(f_H)表示信号最高频率变换到梅尔Mel域后的频率，FC(m)表示计算得到的滤波器中心频率；

(f).梅尔Mel三角滤波器的函数为：

H_{m} (k) = \{\begin{matrix} \frac{k - FC (m - 1)}{FC (m) - FC (m - 1)} & FC (m - 1) \leq k \leq FC (m) \\ 0 & k < FC (m - 1) ork > FC (m) \\ \frac{FC (m + 1) - k}{FC (m + 1) - FC (m)} & FC (m) \leq k \leq FC (m + 1) \end{matrix}

(g).计算每个滤波器输出能量X(m)

X (m) = \ln (Σ_{k = 0}^{575} M_{k} \times H_{m} (k)), 0 \leq m \leq 14

(h).计算能量的余弦变换

Mef (n) = Σ_{m = 0}^{14} X (m) \times \cos [πn (m + 0.5) / 15], 0 \leq n \leq 14

6.根据权利要求2所述的MP3压缩域音频分割方法，其特征在于：所述的静音检测的具体步骤是：

a.静音与非静音段划分

(a).根据信号统计得到能量门限T_E；

(b).对一系列音频帧求能量E_t；

(c).若E_i＜T_E，视为静音段，否则视为非静音段。

b.静音/非静音段的平滑修正

(a).对静音段信号统计得到SC门限T_SC；

(b).计算每个静音段的SC记为SC_j；

(c).若SC_j＞T_SC，则该段是语音中的清音，合并到对应的非静音段；

(d).计算每个静音段中的帧数F_N；

(e).若F_N＜50，认为该段是连续语音的停顿，合并入对应的非静音段中；

(f).将连续的非静音部分合并成长的非静音段。

7.根据权利要求2所述的MP3压缩域音频分割方法，其特征在于：所述的语音检测的具体步骤是：

a.以每个颗粒中的子带为单位求取该子带MDCT系数绝对值的平均MD_i；

b.分别找出每个子带中所有大于3倍MD_i的值MDCT_j；

c.对每个颗粒中的MDCT_j值使用HPS算法判断是否有谐波成分存在；

d.若一帧中HPS检测结果不为零，就判断为语音帧；反之，判为非语音帧。

8.根据权利要求2所述的压缩域分割方法，其特征在于：所述的说话人改变点检测的具体步骤是：

a.定义检测长度：

每次检测的最小语音长度为window，最大语音检测长度为max window；

b.判断检测长度以决定首地址位置

判断当前语音的长度，若大于max window，则把当前语音段的首地址向后移动max window；重新选定window长的语音段并执行3；

c.检测改变点：进行说话人趋势判断，用统计判决方法检测这段有无改变点；

d.若没有改变点