CN106297824A

CN106297824A - 一种基于分层可靠度变化趋势的音频分割方法

Info

Publication number: CN106297824A
Application number: CN201610872916.5A
Authority: CN
Inventors: 杨新宇; 王银瑞; 丁建行; 董怡卓; 罗晶; 杨泽正; 王艺蒙; 李雨墨
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2017-01-04
Anticipated expiration: 2036-09-30
Also published as: CN106297824B

Abstract

本发明公开了一种基于分层可靠度变化趋势的音频分割方法，具体步骤包括：1)定长分析窗内基于可靠度变化趋势的分层跳变点检测；2)基于定长分析窗内跳变点检测的音频分割。本发明采用定长分析窗来避免分窗检测导致的累积误差，在定长分析窗内根据可靠度变化趋势来检测声学跳变点以解决冗余点过多与硬判决的局限性问题，同时在定长分析窗内采用自顶向下的分层检测方式来避免跳变点漏检的情况，能够有效减少冗余分割点，提高综合性能。

Description

一种基于分层可靠度变化趋势的音频分割方法

【技术领域】

本发明属于音频信号处理领域，特别涉及一种基于分层可靠度变化趋势的音频分割方法。

【背景技术】

近年来，在信号处理领域中，对信号的分割处理方面，基于内容的音频信号分割，也称跳变点检测，是指利用连续音频信号流在发生转变时听觉特征之间存在差异的现象将音频分为若干片段，每个片段在内容上具有一致性或在声学特征上具有相似性。目前基于内容的音频信号分割方法主要分为基于距离、基于模型、基于模型选择的分割方法3类。其中，基于距离的分割方法是利用相邻窗的样本间的距离来度量相邻音频段的相似性，它具有计算简单的特点，但是该方法在选择候选分割点的时候需要事先设定门限值，并且当门限值较小时，易检测出冗余分割点，而当门限值较大时，会导致分割点漏检，并且对声学特征的改变比较敏感。基于模型的分割方法不需要对阈值的界定，它是使用训练好的模型来分割音频流，但是生成这个模型

需要事先采集样本，反复训练，计算代价过高且适应性差。基于模型选择的方法是一种假设检验的方法，它使用贝叶斯信息准则(Bayesian information criterion,BIC)作为模型的选择标准，具有无门限、鲁棒等优点，但是BIC方法需要不断增加固定窗口长度来计算BIC值，计算量很大，易产生累积误差，根据ΔBIC的正负判断是否为跳变点的硬判决方式具有局限性，并且对于较短的音频分割效果较差。

【发明内容】

为解决现有分割方法中设置门限导致分割点冗余或者漏检，分窗检测方式导致累计误差，硬判决方式存在局限性的问题，本发明提出了一种新的信号音频分割方法——基于分层可靠度变化趋势的音频分割方法。该方法能够有效减少冗余分割点，提高综合性能。

为达以上目的，本发明采用的技术手段如下：

一种基于分层可靠度变化趋势的音频分割方法，包括以下步骤：

1)定长分析窗内基于可靠度变化趋势的分层跳变点检测；

假设每次分析窗内只有一个跳变点，然后计算窗口内各帧的可靠度，根据可靠度的变化趋势来检测分析窗内是否有跳变点；

2)基于定长分析窗内跳变点检测的音频分割；

对整个音频信号特征序列从起始位置加定长分析窗W₀，若没有检测到跳变点，窗口向后移动Δl距离，0＜Δl＜N_min；继续检测下一区域距离；若检测到跳变点，得到一个定长分析窗内以显著度排序的跳变点的序列；将分析窗W₀移至具有最大时间上标的跳变点处，继续检测下一区域；当定长分析窗遍历整个歌曲音频流后，将会得到所有的跳变点的集合CP；然后再将跳变点的集合CP重新按照时间排序，完成对整个音频流的分割。

作为本发明的进一步改进，可靠度的变化趋势是指：

在跳变点x_k左侧，随着音频帧靠近跳变点x_k时，可靠度值呈上升趋势，在跳变点x_k右侧，随着音频帧远离跳变点x_k时，可靠度值呈下降趋势，而在跳变点x_k处，RE(x_k)将取得极大值。

作为本发明的进一步改进，检测分析窗内是否有跳变点具体步骤为：

若未检测到跳变点，表明该窗口中不含跳变点；若检测到跳变点SP₁，则以SP₁为界，将W₀切分为两个子窗W₁与W₂，然后再按照上述流程检测子窗W₁与W₂中是否包含跳变点，若未检测到跳变点，则不再切分窗口，认为其中不包含跳变点；若检测到跳变点，则以跳变点为界将子窗一分为二继续检测下一层子窗，直至子窗长度小于最小窗口长度N_min或子窗内不包含跳变点。

作为本发明的进一步改进，步骤1)具体为：

(i)按帧提取音频特征，确定最大窗口W₀的长度为N_max、最小窗口W_m的长度为N_min；

(ii)计算分析窗内各帧的可靠度，选取可靠度最大的第k帧作为预选择跳变点，分析窗内始末段N_M帧的可靠度不计算，0<N_M<N_min；根据预选择跳变点左右两侧可靠度的变化趋势来确定其是否为真实跳变点，即：

\{\begin{matrix} {IncNum}_{L} (k) > α \cdot {Num}_{L} \\ {SumIncRE}_{L} (k) > {SumDecRE}_{L} (k) \\ {DecNum}_{R} (k) > α \cdot {Num}_{R} \\ {SumDecRE}_{R} (k) > {SumIncRE}_{R} (k) \end{matrix} - - - (2)

其中，IncNum_L(k)是第k帧左侧可靠度上升的次数，Num_L是第k帧左侧的帧数，SumIncRE_L(k)是第k帧左侧可靠度的增加量，SumDecRE_L(k)是第k帧左侧可靠度的减少量，DecNum_R(k)是第k帧右侧可靠度下降的次数，Num_R是第k帧右侧的帧数，SumIncRE_R(k)是第k帧右侧可靠度的增加量，SumDecRE_R(k)是第k帧右侧可靠度的减少量，α是音频帧数百分比；

(iii)若(2)不成立，则窗内不包含跳变点；

(iv)若(2)成立，则预选择跳变点第k帧为真实跳变点，并将跳变点放入跳变点集合，然后以跳变点为界，将窗口一分为二分割成两个子窗；判断子窗是否长度小于最小窗口长度，小于最小窗口长度的不予处理，大于最小窗口长度的子窗执行(ii)步骤，若(2)不成立，不再切分窗口；若(2)成立，跳到(iv)。

相对于现有技术，本发明具有以下优点：

本发明采用定长分析窗来避免分窗检测导致的累积误差，在定长分析窗内根据可靠度变化趋势来检测声学跳变点以解决冗余点过多与硬判决的局限性问题，同时在定长分析窗内采用自顶向下的分层检测方式来避免跳变点漏检的情况，通过分层检测可靠度的变化趋势来检测声学跳变点，既不会导致误检点增加并且还解决了硬判决的问题，能够有效减少冗余分割点，提高综合性能。解决了现有的采用固定长度提取音频特征导致音频内容信息表达不完整的问题。

【附图说明】

图1为可靠度变化曲线，(a)中左图为定长分析窗内音频时域波形，右图为窗口内可靠度变化曲线；(b)中左右两图分别为音频跳变点SP₁左右两侧子窗内可靠度变化曲线；(c)左右两图分别为音频跳变点SP₂左右两侧子窗内可靠度变化曲线；

图2为三种分割方法性能对比图，其中，(a)、(b)、(c)、(d)分别为三种分割方法的误警率、召回率、精确度、综合性能的比较。

【具体实施方式】

下面结合附图，对本发明的具体实施方式进行详细阐述，但本发明不限于该实施例。为了使公众对本发明有彻底的了解，在以下本发明优选施例中详细说明具体的细节。

为解决音频分割中冗余点过多以及硬判决存在局限性的问题，本发明采用根据可靠度的变化趋势来检测声学跳变点，其原理如下：

为每个信号片段按帧提取音频特征X＝{x₁,x₂,..,x_N}，其中N是音频帧数，每帧特征的维数为P。假设x_k∈X是本段歌曲的一个音频分割点，则x_k将音频特征X分成了两部分，X₁＝{x₁,x₂,..,x_k}与X₂＝{x_k+1,x_k+2,..,x_N}，两段子音频由于特征之间的差异，设其分别服从N(μ₁，Σ₁)和N(μ₂，Σ₂)分布。

定义：x_k的可靠度RE(x_k)为左右两段信号在各自模型上的似然对数之和，即：

\begin{matrix} R E (x_{k}) = L (X_{1} | N (μ_{1}, Σ_{1})) + L (X_{2} | N (μ_{2}, Σ_{2})) \\ = Σ_{j = 1}^{k} \lg P [x_{j} | N (μ_{1}, c)] + Σ_{j = k + 1}^{k} \lg P [x_{j} | N (μ_{2}, Σ_{2})] \\ = - \frac{N}{2} \lg 2 π - \frac{k}{2} \lg | Σ_{1} | - \frac{N - k}{2} \lg | Σ_{2} | - \frac{1}{2} Σ_{j = 1}^{k} {(x_{j} - μ_{1})}^{T} Σ_{1}^{- 1} (x_{j} - μ_{1}) \\ - \frac{1}{2} Σ_{j = k + 1}^{k} {(x_{j} - μ_{2})}^{T} Σ_{2}^{- 1} (x_{j} - μ_{2}) \end{matrix} - - - (1)

此时，当分别计算各个音频帧的可靠度时，会有定理1成立。

定理1：在跳变点x_k左侧，随着音频帧靠近跳变点x_k时，可靠度值呈上升趋势，在跳变点x_k右侧，随着音频帧远离跳变点x_k时，可靠度值呈下降趋势，而在跳变点x_k处，RE(x_k)将取得极大值。

证明过程如下：设x_m与x_m+1是跳变点x_k左侧相邻的两点，显然有下式成立，

lgP[x_m+1|N(μ₁,∑₁)]＞lgP[x_m+1|N(μ₂,∑₂)]，

则x_m+1与x_m的可靠度之差为：

\begin{matrix} R E (x_{m + 1}) - R E (x_{m}) = Σ_{j = 1}^{m + 1} \lg P [x_{j} | N (μ_{1}, Σ_{1})] + Σ_{j = m + 2}^{k} \lg P [x_{j} | N (μ_{2}, Σ_{2})] \\ - (Σ_{j = 1}^{m} \lg P [x_{j} | N (μ_{1}, Σ_{1})] + Σ_{j = m + 1}^{k} \lg P [x_{j} | N (μ_{2}, Σ_{2})]) \\ = \lg P [x_{m + 1} | N (μ_{1}, Σ_{1})] - \lg P [x_{m + 1} | N (μ_{2}, Σ_{2})] > 0 \end{matrix}

即在跳变点左侧可靠度呈上升趋势。同理可得，在跳变点右侧可靠度呈下降趋势。

由上述可知在跳变点左右两侧可靠度呈现先上升后下降的趋势，在跳变点处取得极大值，并且当该段音频中没有跳变点，各帧音频特征对应的可靠度没有规律，因此可根据音频特征的可靠度变化趋势来检测跳变点。

本发明的音频信号处理领域中分层可靠度变化趋势音频分割方法，包括以下步骤：

1)定长分析窗内基于可靠度变化趋势的分层跳变点检测；

2)基于定长分析窗内跳变点检测的音频分割；

步骤1)的具体操作为：在跳变点检测之前，首先确定最大窗口W₀的长度为N_max、最小窗口W_m的长度为N_min，假设每次分析窗内只有一个跳变点，然后计算窗口内各帧的可靠度，根据可靠度的变化趋势来检测分析窗内是否有跳变点，若未检测到，表明该窗口中不含跳变点。若检测到跳变点SP₁，则以SP₁为界，将W₀切分为两个子窗W₁与W₂，然后再按照上述流程检测子窗W₁与W₂中是否包含跳变点，若未检测到，则不再切分窗口，认为其中不包含跳变点。若检测到，则以跳变点为界将子窗一分为二继续检测下一层子窗，直至子窗长度小于最小窗口长度N_min或子窗内不包含跳变点。其具体流程如下：

(ii)计算分析窗内各帧的可靠度，选取可靠度最大的第k帧作为预选择跳变点，为保证有足够的数据使得可靠度计算更加可靠，分析窗内始末段N_M(0<N_M<N_min)帧的可靠度不计算。根据预选择跳变点左右两侧可靠度的变化趋势来确定其是否为真实跳变点，即：

\{\begin{matrix} {IncNum}_{L} (k) > α \cdot {Num}_{L} \\ {SumIncRE}_{L} (k) > {SumDecRE}_{L} (k) \\ {DecNum}_{R} (k) > α \cdot {Num}_{R} \\ {SumDecRE}_{R} (k) > {SumIncRE}_{R} (k) \end{matrix} - - - (2)

其中，IncNum_L(k)是第k帧左侧可靠度上升的次数，Num_L是第k帧左侧的帧数，SumIncRE_L(k)是第k帧左侧可靠度的增加量，SumDecRE_L(k)是第k帧左侧可靠度的减少量，DecNum_R(k)是第k帧右侧可靠度下降的次数，Num_R是第k帧右侧的帧数，SumIncRE_R(k)是第k帧右侧可靠度的增加量，SumDecRE_R(k)是第k帧右侧可靠度的减少量，α是音频帧数百分比。这里选择可靠度上升、下降次数的原因是排除音频帧可靠度瞬间变化较大带来的影响，而选择可靠度增加量、减少量的原因是解决可靠度上升、下降次数与可靠度增量变化不一致的情况；

(iii)若(2)不成立，由定理1可知分析窗内不包含跳变点。

(iv)若(2)成立，则预选择跳变点第k帧为真实跳变点，并将跳变点放入跳变点集合，然后以跳变点为界，将窗口一分为二分割成两个子窗。判断子窗是否长度小于最小窗口长度，小于最小窗口长度的不予处理，大于最小窗口长度的子窗执行(ii)步骤，若(2)不成立，不再切分窗口。若(2)成立，跳到(iv)。

步骤2)的具体操作为：对整个音频信号特征序列从起始位置加定长分析窗W₀，若没有检测到跳变点，窗口向后移动Δl(0＜Δl＜N_min)距离，继续检测下一区域距离；若检测到跳变点，得到一个定长分析窗内以显著度排序的跳变点的序列。将分析窗W₀移至具有最大时间上标的跳变点处，继续检测下一区域。当定长分析窗遍历整个民歌音频流后，将会得到所有的跳变点的集合CP。然后再将它们重新按照时间排序，就可以完成对整个音频流的分割。

为证明本发明提出的音频分割方法的有效性和优越性，实验选用了声学跳变点已知的5首苹果铃声作为实验数据，选择的对比方法为目前使用频率较高的基于距离的GLR音频分割方法与基于模型选择的BIC音频分割方法。提取特征时，帧长为20ms，帧移为10ms。其中实现GLR音频分割方法时，通过反复调整门限值，选取了最好的分割结果用来比较。实现BIC分割方法时，初始窗长为200帧，窗增量为50帧，最大窗长取1500帧，窗口移动距离为50帧，惩罚因子取1.5。实现本发明提出的音频分割方法时，最大窗长为1500帧，最小窗长为200帧，窗口移动距离为50帧，α取75％。

图1(a)左图为定长分析窗内已知跳变点位置的音频时域波形，其中9.95s处的音频跳变点SP₁比4.95s处的音频跳变点SP₂明显。通过计算窗口内各帧可靠度得到1(a)右图可靠度变化曲线，从中可以看出对应于音频时域波形中的两个声学跳变点SP₂与SP₁，可靠度均取得了峰值，并且从可靠度的大小与变化趋势可以首先确定SP₁为音频跳变点，以跳变点SP₁为界将窗口一分为二，计算各子窗内各帧的可靠度，便得到图1(b)音频跳变点SP₁左右两侧子窗内可靠度变化曲线，从图1(b)左图中可以看出跳变点SP₂被有效检测出来。而由于跳变点SP₁右侧子窗内不含跳变点，因此可靠度变化无规律可循，图1(b)右图与此分析一致。同理以跳变点SP₂为界将子窗口一分为二，可知左右两个新子窗内均不含音频跳变点，从图1(c)中可以看出左右两侧子窗内可靠度变化也无规律可循，与事实相符。由此可以看出本发明提出的音频分割方法是有效的。

本发明衡量音频分割性能的主要指标有以下四个：误警率(FA)、召回率(RCL)，精确率(PRC)、综合性能(F-measure)，其计算公式如下所示：

图2(a)(b)(c)(d)分别为5首歌曲在GLR、BIC和本发明音频分割方法下的误警率、召回率、精确度、综合性能的比较。可以直观的看出，本发明提出的音频分割方法相比于基于距离的GLR分割方法以及基于模型选择的BIC分割方法，误警率有比较明显的降低，召回率、准确率以及综合性能都有显著的提高，这是因为GLR分割方法性能容易受门限值影响、对声学特征的跳变很敏感，进而容易导致误检点增加，而BIC分割方法由于采用硬判决的方式，很容易检测出过多的冗余分割点。本发明的音频分割方法通过分层检测可靠度的变化趋势来检测声学跳变点，既不会导致误检点增加并且还解决了硬判决的问题，对于减少冗余分割点，提高综合性能有着很好的作用。这也证明了本发明音频分割方法的优越性。

以上，仅为本发明的较佳实施例，并非仅限于本发明的实施范围，凡依本发明专利范围的内容所做的等效变化和修饰，都应为本发明的技术范畴。

Claims

1.一种基于分层可靠度变化趋势的音频分割方法，其特征在于，包括以下步骤：

1)定长分析窗内基于可靠度变化趋势的分层跳变点检测；

2)基于定长分析窗内跳变点检测的音频分割；

对整个音频信号特征序列从起始位置加定长分析窗W₀，若没有检测到跳变点，窗口向后移动Δl距离，0＜Δl＜N_min，N_min为最小窗口W_m的长度；继续检测下一区域距离；若检测到跳变点，得到一个定长分析窗内以显著度排序的跳变点的序列；将分析窗W₀移至具有最大时间上标的跳变点处，继续检测下一区域；当定长分析窗遍历整个歌曲音频流后，将会得到所有的跳变点的集合CP；然后再将跳变点的集合CP重新按照时间排序，完成对整个音频流的分割。

2.根据权利要求1所述的一种基于分层可靠度变化趋势的音频分割方法，其特征在于，可靠度的变化趋势是指：

3.根据权利要求1所述的一种基于分层可靠度变化趋势的音频分割方法，其特征在于，检测分析窗内是否有跳变点具体步骤为：

4.根据权利要求1所述的一种基于分层可靠度变化趋势的音频分割方法，其特征在于，步骤1)具体为：

\{\begin{matrix} {IncNum}_{L} (k) > α \cdot {Num}_{L} \\ {SumIncRE}_{L} (k) > {SumDecRE}_{L} (k) \\ {DecNum}_{R} (k) > α \cdot {Num}_{R} \\ {SumDecRE}_{R} (k) > {SumIncRE}_{R} (k) \end{matrix} - - - (2)

(iii)若(2)不成立，则窗内不包含跳变点；