CN101567188B

CN101567188B - 长短帧联合的混合音频信号多基音估计方法

Info

Publication number: CN101567188B
Application number: CN2009100503508A
Authority: CN
Inventors: 王冬梅; 黄青华
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2009-04-30
Filing date: 2009-04-30
Publication date: 2011-10-26
Anticipated expiration: 2029-04-30
Also published as: CN101567188A

Abstract

本发明涉及一种长短帧联合的混合音频信号多基音估计方法。本方法首先将混合音频信号分成帧中心重合的长帧和短帧信号，并分别对其进行短时傅里叶变换；然后通过对长帧和短帧信号的频谱峰值进行基于谐波原理的迭代处理实现多基音初步估计。为提高基音估计的准确率，还进行了以下两步跟踪平滑：首先利用短时自相关方法计算得到的混合信号的主基音值进行跟踪平滑，然后使用长、短窗信号频谱中共同的第一峰值处的频率和非第一峰值整数倍共同的第二峰值处频率作为两个信号的基音值，继续平滑跟踪基音值。本方法的优点是长、短窗相结合，克服了短时傅立叶变换中时间分辨率和频率分辨率之间的矛盾，避免了由于主瓣太宽而使得某些谐波峰值因相互覆盖而丢失的缺点。同时两步跟踪平滑又使得某些帧中错误估计的基音值得到了校正。

Description

长短帧联合的混合音频信号多基音估计方法

技术领域

本发明涉及混合音频信号多基音估计的方法，此方法有别于传统单个音频信号基音的估计。具体是基于音频信号的谐波原理，结合长窗帧和短窗帧的频谱峰值进行多基音估计，并将混合信号短时自相关计算得到的主基音值以及长、短窗共同的第一、第二峰值作为两个粗略的基音值，来跟踪平滑初始估计出的基音值。与传统的多基音估计相比，本方法结合了长、短窗帧，克服了语音信号的短时平稳性和短时傅立叶变换频率分辨率低的矛盾；并利用了两步跟踪平滑方法，使得基音估计值更准确。

背景技术

单基音估计是音频信号处理领域重要技术之一，已经发展得很成熟，但是多基音估计还是音频信号处理领域的最难解决的问题之一。随着音频信号处理新的研究方向的出现，多基音估计显得尤为重要，比如单通道音频信号盲分离，音频检索，流行音乐中歌词的自动获取等。

目前多基音估计主要是基于音频信号的谐波原理在频域里进行的，或者是利用计算听觉场景分析(CASA)在时间-频率域上进行的。前者对混合信号进行短时傅立叶变换，提取并预处理频谱峰值，然后用迭代的方法或者最大似然的方法进行多基音估计，此方法的缺点是在音频信号的短时平稳性与短时傅里叶变换的频率分辨率的选择上存在矛盾，使得某些靠近的频谱峰值相互覆盖而丢失；后者是根据人耳的听觉特性，将信号分解成频域上非线性分布的一系列时频单元，利用时频单元内部的短时自相关和相邻时频单元之间的互相关进行多基音的估计，但是各个时频单元相关性计算值往往与真实值之间有很大的差异。粒子滤波也是一种有效的多基音估计方法，但是其计算复杂度高。

发明内容

本发明的目的是提供一种有效的长短帧联合的混合音频信号的多基音估计方法，克服传统方法由于音频信号的短时平稳性和傅立叶变换时频分辨率相矛盾的而造成的不足，并使得最终基音结果得到平滑跟踪。

为了达到上述目的，本发明采用下述记述方案：

一种长短帧联合的混合音频信号多基音估计方法，其特征在于基于谐波模型并结合长、短帧信号的频谱来对混合音频信号进行多基音估计，其步骤如下：

(1)将混合音频信号分成帧中心重合的长帧和短帧，分别对每一组长帧和短帧信号进行短时傅立叶变换，提取各自的频谱峰值并进行预处理，得到长窗信号的频谱峰值

以及短窗信号的频谱峰值

(2)利用长窗信号的频谱峰值

进行该帧混合信号的主基音初步估计：计算

所有峰值之间的频率间隔并作为潜在基音向量

再利用

每个元素与

中实际峰值频率的误差最小以及谐波数最多的联合约束条件来计算本帧初始主基音Pitch_promi；

(3)利用Pitch_promi、

以及判断本帧信号的个数状态，用状态向量

来表示；其判断过程是根据音频信号的谐波原理以及频谱峰值和频谱能量之间的关系，将混合信号分为四种情况，分别是：情况1，只有一个以Pitch_promi为基音的信号；情况2，只有一个以Pitch_promi的两倍或更高频率为基音值的信号；情况3，以高频基音信号为主能量信号，而以Pitch_promi为基音的信号非主要能量信号；情况4，有两个信号且能量相当；

(4)根据步骤(3)中个数状态向量

进行各种状态下的基音估计。在谐波原理的基础上，利用频谱峰值

以及潜在基音向量

在频率上的整数倍关系，在频率偏差最小和谐波数最多的联合约束条件下，通过选取最优值进行多基音估计；

(5)用每一帧的短时自相关峰值进行估计后的基音的平滑跟踪；

(6)选择每一组对应长帧信号和短帧信号频谱峰值共同的第一峰值和第二峰值(非第一峰值整数倍)处的频谱对步骤(5)中处理过的峰值进行第二次跟踪平滑；

(7)利用连续基音值的相似性和连续谐波峰值相似性，将以上跟踪平滑过后的峰值进行聚类，使其归属到各自的信号。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

本发明采用长、短窗相结合，克服了短时傅立叶变换中时间分辨率和频率分辨率之间的矛盾，避免了由于主瓣太宽而使得某些峰值因相互覆盖而丢失的缺点。同时两步跟踪平滑又使得某些帧中错误估计的基音值得到了校正。

附图说明

图1为本发明所述方法的流程图；

具体实施方式

本发明的一个优选实施例结合附图详细描述如下：

本方法的流程图参见图1，本长短帧联合的混合音频多基音估计方法，是基于谐波模型并结合长短帧信号的频谱来对混合音频信号进行多基音估计，其步骤如下：。

(1)将信号分解成相应的短帧(30ms)和长帧(90ms)信号，其帧中心重合。分别对长帧和短帧信号进行短时傅立叶变换。提取并预处理所有频谱峰值，为了防止低频频谱峰值被误删掉，保留所有500Hz以下的峰值，而对500Hz以上，对其进行200Hz为间隔进行分段，删除小于每个频段中最大值的1/10的峰值。最后得到预处理后的峰值分别为

以及

(2)利用长窗信号的频谱峰值

进行该帧混合信号的主基音初步估计：将

所有峰值之间的频率间隔作为潜在基音向量

在

中分别选择每个元素的整数倍峰值(允许与理想值有15Hz的频率偏差)组成与每个潜在基音值相对应的谐波组合，选取长度最长且平均频率偏差最小的谐波组合所对应的潜在基音值作为本帧初始主基音Pitch_promi。

(3)利用Pitch_promi、

以及

判断本帧信号的个数状态，用状态向量

来表示。其判断过程为：计算短窗峰值

中所有相邻峰值的频率间隔

观察其中是否有大于2·Pitch_promi的值，如果有且数量超过2个，那么说明本帧只有一个高频基音信号，此时置

{\overset{&RightArrow;}{StateJudge}}_{(2 * 1)} = {[\begin{matrix} 1 & 0 \end{matrix}]}^{T};

如果有，但是数量不超过2个，那么说明本帧存在一个高频信号，且占主要量，此时置

{\overset{&RightArrow;}{StateJudge}}_{(2 * 1)} = {[\begin{matrix} 0 & 1 \end{matrix}]}^{T};

如果没有，那么置

{\overset{&RightArrow;}{StateJudge}}_{(2 * 1)} = {[\begin{matrix} 0 & 0 \end{matrix}]}^{T};

若由所有峰值都是

的整数倍，且没有旁瓣效应(奇数倍的谐波峰值总是整个频域峰值的峰谷)，那么该帧只存在以Pitch_promi为主基音的一个信号，此时置

{\overset{&RightArrow;}{StateJudge}}_{(2 * 1)} = {[\begin{matrix} 1 & 1 \end{matrix}]}^{T},

若有明显的旁瓣效应，那么说明该帧只存在一个以2·Pitch_promi为基音的信号，此时置

{\overset{&RightArrow;}{StateJudge}}_{(2 * 1)} = {[\begin{matrix} 1 & 0 \end{matrix}]}^{T} .

(4)根据步骤(3)中信号判断的状态

进行分离，

共有四种状态：(a).当

{\overset{&RightArrow;}{StateJudge}}_{(2 * 1)} = {[\begin{matrix} 1 & 0 \end{matrix}]}^{T}

时，说明此时混合信号中只有一个高频基音信号存在，此时只需要利用短窗帧信号的频谱峰值

以及短窗帧的潜在基音向量

利用计算初始主基音Pitch_promi的方法计算出该高频基音值；(b).当

{\overset{&RightArrow;}{StateJudge}}_{(2 * 1)} = {[\begin{matrix} 0 & 1 \end{matrix}]}^{T}

时，此帧里有两个信号，且高频信号是主信号。利用(a)的方法计算出高频主基音，将高频主基音的整数倍谐波峰值从混合信号长窗帧的频谱峰值里减去，再利用估计

的方法从剩余峰值里估计出另一个信号基音值。(c).当

{\overset{&RightArrow;}{StateJudge}}_{(2 * 1)} = {[\begin{matrix} 1 & 1 \end{matrix}]}^{T}

说明此帧只有一个信号，且其基音值就是Pitch_promi。(d).当

{\overset{&RightArrow;}{StateJudge}}_{(2 * 1)} = {[\begin{matrix} 0 & 0 \end{matrix}]}^{T},

此时不好判断该帧的信号个数，就按一般的步骤，将(3)中估计的初始主基音的整数倍频谱峰值，从混合信号的长帧频谱峰值里减去，利用(a)的方法继续从剩余峰值里估计出另一个信号的基音频率。

(5)用混合信号的短时自相关计算得到的主基音值Pitch_auto来跟踪平滑步骤(4)中初步估计出来的频谱峰值。根据Pitch_auto中连续的基音值进行分段用一个分段与其对应的初步估计出来的基音值相对照，如果此此分段符合整个初步估计出的基音值的平均值范围，就用Pitch_auto中的此分段代替其中之一信号的基音值。

(6)用混合信号的长窗帧和短窗帧的共同的第一峰值和第二峰值(非第一峰值整数倍，若是就放弃，继续向高频寻找)作为另一组跟踪平滑用的粗略基音频率。将已经估计好的基音值中的孤立的或者缺失的基音值，用此粗略基音频率来代替。

(7)基音值聚类，使其归属各自的信号。将相邻帧之间的基音值小于15Hz的基音值归并到一个段，再计算每个段的平均值Pitch_ave，将相邻段间连续变化没有突变的Pitch_ave的段归并到一个信号。继而用基音值所对应的谐波组合的相似性进一步聚类。

Claims

1.长短帧联合的混合音频信号多基音估计方法，其特征在于基于谐波模型并结合长、短帧信号的频谱来对混合音频信号进行多基音估计，其步骤如下：

(1)将混合音频信号分成帧中心相对应的长帧和短帧，分别对每一组长帧和短帧信号进行短时傅立叶变换，提取各自的频谱峰值并进行预处理，得到长窗信号的频谱峰值

以及短窗信号的频谱峰值

(2)利用长窗信号的频谱峰值

进行该帧混合信号的主基音初步估计：计算

所有峰值之间的频率间隔并作为潜在基音向量

再利用每个元素与中实际峰值频率的误差最小以及谐波数最多的联合约束条件来计算本帧初始主基音pitch_promi；

(3)利用pitch_promi、

以及

判断本帧信号的个数状态，用状态向量

来表示；其判断过程是根据音频信号的谐波原理以及频谱峰值和频谱能量之间的关系，将混合信号分为四种情况，分别是：情况1，只有一个以Pitch_promi为基音的信号；情况2，只有一个以pitch_promi的两倍或更高频率为基音值的信号；情况3，以高频基音信号为主能量信号，而以Pitch_promi为基音的信号是非主要能量信号；情况4，有两个信号且能量相当；

(4)根据步骤(3)中个数状态向量

进行各种状态下的基音估计，在谐波原理的基础上，利用频谱峰值

以及潜在基音向量

(6)选择每一组对应长帧信号和短帧信号频谱峰值共同的第一峰值和第二峰值处的频谱对步骤(5)中处理后的基音进行第二次跟踪平滑，其中第二峰值非第一峰值整数倍；