CN105469807B

CN105469807B - 一种多基频提取方法及装置

Info

Publication number: CN105469807B
Application number: CN201511023725.3A
Authority: CN
Inventors: 刘文举; 江巍; 王天正; 李�杰; 梁基重; 李艳鹏; 乔利玮; 刘元华
Original assignee: Shanxi Zhenzhong Electric Power Co ltd; Institute of Automation of Chinese Academy of Science; Electric Power Research Institute of State Grid Shanxi Electric Power Co Ltd
Current assignee: Shanxi Zhenzhong Electric Power Co ltd; Institute of Automation of Chinese Academy of Science; Electric Power Research Institute of State Grid Shanxi Electric Power Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2019-04-02
Anticipated expiration: 2035-12-30
Also published as: CN105469807A

Abstract

本发明公开了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法及装置。方法包括：用听觉滤波器组对语音信号进行滤波，对滤波后的信号进行分帧；在听觉谱的各时频单元上计算自相关函数；在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率；在各瞬时频率的基础上计算频率匹配函数；用频率匹配函数构建各基频状态的似然概率，并使用语料库统计各基频状态和基频数值之间的转移概率；将所述各基频状态的似然概率进行增强，然后将增强后的所述似然概率与对应的转移概率结合，并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。

Description

一种多基频提取方法及装置

技术领域

本发明涉及数字信号处理经验模式分解、语音信号滤波器组分析、语音信号基音频率提取、隐马尔可夫模型似然概率及转移概率的构建。

背景技术

基音频率(pitch)的提取及其轨迹的追踪对诸多语音及音频信号处理技术都有重要意义，比如音频检索及分类、汉语语调识别以及单通道语音分离技术等。现在已经存在一些性能很好的用于检测纯净或有少量噪声的语音中的单一基频的基频提取算法。但单一基频的假设使得这类算法无法在语音中同时存在多个基频的情况下使用，比如两个说话人同时说话的情况或者说话人背景中有音乐存在的情况，而在致力于解决鸡尾酒会问题的计算听觉场景分析(CASA)技术中，多基频提取和追踪常常更是有效地进行语音分割和组织的重要基础。

隐马尔科夫模型很早就被用于追踪基音轨迹的连续性。HMM模型在80年代就曾被利用来判决混合语音中每帧的基频个数；2003年，真实基音周期与自相关函数的峰值之间的距离被用于基频状态的似然函数建模并出现了一个基于隐马尔可夫模型的多基音提取算法。2013年，自相关函数峰值的高度信息被直接用于构建基频分布的势函数，多基频提取算法的性能得以进一步提升。上述算法的共同特点是多基频追踪过程中使用的中层表达特征都基于听觉谱图(cochleagram)，具体来讲，基频状态的似然概率函数都是从自相关谱图(correlogram)上提取的，并且他们使用的主要是峰值附近的局部特征。

听觉谱图的主要特点是低频分辨率较高，高频分辨率较低，听觉滤波器组的高频通道通常同时响应语音中的多次谐波，因此高频通道的响应通常会受到幅度调制效应(AM)的影响。在单基频提取的情形下，高频通道中的幅度调制效应产生的幅度包络以及包络的峰值都提供了原基音频率的信息。但是，在多基频提取的情形下，一个时频单元中却可能同时存在着能量相近但分属于不同基音频率的高次谐波，这样就会造成其幅度调制率不属于任何一个基音频率的谐波的情况，这将使得相应自相关函数的峰值高度和峰值位置发生错误的偏移，从而对多基音频率的提取产生消极的影响。

发明内容

有鉴于此，为了克服基频提取过程中经常发生的倍周期错误问题以及上述提及的其他问题，本发明提出了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法。

根据本发明一方面，提供了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法，其特征在于，包括下列步骤：

步骤1：用听觉滤波器组对语音信号进行滤波，对滤波后的信号进行分帧，得到语音信号的二维时频表达即听觉谱；

步骤2：在听觉谱的各时频单元上计算自相关函数；

步骤3：对各时频单元的自相关函数进行经验模式分解，并在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率；

步骤4：在各瞬时频率的基础上计算频率匹配函数；

步骤5：用频率匹配函数构建各基频状态的似然概率，并使用语料库统计各基频状态和基频数值之间的转移概率；所述各基频状态包括单基频状态和双基频状态；

步骤6：将所述各基频状态的似然概率进行增强，然后将增强后的所述似然概率与对应的转移概率结合，并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。

根据本发明另一方面，提供了一种基于经验模式分解和隐马尔可夫模型的多基频提取装置，其特征在于，包括：

预处理模块，其用听觉滤波器组对语音信号进行滤波，对滤波后的信号进行分帧，得到语音信号的二维时频表达即听觉谱；

自相关函数计算模块，其在听觉谱的各时频单元上计算自相关函数；

瞬时频率计算模块，其对各时频单元的自相关函数进行经验模式分解，并在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率；

频率匹配函数计算模块，其在各瞬时频率的基础上计算频率匹配函数；

似然概率和转移概率计算模块，其用频率匹配函数构建各基频状态的似然概率，并使用语料库统计各基频状态和基频数值之间的转移概率；所述各基频状态包括单基频状态和双基频状态；

轨迹提取模块，其将所述各基频状态的似然概率进行增强，然后将增强后的所述似然概率与对应的转移概率结合，并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。

本发明提出的上述方案为了抑制多基频提取过程中gammatone滤波器组的高频通道中发生的不利幅度调制效应，在计算隐马尔可夫模型中的基音状态似然概率的过程中用频率匹配函数代替了自相关函数。另一方面，与自相关函数的峰值位置和峰值高度相比，时频单元的平均瞬时频率更不易受到噪声以及幅度调制效应的影响，本发明在平均瞬时频率基础上提取的频率匹配函数在多基音频率的提取过程中表现得更加可靠，最终使得多基频提取算法的得到提升。

此外，倍周期错误是基频提取过程中经常遇到的一种错误，针对这个问题，本发明提出的上述方法通过一种增强过程来降低频率匹配函数在倍周期位置处的峰值高度，使得倍周期候选点的似然概率降低，从而降低倍周期错误发生的概率。

总之，本发明通过对不利幅度调制效应和倍周期错误概率的抑制，结合在语料库上统计得到的基音状态转移概率，采用隐马尔可夫模型解码的方式得到了双基音频率的轨迹。

附图说明

本发明进一步的特色和优点将参考说明性的附图在下面描述。

图1是本发明提出的基于经验模式分解和隐马尔科夫模型的多基频提取方法的流程图；

图2是现有技术中一个计算各时频单元的自相关函数的流程图；

图3是本发明中一个计算各时频单元的频率匹配函数的流程图；

图4是一个利用频率匹配函数构建基频状态似然概率的流程图；

图5是一个对基频状态似然函数进行增强的流程图；

图6是一个利用隐马尔可夫模型进行多基频提取的流程图。

具体实施方式

应当理解，不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例；被描述的说明性实施例仅仅是例证本发明的各个步骤，其范围由附加的权利要求来定义。

本发明通过对语音二维听觉谱图中时频单元的自相关函数进行经验模式分解，得到主导瞬时频率，并在其基础上计算频率匹配函数。与自相关函数相比，频率匹配函数可以克服多基频提取时高频gammatone滤波器组通道中不利的幅度调制效应，因此在频率匹配函数基础上构建的基频状态似然函数更加稳定和可靠。利用构建的基频状态似然函数和基频语料库中统计得到的基频状态转移函数，可以通过Viterbi解码的方式，通过隐马尔可夫模型进行多基频轨迹提取。

如图1所述，本发明提出了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法，该方法的具体步骤如下：

步骤1：用听觉滤波器组对语音信号进行滤波，并对滤波后的语音信号进行分帧得到语音信号的二维时频表达即听觉谱；

步骤2：在听觉谱的各时频单元上计算自相关函数；

步骤3：对各时频单元的自相关函数进行经验模式分解，并在经验模式分解得到的第一本质模态函数的基础上计算各时频单元主导声源的瞬时频率；

步骤4：在瞬时频率的基础上计算频率匹配函数；

步骤5：用频率匹配函数构建各帧基频状态的似然概率，并使用语料库统计各帧基频状态和基频数值之间的转移概率；

步骤6：将似然概率进行增强以进行降低倍周期错误，然后将增强后的似然概率与转移概率结合，并使用隐马尔可夫模型对当前语音的多基频轨迹进行提取。

其中，步骤1中所述用听觉滤波器组对语音信号进行滤波，并得到语音信号的二维时频表达即听觉谱，是通过听觉滤波器组对一维的语音信号进行滤波并加窗分帧得到二维时频表达，所述二维时频表达的其中一维表示语音信号的时间维度(对应语音帧号)，另一维表示频率维度(对应通道序号)。

所述听觉滤波器组是一种模仿耳蜗听觉感知机理的模型，该滤波器的时域冲击响应为如式(1)所示，其中滤波器中心频率分布在0Hz到3000Hz之间。

其中，t表示时间，滤波器阶数l＝4，f为滤波器中心频率，b为等效矩形带宽。

如图2所示，语音信号经过上述滤波器组滤波，滤波器组中各个滤波器的输出均为与原始语音信号长度相同的时域信号。对各滤波通道的输出进行加窗处理，典型的窗长实施为20ms，由此便可以得到原始语音信号的二维时频表达即听觉谱图即cochleagram，可以用C(c，m)来表示，其中c表示滤波器通道序号，m表示语音帧序号。

步骤2中所述在听觉谱的各时频单元上计算自相关函数，计算公式如式(2)所示。

其中，h(c，·)是第c个通道内相应gammatone滤波器的输出，m是语音帧序号，n表示离散时间点，τ是延迟时间点，T表示每帧语音信号对应的采样点数，W表示离散点个数。

由于不同通道的相应滤波器是不同的，因此各通道滤波器的输出信号所产生的延迟是不同的。通过自相关函数的计算，可以起到各通道相位对齐的作用。

步骤3中所述对各时频单元的自相关函数进行经验模式分解，并在经验模式分解得到的第一本质模态函数的基础上计算各时频单元主导声源的瞬时频率，具体包括如下步骤：

利用希尔伯特-黄变换将原始自相关函数分解为一系列本质模态函数，并根据听觉掩蔽效应，选取第一个分解出的本质模态函数的频率作为该时频单元中主导声源的瞬时频率。

如图3所示，步骤4中所述在瞬时频率的基础上计算频率匹配函数，该函数作为基频提取过程中的中层表达，可以描述当前时频单元的平均瞬时频率与各个候选基音频率匹配的程度，其计算公式如式(3)所示。

其中，表示位于第m帧的第c个通道的时频单元的平均瞬时频率，τ表示候选的基音周期(也就是所述考虑范围内的延迟时间点)，int(·)为取整函数，返回最近的整数值。

如图4所示，步骤5中所述用频率匹配函数构建各帧基频状态的似然概率，并使用语料库统计各基频状态和基频数值之间的转移概率，具体包括如下步骤：

首先，在频率匹配函数的基础上构建各基频状态的似然概率，即观测概率，时频单元u(c，m)中存在单个基音周期τ₁的似然概率如式(4)所示。时频单元u(c，m)中同时存在两个个基音周期τ₁和τ₂的似然概率如式(5)所示。

其中，x表示观测到的语音信号，ω₁、ω₂分别为单基音频率状态和双基音频率状态；L(c，m)为各时频单元的归一化响度；Φ_c为二维时频表达中的通道序号集合；

在上述公式中，L(c，m)是各时频单元的归一化响度，其计算公式如下：

其中，E(c，m)表示时频单元u(c，m)的能量，N是滤波器组的通道个数。

其次，每帧的基音频率的状态可能存在于三种空间之中，即零基频、单基频和双基频空间：

Ω＝Ω₀∪Ω₁∪Ω₂

三个基频状态之间的转移概率是通过带有基频标注的数据库统计得到的：

其中，Ω_i基频状态空间，p_ij表示从基频状态空间Ω_i到基频状态空间Ω_j的转移概率。

步骤6中所述将似然概率进行增强以进行降低倍周期错误，然后将增强后的似然概率与转移概率结合，并使用隐马尔可夫模型对当前语音的多基频轨迹进行提取，如图5所示，步骤包括：

首先，对单基频似然概率函数进行增强，公式为式(7)所示：

其中，m的范围是2～7，表示只针对2～7倍的谐波引起的倍周期错误进行增强，α为预定系数，采用0.6～0.8之间的数值。

该式表示的意义是对一个单基频状态的似然概率进行增强，本发明在公式(4)中的候选基音周期τ₁的1/m位置处的函数值中找到最大的那个值，对该数值乘上一个系数并把乘积结果作为频率匹配调整值，所述系数可以采用0.6～0.8之间的数值，然后在原候选基音周期点处的频率匹配函数值上减去调整值得到增强后的频率匹配函数值。

其次，对双基频似然概率函数进行增强，为此，先把双基频似然概率写为两个函数的加和形式如式(8)所示：

g(x|{τ₁，τ₂})＝p(x|{τ₁})+p_r(τ₁，τ₂) (8)

其中，

上述公式中，τ₁和τ₂为两个候选的基音周期点，g(x|{τ₁，τ₂})表示在这两个候选基音周期点上观测到语音信号x的似然概率。

然后，对两个函数分别按公式(7)的方法进行增强，并得到式(10)的结果：

g_en(x|{τ₁，τ₂})＝p_en(x|{τ₁})+p_{r_en}(τ₁，τ₂) (10)

其中，p_en(x|{τ₁})表示对p(x|{τ₁})增强后的结果，p_{r_en}(τ₁，τ₂)表示对p_r(τ₁，τ₂)增强后的结果。

如图6所示，将本步骤中得到的增强后的似然概率与步骤5中得到的三种基频状态转移概率进行联合，就可以通过隐马尔可夫模型的Vit_erbi解码过程来得到多基频轨迹了。需要注意的是，基频状态空间一共有三种状态，但是本步骤只对其中两个状态的似然概率进行了计算，这是因为基频的零状态(也就是没有基频的状态)似然概率是个预先设定的常数，无需进行计算和增强。

根据本说明书，本发明进一步地修改和变化对于所述领域的技术人员是显而易见的。因此，本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解，本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。

Claims

1.一种基于经验模式分解和隐马尔可夫模型的多基频提取方法，其特征在于，包括下列步骤：

步骤2：在听觉谱的各时频单元上计算自相关函数；

步骤4：在各瞬时频率的基础上计算频率匹配函数；

2.如权利要求1所述的方法，其特征在于，步骤1中利用听觉滤波器组对语音信号进行滤波，所述听觉滤波器组中的各滤波器的输出均为与所述语音信号长度相同的时域信号，对所述各滤波器的输出加窗分帧处理，得到所述语音信号的二维时频表达。

3.如权利要求1所述的方法，其特征在于，步骤2中所述在听觉谱的各时频单元的自相关函数按如下公式进行计算：

其中，h(c，·)是第c个滤波器通道内所述听觉滤波器组中相应滤波器的输出，m是语音帧序号，n表示离散时间点，τ是延迟时间点，T表示每帧语音信号对应的采样点数，W表示离散点个数。

4.如权利要求1所述的方法，其特征在于，步骤3中所述在各时频单元的自相关函数上进行经验模式分解，步骤包括：

利用希尔伯特-黄变换将所述自相关函数分解为一系列本质模态函数，并根据听觉掩蔽效应，将第一个分解出的本质模态函数的频率作为该时频单元中主导声源的瞬时频率。

5.如权利要求1所述的方法，其特征在于，步骤4中所述频率匹配函数用于描述当前时频单元的平均瞬时频率与各个候选基音频率匹配的程度，其计算公式如下：

其中，表示位于第m帧第c个通道的时频单元的平均瞬时频率，τ表示候选的基音周期，int(·)为取整函数，返回最近的整数值。

6.如权利要求1所述的方法，其特征在于，步骤5具体包括：

首先，在频率匹配函数的基础上构建各基频状态的似然概率，第m帧的第c个通道的时频单元u(c，m)中存在单个基音周期τ₁的似然概率如下：

时频单元u(c，m)中同时存在两个基音周期τ₁和τ₂的似然概率如下：

其中，x表示语音信号，ω₁、ω₂分别为单基音频率状态和双基音频率状态；L(c，m)为各时频单元的归一化响度；Φ_c为二维时频表达中的通道序号集合，F(c，m，τ₁)为所述频率匹配函数；

其中，E(c，m)表示时频单元u(c，m)的能量，N是滤波器组的通道个数；

Ω＝Ω₀∪Ω₁∪Ω₂

7.如权利要求1所述的方法，其特征在于，步骤6中对各基频状态的似然概率进行增强，具体步骤如下：

首先，对单基频似然概率函数进行增强，公式为：

其中，m的范围是2～7，表示只针对2～7倍的谐波引起的倍周期错误进行增强，α为预定系数，p(x|{τ₁})表示基音周期为τ₁时观测到当前语音信号x的单基频似然概率；p_en(x|{τ₁})为增强后的单基频似然概率；

其次，对双基频状态的似然概率函数进行增强，为此，先把双基频状态的似然概率写为两个函数p(x|{τ₁})和p_r(τ₁，τ₂)的加和形式：

g(x|{τ₁，τ₂})＝p(x|{τ₁})+p_r(τ₁，τ₂) (8)

其中，p(x|{τ₁})为单基频状态的似然概率，F(c，m，τ_i)为频率匹配函数，L(c，m)是各时频单元的归一化响度，c为通道号；

然后，对两个函数p(x|{τ₁})和p_r(τ₁，τ₂)分别按公式(7)的方法进行增强，并得到双基频状态的似然概率：

g_en(x|{τ₁，τ₂})＝p_en(x|{τ₁})+p_{r_en}(τ₁，τ₂) (10)

其中，g_en(x|{τ₁，τ₂})为增强后的双基频状态的似然概率，p_en(x|{τ₁})和p_{r_en}(τ₁，τ₂)分别为对p(x|{τ₁})和p_r(τ₁，τ₂)增强后的值。

8.一种基于经验模式分解和隐马尔可夫模型的多基频提取装置，其特征在于，包括：