CN101714354A

CN101714354A - 一种由时频原子聚合生成时频分子的方法

Info

Publication number: CN101714354A
Application number: CN200910232047A
Authority: CN
Inventors: 于凤芹
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2009-11-27
Filing date: 2009-11-27
Publication date: 2010-05-26
Anticipated expiration: 2029-11-27
Also published as: CN101714354B

Abstract

本发明提出在自适应信号时频表示过程中，使用时频分子作为最小分析单元代替现在普遍使用的时频原子，并给出一种由时频原子聚合生成时频分子的方法。通过时频分子分解信号可获得信号的稀疏表示和结构化特征信息，而这些结构化信息对于信号特征抽取、信号压缩、模式识别等后续分析处理是重要的。

Description

一种由时频原子聚合生成时频分子的方法

技术领域

本发明涉及自适应信号的时频表示，尤其是一种由时频原子聚合生成时频分子的方法。

背景技术

信号的稀疏分解是用尽可能少的几个基本信号来逼近该信号，且这些基本信号能够刻画该信号的结构化特征。相对于传统的正交基信号分解，使用与待分析信号局部时频结构相关的时频原子来表示信号的过程，称为信号的时频原子分解方法，并用这些时频原子的时频分布来逼近原始信号的时频能量分布，而时频原子的集合称为时频原子字典。

时频原子是将各种算子作用于基本函数得到，这些算子用来匹配非平稳信号的局部时频特性，如时移算子和频移算子确定时间和频率的局部区域；比例算子使基函数与信号的时间支撑区和频率支撑区匹配；频率切变算子分析信号中频率随时间变化特性；时间切变算子则是对不同频率的信号成分产生不同的时间延迟。作用于基本函数的算子越多，时频原子能够匹配或逼近的信号局部时频结构的能力越强，但同时也使时频原子的参数增多，从而使寻找最佳时频原子就越困难。目前主要有Gabor时频原子和Chirp时频原子。Gabor时频原子是对单位高斯函数进行比例、时移、频移得到的，因其频率不变，使用多个Gabor原子才能逼近一个频率变化成分，因而这种分解结果不是稀疏的，更无法反映信号固有的真实结构。对单位高斯函数进行比例、旋转、时移和频移得到四参数表示的Chirp时频原子，它在时频平面是不同斜率的直线，用Chirp原子分解信号相当于对时频平面任意能量曲线用线段逼近，提高了逼近的稀疏性。

相对于正交基而言，时频原子的数量比基函数数量多得多，即时频原子相互间是极其冗余的，时频原子字典是过完备的。在数学上，用过完备集合表示一个函数的最优逼近被定义是一个无解的难题，理论上只能得到一个次优化的逼近解。匹配追踪算法通过寻找信号局部与时频原子的最大内积来选择N个最优时频原子来逼近信号，它是一种局部优化的贪婪迭代算法。由于时频原子的冗余性和时频原子参数的高维性，匹配追踪算法采用遍历式耗尽搜索最佳时频原子，计算量大导致速度慢，且搜索过程的局部贪婪性还易引起过匹配现象，即当信号中几种时频成分混在一起时，由于匹配追踪算法不是从总体上求解优化问题，而是通过迭代逐次提炼出信号的近似部分，使贪婪算法在每一步分解中都必须选择出与信号局部最相关的时频原子，造成虚假的或贪婪的时频原子被选出来，这样抽取的时频原子特征并不与信号的固有结构相对应；用这些时频原子来表示信号既不是稀疏的，也失去了表征和解释信号物理意义的能力，这样的信号时频原子分解显然不适合信号特征提取和信号稀疏逼近等后续分析与处理目的。

信号的特征存在于不同粒度的描述，从信号稀疏逼近、特征提取、压缩编码等角度看，粒度大小应与信号固有的最大结构一致为宜。现在的时频原子分解方法造成以上弊端的根本原因在于，其一，使用过小的粒度描述而没有考虑和有效利用时频原子之间的内在联系；其二，耗尽式搜索过程没有利用预先得知的信号固有的结构化信息。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种由时频原子聚合生成时频分子的方法，提出在自适应信号时频表示过程中，使用时频分子作为最小分析单元代替现在普遍使用的时频原子。

按照本发明提供的技术方案，所述由时频原子聚合生成时频分子的方法包括：

(1)将语音波形分成浊音帧和清音帧；

(2)提取浊音帧和清音帧固有的结构化时频信息；

(3)使用预估计的匹配追踪算法对清音帧进行三参数Chirp时频原子分解；

(4)利用Hilbert-Huang变换对浊音帧进行固有模态分解，以基因频率为已知参数对浊音帧进行正弦原子分解；

(5)计算时频原子的相似度，分别由正弦时频原子、Chirp时频原子聚合生成正弦时频分子、Chirp时频分子，得到清音帧和浊音帧的结构化时频特征。

所述三参数Chirp时频原子分解用三个参数表示Chirp时频原子，方法是：利用分数阶傅立叶变换定义一个旋转算子，使信号旋转到分数阶域；令旋转后的信号沿旋转的方向径向移动，得到旋转-径向移位复合算子；将比例算子、旋转-径向移位复合算子作用于单位高斯函数，得到用比例参数、旋转参数、径向移位参数三个参数表示的Chrip原子。

所述三参数Chirp时频原子分解搜索最佳三参数Chirp时频原子的方法是：先估计最佳时频原子的旋转方位，并假定在大比例参数下，三参数最佳Chirp原子的搜索就变成了径向移位一个参数的搜索，将多维搜索逐步分解成一维参数的搜索。

所述对浊音帧进行正弦原子分解的方法是：首先，利用经验模态分解方法对浊音段语音信号进行经验模态分解，得到一簇固有模态函数；然后，求取各个固有模态函数的瞬时频率和瞬时幅度和瞬时频率加权能量函数并对其求导数，由于在声门脉冲发生时刻，瞬时能量一定增加而其瞬时能量的导数大于某个正数，对瞬时能量函数的导数已经过阈值处理后，其局部极大值发生的时刻即被认为是声门脉冲发生的时刻；最后，计算局部极大值的时间间隔得到基音周期和基音频率。

所述由正弦时频原子、Chirp时频原子聚合生成正弦时频分子、Chirp时频分子，即由一簇时频原子聚合生成时频分子采用聚类算法。

本发明的优点是：在自适应信号时频表示过程中，使用时频分子作为最小分析单元，通过时频分子分解信号可获得信号的稀疏表示和结构化特征信息，而这些结构化信息对于信号特征抽取、信号压缩、模式识别等后续分析处理是重要的。

附图说明

图1是将语音信号进行时频原子分解并由时频原子聚合生成时频分子方法的流程图。

具体实施方式

语音信号由谐波成分和瞬变成分构成已成共识。语音信号在时频平面的分布泄漏出语音信号固有的时频结构信息，即语音中的谐波成分在时频平面呈现一簇水平平行的线段，而瞬变成分则体现一簇倾斜平行的线段。现有的基于时频原子分析方法，必须使用一组相互关联的时频原子才能表示一个完整的谐波成分或者瞬变成分。借用“物质组成中分子由原子组成、而分子是保持物质性质不变的最小单位”这一概念，我将这一簇时频原子称为时频分子。本发明使用时频分子作为最小的分析单元来表示信号固有的时频结构化信息，即对语音信号中的谐波成分使用正弦时频分子、对瞬变成分使用Chirp时频分子分别作为基本构建块进行分析，以得到信号的稀疏表示和提取信号的结构化特征。

为了同时扑捉语音信号中的宏结构成分和微结构成分，首先使用正弦时频原子分解语音中的谐波成分；使用Chirp时频原子逼近语音中瞬变成分。然后研究得到的正弦时频原子、Chirp时频原子的参数分布特点，通过定义原子之间的相似度距离函数，采用聚类算法将一系列相关的时频原子聚合生成一个的时频分子。对于参数相同或相近的时频原子进行聚类分析，聚合过程的依据是不同语音段在时频平面呈现的固有时频结构，即对于谐波成分使用一个正弦时频分子代替一簇正弦时频原子，对于瞬变成分使用一个Chirp时频分子代替一簇Chirp时频原子。把在时频平面上性质相同参数相近的一簇时频原子用一个时频分子来描述，用不同的粒度分析信号，既能扑捉信号中的微结构又能刻画信号中的宏成分；由一簇时频原子聚合生成一个时频分子，不仅可以减少时频原子的数量，而时频分子的结构化参数反映了信号产生的机理，它与信号的物理意义解释相对应。

本发明在使用Chirp时频原子分解语音中的瞬变成分过程中，使用尽可能少的参数表示的Chirp时频原子，并通过预先估计Chirp时频原子参数来代替对每个参数的耗尽式搜索，以降低搜索最佳Chirp原子的计算复杂性，缩短搜索时间。用三个参数表示Chirp时频原子的方法是：利用分数阶傅立叶变换定义一个旋转算子，使信号旋转到分数阶域；令旋转后的信号沿旋转的方向径向移动，得到旋转-径向移位复合算子；将比例算子、旋转-径向移位复合算子作用于单位高斯函数，得到用比例参数、旋转参数、径向移位参数三个参数表示的Chrip原子。搜索最佳三参数Chirp时频原子的方法是：先估计最佳时频原子的旋转方位，并假定在大比例参数下，三参数最佳Chirp原子的搜索就变成了径向移位一个参数的搜索，将多维搜索逐步分解成一维参数的搜索。具体实现方法是：首先，利用Chirp信号的分数阶傅立叶变换在其调频斜率处呈现冲激函数这一特征，先估计最佳Chirp原子的线性调频斜率，即它在时频平面最可能的旋转方位；因为高斯函数形状由比例参数控制，比例参数越大，高斯函数在时频平面就越细越长，高斯函数也就越逼近Chirp函数。然后，取一个大比例参数，使Chirp原子只沿着最佳旋转方位径向移动来调整其时频中心，使其与被分析信号达到最大程度地相关。最后，在最佳旋转角度和径向移位参数不变的情况下，进一步优化比例参数，即局部调整最佳Chirp原子的时频宽度，来得到最佳三参数Chirp原子。

本发明在在使用正弦时频原子分解语音中的谐波成分过程中，使用Hilbert-Huang变换预先得到基因频率后，再搜索正弦时频原子的其他参数。语音中的谐波成分是当发浊音时形成的，气流通过声门使声带振动而产生准周期激励脉冲串，这些脉冲串的周期就是基音周期，其倒数就是基音频率。Hilbert-Huang变换的经验模态分解具有自适应带通滤波特性，由它分解出来的固有模态函数是均值为零的窄带调频-调幅信号，这与语音信号的调幅调频模型相吻合，当语音信号经过经验模态分解后，它的基因和共振峰分布在某些固有模态函数里。具体实现方法是：首先，利用经验模态分解方法对浊音段语音信号进行经验模态分解，得到一簇固有模态函数；然后，求取各个固有模态函数的瞬时频率和瞬时幅度和瞬时频率加权能量函数并对其求导数，由于在声门脉冲发生时刻，瞬时能量一定增加而其瞬时能量的导数大于某个正数，对瞬时能量函数的导数以经过阈值处理后，其局部极大值发生的时刻就被认为是声门脉冲发生的时刻。最后，计算局部极大值的时间间隔就可得到基音周期和基音频率。

由于聚类的目的是发现样本点之间最本质的抱团性质的一种客观反映，本发明由一簇时频原子聚合生成时频分子就是采用聚类算法。聚类算法由特征选择、相似性度量、聚类算法、结果验证和判断组成。聚类分析以相似性为基础，同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。通过定义原子与原子之间的一致性度量函数，将性质相同参数相近的一簇原子聚合成为分子。本发明采用K-means聚类算法，具体实现方法和过程是：先指定聚合生成的时频分子数目，即聚类数目K作为迭代次数或收敛条件，并指定K个初始聚类中心，根据一定的相似性度量准则，将每一个时频原子分配到最近或“相似”的聚类中心形成类，然后以每一类的平均矢量作为这一类的聚类中心，重新分配，反复迭代直到类收敛或达到最大的迭代次数，即生成一个时频分子。K-means聚类算法对初始聚类中心依赖性比较大，随机选取初始聚类中心可能使得初始聚类中心得到的分类严重偏离全局最优分类，这样使算法陷入局部最优值，这时要经过多次聚类才有可能达到较满意的结果。本发明使用预先估计得到的正弦时频原子的频率、Chirp时频原子的旋转参数作为初始化K-means聚类中心，此方法有效地排除了随机初始化过程中引入的随机性因素，而且，这种初始化方式也能够利用数据中的类结构信息，使得聚类质量相对于随机初始化时的平均质量有显著的提高。

如图1所示，下面给出生成时频分子的具体方法：

步骤一：将语音波形分成浊音帧和清音帧。

因为清音和浊音的发声机理不同，其呈现的信号形式不同，浊音由于音源的准周期性和声道的共振而明显呈现准周期性，并且携带声调信息，而清音呈现类似噪声特性的瞬态特点，对这两类特征不同的信号使用不同的时频原子和进行分解。

步骤二：提取浊音帧和清音帧固有的结构化时频信息。

利用现有魏格纳-威利分布、长窗谱图、短窗谱图等时频分布对浊音帧和清音帧进行时频分析，观察浊音帧和清音帧在时频平面上呈现的结构时频特征。从直观上来验证：清音帧在时频平面上呈现一簇倾斜平行、而浊音帧在时频平面上呈现一簇水平平行的固有时频结构。

步骤三：使用预估计的匹配追踪算法对清音帧进行三参数Chirp时频原子分解。具体步骤：

步骤1：预先估计三参数Chirp原子的最佳旋转参数：以适当的步长对信号作连续分数阶傅立叶变换，在适当的阈值下搜索局部最大值，若最大值存在，则将对应的分数阶傅立叶变换的阶数转换成相对应的角度，送入最佳Chirp原子的旋转参数集合中，直至分数阶傅立叶变换的角度的变化范围为[-π，π]，得到最佳旋转参数集合为{φ_i，i＝1，2，…M}。

步骤2：搜索三参数Chirp原子的最佳径向移位参数：对于由步骤1得到的每一个φ_i，先选择一个较大的固定的比例值α，以便得到较细长的Chirp原子，搜索最佳径向移位参数。在搜索过程中，采用模拟变焦距过程，径向移动参数ρ的步长可从大到小改变，使原子与信号的相关函数最大，直到

不再增大为止，从而确定最佳径向移位参数，即确定最佳Chirp原子的时频中心，同时得到最佳时移和频移参数。

步骤3：局部优化三参数Chirp原子的最佳比例参数：对由步骤1、2确定的每一组旋转参数和径向位移参数，局部地改变比例参数α的值，使

不再增大为止。过程类似于小波变换，比例参数可以采用a′＝2^-ka，k＝1，2，…，进行局部优化。

步骤四：利用Hilbert-Huang变换对浊音帧进行固有模态分解，以基因频率为已知参数对浊音帧进行正弦原子分解。具体步骤：

步骤1：对浊音帧进行固有模态分解，得到一系列固有模态函数c_i(t)。

步骤2：对固有模态函数c_i(t)进行Hilbert变换，并求得每个固有模态分量的瞬时幅度a_i(t)、瞬时相位函数φ_i(t)、瞬时频率函数ω_i(t)。

对每个固有模态函数c_i(t)进行Hilbert变换，得到

{\hat{c}}_{i} (t) = \frac{1}{π} {&Integral;}_{- \infty}^{\infty} \frac{c_{i} (t)}{t - τ} dt - - - (1)

构造解析信号

z_{i} (t) = c_{i} (t) + j {\hat{c}}_{i} (t) = a_{i} (t) e^{j φ_{i} (t)} - - - (2)

瞬时幅值函数

a_{i} (t) = \sqrt{{c_{i}}^{2} + {\hat{c}}_{i}^{2} (t)} - - - (3)

瞬时相位函数

φ_{i} (t) = \arctan \frac{{\hat{c}}_{i} (t)}{c_{i} (t)} - - - (4)

进一步可以求出瞬时频率函数

ω_{i} (t) = \frac{d φ_{i} (t)}{dt} - - - (5)

步骤3：按照公式(6)计算称为Hilbert谱，这里RP表示取实部，并用公式(7)求Hilbert谱H(ω，t)的瞬时频率加权能量FIE(t)函数：

H (ω, t) = RP Σ_{i = 1}^{n} a_{i} (t) e^{j {&Integral; ω}_{i} (t) dt} - - - (6)

FIE (t) = \underset{ω}{&Integral;} {(H (ω, t) \times ω (t))}^{2} dω - - - (7)

步骤4：求瞬时频率加权能量FIE(t)的导数DFIE(t)，并对DFIE(t)进行阈值判断。在声门脉冲发生时刻，瞬时能量一定增加，使其一阶导数一定大于某个正数，通过对瞬时能量一阶导数值进行阈值判断处理，求经过阈值判断后的DFIE(t)的局部极大值，计算各个局部极大值的时间间隔就可求得基音频率。

步骤五：计算时频原子的相似度，分别由正弦时频原子、Chirp时频原子聚合生成正弦时频分子、Chirp时频分子，得到清音帧和浊音帧的结构化时频特征。

步骤1：使用预先估计得到的正弦时频原子的频率、Chirp时频原子的旋转参数作为初始化K-means聚类中心。

步骤2：使用欧氏距离度量两个时频原子之间的非相似性。

步骤3：使用K-means聚类算法揭示时频原子集中的聚类结构，即由时频原子聚合成时频分子。

步骤4：采用误差平方和准则函数判断聚类是否合理，不合理则修改分类。循环进行判断、修改直至达到算法终止条件。

步骤5：根据步骤二得到的浊音帧和清音帧固有的结构化时频信息，判断聚类是否合理。

Claims

1.一种由时频原子聚合生成时频分子的方法，其特征是包括如下步骤：

(1)将语音波形分成浊音帧和清音帧；

(2)提取浊音帧和清音帧固有的结构化时频信息；

2.如权利要求1所述的由时频原子聚合生成时频分子的方法，其特征是所述三参数Chirp时频原子分解用三个参数表示Chirp时频原子，方法是：利用分数阶傅立叶变换定义一个旋转算子，使信号旋转到分数阶域；令旋转后的信号沿旋转的方向径向移动，得到旋转-径向移位复合算子；将比例算子、旋转-径向移位复合算子作用于单位高斯函数，得到用比例参数、旋转参数、径向移位参数三个参数表示的Chrip原子。

3.如权利要求1所述的由时频原子聚合生成时频分子的方法，其特征是所述三参数Chirp时频原子分解搜索最佳三参数Chirp时频原子的方法是：先估计最佳时频原子的旋转方位，并假定在大比例参数下，三参数最佳Chirp原子的搜索就变成了径向移位一个参数的搜索，将多维搜索逐步分解成一维参数的搜索。

4.如权利要求1所述的由时频原子聚合生成时频分子的方法，其特征是所述对浊音帧进行正弦原子分解的方法是：首先，利用经验模态分解方法对浊音段语音信号进行经验模态分解，得到一簇固有模态函数；然后，求取各个固有模态函数的瞬时频率和瞬时幅度和瞬时频率加权能量函数并对其求导数，由于在声门脉冲发生时刻，瞬时能量一定增加而其瞬时能量的导数大于某个正数，对瞬时能量函数的导数已经过阈值处理后，其局部极大值发生的时刻即被认为是声门脉冲发生的时刻；最后，计算局部极大值的时间间隔得到基音周期和基音频率。

5.如权利要求1所述的由时频原子聚合生成时频分子的方法，其特征是所述由正弦时频原子、Chirp时频原子聚合生成正弦时频分子、Chirp时频分子，即由一簇时频原子聚合生成时频分子采用聚类算法。