CN101727905A - 一种得到具有精细时频结构的声纹图的方法 - Google Patents

一种得到具有精细时频结构的声纹图的方法 Download PDF

Info

Publication number
CN101727905A
CN101727905A CN200910232048A CN200910232048A CN101727905A CN 101727905 A CN101727905 A CN 101727905A CN 200910232048 A CN200910232048 A CN 200910232048A CN 200910232048 A CN200910232048 A CN 200910232048A CN 101727905 A CN101727905 A CN 101727905A
Authority
CN
China
Prior art keywords
intrinsic mode
frequency
signal
mode function
vocal print
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910232048A
Other languages
English (en)
Other versions
CN101727905B (zh
Inventor
于凤芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN2009102320484A priority Critical patent/CN101727905B/zh
Publication of CN101727905A publication Critical patent/CN101727905A/zh
Application granted granted Critical
Publication of CN101727905B publication Critical patent/CN101727905B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及语音信号一种时频分析方法,并以声纹图形式显示分析结果,提出了一种得到具有精细时频结构的声纹图的方法。由于采用自适应信号分解方法,这种声纹图提供反映语音信号非平稳特点的精细时频结构,而现有的语谱图由于存在窗效应,不得不同时使用长窗语谱图和短窗语谱图来描述。具有精细时频结构的声纹图可进一步应用于说话人识别、声纹鉴定等。

Description

一种得到具有精细时频结构的声纹图的方法
技术领域
本发明涉及一种语音信号的时频分析方法,尤其是一种得到具有精细时频结构的声纹图的方法。
背景技术
声纹图也称为语谱图,简称谱图,1941年由贝尔实验室研究人员发明,它用三维或二维图形方式显示语音频谱特性,纵轴表示频率,横轴表示时间,颜色的深浅表示特定频带的能量大小。最早的模拟语谱图仪器是把声波转换成电信号的强度、波长、频率和节奏,再把这些电信号绘制成波谱图形。
目前使用的语谱图分为宽带(短窗)语谱图和窄带(长窗)语谱图两种。这两种语谱图都是基于短时傅立叶变换方法得到的,而短时傅里叶变换假定在分析窗内语音信号是平稳的,通过在时间轴上移动分析窗来得到一组局部时频图。但是对于具有明显时变特性的语音信号来说,取较短的分析窗,即使用宽带语谱图(带宽约为300Hz)较合理,故宽带语谱图具有良好的时间分辨率,但是频率分辨率较差;相反,如果使用较长的分析窗,即窄带语谱图(带宽约为45Hz),具有良好的频率分辨率,但是时间分辨率较差。所以,受不确定性原理限制,不能同时提高时间分辨率和频率分辨率,目前只能同时使用宽带和窄带语谱图。
基于短时傅里叶变换的语谱图,在时频平面对能量分布的描述是粗糙的。非线性时频分析是描述非平稳语音信号的有效方法,其中维格那-威利分布(Wigner-Ville Distribution,WVD)作为典型的时频分布,具有最好时频聚集性,其时间频宽积已达到了不确定性原理的下界,即WVD具有最好的时频分辨率。但由于它是一种双线性变换,多分量信号的WVD中存在交叉项,交叉项干扰了信号原本固有的时频结构。语音是非平稳、多分量的、实值信号,其WVD无法提供反映语音非平稳特征的时频结构,因此,基于非线性时频分析方法也不能提供有效的声纹图。
人类的发声系统系统由发声控制器和发声共鸣器等组成,发声控制器官包括声带、软颚、舌头、牙齿、唇等,而发声共鸣器包括咽腔、口腔、鼻腔。由于人的发声器官存在着大小、形态及功能上的差异,这些器官的微小差异都会导致发声气流的改变,从而造成音质和音色的差别。此外,每个人的发声习惯有快有慢,用力有大有小,也会造成音强和音长的差别,所以,语音是人类的生物特征之一。语谱图中每一字的声纹前部是清辅音的频谱,后部是元音频谱;元音频谱由加强的纵线条构成,水平方向的黑带为共振峰,共振峰的数量、走向及其频率是声纹分析的重要特征。因此对语谱图的分析,可以进行声纹鉴定。而声纹鉴定正广泛应用于当今社会的诸多领域。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种得到具有精细时频结构的声纹图的方法,得到反映语音信号固有的非平稳特征的精细时频结构的声纹图,为后续的声纹识别提供原始的、细腻的、丰富的语音特征。
按照本发明提供的技术方案,所述得到具有精细时频结构的声纹图的方法,通过经验模态分解将信号自适应地分解为若干个固有模态函数之和,再对每个固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位,进而得到反映信号幅值随随时间和频率的变化规律的Hilbert谱;在时频平面将所述Hilbert谱以三维图形画出,得到具有精细时频结构的声纹图。
所述经验模态分解的方法为:
(1)求原始信号序列x(t)的各个局部极大值,用三阶样条函数进行插值,得到信号x(t)的上包络线序列值emax(t)和下包络线序列值emin(t);
(2)对每个时刻的上包络线序列值emax(t)和下包络线序列值emin(t)取平均值,得到包络线的瞬时平均值m(t)
m ( t ) = e max ( t ) + e min ( t ) 2
(3)对信号x(t)去均值处理,得到去均值曲线h(t)
h(t)=x(t)-m(t)
如果原始数据是对称的那么去均值曲线h(t)是一个常数,否则去均值曲线h(t)是时变的;
(4)判断去均值曲线是否为固有模态函数曲线:
如果去均值曲线h(t)中跨零点的数目和极值点的数目相等或至多相差一个,并且各个瞬时平均值m(t)都等于零,那么均值曲线h(t)就是固有模态函数;否则,均值曲线h(t)就不是固有模态函数,此时需要把均值曲线h(t)当作原始序列,重复步骤1-4直至满足固有模态函数所满足的条件、求出固有模态函数为止;
(5)第一个固有模态函数c1(t)求出后,用原始信号x(t)减去第一个固有模态函数c1(t)可得到剩余值序列r1(t):
r1(t)=x(t)-c1(t)
然后,把r1(t)作为一个新的原始序列按照步骤1-4,依次提取直至第n个固有模态函数cn(t),使rn(t)变成一个单调序列为止。
(6)将信号x(t)表示为一系列固有模态函数与残差之和:
利用经验模态分解EMD完备性和正交性的特点,将分解后的各分量相加,重构出原始序列x(t)
x ( t ) = Σ i = 1 n c i ( t ) + r n ( t ) .
所述Hilbert谱形成方法是:
(1)对每个固有模态函数ci(t)进行Hilbert变换得到
c ^ i ( t ) = 1 π ∫ - ∞ ∞ c i ( t ) t - τ dτ
(2)构造解析信号为
其中瞬时幅值函数、瞬时相位函数、瞬时频率函数分别为:
a i ( t ) = c i 2 + c ^ i 2 ( t )
φ i ( t ) = arctan c ^ i ( t ) c i ( t )
ω i ( t ) = d φ i ( t ) dt
(3)根据固有模态函数的瞬时幅度和瞬时频率,计算信号的Hilbert谱
H ( ω , t ) = RE Σ i = 1 n a i ( t ) e j ∫ ω i ( t ) dt ,
RE代表取信号的实部。
本发明的优点是:本发明以声纹图(语谱图)形式显示时频分析结果,由于采用自适应信号分解方法,这种声纹图提供反映语音信号非平稳特点的精细时频结构,而现有的语谱图由于存在窗效应,不得不同时使用长窗语谱图和短窗语谱图来描述。具有精细时频结构的声纹图可进一步应用于说话人识别、声纹鉴定等。
附图说明
图1是本发明整体技术方案流程图。
图2是本发明提供的具有精细时频结构的声纹图。
图3是宽带语谱图。
图4是窄带语谱图。
图5是基于WVD的声纹图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。本发明采用一种新的具有自适应特性的时频分析方法-----Hilbert-Huang变换,该方法包含两大部分,经验模态分解和Hilbert谱分析。通过经验模态分解来提取语音信号固有的一系列模态函数,再对每个固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位,进而得到反映信号幅值随随时间和频率的变化规律的Hilbert谱。通过该方法得到的声纹图不含交叉项,也没有窗效应,更主要的是能提供反映语音非平稳特征的、具有精细时频结构的声纹图。
通过经验模态分解将信号自适应地分解为若干个固有模态函数之和,由于它是基于信号的局部特征时间尺度的,使得分解得到的瞬时频率具有实际的物理意义,从而可以计算每一个固有模态函数的瞬时频率和瞬时幅值。经验模态分解过程基于如下的假设:①各种复杂的信号都是由一些不同的固有模态函数组成的,任何两个模态函数之间是相互独立的。②每一个固有模态函数的上、下包络线关于时间轴局部对称,在相邻的两个过零点之间只有一个极值点,任何时刻一个信号可以包含许多的固有模态函数。③特征尺度定义为相邻极值点的时间跨度,经验模态分解本质是通过信号特征尺度来获取固有模态函数。
如图1所示,本发明包括如下步骤。
经验模态分解具体过程是:
(1)求原始信号x(t)的各个局部极大值,用三阶样条函数进行插值,得到信号x(t)的上包络线序列值emax(t)和下包络线序列值emin(t)。
(2)对每个时刻的emax(t)和emin(t)取平均值,得到包络线的瞬时平均值m(t)
m ( t ) = e max ( t ) + e min ( t ) 2 - - - ( 1 )
(3)对原始信号x(t)去均值处理,得到去均值曲线h(t)
h(t)=x(t)-m(t)        (2)
传统信号处理中的去均值是将整个数据向下或向上移动一个常数,而在式(2)的均值曲线来源于原始数据的局部特征,因此减去的是一个与原始数据相匹配的均值曲线,如果原始数据是对称的那么该去均值曲线是一个常数,否则该均值曲线是时变的,这也是Hilbert-Huang变换的自适应性、非线性的具体表现。
(4)判断去均值曲线是否为固有模态函数曲线
如果h(t)中跨零点的数目和极值点的数目相等或至多相差一个,并且各个瞬时平均值m(t)都等于零,那么h(t)就是固有模态函数。否则,h(t)就不是固有模态函数,此时需要把h(t)当作原始的数据序列,重复以上步骤(1)-步骤(4),直至满足固有模态函数所满足的条件,求出固有模态函数为止。
(5)第一个固有模态函数c1(t)求出后,用原序列减去c1(t)可得到剩余值序列r1(t):
r1(t)=x(t)-c1(t)       (3)
然后,把r1(t)作为一个新的原序列按照以上步骤步骤(1)-步骤(5),依次提取直至第n个固有模态函数cn(t),直到rn(t)变成一个单调序列为止。
(6)将信号表示为一系列固有模态函数与残差之和
利用经验模态分解过程的完备性和正交性的特点,将分解后的各分量相加就可以重构出原始序列x(t):
x ( t ) = Σ i = 1 n c i ( t ) + r n ( t ) - - - ( 4 )
Hilbert谱形成过程是:
(1)对每个固有模态函数ci(t)进行Hilbert变换得到:
c ^ i ( t ) = 1 π ∫ - ∞ ∞ c i ( t ) t - τ dτ - - - ( 5 )
(2)构造解析信号为:
z i ( t ) = c i ( t ) + j c ^ i ( t ) = a i ( t ) e j φ i ( t ) - - - ( 6 )
其中瞬时幅值函数和瞬时相位函数为:
a i ( t ) = c i 2 + c ^ i 2 ( t ) - - - ( 7 )
φ i ( t ) = arctan c ^ i ( t ) c i ( t ) - - - ( 8 )
进一步可求得瞬时频率
ω i ( t ) = d φ i ( t ) dt - - - ( 9 )
(3)根据固有模态函数的瞬时幅度和瞬时频率,计算信号的Hilbert谱:
H ( ω , t ) = RE Σ i = 1 n a i ( t ) e j ∫ ω i ( t ) dt - - - ( 10 )
RE代表去信号的实部。Hilbert谱描述了信号幅值在整个频率段上随时间和频率的变化规律。
在时频平面上将Hilbert谱以三维图形画出,就可以得到具有精细时频结构的声纹图。
本发明的一个具体实施例如下:
步骤1:录制语音信号,必要时进行滤波处理,以WAV格式存放。
步骤2:对录制的语音信号进行固有模态分解,将语音信号表示为一系列固有模态函数之和。
步骤3:根据固有模态函数求瞬时幅度和瞬时频率。
步骤4:计算信号的Hilbert谱。
步骤5:在时频平面将Hilbert谱以三维图形画出,得到具有精细时频结构的声纹图。
为了比较本发明的实际效果,以成年男声发英语的“five”为实验信号(该语音信号来自公开使用的语音数据库)。通过本发明方法得到具有精细时频结构的声纹图如附图2所示。为了说明这种声纹图能够提供精细的时频结构,不存在窗效应,没有交叉项干扰,作出了同一信号的宽带语谱图(窗长为55)和窄带语谱图(窗长为115)分别如附图3和附图4所示,以及基于WVD的该信号的语谱图附图5所示,来进行比较。
由图2可见,精细时频结构的声纹图提供了语音信号随着频率的瞬时变化过程,它是以一种轮廓或骨架图的形式描述信号能量的时频分布,图中颜色的深浅代表了能量的大小,由该图可知,该语音信号较强能量集中在0.2s-0.3s之间,所对应的频率在500Hz-700Hz之间,图中每一条声纹表明一个频率分量的变化的信息,反映了信号的时频特征,如信号在时刻点的频率突变位置和主要频率成分等信息。不存在交叉项,具有很好的时频聚集性。使用窗长为55得到的宽带语谱图,时域分辨性好,但频域分辨率较低;而使用窗长为115得到的长窗语谱图,虽然使频率分辨率有所提高,但同时也降低了时间分辨率。这是因为短时傅里叶变换要受不确定原理的限制,时间和频率分辨率不能同时提高,必须同时使用宽带和窄带两个语谱图的原因。基于WVD原理得到的声纹图,其时频聚集性最高,但存在大量的交叉项,这些交叉项的存在干扰了语音信号真实的时频分析。

Claims (3)

1.一种得到具有精细时频结构的声纹图的方法,其特征是:
通过经验模态分解将信号自适应地分解为若干个固有模态函数之和,再对每个固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位,进而得到反映信号幅值随随时间和频率的变化规律的Hilbert谱;在时频平面将所述Hilbert谱以三维图形画出,得到具有精细时频结构的声纹图。
2.如权利要求1所述的得到具有精细时频结构的声纹图的方法,其特征是所述经验模态分解的方法为:
(1)求原始信号序列x(t)的各个局部极大值,用三阶样条函数进行插值,得到信号x(t)的上包络线序列值emax(t)和下包络线序列值emin(t);
(2)对每个时刻的上包络线序列值emax(t)和下包络线序列值emin(t)取平均值,得到包络线的瞬时平均值m(t)
m ( t ) = e max ( t ) + e min ( t ) 2
(3)对信号x(t)去均值处理,得到去均值曲线h(t)
h(t)=x(t)-m(t)
如果原始数据是对称的那么去均值曲线h(t)是一个常数,否则去均值曲线h(t)是时变的;
(4)判断去均值曲线是否为固有模态函数曲线:
如果去均值曲线h(t)中跨零点的数目和极值点的数目相等或至多相差一个,并且各个瞬时平均值m(t)都等于零,那么均值曲线h(t)就是固有模态函数;否则,均值曲线h(t)就不是固有模态函数,此时需要把均值曲线h(t)当作原始序列,重复步骤1-4直至满足固有模态函数所满足的条件、求出固有模态函数为止;
(5)第一个固有模态函数c1(t)求出后,用原始信号x(t)减去第一个固有模态函数c1(t)可得到剩余值序列r1(t):
r1(t)=x(t)-c1(t)
然后,把r1(t)作为一个新的原始序列按照步骤1-4,依次提取直至第n个固有模态函数cn(t),使rn(t)变成一个单调序列为止。
(6)将信号x(t)表示为一系列固有模态函数与残差之和:
利用经验模态分解EMD完备性和正交性的特点,将分解后的各分量相加,重构出原始序列x(t)
x ( t ) = Σ i = 1 n c i ( t ) + r n ( t ) .
3.如权利要求2所述的得到具有精细时频结构的声纹图的方法,其特征是所述Hilbert谱形成方法是:
(1)对每个固有模态函数ci(t)进行Hilbert变换得到
c ^ i ( t ) = 1 π ∫ - ∞ ∞ c i ( t ) t - τ dτ
(2)构造解析信号为
Figure F2009102320484C0000022
其中瞬时幅值函数、瞬时相位函数、瞬时频率函数分别为:
a i ( t ) = c i 2 + c ^ i 2 ( t )
φ i ( t ) = arctan c ^ i ( t ) c i ( t )
ω i ( t ) = d φ i ( t ) dt
(3)根据固有模态函数的瞬时幅度和瞬时频率,计算信号的Hilbert谱
H ( ω , t ) = RE Σ i = 1 n a i ( t ) e j ∫ ω i ( t ) dt ,
RE代表取信号的实部。
CN2009102320484A 2009-11-27 2009-11-27 一种得到具有精细时频结构的声纹图的方法 Expired - Fee Related CN101727905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102320484A CN101727905B (zh) 2009-11-27 2009-11-27 一种得到具有精细时频结构的声纹图的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102320484A CN101727905B (zh) 2009-11-27 2009-11-27 一种得到具有精细时频结构的声纹图的方法

Publications (2)

Publication Number Publication Date
CN101727905A true CN101727905A (zh) 2010-06-09
CN101727905B CN101727905B (zh) 2012-06-20

Family

ID=42448695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102320484A Expired - Fee Related CN101727905B (zh) 2009-11-27 2009-11-27 一种得到具有精细时频结构的声纹图的方法

Country Status (1)

Country Link
CN (1) CN101727905B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637497A (zh) * 2015-01-16 2015-05-20 南京工程学院 一种面向语音情感识别的语谱特征提取方法
WO2017144007A1 (zh) * 2016-02-25 2017-08-31 深圳创维数字技术有限公司 一种基于经验模态分解的音频识别方法及系统
CN107274883A (zh) * 2017-07-04 2017-10-20 清华大学 语音信号重构方法及装置
CN107274890A (zh) * 2017-07-04 2017-10-20 清华大学 声纹谱提取方法及装置
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN109887510A (zh) * 2019-03-25 2019-06-14 南京工业大学 一种基于经验模态分解与mfcc的声纹识别方法及装置
CN111133508A (zh) * 2019-12-24 2020-05-08 广州国音智能科技有限公司 一种可供比对音素选取方法和装置
CN111899724A (zh) * 2020-08-06 2020-11-06 中国人民解放军空军预警学院 基于希尔伯特黄变换的语音特征系数提取方法及相关设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7054819B1 (en) * 2000-02-11 2006-05-30 Microsoft Corporation Voice print access to computer resources
CN1144174C (zh) * 2001-01-16 2004-03-31 北京大学 采用基频成分相位差和发声时参量的声纹鉴定方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637497A (zh) * 2015-01-16 2015-05-20 南京工程学院 一种面向语音情感识别的语谱特征提取方法
WO2017144007A1 (zh) * 2016-02-25 2017-08-31 深圳创维数字技术有限公司 一种基于经验模态分解的音频识别方法及系统
CN107274883A (zh) * 2017-07-04 2017-10-20 清华大学 语音信号重构方法及装置
CN107274890A (zh) * 2017-07-04 2017-10-20 清华大学 声纹谱提取方法及装置
CN107274890B (zh) * 2017-07-04 2020-06-02 清华大学 声纹谱提取方法及装置
CN107274883B (zh) * 2017-07-04 2020-06-02 清华大学 语音信号重构方法及装置
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN108053842B (zh) * 2017-12-13 2021-09-14 电子科技大学 基于图像识别的短波语音端点检测方法
CN109887510A (zh) * 2019-03-25 2019-06-14 南京工业大学 一种基于经验模态分解与mfcc的声纹识别方法及装置
CN111133508A (zh) * 2019-12-24 2020-05-08 广州国音智能科技有限公司 一种可供比对音素选取方法和装置
CN111899724A (zh) * 2020-08-06 2020-11-06 中国人民解放军空军预警学院 基于希尔伯特黄变换的语音特征系数提取方法及相关设备

Also Published As

Publication number Publication date
CN101727905B (zh) 2012-06-20

Similar Documents

Publication Publication Date Title
CN101727905B (zh) 一种得到具有精细时频结构的声纹图的方法
Childers et al. Voice conversion
Story et al. Formant measurement in children’s speech based on spectral filtering
US6535852B2 (en) Training of text-to-speech systems
Ramamohan et al. Sinusoidal model-based analysis and classification of stressed speech
Pitton et al. Time-frequency analysis and auditory modeling for automatic recognition of speech
CN101281744B (zh) 语音分析方法和装置以及语音合成方法和装置
CN1815552B (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
US20030033094A1 (en) Empirical mode decomposition for analyzing acoustical signals
CN102201234B (zh) 一种基于音调自动标注及预测的语音合成方法
Garner et al. A simple continuous pitch estimation algorithm
CN102231278A (zh) 实现语音识别中自动添加标点符号的方法及系统
Bonada et al. Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016
CN102201240B (zh) 基于逆滤波的谐波噪声激励模型声码器
CN110310621A (zh) 歌唱合成方法、装置、设备以及计算机可读存储介质
Owren et al. Applying linear predictive coding (LPC) to frequency-spectrum analysis of animal acoustic signals
CN103258539A (zh) 一种语音信号特性的变换方法和装置
Cavaliere et al. Granular synthesis of musical signals
Delprat Global frequency modulation laws extraction from the Gabor transform of a signal: A first study of the interacting components case
Chen et al. Pitch marking based on an adaptable filter and a peak-valley estimation method
Arakawa et al. High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum
Aroon et al. Statistical parametric speech synthesis: A review
Nar et al. Verification of TD-PSOLA for Implementing Voice Modification
Li et al. A lyrics to singing voice synthesis system with variable timbre
CN112750422B (zh) 一种歌声合成方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120620

Termination date: 20131127