CN101727905A - 一种得到具有精细时频结构的声纹图的方法 - Google Patents
一种得到具有精细时频结构的声纹图的方法 Download PDFInfo
- Publication number
- CN101727905A CN101727905A CN200910232048A CN200910232048A CN101727905A CN 101727905 A CN101727905 A CN 101727905A CN 200910232048 A CN200910232048 A CN 200910232048A CN 200910232048 A CN200910232048 A CN 200910232048A CN 101727905 A CN101727905 A CN 101727905A
- Authority
- CN
- China
- Prior art keywords
- intrinsic mode
- frequency
- signal
- mode function
- vocal print
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及语音信号一种时频分析方法,并以声纹图形式显示分析结果,提出了一种得到具有精细时频结构的声纹图的方法。由于采用自适应信号分解方法,这种声纹图提供反映语音信号非平稳特点的精细时频结构,而现有的语谱图由于存在窗效应,不得不同时使用长窗语谱图和短窗语谱图来描述。具有精细时频结构的声纹图可进一步应用于说话人识别、声纹鉴定等。
Description
技术领域
本发明涉及一种语音信号的时频分析方法,尤其是一种得到具有精细时频结构的声纹图的方法。
背景技术
声纹图也称为语谱图,简称谱图,1941年由贝尔实验室研究人员发明,它用三维或二维图形方式显示语音频谱特性,纵轴表示频率,横轴表示时间,颜色的深浅表示特定频带的能量大小。最早的模拟语谱图仪器是把声波转换成电信号的强度、波长、频率和节奏,再把这些电信号绘制成波谱图形。
目前使用的语谱图分为宽带(短窗)语谱图和窄带(长窗)语谱图两种。这两种语谱图都是基于短时傅立叶变换方法得到的,而短时傅里叶变换假定在分析窗内语音信号是平稳的,通过在时间轴上移动分析窗来得到一组局部时频图。但是对于具有明显时变特性的语音信号来说,取较短的分析窗,即使用宽带语谱图(带宽约为300Hz)较合理,故宽带语谱图具有良好的时间分辨率,但是频率分辨率较差;相反,如果使用较长的分析窗,即窄带语谱图(带宽约为45Hz),具有良好的频率分辨率,但是时间分辨率较差。所以,受不确定性原理限制,不能同时提高时间分辨率和频率分辨率,目前只能同时使用宽带和窄带语谱图。
基于短时傅里叶变换的语谱图,在时频平面对能量分布的描述是粗糙的。非线性时频分析是描述非平稳语音信号的有效方法,其中维格那-威利分布(Wigner-Ville Distribution,WVD)作为典型的时频分布,具有最好时频聚集性,其时间频宽积已达到了不确定性原理的下界,即WVD具有最好的时频分辨率。但由于它是一种双线性变换,多分量信号的WVD中存在交叉项,交叉项干扰了信号原本固有的时频结构。语音是非平稳、多分量的、实值信号,其WVD无法提供反映语音非平稳特征的时频结构,因此,基于非线性时频分析方法也不能提供有效的声纹图。
人类的发声系统系统由发声控制器和发声共鸣器等组成,发声控制器官包括声带、软颚、舌头、牙齿、唇等,而发声共鸣器包括咽腔、口腔、鼻腔。由于人的发声器官存在着大小、形态及功能上的差异,这些器官的微小差异都会导致发声气流的改变,从而造成音质和音色的差别。此外,每个人的发声习惯有快有慢,用力有大有小,也会造成音强和音长的差别,所以,语音是人类的生物特征之一。语谱图中每一字的声纹前部是清辅音的频谱,后部是元音频谱;元音频谱由加强的纵线条构成,水平方向的黑带为共振峰,共振峰的数量、走向及其频率是声纹分析的重要特征。因此对语谱图的分析,可以进行声纹鉴定。而声纹鉴定正广泛应用于当今社会的诸多领域。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种得到具有精细时频结构的声纹图的方法,得到反映语音信号固有的非平稳特征的精细时频结构的声纹图,为后续的声纹识别提供原始的、细腻的、丰富的语音特征。
按照本发明提供的技术方案,所述得到具有精细时频结构的声纹图的方法,通过经验模态分解将信号自适应地分解为若干个固有模态函数之和,再对每个固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位,进而得到反映信号幅值随随时间和频率的变化规律的Hilbert谱;在时频平面将所述Hilbert谱以三维图形画出,得到具有精细时频结构的声纹图。
所述经验模态分解的方法为:
(1)求原始信号序列x(t)的各个局部极大值,用三阶样条函数进行插值,得到信号x(t)的上包络线序列值emax(t)和下包络线序列值emin(t);
(2)对每个时刻的上包络线序列值emax(t)和下包络线序列值emin(t)取平均值,得到包络线的瞬时平均值m(t)
(3)对信号x(t)去均值处理,得到去均值曲线h(t)
h(t)=x(t)-m(t)
如果原始数据是对称的那么去均值曲线h(t)是一个常数,否则去均值曲线h(t)是时变的;
(4)判断去均值曲线是否为固有模态函数曲线:
如果去均值曲线h(t)中跨零点的数目和极值点的数目相等或至多相差一个,并且各个瞬时平均值m(t)都等于零,那么均值曲线h(t)就是固有模态函数;否则,均值曲线h(t)就不是固有模态函数,此时需要把均值曲线h(t)当作原始序列,重复步骤1-4直至满足固有模态函数所满足的条件、求出固有模态函数为止;
(5)第一个固有模态函数c1(t)求出后,用原始信号x(t)减去第一个固有模态函数c1(t)可得到剩余值序列r1(t):
r1(t)=x(t)-c1(t)
然后,把r1(t)作为一个新的原始序列按照步骤1-4,依次提取直至第n个固有模态函数cn(t),使rn(t)变成一个单调序列为止。
(6)将信号x(t)表示为一系列固有模态函数与残差之和:
利用经验模态分解EMD完备性和正交性的特点,将分解后的各分量相加,重构出原始序列x(t)
所述Hilbert谱形成方法是:
(1)对每个固有模态函数ci(t)进行Hilbert变换得到
(2)构造解析信号为
其中瞬时幅值函数、瞬时相位函数、瞬时频率函数分别为:
(3)根据固有模态函数的瞬时幅度和瞬时频率,计算信号的Hilbert谱
RE代表取信号的实部。
本发明的优点是:本发明以声纹图(语谱图)形式显示时频分析结果,由于采用自适应信号分解方法,这种声纹图提供反映语音信号非平稳特点的精细时频结构,而现有的语谱图由于存在窗效应,不得不同时使用长窗语谱图和短窗语谱图来描述。具有精细时频结构的声纹图可进一步应用于说话人识别、声纹鉴定等。
附图说明
图1是本发明整体技术方案流程图。
图2是本发明提供的具有精细时频结构的声纹图。
图3是宽带语谱图。
图4是窄带语谱图。
图5是基于WVD的声纹图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。本发明采用一种新的具有自适应特性的时频分析方法-----Hilbert-Huang变换,该方法包含两大部分,经验模态分解和Hilbert谱分析。通过经验模态分解来提取语音信号固有的一系列模态函数,再对每个固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位,进而得到反映信号幅值随随时间和频率的变化规律的Hilbert谱。通过该方法得到的声纹图不含交叉项,也没有窗效应,更主要的是能提供反映语音非平稳特征的、具有精细时频结构的声纹图。
通过经验模态分解将信号自适应地分解为若干个固有模态函数之和,由于它是基于信号的局部特征时间尺度的,使得分解得到的瞬时频率具有实际的物理意义,从而可以计算每一个固有模态函数的瞬时频率和瞬时幅值。经验模态分解过程基于如下的假设:①各种复杂的信号都是由一些不同的固有模态函数组成的,任何两个模态函数之间是相互独立的。②每一个固有模态函数的上、下包络线关于时间轴局部对称,在相邻的两个过零点之间只有一个极值点,任何时刻一个信号可以包含许多的固有模态函数。③特征尺度定义为相邻极值点的时间跨度,经验模态分解本质是通过信号特征尺度来获取固有模态函数。
如图1所示,本发明包括如下步骤。
经验模态分解具体过程是:
(1)求原始信号x(t)的各个局部极大值,用三阶样条函数进行插值,得到信号x(t)的上包络线序列值emax(t)和下包络线序列值emin(t)。
(2)对每个时刻的emax(t)和emin(t)取平均值,得到包络线的瞬时平均值m(t)
(3)对原始信号x(t)去均值处理,得到去均值曲线h(t)
h(t)=x(t)-m(t) (2)
传统信号处理中的去均值是将整个数据向下或向上移动一个常数,而在式(2)的均值曲线来源于原始数据的局部特征,因此减去的是一个与原始数据相匹配的均值曲线,如果原始数据是对称的那么该去均值曲线是一个常数,否则该均值曲线是时变的,这也是Hilbert-Huang变换的自适应性、非线性的具体表现。
(4)判断去均值曲线是否为固有模态函数曲线
如果h(t)中跨零点的数目和极值点的数目相等或至多相差一个,并且各个瞬时平均值m(t)都等于零,那么h(t)就是固有模态函数。否则,h(t)就不是固有模态函数,此时需要把h(t)当作原始的数据序列,重复以上步骤(1)-步骤(4),直至满足固有模态函数所满足的条件,求出固有模态函数为止。
(5)第一个固有模态函数c1(t)求出后,用原序列减去c1(t)可得到剩余值序列r1(t):
r1(t)=x(t)-c1(t) (3)
然后,把r1(t)作为一个新的原序列按照以上步骤步骤(1)-步骤(5),依次提取直至第n个固有模态函数cn(t),直到rn(t)变成一个单调序列为止。
(6)将信号表示为一系列固有模态函数与残差之和
利用经验模态分解过程的完备性和正交性的特点,将分解后的各分量相加就可以重构出原始序列x(t):
Hilbert谱形成过程是:
(1)对每个固有模态函数ci(t)进行Hilbert变换得到:
(2)构造解析信号为:
其中瞬时幅值函数和瞬时相位函数为:
进一步可求得瞬时频率
(3)根据固有模态函数的瞬时幅度和瞬时频率,计算信号的Hilbert谱:
RE代表去信号的实部。Hilbert谱描述了信号幅值在整个频率段上随时间和频率的变化规律。
在时频平面上将Hilbert谱以三维图形画出,就可以得到具有精细时频结构的声纹图。
本发明的一个具体实施例如下:
步骤1:录制语音信号,必要时进行滤波处理,以WAV格式存放。
步骤2:对录制的语音信号进行固有模态分解,将语音信号表示为一系列固有模态函数之和。
步骤3:根据固有模态函数求瞬时幅度和瞬时频率。
步骤4:计算信号的Hilbert谱。
步骤5:在时频平面将Hilbert谱以三维图形画出,得到具有精细时频结构的声纹图。
为了比较本发明的实际效果,以成年男声发英语的“five”为实验信号(该语音信号来自公开使用的语音数据库)。通过本发明方法得到具有精细时频结构的声纹图如附图2所示。为了说明这种声纹图能够提供精细的时频结构,不存在窗效应,没有交叉项干扰,作出了同一信号的宽带语谱图(窗长为55)和窄带语谱图(窗长为115)分别如附图3和附图4所示,以及基于WVD的该信号的语谱图附图5所示,来进行比较。
由图2可见,精细时频结构的声纹图提供了语音信号随着频率的瞬时变化过程,它是以一种轮廓或骨架图的形式描述信号能量的时频分布,图中颜色的深浅代表了能量的大小,由该图可知,该语音信号较强能量集中在0.2s-0.3s之间,所对应的频率在500Hz-700Hz之间,图中每一条声纹表明一个频率分量的变化的信息,反映了信号的时频特征,如信号在时刻点的频率突变位置和主要频率成分等信息。不存在交叉项,具有很好的时频聚集性。使用窗长为55得到的宽带语谱图,时域分辨性好,但频域分辨率较低;而使用窗长为115得到的长窗语谱图,虽然使频率分辨率有所提高,但同时也降低了时间分辨率。这是因为短时傅里叶变换要受不确定原理的限制,时间和频率分辨率不能同时提高,必须同时使用宽带和窄带两个语谱图的原因。基于WVD原理得到的声纹图,其时频聚集性最高,但存在大量的交叉项,这些交叉项的存在干扰了语音信号真实的时频分析。
Claims (3)
1.一种得到具有精细时频结构的声纹图的方法,其特征是:
通过经验模态分解将信号自适应地分解为若干个固有模态函数之和,再对每个固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位,进而得到反映信号幅值随随时间和频率的变化规律的Hilbert谱;在时频平面将所述Hilbert谱以三维图形画出,得到具有精细时频结构的声纹图。
2.如权利要求1所述的得到具有精细时频结构的声纹图的方法,其特征是所述经验模态分解的方法为:
(1)求原始信号序列x(t)的各个局部极大值,用三阶样条函数进行插值,得到信号x(t)的上包络线序列值emax(t)和下包络线序列值emin(t);
(2)对每个时刻的上包络线序列值emax(t)和下包络线序列值emin(t)取平均值,得到包络线的瞬时平均值m(t)
(3)对信号x(t)去均值处理,得到去均值曲线h(t)
h(t)=x(t)-m(t)
如果原始数据是对称的那么去均值曲线h(t)是一个常数,否则去均值曲线h(t)是时变的;
(4)判断去均值曲线是否为固有模态函数曲线:
如果去均值曲线h(t)中跨零点的数目和极值点的数目相等或至多相差一个,并且各个瞬时平均值m(t)都等于零,那么均值曲线h(t)就是固有模态函数;否则,均值曲线h(t)就不是固有模态函数,此时需要把均值曲线h(t)当作原始序列,重复步骤1-4直至满足固有模态函数所满足的条件、求出固有模态函数为止;
(5)第一个固有模态函数c1(t)求出后,用原始信号x(t)减去第一个固有模态函数c1(t)可得到剩余值序列r1(t):
r1(t)=x(t)-c1(t)
然后,把r1(t)作为一个新的原始序列按照步骤1-4,依次提取直至第n个固有模态函数cn(t),使rn(t)变成一个单调序列为止。
(6)将信号x(t)表示为一系列固有模态函数与残差之和:
利用经验模态分解EMD完备性和正交性的特点,将分解后的各分量相加,重构出原始序列x(t)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102320484A CN101727905B (zh) | 2009-11-27 | 2009-11-27 | 一种得到具有精细时频结构的声纹图的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102320484A CN101727905B (zh) | 2009-11-27 | 2009-11-27 | 一种得到具有精细时频结构的声纹图的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101727905A true CN101727905A (zh) | 2010-06-09 |
CN101727905B CN101727905B (zh) | 2012-06-20 |
Family
ID=42448695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102320484A Expired - Fee Related CN101727905B (zh) | 2009-11-27 | 2009-11-27 | 一种得到具有精细时频结构的声纹图的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101727905B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104637497A (zh) * | 2015-01-16 | 2015-05-20 | 南京工程学院 | 一种面向语音情感识别的语谱特征提取方法 |
WO2017144007A1 (zh) * | 2016-02-25 | 2017-08-31 | 深圳创维数字技术有限公司 | 一种基于经验模态分解的音频识别方法及系统 |
CN107274883A (zh) * | 2017-07-04 | 2017-10-20 | 清华大学 | 语音信号重构方法及装置 |
CN107274890A (zh) * | 2017-07-04 | 2017-10-20 | 清华大学 | 声纹谱提取方法及装置 |
CN108053842A (zh) * | 2017-12-13 | 2018-05-18 | 电子科技大学 | 基于图像识别的短波语音端点检测方法 |
CN109887510A (zh) * | 2019-03-25 | 2019-06-14 | 南京工业大学 | 一种基于经验模态分解与mfcc的声纹识别方法及装置 |
CN111133508A (zh) * | 2019-12-24 | 2020-05-08 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
CN111899724A (zh) * | 2020-08-06 | 2020-11-06 | 中国人民解放军空军预警学院 | 基于希尔伯特黄变换的语音特征系数提取方法及相关设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7054819B1 (en) * | 2000-02-11 | 2006-05-30 | Microsoft Corporation | Voice print access to computer resources |
CN1144174C (zh) * | 2001-01-16 | 2004-03-31 | 北京大学 | 采用基频成分相位差和发声时参量的声纹鉴定方法 |
-
2009
- 2009-11-27 CN CN2009102320484A patent/CN101727905B/zh not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104637497A (zh) * | 2015-01-16 | 2015-05-20 | 南京工程学院 | 一种面向语音情感识别的语谱特征提取方法 |
WO2017144007A1 (zh) * | 2016-02-25 | 2017-08-31 | 深圳创维数字技术有限公司 | 一种基于经验模态分解的音频识别方法及系统 |
CN107274883A (zh) * | 2017-07-04 | 2017-10-20 | 清华大学 | 语音信号重构方法及装置 |
CN107274890A (zh) * | 2017-07-04 | 2017-10-20 | 清华大学 | 声纹谱提取方法及装置 |
CN107274890B (zh) * | 2017-07-04 | 2020-06-02 | 清华大学 | 声纹谱提取方法及装置 |
CN107274883B (zh) * | 2017-07-04 | 2020-06-02 | 清华大学 | 语音信号重构方法及装置 |
CN108053842A (zh) * | 2017-12-13 | 2018-05-18 | 电子科技大学 | 基于图像识别的短波语音端点检测方法 |
CN108053842B (zh) * | 2017-12-13 | 2021-09-14 | 电子科技大学 | 基于图像识别的短波语音端点检测方法 |
CN109887510A (zh) * | 2019-03-25 | 2019-06-14 | 南京工业大学 | 一种基于经验模态分解与mfcc的声纹识别方法及装置 |
CN111133508A (zh) * | 2019-12-24 | 2020-05-08 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
CN111899724A (zh) * | 2020-08-06 | 2020-11-06 | 中国人民解放军空军预警学院 | 基于希尔伯特黄变换的语音特征系数提取方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101727905B (zh) | 2012-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101727905B (zh) | 一种得到具有精细时频结构的声纹图的方法 | |
Childers et al. | Voice conversion | |
Story et al. | Formant measurement in children’s speech based on spectral filtering | |
US6535852B2 (en) | Training of text-to-speech systems | |
Ramamohan et al. | Sinusoidal model-based analysis and classification of stressed speech | |
Pitton et al. | Time-frequency analysis and auditory modeling for automatic recognition of speech | |
CN101281744B (zh) | 语音分析方法和装置以及语音合成方法和装置 | |
CN1815552B (zh) | 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 | |
US20030033094A1 (en) | Empirical mode decomposition for analyzing acoustical signals | |
CN102201234B (zh) | 一种基于音调自动标注及预测的语音合成方法 | |
Garner et al. | A simple continuous pitch estimation algorithm | |
CN102231278A (zh) | 实现语音识别中自动添加标点符号的方法及系统 | |
Bonada et al. | Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016 | |
CN102201240B (zh) | 基于逆滤波的谐波噪声激励模型声码器 | |
CN110310621A (zh) | 歌唱合成方法、装置、设备以及计算机可读存储介质 | |
Owren et al. | Applying linear predictive coding (LPC) to frequency-spectrum analysis of animal acoustic signals | |
CN103258539A (zh) | 一种语音信号特性的变换方法和装置 | |
Cavaliere et al. | Granular synthesis of musical signals | |
Delprat | Global frequency modulation laws extraction from the Gabor transform of a signal: A first study of the interacting components case | |
Chen et al. | Pitch marking based on an adaptable filter and a peak-valley estimation method | |
Arakawa et al. | High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum | |
Aroon et al. | Statistical parametric speech synthesis: A review | |
Nar et al. | Verification of TD-PSOLA for Implementing Voice Modification | |
Li et al. | A lyrics to singing voice synthesis system with variable timbre | |
CN112750422B (zh) | 一种歌声合成方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120620 Termination date: 20131127 |