CN102664010B - 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 - Google Patents
一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 Download PDFInfo
- Publication number
- CN102664010B CN102664010B CN201210137353.7A CN201210137353A CN102664010B CN 102664010 B CN102664010 B CN 102664010B CN 201210137353 A CN201210137353 A CN 201210137353A CN 102664010 B CN102664010 B CN 102664010B
- Authority
- CN
- China
- Prior art keywords
- matrix
- tensor
- multifactor
- frequency
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
本发明公开了一种考虑语音中多因素的频率位移不变特征提取方法,用于复杂环境下的文本无关说话人辨别,该方法考虑了语音的时间、频率、尺度和相位信息,通过不同尺度和相位的二维复数小波变换对语音信号能量谱进行多因素表征,考虑频率的位移不变特性,利用卷积型非负张量分解方法,计算频率阶上的位移不变特征投影矩阵,得到多因素的稀疏特征,通过离散余弦变换对特征去相关,计算特征的一阶和二阶差分系数,最终获得具有较好鲁棒性的说话人特征。本发明考虑语音信号多因素频率位移不变特征提取方法,利用卷积型非负张量分解方法计算具有鲁棒性的多因素频率位移不变特征,用于噪声环境下的文本无关说话人辨别,具有较好的识别准确率。
Description
技术领域
本发明涉及一种用于提高说话人身份辨别性能的特征提取方法,属于语音信号处理技术领域。
背景技术
随着计算机和人工智能技术的不断发展,各种各样的智能机器参与到人类的生产活动和社会活动当中,因此如何改善人们与这些机器之间的关系,使人对机器的操纵更加便利就显得越来越重要,而语言是人与机器进行交流的最好方式。
语音信号处理是语言学和数字信号处理技术相结合的交叉学科,是计算机智能接口与人机交互的重要手段之一,而说话人辨别是一种高效的的人机交互手段,其特点是信号采集方便,系统设备成本低,可以广泛应用于身份辨别、公安司法鉴定、语音信号检索、军事、电子商务等领域。
说话人辨别一般包括特征提取、参考模型生成和判别分类三部分组成。
常用的说话人辨别特征提取方法主要包括语音信号倒谱系数、特征补偿和正则化技术等。大量的实践表明,语音帧能量、基频、短时谱、线性预测系数、倒谱稀疏特征等能够表征说话人个性特征。线性预测倒谱系数(LPCC)利用线性预测对声道转移函数进行建模,获取声道和激励源的时间变化特性,具有计算复杂度小,便于实现等特点,但是鲁棒性较差。美尔频率倒谱系数(MFCC)考虑人耳的听觉特性,对频谱进行滤波,变换到具有非线性特性的美尔频谱域,利用倒谱分析语音特征,具有较好的鲁棒性。感知加权线性预测系数(PLP)是重要的说话人信号特征参数,它利用自回归全极点模型近似听觉谱,在纯净和噪声环境下取得了较好的识别结果。
很多情况下,各种环境噪声和信道失真造成识别性能下降,如果在特征提取过程中去掉这些稳定和变换缓慢的噪声,可以提高识别的鲁棒性和性能。谱均值减(CMS)是一种简单而有效的特征补偿方法,用于去除卷积噪声。RASTA滤波技术是CMS方法的一种推广,主要用于解决缓慢时变的线性信道带来的失真问题,消除了较低和较高的调制频率成分。
说话人辨别中参考模型的建立通常采用隐马尔科夫模型(HMM)、高斯混合模型(GMM)和GMM-UBM等完成,一般HMM模型是针对文本相关的说话人辨别任务,而GMM模型是针对文本无关的说话人辨别,这些模型都属于概率统计模型。此外还有一些其他的参考模型建立方法,比如人工神经网络(ANN),支持向量机(SVM)等,这些都是属于模式识别的分类模型。
如图1所示,传统的基于PLP和GMM的说话人辨别方法通常采用以下步骤:
1)对输入语音信号信号进行短时傅立叶变换,获得信号的短时能量谱;
2)进行临界频带分析,利用Bark尺度的频率Ω进行Bark-Hertz频带变换,将卷曲之后的能量谱与临界频带遮掩曲线Ψ(Ω)进行卷积,得到临界频带能量谱θ(Ω);
3)经过下采样之后,对θ(Ω)进行等响度曲线预加重来模拟等响度曲线,得到处理结果Θ(Ω),然后进行响度压缩;
4)经过对频谱进行修正之后,利用全极点谱建模的自相关方法对Θ(Ω)进行近似,获得对应阶数的自相关系数;
5)通过离散余弦变换(DCT)对自相关系数计算倒谱,计算一阶和二阶差分系数;
6)利用高斯混合模型(GMM)对已有说话人数据进行训练,获得不同说话人的模型;
7)根据训练得到的说话人模型,对测试数据进行识别,得到说话人辨别的准确率。
目前文本无关说话人辨别系统中信号的特征系数,在相对安静的环境下,可以得到较好的识别准确率,但是当周围环境复杂,干扰和噪声比较多的情况下,会造成说话人辨别性能的下降,其主要原因是单一因素特征(如频谱)的鲁棒性较差,说话人模型的训练模型与测试数据不匹配。因此如何提高特征的鲁棒性,考虑多种因素的特征组合,使得训练模型与测试数据的特征尽量匹配,是提高说话人辨别系统性能的关键。
发明内容
在噪声环境下,传统文本无关说话人辨别系统的鲁棒性较差,一般只提取时频特征,未考虑频率的位移不变特性,特征的可分性不高。本发明提出一种考虑语音中多因素的频率位移不变特征提取方法,利用卷积型非负张量分解方法提取频率的位移不变稀疏特征,降低噪声成分的干扰,用于复杂环境下文本无关的说话人辨别,提高了识别的准确率。
本发明的考虑语音中多因素的频率位移不变特征提取方法,是:
利用人脑听觉系统中语音信号的处理机制,考虑频率、时间、尺度和相位多因素特征,通过二维复数小波变换进行多因素的表征,考虑频率的位移不变特性,利用卷积非负张量分解的方法进行特征提取,求解频率位移不变特征投影矩阵,计算多因素的鲁棒特征,通过离散余弦变换计算倒谱系数,最后获得具有较好鲁棒性的一阶和二阶差分特征参数用于说话人辨别。
具体包括以下步骤:
(1)通过采集设备得到语音信号x(t),并进行加窗和预加重,利用短时傅里叶变换计算x(t)的能量谱S(f,t);
利用卷积型非负张量分解方法计算投影矩阵A(i),i=2,...,I和移位投影矩阵H(1)的具体过程如下,其中I=4:
●设向量v=diag(A(I)TA(I)),其中运算符diag(·)表示取矩阵的对角元素;
●从i=1到I依次执行:
√如果i等于I时,设v=1;
√T3=T1./(A(i)TA(i)),./表示矩阵之间元素一一相除;
√从k=1到K依次执行
■
■如果i≠I,则
其中,(·)k表示取矩阵的第k列,[·]+表示将矩阵中负值元素置为零,||·||2表示取矩阵或者向量的2范数;
√T1=T3.*(A(i)TA(i)),其中.*表示矩阵之间元素一一相乘;
④循环结束后,计算得到投影矩阵A(i),i=1,...I,对A(1)进行进一步分解,使得 具体过程如下:
●随机初始化Wn和H(1);
√从n=0到N-1依次执行
■
■
√
其中,n←是矩阵的左移移位算子,n→是矩阵的右移移位算子;
●循环结束之后求解得到移位投影矩阵H(1);
(6)利用离散余弦变换对F(f)进行去相关,得到鲁棒的特征F,计算特征参数的一阶和二阶差分系数,获得最终的说话人身份特征。
本发明考虑语音信号中的时间、频率、尺度和相位等因素用于鲁棒说话人的身份特征提取,利用卷积非负张量分解方法,求解频率位移不变特征投影矩阵,用于提取鲁棒的特征,最终提高了文本无关说话人身份辨别的识别准确率。
附图说明
图1是传统说话人辨别过程的示意框图;
图2是本发明的特征提取方法的示意图;
图3是采用本发明的说话人辩别过程的示意框图;
图4是实验结果对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图2所示,本发明的考虑语音中多因素的频率位移不变特征提取方法,具体包括以下步骤:
(1)对Tidigits数据库的51个儿童的语音数据x(t)进行预处理,采样率为8kHz,采用汉明窗进行加窗,窗长23ms,窗移10ms,并进行预加重,利用短时傅里叶变换计算信号的能量谱S(f,t);
(2)利用4个不同尺度和4个不同相位的二维复数小波变换对能量谱S(f,t)进行滤波,得到语音信号的张量多因素表征这里是一个大小为的4阶张量,每一阶分别对应频率、时间、尺度和相位;利用36个美尔尺度滤波器组对的频率阶滤波得到一个4阶张量多因素表征这里张量数据的大小是N1×N2×N3×N4,各个阶的长度为Ni,其中i=1,...4;
其中,A(i)≥0是分解之后得到的大小为Ni×K的投影矩阵,i=2,3,4,H(1)≥0是大小为N1×R移位投影矩阵;核张量是4阶张量,大小为R×K×K×K,n=0,...,N-1,N是卷积的长度,↓n是矩阵的下移移位算子,表示将矩阵的行元素向下移动n行,上方空出位置用零补齐,×i表示张量i阶矩阵乘运算;
利用卷积型非负张量分解方法计算投影矩阵A(i),i=2,...,I和移位投影矩阵H(1)的具体过程如下,其中I=4:
●设向量v=diag(A(I)TA(I)),其中运算符diag(·)表示取矩阵的对角元素;
●从i=1到I依次执行:
√如果i等于I时,设v=1;
√T3=T1./(A(i)TA(i)),./表示矩阵之间元素一一相除;
√从k=1到K依次执行
■
■如果i≠I,则
其中,(·)k表示取矩阵的第k列,[·]+表示将矩阵中负值元素置为零,||·||2表示取矩阵或者向量的2范数。
√T1=T3.*(A(i)TA(i)),其中.*表示矩阵之间元素一一相乘;
④循环结束后,计算得到投影矩阵A(i),i=1,...I,对A(1)进行进一步分解,得到 具体过程如下:
●随机初始化Wn和H(1);
●以误差函数为判断条件,当E大于一定阈值时,循环执行以下操作:
√从n=0到N-1依次执行
■
■
√
其中,n←是矩阵的左移移位算子,表示将矩阵的列元素向左移动n行,右方空出位置用零补齐,n→是矩阵的右移移位算子,表示将矩阵的列元素向右移动n行,左方空出位置用零补齐。
●循环结束之后求解得到移位矩阵H(1);
(6)利用离散余弦变换对F(f)进行去相关,得到鲁棒的特征F,计算特征参数的一阶和二阶差分系数,获得最终的说话人身份特征。
如图3所示,采用上述特征提取方法进行说话人辨别的过程,包括以下步骤:
1)通过采集设备获得不同说话人的语音信号数据xj(t),j=1,...,J,共有J个不同说话人;
2)利用图2中所示的特征提取方法进行提取不同说话人的特征Fj;
3)利用混合高斯混合模型(GMM)建立不同说话人的模型,得到第j个说话人所对应的模型Mj,其中高斯混合的个数为64个;
本发明的效果可以通过实验结果进一步说明。
实验的测试数据是通过对纯净语音信号线性叠加不同类型噪声得到,本实例中用的的4种噪声DestroyerEngine、F16、Pink、White是从Noisex-92数据库获得,各个噪声信号分别以20dB、15dB、10dB和5dB的信噪比与纯净语音信号混合。图4给出了本发明提出的方法与已有特征提取技术(MFCC和PLP特征)的识别性能比较,包括不同噪声情况下的4种信噪比的平均识别率和总的平均识别率,由最终结果可见,采用本发明后,噪声环境下说话人辨别的准确率得到有效提高。
Claims (2)
1.一种考虑语音中多因素的频率位移不变特征提取方法,其特征是:
考虑语音信号中包括时间、频率、尺度和相位信息的多重因素,利用卷积型非负张量分解方法计算频率阶上的特征投影,提取频率的位移不变稀疏特征,降低噪声成分的干扰,经过离散余弦变换对特征去相关,计算特征的一阶和二阶差分系数,用于复杂环境下文本无关的说话人辨别,具体包括以下步骤:
(1)通过采集设备得到语音信号x(t),并进行加窗和预加重,利用短时傅里叶变换计算x(t)的能量谱S(f,t);
(3)采用张量分解的方法对得到的张量多因素表征S进行处理,估计移位投影矩阵H(1)和不同阶上的投影矩阵A(i),i=2,3,4,采用以下卷积非负张量分解的模型:
核张量C n≥0是4阶张量,n=0,…,N-1,N是卷积的长度,↓n是矩阵的下移移位算子,×i表示张量i阶矩阵乘运算;
(4)利用得到的对应于频域的投影矩阵H(1)对语音信号的多因素表征S进行特征投影得到:
F=S×1H(1)T
(5)固定对应的时间阶,对投影之后的稀疏张量多因素表征F进行张量展开操作,得到特征矩阵F(f);
(6)利用离散余弦变换对上述特征矩阵F(f)进行去相关,得到鲁棒的特征F,计算特征参数的一阶和二阶差分系数,获得最终的说话人身份特征。
2.根据权利要求1所述的考虑语音中多因素的频率位移不变特征提取方法,其特征是:所述步骤(3)中卷积型非负张量分解方法计算移位投影矩阵H(1)和投影矩阵A(i),i=2,…,I的具体过程如下,其中I=4:
●设向量v=diag(A(I)TA(I)),其中运算符diag(·)表示取矩阵的对角元素;
●从i=1到I依次执行:
√如果i等于I时,设v=1;
√T3=T1./(A(i)TA(i)),./表示矩阵之间元素一一相除;
√从k=1到K依次执行
■
■如果i≠I,则
其中,(·)k表示取矩阵的第k列,[·]+表示将矩阵中负值元素置为零,||·||2表示取矩阵或者向量的2范数;
√T1=T3.*(A(i)TA(i)),其中.*表示矩阵之间元素一一相乘;
④循环结束后,计算得到投影矩阵A(i),i=1,…I,对A(1)进行进一步分解,使得 具体过程如下:
●随机初始化Wn和H(1);
●以误差函数为判断条件,当E大于一定阈值时,循环执行以下操作:
√从n=0到N-1依次执行
■
■
√
其中,n←是矩阵的左移移位算子,n→是矩阵的右移移位算子;●循环结束之后求解得到移位投影矩阵H(1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210137353.7A CN102664010B (zh) | 2012-05-04 | 2012-05-04 | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210137353.7A CN102664010B (zh) | 2012-05-04 | 2012-05-04 | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102664010A CN102664010A (zh) | 2012-09-12 |
CN102664010B true CN102664010B (zh) | 2014-04-16 |
Family
ID=46773476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210137353.7A Expired - Fee Related CN102664010B (zh) | 2012-05-04 | 2012-05-04 | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102664010B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106023996A (zh) * | 2016-06-12 | 2016-10-12 | 杭州电子科技大学 | 基于十字形声阵列宽带波束形成的声识别方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117059B (zh) * | 2012-12-27 | 2015-05-06 | 内蒙古科技大学 | 一种基于张量分解的语音信号特征提取方法 |
CN102982805B (zh) * | 2012-12-27 | 2014-11-19 | 北京理工大学 | 一种基于张量分解的多声道音频信号压缩方法 |
CN103514877A (zh) * | 2013-10-12 | 2014-01-15 | 新疆美特智能安全工程股份有限公司 | 振动信号特征参数提取方法 |
CN104408040B (zh) * | 2014-09-26 | 2018-01-09 | 大连理工大学 | 头相关函数三维数据压缩方法与系统 |
CN104318064B (zh) * | 2014-09-26 | 2018-01-30 | 大连理工大学 | 基于典范多元分解的头相关脉冲响应三维数据压缩方法 |
CN104318521A (zh) * | 2014-09-29 | 2015-01-28 | 北京理工大学 | 多线性子空间学习的医疗图像去噪方法 |
CN105810198A (zh) * | 2016-03-23 | 2016-07-27 | 广州势必可赢网络科技有限公司 | 基于特征域补偿的信道鲁棒的说话人辨识方法和装置 |
CN107919115B (zh) * | 2017-11-13 | 2021-07-27 | 河海大学 | 一种基于非线性谱变换的特征补偿方法 |
CN110010137B (zh) * | 2019-04-04 | 2021-09-28 | 杭州电子科技大学 | 一种基于张量结构及稀疏表示的说话人确认方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7437289B2 (en) * | 2001-08-16 | 2008-10-14 | International Business Machines Corporation | Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data |
CN101188107B (zh) * | 2007-09-28 | 2011-09-07 | 中国民航大学 | 一种基于小波包分解及混合高斯模型估计的语音识别方法 |
US8484023B2 (en) * | 2010-09-24 | 2013-07-09 | Nuance Communications, Inc. | Sparse representation features for speech recognition |
CN102290047B (zh) * | 2011-09-22 | 2012-12-12 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
-
2012
- 2012-05-04 CN CN201210137353.7A patent/CN102664010B/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106023996A (zh) * | 2016-06-12 | 2016-10-12 | 杭州电子科技大学 | 基于十字形声阵列宽带波束形成的声识别方法 |
CN106023996B (zh) * | 2016-06-12 | 2019-08-27 | 杭州电子科技大学 | 基于十字形声阵列宽带波束形成的声识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102664010A (zh) | 2012-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102664010B (zh) | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
Al-Ali et al. | Enhanced forensic speaker verification using a combination of DWT and MFCC feature warping in the presence of noise and reverberation conditions | |
Sarikaya et al. | Wavelet packet transform features with application to speaker identification | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN101980336B (zh) | 一种基于隐马尔可夫模型的汽车声音识别方法 | |
CN109637545B (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
CN111429938B (zh) | 一种单通道语音分离方法、装置及电子设备 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
Kwon et al. | Phoneme recognition using ICA-based feature extraction and transformation | |
CN102968990B (zh) | 说话人识别方法和系统 | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
Tiwari et al. | Multi-conditioning and data augmentation using generative noise model for speech emotion recognition in noisy conditions | |
CN102799892B (zh) | 一种mfcc水下目标特征提取和识别方法 | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN108564965B (zh) | 一种抗噪语音识别系统 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
Shahin | Novel third-order hidden Markov models for speaker identification in shouted talking environments | |
CN101419799A (zh) | 基于混合t模型的说话人识别方法 | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
Lei et al. | Speaker recognition using wavelet cepstral coefficient, i-vector, and cosine distance scoring and its application for forensics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140416 Termination date: 20170504 |