CN107093430A - 一种基于小波包变换的声纹特征提取算法 - Google Patents

一种基于小波包变换的声纹特征提取算法 Download PDF

Info

Publication number
CN107093430A
CN107093430A CN201710324326.3A CN201710324326A CN107093430A CN 107093430 A CN107093430 A CN 107093430A CN 201710324326 A CN201710324326 A CN 201710324326A CN 107093430 A CN107093430 A CN 107093430A
Authority
CN
China
Prior art keywords
node
wavelet packet
wavelet
vocal print
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710324326.3A
Other languages
English (en)
Inventor
黄金杰
张厚振
贾海阳
潘晓真
张青春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201710324326.3A priority Critical patent/CN107093430A/zh
Publication of CN107093430A publication Critical patent/CN107093430A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于小波包变换的声纹特征提取的算法,其特征在于:小波包变换利用人耳的听觉特性将一帧语音信号进行5层分解,提取其中的17处节点的小波包系数,对各节点处的小波包系数分别进行能量求和,取对数,求得的值组成一行向量,DCT变换;将说话人语音提取到的声纹特征进行训练和识别匹配后,其特定人的非特定语音识别率有了很大提高,其鲁棒性能也有了一定提升。

Description

一种基于小波包变换的声纹特征提取算法
技术领域
本发明涉及语音特征参数提取和识别领域,具体是一种利用小波包的变换将声纹特征进行提取的设计系统。
背景技术
在生物学和信息科学高度发展的今天,生物认证技术作为一种便捷、先进的信息安全技术开始在全球电子商务时代崭露头角;这是一种根据人自身的生理特征如:指纹、手形、脸部、虹膜、视网膜、气味等和行为特征:声音、签名、击键方式等来识别身份的技术;它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术,能满足现代社会对于身份鉴别的准确性、安全性与实用性的更高要求;在生物认证技术中,说话人识别技术以其独特的方便性、经济性、和准确性受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。
在众多的生物技术中,说话人识别技术表现出很多应用上的优势;首先,说话人识别技术有着天然的优点:以声音作为识别特征,因其不接触性和自然性,用户很容易接受,不存在心理上的障碍;在说话人识别过程中,用户不用刻意的去将手指放在传感器上,或者把眼睛靠上摄像头,只需随意的说几句话即可完成识别;其次,说话人识别所用的设备成本低廉;如:输入设备麦克风、电话送话机等没有特征别的要求;声音采样与量化对芯片的要求也很低;特征提取、模型训练和匹配只需普通的计算机即可;另外,现在的电子设备很多都是集麦克风,计算机为一体,所以识别系统所需的硬件成本会很低。
语音特征提取方面:从1963年到1973年的十年间,研究人员先后采用带通滤波器组、基因频率、倒谱特征、共振峰、线性预测系数、语音对数域比例、时域音栓配合法的语音响度、Mel频率倒谱系数、小波变换系数、Mel频率倒谱系数与PCA混合参数、Mel频率倒谱系数与Delta混合参数等特征参数进行说话人识别;1974年,阿尔塔通过对线性预测系数、自相关系数、声道的冲激响应和面积函数以及倒谱系数的比较,得出在当时实验条件下倒谱系数的识别效果最好的结论,从七十年代末起,研究人员对识别方法和匹配度等方面展开了深入研究。
发明内容
本发明要解决的技术问题是提出一种语音特征参数提取的算法,具有良好的鲁棒性和低复杂度,且识别出的结果很好。
一种基于小波包的变换将声纹特征进行提取的算法,具体步骤:
(1)、将采样频率为8000Hz的一帧语音信号x(n)进行5层小波包分解,但只取其中的17个节点,17个节点分别为(5,i),i=1,2,3,4,5,6,7,12,13,(3,j),j=4,5,6,7,(4,k),k=4,5,7,(i,j)代表第i层第j+1节点处的小波包系数,取这17个节点处的小波包系数的原则是根据语音的频谱能量集中区间划分;
(2)、计算一帧语音信号所取各节点处的小波包系数,分别为:
wpcn=[cb,m(0),cb,m(1),…,cb,m(k)] (1)
式(1)中wpcn表示在节点(b,m)节点下的小波包系数,k表示在节点(b,m)下的小波包系数维数(或长度),n为第几个小波包系数,且n=1,2,3,…,17;当b=3时,m=4,5,6,7;k=257,n=1,2,3,4。当b=4时,m=4,5,7;k=133;n=5,6,7。当b=5时,m=1,2,3,4,5,6,7,12,13;k=66;n=8到17;
(3)、对第二步所求出的各小波包系数进行求能量之和,公式为:
En=∑[wpcn 2(1),wpcn 2(2),…,wpcn 2(k)] (2)
式中n=1,2,3,…,17;
(4)、第三步得到的En进行取对数,得:
Q(n)=log(En) (3)
(5)、求一帧语音的DWPT参数:
DWPT=dct[Q(0),Q(1),…,Q(n)] (4)
本发明与现有的声纹提取技术相比,采用了最近几年研究最火的小波变换,将时间序列的语音信息进行高频和低频信息的5层分解,在通过对分解的具体节点处的语音信息进行能量求和,取对数计算,形成声纹特征提取的算法;该算法的优势在于小波包对语音信息分解的频带能很好的模拟人耳的听觉特性,提取出的特征在LBG-VQ识别模型下识别效果很好。
附图说明
图1为本发明的系统框图;
图2为本发明的识别框图;
图3为小波包分解的结构和17处节点代表的频带带宽图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围;
如图2所示,该基于小波包变换的声纹特征提取算法的识别系统,主要分为以下几部分:
语音信号的采集,预处理,DWPT特征参数提取,识别模型测试和训练,说话人声纹匹配;
基于小波包变换的声纹特征提取的识别方法具体步骤如下:
1语音信号的采集:语音信号是由Audacity软件录制,信号的采样频率为8000Hz,单通道,16bit;
2语音信号的预处理:预加重,其加重权系数为0.96;分帧,256个采样点为一帧,且帧移为64个采样点;加窗,窗函数用的是汉明窗;端点检测,端点检测利用的是频带方差法;
(1)加汉明窗
k为窗口长度
(2)频带方差的端点检测
设带噪语音信号为x(n),然后经过加窗分帧处理,得到第i帧语音信号为xi(m),对得到的该语音信号进行FFT变换,如下:
其中N为帧长,让Xi={Xi(1),Xi(1),…,Xi(N)},为求第i帧的语音信号的频带方差,先求出第i帧语音信号的均值和方差Di如下:
将上式中的求得的多帧前导无话语音信号的均值和方差Di进行取平均值,作为2个阈值,将此阈值取代双门限语音端点检测中的短时能量和短时过零率的阈值,便得到基于频带方差的端点检测方法。
3如图1所示的小波包变换的声纹特征提取算法框图,具体文字表述为:
(1)、将采样频率为8000Hz的一帧语音信号x(n)进行5层小波包分解,但只取其中的17个节点,17个节点分别为(5,i),i=1,2,3,4,5,6,7,12,13,(3,j),j=4,5,6,7,(4,k),k=4,5,7,(i,j)代表第i层第j+1节点处的小波包系数,取这17个节点处的小波包系数的原则是根据语音的频谱能量集中区间划分;
(2)、计算一帧语音信号所取各节点处的小波包系数,分别为:
wpcn=[cb,m(0),cb,m(1),…,cb,m(k)] (8)
式(1)中wpcn表示在节点(b,m)节点下的小波包系数,k表示在节点(b,m)下的小波包系数维数(或长度),n为第几个小波包系数,且n=1,2,3,…,17;当b=3时,m=4,5,6,7;k=257,n=1,2,3,4。当b=4时,m=4,5,7;k=133;n=5,6,7。当b=5时,m=1,2,3,4,5,6,7,12,13;k=66;n=8到17;
(3)、对第二步所求出的各小波包系数进行求能量之和,公式为:
En=∑[wpcn 2(1),wpcn 2(2),…,wpcn 2(k)] (9)
式中n=1,2,3,…,17;
(4)、第三步得到的En进行取对数,得:
Q(n)=log(En) (10)
(5)、求一帧语音的DWPT参数:
DWPT=dct[Q(0),Q(1),…,Q(n)] (11)
4LBG-VQ训练样本
有M个语音信号训练样本的训练序列T={x1,x2,x3,…xM},源矢量是k=17维的:xm=(xm,1,xm,2,…,xm,k)m=1,2…M;码矢的数目是N=16,码书表示为:C={c1,c2,…,cN};每一个码矢是个k维向量cn=(xn,1,xn,2,…,xn,k)n=1,2…N:与码矢cn对应的编码区域表示为Sn,然后将空间的划分表示为:
P={S1,S2,…,SN};如果源矢量xm在Sn内,其近似是cn,即Q(xm)=cn,如果xm属于Sn假设我们采用平均均方差失真度量,那么平均失测度表示如下:
其中||…||表示欧式距离。
LBG算法:
(1)确定测试集T和正数ξ,本发明为0.01;
(2)令N=1,将这一个码矢设置为所有训练样本的平均值:
总失真度为:
(3)进行分裂算法:对i=1,2…N,其码矢按照下式进行分裂:
由上可知码矢是按原码矢的2倍增长;
(4)开始迭代:初始失真测度确定为:Dave (q)=Dave *,其中q为迭代次数索引,初次令q=0;
1)对于训练集T中的每一个训练样本m=1,2…M,在训练样本和哪个码矢 距离最近所有码矢中寻找的,即min||xm-cn (q)||2,令n*表示该最小值的标记,用此码矢来近似这个训练样本:
2)更新码矢:
n=1,2…N,也就是将所有属于cn所在的编码区域Sn的训练样本取平均作为这个编码区域的新的码矢。
3)迭代计数器加1:q=q+1.
4)计算在现阶段的C和P基础上的总失真度:
5)如果失真度相比上一次的失真度(相对失真改进量)还大于可以接受的失真阈值ε,那么继续迭代,返回步骤1),否则转入6)步
6)最终失真度为对n=1,2…N,最终码矢为:
(5)重复步骤(3)和(4)到N=16停止。
5说话人识别
对说话人语音样本进行步骤1-3步骤得到说话人的声纹特征,将其与步骤4所取得到的多个训练人语音信息得到的码本进行匹配,将匹配距离最小的作为识别结果,本发明采用的是欧氏距离的平均距离测度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求;
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (3)

1.一种基于小波包变换的声纹特征提取算法,其步骤如下:
(1)、将采样频率为8000Hz的一帧语音信号x(n)进行5层小波包分解,但只取其中的17个节点,17个节点分别为(5,i),i=1,2,3,4,5,6,7,12,13,(3,j),j=4,5,6,7,(4,k),k=4,5,7,(i,j)代表第i层第j+1节点处的小波包系数,取这17个节点处的小波包系数的原则是根据语音的频谱能量集中区间划分;
(2)、计算一帧语音信号所取各节点处的小波包系数,分别为:
wpcn=[cb,m(0),cb,m(1),…,cb,m(k)] (1)
式(1)中wpcn表示在节点(b,m)节点下的小波包系数,k表示在节点(b,m)下的小波包系数维数(或长度),n为第几个小波包系数,且n=1,2,3,…,17;当b=3时,m=4,5,6,7;k=257,n=1,2,3,4。当b=4时,m=4,5,7;k=133;n=5,6,7。当b=5时,m=1,2,3,4,5,6,7,12,13;k=66;n=8到17;
(3)、对第二步所求出的各小波包系数进行求能量之和,公式为:
En=∑[wpcn 2(1),wpcn 2(2),…,wpcn 2(k)] (2)
式中n=1,2,3,…,17
(4)、第三步得到的En进行取对数,得:
Q(n)=log(En) (3)
(5)、求一帧语音的DWPT参数:
DWPT=dct[Q(0),Q(1),…,Q(n)] (4) 。
2.根据权利要求1所述的基于小波包变换的声纹特征提取的算法,其特征在于:小波包分解层次为5层,声纹特征提取的阶数为17。
3.根据权利要求1所述的基于小波包变换的声纹特征提取的算法,其特征在于:5层小波包分解后提取的17处节点分别为第三层为(3,m)m=4,5,6,7,第四层节点(4,m)m=4,5,7;第五层节点(5,m)m=1,2,3,4,5,6,7,12,13。
CN201710324326.3A 2017-05-10 2017-05-10 一种基于小波包变换的声纹特征提取算法 Pending CN107093430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710324326.3A CN107093430A (zh) 2017-05-10 2017-05-10 一种基于小波包变换的声纹特征提取算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710324326.3A CN107093430A (zh) 2017-05-10 2017-05-10 一种基于小波包变换的声纹特征提取算法

Publications (1)

Publication Number Publication Date
CN107093430A true CN107093430A (zh) 2017-08-25

Family

ID=59638517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710324326.3A Pending CN107093430A (zh) 2017-05-10 2017-05-10 一种基于小波包变换的声纹特征提取算法

Country Status (1)

Country Link
CN (1) CN107093430A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111108554A (zh) * 2019-12-24 2020-05-05 广州国音智能科技有限公司 一种基于语音降噪的声纹识别方法和相关装置
RU2742040C1 (ru) * 2020-08-07 2021-02-02 Общество с ограниченной ответственностью "Центр компетенции инновационных технологий" Биометрический способ идентификации абонента по речевому сигналу
CN117636880A (zh) * 2023-12-13 2024-03-01 南京龙垣信息科技有限公司 一种用于提升语音外呼辨音准确率的声纹识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022385A (ja) * 1999-07-07 2001-01-26 Yoshimi Baba 声紋による本人認証及びその強化法
CN104485102A (zh) * 2014-12-23 2015-04-01 智慧眼(湖南)科技发展有限公司 声纹识别方法和装置
CN105719659A (zh) * 2016-02-03 2016-06-29 努比亚技术有限公司 基于声纹识别的录音文件分离方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022385A (ja) * 1999-07-07 2001-01-26 Yoshimi Baba 声紋による本人認証及びその強化法
CN104485102A (zh) * 2014-12-23 2015-04-01 智慧眼(湖南)科技发展有限公司 声纹识别方法和装置
CN105719659A (zh) * 2016-02-03 2016-06-29 努比亚技术有限公司 基于声纹识别的录音文件分离方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孟慧: "基于小波变换的声纹参数提取方法与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
孟慧等: "一种小波包变换的声纹参数提取方法研究", 《沈阳理工大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111108554A (zh) * 2019-12-24 2020-05-05 广州国音智能科技有限公司 一种基于语音降噪的声纹识别方法和相关装置
RU2742040C1 (ru) * 2020-08-07 2021-02-02 Общество с ограниченной ответственностью "Центр компетенции инновационных технологий" Биометрический способ идентификации абонента по речевому сигналу
CN117636880A (zh) * 2023-12-13 2024-03-01 南京龙垣信息科技有限公司 一种用于提升语音外呼辨音准确率的声纹识别方法

Similar Documents

Publication Publication Date Title
CN106847292B (zh) 声纹识别方法及装置
CN107293302A (zh) 一种用于语音测谎系统中的稀疏谱特征提取方法
CN104887263B (zh) 一种基于心音多维特征提取的身份识别算法及其系统
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN113221673B (zh) 基于多尺度特征聚集的说话人认证方法及系统
Beritelli et al. Human identity verification based on heart sounds: recent advances and future directions
CN107093430A (zh) 一种基于小波包变换的声纹特征提取算法
CN113223536A (zh) 声纹识别方法、装置及终端设备
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Lei et al. Speaker Recognition Using Wavelet Cepstral Coefficient, I‐Vector, and Cosine Distance Scoring and Its Application for Forensics
CN113241081B (zh) 一种基于梯度反转层的远场说话人认证方法及系统
Abbas et al. Heart‐ID: human identity recognition using heart sounds based on modifying mel‐frequency cepstral features
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
CN116434758A (zh) 声纹识别模型训练方法、装置、电子设备及存储介质
WO2023036016A1 (zh) 一种应用于电力作业中的声纹识别的方法及系统
Renisha et al. Cascaded Feedforward Neural Networks for speaker identification using Perceptual Wavelet based Cepstral Coefficients
CN111862991A (zh) 一种婴儿哭声的识别方法及系统
Sukor et al. Speaker identification system using MFCC procedure and noise reduction method
Prasasti et al. Identification of baby cry with discrete wavelet transform, mel frequency cepstral coefficient and principal component analysis
Tan et al. Towards real time implementation of sparse representation classifier (SRC) based heartbeat biometric system
El‐Dahshan et al. Intelligent methodologies for cardiac sound signals analysis and characterization in cepstrum and time‐scale domains

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170825