CN103400578B - 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置 - Google Patents

谱减与动态时间规整算法联合处理的抗噪声声纹识别装置 Download PDF

Info

Publication number
CN103400578B
CN103400578B CN201310370030.7A CN201310370030A CN103400578B CN 103400578 B CN103400578 B CN 103400578B CN 201310370030 A CN201310370030 A CN 201310370030A CN 103400578 B CN103400578 B CN 103400578B
Authority
CN
China
Prior art keywords
module
signal
characteristic extracting
matching
input end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310370030.7A
Other languages
English (en)
Other versions
CN103400578A (zh
Inventor
童峰
周跃海
洪青阳
李芳兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201310370030.7A priority Critical patent/CN103400578B/zh
Publication of CN103400578A publication Critical patent/CN103400578A/zh
Application granted granted Critical
Publication of CN103400578B publication Critical patent/CN103400578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

谱减与动态时间规整算法联合处理的抗噪声声纹识别装置,涉及一种声纹识别装置。设有麦克风、前置放大模块、ADC电路、端点检测模块、信号分帧模块、谱减模块、第1MFCC特征提取模块、第2MFCC特征提取模块、第3MFCC特征提取模块、第4MFCC特征提取模块、当前模板、用户模块、第1DTW匹配模块、第2DTW匹配模块、第3DTW匹配模块、得分反馈模块、信息补偿模块和结果输出模块。采用数字0~9作为口令进行基于孤立词的嵌入式声纹识别,并采用语音的信号域和模型域联合处理避免语音增强过程中的信息损失造成的识别性能下降,改善噪声背景下的声纹识别性能。系统实现方便、成本低。

Description

谱减与动态时间规整算法联合处理的抗噪声声纹识别装置
技术领域
本发明涉及一种声纹识别装置,尤其是涉及一种谱减与动态时间规整算法联合处理的抗噪声声纹识别装置。
背景技术
声纹识别(Voice Print Recognition,简称“VPR”)也称说话人识别,就是根据说话人的声音特征,识别出某段语音是谁说的。声纹是人的个性特征,很难找到两个声纹完全一样的人,因此,声纹识别广泛应用于安防、公安、军队、银行、证券、个人身份认定等领域。在孤立词识别中,最有效、最简单的方法是采用动态时间规整算法(Dynamic Time Warping,简称DTW算法),该方法最显著的优点是复杂度低、识别率比较高,因而在语音识别、说话人识别等领域被广泛研究。
参考文献1(Lippmann R P.Speech recognition by machines and humans[J].SpeechCommunication.1997,22(1):1-15)运用DTW算法在DSP上实现了一个功耗低、精度高,快速识别的声纹识别系统;
参考文献2(Levy C,Linares G,Nocera P,et al.Recucing somputational and memory cost forcellular phone embedded speech recognition system[C].2004IEEE International Conference onAcoustic,Speech and Signal Processing.Montreal,Quebec,Canada.2004:23(5):149-150)则运用DTW算法和HMM模型在蜂窝手机上实现了声纹识别系统。
但是,在声纹识别的实际应用中环境、家电、交通等各类背景噪声所引起的畸变严重影响着声纹识别的性能,轻微的背景噪声往往造成识别率的明显下降,因此有必要对语音进行消噪来提高信噪比和声纹识别的性能。
谱减方法基于一个基本的理论:对于加性噪声,可以从带噪语音的离散傅里叶变换(Discrete Fourier Transform,DFT)的频谱中减去噪声频谱来获得语音频谱的估计。噪声频谱可以通过无声段来估计和更新。对估计的语音频谱进行离散傅里叶逆变换(Inverse DiscreteFourier Transform,IDFT)就可以得到增强后语音时域波形。谱减法只需要进行DFT和IDFT,计算复杂度低、实现简单,在语音信号的抗噪声处理中得到了广泛的研究和应用。
但是,由于语音的能量往往集中在某些频段内,尤其是共振峰对应频带处的幅度一般远大于噪声,而语音中的噪声往往是随机不平稳的,用加了不平稳噪声的语音信号的频谱减去一个固定的噪声频谱往往无法达到较好的语音增强效果;同时,由于噪声估计误差和频谱扰动的存在,带噪信号在某些频带上的幅值会小于噪声的估计幅值,从而使相减之后的估计语音频谱出现负值,将这些小于零的值置零从而使全频带的频谱幅值都为非负数是最简单的处理办法。然而,这种处理在频带上制造出许多的孤立峰。这些孤立峰在时域和频域都表现出极强的随机性,虽幅值不大但影响严重。在时域,这些孤立峰听起来像是单音调的乐音,且其音调(频率)在帧与帧之间随机变化,产生一种新型的噪声,经常被称为音乐噪声(musicalnoise)。
由于传统谱减方法的局限性,众多研究者对谱减方法进行改进,如:
参考文献3(松下电器产业株式会社.一种基于自适应非线性谱减的抗噪方法和装置:中国,1841500[P].2006-10-04)公开了一种自适应非线性谱减方法及装置,通过语音平均Mel频带信噪比进行门限检测判断出语音中的噪声帧,并更新当前噪声估计,然后进行第一次谱减计算提高含噪语音的信噪比,最后进行第二次谱减计算进一步消除含噪语音中的噪声。
参考文献4(丁伟,吴小培.基于改进谱减方法的语音增强研究[J].计算机技术与发展,2008,18(9):98-100)采用对幅度高的信号帧施加一个系数固定的加权谱减来改善对非平稳噪声的降噪效果。
参考文献5(李晔,崔慧娟,唐昆.基于谱减的语音增强算法的改进[J].清华大学学报(自然科学版).2006,46(10):1685-1686)根据对多帧非平稳背景噪声的递推估计结果进行谱减。
参考文献6(周跃海,童峰,洪青阳.采用DTW算法和语音增强的嵌入式声纹识别系统[J].厦门大学学报(自然科学版).2012,51(2):174-178)针对安防领域的嵌入式声纹识别系统中,采集的语音段短(一般为2-3秒),可近似认为在此段时间内背景噪声为平稳特性,此时可根据语音信号的非平稳特性对谱减语音算法进行信噪比关联加权调整,提出信噪比关联的谱减方法,即:当语音信号强信噪比高时,由于遮蔽效应背景噪声对人耳听觉影响小,此时采用较小的加权系数进行谱减;反之,语音信号弱信噪比低时,由于背景噪声的相对影响大,采用较大的加权系数进行谱减。
但是,上述工作中对谱减方法的改进均以恢复含噪语音信号的波形、提高信噪比为目的,而传统的声纹识别系统中,信号域语音增强和后端的特征提取、模式识别是相互独立的两个过程,导致信号信噪比的改善和声纹识别性能提高之间缺乏关联。如改进的谱减算法可有效地在信号域提高语音信噪比,但在此语音增强过程中由于并未考虑后端识别模型的匹配程度,将造成有用语音信息的丢失,即谱减处理中滤除的“噪声”中实际上包含大量有用的语音信号信息,在很多时候谱减算法获取的信噪比改善反而使后端模型域中的声纹识别性能下降。
发明内容
本发明的目的在于提供一种谱减与动态时间规整算法联合处理的抗噪声声纹识别装置。
本发明设有麦克风、前置放大模块、ADC电路、端点检测模块、信号分帧模块、谱减模块、第1MFCC特征提取模块、第2MFCC特征提取模块、第3MFCC特征提取模块、第4MFCC特征提取模块、当前模板、用户模块、第1DTW匹配模块、第2DTW匹配模块、第3DTW匹配模块、得分反馈模块、信息补偿模块和结果输出模块;
所述麦克风的当前说话人语音信号输出端接前置放大模块的输入端,前置放大模块的输出端接ADC电路输入端,ADC电路的输出端接端点检测模块的输入端,端点检测模块的输出端接信号分帧模块的输入端,信号分帧模块的输出端分别与谱减模块的输入端和第1MFCC特征提取模块的输入端连接,谱减模块的输出端分别与信息补偿模块、第2MFCC特征提取模块和第3MFCC特征提取模块的输入端连接,第1MFCC特征提取模块、第2MFCC特征提取模块和第3MFCC特征提取模块的输出端分别与第1DTW匹配模块、第2DTW匹配模块和当前模板的输入端连接,当前模板分别与第1DTW匹配模块和第2DTW匹配模块连接,第1DTW匹配模块和第2DTW匹配模块的输出端分别接得分反馈模块的输入端,得分反馈模块的输出端接信息补偿模块输入端,信息补偿模块的输出端经第4MFCC特征提取模块接第3DTW匹配模块,用户模块的输出端接第3DTW匹配模块,第3DTW匹配模块的输出端接结果输出模块的输入端,结果输出模块的输出端输出当前说话人是否为授权人的识别结果。
以下给出本发明使用方法的具体步骤:
(1)取初始“静音段”背景噪声作为谱减算法中的基准噪声进行噪声估计;
(2)通过计算短时平均能量和短时平均过零率参数确定语音信号帧的起始端点,根据起始端点进行信号分帧;
(3)对语音信号帧进行谱减处理,产生估计噪声并从原始带噪信号减去估计噪声,获取初步增强语音;
(4)以初步增强语音作为模板,对原始带噪语音和初步增强语音分别进行MFCC(梅尔频标倒谱系数)特征提取,DTW模式匹配,计算原始带噪语音和增强语音的DTW模式匹配得分差值;
(5)利用此得分差值计算信息补偿参数;
(6)对初步增强信号进行信息补偿处理获取二次增强信号;
(7)对二次增强语音进行MFCC特征提取,DTW模式匹配,获取声纹识别结果。
本发明要解决的问题是通过谱减和DTW的联合处理降低背景噪声对语音信号特征提取、模型匹配的影响,从而提高声纹识别性能。
本发明提出信号域与模型域相结合的思路进行谱减噪声抑制和DTW声纹识别的联合处理,即:首先对原始带噪语音进行谱减处理,产生估计噪声并进行滤除获取,初步增强语音;然后,以初步增强语音作为模板,分别用原始带噪语音和滤除噪声与其进行DTW模型匹配,利用两者的DTW模型匹配得分差值作为反馈调整因子,从滤除噪声中获取补偿信号对初步增强语音进行信息补偿获取二次增强语音;最后,对二次增强语音信号进行MFCC提取和DTW声纹识别。由于综合考虑了语音信噪比和声纹的模型匹配,因此该方法对背景噪声造成的信噪比和识别性能影响均具有较好的抑制性能。
本发明采用数字0~9作为口令进行基于孤立词的嵌入式声纹识别,并采用语音的信号域和模型域联合处理避免语音增强过程中的信息损失造成的识别性能下降,改善噪声背景下的声纹识别性能。
与现有的语音增强及声纹识别方法及装置相比,本发明具有以下两个突出的优点:
第一,基于信号增强和模型匹配联合处理,不是单纯提高语音信噪比,而是综合降低背景噪声在信号域、模型域造成的影响,以提高噪声背景下的识别性能;
第二,联合低复杂度的谱减语音增强、DTW模型匹配算法进行装置的嵌入式实现,系统实现方便、成本低。
附图说明
图1为本发明实施例的结构组成框图。
图2为本发明实施例的硬件组成原理图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
参见图1,本发明实施例设有麦克风1、前置放大模块2、ADC电路3、端点检测模块4、信号分帧模块5、谱减模块6、第1MFCC特征提取模块71、第2MFCC特征提取模块72、第3MFCC特征提取模块73、第4MFCC特征提取模块74、当前模板8、用户模块9、第1DTW匹配模块101、第2DTW匹配模块102、第3DTW匹配模块103、得分反馈模块11、信息补偿模块12和结果输出模块13。
所述麦克风1的当前说话人语音信号输出端接前置放大模块2的输入端,前置放大模块2的输出端接ADC电路3输入端,ADC电路3的输出端接端点检测模块4的输入端,端点检测模块4的输出端接信号分帧模块5的输入端,信号分帧模块5的输出端分别与谱减模块6的输入端和第1MFCC特征提取模块71的输入端连接,谱减模块6的输出端分别与信息补偿模块12、第2MFCC特征提取模块72和第3MFCC特征提取模块73的输入端连接,第1MFCC特征提取模块71、第2MFCC特征提取模块72和第3MFCC特征提取模块73的输出端分别与第1DTW匹配模块101、第2DTW匹配模块102和当前模板8的输入端连接,当前模板8分别与第1DTW匹配模块101和第2DTW匹配模块102连接,第1DTW匹配模块101和第2DTW匹配模块102的输出端分别接得分反馈模块11的输入端,得分反馈模块11的输出端接信息补偿模块12输入端,信息补偿模块12的输出端经第4MFCC特征提取模块74接第3DTW匹配模块103,用户模块9的输出端接第3DTW匹配模块103,第3DTW匹配模块103的输出端接结果输出模块13的输入端,结果输出模块13的输出端输出当前说话人是否为授权人的识别结果。
以下给出本发明使用方法的具体步骤:
(1)取初始“静音段”背景噪声作为谱减算法中的基准噪声进行噪声估计;
(2)通过计算短时平均能量和短时平均过零率参数确定语音信号帧的起始端点,根据起始端点进行信号分帧;
(3)对语音信号帧进行谱减处理,产生估计噪声并从原始带噪信号减去估计噪声,获取初步增强语音;
(4)以初步增强语音作为模板,对原始带噪语音和初步增强语音分别进行MFCC(梅尔频标倒谱系数)特征提取,DTW模式匹配,计算原始带噪语音和增强语音的DTW模式匹配得分差值;
(5)利用此得分差值计算信息补偿参数;
(6)对初步增强信号进行信息补偿处理获取二次增强信号;
(7)对二次增强语音进行MFCC特征提取,DTW模式匹配,获取声纹识别结果。
在本发明的各功能模块中,前置放大模块2和ADC电路3由硬件电路组成;
端点检测模块4、信号分帧模块5、谱减模块6、第1MFCC特征提取模块71、第2MFCC特征提取模块72、第3MFCC特征提取模块73、第4MFCC特征提取模块74、当前模板8、用户模块9、第1DTW匹配模块101、第2DTW匹配模块102、第3DTW匹配模块103、信息补偿模块12等模块为数字信号处理环节,在微处理器中通过软件编程实现。
本发明中各模块的连接关系为:
麦克风1采集当前说话人的语音信号后送入前置放大模块2进行信号放大处理;
前置放大模块2输出接ADC电路3进行信号的模数转换;
ADC电路3得到的模数转换结果接端点检测模块4;
端点检测模块4用于确定语音信号帧的起始端点,其获得的起始端点送入信号分帧模块5;
信号分帧模块5对语音信号进行分帧,其输出的语音信号帧分别输入谱减模块6和第1MFCC特征提取模块71;
谱减模块6利用信号起始端点前的“静音段”获取基准噪声谱特性,然后产生估计噪声,进行谱减处理,其输出的初步语音增强信号分别接第3MFCC特征提取模块73以及信息补偿模块12的信号输入端,其输出端的估计噪声分量接第3MFCC特征提取模块73以及信息补偿模块12的补偿输入端;
第1MFCC特征提取模块71用于对原始带噪语音信号进行特征提取,其输出接第1DTW模式识别模块101的输入端;
第2MFCC特征提取模块72用于对谱减处理中产生的估计噪声进行特征提取,其输出接第2DTW模式识别模块102的输入端;
第3MFCC特征提取模块73用于对谱减处理获取的初步语音增强信号进行特征提取,其输出接当前模板模块8的输入端;
当前模板模块8用于保存第3MFCC特征提取模块73产生的初步语音增强信号MFCC特征,当前模板模块8用于作为第1DTW模式识别模块101及第2DTW模式识别模块102的参考模板。
第1DTW模式识别模块101用于对原始带噪语音信号相对当前模板模块8进行模式匹配,其输出接得分反馈模块11的输入端;
第2DTW模式识别模块102用于对估计噪声当前模板模块8进行模式匹配,其输出接得分反馈模块11的另一输入端;
得分反馈模块11用于根据第1DTW模式识别模块101、第2DTW模式识别模块102输出的匹配得分获取差值信息,此得分差值信息反映了谱减过程产生的估计噪声中包含的语音信号信息,即:得分差值越高,估计噪声中包含的语音信息越少,反之,则包含的语音信息越多。得分反馈模块11输出的得分差值输入信息补偿模块12。
信息补偿模块12用于根据得分差值对初步语音增强信号进行噪声中包含语音信息的补偿处理,补偿处理过程中,噪声乘一个可变的补偿系数后形成补偿信号,补偿信号与初步语音增强信号相加完成补偿处理,形成二次语音增强信号。可变的补偿系数与得分差值有关:得分差值越高,补偿系数越小,反之则补偿系数越高。
第4MFCC特征提取模块74用于对二次语音增强信号进行特征提取,其输出接第3DTW模式识别模块103的输入端;
第3DTW模式识别模块103用于对二次语音增强信号进行模式匹配,参考模板为用户训练过程形成的用户模板9,其输出接结果输出模块;
用户模板9:每位授权用户在训练阶段形成的用户模板库。
结果输出模块:结果输出模块用于根据第3DTW模式识别模块103的模式匹配结果,输出当前说话人是否为授权人的识别结果。
参见图2,本发明实施例硬件主要由三个部分组成,分别为:麦克风、ARM9S3C2440微处理器和音频接口芯片UDA1341TS。S3C2440是三星公司推出的32位微处理器,为手持设备和一般类型应用提供了低价格、低功耗、高性能小型微型处理器。UDA1341TS是飞利浦公司的一款高性能低功耗的音频接口芯片,芯片内具有语音信号前置放大、模式转换、数模转换等功能。S3C2440用三根GPIO模拟SPI来完成UDA1341TS的参数设置。S3C2440和UDA1341TS通过IIS接口来实现初始化设置、采样数据传输等接口通讯。在本实施例中,录音长度为3s,模数转换的采样率为8kHz,数据长度为16位。
麦克风采集的语音信号通过音频接口芯片完成模数转换进入S3C2440微处理器后,端点检测、MFCC特征提取、DTW模板生成、DTW模板匹配、信息补偿等过程通过软件编程实现。以下对上述过程的实现进行具体说明:
1)端点检测
语音信号虽然是一种非平稳信号,在一定时间内(如在1~7个基音周期范围)可看成是平稳的。在此平稳范围内的语音信号能量值和过零次数分别被称为短时平均能量和短时平均过零率,可用于进行语音信号端点检测。在本实施例选取N=20ms作为窗长进行端点检测,端点检测模块按照下面的工作原理计算短时平均能量和短时平均过零率进行端点检测:
设语音信号为x(n),其短时平均能量定义为:
Mn = { Σ m = n - N + 1 n [ x ( m ) * x ( m ) * w ( n - m ) ] } / N - - - ( 1 )
短时平均过零率定义为:
Zn = Σ m = n - N + 1 n | sgn [ ( x ( m ) - T 0 ] - sgn [ x ( m - 1 - T 0 ) | w ( n - m ) - - - ( 2 )
其中sgn()为符号函数,窗函数为:
w ( n ) = 1 ( 0 &le; n &le; N - 1 0 ( n > N - n , n < 0 ) , 矩形窗长度为N。
由于环境的背景噪声不同和外界的干扰差异,使用固定的短时平均能量和短时平均过零率门限在端点检测过程中经常不能真正地检测到语音的起始点,本实施例采用第一帧“静音段”的短时平均能量和短时平均过零率加上一个经验值作为检测语音信号起点的短时平均能量和短时平均过零率的门限,使用该门限可较好地检测带噪语音的起始端点。
2)信号分帧:
根据端点检测模块获取的语音端点,用移动的有限窗长进行信号分帧处理。窗长的选择一般包含1~7个基音周期,本实施例选取N=20ms作为窗长。
3)MFCC特征提取:
MFCC参数从倒谱域上描述了单帧语音信号的特征,其表示了人耳对于频率的敏感性之间类似于对数的关系,而并不是线性的。本实施例的MFCC模块1,2,3,4采用的特征提取办法为:
(a)对输入的语音信号每一帧进行FFT变换,再取频谱模平方获取离散功率谱;
(b)对信号取对数并计算余弦变换得到系数。每帧的MFCC系数可由下式计算:
C n = &Sigma; k = 1 M ln x &prime; ( k ) cos [ &pi; ( k - 0.5 ) n / M ] , n = 1,2,3 , . . . . . . , L - - - ( 3 )
(c)去掉每帧信号中的直流成分,最终得到每帧语音信号的MFCC系数。
4)本实施例中谱减与DTW联合处理的具体过程描述如下:
(a)、谱减模块按照以下原理进行谱减处理:取第一帧之前的“静音段”背景噪声作为谱减算法中的基准噪声,谱减模块按照下述传统谱减公式进行初步降噪处理,本实施例采用加权参数b=10:
S i ( &omega; ) = ( Y i ( &omega; ) - b &CenterDot; N i ( &omega; ) ) 1 2 - - - ( 4 )
上式中Yi(ω)表示第i帧原始语音的傅里叶变换,N(ω)表示第一帧背景噪声的傅里叶变换,Si(ω)表示第i帧语音谱减后的结果。如果Si(ω)<0,则Si(ω)=0。
谱减模块获取的初步语音增强信号ya(n)、噪声信号yN(n)可通过对公式(4)中Si(ω)、b·Ni(ω)进行反傅里叶变换获得。
(b)获取初步增强语音后,通过MFCC特征提取模块3获取初步增强语音的模板特征向量:A={a1,a2,...,al}(下标l代表MFCC特征向量的长度,下同),并作为当前模板。
(c)将带噪语音和估计噪声分别输入MFCC特征提取模块1,3提取其各自特征矢量,获得带噪语音和估计噪声的测试模板特征矢量序列分别为B={b1,b2...,bi},C={c1,c2...,ci},并通过DTW匹配模块1,2按照下式分别计算两者与当前模板A={a1,a2,...,al}的最小匹配距离:
D 1 = min &Sigma; n = 1 N d ( a i ( n ) , b j ( n ) ) - - - ( 5 )
D 2 = min &Sigma; n = 1 N d ( a i ( n ) , c j ( n ) )
式(5)中d(ai(n),bj(n))表示第n个匹配点(参考模板的第i(n)个特征矢量和被测模板的第j(n)个特征矢量)之间的距离测度;D1、D2分别为在最优时间规整情况下被测模板和参考模板的距离。利用DTW算法可分别求出带噪语音、估计噪声模板和当前模板之间的最小距离D1、D2
(e)本实施例得分反馈的具体过程为:得分反馈模块利用带噪语音、估计噪声模板和当前模板之间的最小距离D1、D2按照下式计算得分差值,两者的得分差值用Δ表示,则:
Δ=D1-D2                (6)
(f)本实施例信息补偿的具体过程为:信息补偿模块按照下式利用得分差值对初步增强语音进行信息补偿获取二次增强语音:
y(n)=ya(n)-yN(n)+yc(n)                   (7)
其中yc(n)为噪声中提取的补偿项,其表达式如下:
y c ( n ) = &alpha; &CenterDot; y N ( n ) y N ( n ) > thres 0 y N ( n ) < thres - - - ( 8 )
式中,α为小于1的因子,在本实施例中设定为0.8;补偿门限thres根据反馈的得分差值Δ获得,thres(Δ)表示补偿门限thres是得分差Δ的函数。由于得分差值是从模型匹配角度量化反映了噪声引起语音有用信息丢失的程度,得分差值越大代表初次谱减增强后损失的语音信息越少,可设定较高的补偿门限来从噪声中提取补偿信息;反之则应设定较低的补偿门限。因此,本实施例设定补偿门限与得分差值的关系如下:
thres = 500 &Delta; < a 1 1000 a 1 &le; &Delta; < a 2 1500 &Delta; &GreaterEqual; a 2 - - - ( 9 )
其中a1,a2是由人工设定的两个判断得分差值大小程度的界限值。在本实施例中a1=10,a2=30。
(g)经过公式(7)补偿后的二次语音增强信号y(n)送入MFCC特征提取模块4进行特征提取获取特征矢量E={e1,e2...,en},DTW识别模块3按照下式逐个计算与采用本领域公知训练方法生成M个用户模板Uk={uk,1,uk,2,...,uk,n},k=1,2,...,M的最小距离,(本实施例中用户数M=24):
D k = min &Sigma; n = 1 N d ( e i ( n ) , u j ( n ) ) - - - ( 10 )
取M个Dk中的最小值,Dmin=argmin[Dk],Dmin与一个设定的门限值比较判决(在本实施例中,该门限设定为150),Dmin小于此门限值则代表声纹识别通过,Dmin对应的编号k则为M个用户中的识别用户;如Dmin大于此门限值则代表声纹识别未通过。
5)结果输出:
最后,系统可根据具体应用环境将识别结果采用本领域公知的输出方式进行结果显示,本实施例通过S3C2440微处理器控制绿色led表示声纹识别通过,红色led表示未通过。由于属于本领域公知的简单技术,在本实施例硬件电路图中略去此led部分电路。
综上所述,本发明通过在信号域和模型域的联合处理来抑制背景噪声的影响,从而提高声纹识别的性能。

Claims (1)

1.谱减与动态时间规整算法联合处理的抗噪声声纹识别装置,其特征在于设有麦克风、前置放大模块、ADC电路、端点检测模块、信号分帧模块、谱减模块、第1MFCC特征提取模块、第2MFCC特征提取模块、第3MFCC特征提取模块、第4MFCC特征提取模块、当前模板、用户模块、第1DTW匹配模块、第2DTW匹配模块、第3DTW匹配模块、得分反馈模块、信息补偿模块和结果输出模块;
所述麦克风的当前说话人语音信号输出端接前置放大模块的输入端,前置放大模块的输出端接ADC电路输入端,ADC电路的输出端接端点检测模块的输入端,端点检测模块的输出端接信号分帧模块的输入端,信号分帧模块的输出端分别与谱减模块的输入端和第1MFCC特征提取模块的输入端连接,谱减模块的输出端分别与信息补偿模块、第2MFCC特征提取模块和第3MFCC特征提取模块的输入端连接,第1MFCC特征提取模块、第2MFCC特征提取模块和第3MFCC特征提取模块的输出端分别与第1DTW匹配模块、第2DTW匹配模块和当前模板的输入端连接,当前模板分别与第1DTW匹配模块和第2DTW匹配模块连接,第1DTW匹配模块和第2DTW匹配模块的输出端分别接得分反馈模块的输入端,得分反馈模块的输出端接信息补偿模块输入端,信息补偿模块的输出端经第4MFCC特征提取模块接第3DTW匹配模块,用户模块的输出端接第3DTW匹配模块,第3DTW匹配模块的输出端接结果输出模块的输入端,结果输出模块的输出端输出当前说话人是否为授权人的识别结果;
所述用户模板为每位授权用户在训练阶段形成的用户模板库。
CN201310370030.7A 2013-08-22 2013-08-22 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置 Active CN103400578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310370030.7A CN103400578B (zh) 2013-08-22 2013-08-22 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310370030.7A CN103400578B (zh) 2013-08-22 2013-08-22 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置

Publications (2)

Publication Number Publication Date
CN103400578A CN103400578A (zh) 2013-11-20
CN103400578B true CN103400578B (zh) 2015-06-10

Family

ID=49564186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310370030.7A Active CN103400578B (zh) 2013-08-22 2013-08-22 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置

Country Status (1)

Country Link
CN (1) CN103400578B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104103280B (zh) * 2014-07-15 2017-06-06 无锡中感微电子股份有限公司 基于动态时间归整算法的离线语音端点检测的方法和装置
CN107049280B (zh) * 2017-05-23 2020-03-31 宁波大学 一种移动互联网智能可穿戴设备
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN108986833A (zh) * 2018-08-21 2018-12-11 广州市保伦电子有限公司 基于麦克风阵列的拾音方法、系统、电子设备及存储介质
CN109785852A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种增强说话人语音的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263216B1 (en) * 1997-04-04 2001-07-17 Parrot Radiotelephone voice control device, in particular for use in a motor vehicle
CN1936967A (zh) * 2005-09-20 2007-03-28 吴田平 声纹考勤机
CN101064043A (zh) * 2006-04-29 2007-10-31 上海优浪信息科技有限公司 一种声纹门禁系统及其应用
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263216B1 (en) * 1997-04-04 2001-07-17 Parrot Radiotelephone voice control device, in particular for use in a motor vehicle
CN1936967A (zh) * 2005-09-20 2007-03-28 吴田平 声纹考勤机
CN101064043A (zh) * 2006-04-29 2007-10-31 上海优浪信息科技有限公司 一种声纹门禁系统及其应用
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统

Also Published As

Publication number Publication date
CN103400578A (zh) 2013-11-20

Similar Documents

Publication Publication Date Title
CN103236260B (zh) 语音识别系统
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
CN105469785B (zh) 通信终端双麦克风消噪系统中的语音活动检测方法及装置
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
CN102982801B (zh) 一种用于鲁棒语音识别的语音特征提取方法
CN108831499A (zh) 利用语音存在概率的语音增强方法
CN103400578B (zh) 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置
CN103594094B (zh) 自适应谱减法实时语音增强
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
CN108899052B (zh) 一种基于多带谱减法的帕金森语音增强方法
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN103109320A (zh) 噪声抑制装置
WO2001033550A1 (en) Speech parameter compression
CN103229238A (zh) 用于产生音频信号的系统和方法
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
CN102436809A (zh) 英语口语机考系统中网络语音识别方法
CN104835503A (zh) 一种改进gsc自适应语音增强方法
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
CN107682786A (zh) 一种麦克风设备抗干扰方法及麦克风设备
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN107785028A (zh) 基于信号自相关的语音降噪方法及装置
CN102314883B (zh) 一种判断音乐噪声的方法以及语音消噪方法
Toyin et al. Speech enhancement in wireless communication system using hybrid spectral-kalman filter
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant