CN106297819B - 一种应用于说话人识别的噪声消除方法 - Google Patents

一种应用于说话人识别的噪声消除方法 Download PDF

Info

Publication number
CN106297819B
CN106297819B CN201510272422.9A CN201510272422A CN106297819B CN 106297819 B CN106297819 B CN 106297819B CN 201510272422 A CN201510272422 A CN 201510272422A CN 106297819 B CN106297819 B CN 106297819B
Authority
CN
China
Prior art keywords
noise
feature
spectrum signature
uproar
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510272422.9A
Other languages
English (en)
Other versions
CN106297819A (zh
Inventor
袁庆升
颜永红
包秀国
黄厚军
云晓春
周若华
陈训逊
黄文廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201510272422.9A priority Critical patent/CN106297819B/zh
Publication of CN106297819A publication Critical patent/CN106297819A/zh
Application granted granted Critical
Publication of CN106297819B publication Critical patent/CN106297819B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明涉及一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。本发明的方法实现了在特征层消除噪声影响;不需要增加额外的训练数据;在系统速度不会大幅降低的情况下可以明显提高系统在在噪声环境下的性能。

Description

一种应用于说话人识别的噪声消除方法
技术领域
本发明涉及语音处理领域,特别涉及一种应用于说话人识别的噪声消除方法。
背景技术
随着现代社会信息的全球化,说话人识别成为语音识别技术研究热点之一。随着互联网的普及,网上用户登录、网上支付等也面临着一定的风险,声纹密码可以在原有密码基础上增加账户的安全性。声纹识别即说话人识别系统,目前在实验环境下达到了很高的识别效果,但在实际应用中却表现不佳。导致这一结果的原因主要是由于实际应用中噪声对语音的影响,这里的噪声主要包括环境噪声和信道噪声。当前,如何提高噪声条件下的声纹识别效果,已经成为了该领域的研究重点。
在参考文献[1](Sadjadi S O,Hasan T,Hansen J H L.Mean Hilbert EnvelopeCoefficients(MHEC)for Robust Speaker Recognition[C]//INTERSPEECH.2012)、参考文献[2](Shao Y,Wang D L.Robust speaker identification using auditory featuresand computational auditory scene analysis[C]//Acoustics,Speech and SignalProcessing,2008.ICASSP 2008.IEEE International Conference on.IEEE,2008:1589-1592)和参考文献[3](Li Q,Huang Y.Robust speaker identification using anauditory-based feature[C]//Acoustics Speech and Signal Processing(ICASSP),2010IEEE International Conference on.IEEE,2010:4514-4517)中,作者尝试使用对噪声不敏感的特征来提高系统对噪声环境的鲁棒性。但这些特征主要试图提高特征的整体鲁棒性,没有对特定噪声进行针对性优化。
在参考文献[4](J.Pelecanos and S.Sridharan,“Feature warping for robustspeaker verification,”in Proc.Odyssey:The Speaker and Language RecognitionWorkshop,Crete,Greece,Jun.2001,pp.213–218)中,作者通过一定的特征变换来提高特征对噪声的鲁棒性,但是该方法的实时计算量太大。在参考文献[5](Man-Wai M A K.SNR-Dependent Mixture of PLDA for Noise Robust Speaker Verification[J].inInterspeech.2014,pp.1855-1899)中,作者通过在训练数据中添加噪声来提高系统对噪声的鲁棒性。该方法对于已经在线应用的系统需要更换系统背景模型,且对于不同的应用场景需要重新训练背景模型,对于系统在实际应用中的部署带来很大不便。
发明内容
本发明的目的在于克服已有的噪声消除方法所存在的缺陷,从而提供一种在特征层消除噪声的方法
为了实现上述目的,本发明提供了一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。
上述技术方案中,该方法包括以下步骤:
步骤1)、判断测试集中的语音数据所包含的噪声类型,对所含噪声类型中的任意一种噪声类型,在较宽的信噪比范围内取若干个有代表性的信噪比,作为与该噪声类型相对应的信噪比;其中,所述测试集包括了用于做说话人识别的语音数据;
步骤2)、采用多个不含噪声的训练集语音数据作为噪声消除训练数据,为噪声消除训练数据按照步骤1)取定的若干个信噪比分别进行加噪,得到加噪后的噪声消除训练数据组;其中,所述训练集包括来自说话人识别系统中的通用背景模型的语音数据;
步骤3)、对未加噪前的噪声消除训练数据和步骤2)所得到的加噪后的噪声消除训练数据分别提取声学谱特征,得到对应的声学谱特征组;
步骤4)、根据步骤3)所得到的未加噪前的噪声消除训练数据的声学谱特征组,以及按照某一信噪比加噪后的噪声消除训练数据的声学谱特征组,利用梯度下降算法训练该信噪比对应的特征邻近帧补偿的模型参数;重复本步骤,直至得到步骤1)中所选择的所有信噪比所对应的特征邻近帧补偿的模型参数;
步骤5)、为测试集中的语音提取声学谱特征;
步骤6)、为测试集中的每句语音分别做噪声类型判断和信噪比估计;
步骤7)、根据步骤6)所得到的噪声类型与信噪比估计结果,从步骤1)中所确定的若干个有代表性的信噪比中寻找最为接近的信噪比,然后从步骤4)所得到的结果中选取与该最为接近的信噪比相关的特征邻近帧补偿的模型参数;利用该特征邻近帧补偿的模型参数为步骤5)得到的测试集语音的声学谱特征进行邻近帧补偿,得到恢复后的特征向量;
步骤8)、利用步骤7)所得到的特征向量做说话人识别。
上述技术方案中,所述提取声学谱特征包括:首先提取通用的美尔倒谱特征,然后求取差分倒谱特征。
上述技术方案中,所述特征邻近帧补偿的模型参数为Γ矩阵,所述Γ矩阵的表达 式为:其中,
D表示声学谱特征的特征维数,T表 示矩阵或向量的转置;RD*((2*k+1)*D+1)表示D行(2*k+1)*D+1列的实数矩阵的集合;χj是一个待 估计系数;其中,
所述步骤4)进一步包括:
步骤4-1)、初始化矩阵Γ;
步骤4-2)、对所有训练用的特征,计算
其中,·表示向量内积;M表示语音声学谱特征的帧数;
i=1,2,...,M;
步骤4-3)、更新Γ:η为更新系数;
步骤4-4)、重复步骤4-2)和步骤4-3)直到ε收敛。
上述技术方案中,在步骤7)中,所述临近帧补偿包括:
其中,为加噪后的噪声消除训练数据的经过邻近帧补偿之后的特征,D表示声学谱特征的 特征维数。
本发明的优点在于:
1、本发明的方法实现了在特征层消除噪声影响;
2、本发明的方法不需要增加额外的训练数据;
3、本发明的方法在系统速度不会大幅降低的情况下可以明显提高系统在在噪声环境下的性能。
附图说明
图1是本发明的噪声消除方法的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
本发明提供一种在特征层消除噪声的方法,该方法利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响,从而达到提高噪声条件下说话人识别系统的性能。
本发明的噪声消除方法涉及到两种类型的语音数据集:测试集、训练集。所述的测试集包括了所有用于做说话人识别的语音数据,这些语音数据需要在本申请中先行消除噪声;所述的训练集包括了来自说话人识别系统中的通用背景模型的语音数据,这些语音数据是信噪比在25db以上的语音,可以认为不含有噪声。
参考图1,本发明的噪声消除方法包括以下步骤:
步骤1)、判断测试集中的语音数据所包含的噪声类型,对所含噪声类型中的任意一种噪声类型,在较宽的信噪比范围(如-20dB~25dB)内取若干个有代表性的信噪比,作为与该噪声类型相对应的信噪比;
在图1中,所选取的若干个有代表性的信噪比用SNR_1、SNR_2、…、SNR_N表示。
步骤2)、采用m个不含噪声的训练集语音数据作为噪声消除训练数据,为噪声消除训练数据按照步骤1)取定的若干个信噪比分别进行加噪,得到加噪后的噪声消除训练数据组;
在图1中,加噪后的噪声消除训练数据组用W_1、W_2、…、W_N表示,其中W_i(i=1,2,…,N)表示对m个不含噪声的训练集语音数据按照信噪比SNR_i(i=1,2,…,N)加噪后的m个含噪声的语音。
步骤3)、对未加噪前的噪声消除训练数据(也称为原始干净语音)和步骤2)所得到的加噪后的噪声消除训练数据分别提取声学谱特征,得到对应的声学谱特征组;其中,
所述提取声学谱特征包括:首先提取通用的美尔倒谱特征(MFCC),然后求取差分倒谱特征(MFCC-Delta)。声学谱特征提取后,训练数据的每一帧得到36维特征向量,在图1中将训练语音数据的声学谱特征组记为“F_0”、“F_1”、…、“F_N”。其中,F_0表示未加噪的m个原始干净语音的声学谱特征,F_i(i=1,2,…,N)是W_i(i=1,2,…,N)的声学谱特征组。
步骤4)、根据步骤3)所得到的原始干净语音的声学谱特征组F_0和按照信噪比SNR_i(i=1,2,…,N)加噪后语音的声学谱特征组F_i(i=1,2,…,N),利用梯度下降算法训练该信噪比SNR_i对应的特征邻近帧补偿的模型参数Γ矩阵;重复本步骤,直至得到步骤1)中所选择的所有信噪比所对应的特征邻近帧补偿的模型参数;
在本步骤中,将原始干净语音数据的声学谱特征组F_0记为 采用信噪比SNR_i加噪后的噪声消除训练数据的声学谱特征组F_i记为其中,j=1, 2,...,M,D表示声学谱特征的特征维数,M表示语音声学谱特征的帧数。
对于采用某一信噪比加噪后的噪声消除训练数据的第i帧特征,在本申请中采用与它相邻的左右各n帧来进行补偿,补偿过程如公式(1)所示:
其中,表示补偿后的结果,i=1,2,...,M,j=1,2,...,D;χj是一个待估计系数,模型矩阵T中的一部分。令
则(1)可以写成为:
其中,·表示向量内积,i=1,2,...,M,j=1,2,...,D。令
则式(2)可进一步改写为:
其中,i=1,2,...,M,j=1,2,...,D;
用T表示矩阵或向量的转置,令其中,RD *((2*k+1)*D+1)表示D行(2*k+1)*D+1列的实数矩阵的集合;
则加噪后的噪声消除训练数据的经过邻近帧补偿之后的特征表示为:
其中,
在步骤4)中,D表示特征的维数。需要学习的参数就是Γ矩阵的元素,邻近帧补偿的目标是使加噪后的噪声消除训练数据的特征经过(4)式恢复后得到的与干净语音的特征最接近。所以,选取待优化函数
ε越小,表示恢复后的特征越接近干净语音的特征。所以,模型学习的过程就是选择最优的Γ矩阵使ε达到最小。学习过程采用如式(6)所示的梯度下降算法:
具体训练过程如下:
步骤4-1)、初始化矩阵Γ;
步骤4-2)、对所有训练用的特征,计算
步骤4-3)、更新Γ:η为更新系数(一般固定取一个较小的正实数);
步骤4-4)、重复步骤4-2)和步骤4-3)直到ε收敛。
步骤5)、为测试集中的语音提取声学谱特征;
其中,所述提取声学谱特征包括:首先提取通用的美尔倒谱特征(MFCC),然后求取差分倒谱特征(MFCC-Delta)。特征提取后,测试数据的每一帧得到36维特征向量。
步骤6)、为测试集中的每句语音分别做噪声类型判断和信噪比估计;
步骤7)、根据步骤6)所得到的噪声类型与信噪比估计结果,从步骤1)中所确定的若干个有代表性的信噪比中寻找最为接近的信噪比,然后从步骤4)所得到的结果中选取与该最为接近的信噪比相关的特征邻近帧补偿的模型参数;利用该特征邻近帧补偿的模型参数为步骤5)得到的测试集语音的声学谱特征进行邻近帧补偿,得到恢复后的特征向量。
在本步骤中,测试集中的语音所提取的声学谱特征序列为对于第i帧特征,在确定邻近帧补偿模型Γ后,可根据前述的公式(4)计算从而得到新的特征序列
步骤8)、利用步骤7)所得到的特征向量做说话人识别。
以上是对本发明的噪声消除方法的步骤的描述。从上述描述可以看出,本发明的方法在为训练集中的语音数据训练模型参数时,依赖于由测试集中的语音数据所确定的噪声类型与信噪比。在一定的应用场景下,测试集中的语音数据所包含的噪声类型与所选取的信噪比可以认为是固定的,此时可重复使用之前训练得到的模型参数。但一旦应用场景发生变化,则测试集中的语音数据所含噪声类型与所选取的信噪比会发生变化,此时需要重新训练模型参数。
本申请人采用本发明的方法进行了大量实网数据的测试,在传统的说话人识别系统基础上,采用基于邻近帧补偿的噪声消除方法后系统在加噪的测试集上识别性能有相对10%-15%的提升。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种应用于说话人识别的噪声消除方法,利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响;
所述方法具体包括以下步骤:
步骤1)、判断测试集中的语音数据所包含的噪声类型,对所含噪声类型中的任意一种噪声类型,在较宽的信噪比范围内取若干个有代表性的信噪比,作为与该噪声类型相对应的信噪比;其中,所述测试集包括了用于做说话人识别的语音数据;
步骤2)、采用多个不含噪声的训练集语音数据作为噪声消除训练数据,为噪声消除训练数据按照步骤1)取定的若干个信噪比分别进行加噪,得到加噪后的噪声消除训练数据组;其中,所述训练集包括来自说话人识别系统中的通用背景模型的语音数据;
步骤3)、对未加噪前的噪声消除训练数据和步骤2)所得到的加噪后的噪声消除训练数据分别提取声学谱特征,得到对应的声学谱特征组;
步骤4)、根据步骤3)所得到的未加噪前的噪声消除训练数据的声学谱特征组,以及按照某一信噪比加噪后的噪声消除训练数据的声学谱特征组,利用梯度下降算法训练该信噪比对应的特征邻近帧补偿的模型参数;重复本步骤,直至得到步骤1)中所选择的所有信噪比所对应的特征邻近帧补偿的模型参数;
步骤5)、为测试集中的语音提取声学谱特征;
步骤6)、为测试集中的每句语音分别做噪声类型判断和信噪比估计;
步骤7)、根据步骤6)所得到的噪声类型与信噪比估计结果,从步骤1)中所确定的若干个有代表性的信噪比中寻找最为接近的信噪比,然后从步骤4)所得到的结果中选取与该最为接近的信噪比相关的特征邻近帧补偿的模型参数;利用该特征邻近帧补偿的模型参数为步骤5)得到的测试集语音的声学谱特征进行邻近帧补偿,得到恢复后的特征向量;
步骤8)、利用步骤7)所得到的特征向量做说话人识别。
2.根据权利要求1所述的应用于说话人识别的噪声消除方法,其特征在于,所述提取声学谱特征包括:首先提取通用的美尔倒谱特征,然后求取差分倒谱特征。
3.根据权利要求1所述的应用于说话人识别的噪声消除方法,其特征在于,所述特征邻近帧补偿的模型参数为Γ矩阵,所述Γ矩阵的表达式为:其中,
D表示声学谱特征的特征维数,T表示矩阵或向量的转置;RD*((2*k+1)*D+1)表示D行(2*k+1)*D+1列的实数矩阵的集合;χj是一个待估计系数;其中,
所述步骤4)进一步包括:
步骤4-1)、初始化矩阵Γ;
步骤4-2)、对所有训练用的特征,计算
其中,·表示向量内积;M表示语音声学谱特征的帧数;
步骤4-3)、更新Γ:η为更新系数;
步骤4-4)、重复步骤4-2)和步骤4-3)直到ε收敛。
4.根据权利要求1所述的应用于说话人识别的噪声消除方法,其特征在于,在步骤7)中,所述特征临近帧补偿包括:
其中,为加噪后的噪声消除训练数据的经过邻近帧补偿之后的特征,D表示声学谱特征的特征维数。
CN201510272422.9A 2015-05-25 2015-05-25 一种应用于说话人识别的噪声消除方法 Expired - Fee Related CN106297819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510272422.9A CN106297819B (zh) 2015-05-25 2015-05-25 一种应用于说话人识别的噪声消除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510272422.9A CN106297819B (zh) 2015-05-25 2015-05-25 一种应用于说话人识别的噪声消除方法

Publications (2)

Publication Number Publication Date
CN106297819A CN106297819A (zh) 2017-01-04
CN106297819B true CN106297819B (zh) 2019-09-06

Family

ID=57634029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510272422.9A Expired - Fee Related CN106297819B (zh) 2015-05-25 2015-05-25 一种应用于说话人识别的噪声消除方法

Country Status (1)

Country Link
CN (1) CN106297819B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269567B (zh) * 2018-01-23 2021-02-05 北京百度网讯科技有限公司 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
CN107993664B (zh) * 2018-01-26 2021-05-28 北京邮电大学 一种基于竞争神经网络的鲁棒说话人识别方法
CN108922517A (zh) * 2018-07-03 2018-11-30 百度在线网络技术(北京)有限公司 训练盲源分离模型的方法、装置及存储介质
CN111081222A (zh) * 2019-12-30 2020-04-28 北京明略软件系统有限公司 语音识别方法、装置、存储介质以及电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710490A (zh) * 2009-11-20 2010-05-19 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
CN101821971A (zh) * 2007-08-22 2010-09-01 杜比实验室特许公司 用于噪声活动检测的系统和方法
JP2011070084A (ja) * 2009-09-28 2011-04-07 Oki Electric Industry Co Ltd 有音無音判定装置、有音無音判定方法、および、有音無音判定プログラム
CN102667927A (zh) * 2009-10-19 2012-09-12 瑞典爱立信有限公司 语音活动检测的方法和背景估计器
CN104505100A (zh) * 2015-01-06 2015-04-08 中国人民解放军理工大学 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7856150B2 (en) * 2007-04-10 2010-12-21 Arcsoft, Inc. Denoise method on image pyramid

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101821971A (zh) * 2007-08-22 2010-09-01 杜比实验室特许公司 用于噪声活动检测的系统和方法
JP2011070084A (ja) * 2009-09-28 2011-04-07 Oki Electric Industry Co Ltd 有音無音判定装置、有音無音判定方法、および、有音無音判定プログラム
CN102667927A (zh) * 2009-10-19 2012-09-12 瑞典爱立信有限公司 语音活动检测的方法和背景估计器
CN101710490A (zh) * 2009-11-20 2010-05-19 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
CN104505100A (zh) * 2015-01-06 2015-04-08 中国人民解放军理工大学 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
变换域语音增强算法的研究;欧世峰;《中国博士学位论文全文数据库 信息科技辑》;20081115(第11期);第I136-4页 *

Also Published As

Publication number Publication date
CN106297819A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN107564513B (zh) 语音识别方法及装置
TWI527023B (zh) A voiceprint recognition method and apparatus
WO2018176894A1 (zh) 一种说话人确认方法及装置
CN106297819B (zh) 一种应用于说话人识别的噪声消除方法
CN107077860A (zh) 用于将有噪音频信号转换为增强音频信号的方法
CN106683666B (zh) 一种基于深度神经网络的领域自适应方法
CN108520752B (zh) 一种声纹识别方法和装置
JP7124427B2 (ja) マルチビューベクトルの処理方法及び装置
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN109767760A (zh) 基于振幅和相位信息的多目标学习的远场语音识别方法
CN109065022A (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
Oo et al. DNN-Based Amplitude and Phase Feature Enhancement for Noise Robust Speaker Identification.
Villalba et al. Advances in speaker recognition for telephone and audio-visual data: the jhu-mit submission for nist sre19
Mun et al. The sound of my voice: Speaker representation loss for target voice separation
McLaren et al. Softsad: Integrated frame-based speech confidence for speaker recognition
Kheder et al. Probabilistic Approach Using Joint Long and Short Session i-Vectors Modeling to Deal with Short Utterances for Speaker Recognition.
Sarkar et al. Stochastic feature compensation methods for speaker verification in noisy environments
Guo et al. CNN-Based Joint Mapping of Short and Long Utterance i-Vectors for Speaker Verification Using Short Utterances.
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
Guo et al. Speaker Verification Using Short Utterances with DNN-Based Estimation of Subglottal Acoustic Features.
CN109859742B (zh) 一种说话人分段聚类方法及装置
Khan et al. Automatic Arabic pronunciation scoring for computer aided language learning
Sun et al. A new study of GMM-SVM system for text-dependent speaker recognition
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム
CN108766430A (zh) 一种基于巴氏距离的语音特征映射方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190906