一种针对声纹识别的语音降噪方法及装置
技术领域
本发明涉及信号处理技术领域,特别涉及一种针对声纹识别的语音降噪方法及装置。
背景技术
随着现代社会信息的全球化,声纹识别成为语音识别技术研究热点之一。随着互联网的普及,网上用户登录、网上支付等也面临着一定的风险,声纹密码可以在原有密码基础上增加账户的安全性。声纹识别在实际应用中由于周围环境嘈杂,含有较多噪音含量,导致识别效果不佳。这里的噪声主要包括环境噪声和信道噪声。当前,如何提高噪声条件下的声纹识别效果,已经成为了亟待解决的技术问题。
发明内容
本发明的目的在于,克服现阶段对于含有较高噪音的语音信号进行声纹识别的问题,提供一种针对声纹识别的语音降噪方法及装置。
为解决上述技术问题,本发明的技术方案所提供的一种针对声纹识别的语音降噪方法,该方法包括:
将第一有效语音信号转换为第一时频域特征,具体包括:
对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;
对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号,其中第一模态信号为包含噪声能量最多的模态信号;
对第一模态信号进行降噪,获取降噪后的模态信号;
将降噪后的模态信号与除第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。
本发明提供的一种针对声纹识别的语音降噪方法,优点在于:对具有噪声的语音信号进行预处理后,进行特征提取,获取第一语音功率谱图后,对第一语音功率谱图进行分解,获取第一模态信号和其他模态信号。其中,第一模态信号为含有噪声能量最多的模态信号。因此,只要对第一模态信号进行降噪,然后与其他模态信号进行相加重构即可。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。
作为上述方法的又一种改进,对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图,具体包括:
将具有噪声的语音信号转换为数字信号;
对数字信号进行特征提取,获取第一语音功率谱图。
作为上述方法的再一种改进,对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号,具体包括:
采用集合经验模态分解方法对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号。
采用上述进一步方案的有益效果是:采用集合经验模态分解方法对第一语音功率谱图进行分解时,获取的第一模态信号将会是含有最多噪声能量的模态信号。其他模态信号将仅包含极少的噪声能量,对应声纹识别不会造成影响。因此,在后续处理过程中,只要对第一模态信号进行降噪即可。无需对其他模态信号进行降噪处理。
作为上述方法的还一种改进,对第一模态信号进行降噪,获取降噪后的模态信号,具体包括:
采用小波降噪方法对第一模态信号进行降噪,获取降噪后的模态信号。
采用上述进一步方案的有益效果是:利用小波降噪方法可以有效降低模态信号中的加性噪声。
作为上述方法的一种改进,将降噪后的模态信号与除第一模态之外的模态信号进行相加重构,获取第二语音功率谱图之后,方法还包括:提取第二语音功率谱图中的声学特征,并根据声学特征,对语音进行声纹识别。
采用上述进一步方案的有益效果是:从第二语音功率谱图中的声学特征进行提取后,方便对语音进行声纹识别。实现对说话人语音的准确识别,提升声纹识别效果。
本发明的技术方案还提供了一种针对声纹识别的语音降噪装置,该装置包括:
特征提取单元,用于对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;
分解单元,用于对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号,其中第一模态信号为包含噪声能量最多的模态信号;
处理单元,用于对第一模态信号进行降噪,获取降噪后的模态信号;
将降噪后的模态信号与除第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。
本发明提供的一种针对声纹识别的语音降噪装置,优点在于:对具有噪声的语音信号进行预处理后,进行特征提取,获取第一语音功率谱图后,对第一语音功率谱图进行分解,获取第一模态信号和其他模态信号。其中,第一模态信号为含有噪声能量最多的模态信号。因此,只要对第一模态信号进行降噪,然后与其他模态信号进行相加重构即可。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。
作为上述方法进一步的改进,特征提取单元具体用于,
将具有噪声的语音信号转换为数字信号;
对数字信号进行特征提取,获取第一语音功率谱图。
作为上述方法的又一种改进,分解单元具体用于,采用集合经验模态分解方法对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号。
采用上述进一步方案的有益效果是:采用集合经验模态分解方法对第一语音功率谱图进行分解时,获取的第一模态信号将会是含有最多噪声能量的模态信号。其他模态信号将仅包含极少的噪声能量,对应声纹识别不会造成影响。因此,在后续处理过程中,只要对第一模态信号进行降噪即可。无需对其他模态信号进行降噪处理。
作为上述方法的再一种改进,处理单元具体用于,采用小波降噪方法对第一模态信号进行降噪,获取降噪后的模态信号。
采用上述进一步方案的有益效果是:利用小波降噪方法可以有效降低模态信号中的加性噪声。
作为上述方法的还一种改进,装置还包括:声纹识别单元,用于提取第二语音功率谱图中的声学特征,并根据声学特征,对语音进行声纹识别。
采用上述进一步方案的有益效果是:从第二语音功率谱图中的声学特征进行提取后,方便对语音进行声纹识别。实现对说话人语音的准确识别,提升声纹识别效果。
附图说明
图1为本发明实施例提供的一种针对声纹识别的语音降噪方法流程示意图;
图2为本发明实施例提供的另一种针对声纹识别的语音降噪方法流程示意图;
图3为本发明实施例提供的一种针对声纹识别的语音降噪装置结构示意图。
具体实施方式
以下结合实施例进一步说明本发明所提供的技术方案如图1所示,图1为本发明实施提供的一种针对声纹识别的语音降噪方法流程示意图,该方法包括:
步骤110,对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图。
步骤120,对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号。
具体的,将第一语音功率谱图进行分解,最终可以获取含有最多噪声能量的第一模态信号,以及除第一模态信号之外的其他模态信号。而其他模态信号所包含的噪声能量都是极少的,不会对分离出的说话人的语音信号造成影响。因此,不需要对其进行降噪处理。只需要对包含噪声能量最多的第一模态信号进行降噪即可。即步骤130。
步骤130,对第一模态信号进行降噪,获取降噪后的模态信号。
步骤140,将降噪后的模态信号与除第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。
将降噪后的模态信号与其他模态信号进行相加重构,然后获取第二语音功率谱图。此时的功率谱图为经过降噪后的功率谱图。后续则可以通过该功率谱实现对声纹识别,提升识别效果。
本发明实施例提供的一种针对声纹识别的语音降噪方法,对具有噪声的语音信号进行预处理后,进行特征提取,获取第一语音功率谱图后,对第一语音功率谱图进行分解,获取第一模态信号和其他模态信号。其中,第一模态信号为含有噪声能量最多的模态信号。因此,只要对第一模态信号进行降噪,然后与其他模态信号进行相加重构即可。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。
为进一步说明本发明实施例的技术方案,本发明实施例还提供了另一种针对声纹识别的语音降噪方法,具体如图2所示,该方法包括:
步骤110,对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图。
具体的,对具有噪声的语音信号进行预处理,实际就是将语音信号转换为数字信号,然后对数字信号进行特征提取,获取第一语音功率谱图。具体特征提取的过程为现有技术,这里不再赘述。
步骤120,对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号。
具体的,将第一语音功率谱图进行分解,最终可以获取含有最多噪声能量的第一模态信号,以及除第一模态信号之外的其他模态信号。而其他模态信号所包含的噪声能量都是极少的,不会对分离出的说话人的语音信号造成影响。因此,不需要对其进行降噪处理。只需要对包含噪声能量最多的第一模态信号进行降噪即可。
具体讲第一语音功率谱图进行分解所采用的是集合经验模态分解方法。
具体的集合经验模态分解方法(Ensemble Empirical Mode Decomposition,简称EEMD)。EEMD方法在二维图像上的应用,可以将语谱图分解为多个模态。如上,可以分解为第一模态和其他模态。第一模态作为含有最多噪声能量的模态信号。而在介绍EEMD的工作原理之前,需要介绍一下经验模态分解方法(Empirical Mode Decomposition,简称EMD)具体的分解原理包括:
步骤10、首先获取第一语音功率谱图中同一功率值x(n)对应的所有时间结点对应的极值点;
步骤20、对极大值点和极小值点进行差值得到包络线emax和emin;
步骤30,计算极大值包络线和极小值包络线的均值
步骤40,计算残差d(n)=x(n)-m(n)。
步骤50,如果d(n)满足停止规则时,结束运算。
其中,停止规则为以阈值函数作为判断准则:当d(n)大于或者等于SD时,则说明满足停止准则,否则认为不满足停止准则。
上述步骤为对第一语音功率谱图中的每一个频率值都要按照上述步骤做一个处理。
根据上述步骤执行之后,EEMD方法则是在上述方法的基础上作出改进。即步骤60,在第一语音功率谱中每一个功率值对应的表达式x(n)增加不同的高斯白噪声信号。
具体表达式为:xi(n)=x(n)+wi(n)
其中,i为在x(n)中第i次添加高斯白噪声,wi(n)为第i次加入的高斯白噪声。xi(n)为在第i次加入高斯白噪声之后的功率值对应的表达式。
步骤70,计算每一个xi(n)的EMD分解所获取的第一模态信号,并获取所有xi(n)的EMD分解所获取的第一模态信号对应的平均值作为最终的第一信号模态。
步骤80,对最终获取的第一信号模态进行降噪,即步骤130。
步骤130,对第一模态信号进行降噪,获取降噪后的模态信号。
具体的,可以对步骤80中的第一模态信号进行小波降噪,获取降噪后的模态信号。小波降噪是图像降噪中非常常见的一种降噪方法,利用小波降噪的软阈值方法可以有效的降低图像中加性噪声的影响。小波降噪的主要步骤是,将信号进行多尺度小波变换,然后在各尺度下尽可能地提取信号的小波系数,从而在各尺度上进行去噪,最后用小波逆变换后获取降噪后的模态信号,然后执行步骤140。
步骤140,将降噪后的模态信号与除第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。
将降噪后的模态信号与其他模态信号进行相加重构,然后获取第二语音功率谱图。此时的功率谱图为经过降噪后的功率谱图。后续则可以通过该功率谱实现对声纹识别,提升识别效果。
优选的,在步骤140之后,该方法还可以包括步骤150,提取第二语音功率谱图中的声学特征,并根据声学特征,对语音进行声纹识别。
本发明实施例提供的一种针对声纹识别的语音降噪方法,对具有噪声的语音信号进行预处理后,进行特征提取,获取第一语音功率谱图后,对第一语音功率谱图进行分解,获取第一模态信号和其他模态信号。其中,第一模态信号为含有噪声能量最多的模态信号。因此,只要对第一模态信号进行降噪,然后与其他模态信号进行相加重构即可。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,有效的降低了噪声影响,提升声纹识别效果。该方法相较于传统的语音增强方法,由于不对其他模态信号进行降噪处理,可以更好的保护说话人的语音信息。而且不需要额外的统计学习方式,即可实现声纹识别。
与上述方法相对应的,本发明实施例还提供了一种针对声纹识别的语音降噪装置,具体如图3所示,该装置可以包括:特征提取单元301、分解单元302及处理单元303。
特征提取单元301,用于对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;
分解单元302,用于对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号,其中第一模态信号为包含噪声能量最多的模态信号;
处理单元303,用于对第一模态信号进行降噪,获取降噪后的模态信号;
将降噪后的模态信号与除第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。
可选的,特征提取单元301具体用于,
将具有噪声的语音信号转换为数字信号;
对数字信号进行特征提取,获取第一语音功率谱图。
可选的,分解单元302具体用于,
采用集合经验模态分解方法对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号。
进一步可选的,处理单元303具体用于,
采用小波降噪方法对第一模态信号进行降噪,获取降噪后的模态信号。
可选的,该装置还可以包括:语音识别单元304,用于提取第二语音功率谱图中的声学特征,并根据声学特征,对语音进行声纹识别。
本发明实施例提供的针对声纹识别的语音降噪装置中各功能单元所执行的功能均已在上述两个实施例所提供的语音降噪方法中做了详细介绍,这里不做赘述。
本发明实施例提供的一种针对声纹识别的语音降噪装置,对具有噪声的语音信号进行预处理后,进行特征提取,获取第一语音功率谱图后,对第一语音功率谱图进行分解,获取第一模态信号和其他模态信号。其中,第一模态信号为含有噪声能量最多的模态信号。因此,只要对第一模态信号进行降噪,然后与其他模态信号进行相加重构即可。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,有效的降低了噪声影响,提升声纹识别效果。该方法相较于传统的语音增强方法,由于不对其他模态信号进行降噪处理,可以更好的保护说话人的语音信息。而且不需要额外的统计学习方式,即可实现语音识别。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。