CN111508504A

CN111508504A - 基于听觉中枢感知机理的说话人识别方法

Info

Publication number: CN111508504A
Application number: CN202010268019.XA
Authority: CN
Inventors: 牛晓可; 黄伊鑫; 徐华兴; 王治忠
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-08-07
Anticipated expiration: 2040-04-08
Also published as: CN111508504B

Abstract

本发明公开了基于听觉中枢感知机理的说话人识别方法，步骤1：采用OM‑LSA算法与MCRA算法结合的方法对说话人语音信号进行降噪预处理；步骤2：利用STRF模型将预处理后的语音信号投射到特定的频谱‑时间空间，生成频域‑时间谱图，并进一步提取频域‑时间谱图的二次特征；步骤3：提取降噪预处理后语音信号中的MFCC系数特征；步骤4：将步骤2中的二次特征与步骤3中的MFCC系数进行组合；步骤5：采用常规的支持向量机对步骤4中二次特征与MFCC系数组合后的声纹特征进行分类与识别。本发明能够在强噪声环境下对说话人进行识别，具有较高的识别正确率，且对噪声具有较强的鲁棒性。

Description

基于听觉中枢感知机理的说话人识别方法

技术领域

本发明涉及语音信号处理领域，具体涉及基于听觉中枢感知机理的说话人识别方法。

背景技术

生物识别技术在过去几十年得到了广泛研究与应用，说话人识别作为仅次于掌纹和指纹识别的第三大生物特征识别技术，目前世界市场占有率为15.8％，并有逐年上升的趋势。相较于指纹和掌纹这些生物特征识别技术，声纹识别技术发展较晚，但在应用上因具备语音提取方便、适合远程身份确认等特点而具有明显优势。该技术的实现原理主要为声纹特征的提取与匹配，即：首先，从与文本不相关的语音片段中提取出说话人的声纹特征；然后，建立对应的说话人模型即声纹数据库，最后，在测试时采用相同特征提取方法与说话人模型，获取被测试说话人的语音特征，并与声纹数据库中的特征进行匹配，根据匹配结果判决说话人的身份。总的来讲，说话人识别技术的研究可概括为声纹特征参数的提取与说话人模型构建。

在声纹特征参数的提取方面，MFCC即Mel频率倒谱系数(Mel-Frequency CeptralCoefficients)是较为常用的，操作简单、样本量小，但其主要描述了声道特征，在没有噪声时有很好的特征表达，但在高噪声存在下鲁棒性明显降低。针对噪声环境下语音识别系统的鲁棒性问题，目前已经有很多学者提出了不同的方法，典型的方法主要有：感知听觉场景分析、小波变换法、模型补偿法的鲁棒语音识别分析、信号空间的鲁棒语音识别分析、模拟生物听觉感知特性法，生物的听觉系统对噪声具有很强的鲁棒性，因此近些年来模拟生物听觉特性进行语音识别的方法越来越受到研究者的青睐，其典型代表是：Taishih Chi等人于2005年首次将生物听皮层神经元频谱-时间感受野(STRF)的概念引用到了简单的语音处理中，并提出了一套神经计算模型，解释了从外部输入的声音信号是如何转换为大脑传递的电信号。但是基于听皮层神经元频谱-时间感受野(STRF)提取的特征相较于传统MFCC系数，基于听皮层神经元频谱-时间感受野(STRF)模型声纹的特征对噪声鲁棒性较强，但识别准确率较低，所以提出一种基于听觉中枢感知机理的说话人识别方法，在低信噪比条件或强噪声环境下对说话人身份的确认与识别。

发明内容

本发明的目的在于：提供了基于听觉中枢感知机理的说话人识别方法，解决了现有单一声纹特征的缺陷，使得基于STRF的二次特征与MFCC系数特征组合，能够在强噪声环境下对说话人进行识别，具有较高的识别正确率，且对噪声具有较强的鲁棒性。

本发明采用的技术方案如下：

本发明是基于听觉中枢感知机理的说话人识别方法，该方法具体包括以下步骤：

步骤1：采用OM-LSA算法与MCRA算法结合的方法对说话人含噪声的语音信号进行降噪预处理；

步骤2：利用STRF模型将预处理后的语音信号投射到特定的频谱-时间空间，生成频域-时间谱图，并进一步提取频域-时间谱图的二次特征；

步骤3：提取降噪预处理后语音信号中的MFCC系数特征；

步骤4：将步骤2中的二次特征与步骤3中的MFCC系数进行组合；

步骤5：采用常规的支持向量机对步骤4中二次特征与MFCC系数组合后的声纹特征进行分类与识别。

进一步的，所述步骤1中含噪声语音信号的预处理方法具体步骤为：

步骤11：根据MCRA算法估计含噪语音的时变功率谱分布，然后根据估计的功率谱分布，结合OM-LSA算法来增强瞬态噪声和非瞬态噪声成分的差异，并估计瞬态噪声的功率谱分布；

步骤12：采用MCRA算法，从瞬态噪声和语音信号中估计背景噪声的功率谱分布；

步骤13：将估计的瞬态噪声和背景噪声功率谱分布进行合并，并在此运用OM-LSA算法，一起抑制瞬态噪声和背景噪声，得到增强后的语音信号。

进一步的，所述步骤2中二次特征的提取步骤为：

步骤21：模拟生物听觉系统外周模型耳蜗核的处理过程，将输入的语音信号转化为听觉外周的频谱图；

步骤22：模拟STRF模型的处理过程，将步骤21输出的频谱图转化为特定尺度的频域-时间谱图；

步骤23：对步骤22生成的频域-时间谱图进一步做二次特征提取。

进一步的，所述步骤21中听觉外周系统模型的处理过程包括以下步骤：

步骤211：将音频信号s(t)通过耳蜗滤波器组，耳蜗滤波器组的输出用y_C表示，采用以下公式对信号s(t)进行仿射小波变换：

y_C(t,f)＝s(t)*th(t,f)，

公式中h(t,f)为各滤波器的脉冲响应，*t为时域卷积运算；

步骤212：耳蜗输出y_C经过毛细胞的处理转化成听觉神经响应，表示为y_A，毛细胞的处理主要包括高通滤波、非线性压缩g(.)和低通滤波器w(t)，其数学式描述如下：

步骤213：根据耳蜗核的侧抑制网络作用，以模拟耳蜗核的频率选择性，表达式如下：

步骤214：利用短窗口函数μ(t,τ)与y_LIN(t,f)求卷积，得到第一阶段的输出y(t,f)，

y(t,f)＝y_LIN(t,f)*_tμ(t,τ)，

其中，τ是微秒级别的时间常数。

进一步的，所述步骤22中STRF模型的处理过程通过一组具备不同时频域特征选择性的滤波器模拟，包括以下步骤：

步骤221：构造STRF滤波器，STRF滤波器为空间脉冲响应h_S与时间脉冲响应h_T的乘积，分别定义如下：

其中，Ω,ω分别表示滤波器的谱密度和速率参数，

表示特征相位，

表示希尔伯特变换，定义为：

步骤222：分别采用二阶高斯模型和伽马方程模拟h_scale和h_rate，对应的方程表示为：

h_rate(t)＝t³e^-4tcos(2πt)，

其不同频率和尺度的脉冲响应的扩展方式为：

h_scale(x,Ω)＝Ωh_scale(Ωx)，

h_rate(t,ω)＝ωh_rate(ωx)，

步骤223：计算出输出的响应，表示为：

其中*_tf为时域和频域的卷积运算，输出的结果为听觉皮层神经元对特定频率和尺度能量选择后的结果。

进一步的，所述步骤23中二次特征的提取是从步骤22中生成的频域-时间谱图中提取了三种基于STRF的二次特征，包括每个尺度的能量S、对数尺度能量SL和对数尺度能量的DCT系数SDL；其中尺度的能量S是将第二阶段输出的频域-时间谱图中所有尺度和速率对应的结果直接叠加，其公式表示为：

其中N_ω是比例数，等式中的相位特征φ和θ都设置为零；

第二个特征SL是对第一个特征S进行对数运算，其公式表示为：

SL(t,ω)＝log(S(t,ω))，ω＝1,2...N_ω；

第三个特征SDL是在第二个特征的基础上进行了离散余弦变换，其公式表示为：

其中N_k是第三特征SDL(t,k)的特征指数，N_k小于等于N_ω。

综上所述，由于采用了本技术方案，本发明的有益效果是：本发明针对说话人识别易受环境噪声影响的问题，提出了基于听觉中枢感知机理的说话人识别方法，根据生物听觉感知机理进行声纹特征提取，本发明主要包括语音信号的预处理、声纹信号的特征提取与特征分类三个部分，在声纹信号的特征提取过程中，采用基于STRF模型，并且提取听觉谱图的二次特征，该二次特征与传统的MFCC系数相组合，相对于单一特征，该方法在较低信噪比条件下仍然能够取到较高的识别正确率，且对噪声具有较强的鲁棒性，能够用于强噪声环境下的说话人识别，对于说话人身份确认具有实用性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系，其仅仅为结构或者位置的示意图，其中：

图1是本发明的流程框图；

图2a和图2b是含噪语音处理前后信号图；

图3听觉外周系统的模型框架；

图4a和图4b分别是干净语音信号和含噪语音经步骤21处理后的外周听觉谱图；

如图5是滤波器的时频选择谱图；

图6a和图6b是干净语音信号和含噪语音经过步骤22处理后的频域-时间谱图；

图7是MFCC系数的提取过程流程图；

图8a、图8b、图8c分别是三个基于STRF的特征与MFCC的特征组合后识别正确率线性函数图；

图9基于STRF的特征与MFCC的特征组合后识别率随信噪比的变化图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合附图对本发明作详细说明。

实施例一

如图1所示，本发明基于听觉中枢感知机理的说话人识别方法，本发明是基于听觉中枢感知机理的说话人识别方法，该方法具体包括以下步骤：

步骤1：采用OM-LSA算法与MCRA算法结合的方法对说话人语音信号进行降噪预处理；

步骤3：提取降噪预处理后语音信号中的MFCC系数特征；

步骤4：将步骤2中的二次特征与步骤3中的MFCC系数进行组合；

通过对数频谱幅度(Optimally Modified Log-Spectral Amplitude Estimator，OM-LSA)语音估计与最小控制递归平均(Improved Minima Controlled RecursiveAveraging，MCRA)噪声估计结合的方法对说话人语音进行降噪等预处理，对于语音信号处理前后的对比如图2a和图2b所示。

进一步的，所述步骤2中二次特征的提取步骤为：

y_C(t,f)＝s(t)*th(t,f)，

公式中h(t,f)为各滤波器的脉冲响应，*t为时域卷积运算；

y(t,f)＝y_LIN(t,f)*_tμ(t,τ)，

其中，τ是微秒级别的时间常数。

听觉外周系统的模型框架如图3所示，本实施例任取一段语音信号，加入噪声，比如工厂车间噪声，图4a和图4b分别是干净语音信号和噪声环境的语音经步骤21处理后的外周听觉谱图。

进一步的，所述步骤22中中STRF模型的处理过程通过一组具备不同时频域特征选择性的滤波器模拟，包括以下步骤：

步骤221：步骤221：构造STRF滤波器，STRF滤波器为空间脉冲响应h_S与时间脉冲响应h_T的乘积，分别定义如下：

其中，Ω,ω分别表示滤波器的谱密度和速率参数，

表示特征相位，

表示希尔伯特变换，定义为：

h_rate(t)＝t³e^-4tcos(2πt)，

其不同频率和尺度的脉冲响应的扩展方式为：

h_scale(x,Ω)＝Ωh_scale(Ωx)，

h_rate(t,ω)＝ωh_rate(ωx)，

步骤223：计算出输出的响应，表示为：

本发明是通过模拟听皮层神经元频谱-时间感受野(STRF)特性来实现，主要采用一组具备不同时频域特征选择性的滤波器模拟，这些特征包括时域中从缓慢变化到快速骤变的节律(rate)，以及频率域从较窄到较宽泛的尺度，这些滤波器的时频域谱图通常集中在特定的节律和尺度范围内，一个典型滤波器的时频选择谱图如图5所示。滤波器的输出是预处理后的声音经过上述步骤21处理后得到的时频谱图与上述滤波器的卷积。因此，由步骤21输出的时频谱图如果与某个滤波器所选择的节律和尺度较为吻合，则会在相对应的特征点处输出较大的值，由此得出，步骤22的处理结果是经一系列滤波器特征选择后结果的组合，经过步骤22处理后生成频域-时间谱图。图6a和图6b是干净语音信号和含噪语音经过步骤22处理后的频域-时间谱图。

进一步的，所述步骤23中二次特征的提取是从步骤22中生成的频域-时间谱图中提取了三种基于STRF的二次特征，包括尺度能量总和S，对数域能量总和SL，对数域能量总和的离散余弦变换系数SDL；其中尺度的能量S是将第二阶段输出的频域-时间谱图中所有尺度和速率对应的结果直接叠加，其公式表示为：

其中N_ω是比例数，等式中的相位特征φ和θ都设置为零；

SL(t,ω)＝log(S(t,ω))，ω＝1,2...N_ω；

其中N_k是第三特征SDL(t,k)的特征指数，N_k小于等于N_ω。

在本实施例中，MFCC系数是基于人耳听觉感知特性的倒谱参数，在频域人耳听到的声音高低与频率不成线性关系，但在Mel域，人耳感知与Mel频率成正比的。它与频率的换算关系公式采用：

公式中f是频率，单位是Hz。

在本发明中，MFCC系数的提取过程如图7所示，具体概括为：首先，对语音进行预加重、分帧和加窗；然后，对每一个短时分析窗，通过FFT得到对应的频谱；并将上述的频谱通过Mel滤波器组得到Mel频谱；最后，在Mel频谱上面进行倒谱分析，即进行取对数和DCT离散余弦变换运算；本发明取DCT后的第2个到第13个系数作为MFCC系数。

本发明的支持向量机采用带有径向基函数内核的多类支持向量机对说话人数据进行分类，本实施例径向基函数内核的gamma值设置为2，其它参数选择LIBSVM工具的默认设置，支持向量机的原理参考论文《支持向量机若干问题及应用研究》和《基于模糊支持向量机的多类分类算法研究》。

本发明的实验数据结果

本实验的数据来源是清华大学thchs30中文语料库，共选取了其中36个说话人每人40段语音片段做样本，共计1440个语音片段，将所有语音片段分为8组，随机选取1组，即180段语音片段，每个说话人5段语音片段，作训练集，余下7组语音数据分别加入信噪比(SNR)为-10dB、-5dB、5dB、10dB、15dB、20dB的Babble噪声作测试集，共交叉验证8次，最终的识别正确率以平均值±标准差的形式给出。

在实验中，所有语音片段分为16ms的帧，重叠8ms，并将汉明窗应用于每个帧，STRF的尺度参数设置为2n，n＝-5，-4，-3，-2，-1，1，2，3，4，5，共10个等级。

单一特征对分类结果的影响

本发明共提取了四个特征，包括MFCC系数特征和基于STRF的三个二次特征，包括尺度能量总和S，对数域能量总和SL，对数域能量总和的离散余弦变换系数SDL。首先，对比了基于单一特征的干净说话人语音识别结果，多次交叉验证的统计结果汇总在表1中。

表1：基于单一特征的说话人识别统计结果

从表1中可以看出，基于MFCC系数特征的识别率最高，平均识别正确率达到94.12％。而基于STRF的二次特征中，对数域能量总和的离散余弦变换系数SDL的识别率最高，但是都显著低于基于MFCC系数特征。由此可以看出，对于纯净说话人语音的识别，基于单一STRF的特征并不占优势。

组合特征对分类结果的影响：

接下来尝试将基于STRF的单一特征与MFCC系数特征进行组合，对比STRF的特征是否有助于提升对说话人的识别性能，基于不同组合特征的说话人识别正确率统计结果汇总在表2中。

表2：基于不同组合特征的说话人识别统计结果

不同组合声纹特征	识别正确率
		MFCC+S	97.12±0.61
MFCC+S<sub>L</sub>	96.88±0.64
		MFCC+S<sub>DL</sub>	97.85±0.53

通过对比表1和表2的结果可以看出，对于纯净说话人语音信号，所有基于组合特征的识别率均显著高于基于单一特征的识别率。其中，采用对数域能量总和的离散余弦变换系数SDL和MFCC系数特征的组合形式取得了最高的识别正确率，高达97.85％。

不同特征对环境噪声的鲁棒性分析：

本实验进一步地分析了单一声纹特征以及各种组合声纹特征对环境噪声的鲁棒性，统计结果汇总在表3中。

表3：

从表3可以看出，随着信噪比的下降，无论是单一特征亦或是组合特征，均影响了对说话人识别的性能，其正确率有了不同程度的下降。其中，对于单一特征而言，基于MFCC的相对识别准确率较高，但是对于噪声的容忍性较差，下降地较为迅速。从图9可以看出，基于组合特征与STRF的特征对噪声鲁棒性均优于MFCC，通过将基于STRF的特征与MFCC的特征进行组合，并结合图8a、图8b、图8c发现，基于STRF的特征与MFCC的特征组合后普遍高于相同信噪比条件下基于单一声纹特征的识别率，既提高了总体的识别准确率，同时也提升了对噪声的容忍性，在信噪比低至-10dB的情况下，仍然具有86.25％的平均正确率，从而证明了本发明提出方法在强环境噪声下的说话人识别上具有一定的优势。

综上，本发明针对说话人识别易受环境噪声影响的问题，提出了基于生物听觉感知机理的声纹特征提取方法，如图1所示，本发明主要包括语音信号的预处理、声纹信号的特征提取与特征分类三个部分，通过与传统的MFCC系数相组合，显著提升了对环境噪声的鲁棒性。本发明通过实验进行了两个方面的对比分析，一方面比较了单纯基于STRF的特征与MFCC系数的识别准确率，发现前者普遍低于后者，但是前者对噪声的鲁棒性明显优于后者；另一方面，通过将二者进行组合，并与每组单一特征的识别进行比较发现，组合特征的识别正确率普遍高于单一特征，且对噪声的鲁棒性也有显著提高。本发明提出方法能够用于强噪声环境下的说话人识别上，表现出了对环境噪声的强鲁棒性，对于说话人身份确认具有实用性。

以上所述，仅为本发明的优选实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.基于听觉中枢感知机理的说话人识别方法，其特征在于，该方法具体包括以下步骤：

步骤3：提取降噪预处理后语音信号中的MFCC系数特征；

步骤4：将步骤2中的二次特征与步骤3中的MFCC系数进行组合；

2.根据权利要求1所述的基于听觉中枢感知机理的说话人识别方法，其特征在于，所述步骤1中含噪声语音信号的预处理方法具体步骤为：

3.根据权利要求1所述的基于听觉中枢感知机理的说话人识别方法，其特征在于，所述步骤2中二次特征的提取步骤为：

4.根据权利要求3所述的基于听觉中枢感知机理的说话人识别方法，其特征在于，所述步骤21中听觉外周系统模型的处理过程包括以下步骤：

y_C(t,f)＝s(t)*th(t,f)，

公式中h(t,f)为各滤波器的脉冲响应，*t为时域卷积运算；

y(t,f)＝y_LIN(t,f)*_tμ(t,τ)，

其中，τ是微秒级别的时间常数。

5.根据权利要求3所述的基于听觉中枢感知机理的说话人识别方法，其特征在于，所述步骤22中STRF模型的处理过程通过一组具备不同时频域特征选择性的滤波器模拟，包括以下步骤：

其中，Ω,ω分别表示滤波器的谱密度和速率参数，

θ表示特征相位，

表示希尔伯特变换，定义为：

h_rate(t)＝t³e^-4tcos(2πt)，

其不同频率和尺度的脉冲响应的扩展方式为：

h_scale(x,Ω)＝Ωh_scale(Ωx)，

h_rate(t,ω)＝ωh_rate(ωx)，

步骤223：计算出输出的响应，表示为：

6.根据权利要求3所述的基于听觉中枢感知机理的说话人识别方法，其特征在于，所述步骤23中二次特征的提取是从步骤22中生成的频域-时间谱图中提取了三种基于STRF的二次特征，包括每个尺度的能量S、对数尺度能量SL和对数尺度能量的DCT系数SDL；其中尺度的能量S是将第二阶段输出的频域-时间谱图中所有尺度和速率对应的结果直接叠加，其公式表示为：

其中N_ω是比例数，等式中的相位特征φ和θ都设置为零；

SL(t,ω)＝log(S(t,ω))，ω＝1,2...N_ω；

其中N_k是第三特征SDL(t,k)的特征指数，N_k小于等于N_ω。