CN111755012A

CN111755012A - 一种基于深浅层特征融合的鲁棒性说话人识别方法

Info

Publication number: CN111755012A
Application number: CN202010589695.7A
Authority: CN
Inventors: 余帆; 曾春艳; 马超峰; 陈新凯
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-09

Abstract

本发明一种基于基于深浅层特征融合的鲁棒性说话人识别方法，分为五部分：1)MFCC特征提取；2)浅层说话人特征(GSV)提取；3)深层说话人特征(DMFCC)提取；4)特征融合和SVM决策；5)“投票法”联合判决。与传统说话人识别相比，本发明的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能，在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时，优化系统结构，提高了相应说话人识别产品的竞争力。

Description

一种基于深浅层特征融合的鲁棒性说话人识别方法

技术领域

本发明属于说话人识别技术领域，特别指一种基于深浅层特征融合的鲁棒性说话人识别方法。

背景技术

说话人识别，是一种基于语音信息实现的特殊生物识别技术。经过几十年的发展，目前无噪声干扰条件下说话人识别技术已经较为成熟。目前主流的方法有GMM-UBM、GMM-SVM和i-vector。然而在实际应用环境下，由于背景噪声和信道噪声的存在，说话人识别算法性能会明显下降。因此，如何提高现有说话人识别系统的噪声鲁棒性成为近年来该领域的研究热点。

为解决这一问题，研究人员已在语音信号处理的不同层面做出尝试。相关文献证实，在信号处理领域的相关识别算法能否取得好的效果取决于噪声的类型和信噪比的大小。对于语音来说，特征真实的概率分布依赖于特定的说话人并且是多模态的。然而，在实际应用场景中，信道的不匹配和加性噪声等因素会破坏特征真实的概率分布。相关研究通过将具有噪声鲁棒性的语音特征与倒谱均值方差归一化等技术结合，在一定条件下可以调整特征的概率分布，达到降低噪声对系统性能影响的目的。特征弯折算法(featurewarping)是将训练和测试语音的特征向量的分布映射到统一的概率分布中，经过映射后的特征向量的每一维都服从标准正态分布，在一定程度上补偿了信道不匹配和加性噪声对特征分布造成的影响。但是，对基于不同语音特征的识别算法进行比较可以发现，识别性能是否改善与噪声的类型和信噪比也是紧密相关的。当环境中含有少量噪声时，基于特征域的相关算法考虑到噪声对特征分布特性的影响，通过分布映射等方式调整特征分布可以提高系统的噪声鲁棒性。但是，随着信噪比的减小，噪声影响特征分布特性的同时，也会改变语音中说话人相关的信息，系统性能会急剧下降，通过调整特征分布带来的系统性能上的提升就显得微不足道。

近年来，随着机器学习算法性能的提升和计算机存储、计算能力的提高，深度神经网络(Deep Neural Network，DNN)被应用到说话人识别领域中并取得了显著的效果。因为人类语音信号的产生和感知过程就是一个复杂的过程，而且在生物学上是具有明显的多层次或深层次处理结构。所以，对于语音这种复杂信号，传统的方法无法充分利用语音本身已包含的更多个性化信息，因此可能导致计算机的辨识能力与人类本身对语言的直觉之间存在很大的差别。比如相同的语音片段中词语的顺序不同有可能导致音素连接处发音出现变化，或者不同的说话人因为口音或者方言问题使得说话人表达习惯会有所不同，或者完全不同的内容却有相近发音，导致系统无法识别。因此，利用DNN深层次的非线性变换来捕捉说话人特征是目前非常活跃的研究领域。

上述几种不同的说话人识别方法因其各自特殊的优势以及很好地识别性能而得到广泛的认可和应用，但仍存在不足。高斯均值超矢量(GSV)是由GMM-UBM系统的说话人模型的均值构建产生，有效地降低了噪声的影响，但同时也削弱了能代表说话人个性的特性成分。因此，尽管其相对于MFCC特征更为凝练，但它仍是一种浅层、物理层面的声学特征，难以表征语音段的高层信息。而基于深度神经网络的说话人识别中添加了具有区分性的信息，但并未涉及物理层的最直观的声学特性。由于深、浅层特征从不同角度侧面反映说话人信息，希望以有效的融合方式得到更具鲁棒性的特征表达。因此本发明就深层特征和浅层特征进行融合研究，将经过深度神经网络处理过的分块MFCC特征作为深层特征，将高斯均值超矢量(GSV)作为浅层特征，然后对两种特征向量进行融合，得到包含更多信息的、更具鲁棒性的说话人特征，提升说话人识别系统的性能。

发明内容

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于深浅层特征融合的鲁棒性说话人识别方法，其特征在于，包括

步骤1、从原始语音信号进行预处理提取MFCC特征；

步骤2、分别对步骤1提取MFCC特征进行浅层说话人特征(GSV)提取和深层说话人特征(DMFCC)提取；

步骤3、将步骤2提取的浅层说话人特征和深层说话人特征进行特征融合，然后基于训练支持向量机(SVM)进行训练后得到测试结果；

步骤4、采取投票法对步骤3的测试结果中来自同一语音信号的特征矢量的决策结果进行联合决策。

在上述的一种基于深浅层特征融合的鲁棒性说话人识别方法，步骤1是对原始语音信号并依次预加重、分帧、加窗，快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)，具体包括：

步骤1.1、预加重：为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分

y＝x(n)-a*x(n-1)，0.95＜a＜0.97 (1)

式中x(n)表示输入信号；

步骤1.2、分帧：将N个采样点集合成一个观测单位，称为帧；通常情况下N的值为256或512

步骤1.3、加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性,x(n)表示分帧之后的信号

步骤1.4、快速傅里叶变换(FFT)：将时域信号转化到频域进行后续的频率分析

式中s(n)表示输入的语音信号，N表示傅里叶变换的帧数

步骤1.5、将能量谱通过一组Mel尺度的三角形滤波器组，定义为一个有M个三角滤波器的滤波器组，中心频率为f(m)，m＝1,2,…,M；各f(m)之间的间隔与m值成正比；

步骤1.6、经离散余弦变换(DCT)得到MFCC系数：

将上述的对数能量带入离散余弦变换，式中M为三角滤波器的个数；L是MFCC系数的阶数，取12-16；

步骤1.7、差分：为了使特征更能体现时域连续性，可以在特征维度增加前后帧信息的维度；常用的是一阶差分和二阶差分；

步骤1.8、倒谱均值和方差归一化可以消除平稳信道影响，提升特征的鲁棒性。

在上述的一种基于深浅层特征融合的鲁棒性说话人识别方法，步骤2中，提取浅层说话人特征(GSV)的具体方法包括：

步骤2.1、给出一组按步骤1中提取出MFCC特征，训练通用背景模型(UniversalBackground Model，UBM)，具体包括：

步骤B-1、若某条语音数据对应的特征为X，其中X＝{x₁,x₂,…x_T}，且假设其维度为D，用于计算其似然函数的公式为：

式中该密度函数由K个单高斯密度函数p_k(X_t)加权得到，其中每一个高斯分量的均值μ_k和协方差∑_k的大小分别为：1×D和D×D；

其中混合权重w_k满

假设λ表示模型参数的集合，则有λ＝{w_k,μ_i,∑_k}，k＝1,2,…,K，该模型通过期望最大化(EM)迭代训练得出；

步骤B-2、一般用EM算法获取参数λ，先给予λ一个初始值，然后估计出新参数λ′，使得在λ′下的似然度更高，即p(X|λ′)≥p(X|λ)，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：

步骤2.2、首先将目标说话人和待识别说话人的语音按步骤一提取出MFCC特征，然后利用步骤2.1中UBM模型对每个特征向量进行最大后验概率(Maximum a posteriori,MAP)操作,提取出高斯超矢量，具体包括是将每一个特征向量作为一个类别，实际上是对MFCC特征重新进行提取操作,即:将每个MFCC特征向量送入到UBM模型中，将经过自适应得出的均值单独保留下来作为新的鲁棒性特征，即高斯均值超矢量(GSV)。

在上述的一种基于深浅层特征融合的鲁棒性说话人识别方法，步骤2中，提取深层说话人特征(DMFCC)的具体方法包括：

步骤A：构建深度神经网络(DNN)；DNN网络模型是具有多个隐藏层的神经网络，可划分为输入层、隐藏层和输出层；

步骤B:将步骤1中提取的MFCC进行分块处理，并分为训练数据和测试数据两类，训练数据又分为训练样本和验证样本，训练样本用来训练DNN模型，然后用验证数据检验模型的好坏，同时调整网络模型的参数，最后的测试数据集就用来测试最终DNN模型的好坏；

步骤C：DNN模型确定后，将分块后的MFCC输入到DNN中；将最后一层隐藏层的输出值作为深层特征(DMFCC)。

在上述的一种基于深浅层特征融合的鲁棒性说话人识别方法，步骤3具体包括：

步骤A、将步骤2提取的浅层说话人特征(GSV)与深层说话人特征(DMFCC)以扩增向量维度的形式将两种特征向量水平组合，即：将GSV与DMFCC串联，得到包含更多信息的融合特征(fusion)；

步骤B、将步骤A中得到的融合特征分为训练集和测试集，训练样本用于训练支持向量机SVM，使用的核函数是高斯核函数，见公式11，得到用于识别的模型；之后，保存测试集的测试结果；

K(x_i·x_j)＝exp(-||x_i-x_j||²/2σ²) (11)

步骤C：将测试样本送入训练好的SVM，保存每个样本的识别结果。

在上述的一种基于深浅层特征融合的鲁棒性说话人识别方法，投票法进行联合决策的具体方法包括：

定义模型库中有R个说话人，统计同一语音信号的单一决策结果中每一类别出现的概率y＝{y₁,y₂,…,y_R}，将决策结果中出现频率最高的作为该语音信号的最终识别结果；

Y＝max(y_i),i＝1,2,…,R

(12)。

因此，本发明具有如下优点：与传统说话人识别相比，本法发明提出采用深、浅层特征融合后的特征代替传统的单一声学特征，并将之作为SVM系统的输入。这种融合后的特征能够很好地结合抽象特征(DMFCC)和物理特征(GSV)的优势，对于提取出更加全面的说话人特征信息具有很大的贡献。同时为了更好地利用特征块之间的关联性，在决策过程加入“投票法”决策机制，进一步提升本方法的泛化性。本发明的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能，在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时，优化系统结构，提高了相应说话人识别产品的竞争力。

附图说明

图1为基于深浅层特征融合的鲁棒性说话人识别方法。

图2为MFCC特征提取流程图。

图3为高斯超矢量提取流程图。

图4为基于深层特征的网络结构。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

本发明一种基于基于深浅层特征融合的鲁棒性说话人识别方法，本发明的算法流程图如图1所示，可以分为五部分：1)MFCC特征提取；2)浅层说话人特征(GSV)提取；3)深层说话人特征(DMFCC)提取；4)特征融合和SVM决策；5)“投票法”联合判决。步骤一：MFCC特征提取，步骤如下：

A、采集原始语音信号并依次预加重、分帧、加窗，快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)；

(A-1)预加重：为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分

y＝x(n)-a*x(n-1)，0.95＜a＜0.97 (1)

式中x(n)表示输入信号；

(A-2)分帧：将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512

(A-3)加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性,x(n)表示分帧之后的信号

(A-4)快速傅里叶变换(FFT)：将时域信号转化到频域进行后续的频率分析

式中s(n)表示输入的语音信号，N表示傅里叶变换的帧数

(A-5)将能量谱通过一组Mel尺度的三角形滤波器组，定义为一个有M个三角滤波器的滤波器组，中心频率为f(m)，m＝1,2,…,M；各f(m)之间的间隔与m值成正比；

(A-6)经离散余弦变换(DCT)得到MFCC系数：

(A-7)差分：为了使特征更能体现时域连续性，可以在特征维度增加前后帧信息的维度。常用的是一阶差分和二阶差分；

(A-8)倒谱均值和方差归一化可以消除平稳信道影响，提升特征的鲁棒性。

步骤二：浅层说话人特征提取，步骤如下：

B、给出一组按步骤一中提取出MFCC特征，训练通用背景模型(UniversalBackground Model，UBM)；

(B-1)若某条语音数据对应的特征为X，其中X＝{x₁,x₂,…x_T}，且假设其维度为D，用于计算其似然函数的公式为：

其中混合权重w_k满足

(B-2)一般用EM算法获取参数λ，先给予λ一个初始值，然后估计出新参数λ′，使得在λ′下的似然度更高，即p(X|λ′)≥p(X|λ)，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：

C、首先将目标说话人和待识别说话人的语音按步骤一提取出MFCC特征，然后利用B中UBM模型对每个特征向量进行最大后验概率(Maximum a posteriori,MAP)操作,提取出高斯超矢量，如图3所示；

(C-1)传统的GMM-UBM模型在此阶段，首先对S个人的特征向量分别训练得到特定说话人GMM，记为λ₁,λ₂,…,λ_s。在识别阶段，将目标说话人的特征序列X＝{x_t,t＝1,2,…T}和GMM模型分别进行匹配，根据MAP计算概率P(λ_i|X)，概率最大所对应的模型即为识别结果

其中，P(X)是常数，如果前提为每个人概率相等则

式8可以化简为：

若假设每帧语音特征之间相互独立，并对其化简最终得到式10：

(C-2)本发明在此阶段是将每一个特征向量作为一个类别，实际上是对MFCC特征重新进行提取操作。

步骤三：深层说话人特征提取，步骤如下：

A、DNN网络模型是具有多个隐藏层的神经网络，可划分为输入层、隐藏层和输出层。深度神经网络的结构与传统的多层感知机没有太大的区别，这两种算法在监督学习中是相同的。然而，深度神经网络中的无监督学习是监督学习的第一步，然后将学习后的参数用作监督学习的初始参数，这与传统的多层感知机(Multilayer Perceptron，MLP)不同。对于深度神经网络的学习过程，利用其隐藏层可以构建多层的抽象，而这些构建的抽象能够使得深度神经网络有效的对数据特征进行学习并解决复杂的模式识别问题。

本发明对步骤一提取的MFCC进行分块处理，然后把分块的MFCC作为DNN的输入。如图4所示，将最后一层隐藏层的输出值作为本发明的深层特征(DMFCC)。

步骤四：特征融合和SVM决策，步骤如下：

A、将步骤一提取的浅层说话人特征(GSV)与步骤三提取的深层说话人特征(DMFCC)以扩增向量维度的形式将两种特征向量水平组合，得到包含更多信息的融合特征(fusion)。

B、将A中得到的融合特征分为训练集和测试集，训练样本用于训练支持向量机SVM，使用的核函数是高斯核函数，见公式11，得到用于识别的模型。之后，保存测试集的测试结果。

K(x_i·x_j)＝exp(-||x_i-x_j||²/2σ²) (11)

步骤五：“投票法”联合决策：

A、深层特征是由MFCC特征分块得来，因此单一决策方式得到的结果不具备较强的鲁棒性。更为合理的操作是，采取“投票法”的方式对来自同一语音信号的特征矢量的决策结果进行联合决策。假设模型库中有R个说话人，统计同一语音信号的单一决策结果中每一类别出现的概率y＝{y₁,y₂,…,y_R}，将决策结果中出现频率最高的作为该语音信号的最终识别结果。

Y＝max(y_i),i＝1,2,…,R (12)

为验证融合特征和“投票法”决策机制的有效性，首先设计了实验1：探究不同特征和决策方式对说话人识别系统的有效性，实验过程中分别对MFCC、深度MFCC(DMFCC)、GSV和融合(fusion)特征四种特征和单一决策、联合决策两种决策方式进行测试。然后，为了进一步验证融合特征和“投票法”决策机制方法的鲁棒性，设计了实验2：探究DMFCC、GSV和fusion特征在不同噪声下的识别性能，在factory、pink、babble噪声环境下测试其性能测试。

实验1：探究不同特征和决策方式对说话人识别系统的有效性

表1深、浅层特征和融合特征在不同决策方式下的识别性能

实验2：探究DMFCC、GSV和fusion特征在不同噪声下的识别性能

表2不同噪声环境下三种特征的测试结果

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。