CN102664010B

CN102664010B - 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法

Info

Publication number: CN102664010B
Application number: CN201210137353.7A
Authority: CN
Inventors: 吴强; 刘琚; 孙建德
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2012-05-04
Filing date: 2012-05-04
Publication date: 2014-04-16
Anticipated expiration: 2032-05-04
Also published as: CN102664010A

Abstract

本发明公开了一种考虑语音中多因素的频率位移不变特征提取方法，用于复杂环境下的文本无关说话人辨别，该方法考虑了语音的时间、频率、尺度和相位信息，通过不同尺度和相位的二维复数小波变换对语音信号能量谱进行多因素表征，考虑频率的位移不变特性，利用卷积型非负张量分解方法，计算频率阶上的位移不变特征投影矩阵，得到多因素的稀疏特征，通过离散余弦变换对特征去相关，计算特征的一阶和二阶差分系数，最终获得具有较好鲁棒性的说话人特征。本发明考虑语音信号多因素频率位移不变特征提取方法，利用卷积型非负张量分解方法计算具有鲁棒性的多因素频率位移不变特征，用于噪声环境下的文本无关说话人辨别，具有较好的识别准确率。

Description

一种基于多因素频率位移不变特征的鲁棒说话人辨别方法

技术领域

本发明涉及一种用于提高说话人身份辨别性能的特征提取方法，属于语音信号处理技术领域。

背景技术

随着计算机和人工智能技术的不断发展，各种各样的智能机器参与到人类的生产活动和社会活动当中，因此如何改善人们与这些机器之间的关系，使人对机器的操纵更加便利就显得越来越重要，而语言是人与机器进行交流的最好方式。

语音信号处理是语言学和数字信号处理技术相结合的交叉学科，是计算机智能接口与人机交互的重要手段之一，而说话人辨别是一种高效的的人机交互手段，其特点是信号采集方便，系统设备成本低，可以广泛应用于身份辨别、公安司法鉴定、语音信号检索、军事、电子商务等领域。

说话人辨别一般包括特征提取、参考模型生成和判别分类三部分组成。

常用的说话人辨别特征提取方法主要包括语音信号倒谱系数、特征补偿和正则化技术等。大量的实践表明，语音帧能量、基频、短时谱、线性预测系数、倒谱稀疏特征等能够表征说话人个性特征。线性预测倒谱系数（LPCC）利用线性预测对声道转移函数进行建模，获取声道和激励源的时间变化特性，具有计算复杂度小，便于实现等特点，但是鲁棒性较差。美尔频率倒谱系数（MFCC）考虑人耳的听觉特性，对频谱进行滤波，变换到具有非线性特性的美尔频谱域，利用倒谱分析语音特征，具有较好的鲁棒性。感知加权线性预测系数（PLP）是重要的说话人信号特征参数，它利用自回归全极点模型近似听觉谱，在纯净和噪声环境下取得了较好的识别结果。

很多情况下，各种环境噪声和信道失真造成识别性能下降，如果在特征提取过程中去掉这些稳定和变换缓慢的噪声，可以提高识别的鲁棒性和性能。谱均值减（CMS）是一种简单而有效的特征补偿方法，用于去除卷积噪声。RASTA滤波技术是CMS方法的一种推广，主要用于解决缓慢时变的线性信道带来的失真问题，消除了较低和较高的调制频率成分。

说话人辨别中参考模型的建立通常采用隐马尔科夫模型（HMM）、高斯混合模型（GMM）和GMM-UBM等完成，一般HMM模型是针对文本相关的说话人辨别任务，而GMM模型是针对文本无关的说话人辨别，这些模型都属于概率统计模型。此外还有一些其他的参考模型建立方法，比如人工神经网络（ANN），支持向量机（SVM）等，这些都是属于模式识别的分类模型。

如图1所示，传统的基于PLP和GMM的说话人辨别方法通常采用以下步骤：

1)对输入语音信号信号进行短时傅立叶变换，获得信号的短时能量谱；

2)进行临界频带分析，利用Bark尺度的频率Ω进行Bark-Hertz频带变换，将卷曲之后的能量谱与临界频带遮掩曲线Ψ(Ω)进行卷积，得到临界频带能量谱θ(Ω)；

3)经过下采样之后，对θ(Ω)进行等响度曲线预加重来模拟等响度曲线，得到处理结果Θ(Ω)，然后进行响度压缩；

4)经过对频谱进行修正之后，利用全极点谱建模的自相关方法对Θ(Ω)进行近似，获得对应阶数的自相关系数；

5)通过离散余弦变换（DCT）对自相关系数计算倒谱，计算一阶和二阶差分系数；

6)利用高斯混合模型（GMM）对已有说话人数据进行训练，获得不同说话人的模型；

7)根据训练得到的说话人模型，对测试数据进行识别，得到说话人辨别的准确率。

目前文本无关说话人辨别系统中信号的特征系数，在相对安静的环境下，可以得到较好的识别准确率，但是当周围环境复杂，干扰和噪声比较多的情况下，会造成说话人辨别性能的下降，其主要原因是单一因素特征（如频谱）的鲁棒性较差，说话人模型的训练模型与测试数据不匹配。因此如何提高特征的鲁棒性，考虑多种因素的特征组合，使得训练模型与测试数据的特征尽量匹配，是提高说话人辨别系统性能的关键。

发明内容

在噪声环境下，传统文本无关说话人辨别系统的鲁棒性较差，一般只提取时频特征，未考虑频率的位移不变特性，特征的可分性不高。本发明提出一种考虑语音中多因素的频率位移不变特征提取方法，利用卷积型非负张量分解方法提取频率的位移不变稀疏特征，降低噪声成分的干扰，用于复杂环境下文本无关的说话人辨别，提高了识别的准确率。

本发明的考虑语音中多因素的频率位移不变特征提取方法，是：

利用人脑听觉系统中语音信号的处理机制，考虑频率、时间、尺度和相位多因素特征，通过二维复数小波变换进行多因素的表征，考虑频率的位移不变特性，利用卷积非负张量分解的方法进行特征提取，求解频率位移不变特征投影矩阵，计算多因素的鲁棒特征，通过离散余弦变换计算倒谱系数，最后获得具有较好鲁棒性的一阶和二阶差分特征参数用于说话人辨别。

具体包括以下步骤：

（1）通过采集设备得到语音信号x(t)，并进行加窗和预加重，利用短时傅里叶变换计算x(t)的能量谱S(f,t)；

（2）利用不同尺度和相位的二维复数小波变换对能量谱S(f,t)进行滤波，得到语音信号的张量多因素表征利用美尔尺度变换对

的频率阶滤波得到一个4阶张量多因素表征

（3）采用张量分解的方法对得到的张量多因素表征

进行处理，估计移位投影矩阵H⁽¹⁾和不同阶上的投影矩阵A⁽ⁱ⁾，i＝2,3,4，采用以下卷积非负张量分解的模型：

\underset{&OverBar;}{S} \approx Σ_{n = 0}^{N - 1} {\underset{&OverBar;}{C}}_{n} \times_{1} \overset{&DownArrow; n}{H^{(1)}} \times_{2} A^{(2)} \times_{3} A^{(3)} \times_{4} A^{(4)}

核张量

是4阶张量，n＝0,...,N-1，N是卷积的长度，↓n是矩阵的下移移位算子，×_i表示张量i阶矩阵乘运算；

利用卷积型非负张量分解方法计算投影矩阵A⁽ⁱ⁾,i＝2,...,I和移位投影矩阵H⁽¹⁾的具体过程如下，其中I＝4：

①引入中间矩阵A⁽¹⁾，使得分解

其中，矩阵W_n的大小为R×K，对投影矩阵A⁽ⁱ⁾,i＝1,...I的每个列向量进行随机初始化和归一化；

②设

其中A^(1)T表示矩阵A⁽¹⁾的转置，

是Kronecker积运算符；

③以误差函数

为判断条件，其中，表示向量外积运算符,当

大于一定阈值时，循环执行以下操作：

●设向量v＝diag(A^(I)TA^(I))，其中运算符diag(·)表示取矩阵的对角元素；

●从i=1到I依次执行：

√如果i等于I时，设v＝1；

√设

这里

⊙是矩阵的Khatri-Rao积运算符,S_(i)是张量

的i阶张量矩阵展开；

√T₃＝T₁./(A^(i)TA⁽ⁱ⁾)，./表示矩阵之间元素一一相除；

√从k=1到K依次执行

■

a_{k}^{(i)} = {[v_{k} a_{k}^{(i)} + {(T_{2})}_{k} - A^{(i)} {(T_{3})}_{k}]}_{+};

■如果i≠I，则

a_{k}^{(i)} = a_{k}^{(i)} / {| | a_{k}^{(i)} | |}_{2};

其中，(·)_k表示取矩阵的第k列，[·]₊表示将矩阵中负值元素置为零，||·||₂表示取矩阵或者向量的2范数；

√T₁＝T₃.*(A^(i)TA⁽ⁱ⁾)，其中.*表示矩阵之间元素一一相乘；

④循环结束后，计算得到投影矩阵A⁽ⁱ⁾,i＝1,...I，对A⁽¹⁾进行进一步分解，使得

A^{(1)} = Σ_{n = 0}^{N - 1} \overset{&DownArrow; n}{H^{(1)}} W_{n},

具体过程如下：

●随机初始化W_n和H⁽¹⁾；

●以误差函数

为判断条件，当E大于一定阈值时，循环执行以下操作：

√从n＝0到N-1依次执行

■

H_{n}^{(1)} = {[{(W_{n}^{T} W_{n})}^{- 1} W_{n}^{T} \overset{n &LeftArrow;}{A^{(1) T}}]}_{+}^{T}

■

W_{n} = {[A^{(1) T} \overset{n &RightArrow;}{H^{(1) T}} {(\overset{n &RightArrow;}{H^{(1)}} \overset{n &RightArrow;}{H^{(1) T}})}^{- 1}]}_{+}^{T}

√

H^{(1)} = Σ_{n = 0}^{N - 1} H_{n}^{(1)}

其中，n←是矩阵的左移移位算子，n→是矩阵的右移移位算子；

●循环结束之后求解得到移位投影矩阵H⁽¹⁾；

（4）利用得到的对应于频域的投影矩阵H⁽¹⁾对语音信号的多因素表征

进行特征投影得到：

\underset{&OverBar;}{F} = \underset{&OverBar;}{S} \times_{1} H^{(1) T}

（5）固定对应的时间阶，对投影之后的稀疏张量多因素表征

进行张量展开操作，得到特征矩阵F_(f)；

（6）利用离散余弦变换对F_(f)进行去相关，得到鲁棒的特征F，计算特征参数的一阶和二阶差分系数，获得最终的说话人身份特征。

本发明考虑语音信号中的时间、频率、尺度和相位等因素用于鲁棒说话人的身份特征提取，利用卷积非负张量分解方法，求解频率位移不变特征投影矩阵，用于提取鲁棒的特征，最终提高了文本无关说话人身份辨别的识别准确率。

附图说明

图1是传统说话人辨别过程的示意框图；

图2是本发明的特征提取方法的示意图；

图3是采用本发明的说话人辩别过程的示意框图；

图4是实验结果对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图2所示，本发明的考虑语音中多因素的频率位移不变特征提取方法，具体包括以下步骤：

（1）对Tidigits数据库的51个儿童的语音数据x(t)进行预处理，采样率为8kHz，采用汉明窗进行加窗，窗长23ms，窗移10ms，并进行预加重，利用短时傅里叶变换计算信号的能量谱S(f,t)；

（2）利用4个不同尺度和4个不同相位的二维复数小波变换对能量谱S(f,t)进行滤波，得到语音信号的张量多因素表征

这里

是一个大小为

的4阶张量，每一阶分别对应频率、时间、尺度和相位；利用36个美尔尺度滤波器组对

的频率阶滤波得到一个4阶张量多因素表征

这里张量数据

的大小是N₁×N₂×N₃×N₄，各个阶的长度为N_i，其中i＝1,...4；

（3）采用张量分解的方法对得到的张量多因素表征

\underset{&OverBar;}{S} \approx Σ_{n = 0}^{N - 1} {\underset{&OverBar;}{C}}_{n} \times_{1} \overset{&DownArrow; n}{H^{(1)}} \times_{2} A^{(2)} \times_{3} A^{(3)} \times_{4} A^{(4)}

其中，A⁽ⁱ⁾≥0是分解之后得到的大小为N_i×K的投影矩阵，i＝2,3,4，H⁽¹⁾≥0是大小为N₁×R移位投影矩阵；核张量

是4阶张量，大小为R×K×K×K，n＝0,...,N-1，N是卷积的长度，↓n是矩阵的下移移位算子，表示将矩阵的行元素向下移动n行，上方空出位置用零补齐，×_i表示张量i阶矩阵乘运算；

①引入中间矩阵A⁽¹⁾，大小为N₁×K，使得分解

其中，矩阵W_n的大小为R×K，对投影矩阵A⁽ⁱ⁾,i＝1,...I的每个列向量

进行随机初始化和归一化；

②设其中A^(1)T表示矩阵A⁽¹⁾的转置，

是Kronecker积运算符；

③以误差函数

为判断条件，其中，

表示向量外积运算符，当大于一定阈值时，循环执行以下操作：

●从i=1到I依次执行：

√如果i等于I时，设v＝1；

√设

这

⊙是矩阵的Khatri-Rao积运算符,S_(i)是张量

的i阶张量矩阵展开；

√T₃＝T₁./(A^(i)TA⁽ⁱ⁾)，./表示矩阵之间元素一一相除；

√从k=1到K依次执行

■

a_{k}^{(i)} = {[v_{k} a_{k}^{(i)} + {(T_{2})}_{k} - A^{(i)} {(T_{3})}_{k}]}_{+};

■如果i≠I，则

a_{k}^{(i)} = a_{k}^{(i)} / {| | a_{k}^{(i)} | |}_{2};

其中，(·)_k表示取矩阵的第k列，[·]₊表示将矩阵中负值元素置为零，||·||₂表示取矩阵或者向量的2范数。

④循环结束后，计算得到投影矩阵A⁽ⁱ⁾,i＝1,...I，对A⁽¹⁾进行进一步分解，得到

A^{(1)} = Σ_{n = 0}^{N - 1} \overset{&DownArrow; n}{H^{(1)}} W_{n},

具体过程如下：

●随机初始化W_n和H⁽¹⁾；

●以误差函数为判断条件，当E大于一定阈值时，循环执行以下操作：

√从n＝0到N-1依次执行

■

H_{n}^{(1)} = {[{(W_{n}^{T} W_{n})}^{- 1} W_{n}^{T} \overset{n &LeftArrow;}{A^{(1) T}}]}_{+}^{T}

■

W_{n} = {[A^{(1) T} \overset{n &RightArrow;}{H^{(1) T}} {(\overset{n &RightArrow;}{H^{(1)}} \overset{n &RightArrow;}{H^{(1) T}})}^{- 1}]}_{+}^{T}

√

H^{(1)} = Σ_{n = 0}^{N - 1} H_{n}^{(1)}

其中，n←是矩阵的左移移位算子，表示将矩阵的列元素向左移动n行，右方空出位置用零补齐，n→是矩阵的右移移位算子，表示将矩阵的列元素向右移动n行，左方空出位置用零补齐。

●循环结束之后求解得到移位矩阵H⁽¹⁾；

进行特征投影得到：

\underset{&OverBar;}{F} = \underset{&OverBar;}{S} \times_{1} H^{(1) T}

（5）固定对应的时间阶，对投影之后的稀疏张量多因素表征

进行张量展开操作，得到大小为

的特征矩阵F_(f)，其中

如图3所示，采用上述特征提取方法进行说话人辨别的过程，包括以下步骤：

1)通过采集设备获得不同说话人的语音信号数据x_j(t)，j＝1,...,J，共有J个不同说话人；

2)利用图2中所示的特征提取方法进行提取不同说话人的特征F_j；

3)利用混合高斯混合模型（GMM）建立不同说话人的模型，得到第j个说话人所对应的模型M_j，其中高斯混合的个数为64个；

4)当给定未知说话人身份的语音信号

进行测试时，利用GMM建立的说话人模型M_j，j＝1,...,J，依次进行测试计算极大后验概率，得到最大概率的说话人身份，即是该语音信号的身份辨别结果。

本发明的效果可以通过实验结果进一步说明。

实验的测试数据是通过对纯净语音信号线性叠加不同类型噪声得到，本实例中用的的4种噪声DestroyerEngine、F16、Pink、White是从Noisex-92数据库获得，各个噪声信号分别以20dB、15dB、10dB和5dB的信噪比与纯净语音信号混合。图4给出了本发明提出的方法与已有特征提取技术(MFCC和PLP特征)的识别性能比较，包括不同噪声情况下的4种信噪比的平均识别率和总的平均识别率，由最终结果可见，采用本发明后，噪声环境下说话人辨别的准确率得到有效提高。