CN110010137A

CN110010137A - 一种基于张量结构及稀疏表示的说话人确认方法及系统

Info

Publication number: CN110010137A
Application number: CN201910272145.XA
Authority: CN
Inventors: 简志华; 郭珊; 徐剑; 金易帆
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-07-12
Anticipated expiration: 2039-04-04
Also published as: CN110010137B

Abstract

本发明公开了一种基于张量结构及稀疏表示的说话人确认方法及系统，该方法包括步骤：S1、构建听觉特征张量；S2、将所述听觉特征张量转换成稀疏矩阵；S3、降低所述稀疏矩阵的维度以生成最终的特征向量；S4、基于稀疏表示分类器进行说话人确认。本发明能够在保留数据的内在结构的基础上，减少计算的复杂度，提高说话人确认效率。

Description

一种基于张量结构及稀疏表示的说话人确认方法及系统

技术领域

本发明涉及说话人识别技术领域，尤其涉及一种基于张量结构及稀疏表示的说话人确认方法及系统。

背景技术

说话人识别的任务是识别说话人。说话人识别可分为说话人辨认和说话人确认两类。对于说话人辨认，就是从多个说话人当中找出正确的说话人，这是一个“多选一”的问题；而说话人确认则是验证这段语音是否是某个说话人说的，是“一对一”的问题。说话人确认是通过对话者语音提取个性特征，建立识别模型，从而对话者的身份进行验证的过程，是说话人识别研究的重要分支。在说话人确认中，有效特征参数的提取和高性能识别模型的建立是关键。

支持向量机(Support Vector Machine，SVM)和高斯混合模型(Gaussian MixtureModel，GMM)在该领域获得了成功的应用，二者的相互结合是近几年说话人确认研究的主流方法。然而，现有的支持向量机的方法超向量的维数较高，导致后续处理阶段的计算复杂度较高。在识别算法研究方面，用于数据信号表示和压缩的稀疏表示(SparseRepresentation，SR)算法，由于其在过完备字典中寻找输入样本的最简表示子集的过程具有良好的判别性，成为继SVM和GMM之后模式识别领域研究的热点之一。

公开号为CN 105845142A的专利公开了一种基于稀疏表示的信道鲁棒说话人确认方法，包括如下步骤：构建说话人的过完备字典D_tar；对测试语音进行身份认证矢量i-vector的提取，得到身份认证向量ω_test；所述身份认证向量ω_test通过所述过完备字典D_tar的稀疏求解，得到稀疏表示向量γ_test的关联关系Γ(γ_test)；判断所述关联关系Γ(γ_test)是否高于一阈值，如果是，表示确认，则接收；否则，拒绝。所述的基于稀疏表示的信道鲁棒说话人确认方法，在训练阶段就构建好过完备字典，因此无需花费很大的空间以及很多的时间。但是由于过完备字典，高维超向量的稀疏表示需要大量内存，这会限制训练样本数量并可能减慢识别过程。

因此，如何在保留数据的内在结构的基础上，提高说话人确认效率是本领域亟待解决的问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于张量结构及稀疏表示的说话人确认方法及系统，能够在保留数据的内在结构的基础上，减少计算的复杂度，提高说话人确认效率。

为了实现以上目的，本发明采用以下技术方案：

一种基于张量结构及稀疏表示的说话人确认方法，包括步骤：

S1、构建听觉特征张量；

S2、将所述听觉特征张量转换成稀疏矩阵；

S3、降低所述稀疏矩阵的维度以生成最终的特征向量；

S4、基于稀疏表示分类器进行说话人确认。

进一步的，所述步骤S1包括：通过仿真人耳的听觉系统来处理语音信号得到其功率谱图。

进一步的，所述步骤S2通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。

进一步的，所述步骤S3中通过离散余弦变换降低所述稀疏矩阵的维度。

进一步的，所述步骤S4中将提取的特征代替i矢量作为稀疏表示分类器的特征向量。

相应的，还提供一种基于张量结构及稀疏表示的说话人确认系统，包括：

构建模块，用于构建听觉特征张量；

转换模块，用于将所述听觉特征张量转换成稀疏矩阵；

降维模块，用于降低所述稀疏矩阵的维度以生成最终的特征向量；

确认模块，基于稀疏表示分类器进行说话人确认。

进一步的，所述构建模块包括：通过仿真人耳的听觉系统来处理语音信号得到其功率谱图。

进一步的，所述转换模块通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。

进一步的，所述降维模块通过离散余弦变换降低所述稀疏矩阵的维度。

进一步的，所述确认模块将提取的特征代替i矢量作为稀疏表示分类器的特征向量。

与现有技术相比，本发明语音信号的稀疏编码对于语音听觉建模和语音分类十分有效，因而稀疏分解可用于说话人识别中的建模部分，也可作为分类器用于说话人识别最后的判断。而高阶张量作为一种强大的模式识别数学建模的工具，可将其用于语音信号的特征提取，这样可以保留数据的内在结构。此外，本发明通过对稀疏矩阵降维，使用提取的特征代替i矢量作为稀疏表示分类器的特征，能够大大减小计算的复杂度，提高了说话人确认效率。

附图说明

图1是实施例一提供的一种基于张量结构及稀疏表示的说话人确认方法流程图；

图2是实施例二提供的一种基于张量结构及稀疏表示的说话人确认系统结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明是以语音信息为研究对象，主要的着力点在于改善说话人确认的效率，提供了一种基于张量结构及稀疏表示的说话人确认方法及系统，能够通过张量结构保留数据的内在结构，同时使用提取的特征代替i矢量作为稀疏表示分类器(SRC)的特征，以提高说话人确认效率。

实施例一

本实施例提供一种基于张量结构及稀疏表示的说话人确认方法，如图1所示，包括步骤：

S1、构建听觉特征张量；

本发明是通过仿真人耳的听觉系统来处理语音信号得到其功率谱图，为了获取基于张量结构的鲁棒特征，本实施例将得到的不同说话人的功率谱建模为一个3阶张量。

具体地，人耳可以很轻松地完成说话人识别任务，并且对噪声不敏感。在我们的特征提取框架中，我们通过模仿人耳在听觉外围和通路中执行的过程来获取频率选择性信息。

首先，本发明通过模仿听觉外围和通路发生的过程，如外耳，中耳，基底膜，内毛细胞，听觉神经和耳蜗核来提取特征。因为我们人类的外耳和中耳的综合作用相当于一个带通函数，所以我们实施传统的预加重来模拟组合的外耳和中耳函数x_pre(t)＝x(t)-0.97x(t-1)，其中x(t)是离散时间语音信号，t＝1,2,…，x_pre(t)是滤波后的输出信号。其目的是提高位于高频域的频率分量的能量，以便可以在高频域中提取这些共振频率。

周边听觉系统(如基底膜)的频率选择性由一组耳蜗滤波器模拟。耳蜗滤波器组代表了沿耳蜗基底膜各个位置的频率选择性，本发明使用“Gammachirp”滤波器组来模拟耳蜗基底膜，它具有以下形式的脉冲响应：

其中n是滤波器的顺序，N是滤波器的数量。对于第i个滤波器，b_i＝24.7+0.108f_i是听觉滤波器的等效矩形带宽(EBR)，φ_i是相位，a_i是常数。与GT滤波器相比，GC滤波器多了clnt这一项，c是一个额外的调频参数，并且f_i是非对称的频率，其值或随着c的改变而改变。由此GC滤波器克服了GT滤波器不能模拟基底膜的非对称性以及自身的强度依赖性等缺点。

每个Gammachirp滤波器组的输出是：

为了模拟内毛细胞的非线性，我们用对数非线性计算每帧k中每个频带i的功率：

其中P(i,k)是输出功率，λ是比例常数。这个模型可以被认为是内毛细胞的平均纤维率，模拟更高级的听觉通路。

更进一步地，为了提取基于张量结构的鲁棒特征，我们将不同说话人的耳蜗功率特征建模为三阶张量每个特征张量是具有三种模型频率、时间、说话人身份的阵列。其中不同说话人的耳蜗功率特征矩阵

S2、将所述听觉特征张量转换成稀疏矩阵；

本发明通过非负张量主成分分析方法(Nonnegative Tensor PrincipalComponent Analysis，NTPCA)将听觉特征张量转换成多个相互关联的子空间学习得到投影矩阵U_l(l＝1,2,3)。与传统的子空间学习方法相比，提取的张量特征可以表征说话人的不同特征，并保留有用的判别信息。利用时频子空间中的稀疏局部投影矩阵U将听觉特征转化为稀疏特征子空间，其中d为稀疏特征子空间的维数。听觉稀疏特征表示X_s通过以下转换获得：

X_s＝UX

非负张量主成分分析方法具体为：

X表示具有不同说话人特征构成的数据张量，U_k是通过交替投影过程计算的第k个投影矩阵。这里是r阶张量，

得到如下优化问题：

上述优化问题被分解为如下不同的优化子问题：

更进一步地，定义：

得到简化后的优化子问题为：

其中但是上述优化问题是一个凹二次规划，这是一个NP难题。因此，需要一个本地最大值来解决这个问题。因此，本发明给出u_lqp的函数来实现优化目标：

其中const和u_lqp不相关，并且：

设关于u_lqp的导数为零，得到三次函数：

计算的所述三次函数的非负根和零作为f(u_lqp)的非负全局最大值。

S3、降低所述稀疏矩阵的维度以生成最终的特征向量；

具体地，本发明对特征向量应用离散余弦变换(DCT)以减少维数和相关特征分量。

S4、基于稀疏表示分类器进行说话人确认。

稀疏表示中，对一个N维的信号用字典来(编码)表示时，给定一个K×N的矩阵D，如果N＞＞K，同时保证还能张成K维的欧式空间，则字典D是冗余的，也就是过完备的。

对一个N维的信号S用字典来(编码)表示时，给定一个K×N的矩阵D，这里的矩阵D的每一列表示冗余字典的原子，通常情况下N≥K，对一个信号S的稀疏分解需要解决的问题是找到一个N×1的向量γ使得S＝Dγ，向量γ的求解如下：

γ＝argmin_γ||γ||₀s.t.S＝Dγ

||·||₀表示l₀范数，它是通过计算向量γ里非零元素的个数得到的。l₁范数是指向量中各个元素绝对值之和，也被称作稀疏规则算子(Lasso regularization)，l₂范数，它是指向量各元素的平方和然后求平方根，通常会被用来做优化目标函数的正则化项，后面我们也会用到l₂范数)根据上式求解得到向量γ，但是直接解决这个欠定系统的最优稀疏解是一个NP难题。如果向量γ足够稀疏，那么l₀范数问题就变成了如下的l₁范数问题，即两者等价。

γ＝argmin_γ||γ||₁s.t.S＝Dγ

相对l₀范数而言，这个l₁范数比较容易通过数学方法解决。

在分类问题中，主要目标是正确地确定给定一组来自L个不同类别的标记训练样本的测试样本(S)的类别。首先，将来自第i类的l_i训练样本作为矩阵的列排列为矩阵如果S来自第i类，那么S将近似地位于D_i的训练样本的线性范围内：

由于在分类过程中测试样本的正确类别标识是未知的，所以新的矩阵D被定义为所有L类别的训练样本的级联：

然后S可以被重建为所有训练样本的线性组合S＝Dγ。

系数矢量也就是稀疏系数在使用求解方程S＝Dγ后，除了与第i类相关的条目外，其他条目大多为零。在这种情况下，稀疏系数的索引对测试样本S的标识进行编码，这些非零项就形成了稀疏系数向量ψ。

例如，用少量的3维数据创建一个示例矩阵D，D矩阵的列是表示6个不同的类。求解得到γ＝[0,0,-0.2499,0.8408,0,0.2136]，可知测试向量S属于类别4，但是稀疏系数向量在类别3和6的值也不为零。理想状态下，ψ只会与单个类别i的样本相关。但是噪声等会导致其他类别相关的非零输入。

但对于更为实际的分类任务，或者是每个类有多个实验训练样本的问题，可以根据与每个类的所有训练样本相关的系数重建S的程度来对S进行分类。而不是简单地将S分配给γ条目中最大值的类。对于每个类i，令为选择与第i类相关的系数的特征函数：

相应地，上述例子中，类别4的特征函数可写为δ₄(γ)＝[0,0,0,0.8408,0,0]^T。只是用第i类的相关系数，给定样本S可近似为然后将S分配给目标类别然后可得到S和的最小残差

由于过完备字典，高维超向量的稀疏表示需要大量内存，这会限制训练样本数量并可能减慢识别过程。因此本发明使用上述提取的特征代替i矢量作为SRC的特征向量进行说话人确认。

其基础结构和详细体系结构为：

D＝[D_tar D_bg]

过完备词典(D)由目标说话人(D_tar)和背景说话人(D_bg)的特征参数组成。在说话人确认的条件下，l_bg＞＞l_tar。l_bg和l_tar分别是来自背景说话人和目标说话人的话语数量。

来自未知说话者的测试话语(S)的特征参数被表示为该过度完整词典的线性组合，该过程被称为用于说话者识别的稀疏表示分类，如S＝Dγ。

实施例二

本实施例提供一种基于张量结构及稀疏表示的说话人确认系统，如图2所示，包括：

构建模块，用于构建听觉特征张量；

具体地，人耳可以很轻松地完成说话人识别任务，并且对噪声不敏感。在我们的特征提取框架中，我们通过模仿人恩在听觉外围和通路中执行的过程来获取频率选择性信息。

周边听觉系统(如基底膜)的频率选择性由一组耳蜗滤波器模拟。耳蜗滤波器组代表了沿耳蜗基底膜各个位置的频率选择性。一般会使用“Gammatone”滤波器组来模拟耳蜗基底膜，但本文使用“Gammachirp”滤波器，它具有以下形式的脉冲响应：

其中n是滤波器的顺序，N是滤波器的数量。对于第i个滤波器，b_i＝24.7+0.108f_i是听觉滤波器的等效矩形带宽(EBR)，φ_i是相位，a_i是常数。与GT滤波器相比，GC滤波器多了clnt这一项，c是一个额外的调频参数，并且f_i是非对称的频率，其值或随着c的改变而改变。由此GC滤波器克服了GT滤波器不能模拟基底膜的非对称性以及自身的强度依赖性等缺点。每个GC滤波器组的输出是：

转换模块，用于将所述听觉特征张量转换成稀疏矩阵；

X_s＝UX

非负张量主成分分析方法具体为：

得到如下优化问题：

上述优化问题被分解为如下不同的优化子问题：

更进一步地，定义：

得到简化后的优化子问题为：

其中const和u_lqp不相关，并且：

设关于u_lqp的导数为零，得到三次函数：

确认模块，基于稀疏表示分类器进行说话人确认。

对一个N维的信号S用字典来(编码)表示时，给定一个K×N的矩阵D，这里的矩阵D的每一列表示冗余字典的原子，通常情况下N≥K，对一个信号S的稀疏分解需要解决的问题是找到一个N×1的向量γ使得S＝D_γ，向量γ的求解如下：

γ＝argmin_γ||γ||₀s.t.S＝Dγ

γ＝argmin_γ||γ||₁s.t.S＝Dγ

然后S可以被重建为所有训练样本的线性组合S＝Dγ。

其基础结构和详细体系结构为：

D＝[D_tar D_bg]

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于张量结构及稀疏表示的说话人确认方法，其特征在于，包括步骤：

S1、构建听觉特征张量；

S2、将所述听觉特征张量转换成稀疏矩阵；

S3、降低所述稀疏矩阵的维度以生成最终的特征向量；

S4、基于稀疏表示分类器进行说话人确认。

2.根据权利要求1所述的说话人确认方法，其特征在于，所述步骤S1包括：通过仿真人耳的听觉系统来处理语音信号得到其功率谱图。

3.根据权利要求1所述的说话人确认方法，其特征在于，通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。

4.根据权利要求1所述的说话人确认方法，其特征在于，通过离散余弦变换降低所述稀疏矩阵的维度。

5.根据权利要求4所述的说话人确认方法，其特征在于，所述步骤S4中将提取的特征代替i矢量作为稀疏表示分类器的特征向量。

6.一种基于张量结构及稀疏表示的说话人确认系统，其特征在于，包括：

构建模块，用于构建听觉特征张量；

转换模块，用于将所述听觉特征张量转换成稀疏矩阵；

确认模块，基于稀疏表示分类器进行说话人确认。

7.根据权利要求6所述的说话人确认系统，其特征在于，所述构建模块包括：通过仿真人耳的听觉系统来处理语音信号得到其功率谱图。

8.根据权利要求6所述的说话人确认系统，其特征在于，通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。

9.根据权利要求6所述的说话人确认系统，其特征在于，通过离散余弦变换降低所述稀疏矩阵的维度。

10.根据权利要求9所述的说话人确认系统，其特征在于，所述确认模块将提取的特征代替i矢量作为稀疏表示分类器的特征向量。