CN111081261A

CN111081261A - 一种基于lda的文本无关声纹识别方法

Info

Publication number: CN111081261A
Application number: CN201911356454.1A
Authority: CN
Inventors: 贺前华; 吴克乾; 危卓
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-04-28
Anticipated expiration: 2039-12-25
Also published as: CN111081261B

Abstract

本发明涉及一种基于LDA的文本无关声纹识别方法，包括：S1，提取待识别语音样本的声学特征序列，计算所述声学特征序列在预先构建的声学特征分布空间中的分布特征矢量；S2，对所述分布特征矢量进行模规整，使用LDA对模规整后的分布特征矢量进行降维；S3，计算降维后的分布特征矢量与预先构建的基于模规整和LDA映射分布特征的文本无关说话人声纹模型之间的似然度，将似然度最大的文本无关说话人声纹模型对应的声纹作为识别结果。本发明使用LDA对待识别语音以及语音样本的分布特征矢量中的文本内容信息进行补偿，减少文本内容不同带来的干扰。

Description

一种基于LDA的文本无关声纹识别方法

技术领域

本发明涉及说话人声音识别技术领域，特别是涉及一种基于LDA的文本无关声纹识别方法。

背景技术

说话人识别，又称声纹识别，指的是利用机器学习和模式识别等相关方法，提取语音信号中说话人的信息，对说话人身份进行鉴别的技术。在过去的几十年中，说话人识别技术快速的发展，在司法、智能家居、多媒体信息处理等领域都得到了运用，具有非常重要而广泛的前景。说话人识别利用语音信号进行身份识别，具有人机交互自然、语音信号易于提取、可实现远程识别等优势。

根据识别内容，说话人识别问题可以分成两类：文本相关说话人识别和文本无关说话人识别。文本相关的说话人识别要求用户在注册时按照规定的文本发音，为每个说话人建立精确的基于音素或单词的模型，识别时也要求用户按照规定的文本进行发音，这种约束条件下一般可以答到较好的识别效果，但是需要用户的主动配合。文本无关的说话人识别不规定说话人发音的文本内容，因此特征提取和模型建立相对困难，但是不需要太多的约束用户，使用方便，具有更广的应用范围。现有的说话人识别技术主要有两大类，一类是基于统计模型，如混合高斯模型GMM、GMM-UBM、 ivector、MFCC等，比如：论文《Front-EndFactor Analysis for Speaker Verification》中提到的方法，具有较高的计算复杂度并且没有考虑语音中文本内容带来的影响；另一类是基于深度神经网络的方法，如CNN、RNN等，比如：谷歌公司的论文《X VECTORS:ROBUST DNN EMBEDDINGS FOR SPEAKERRECOGNITION》中使用神经网络对语音提取说话人特征，但是神经网络的训练需要大量的有标注语音样本，而且深度神经网络方法缺乏解释性，对于说话人特征中的文本内容信息没有进行解释。

发明内容

针对现有技术存在的没有考虑语音中文本内容差异带来的影响的问题，本发明提供一种基于LDA的文本无关声纹识别方法。

本申请的具体方案如下：

一种基于LDA的文本无关声纹识别方法，包括：

S1，提取待识别语音样本的声学特征序列，计算所述声学特征序列在预先构建的声学特征分布空间Ω₁中的分布特征矢量；

S2，对所述分布特征矢量进行模规整，使用LDA对模规整后的分布特征矢量进行降维；

S3，计算降维后的分布特征矢量与预先构建的基于模规整和LDA映射分布特征的文本无关说话人声纹模型之间的似然度，将似然度最大的文本无关说话人声纹模型对应的声纹作为识别结果。

优选地，构建基于模规整和LDA映射分布特征的文本无关说话人声纹模型的步骤包括：

S21，采集S个目标说话人的语音，同一个说话人采集N段非特定文本的语音样本，提取每段语音的声学特征；S>2，N>2；

S22，计算每段声学特征在声学特征分布空间Ω₁中的分布特征矢量，对所述分布特征矢量进行模规整；

S23，使用LDA对模规整后的分布特征矢量进行降维，

S24，使用单高斯分布作为同一个说话人的降维后的P个分布特征矢量的经验分布模型，得到文本无关说话人声纹模型；P>2。

优选地，步骤S21包括：获取S个说话人的经过语音活动检测的注册语音，从每段长时间的注册语音中截取N次，得到N段非特定文本的语音样本，每次的截取长度为c秒，每段语音的文本是任意的内容。

优选地，在步骤S22中，计算得到S×N个分布特征矢量L_s,n：

其中，s表示说话人的编号，n表示语音段的编号，K表示分布特征矢量的维度；

对所述分布特征矢量进行模规整的步骤包括：

将每个分布特征矢量的模规整到统一的常数Len：

求出规整后的分布特征矢量集{L′_s，n}的平均值：

将每个分布特征矢量上减去平均值得到模规整后的分布特征矢量：

L”_s,n＝L’_s,n-V

其中，模规整保留单个音频分布特征矢量在空间分布中的独特性，去掉音频分布的相似性。

优选地，在步骤S23中，使用LDA对模规整后的分布特征矢量进行降维的公式为：

L”’_s,n＝L”_s,n×Mat

其中，Mat降维矩阵的维度为K×J。

优选地，步骤S24包括：

一个说话人的N个K维分布特征矢量，经过降维后得到N个J维的分布特征矢量，用一个J维的单高斯分布来表示N个J维的分布特征矢量的经验分布，将这个单高斯分布作为该说话人的文本无关声纹模型：

其中，μ_s表示第s个人的N个分布特征矢量的均值矢量，

表示第s个人的N个分布特征矢量的方差矢量。

优选地，步骤S3中计算得到的分布特征矢量为：

经过模规整后的分布特征矢量为：

L”_x＝L’_x-V

步骤S4中使用LDA对模规整后的分布特征矢量进行降维后得到：

L”’_x＝L”_x×Mat。

优选地，步骤S5包括：计算J维分布特征矢量L”’_x与每个说话人文本无关声纹模型mod_s的评分score_s，选择评分最高的文本无关声纹模型mod_s对应的声纹作为识别结果：

优选地，预先构建声学特征分布空间Ω₁包括：使用无说话人标注的语音构建声学特征分布空间Ω₁，其中声学特征分布空间Ω₁为：

Ω₁＝{g_i,i＝1,2,...,K}

其中，g_i表示特征分布空间中的标识子。

优选地，所述无说话人标注的语音来自aishell中文语料库中的说话人语音数据，aishell中文语料库中一共包含400个说话人，选择每个人的 60个wav文件用来训练声学特征分布空间Ω₁，提取非特定文本的语音样本的12维MFCC特征，训练一个混合度为K的GMM，保留每个高斯分量作为语音特征空间的标识子集合Ω₁＝{g_i,i＝1,2,...,K}，其中，K为特征空间标识子的数量，标识子数量K选择4096。

与现有技术相比，本发明具有如下有益效果：

本发明通过对分布特征矢量进行模规整，使用LDA对模规整后的分布特征矢量进行降维(映射)，使用LDA对待识别语音以及语音样本的分布特征矢量中的文本内容信息进行补偿，减少文本内容不同带来的干扰，同时，对于每个人的多个样本的分布特征矢量，采用经验分布建模的方式，比计算余弦距离的判决准则，具有更好的识别效果，解决了说话人识别中语音文本内容不一致的问题。具体如下：

(1)、本发明提供的一种基于LDA的文本无关声纹识别方法，其中，一个语音样本的分布特征矢量包含说话人的特征与文本内容信息的特征，同一个人的语音属于同一个类，其中不同样本的文本内容信息是不同，利用LDA矩阵映射后，同一个人的分布特征矢量之间的间距变小，减少了文本内容差异带来的干扰；同时不同说话人的分布特征矢量间距变大，突显了不同说话人之间的区分性。通过LDA映射，能够提取出与文本无关的说话人分布特征矢量，实现对分布特征矢量中的文本内容信息进行补偿，降低了其与特定文本的关联度，在现有方法中，使用MFCC作为特征，通过LBG算法得到特征的量化码本及说话人模型，对待识别样本的MFCC 特征序列进行矢量量化后计算与说话人模型的评分，没有考虑语音样本中文本内容差异带来的影响，本方法通过LDA映射，解决了此问题。

(2)、本发明提供的一种基于LDA的文本无关声纹识别方法，其中，模规整保留单个音频分布特征矢量在空间分布中的独特性，去掉音频分布特征的相似性，语音的分布特征矢量是分布在整个特征空间中的，它们之间存在着一定的相似性，通过模规整的方法，减少语音分布特征矢量中存在的共性，对比不使用模规整的建模方法，经过模规整后具有更好的识别效果。

(3)、本发明提供的一种基于LDA的文本无关声纹识别方法，其中，单高斯分布用来作为经验分布，对说话人的文本无关声纹模型进行表达，在已有方法中，将说话人的多个分布特征矢量求取平均矢量作为说话人的模型，或者将说话人的多个分布特征矢量当做多模型，对异常的分布特征矢量比较敏感，异常的分布特征矢量容易造成错误的识别，使用单高斯分布作为说话人特征经验分布的表达，能够解决这个问题，具有更好的识别效果。

附图说明

图1为本发明的基于LDA的文本无关声纹识别方法的示意性流程图；

图2为本发明的构建多个基于模规整和LDA映射分布特征的文本无关说话人声纹模型的示意性流程图；

图3为本发明的模规整及LDA映射的步骤流程图。

图4为本发明实施例中对待识别语音进行特征提取并识别的步骤流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

在实施本方案进行文本无关声纹识别之前，需要预先构建声学特征分布空间Ω₁和多个基于模规整和LDA映射分布特征的文本无关说话人声纹模型。其中构建声学特征分布空间Ω₁的步骤包括：

使用无说话人标注的语音构建声学特征分布空间Ω₁，构建语音特征空间Ω₁的过程中，使用任何纯净语音样本，采用K-means或其它聚类方法将语音特征样本在特征空间进行聚类，本实施例所述语音特征空间分布Ω₁＝{g_i,i＝1,2,...,K}使用高斯分布函数作为特征空间的标识子。

其中，g_i表示特征分布空间中的标识子。在本实施例，所述无说话人标注的语音来自aishell中文语料库中的说话人语音数据，aishell中文语料库中一共包含400个说话人，选择每个人的60个wav文件用来训练声学特征分布空间Ω₁，提取非特定文本的语音样本的12维MFCC特征，训练一个混合度为K的GMM，保留每个高斯分量作为语音特征空间的标识子集合Ω₁＝{g_i,i＝1,2,...,K}，其中，K为特征空间标识子的数量，标识子数量 K选择4096。

参见图2-3，构建基于模规整和LDA映射分布特征的文本无关说话人声纹模型的步骤包括：

S21，采集S个目标说话人的语音(说话人注册语音或者预先采集的非目标说话人集的有标注语音)，同一个说话人采集N段非特定文本的语音样本，提取每段语音的声学特征；S>2，N>2；具体地，步骤S21包括：获取S个说话人的经过语音活动检测的注册语音，从每段长时间的注册语音中截取N次，得到N段非特定文本的语音样本，每次的截取长度为c秒，每段语音的文本是任意的内容。在本实施例，每个目标说话人的语音时长 120秒，经过语音活动检测，从语音部分中截取15次，每次包含5秒长度的语音。提取这些语音样本的12维MFCC特征(声学特征的其中一个特征)，计算语音样本在特征空间中的分布特征矢量，将这些分布特征矢量进行模规整，然后通过LDA矩阵进行映射，得到每个说话人的15个文本无关的分布特征矢量，计算这15个分布特征矢量的均值矢量和方差矢量，用单高斯分布来作为它们的经验分布表示，单高斯分布即是该说话人的文本无关声纹模型。

S22，计算每段声学特征在声学特征分布空间Ω₁中的分布特征矢量，对所述分布特征矢量进行模规整；一共400个目标说话人，每个说话人15 个分布特征矢量，对分布特征矢量进行模规整。具体地，在步骤S22中，计算得到S×N个分布特征矢量L_s,n：

如图3所示，对所述分布特征矢量进行模规整的步骤包括：

将每个分布特征矢量的模规整到统一的常数Len：

求出规整后的分布特征矢量集{L′_s，n}的平均值：

L”_s,n＝L’_s,n-V

其中Len选取20，模规整保留单个音频分布特征矢量在空间分布中的独特性，去掉音频分布的相似性。

S23，使用LDA对模规整后的分布特征矢量进行降维，一个语音样本的分布特征矢量包含说话人的特征与文本内容信息的特征，利用LDA映射矩阵，对分布特征矢量进行映射，实现对分布特征矢量中的文本内容信息进行补偿，降低其与特定文本的关联度。具体地，在步骤S23中，使用 LDA对模规整后的分布特征矢量进行降维的公式为：

L”’_s,n＝L”_s,n×Mat

其中，Mat降维矩阵的维度为K×J；LDA投影矩阵(Mat)能够使得投影后同类样本间距离尽可能地小，不同类样本间距离尽可能地大，利用该特性，同一个人的语音样本的分布特征矢量包含该说话人的特征与文本内容的特征，其中的文本内容特征是不同，经过映射后，同一个人的分布特征矢量之间的间距变小，减少了文本内容差异带来的干扰；不同说话人的分布特征矢量间距变大，强化了不同说话人之间的区别。通过LDA映射，提取出了与文本无关的说话人分布特征矢量。

用于训练矩阵Mat的数据来自于：

根据S×N个经过了模规整的分布特征矢量及相应的说话人标注，计算映射矩阵Mat；这些数据来自目标说话人集，可以直接用来训练映射矩阵 Mat；

或者根据有说话人标注的语音得到模规整后的分布特征矢量，计算模规整后的分布特征矢量的映射矩阵Mat，这些数据中的说话人与目标说话人不相同，需要额外多一些说话人的数据来训练映射矩阵，其中，已标注说话人的人数为目标说话人集人数的3倍以上。

得到经过了模规整的分布特征矢量，及其相应的说话人标签(说话人标注)，计算每个说话人分布特征矢量的类内散度矩阵：

其中，L″表示模规整后的分布特征矢量，L″_i，j表示第i个说话人的第j 个分布特征矢量，C表示共有C个说话人，μ_i表示第i个说话人的分布特征矢量的均值，M_i表示第i个说话人的分布特征矢量的个数。

计算不同说话人分布特征矢量的类间散度矩阵：

其中，C表示共有C个说话人，μ_i表示第i个说话人的分布特征矢量的均值，μ表示所有分布特征矢量的均值，在这里μ＝0。

得到优化目标为S_w和S_b的广义瑞利商：

通过拉格朗日乘子法求解ω，得到特征值和特征向量，将特征向量构成映射矩阵Mat。

对分布特征矢量进行LDA映射，得到文本无关的分布特征矢量：

L”’_s,n＝L”_s,n×Mat

S24，使用单高斯分布作为同一个说话人的降维后的P个分布特征矢量的经验分布模型，得到文本无关说话人声纹模型；P>2。具体地，步骤 S24包括：一个说话人的N个K维分布特征矢量，经过降维后得到N个J维的分布特征矢量，用一个J维的单高斯分布来表示N个J维的分布特征矢量的经验分布，将这个单高斯分布作为该说话人的文本无关声纹模型：

其中，μ_s表示第s个人的N个分布特征矢量的均值矢量，

表示第s个人的N个分布特征矢量的方差矢量。使用单高斯分布作为经验分布比多个分布知识矢量求平均值或者多个分布知识矢量作为多模型具有更好的表达效果。

基于上述已经构建的声学特征分布空间Ω₁和多个文本无关说话人声纹模型，在本实施例，参见图1和4、一种基于LDA的文本无关声纹识别方法，包括：

S1，提取待识别语音样本的声学特征序列，计算所述声学特征序列在预先构建的声学特征分布空间Ω₁中的分布特征矢量；在本实施例，计算待识别语音样本的12维MFCC特征，通过语音特征空间分布Ω₁＝{g_i,i＝1,2,...,K}，求出待识别语音的分布特征矢量：步骤S1中计算得到的分布特征矢量为：

S2，对所述分布特征矢量进行模规整，使用LDA对模规整后的分布特征矢量进行降维；将4096维的矢量用投影矩阵Mat映射到399维。经过模规整后的分布特征矢量为：

L”_X＝L’_X-V

步骤S2中使用LDA对模规整后的分布特征矢量进行降维后得到：

L”’_x＝L”_x×Mat。

S3，计算降维后的分布特征矢量与预先构建的基于模规整和LDA映射分布特征的文本无关说话人声纹模型(来自目标说话人模型集合)之间的似然度，将似然度最大的文本无关说话人声纹模型对应的声纹作为识别结果。具体地，步骤S3包括：

计算399维分布特征矢量L”’_x与每个说话人文本无关声纹模型mod_s的评分score_s，选择评分最高的文本无关声纹模型mod_s对应的声纹作为识别结果：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于LDA的文本无关声纹识别方法，其特征在于，包括：

2.根据权利要求1所述的基于LDA的文本无关声纹识别方法，其特征在于，构建基于模规整和LDA映射分布特征的文本无关说话人声纹模型的步骤包括：

S23，使用LDA对模规整后的分布特征矢量进行降维，

3.根据权利要求2所述的基于LDA的文本无关声纹识别方法，其特征在于，步骤S21包括：获取S个说话人的经过语音活动检测的注册语音，从每段长时间的注册语音中截取N次，得到N段非特定文本的语音样本，每次的截取长度为c秒，每段语音的文本是任意的内容。

4.根据权利要求3所述的基于LDA的文本无关声纹识别方法，其特征在于，在步骤S22中，计算得到S×N个分布特征矢量L_s,n：

对所述分布特征矢量进行模规整的步骤包括：

将每个分布特征矢量的模规整到统一的常数Len：

求出规整后的分布特征矢量集{L′_s，n}的平均值：

L”_s,n＝L’_s,n-V

5.根据权利要求4所述的基于LDA的文本无关声纹识别方法，其特征在于，在步骤S23中，使用LDA对模规整后的分布特征矢量进行降维的公式为：

L”’_s,n＝L”_s,n×Mat

其中，Mat降维矩阵的维度为K×J。

6.根据权利要求5所述的基于LDA的文本无关声纹识别方法，其特征在于，步骤S24包括：

其中，μ_s表示第s个人的N个分布特征矢量的均值矢量，

表示第s个人的N个分布特征矢量的方差矢量。

7.根据权利要求6所述的基于LDA的文本无关声纹识别方法，其特征在于，步骤S3中计算得到的分布特征矢量为：

经过模规整后的分布特征矢量为：

L”_x＝L’_x-V

L”’_x＝L”_x×Mat。

8.根据权利要求7所述的基于LDA的文本无关声纹识别方法，其特征在于，步骤S5包括：

计算J维分布特征矢量L”’_x与每个说话人文本无关声纹模型mod_s的评分score_s，选择评分最高的文本无关声纹模型mod_s对应的声纹作为识别结果：

9.根据权利要求1所述的基于LDA的文本无关声纹识别方法，其特征在于，预先构建声学特征分布空间Ω₁包括：

使用无说话人标注的语音构建声学特征分布空间Ω₁，其中声学特征分布空间Ω₁为：

Ω₁＝{g_i,i＝1,2,...,K}

其中，g_i表示特征分布空间中的标识子。

10.根据权利要求9所述的基于LDA的文本无关声纹识别方法，其特征在于，所述无说话人标注的语音来自aishell中文语料库中的说话人语音数据，aishell中文语料库中一共包含400个说话人，选择每个人的60个wav文件用来训练声学特征分布空间Ω₁，提取非特定文本的语音样本的12维MFCC特征，训练一个混合度为K的GMM，保留每个高斯分量作为语音特征空间的标识子集合Ω₁＝{g_i,i＝1,2,...,K}，其中，K为特征空间标识子的数量，标识子数量K选择4096。