CN111462729A

CN111462729A - 基于音素对数似然比和稀疏表征的快速语种识别方法

Info

Publication number: CN111462729A
Application number: CN202010244101.9A
Authority: CN
Inventors: 刘文龙; 江海; 王化; 刘俊南
Original assignee: Innomicro Technology Tianjin Co Ltd
Current assignee: Innomicro Technology Tianjin Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111462729B

Abstract

本发明公开了一种基于音素对数似然比和稀疏表征的快速语种识别方法，计算输入给定语音信号的音素对数似然概率特征，基于该特征利用通过稀疏表征方法改进的快速语种识别系统确定所述给定语音信号所属的语种。与现有技术相比，本发明1)可以压缩系统模型，更加便利适配于各种运算和存储受限的设备需要；2)提升系统的鲁棒性；3)能够快速实现所属的语种的智能识别。

Description

基于音素对数似然比和稀疏表征的快速语种识别方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种基于语音技术的语种识别方法。

背景技术

随着科技的高速发展，信息的快速流通和交互越来越便利，但在便利的同时又带来了某些负面影响，如何保证信息安全是一个新挑战。我国是一个多民族的国家，对于不同语种依靠人力很难分析，而语种识别技术的出现为这个问题的解决提供了新的思路。语种识别是语音识别领域的一个重要分支，是计算机分析处理一段语音自动判别其所属语言类别的技术。

传统的语种识别技术包括语音信号检测和预处理、语音信号特征提取、声学模型以及判别模型等等。其中，1)语音信号检测和预处理是为了对语音信号数据进行前端预处理，包括去除背景静音和去除背景噪音两部分，其中去除背景静音采用的技术有基于SNR(信噪比)的VAD(噪音检测)方法、基于GMM(混合高斯模型)的VAD(噪音检测)方法等；去除背景噪音有小波去噪算法、基于深度学习的语音去噪算法等。2)语音信号特征提取是对语音信号进行提取数字特征以便计算机方便处理，一般有采用传统的MFCC(梅尔频率倒谱系数)特征、Fbank(滤波器组)特征以及基于深度神经网络音素识别器提取特征的方法等。3)声学模型是最关键的，有传统GMM-HMM(混合高斯模型-隐马尔可夫模型)、HMM-DNN(隐马尔可夫模型-深度神经网络模型)等。判别模型是对待识别的信息进行判别，有GMM-UBM(混合高斯模型-通用背景模型)模型、I-vector(辨别矢量)模型、PLDA(概率线性判别分析法)模型以及稀疏表征等。

现有技术中，在语种识别中的语音信号特征提取常采用MFCC(梅尔频率倒谱系数)或FBank(滤波器组)等方法，这些方法在理想环境下能取得较好效果，对于复杂环境的鲁棒性不是很好。

基于传统的语种识别往往对设备的计算和存储的要求较高，不利于普及的缺陷，因此需要新方法改进这个缺陷以便更好地适用于各种复杂环境。目前的现状是迫切需要提出改进的语种识别技术降低运算复杂度，以便适配各种设备。

发明内容

为了解决复杂环境的影响以及更加便利适配于各种运算和存储受限的设备需要，本发明提出一种基于音素对数似然比和稀疏表征的快速语种识别方法，首先在特征提取的阶段计算输入给定语音信号的音素对数似然概率特征，提升系统的鲁棒性，其次利用基于稀疏表征方法改进的快速语种识别系统的性能，使其达到给定语音信号，从而快速识别所属的语种。

本发明的一种基于音素对数似然比和稀疏表征的快速语种识别方法，该方法包括以下步骤：

步骤1、预处理：对作为训练数据集和测试数据集的输入语音数据进行预处理，包括特征提取、基于SNR(信噪比)的静音检测以及混合多环境混响的语音增强，本步骤具体包括以下处理：

1-1、通过对接收的输入语音信号提取声学特征，所述声学特征包括MFCC特征、FilterBank特征或PLP特征其中的任意一种；

1-2、对输入系统的训练和测试的语音数据进行基于信噪比SNR的静音检测处理，实现去除音频信号中的非语音段；

1-3、基于深度学习的噪声注入语音增强方法消除音频中的各类背景噪声；

步骤2、对经预处理模块后的语音信号通过音素识别器提取帧级别的音素后验概率向量；本步骤又包含如下两个步骤：

2-1、通过HMM-DNN模型将大量语料训练成提取语音音素对数似然比的音素识别器，得到如声学层特征类似的帧级别的特征，具体方法如下：

2-1-1、首先对该语料训练集提取声学特征；

2-1-2、然后对声学特征进行FMLLR变换训练出FMLLR模型，模型特征变换公式如下：

x^*＝Ax+b；

其中，x^*表示特征变换N维均值矢量，A表示N×N的线性变换矩阵，b表示偏移量；

2-1-3、根据FMLLR(特征空间极大似然估计线性回归)模型进行声学特征解码，并对解码结果与输入标签进行强制特征对齐；

2-1-4、利用对齐数据训练出HMM-DNN模型；

2-2、提取输入的语音信号特征，该特征是帧级别的音素后验概率向量，设每一帧识别为一个k维的音素后验概率向量[p(1),p(2),p(3),…,p(k)]，并对该向量做规整操作获得每个音素后验概率的对数似然比，也就是PLLR特征向量，其公式如下：

其中，p(k)表示音素后验概率；

步骤3、利用GMM-UBM模型对数据集进行训练，具体训练方法如下：

3-1、利用训练语料拟合一个基于混合高斯模型的通用背景模型，即GMM-UBM模型，其公式如下：

其中，下标k统一代表第k个高斯分量模型，x_j表示第j个N维的观测数据特征矢量，w_k表示第k个高斯分量的混合权重，p(x_j|μ_k,Σ_k)表示第j个N维的观测数据特征矢量的第k个高斯分量的高斯函数，u_k表示第k维高斯均值，

表示第k个分模型的协方差平方，w_k表示第k个高斯分量的混合权重；

3-2、然后通过最大后验概率算法自适应后得到一个与说话人无关的特征分布，将UBM的每个高斯分布向目标语种实际数据进行微调，使用EM算法；

3-3、通过EM算法迭代优化隐藏参数从而训练得到GMM-UBM模型，其参数更新步骤如下：

依据3-1的高斯混合模型参数，计算分模型k对观测数据x^(j)的响应度，如下式所示：

更新高斯混合模型参数，参数更新公式如下所示：

其中，下标k统一代表第k个高斯分量模型，γ_jk表示第j个N维的观测数据特征矢量的第k个分模型对观测数据的响应强度；

步骤4、得到输入的不同语种语音信号的固定维数的低维空间矢量，即I-vector辨别矢量，该步骤具体又包含如下两个步骤：

4-1、进行I-vector特征训练，具体包括：利用UBM模型通过MAP自适应的方法获得训练语音PLLR特征样本的混合高斯超向量，然后通过Baum-Welch算法参数估计方法计算全差异空间矩阵，得到I-vector提取器，其中Baum-Welch算法需要估计参数公式如下：

M＝m+Tw

其中，T表示总变化矩阵，w表示符合高斯分布的隐变量i-vector，M表示通过高斯混合模型-通用背景模型计算的均值超矢量；

4-2、进行I-vector特征提取，具体包括：使用I-vector提取器对待识别语音的PLLR特征提取更具有辨别性质的I-vector特征的训练集和待识别集；

步骤5、生成PLDA模型，以消除I-vector特征空间中信道信息的影响，将I-vector特征分解为语音信号以及随机背景噪声后得到其PLDA模型，公式为：

其中，u表示所有I-vector(辨别矢量)向量的均值，β_i表示第i个说话人的辨别因子，满足标准正太分布N(0,I)，矩阵

表示指定维度的说话人子空间，ε_ij表示包含信道影响的残差；

步骤6、通过字典学习的稀疏表征方式对I-vector特征进行处理，得到更有辨别区分度的信息，进一步去除了环境噪音以及信道的影响，具体包含以下处理：

6-1、对I-vector(辨别矢量)的训练集和待识别集数据进行特征处理和信道补偿，得到所需的不同语种的I-vector(辨别矢量)训练集以及需要识别的数据；

6-2、执行k-svd字典学习流程，将语音特征向量分解成字典和其对应的稀疏矩阵，令字典D∈R^a×b，训练信号的稀疏表示系数向量X∈R^b和训练信号X∈R^a，

为N个训练特征的集合，

为Y的解向量的集合，也就是稀疏矩阵，目标函数公式为：

基于k-svd(K阶奇异值分解)算法，利用I-vector特征的训练集数据得到各自语种的k-svd学习字典，然后对每个字典抽取固定维度特征进行结合生成多个k-svd混合字典；

6-3、执行稀疏表示流程，利用训练好的字典去稀疏表示语音信号y＝Dα，其中y表示待识别语音的特征参数，D表示k-svd(K阶奇异值分解)混合字典，α表示稀疏系数；

利用多个k-svd(混合字典将待测说话人语音提取的I-vector特征表示为字典中原子的线性组合，根据稀疏表征系数来对信号重新结合，根据结合信号和原始信号之间的余弦残差，决定待测语音信号所属的类别，通过字典学习的稀疏表征方式对I-vector特征进行处理，得到更有辨别区分度的信息，提取出更具有划分程度的向量特征；

步骤7、使用boosting算法对PLDA模块分类器和稀疏表征模块分类器进行融合操作，生成一个新分类器，该分类器对处理后的待识别语音信号经过预处理、PLLR、I-vector以及融合后得到的特征作为输入，输出有关语种信息的分类结果。

与现有技术相比，本发明的基于音素对数似然比和稀疏表征的快速语种识别方法具有以下积极的技术效果：

1、可以压缩系统模型，更加便利适配于各种运算和存储受限的设备需要

2、提升系统的鲁棒性；

3、能够快速实现所属的语种的智能识别。

附图说明

图1为本发明的基于音素对数似然比和稀疏表征的快速语种识别系统及方法整体流程示意图；

图2为基于深度学习的噪声注入语音增强方法流程示意图；

图3为音素识别器训练流程示意图；

图4为HMM-DNN训练结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述，下列实施例仅用于解释本发明的发明内容，不用于限定本发明的保护范围。

如图1所示，本发明的基于音素对数似然比和稀疏表征的快速语种识别系统及方法。

本发明的基于音素对数似然比和稀疏表征的快速语种识别系统，该系统包括训练样本集和测试样本集的输入语音数据、预处理模块、PLLR(音素对数似然比)模块、GMM-UBM(混合高斯模型-通用背景模型)模块、I-vector(辨别矢量)模块、PLDA(概率线性判别分析法)模块、PLDA(概率线性判别分析法)模块、稀疏表征模块、融合算法模块、输出模块，其中：

所述预处理模块，用于对系统输入的训练和测试的语音数据进行前端预处理；

所述PLLR(音素对数似然比)模块，对经预处理模块后的语音信号特征通过音素识别器提取帧级别的音素后验概率向量；

所述GMM-UBM(混合高斯模型-通用背景模型)模块，用于利用各种信道、不同语种的大量语音数据去训练出一个稳定的和说话人和信道均无关的高阶GMM-UBM(混合高斯模型-通用背景模型)模型；

所述I-vector(辨别矢量)模块，用于获得不同语种的更加具有辨别特征的固定维数的低维空间矢量；

所述PLDA(概率线性判别分析法)模块，用于消除I-vector(辨别矢量)特征空间中信道信息的影响；

所述稀疏表征模块，用于通过字典学习的稀疏表征方式对I-vector(辨别矢量)特征进行处理，得到更有辨别区分度的信息，更重要的是该模块还可以压缩系统模型；

所述融合算法模块，利用Boosting(提升法)融合算法的弱分类思想构造的弱分类器实现对多个模型计算的结果进行融合；

输出模块，用于融合弱分类器进行分类判定，输出待识别的语音信号所属语种，作为辨别结果。

本发明的基于音素对数似然比和稀疏表征的快速语种识别方法，计算输入给定语音信号的音素对数似然概率特征，基于该特征利用通过稀疏表征方法改进的快速语种识别系统确定所述给定语音信号所属的语种。具体包括如下步骤：

步骤1、预处理：对作为训练数据集和测试数据集的输入语音数据进行预处理，包括特征提取、基于SNR(信噪比)的静音检测以及混合多环境混响的语音增强，静音检测是通过EM算法迭代训练获得可以划分静音与有消音的GMM(混合高斯模型)模型，本步骤具体包括以下处理：

1-2、对输入系统的训练和测试的语音数据进行基于SNR(信噪比)的静音检测处理，实现去除音频信号中的非语音段；

1-3、采用先进的人工智能算法可以极大消除音频中的各类背景噪声，如图2所示，为基于深度学习的噪声注入语音增强方法流程示意图。并且可以通过对纯净数据集增加各种噪声以扩充训练集数量和各种情况，以此通过使用深度神经网络来学习一个含噪语音到干净语音的非线性函数，以便达到去噪或者去混响的目的。更确切地说，注入了噪声的训练可以使目标函数得到对输入变化更不敏感的最优解；

步骤2、对经预处理模块后的语音信号通过音素识别器提取帧级别的音素后验概率向量；利用如图3所示的PLLR(音素对数似然比)模块流程示意图，本步骤又包含如下两个步骤：

2-1、PLLR(音素对数似然比)训练子模块，通过HMM-DNN(隐马尔可夫模型-深度神经网络模型)将大量语料训练成提取语音音素对数似然比的音素识别器，该音素识别器将语音信号识别为帧级的音素后验概率向量，而且无需解码出音素序列，而是将这些音素后验概率向量经过一系列变换处理，得到如声学层特征类似的帧级别的特征。该特征既拥有高于声学层和音素层的语种鉴别性信息，又可以利用声学层优秀的建模方法。如图4所示，为本发明所使用的HMM-DNN(隐马尔可夫模型-深度神经网络)结构示意图。音素识别器可以使用主流的语种进行训练，训练出来的音素识别器在使用上有着不受语种限制的优势。本发明实施例利用librispeech开源语料训练PLLR(音素对数似然比)，具体方法如下：

2-1-1、首先对该语料训练集提取声学特征；

2-1-2、然后对声学特征进行FMLLR(特征空间极大似然估计线性回归)变换训练出来基于GMM的FMLLR(特征空间极大似然估计线性回归)模型，模型特征变换公式如下：

x^*＝Ax+b；

2-1-3、根据FMLLR模型进行声学特征解码，并对解码结果与输入标签进行强制特征对齐；

2-1-4、利用对齐数据训练出HMM-DNN(隐马尔可夫模型-深度)模型；

2-2、提取输入的语音信号特征，该特征是帧级别的音素后验概率向量，设每一帧识别为一个k维的音素后验概率向量[p(1),p(2),p(3),…,p(k)]，并对该向量做规整操作获得每个音素后验概率的对数似然比，也就是PLLR(音素对数似然比)特征向量；

步骤3、利用GMM-UBM(混合高斯模型-通用背景)模型对数据集进行训练，该模型是一个稳定的高阶模型(和说话人和信道均无关)，能够有效地解决GMM(混合高斯模型)由于训练语音不足导致的问题，具体训练方法如下：

3-1、其中，下标k统一代表第k个高斯分量模型，x_j表示第j个N维的观测数据特征矢量，w_k表示第k个高斯分量的混合权重，p(x_j|μ_k,Σ_k)表示第j个N维的观测数据特征矢量的第k个高斯分量的高斯函数，u_k表示第k维高斯均值，

3-3、通过EM算法迭代优化隐藏参数从而训练得到GMM-UBM模型，GMM-UBM模型是一个高阶的GMM(混合高斯模型)，维度通常能够达到1024-4096；

其参数更新步骤如下：

更新高斯混合模型参数，参数更新公式如下所示：

步骤4、得到输入的不同语种语音信号的固定维数的低维空间矢量，即I-vector辨别矢量(根据该矢量认为说话人和信道的影响都包含在一个总变化空间T中)，该步骤具体包含如下两个步骤：

4-1、进行I-vector(辨别矢量)训练，具体包括：利用UBM(通用背景)模型通过MAP自适应的方法获得训练语音PLLR(音素对数似然比)特征样本的混合高斯超向量，然后通过Baum-Welch(前向-后向算法)参数估计方法计算全差异空间矩阵，得到I-vector(辨别矢量)提取器，其中Baum-Welch算法需要估计参数公式如下：

M＝m+Tw

4-2、进行I-vector(辨别矢量)提取，具体包括：使用I-vector(辨别矢量)提取器对待识别语音的PLLR(音素对数似然比)特征提取更具有辨别性质的I-vector(辨别矢量)特征的训练集和待识别集；

步骤5、生成PLDA(概率线性判别分析法)模型，以消除I-vector(辨别矢量)特征空间中信道信息的影响，PLDA(概率线性判别分析法)是一种信道补偿的方法，将I-vector(辨别矢量)特征分解为语音信号以及随机背景噪声后得到其PLDA(概率线性判别分析法)模型，公式为：

表示一个指定维度的说话人子空间，ε_ij表示包含信道影响的残差且是一个正态分布N(0,Σ)；

步骤6、通过字典学习的稀疏表征方式对I-vector(辨别矢量)特征进行处理，得到更有辨别区分度的信息，进一步去除了环境噪音以及信道的影响，更重要的是该模块还可以压缩系统模型，具体包含以下处理：

6-1、对I-vector(辨别矢量)的训练集和待识别集数据进行特征处理和信道补偿，得到所需的不同语种的I-vector(辨别矢量)特征训练集以及需要识别的数据；

6-2、执行k-svd(K阶奇异值分解)字典学习流程，k-svd(K阶奇异值分解)是一种基于超完备字典稀疏分解的方法，是k-means(K阶均值)算法的延伸。相比于MOD算法，该算法的收敛速度有了很大的提高；

将语音特征向量分解成字典和其对应的稀疏矩阵，令字典D∈R^a×b，训练信号的稀疏表示系数向量X∈R^b和训练信号X∈R^a，

为N个训练特征的集合，

为Y的解向量的集合，也就是稀疏矩阵，目标函数公式为：

其中||d_k||₂＝1

6-3、执行稀疏表示流程：利用训练好的字典去稀疏表示语音信号y＝Dα，其中y是待识别语音的特征参数，D为k-svd(K阶奇异值分解)混合字典，α为稀疏系数；

利用多个k-svd(K阶奇异值分解)混合字典将待测说话人语音提取的I-vector(辨别矢量)表示为字典中原子的线性组合，根据稀疏表征系数来对信号重新结合，根据结合信号和原始信号之间的余弦残差，决定待测语音信号所属的类别，通过字典学习的稀疏表征方式对I-vector(辨别矢量)特征进行处理，得到更有辨别区分度的信息，更重要的是该模块还可以压缩系统模型，经过该模块可以提取出更具有划分程度的向量特征，需要注意的是该模块计算出的特征维度要与PLDA(概率线性判别分析法)模块提取的特征维度保持一致，以便融合算法进行处理；

步骤7、融合模块，使用boosting(提升法)算法对PLDA(概率线性判别分析法)模块分类器和稀疏表征模块分类器进行融合操作，生成一个更具有语种分类效果的新分类器，

boosting(提升法)算法是利用多个分类器结合而组成一个新的分类器，拟合PLDA(概率线性判别分析法)分类器和稀疏表征分类器，初始每个分类器权重相同，根据计算错判率进一步算出每个分类器的权重，更新权重迭代计算直至收敛，则训练完成融合模型，

该分类器对处理后的待识别语音信号经过预处理、PLLR(音素对数似然比)、I-vector(辨别矢量)以及融合后得到的特征作为输入，输出已经分类完成的语种信息。至此整个方法流程完成。

Claims

1.一种基于音素对数似然比和稀疏表征的快速语种识别方法，其特征在于，该方法包括以下步骤：

2-1-1、首先对该语料训练集提取声学特征；

x^*＝Ax+b；

2-1-4、利用对齐数据训练出HMM-DNN模型；

其中，p(k)表示音素后验概率；

其中，x_j表示第j个N维的观测数据特征矢量，w_k表示第k个高斯分量的混合权重，p(x_j|μ_k,Σ_k)表示第j个N维的观测数据特征矢量的第k个高斯分量的高斯函数，u_k表示第k维高斯均值，

更新高斯混合模型参数，参数更新公式如下所示：

其中，γ_jk表示第j个N维的观测数据特征矢量的第k个分模型对观测数据的响应强度；

M＝m+Tw

6-1、对I-vector(辨别矢量)的训练集和待识别集数据进行特征处理和信道补偿，得到所需的不同语种的I-vector特征训练集以及需要识别的数据；

为N个训练特征的集合，

为Y的解向量的集合，也就是稀疏矩阵，目标函数公式为：

其中||d_k||₂＝1

基于k-svd算法，利用I-vector特征的训练集数据得到各自语种的k-svd学习字典，然后对每个字典抽取固定维度特征进行结合生成多个k-svd混合字典；

6-3、执行稀疏表示流程，利用训练好的字典去稀疏表示语音信号y＝Dα，其中y表示待识别语音的特征参数，D表示k-svd混合字典，α表示稀疏系数；

利用多个k-svd将待测说话人语音提取的I-vector特征表示为字典中原子的线性组合，根据稀疏表征系数来对信号重新结合，根据结合信号和原始信号之间的余弦残差，决定待测语音信号所属的类别，通过字典学习的稀疏表征方式对I-vector特征进行处理，得到更有辨别区分度的信息，提取出更具有划分程度的向量特征；