CN110858477A

CN110858477A - 一种基于降噪自动编码器的语种识别分类方法及装置

Info

Publication number: CN110858477A
Application number: CN201810916756.9A
Authority: CN
Inventors: 周若华; 苗晓晓; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2020-03-03
Anticipated expiration: 2038-08-13
Also published as: CN110858477B

Abstract

本发明提供一种基于降噪自动编码器的语种识别分类方法，其包括：步骤1)从待识别的语音片段中提取待识别的语音信号，获得底层声学特征；步骤2)从步骤1)获得的底层声学特征提取原始i‑vector；步骤3)计算并获得音素向量p_c(u)；步骤4)将原始i‑vector与音素向量p_c(u)进行拼接，将其输入至基于DAE的i‑vector补偿网络，获得补偿后的i‑vector；步骤5)分别将步骤2)获得的原始i‑vector和步骤4)获得的补偿后的i‑vector输入至预先训练的逻辑回归分类器，获得对应的分数向量；步骤6)对步骤5)获得的对应的分数向量，进行分数融合，得到最终的分数向量，进而得到各个语种类别的概率，并判定所属的语种类别。

Description

一种基于降噪自动编码器的语种识别分类方法及装置

技术领域

本发明属于语种识别技术领域，具体涉及一种基于降噪自动编码器的语种识别分类方法及装置。

背景技术

语种识别(Language Identification,LID)是指自动判定给定的语音片段，从该语音片段的语音信号中提取各语种的差异信息，判断语言种类的过程。语种识别技术在多语种语音处理方面有重要的应用，例如，口语语言翻译系统、多语种语音识别系统、语音文本处理等。

目前，传统的语种识别技术包括两种方法：第一种方法，基于音素层特征的语种识别技术；其中，基于音素层特征的语种识别技术是将音素层特征作为识别依据。常用的方法有音素识别后接N元文法模型(Phoneme Recognizer followed by Language Model,PRLM)和并行音素识别器后接语言模型(Parallel Phone Recognition followed by LanguageModeling,PPRLM)等。第二种方法，基于声学层特征的语种识别技术依赖于声学层特征，主流的语种识别系统有混合高斯模型-全局背景模型(Gaussian Mixture Model-UniversalBack-ground Model,GMM-UBM)、高斯超向量-支持向量机(GMM Super Vector-SupportVector Machines,GSV-SVM)和基于全差异空间的(Total Variability,TV)i-vector系统等。本发明采用传统的TV ivector系统提取原始i-vector。

近几年，深度神经网络(Deep Neural Networks,DNN)模型在语种识别技术上得到快速发展，具体从以下两个方面体现：一方面从前端语种特征提取层面，利用DNN模型强大的语种特征的抽取能力，提取了深度瓶颈特征(Deep Bottleneck Feature,DBF)。另一方面从模型域出发，提出基于DNN的TV建模策略。

此外，市场上也出现了基于深度学习的端对端语种识别系统，摒弃了传统的语种识别系统框架。目前，现有的语种识别系统在训练语音与测试语音长度匹配的情况下，具有较高的识别率；但是，当训练语音与测试语音长度失配时，其性能也随之下降。现有的语种识别系统，针对长度失配问题，对不同长度的测试语音，分别训练与其匹配的模型，大大增加了模型复杂度。为了解决这个问题，本发明提出一种语种特征补偿方法，将不同长度的语种特征映射为相同长度的语种特征，在保证模型复杂度降低的情况下，缓解了长度失配问题。

发明内容

本发明的目的在于，为解决现有的语音识别方法存在上述缺陷，本发明提出了一种基于降噪自动编码器的语种识别分类方法，将不同长度的语种征都映射为固定长度的语音特征，在保证模型复杂度降低的情况下，一定程度上解决了训练语音与测试语音长度失配问题，以及语种识别性能会出现严重下降的问题。

为了实现上述目的，本发明提供了一种基于降噪自动编码器的语种识别分类方法，该方法具体包括：

步骤1)从待识别的语音片段中提取待识别的语音信号，对待识别的语音信号进行分帧、变换；获得底层声学特征；

步骤2)从步骤1)获得的底层声学特征提取原始i-vector，即原始语种特征，获得原始i-vector；

步骤3)利用通用背景模型UBM，计算并获得音素向量p_c(u)；

步骤4)将步骤2)获得的原始i-vector与步骤3)获得的音素向量p_c(u)进行拼接，并通过降噪自动编码器DAE，将其输入至基于DAE的i-vector补偿网络，获得补偿后的i-vector，即补偿后的语种特征；

步骤5)分别将步骤2)获得的原始i-vector和步骤4)获得的补偿后的i-vector输入至预先训练的逻辑回归分类器，获得对应的分数向量；

步骤6)对步骤5)获得的对应的分数向量，进行分数融合，得到最终的分数向量，进而得到各个语种类别的概率，并判定所属的语种类别。

作为上述技术方案的改进之一，步骤2)中，利用现有的TV i-vector系统，从步骤1)获得的底层声学特征提取原始i-vector，具体包括：输入步骤1)获得的底层声学特征；根据公式(1)计算原始的i-vector：

w(u)＝(I+T^tΣ^-1N(u)T)^-1T^tΣ^-1F(u) (1)

其中，w(u)为原始的i-vector；Σ是对角协方差矩阵，I为单位矩阵，T为全差异矩阵，T^t为全差异矩阵T的转置，其中，Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数，根据公式(2)和(3)，计算得到；具体如下：

其中，N_c(u)为语音u的0阶统计量，F_c(u)为语音u的1阶统计量；p(c|u_t)表示语音u的第t帧底层声学特征u_t在通用背景模型UBM的第c个高斯上的后验概率，语音u共有共L帧；m_c表示在通用背景模型UBM的第c个高斯上的均值向量。

作为上述技术方案的改进之一，步骤2)中，通过现有的TV i-vector系统的因子提取模块，从步骤1)获得的底层声学特征提取原始i-vector；现有的TV i-vector系统具体包括：

背景训练模块，用于根据训练语音建立通用背景模型UBM和获得T矩阵；具体地，将训练语音作为背景数据，从其中提取底层声学特征，将底层声学特征作为训练数据，训练并得到通用背景模型UBM，将各语种数据输入通用背景模型UBM，由公式(2)和(3)分别计算0阶统计量N_c(u)、1阶统计量F_c(u)，同时计算获得全差异矩阵T；其中，训练语音包括若干语种数据；训练通用背景模型时，各语种数据混合训练，不区分语种；

因子提取模块，用于获得测试和训练的原始i-vector；具体地，对训练语音和测试语音分别提取底层声学特征，将底层声学特征输入通用背景模型UBM，由公式(2)和(3)分别计算0阶统计量N_c(u)、1阶统计量F_c(u)，再根据公式(1)计算得到原始的i-vector；

和分类模块，用于训练逻辑回归分类器，并将测试i-vector输入训练后的逻辑回归分类器中，获得各语种类别的后验概率值，判定语种类别；具体地，将训练i-vector输入到逻辑回归分类器中进行训练；再将测试i-vector输入到训练后的逻辑回归分类器中，获得各语种类别的后验概率值，通过上述后验概率值进行语种类别的判定，并统计语种数目。

作为上述技术方案的改进之一，步骤3)中，通用模型UBM是通过现有的TV i-vector系统获得。

作为上述技术方案的改进之一，步骤3)具体包括：

先利用通用背景模型UBM，根据公式(4)和(5)，计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率，再将其求和并取平均，UBM共有C个高斯，将每个高斯的后验概率拼接，获得音素向量p(u):

p(u)＝[p₁(u),p₂(u)...p_c(u)] (4)

其中，p_c(u)是音素向量p(u)的一个值，即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值；u_t表示语音u的第t帧底层声学特征，语音u共L帧。

作为上述技术方案的改进之一，步骤4)具体包括：

步骤4-1)将步骤2)获得的原始i-vector和步骤3)获得的音素向量p_c(u)进行拼接，得到目标向量x(u)，也称作长时语音语种特征向量。语音u的长度范围是0-2min；

步骤4-2)将语音u分别切成3s、10s、30s三个语音段，对每个语音段u_i提取原始的i-vector和对应的音素向量，拼接成短时语音语种特征向量x(u_i)；其中，语音u原始的长度范围是0-2min；

步骤4-3)最终的训练数据对为x(u,u_i)，对基于DAE的补偿网络进行训练；并对训练后的基于DAE的补偿网络进行参数优化；具体地，通过最小化目标函数来优化基于DAE的补偿网络；其中，目标函数为目标向量和补偿向量之间的均方误差(Mean squared error,MSE)；其中，

目标向量为长时的语种特征向量x(u)＝[p(u),w(u)]，p(u)音素向量；w(u)为原始i-vector；

步骤4-4)基于DAE补偿网络的输入向量是短时语种特征向量x(u_i)＝[p(u_i),w(u_i)]；

经过训练后的基于DAE的补偿网络，输出向量是补偿向量x^c(u_i)＝[p^c(u_i),w^c(u_i)]，p^c(u_i)为补偿后的音素向量；w^c(u_i)为补偿后的i-vector；

从而获得补偿后的i-vector。

作为上述技术方案的改进之一，步骤6)具体包括：

采用得分融合策略，将原始的i-vector和补偿后的i-vector分别对应的输入预先训练的逻辑回归分类器中，获得对应的原始的i-vector的分数向量和补偿后的i-vector的分数向量，将二者进行线性融合，根据公式(6)，获得最终的分数向量；

s^f(u)＝(1-α)s(w(u))+αs(w^c(u)),0≤α≤1 (6)

其中，w(u)是原始i-vector；w^c(u)是补偿后的i-vector；α为融合系数；sf(u)为融合后语音u最终的分数向量，即待识别的语音片段在各个语种类别上的概率分布；s(w(u))为原始的i-vector的分数向量；s(w^c(u))是补偿后的i-vector的分数向量；

取最终的分数向量的最大值max[s^f(u)]，获得对应的最大概率值，根据该最大概率值，确定其对应的语种类别，获得待识别语音片段中的语种数目。

本发明还提供了一种语种识别分类装置，其包括：

原始i-vector提取模块，用于从待识别的语音片段中提取原始i-vector；具体地，利用现有的TV i-vector系统，从步骤1)获得的底层声学特征提取原始i-vector，具体包括：输入步骤1)获得的底层声学特征；根据公式(1)计算原始的i-vector：

w(u)＝(I+T^tΣ^-1N(u)T)^-1T^tΣ^-1F(u) (1)

其中，N_c(u)为语音u的0阶统计量，F_c(u)为语音u的1阶统计量；p(c|u_t)表示语音u的第t帧底层声学特征u_t在通用背景模型UBM的第c个高斯上的后验概率，语音u共有共L帧；m_c表示在通用背景模型UBM的第c个高斯上的均值向量；

音素向量提取模块，用于获取音素向量；具体地，先利用通用背景模型UBM，根据公式(4)和(5)，计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率，再将其求和并取平均，UBM共有C个高斯，将每个高斯的后验概率拼接，获得音素向量p(u)；

p(u)＝[p₁(u),p₂(u)...p_c(u)] (4)

补偿后的i-vector模块，用于将原始i-vector和音素向量拼接，获取补偿后的i-vector；具体地，将原始i-vector与音素向量p_c(u)进行拼接，并通过降噪自动编码器DAE，将其输入至基于DAE的i-vector补偿网络，获得补偿后的i-vector，即补偿后的语种特征；

分类模块，用于将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器，得到各个语种类别的概率，并判定所属的语种类别；

具体地，将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器，获得对应的分数向量；并进行分数融合，得到最终的分数向量，进而得到各个语种类别的概率，并判定所属的语种类别。

本发明的优点在于：

本发明可以解决训练语音和测试语音长度失配问题。本发明将短时语种特征向量映射到长时语种特征向量，以得到音素分布更为平衡的短时语音段表示，缓解了短时测试语音音素分布不平衡的问题

附图说明

图1是本发明的一种基于降噪自动编码器的语种识别分类方法流程图；

图2是现有的TV i-vector语种识别系统的示意图；

图3是本发明的一种基于降噪自动编码器的语种识别分类方法的步骤4)的示意图。

具体实施方式

本发明提出基于DAE的TV i-vector语种识别系统对不同长度测试语音的语种特征进行补偿，具体分为如下几个环节：首先，语音经过分帧、变换得到底层声学特征；其次，提取原始i-vector，同时计算其音素向量；随后，对原始i-vector和音素向量进行拼接，送入基于DAE的补偿网络得到补偿后的i-vector；最后，将补偿后的i-vector和原始i-vector分别送入后端分类器得到两个分数向量，并将其在得分域融合后进行判决。

如图1所示，本发明提供了一种基于降噪自动编码器的语种识别分类方法，该方法具体包括：

步骤3)利用通用背景模型UBM，计算并获得音素向量p_c(u)；

步骤4)将步骤2)获得的原始i-vector与步骤3)获得的音素向量p_c(u)进行拼接，并通过降噪自动编码器DAE，将其输入至基于DAE的i-vector补偿网络，获得补偿后的i-vector，即补偿后的语种特征；其中，基于DAE的补偿网络框图如图3所示，所述补偿网络包括两层DNN，每层DNN的节点数是2048，激活函数是ReLU(Rectified Linear Units)。网络输入为d维的短时语种特征x(u_i)，网络输出为d维的补偿语种特征x^c(u_i)；其中，将2min长时语音分为10s的短时语音，提取短时语音的原始的i-vector和对应的音素向量，将二者拼接成d维短时语音语种特征向量x(u_i)。若把整个网络看成一个非线性函数g()，网络输出也可以表示为g(x(u_i))，网络的目标向量为长时语种特征x(u)，其中，提取2min长时语音的原始i-vector和对应的音素向量，将二者拼接形成d维长时语音语种特征x(u)。实验中d＝632时，短时语音语种特征向量x(u_i)包括：600维短时语音的原始i-vector和32维音素向量；长时语音语种特征x(u)包括：600维长时语音的原始i-vector和32维音素向量；

w(u)＝(I+T^tΣ^-1N(u)T)^-1T^tΣ^-1F(u) (1)

作为上述技术方案的改进之一，通过现有的TV i-vector系统的因子提取模块，从步骤1)获得的底层声学特征提取原始i-vector，步骤2)中，如图2所示，现有的TV i-vector系统具体包括：

作为上述技术方案的改进之一，步骤3)具体包括：

先利用通用背景模型UBM，根据公式(4)和(5)，计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率，再将其求和并取平均，UBM共有C个高斯，将每个高斯的后验概率拼接，获得音素向量p(u)：

p(u)＝[p₁(u),p₂(u)...p_c(u)] (4)

作为上述技术方案的改进之一，步骤4)具体包括：

目标向量为长时的语种特征向量x(u)＝[p(u),w(u)]，p(u)是音素向量；w(u)为原始i-vector；

从而获得补偿后的i-vector。

作为上述技术方案的改进之一，步骤6)具体包括：

s^f(u)＝(1-α)s(w(u))+αs(w^c(u)),0≤α≤1 (6)

本实施例中，在获得语种类别和语种数目之后，语种识别的测试标准主要采用平均检测代价(average cost,C_avg)和错误率(Error Rate,ER)来评价。计算过程还将提到虚警率和漏警率。这些指标从不同角度反映了语种识别系统性能的好坏，它们都是越小越好。C_avg的定义如下：

P_Non-Target＝(1-P_Target-P_Out＝of-Set)/(N_L-1) (8)

其中，N_L为目标语种数目，L_T表示目标语种，P_Miss(L_T)表示目标语种为L_T时的漏检率。P_FA(L_T,L_N)是目标语种为L_T时的虚警率；C_Miss和C_FA分别是漏检和虚警的惩罚因子，P_Target为目标语种的先验概率。P_Non-Target为非目标语种的先验概率。P_Out-of-Set为集外语种的先验概率。在本实施例中，P_Out-of-Set为0。设定C_Miss＝C_FA＝1，P_Target＝0.5

本实施例中的实验只考虑闭集测试的情况，因此，P_Out-of-Set为0。设定C_Miss＝C_FA＝1，P_Target＝0.5。

具体实验结果如表1所示。语音u包括三种时长，即30s、10s和3s。为了验证基于DAE的补偿网络的有效性。针对不同的测试条件，在训练阶段，长时的训练语料被切割成时长分别为30s、10s和3s的短时语音段，并组成三种时长的短时语音语种训练集合，分别学习对应的基于DAE的补偿网络。表1列出了针对不同测试时长的训练数据分别训练相应的基于DAE的TV i-vector语种识别系统，在不同时长测试语音下的评价指标错误率(Error Rate,ER)和平均检测代价(Average cost,C_avg)的变化情况。二者都是越小越好。表1中的30s补偿表示补偿网络的训练数据是30s和2min的训练数据对。从表中可以看出来，提出的基于DAE的补偿网络在各种测试时长上的识别性能都有提高。

表1基线系统和补偿系统性能对比(％)

本发明还提供了一种语种识别分类装置，其包括：

原始i-vector提取模块，用于从待识别的语音片段中提取原始i-vector；具体地，利用现有的TV i-vector系统提取原始i-vector，具体包括：输入步骤1)获得的底层声学特征；根据公式(1)计算原始的i-vector：

w(u)＝(I+T^tΣ^-1N(u)T)^-1T^tΣ^-1F(u) (1)

音素向量提取模块，用于获取音素向量；具体地，先利用通用背景模型UBM，根据公式(4)和(5)，计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率，再将其求和并取平均，UBM共有C个高斯，将每个高斯的后验概率拼接，获得音素向量p(u)：

p(u)＝[p₁(u),p₂(u)...p_c(u)] (4)

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于降噪自动编码器的语种识别分类方法，其特征在于，其包括：

步骤3)利用通用背景模型UBM，计算并获得音素向量p_c(u)；

2.根据权利要求1所述的分类方法，其特征在于，步骤2)中，利用现有的TVi-vector系统，从步骤1)获得的底层声学特征提取原始i-vector，具体包括：输入步骤1)获得的底层声学特征；根据公式(1)计算原始的i-vector：

w(u)＝(I+T^tΣ^-1N(u)T)^-1T^tΣ^-1F(u) (1)

3.根据权利要求2所述的分类方法，其特征在于，步骤2)中，现有的TV i-vector系统具体包括：

4.根据权利要求1所述的分类方法，其特征在于，步骤3)具体包括：

p(u)＝[p₁(u),p₂(u)...p_c(u)] (4)

5.根据权利要求1所述的分类方法，其特征在于，步骤4)具体包括：

步骤4-1)将步骤2)获得的原始i-vector和步骤3)获得的音素向量p_c(u)进行拼接，得到目标向量x(u)；

步骤4-2)将语音u分别切成3s、10s、30s三个语音段，对每个语音段u_i提取原始的i-vector和对应的音素向量，拼接成短时语音语种特征向量x(u_i)；

步骤4-3)最终的训练数据对为x(u,u_i)，对基于DAE的补偿网络进行训练；并对训练后的基于DAE的补偿网络进行参数优化；通过最小化目标函数来优化基于DAE的补偿网络；其中，目标函数为目标向量和补偿向量之间的均方误差(Mean squared error,MSE)；其中，

目标向量为长时的语种特征向量x(u)＝[p(u),w(u)]，其中，p(u)音素向量；w(u)为原始i-vector；

从而获得补偿后的i-vector。

6.根据权利要求1所述的分类方法，其特征在于，步骤6)具体包括：

s^f(u)＝(1-α)s(w(u))+αs(w^c(u)),0≤α≤1 (6)

其中，w(u)是原始i-vector；w^c(u)是补偿后的i-vector；α为融合系数；s^f(u)为融合后语音u最终的分数向量，即待识别的语音片段在各个语种类别上的概率分布；s(w(u))为原始的i-vector的分数向量；s(w^c(u))是补偿后的i-vector的分数向量；

7.一种语种识别分类装置，其特征在于，其包括：

原始i-vector提取模块，用于从待识别的语音片段中提取原始i-vector；

音素向量提取模块，用于获取音素向量；

补偿后的i-vector模块，用于将原始i-vector和音素向量拼接，获取补偿后的i-vector；

和分类模块，用于将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器，得到各个语种类别的概率，并判定所属的语种类别。

8.根据权利要求7所述的装置，其特征在于，所述音素向量提取模块具体包括：

利用通用背景模型UBM，根据公式(4)和(5)，计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率，再将其求和并取平均，UBM共有C个高斯，将每个高斯的后验概率拼接，获得音素向量p(u)；

p(u)＝[p₁(u),p₂(u)...p_c(u)] (4)

9.根据权利要求7所述的装置，其特征在于，所述补偿后的i-vector模块具体包括：

将原始i-vector与音素向量p_c(u)进行拼接，并通过降噪自动编码器DAE，将其输入至基于DAE的i-vector补偿网络，获得补偿后的i-vector。

10.根据权利要求7所述的装置，其特征在于，所述分类模块具体包括：

将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器，获得对应的分数向量；并进行分数融合，得到最终的分数向量，进而得到各个语种类别的概率，并判定所属的语种类别。