CN110858477A - 一种基于降噪自动编码器的语种识别分类方法及装置 - Google Patents
一种基于降噪自动编码器的语种识别分类方法及装置 Download PDFInfo
- Publication number
- CN110858477A CN110858477A CN201810916756.9A CN201810916756A CN110858477A CN 110858477 A CN110858477 A CN 110858477A CN 201810916756 A CN201810916756 A CN 201810916756A CN 110858477 A CN110858477 A CN 110858477A
- Authority
- CN
- China
- Prior art keywords
- vector
- original
- language
- compensated
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000009467 reduction Effects 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 316
- 238000007477 logistic regression Methods 0.000 claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 14
- 230000007774 longterm Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012031 short term test Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于降噪自动编码器的语种识别分类方法,其包括:步骤1)从待识别的语音片段中提取待识别的语音信号,获得底层声学特征;步骤2)从步骤1)获得的底层声学特征提取原始i‑vector;步骤3)计算并获得音素向量pc(u);步骤4)将原始i‑vector与音素向量pc(u)进行拼接,将其输入至基于DAE的i‑vector补偿网络,获得补偿后的i‑vector;步骤5)分别将步骤2)获得的原始i‑vector和步骤4)获得的补偿后的i‑vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
Description
技术领域
本发明属于语种识别技术领域,具体涉及一种基于降噪自动编码器的语种识别分类方法及装置。
背景技术
语种识别(Language Identification,LID)是指自动判定给定的语音片段,从该语音片段的语音信号中提取各语种的差异信息,判断语言种类的过程。语种识别技术在多语种语音处理方面有重要的应用,例如,口语语言翻译系统、多语种语音识别系统、语音文本处理等。
目前,传统的语种识别技术包括两种方法:第一种方法,基于音素层特征的语种识别技术;其中,基于音素层特征的语种识别技术是将音素层特征作为识别依据。常用的方法有音素识别后接N元文法模型(Phoneme Recognizer followed by Language Model,PRLM)和并行音素识别器后接语言模型(Parallel Phone Recognition followed by LanguageModeling,PPRLM)等。第二种方法,基于声学层特征的语种识别技术依赖于声学层特征,主流的语种识别系统有混合高斯模型-全局背景模型(Gaussian Mixture Model-UniversalBack-ground Model,GMM-UBM)、高斯超向量-支持向量机(GMM Super Vector-SupportVector Machines,GSV-SVM)和基于全差异空间的(Total Variability,TV)i-vector系统等。本发明采用传统的TV ivector系统提取原始i-vector。
近几年,深度神经网络(Deep Neural Networks,DNN)模型在语种识别技术上得到快速发展,具体从以下两个方面体现:一方面从前端语种特征提取层面,利用DNN模型强大的语种特征的抽取能力,提取了深度瓶颈特征(Deep Bottleneck Feature,DBF)。另一方面从模型域出发,提出基于DNN的TV建模策略。
此外,市场上也出现了基于深度学习的端对端语种识别系统,摒弃了传统的语种识别系统框架。目前,现有的语种识别系统在训练语音与测试语音长度匹配的情况下,具有较高的识别率;但是,当训练语音与测试语音长度失配时,其性能也随之下降。现有的语种识别系统,针对长度失配问题,对不同长度的测试语音,分别训练与其匹配的模型,大大增加了模型复杂度。为了解决这个问题,本发明提出一种语种特征补偿方法,将不同长度的语种特征映射为相同长度的语种特征,在保证模型复杂度降低的情况下,缓解了长度失配问题。
发明内容
本发明的目的在于,为解决现有的语音识别方法存在上述缺陷,本发明提出了一种基于降噪自动编码器的语种识别分类方法,将不同长度的语种征都映射为固定长度的语音特征,在保证模型复杂度降低的情况下,一定程度上解决了训练语音与测试语音长度失配问题,以及语种识别性能会出现严重下降的问题。
为了实现上述目的,本发明提供了一种基于降噪自动编码器的语种识别分类方法,该方法具体包括:
步骤1)从待识别的语音片段中提取待识别的语音信号,对待识别的语音信号进行分帧、变换;获得底层声学特征;
步骤2)从步骤1)获得的底层声学特征提取原始i-vector,即原始语种特征,获得原始i-vector;
步骤3)利用通用背景模型UBM,计算并获得音素向量pc(u);
步骤4)将步骤2)获得的原始i-vector与步骤3)获得的音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;
步骤5)分别将步骤2)获得的原始i-vector和步骤4)获得的补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;
步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
作为上述技术方案的改进之一,步骤2)中,利用现有的TV i-vector系统,从步骤1)获得的底层声学特征提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量。
作为上述技术方案的改进之一,步骤2)中,通过现有的TV i-vector系统的因子提取模块,从步骤1)获得的底层声学特征提取原始i-vector;现有的TV i-vector系统具体包括:
背景训练模块,用于根据训练语音建立通用背景模型UBM和获得T矩阵;具体地,将训练语音作为背景数据,从其中提取底层声学特征,将底层声学特征作为训练数据,训练并得到通用背景模型UBM,将各语种数据输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),同时计算获得全差异矩阵T;其中,训练语音包括若干语种数据;训练通用背景模型时,各语种数据混合训练,不区分语种;
因子提取模块,用于获得测试和训练的原始i-vector;具体地,对训练语音和测试语音分别提取底层声学特征,将底层声学特征输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),再根据公式(1)计算得到原始的i-vector;
和分类模块,用于训练逻辑回归分类器,并将测试i-vector输入训练后的逻辑回归分类器中,获得各语种类别的后验概率值,判定语种类别;具体地,将训练i-vector输入到逻辑回归分类器中进行训练;再将测试i-vector输入到训练后的逻辑回归分类器中,获得各语种类别的后验概率值,通过上述后验概率值进行语种类别的判定,并统计语种数目。
作为上述技术方案的改进之一,步骤3)中,通用模型UBM是通过现有的TV i-vector系统获得。
作为上述技术方案的改进之一,步骤3)具体包括:
先利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u):
p(u)=[p1(u),p2(u)...pc(u)] (4)
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
作为上述技术方案的改进之一,步骤4)具体包括:
步骤4-1)将步骤2)获得的原始i-vector和步骤3)获得的音素向量pc(u)进行拼接,得到目标向量x(u),也称作长时语音语种特征向量。语音u的长度范围是0-2min;
步骤4-2)将语音u分别切成3s、10s、30s三个语音段,对每个语音段ui提取原始的i-vector和对应的音素向量,拼接成短时语音语种特征向量x(ui);其中,语音u原始的长度范围是0-2min;
步骤4-3)最终的训练数据对为x(u,ui),对基于DAE的补偿网络进行训练;并对训练后的基于DAE的补偿网络进行参数优化;具体地,通过最小化目标函数来优化基于DAE的补偿网络;其中,目标函数为目标向量和补偿向量之间的均方误差(Mean squared error,MSE);其中,
目标向量为长时的语种特征向量x(u)=[p(u),w(u)],p(u)音素向量;w(u)为原始i-vector;
步骤4-4)基于DAE补偿网络的输入向量是短时语种特征向量x(ui)=[p(ui),w(ui)];
经过训练后的基于DAE的补偿网络,输出向量是补偿向量xc(ui)=[pc(ui),wc(ui)],pc(ui)为补偿后的音素向量;wc(ui)为补偿后的i-vector;
从而获得补偿后的i-vector。
作为上述技术方案的改进之一,步骤6)具体包括:
采用得分融合策略,将原始的i-vector和补偿后的i-vector分别对应的输入预先训练的逻辑回归分类器中,获得对应的原始的i-vector的分数向量和补偿后的i-vector的分数向量,将二者进行线性融合,根据公式(6),获得最终的分数向量;
sf(u)=(1-α)s(w(u))+αs(wc(u)),0≤α≤1 (6)
其中,w(u)是原始i-vector;wc(u)是补偿后的i-vector;α为融合系数;sf(u)为融合后语音u最终的分数向量,即待识别的语音片段在各个语种类别上的概率分布;s(w(u))为原始的i-vector的分数向量;s(wc(u))是补偿后的i-vector的分数向量;
取最终的分数向量的最大值max[sf(u)],获得对应的最大概率值,根据该最大概率值,确定其对应的语种类别,获得待识别语音片段中的语种数目。
本发明还提供了一种语种识别分类装置,其包括:
原始i-vector提取模块,用于从待识别的语音片段中提取原始i-vector;具体地,利用现有的TV i-vector系统,从步骤1)获得的底层声学特征提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量;
音素向量提取模块,用于获取音素向量;具体地,先利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u);
p(u)=[p1(u),p2(u)...pc(u)] (4)
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
补偿后的i-vector模块,用于将原始i-vector和音素向量拼接,获取补偿后的i-vector;具体地,将原始i-vector与音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;
分类模块,用于将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,得到各个语种类别的概率,并判定所属的语种类别;
具体地,将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;并进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
本发明的优点在于:
本发明可以解决训练语音和测试语音长度失配问题。本发明将短时语种特征向量映射到长时语种特征向量,以得到音素分布更为平衡的短时语音段表示,缓解了短时测试语音音素分布不平衡的问题
附图说明
图1是本发明的一种基于降噪自动编码器的语种识别分类方法流程图;
图2是现有的TV i-vector语种识别系统的示意图;
图3是本发明的一种基于降噪自动编码器的语种识别分类方法的步骤4)的示意图。
具体实施方式
本发明提出基于DAE的TV i-vector语种识别系统对不同长度测试语音的语种特征进行补偿,具体分为如下几个环节:首先,语音经过分帧、变换得到底层声学特征;其次,提取原始i-vector,同时计算其音素向量;随后,对原始i-vector和音素向量进行拼接,送入基于DAE的补偿网络得到补偿后的i-vector;最后,将补偿后的i-vector和原始i-vector分别送入后端分类器得到两个分数向量,并将其在得分域融合后进行判决。
如图1所示,本发明提供了一种基于降噪自动编码器的语种识别分类方法,该方法具体包括:
步骤1)从待识别的语音片段中提取待识别的语音信号,对待识别的语音信号进行分帧、变换;获得底层声学特征;
步骤2)从步骤1)获得的底层声学特征提取原始i-vector,即原始语种特征,获得原始i-vector;
步骤3)利用通用背景模型UBM,计算并获得音素向量pc(u);
步骤4)将步骤2)获得的原始i-vector与步骤3)获得的音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;其中,基于DAE的补偿网络框图如图3所示,所述补偿网络包括两层DNN,每层DNN的节点数是2048,激活函数是ReLU(Rectified Linear Units)。网络输入为d维的短时语种特征x(ui),网络输出为d维的补偿语种特征xc(ui);其中,将2min长时语音分为10s的短时语音,提取短时语音的原始的i-vector和对应的音素向量,将二者拼接成d维短时语音语种特征向量x(ui)。若把整个网络看成一个非线性函数g(),网络输出也可以表示为g(x(ui)),网络的目标向量为长时语种特征x(u),其中,提取2min长时语音的原始i-vector和对应的音素向量,将二者拼接形成d维长时语音语种特征x(u)。实验中d=632时,短时语音语种特征向量x(ui)包括:600维短时语音的原始i-vector和32维音素向量;长时语音语种特征x(u)包括:600维长时语音的原始i-vector和32维音素向量;
步骤5)分别将步骤2)获得的原始i-vector和步骤4)获得的补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;
步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
作为上述技术方案的改进之一,步骤2)中,利用现有的TV i-vector系统,从步骤1)获得的底层声学特征提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量。
作为上述技术方案的改进之一,通过现有的TV i-vector系统的因子提取模块,从步骤1)获得的底层声学特征提取原始i-vector,步骤2)中,如图2所示,现有的TV i-vector系统具体包括:
背景训练模块,用于根据训练语音建立通用背景模型UBM和获得T矩阵;具体地,将训练语音作为背景数据,从其中提取底层声学特征,将底层声学特征作为训练数据,训练并得到通用背景模型UBM,将各语种数据输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),同时计算获得全差异矩阵T;其中,训练语音包括若干语种数据;训练通用背景模型时,各语种数据混合训练,不区分语种;
因子提取模块,用于获得测试和训练的原始i-vector;具体地,对训练语音和测试语音分别提取底层声学特征,将底层声学特征输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),再根据公式(1)计算得到原始的i-vector;
和分类模块,用于训练逻辑回归分类器,并将测试i-vector输入训练后的逻辑回归分类器中,获得各语种类别的后验概率值,判定语种类别;具体地,将训练i-vector输入到逻辑回归分类器中进行训练;再将测试i-vector输入到训练后的逻辑回归分类器中,获得各语种类别的后验概率值,通过上述后验概率值进行语种类别的判定,并统计语种数目。
作为上述技术方案的改进之一,步骤3)中,通用模型UBM是通过现有的TV i-vector系统获得。
作为上述技术方案的改进之一,步骤3)具体包括:
先利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u):
p(u)=[p1(u),p2(u)...pc(u)] (4)
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
作为上述技术方案的改进之一,步骤4)具体包括:
步骤4-1)将步骤2)获得的原始i-vector和步骤3)获得的音素向量pc(u)进行拼接,得到目标向量x(u),也称作长时语音语种特征向量。语音u的长度范围是0-2min;
步骤4-2)将语音u分别切成3s、10s、30s三个语音段,对每个语音段ui提取原始的i-vector和对应的音素向量,拼接成短时语音语种特征向量x(ui);其中,语音u原始的长度范围是0-2min;
步骤4-3)最终的训练数据对为x(u,ui),对基于DAE的补偿网络进行训练;并对训练后的基于DAE的补偿网络进行参数优化;具体地,通过最小化目标函数来优化基于DAE的补偿网络;其中,目标函数为目标向量和补偿向量之间的均方误差(Mean squared error,MSE);其中,
目标向量为长时的语种特征向量x(u)=[p(u),w(u)],p(u)是音素向量;w(u)为原始i-vector;
步骤4-4)基于DAE补偿网络的输入向量是短时语种特征向量x(ui)=[p(ui),w(ui)];
经过训练后的基于DAE的补偿网络,输出向量是补偿向量xc(ui)=[pc(ui),wc(ui)],pc(ui)为补偿后的音素向量;wc(ui)为补偿后的i-vector;
从而获得补偿后的i-vector。
作为上述技术方案的改进之一,步骤6)具体包括:
采用得分融合策略,将原始的i-vector和补偿后的i-vector分别对应的输入预先训练的逻辑回归分类器中,获得对应的原始的i-vector的分数向量和补偿后的i-vector的分数向量,将二者进行线性融合,根据公式(6),获得最终的分数向量;
sf(u)=(1-α)s(w(u))+αs(wc(u)),0≤α≤1 (6)
其中,w(u)是原始i-vector;wc(u)是补偿后的i-vector;α为融合系数;sf(u)为融合后语音u最终的分数向量,即待识别的语音片段在各个语种类别上的概率分布;s(w(u))为原始的i-vector的分数向量;s(wc(u))是补偿后的i-vector的分数向量;
取最终的分数向量的最大值max[sf(u)],获得对应的最大概率值,根据该最大概率值,确定其对应的语种类别,获得待识别语音片段中的语种数目。
本实施例中,在获得语种类别和语种数目之后,语种识别的测试标准主要采用平均检测代价(average cost,Cavg)和错误率(Error Rate,ER)来评价。计算过程还将提到虚警率和漏警率。这些指标从不同角度反映了语种识别系统性能的好坏,它们都是越小越好。Cavg的定义如下:
PNon-Target=(1-PTarget-POut=of-Set)/(NL-1) (8)
其中,NL为目标语种数目,LT表示目标语种,PMiss(LT)表示目标语种为LT时的漏检率。PFA(LT,LN)是目标语种为LT时的虚警率;CMiss和CFA分别是漏检和虚警的惩罚因子,PTarget为目标语种的先验概率。PNon-Target为非目标语种的先验概率。POut-of-Set为集外语种的先验概率。在本实施例中,POut-of-Set为0。设定CMiss=CFA=1,PTarget=0.5
本实施例中的实验只考虑闭集测试的情况,因此,POut-of-Set为0。设定CMiss=CFA=1,PTarget=0.5。
具体实验结果如表1所示。语音u包括三种时长,即30s、10s和3s。为了验证基于DAE的补偿网络的有效性。针对不同的测试条件,在训练阶段,长时的训练语料被切割成时长分别为30s、10s和3s的短时语音段,并组成三种时长的短时语音语种训练集合,分别学习对应的基于DAE的补偿网络。表1列出了针对不同测试时长的训练数据分别训练相应的基于DAE的TV i-vector语种识别系统,在不同时长测试语音下的评价指标错误率(Error Rate,ER)和平均检测代价(Average cost,Cavg)的变化情况。二者都是越小越好。表1中的30s补偿表示补偿网络的训练数据是30s和2min的训练数据对。从表中可以看出来,提出的基于DAE的补偿网络在各种测试时长上的识别性能都有提高。
表1基线系统和补偿系统性能对比(%)
本发明还提供了一种语种识别分类装置,其包括:
原始i-vector提取模块,用于从待识别的语音片段中提取原始i-vector;具体地,利用现有的TV i-vector系统提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量;
音素向量提取模块,用于获取音素向量;具体地,先利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u):
p(u)=[p1(u),p2(u)...pc(u)] (4)
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
补偿后的i-vector模块,用于将原始i-vector和音素向量拼接,获取补偿后的i-vector;具体地,将原始i-vector与音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;
分类模块,用于将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,得到各个语种类别的概率,并判定所属的语种类别;
具体地,将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;并进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于降噪自动编码器的语种识别分类方法,其特征在于,其包括:
步骤1)从待识别的语音片段中提取待识别的语音信号,对待识别的语音信号进行分帧、变换;获得底层声学特征;
步骤2)从步骤1)获得的底层声学特征提取原始i-vector,即原始语种特征,获得原始i-vector;
步骤3)利用通用背景模型UBM,计算并获得音素向量pc(u);
步骤4)将步骤2)获得的原始i-vector与步骤3)获得的音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;
步骤5)分别将步骤2)获得的原始i-vector和步骤4)获得的补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;
步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
2.根据权利要求1所述的分类方法,其特征在于,步骤2)中,利用现有的TVi-vector系统,从步骤1)获得的底层声学特征提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量。
3.根据权利要求2所述的分类方法,其特征在于,步骤2)中,现有的TV i-vector系统具体包括:
背景训练模块,用于根据训练语音建立通用背景模型UBM和获得T矩阵;具体地,将训练语音作为背景数据,从其中提取底层声学特征,将底层声学特征作为训练数据,训练并得到通用背景模型UBM,将各语种数据输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),同时计算获得全差异矩阵T;其中,训练语音包括若干语种数据;训练通用背景模型时,各语种数据混合训练,不区分语种;
因子提取模块,用于获得测试和训练的原始i-vector;具体地,对训练语音和测试语音分别提取底层声学特征,将底层声学特征输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),再根据公式(1)计算得到原始的i-vector;
和分类模块,用于训练逻辑回归分类器,并将测试i-vector输入训练后的逻辑回归分类器中,获得各语种类别的后验概率值,判定语种类别;具体地,将训练i-vector输入到逻辑回归分类器中进行训练;再将测试i-vector输入到训练后的逻辑回归分类器中,获得各语种类别的后验概率值,通过上述后验概率值进行语种类别的判定,并统计语种数目。
5.根据权利要求1所述的分类方法,其特征在于,步骤4)具体包括:
步骤4-1)将步骤2)获得的原始i-vector和步骤3)获得的音素向量pc(u)进行拼接,得到目标向量x(u);
步骤4-2)将语音u分别切成3s、10s、30s三个语音段,对每个语音段ui提取原始的i-vector和对应的音素向量,拼接成短时语音语种特征向量x(ui);
步骤4-3)最终的训练数据对为x(u,ui),对基于DAE的补偿网络进行训练;并对训练后的基于DAE的补偿网络进行参数优化;通过最小化目标函数来优化基于DAE的补偿网络;其中,目标函数为目标向量和补偿向量之间的均方误差(Mean squared error,MSE);其中,
目标向量为长时的语种特征向量x(u)=[p(u),w(u)],其中,p(u)音素向量;w(u)为原始i-vector;
步骤4-4)基于DAE补偿网络的输入向量是短时语种特征向量x(ui)=[p(ui),w(ui)];
经过训练后的基于DAE的补偿网络,输出向量是补偿向量xc(ui)=[pc(ui),wc(ui)],pc(ui)为补偿后的音素向量;wc(ui)为补偿后的i-vector;
从而获得补偿后的i-vector。
6.根据权利要求1所述的分类方法,其特征在于,步骤6)具体包括:
采用得分融合策略,将原始的i-vector和补偿后的i-vector分别对应的输入预先训练的逻辑回归分类器中,获得对应的原始的i-vector的分数向量和补偿后的i-vector的分数向量,将二者进行线性融合,根据公式(6),获得最终的分数向量;
sf(u)=(1-α)s(w(u))+αs(wc(u)),0≤α≤1 (6)
其中,w(u)是原始i-vector;wc(u)是补偿后的i-vector;α为融合系数;sf(u)为融合后语音u最终的分数向量,即待识别的语音片段在各个语种类别上的概率分布;s(w(u))为原始的i-vector的分数向量;s(wc(u))是补偿后的i-vector的分数向量;
取最终的分数向量的最大值max[sf(u)],获得对应的最大概率值,根据该最大概率值,确定其对应的语种类别,获得待识别语音片段中的语种数目。
7.一种语种识别分类装置,其特征在于,其包括:
原始i-vector提取模块,用于从待识别的语音片段中提取原始i-vector;
音素向量提取模块,用于获取音素向量;
补偿后的i-vector模块,用于将原始i-vector和音素向量拼接,获取补偿后的i-vector;
和分类模块,用于将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,得到各个语种类别的概率,并判定所属的语种类别。
9.根据权利要求7所述的装置,其特征在于,所述补偿后的i-vector模块具体包括:
将原始i-vector与音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector。
10.根据权利要求7所述的装置,其特征在于,所述分类模块具体包括:
将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;并进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810916756.9A CN110858477B (zh) | 2018-08-13 | 2018-08-13 | 一种基于降噪自动编码器的语种识别分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810916756.9A CN110858477B (zh) | 2018-08-13 | 2018-08-13 | 一种基于降噪自动编码器的语种识别分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110858477A true CN110858477A (zh) | 2020-03-03 |
CN110858477B CN110858477B (zh) | 2022-05-03 |
Family
ID=69634870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810916756.9A Active CN110858477B (zh) | 2018-08-13 | 2018-08-13 | 一种基于降噪自动编码器的语种识别分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110858477B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111599344A (zh) * | 2020-03-31 | 2020-08-28 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
CN112505010A (zh) * | 2020-12-01 | 2021-03-16 | 安徽理工大学 | 一种基于荧光光谱的变压器故障诊断装置及方法 |
CN112652300A (zh) * | 2020-12-24 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN113539238A (zh) * | 2020-03-31 | 2021-10-22 | 中国科学院声学研究所 | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140303973A1 (en) * | 2012-09-12 | 2014-10-09 | Google Inc. | Minimum Bayesian Risk Methods for Automatic Speech Recognition |
CN104575495A (zh) * | 2013-10-21 | 2015-04-29 | 中国科学院声学研究所 | 一种采用总变化量因子的语种识别方法及系统 |
CN105280181A (zh) * | 2014-07-15 | 2016-01-27 | 中国科学院声学研究所 | 一种语种识别模型的训练方法及语种识别方法 |
CN106297769A (zh) * | 2015-05-27 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种应用于语种识别的鉴别性特征提取方法 |
-
2018
- 2018-08-13 CN CN201810916756.9A patent/CN110858477B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140303973A1 (en) * | 2012-09-12 | 2014-10-09 | Google Inc. | Minimum Bayesian Risk Methods for Automatic Speech Recognition |
CN104575495A (zh) * | 2013-10-21 | 2015-04-29 | 中国科学院声学研究所 | 一种采用总变化量因子的语种识别方法及系统 |
CN105280181A (zh) * | 2014-07-15 | 2016-01-27 | 中国科学院声学研究所 | 一种语种识别模型的训练方法及语种识别方法 |
CN106297769A (zh) * | 2015-05-27 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种应用于语种识别的鉴别性特征提取方法 |
Non-Patent Citations (3)
Title |
---|
ZHIYUAN TANG ET AL: "Phonetic Temporal Neural Model for Language Identification", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
仲伟峰等: "深浅层特征及模型融合的说话人识别", 《声学学报》 * |
叶中付等: "基于LDOF准则的自适应高斯后端语种识别方法", 《通信学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111599344A (zh) * | 2020-03-31 | 2020-08-28 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
CN113539238A (zh) * | 2020-03-31 | 2021-10-22 | 中国科学院声学研究所 | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
CN111599344B (zh) * | 2020-03-31 | 2022-05-17 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
CN113539238B (zh) * | 2020-03-31 | 2023-12-08 | 中国科学院声学研究所 | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
CN112505010A (zh) * | 2020-12-01 | 2021-03-16 | 安徽理工大学 | 一种基于荧光光谱的变压器故障诊断装置及方法 |
CN112652300A (zh) * | 2020-12-24 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN112652300B (zh) * | 2020-12-24 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110858477B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110858477B (zh) | 一种基于降噪自动编码器的语种识别分类方法及装置 | |
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
CN109256150B (zh) | 基于机器学习的语音情感识别系统及方法 | |
Bonastre et al. | A speaker tracking system based on speaker turn detection for NIST evaluation | |
CN106611604B (zh) | 一种基于深度神经网络的自动语音叠音检测方法 | |
CN112259104B (zh) | 一种声纹识别模型的训练装置 | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
CN111429935B (zh) | 一种语音话者分离方法和装置 | |
Liu et al. | A Spearman correlation coefficient ranking for matching-score fusion on speaker recognition | |
CN111611566B (zh) | 一种说话人验证系统及其重放攻击检测方法 | |
CN112992191B (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN111477219A (zh) | 关键词区分方法、装置、电子设备和可读存储介质 | |
CN106910495A (zh) | 一种应用于异常声音检测的音频分类系统和方法 | |
Hughes et al. | The individual and the system: assessing the stability of the output of a semi-automatic forensic voice comparison system | |
Aronowitz et al. | Context and uncertainty modeling for online speaker change detection | |
CN110299133B (zh) | 基于关键字判定非法广播的方法 | |
CN110875044B (zh) | 一种基于字相关得分计算的说话人识别方法 | |
Parmar et al. | Comparison of performance of the features of speech signal for non-intrusive speech quality assessment | |
Delacourt et al. | Audio data indexing: Use of second-order statistics for speaker-based segmentation | |
CN111554273B (zh) | 一种语音关键词识别中扩增语料的选取方法 | |
CN113077784B (zh) | 一种角色识别智能语音设备 | |
Vair et al. | Loquendo-Politecnico di torino's 2006 NIST speaker recognition evaluation system. | |
CN112908305B (zh) | 一种提升语音识别准确性的方法和设备 | |
Peng | [Retracted] An English Teaching Pronunciation Detection and Recognition Algorithm Based on Cluster Analysis and Improved SSD | |
CN113539238B (zh) | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |