CN110858477A - 一种基于降噪自动编码器的语种识别分类方法及装置 - Google Patents

一种基于降噪自动编码器的语种识别分类方法及装置 Download PDF

Info

Publication number
CN110858477A
CN110858477A CN201810916756.9A CN201810916756A CN110858477A CN 110858477 A CN110858477 A CN 110858477A CN 201810916756 A CN201810916756 A CN 201810916756A CN 110858477 A CN110858477 A CN 110858477A
Authority
CN
China
Prior art keywords
vector
original
language
compensated
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810916756.9A
Other languages
English (en)
Other versions
CN110858477B (zh
Inventor
周若华
苗晓晓
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201810916756.9A priority Critical patent/CN110858477B/zh
Publication of CN110858477A publication Critical patent/CN110858477A/zh
Application granted granted Critical
Publication of CN110858477B publication Critical patent/CN110858477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于降噪自动编码器的语种识别分类方法,其包括:步骤1)从待识别的语音片段中提取待识别的语音信号,获得底层声学特征;步骤2)从步骤1)获得的底层声学特征提取原始i‑vector;步骤3)计算并获得音素向量pc(u);步骤4)将原始i‑vector与音素向量pc(u)进行拼接,将其输入至基于DAE的i‑vector补偿网络,获得补偿后的i‑vector;步骤5)分别将步骤2)获得的原始i‑vector和步骤4)获得的补偿后的i‑vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。

Description

一种基于降噪自动编码器的语种识别分类方法及装置
技术领域
本发明属于语种识别技术领域,具体涉及一种基于降噪自动编码器的语种识别分类方法及装置。
背景技术
语种识别(Language Identification,LID)是指自动判定给定的语音片段,从该语音片段的语音信号中提取各语种的差异信息,判断语言种类的过程。语种识别技术在多语种语音处理方面有重要的应用,例如,口语语言翻译系统、多语种语音识别系统、语音文本处理等。
目前,传统的语种识别技术包括两种方法:第一种方法,基于音素层特征的语种识别技术;其中,基于音素层特征的语种识别技术是将音素层特征作为识别依据。常用的方法有音素识别后接N元文法模型(Phoneme Recognizer followed by Language Model,PRLM)和并行音素识别器后接语言模型(Parallel Phone Recognition followed by LanguageModeling,PPRLM)等。第二种方法,基于声学层特征的语种识别技术依赖于声学层特征,主流的语种识别系统有混合高斯模型-全局背景模型(Gaussian Mixture Model-UniversalBack-ground Model,GMM-UBM)、高斯超向量-支持向量机(GMM Super Vector-SupportVector Machines,GSV-SVM)和基于全差异空间的(Total Variability,TV)i-vector系统等。本发明采用传统的TV ivector系统提取原始i-vector。
近几年,深度神经网络(Deep Neural Networks,DNN)模型在语种识别技术上得到快速发展,具体从以下两个方面体现:一方面从前端语种特征提取层面,利用DNN模型强大的语种特征的抽取能力,提取了深度瓶颈特征(Deep Bottleneck Feature,DBF)。另一方面从模型域出发,提出基于DNN的TV建模策略。
此外,市场上也出现了基于深度学习的端对端语种识别系统,摒弃了传统的语种识别系统框架。目前,现有的语种识别系统在训练语音与测试语音长度匹配的情况下,具有较高的识别率;但是,当训练语音与测试语音长度失配时,其性能也随之下降。现有的语种识别系统,针对长度失配问题,对不同长度的测试语音,分别训练与其匹配的模型,大大增加了模型复杂度。为了解决这个问题,本发明提出一种语种特征补偿方法,将不同长度的语种特征映射为相同长度的语种特征,在保证模型复杂度降低的情况下,缓解了长度失配问题。
发明内容
本发明的目的在于,为解决现有的语音识别方法存在上述缺陷,本发明提出了一种基于降噪自动编码器的语种识别分类方法,将不同长度的语种征都映射为固定长度的语音特征,在保证模型复杂度降低的情况下,一定程度上解决了训练语音与测试语音长度失配问题,以及语种识别性能会出现严重下降的问题。
为了实现上述目的,本发明提供了一种基于降噪自动编码器的语种识别分类方法,该方法具体包括:
步骤1)从待识别的语音片段中提取待识别的语音信号,对待识别的语音信号进行分帧、变换;获得底层声学特征;
步骤2)从步骤1)获得的底层声学特征提取原始i-vector,即原始语种特征,获得原始i-vector;
步骤3)利用通用背景模型UBM,计算并获得音素向量pc(u);
步骤4)将步骤2)获得的原始i-vector与步骤3)获得的音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;
步骤5)分别将步骤2)获得的原始i-vector和步骤4)获得的补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;
步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
作为上述技术方案的改进之一,步骤2)中,利用现有的TV i-vector系统,从步骤1)获得的底层声学特征提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
Figure BDA0001763228490000031
Figure BDA0001763228490000032
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量。
作为上述技术方案的改进之一,步骤2)中,通过现有的TV i-vector系统的因子提取模块,从步骤1)获得的底层声学特征提取原始i-vector;现有的TV i-vector系统具体包括:
背景训练模块,用于根据训练语音建立通用背景模型UBM和获得T矩阵;具体地,将训练语音作为背景数据,从其中提取底层声学特征,将底层声学特征作为训练数据,训练并得到通用背景模型UBM,将各语种数据输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),同时计算获得全差异矩阵T;其中,训练语音包括若干语种数据;训练通用背景模型时,各语种数据混合训练,不区分语种;
因子提取模块,用于获得测试和训练的原始i-vector;具体地,对训练语音和测试语音分别提取底层声学特征,将底层声学特征输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),再根据公式(1)计算得到原始的i-vector;
和分类模块,用于训练逻辑回归分类器,并将测试i-vector输入训练后的逻辑回归分类器中,获得各语种类别的后验概率值,判定语种类别;具体地,将训练i-vector输入到逻辑回归分类器中进行训练;再将测试i-vector输入到训练后的逻辑回归分类器中,获得各语种类别的后验概率值,通过上述后验概率值进行语种类别的判定,并统计语种数目。
作为上述技术方案的改进之一,步骤3)中,通用模型UBM是通过现有的TV i-vector系统获得。
作为上述技术方案的改进之一,步骤3)具体包括:
先利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u):
p(u)=[p1(u),p2(u)...pc(u)] (4)
Figure BDA0001763228490000041
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
作为上述技术方案的改进之一,步骤4)具体包括:
步骤4-1)将步骤2)获得的原始i-vector和步骤3)获得的音素向量pc(u)进行拼接,得到目标向量x(u),也称作长时语音语种特征向量。语音u的长度范围是0-2min;
步骤4-2)将语音u分别切成3s、10s、30s三个语音段,对每个语音段ui提取原始的i-vector和对应的音素向量,拼接成短时语音语种特征向量x(ui);其中,语音u原始的长度范围是0-2min;
步骤4-3)最终的训练数据对为x(u,ui),对基于DAE的补偿网络进行训练;并对训练后的基于DAE的补偿网络进行参数优化;具体地,通过最小化目标函数来优化基于DAE的补偿网络;其中,目标函数为目标向量和补偿向量之间的均方误差(Mean squared error,MSE);其中,
目标向量为长时的语种特征向量x(u)=[p(u),w(u)],p(u)音素向量;w(u)为原始i-vector;
步骤4-4)基于DAE补偿网络的输入向量是短时语种特征向量x(ui)=[p(ui),w(ui)];
经过训练后的基于DAE的补偿网络,输出向量是补偿向量xc(ui)=[pc(ui),wc(ui)],pc(ui)为补偿后的音素向量;wc(ui)为补偿后的i-vector;
从而获得补偿后的i-vector。
作为上述技术方案的改进之一,步骤6)具体包括:
采用得分融合策略,将原始的i-vector和补偿后的i-vector分别对应的输入预先训练的逻辑回归分类器中,获得对应的原始的i-vector的分数向量和补偿后的i-vector的分数向量,将二者进行线性融合,根据公式(6),获得最终的分数向量;
sf(u)=(1-α)s(w(u))+αs(wc(u)),0≤α≤1 (6)
其中,w(u)是原始i-vector;wc(u)是补偿后的i-vector;α为融合系数;sf(u)为融合后语音u最终的分数向量,即待识别的语音片段在各个语种类别上的概率分布;s(w(u))为原始的i-vector的分数向量;s(wc(u))是补偿后的i-vector的分数向量;
取最终的分数向量的最大值max[sf(u)],获得对应的最大概率值,根据该最大概率值,确定其对应的语种类别,获得待识别语音片段中的语种数目。
本发明还提供了一种语种识别分类装置,其包括:
原始i-vector提取模块,用于从待识别的语音片段中提取原始i-vector;具体地,利用现有的TV i-vector系统,从步骤1)获得的底层声学特征提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
Figure BDA0001763228490000051
Figure BDA0001763228490000052
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量;
音素向量提取模块,用于获取音素向量;具体地,先利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u);
p(u)=[p1(u),p2(u)...pc(u)] (4)
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
补偿后的i-vector模块,用于将原始i-vector和音素向量拼接,获取补偿后的i-vector;具体地,将原始i-vector与音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;
分类模块,用于将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,得到各个语种类别的概率,并判定所属的语种类别;
具体地,将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;并进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
本发明的优点在于:
本发明可以解决训练语音和测试语音长度失配问题。本发明将短时语种特征向量映射到长时语种特征向量,以得到音素分布更为平衡的短时语音段表示,缓解了短时测试语音音素分布不平衡的问题
附图说明
图1是本发明的一种基于降噪自动编码器的语种识别分类方法流程图;
图2是现有的TV i-vector语种识别系统的示意图;
图3是本发明的一种基于降噪自动编码器的语种识别分类方法的步骤4)的示意图。
具体实施方式
本发明提出基于DAE的TV i-vector语种识别系统对不同长度测试语音的语种特征进行补偿,具体分为如下几个环节:首先,语音经过分帧、变换得到底层声学特征;其次,提取原始i-vector,同时计算其音素向量;随后,对原始i-vector和音素向量进行拼接,送入基于DAE的补偿网络得到补偿后的i-vector;最后,将补偿后的i-vector和原始i-vector分别送入后端分类器得到两个分数向量,并将其在得分域融合后进行判决。
如图1所示,本发明提供了一种基于降噪自动编码器的语种识别分类方法,该方法具体包括:
步骤1)从待识别的语音片段中提取待识别的语音信号,对待识别的语音信号进行分帧、变换;获得底层声学特征;
步骤2)从步骤1)获得的底层声学特征提取原始i-vector,即原始语种特征,获得原始i-vector;
步骤3)利用通用背景模型UBM,计算并获得音素向量pc(u);
步骤4)将步骤2)获得的原始i-vector与步骤3)获得的音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;其中,基于DAE的补偿网络框图如图3所示,所述补偿网络包括两层DNN,每层DNN的节点数是2048,激活函数是ReLU(Rectified Linear Units)。网络输入为d维的短时语种特征x(ui),网络输出为d维的补偿语种特征xc(ui);其中,将2min长时语音分为10s的短时语音,提取短时语音的原始的i-vector和对应的音素向量,将二者拼接成d维短时语音语种特征向量x(ui)。若把整个网络看成一个非线性函数g(),网络输出也可以表示为g(x(ui)),网络的目标向量为长时语种特征x(u),其中,提取2min长时语音的原始i-vector和对应的音素向量,将二者拼接形成d维长时语音语种特征x(u)。实验中d=632时,短时语音语种特征向量x(ui)包括:600维短时语音的原始i-vector和32维音素向量;长时语音语种特征x(u)包括:600维长时语音的原始i-vector和32维音素向量;
步骤5)分别将步骤2)获得的原始i-vector和步骤4)获得的补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;
步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
作为上述技术方案的改进之一,步骤2)中,利用现有的TV i-vector系统,从步骤1)获得的底层声学特征提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
Figure BDA0001763228490000081
Figure BDA0001763228490000082
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量。
作为上述技术方案的改进之一,通过现有的TV i-vector系统的因子提取模块,从步骤1)获得的底层声学特征提取原始i-vector,步骤2)中,如图2所示,现有的TV i-vector系统具体包括:
背景训练模块,用于根据训练语音建立通用背景模型UBM和获得T矩阵;具体地,将训练语音作为背景数据,从其中提取底层声学特征,将底层声学特征作为训练数据,训练并得到通用背景模型UBM,将各语种数据输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),同时计算获得全差异矩阵T;其中,训练语音包括若干语种数据;训练通用背景模型时,各语种数据混合训练,不区分语种;
因子提取模块,用于获得测试和训练的原始i-vector;具体地,对训练语音和测试语音分别提取底层声学特征,将底层声学特征输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),再根据公式(1)计算得到原始的i-vector;
和分类模块,用于训练逻辑回归分类器,并将测试i-vector输入训练后的逻辑回归分类器中,获得各语种类别的后验概率值,判定语种类别;具体地,将训练i-vector输入到逻辑回归分类器中进行训练;再将测试i-vector输入到训练后的逻辑回归分类器中,获得各语种类别的后验概率值,通过上述后验概率值进行语种类别的判定,并统计语种数目。
作为上述技术方案的改进之一,步骤3)中,通用模型UBM是通过现有的TV i-vector系统获得。
作为上述技术方案的改进之一,步骤3)具体包括:
先利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u):
p(u)=[p1(u),p2(u)...pc(u)] (4)
Figure BDA0001763228490000091
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
作为上述技术方案的改进之一,步骤4)具体包括:
步骤4-1)将步骤2)获得的原始i-vector和步骤3)获得的音素向量pc(u)进行拼接,得到目标向量x(u),也称作长时语音语种特征向量。语音u的长度范围是0-2min;
步骤4-2)将语音u分别切成3s、10s、30s三个语音段,对每个语音段ui提取原始的i-vector和对应的音素向量,拼接成短时语音语种特征向量x(ui);其中,语音u原始的长度范围是0-2min;
步骤4-3)最终的训练数据对为x(u,ui),对基于DAE的补偿网络进行训练;并对训练后的基于DAE的补偿网络进行参数优化;具体地,通过最小化目标函数来优化基于DAE的补偿网络;其中,目标函数为目标向量和补偿向量之间的均方误差(Mean squared error,MSE);其中,
目标向量为长时的语种特征向量x(u)=[p(u),w(u)],p(u)是音素向量;w(u)为原始i-vector;
步骤4-4)基于DAE补偿网络的输入向量是短时语种特征向量x(ui)=[p(ui),w(ui)];
经过训练后的基于DAE的补偿网络,输出向量是补偿向量xc(ui)=[pc(ui),wc(ui)],pc(ui)为补偿后的音素向量;wc(ui)为补偿后的i-vector;
从而获得补偿后的i-vector。
作为上述技术方案的改进之一,步骤6)具体包括:
采用得分融合策略,将原始的i-vector和补偿后的i-vector分别对应的输入预先训练的逻辑回归分类器中,获得对应的原始的i-vector的分数向量和补偿后的i-vector的分数向量,将二者进行线性融合,根据公式(6),获得最终的分数向量;
sf(u)=(1-α)s(w(u))+αs(wc(u)),0≤α≤1 (6)
其中,w(u)是原始i-vector;wc(u)是补偿后的i-vector;α为融合系数;sf(u)为融合后语音u最终的分数向量,即待识别的语音片段在各个语种类别上的概率分布;s(w(u))为原始的i-vector的分数向量;s(wc(u))是补偿后的i-vector的分数向量;
取最终的分数向量的最大值max[sf(u)],获得对应的最大概率值,根据该最大概率值,确定其对应的语种类别,获得待识别语音片段中的语种数目。
本实施例中,在获得语种类别和语种数目之后,语种识别的测试标准主要采用平均检测代价(average cost,Cavg)和错误率(Error Rate,ER)来评价。计算过程还将提到虚警率和漏警率。这些指标从不同角度反映了语种识别系统性能的好坏,它们都是越小越好。Cavg的定义如下:
Figure BDA0001763228490000111
PNon-Target=(1-PTarget-POut=of-Set)/(NL-1) (8)
其中,NL为目标语种数目,LT表示目标语种,PMiss(LT)表示目标语种为LT时的漏检率。PFA(LT,LN)是目标语种为LT时的虚警率;CMiss和CFA分别是漏检和虚警的惩罚因子,PTarget为目标语种的先验概率。PNon-Target为非目标语种的先验概率。POut-of-Set为集外语种的先验概率。在本实施例中,POut-of-Set为0。设定CMiss=CFA=1,PTarget=0.5
本实施例中的实验只考虑闭集测试的情况,因此,POut-of-Set为0。设定CMiss=CFA=1,PTarget=0.5。
具体实验结果如表1所示。语音u包括三种时长,即30s、10s和3s。为了验证基于DAE的补偿网络的有效性。针对不同的测试条件,在训练阶段,长时的训练语料被切割成时长分别为30s、10s和3s的短时语音段,并组成三种时长的短时语音语种训练集合,分别学习对应的基于DAE的补偿网络。表1列出了针对不同测试时长的训练数据分别训练相应的基于DAE的TV i-vector语种识别系统,在不同时长测试语音下的评价指标错误率(Error Rate,ER)和平均检测代价(Average cost,Cavg)的变化情况。二者都是越小越好。表1中的30s补偿表示补偿网络的训练数据是30s和2min的训练数据对。从表中可以看出来,提出的基于DAE的补偿网络在各种测试时长上的识别性能都有提高。
表1基线系统和补偿系统性能对比(%)
Figure BDA0001763228490000121
本发明还提供了一种语种识别分类装置,其包括:
原始i-vector提取模块,用于从待识别的语音片段中提取原始i-vector;具体地,利用现有的TV i-vector系统提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
Figure BDA0001763228490000123
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量;
音素向量提取模块,用于获取音素向量;具体地,先利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u):
p(u)=[p1(u),p2(u)...pc(u)] (4)
Figure BDA0001763228490000131
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
补偿后的i-vector模块,用于将原始i-vector和音素向量拼接,获取补偿后的i-vector;具体地,将原始i-vector与音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;
分类模块,用于将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,得到各个语种类别的概率,并判定所属的语种类别;
具体地,将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;并进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于降噪自动编码器的语种识别分类方法,其特征在于,其包括:
步骤1)从待识别的语音片段中提取待识别的语音信号,对待识别的语音信号进行分帧、变换;获得底层声学特征;
步骤2)从步骤1)获得的底层声学特征提取原始i-vector,即原始语种特征,获得原始i-vector;
步骤3)利用通用背景模型UBM,计算并获得音素向量pc(u);
步骤4)将步骤2)获得的原始i-vector与步骤3)获得的音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector,即补偿后的语种特征;
步骤5)分别将步骤2)获得的原始i-vector和步骤4)获得的补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;
步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
2.根据权利要求1所述的分类方法,其特征在于,步骤2)中,利用现有的TVi-vector系统,从步骤1)获得的底层声学特征提取原始i-vector,具体包括:输入步骤1)获得的底层声学特征;根据公式(1)计算原始的i-vector:
w(u)=(I+TtΣ-1N(u)T)-1TtΣ-1F(u) (1)
其中,w(u)为原始的i-vector;Σ是对角协方差矩阵,I为单位矩阵,T为全差异矩阵,Tt为全差异矩阵T的转置,其中,Σ和T均由步骤1)获得的底层声学特征和通用背景模型UBM参数,根据公式(2)和(3),计算得到;具体如下:
Figure FDA0001763228480000011
Figure FDA0001763228480000012
其中,Nc(u)为语音u的0阶统计量,Fc(u)为语音u的1阶统计量;p(c|ut)表示语音u的第t帧底层声学特征ut在通用背景模型UBM的第c个高斯上的后验概率,语音u共有共L帧;mc表示在通用背景模型UBM的第c个高斯上的均值向量。
3.根据权利要求2所述的分类方法,其特征在于,步骤2)中,现有的TV i-vector系统具体包括:
背景训练模块,用于根据训练语音建立通用背景模型UBM和获得T矩阵;具体地,将训练语音作为背景数据,从其中提取底层声学特征,将底层声学特征作为训练数据,训练并得到通用背景模型UBM,将各语种数据输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),同时计算获得全差异矩阵T;其中,训练语音包括若干语种数据;训练通用背景模型时,各语种数据混合训练,不区分语种;
因子提取模块,用于获得测试和训练的原始i-vector;具体地,对训练语音和测试语音分别提取底层声学特征,将底层声学特征输入通用背景模型UBM,由公式(2)和(3)分别计算0阶统计量Nc(u)、1阶统计量Fc(u),再根据公式(1)计算得到原始的i-vector;
和分类模块,用于训练逻辑回归分类器,并将测试i-vector输入训练后的逻辑回归分类器中,获得各语种类别的后验概率值,判定语种类别;具体地,将训练i-vector输入到逻辑回归分类器中进行训练;再将测试i-vector输入到训练后的逻辑回归分类器中,获得各语种类别的后验概率值,通过上述后验概率值进行语种类别的判定,并统计语种数目。
4.根据权利要求1所述的分类方法,其特征在于,步骤3)具体包括:
先利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u):
p(u)=[p1(u),p2(u)...pc(u)] (4)
Figure FDA0001763228480000021
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
5.根据权利要求1所述的分类方法,其特征在于,步骤4)具体包括:
步骤4-1)将步骤2)获得的原始i-vector和步骤3)获得的音素向量pc(u)进行拼接,得到目标向量x(u);
步骤4-2)将语音u分别切成3s、10s、30s三个语音段,对每个语音段ui提取原始的i-vector和对应的音素向量,拼接成短时语音语种特征向量x(ui);
步骤4-3)最终的训练数据对为x(u,ui),对基于DAE的补偿网络进行训练;并对训练后的基于DAE的补偿网络进行参数优化;通过最小化目标函数来优化基于DAE的补偿网络;其中,目标函数为目标向量和补偿向量之间的均方误差(Mean squared error,MSE);其中,
目标向量为长时的语种特征向量x(u)=[p(u),w(u)],其中,p(u)音素向量;w(u)为原始i-vector;
步骤4-4)基于DAE补偿网络的输入向量是短时语种特征向量x(ui)=[p(ui),w(ui)];
经过训练后的基于DAE的补偿网络,输出向量是补偿向量xc(ui)=[pc(ui),wc(ui)],pc(ui)为补偿后的音素向量;wc(ui)为补偿后的i-vector;
从而获得补偿后的i-vector。
6.根据权利要求1所述的分类方法,其特征在于,步骤6)具体包括:
采用得分融合策略,将原始的i-vector和补偿后的i-vector分别对应的输入预先训练的逻辑回归分类器中,获得对应的原始的i-vector的分数向量和补偿后的i-vector的分数向量,将二者进行线性融合,根据公式(6),获得最终的分数向量;
sf(u)=(1-α)s(w(u))+αs(wc(u)),0≤α≤1 (6)
其中,w(u)是原始i-vector;wc(u)是补偿后的i-vector;α为融合系数;sf(u)为融合后语音u最终的分数向量,即待识别的语音片段在各个语种类别上的概率分布;s(w(u))为原始的i-vector的分数向量;s(wc(u))是补偿后的i-vector的分数向量;
取最终的分数向量的最大值max[sf(u)],获得对应的最大概率值,根据该最大概率值,确定其对应的语种类别,获得待识别语音片段中的语种数目。
7.一种语种识别分类装置,其特征在于,其包括:
原始i-vector提取模块,用于从待识别的语音片段中提取原始i-vector;
音素向量提取模块,用于获取音素向量;
补偿后的i-vector模块,用于将原始i-vector和音素向量拼接,获取补偿后的i-vector;
和分类模块,用于将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,得到各个语种类别的概率,并判定所属的语种类别。
8.根据权利要求7所述的装置,其特征在于,所述音素向量提取模块具体包括:
利用通用背景模型UBM,根据公式(4)和(5),计算每帧步骤1)获得的底层声学特征在UBM的第c个高斯上的后验概率,再将其求和并取平均,UBM共有C个高斯,将每个高斯的后验概率拼接,获得音素向量p(u);
p(u)=[p1(u),p2(u)...pc(u)] (4)
Figure FDA0001763228480000041
其中,pc(u)是音素向量p(u)的一个值,即语音u中所有帧的底层声学特征在通用背景模型UBM的第c个高斯上的后验概率求和之后的平均值;ut表示语音u的第t帧底层声学特征,语音u共L帧。
9.根据权利要求7所述的装置,其特征在于,所述补偿后的i-vector模块具体包括:
将原始i-vector与音素向量pc(u)进行拼接,并通过降噪自动编码器DAE,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector。
10.根据权利要求7所述的装置,其特征在于,所述分类模块具体包括:
将原始i-vector和补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;并进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
CN201810916756.9A 2018-08-13 2018-08-13 一种基于降噪自动编码器的语种识别分类方法及装置 Active CN110858477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810916756.9A CN110858477B (zh) 2018-08-13 2018-08-13 一种基于降噪自动编码器的语种识别分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810916756.9A CN110858477B (zh) 2018-08-13 2018-08-13 一种基于降噪自动编码器的语种识别分类方法及装置

Publications (2)

Publication Number Publication Date
CN110858477A true CN110858477A (zh) 2020-03-03
CN110858477B CN110858477B (zh) 2022-05-03

Family

ID=69634870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810916756.9A Active CN110858477B (zh) 2018-08-13 2018-08-13 一种基于降噪自动编码器的语种识别分类方法及装置

Country Status (1)

Country Link
CN (1) CN110858477B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599344A (zh) * 2020-03-31 2020-08-28 因诺微科技(天津)有限公司 一种基于拼接特征的语种识别方法
CN112505010A (zh) * 2020-12-01 2021-03-16 安徽理工大学 一种基于荧光光谱的变压器故障诊断装置及方法
CN112652300A (zh) * 2020-12-24 2021-04-13 百果园技术(新加坡)有限公司 多方言语音识别方法、装置、设备和存储介质
CN113539238A (zh) * 2020-03-31 2021-10-22 中国科学院声学研究所 一种基于空洞卷积神经网络的端到端语种识别分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140303973A1 (en) * 2012-09-12 2014-10-09 Google Inc. Minimum Bayesian Risk Methods for Automatic Speech Recognition
CN104575495A (zh) * 2013-10-21 2015-04-29 中国科学院声学研究所 一种采用总变化量因子的语种识别方法及系统
CN105280181A (zh) * 2014-07-15 2016-01-27 中国科学院声学研究所 一种语种识别模型的训练方法及语种识别方法
CN106297769A (zh) * 2015-05-27 2017-01-04 国家计算机网络与信息安全管理中心 一种应用于语种识别的鉴别性特征提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140303973A1 (en) * 2012-09-12 2014-10-09 Google Inc. Minimum Bayesian Risk Methods for Automatic Speech Recognition
CN104575495A (zh) * 2013-10-21 2015-04-29 中国科学院声学研究所 一种采用总变化量因子的语种识别方法及系统
CN105280181A (zh) * 2014-07-15 2016-01-27 中国科学院声学研究所 一种语种识别模型的训练方法及语种识别方法
CN106297769A (zh) * 2015-05-27 2017-01-04 国家计算机网络与信息安全管理中心 一种应用于语种识别的鉴别性特征提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHIYUAN TANG ET AL: "Phonetic Temporal Neural Model for Language Identification", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
仲伟峰等: "深浅层特征及模型融合的说话人识别", 《声学学报》 *
叶中付等: "基于LDOF准则的自适应高斯后端语种识别方法", 《通信学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599344A (zh) * 2020-03-31 2020-08-28 因诺微科技(天津)有限公司 一种基于拼接特征的语种识别方法
CN113539238A (zh) * 2020-03-31 2021-10-22 中国科学院声学研究所 一种基于空洞卷积神经网络的端到端语种识别分类方法
CN111599344B (zh) * 2020-03-31 2022-05-17 因诺微科技(天津)有限公司 一种基于拼接特征的语种识别方法
CN113539238B (zh) * 2020-03-31 2023-12-08 中国科学院声学研究所 一种基于空洞卷积神经网络的端到端语种识别分类方法
CN112505010A (zh) * 2020-12-01 2021-03-16 安徽理工大学 一种基于荧光光谱的变压器故障诊断装置及方法
CN112652300A (zh) * 2020-12-24 2021-04-13 百果园技术(新加坡)有限公司 多方言语音识别方法、装置、设备和存储介质
CN112652300B (zh) * 2020-12-24 2024-05-17 百果园技术(新加坡)有限公司 多方言语音识别方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN110858477B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN110858477B (zh) 一种基于降噪自动编码器的语种识别分类方法及装置
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN109256150B (zh) 基于机器学习的语音情感识别系统及方法
Bonastre et al. A speaker tracking system based on speaker turn detection for NIST evaluation
CN106611604B (zh) 一种基于深度神经网络的自动语音叠音检测方法
CN112259104B (zh) 一种声纹识别模型的训练装置
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN111429935B (zh) 一种语音话者分离方法和装置
Liu et al. A Spearman correlation coefficient ranking for matching-score fusion on speaker recognition
CN111611566B (zh) 一种说话人验证系统及其重放攻击检测方法
CN112992191B (zh) 语音端点检测方法、装置、电子设备及可读存储介质
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
CN106910495A (zh) 一种应用于异常声音检测的音频分类系统和方法
Hughes et al. The individual and the system: assessing the stability of the output of a semi-automatic forensic voice comparison system
Aronowitz et al. Context and uncertainty modeling for online speaker change detection
CN110299133B (zh) 基于关键字判定非法广播的方法
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
Parmar et al. Comparison of performance of the features of speech signal for non-intrusive speech quality assessment
Delacourt et al. Audio data indexing: Use of second-order statistics for speaker-based segmentation
CN111554273B (zh) 一种语音关键词识别中扩增语料的选取方法
CN113077784B (zh) 一种角色识别智能语音设备
Vair et al. Loquendo-Politecnico di torino's 2006 NIST speaker recognition evaluation system.
CN112908305B (zh) 一种提升语音识别准确性的方法和设备
Peng [Retracted] An English Teaching Pronunciation Detection and Recognition Algorithm Based on Cluster Analysis and Improved SSD
CN113539238B (zh) 一种基于空洞卷积神经网络的端到端语种识别分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant