CN111599344B - 一种基于拼接特征的语种识别方法 - Google Patents

一种基于拼接特征的语种识别方法 Download PDF

Info

Publication number
CN111599344B
CN111599344B CN202010244083.4A CN202010244083A CN111599344B CN 111599344 B CN111599344 B CN 111599344B CN 202010244083 A CN202010244083 A CN 202010244083A CN 111599344 B CN111599344 B CN 111599344B
Authority
CN
China
Prior art keywords
features
vector
splicing
voice
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010244083.4A
Other languages
English (en)
Other versions
CN111599344A (zh
Inventor
刘俊南
江海
王化
刘文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innomicro Technology Tianjin Co Ltd
Original Assignee
Innomicro Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innomicro Technology Tianjin Co Ltd filed Critical Innomicro Technology Tianjin Co Ltd
Priority to CN202010244083.4A priority Critical patent/CN111599344B/zh
Publication of CN111599344A publication Critical patent/CN111599344A/zh
Application granted granted Critical
Publication of CN111599344B publication Critical patent/CN111599344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于拼接特征的语种识别方法,步骤1,获得语音信号的帧序列;步骤2,计算时长特征;步骤3,提取语音帧序列的底层声学特征;步骤4,得到音素特征序列;步骤5,获得拼接特征;步骤6,将拼接特征输入到i‑vector提取器中,提取得到语音帧序列的i‑vector特征表示;步骤7,得到lda‑vector特征;步骤8,将lda‑vector特征输入到训练好的分类器中,获得输入语音帧序列的语种标签。与现有技术相比,本发明结合了高层和底层声学特征这两种特征的优点;无需训练多个音素识别器,只需要提取高层声学特征;降低复杂度的同时,提高对语音信号的语种识别性能特别是语种识别准确率。

Description

一种基于拼接特征的语种识别方法
技术领域
本发明涉及语音识别技术领域,特别涉及一种应用于语种识别的语种特征提取方法。
背景技术
语种识别是指判定输入语音所属语种类别的技术,作为机器自动翻译系统、语音识别系统的前端处理技术,在国际化服务转接方面具有重要价值。特别是近年来网络巨头公司的国际化、大数据的蓬勃发展,越来越需要用到语种识别来进行分别服务。
当前语种识别主流技术包括:基于全差异空间分析方法的i-vector方法、基于语音识别技术的PPRLM(并行音素识别语法模型)方法以及基于神经网络的embedding方法。其中基于语音识别技术的PPRML方法更被认为是最有发展的技术方法。针对现有的语种识别方法,使用PPRLM方法的系统虽然能够提取高层声学特征,在短语音上性能能够超过全差异空间分析方法,但PPRML方法需要训练多个语种的音素识别器,并且在长语音上效果并不比全差异空间分析方法更好。
如图1所示,为传统的语种识别方法示意图。该方法具体为一种基于全差异空间分析模型的语种识别方法,首先对待识别的语音数据进行分帧;提取其声学特征作为该方法的训练预料;训练全差异空间提取器,对训练预料进行i-vector提取;进行降维处理;然后使用Ida-vector训练分类器;当对新语音信号进行识别时,Ida-vector训练分类器对提取得到的i-vector特征进行语种的分类判别。传统基于全差异空间分析方法的语音识别系统直接使用底层声学特征,因此底层声学特征的选取对于识别准确率来说是相当重要的。目前的主流底层声学特征包括MFCC特征、FilterBank特征和PLP特征。底层声学特征主要用于描述语音信号的发音特点。但是底层声学特征不仅包含了音素区分信息,还包含了干扰语种信息的各种干扰如说话人、信道信息,并不能很好的描述语种特点。
高层特征能够体现音素上下文相关信息,并且是底层声学特征的优化,突出声学特征中的音素信息,而抑制其他干扰信息。如何利用高层特征实现语种识别方法是本发明亟待解决的技术问题。
发明内容
针对传统语种识别方法存在的缺陷,本发明旨在提出一种语种特征提取方法,利用声学特征、音素特征以及时长特征的拼接,结合全差异空间分析方法实现新的语种识别方法。
本发明的一种基于拼接特征的语种识别方法,包括以下步骤:
步骤1,对接收的输入语音信号进行分帧处理,获得语音信号的帧序列;
步骤2,计算输入语音信号的帧序列的总数,作为时长特征;
步骤3,提取语音帧序列的底层声学特征;
步骤4,将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征;,上下文扩展声学特征的拼接的具体处理包括:各帧声学特征、与对应的前T_l后T_r帧特征进行拼接得到维度为(T_l+T_r+1)*F的上下文扩展声学特征;
步骤5,将上下文扩展声学特征输入到训练好的音素识别神经网络中,利用音素识别器进行音素识别,得到音素特征序列;
步骤6,比较底层声学特征维度N和PLLR特征维度M,选择维度大者进行PCA 降维,然后以底层声学特征为目标进行归一化,再进行拼接,作为拼接特征;
步骤7,将拼接特征输入到i-vector提取器中,提取得到语音帧序列的i-vector特征表示;其中i-vector提取器更包含UBM模型训练,具体描述如下:
使用GMM模型对全部训练语音拼接特征的概率分布进行建模,通过EM算法迭代训练得到训练数据的通用背景模型分布GMM-UBM模型,使用GMM-UBM模型的所有分量的均值进行拼接得到全部数据的分布均值,将分布平均值进行拼接得到超矢量 m;
然后每段语音的语音拼接特征使用MAP adaptation方法对GMM-UBM模型进行线性插值,获得每段语音的分布超矢量M;
每段语音通过全差异子空间模型,计算得到i-vector特征;
GMM模型的公式如下:
Figure GDA0003509413360000031
Figure GDA0003509413360000032
其中,P(y|θ)表示GMM概率分布,y表示输入特征,θk表示第k个高斯分量参数,K表示GMM内高斯分量数,φ(y|θk)表示第k个高斯分量概率分布,αk表示每个高斯分量权重;
参数θk的计算公式如下:
θk=(μkk)
其中,μk表示高斯分布均值,δk表示高斯分布方差;
MAP adaptation的计算公式如下:
Figure GDA0003509413360000033
其中,F表示某段语音的帧序列,yf表示该帧特征;
通过最大后验概率找到最佳参数θmax取其均值构成超矢量;
全差异子空间公式如下:
M=m+Tω
其中,M表示某段语音的超矢量,m表示均值超矢量,T表示全差异子空间矩阵,通过训练得到,ω表示i-vector特征向量;
步骤8,使用归一化公式,以i-vector特征为目标对时长特征进行归一化,进行拼接得到t-vector特征,然后进行LDA降维,得到lda-vector特征;
步骤9,将lda-vector特征输入到训练好的分类器中,获得输入语音帧序列的语种标签,分类器训练过程具体描述如下:
以全部训练数据的lda-vector为训练输入,以对应的语种标签为输出,训练机器学习分类器,例如训练SVM、RandomForest或XGBoost。
与现有技术相比,本发明的一种基于拼接特征的语种特征提取方法具有以下积极技术效果:
(1)结合了高层和底层声学特征这两种特征的优点;
(2)无需训练多个音素识别器,只需要提取高层声学特征;
(3)降低复杂度的同时,提高对语音信号的语种识别性能特别是语种识别准确率。
附图说明
图1为传统的语种识别方法示意图;
图2为本发明的一种语种特征提取方法实施例示意图;
图3为实施例的音素特征提取的具体流程示意图;
图4为实施例的声学特征和音素特征降维拼接的具体流程示意图;
图5为实施例的ivector特征提取的具体流程示意图;
图6为实施例的lda-vector特征生成的具体流程示意图;
图7为实施例的语种识别分类器训练和分类判别的具体流程示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
如图2所示,为本发明的一种基于拼接特征的语种识别方法的实现模型示意图,该方法具体包括以下步骤:
步骤1,对接收的输入语音信号进行分帧处理,获得语音帧序列;具体地,先对语音信号进行预加重处理,以减少尖锐噪声影响,提高信号质量,然后使用语音信号处理技术的加汉明窗方法,得到每帧数据,其中选择汉明窗的窗长为25ms,窗移为10ms,叠加部分为15ms;
步骤2,计算输入语音信号的帧序列的总数,作为时长特征;
步骤3,提取语音帧序列的底层声学特征,可以选择MFCC特征、FilterBank特征或者PLP特征中的任意一种。为了描述方便后续都以MFCC特征为例,维度为N,计算MFCC的一阶、二阶差分,并与原始MFCC特征进行拼接得到底层声学特征,维度为N*3;
步骤4,为了利用语音帧上下文信息,对底层声学特征进行上下文扩展,将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征,音素特征都以PLLR特征为例,特征为维度为M;利用PPRLM抽取语音信号的高层表示PLLR特征,具体地,第t帧进行扩展时,将相邻的前T_l帧特征与后T_r帧特征与当前特征进行拼接,则得到的上下文扩展特征为(T_l+T_r+1)N维特征;将上下文扩展特征输入到训练好的音素识别神经网络中,得到PLLR特征序列;音素识别神经网络的具体描述,使用大量上下文扩展声学特征作为输入,对应的素序列标签作为输出,训练时延深度神经网络TDNN;使用训练好的音素识别神经网络,对输入语音信号的帧序列进行音素识别,得到语音帧序列的音素对数似然比序列作为PLLR特征,维度为M,即该识别器可识别音素总数;如图3所示,为实施例的音素特征提取的具体流程示意图;
步骤5,比较底层声学特征维度N和PLLR特征维度M,选择维度较大者进行PCA 降维,然后以底层声学特征为目标进行归一化,再进行拼接,为了描述方便假定M>N,则对PLLR特征进行PCA降维,目标维度为N,然后将降维后的PLLR以底层声学特征为目标进行归一化,然后拼接两个特征得到2N维新的特征,作为拼接特征;
归一化公式:
Figure GDA0003509413360000061
其中,pmax、pmin分别表示底层声学特征中最大值和最小值;
qmax、qmin分别表示待归一化特征中最大值和最小值;
q、qnew分别表示原始特征和归一化后特征;
步骤6,将拼接特征输入到i-vector提取器中,提取得到语音帧序列的i-vector特征表示;所述i-vector提取器包含两个子模块,即UBM模型模块和i-vector提取模块。如图5所示,为实施例的ivector特征提取的具体流程示意图。
训练UBM模型的具体描述如下:
GMM模型的公式如下:
Figure GDA0003509413360000062
Figure GDA0003509413360000063
其中,P(y|θ)表示GMM概率分布,y表示输入特征,θk表示第k个高斯分量参数, K表示GMM内高斯分量数,φ(y|θk)表示第k个高斯分量概率分布,αk表示每个高斯分量权重;
参数θk的计算公式如下:
θk=(μkk)
其中,μk表示高斯分布均值,δk表示高斯分布方差;
使用GMM模型(高斯混合模型)对全部训练语音拼接特征的概率分布进行建模,通过EM算法迭代训练得到GMM-UBM(通用背景模型universal background model),训练时需要保证训练数据的均衡。使用GMM-UBM模型的所有分量的均值进行拼接得到全部数据的分布均值进行拼接得到超矢量supervector。假设GMM-UBM有C个分量,特征维度为F,那么最后得到的supervector的维度为C*F。然后对每段输入语音帧序列使用MAP adaptation(最大后验概率自适应)方法在GMM-UBM模型上进行自适应,得到的语音段均值超矢量supervector;
步骤7,使用归一化公式,以i-vector特征为目标对时长特征进行归一化,然后进行拼接,得到t-vector特征;然后进行LDA降维,得到lda-vector特征;
步骤8,将lda-vector特征输入到训练好的分类器中,获得输入语音帧序列的语种标签,分类器训练过程具体描述如下:
以全部训练数据的lda-vector为训练输入,以对应的语种标签为输出,训练机器学习分类器,例如训练SVM、RandomForest或XGBoost。
如图4所示,为实施例的声学特征和音素特征降维拼接的具体流程示意图。LDA 降维具体描述:以全部训练数据的语种拼接特征为训练输入,以对应的语种标签为输出,使数据类间距离最大类内距离最小原理,训练一个LDA降维矩阵,目标维度是所有语种标签数减一。例如,识别语种数为10,则降维目标维度为9。
如图6所示,为实施例的lda-vector特征生成的具体流程示意图。具体处理如下:
根据如下全差异空间分公式M=m+Tω,其中:
M表示每段语音帧序列的supervector;
m代表某个语种全部数据分布均值超矢量均值mean of supervector;
T代表全差异空间分解矩阵;
ω代表分解因子,即每个语音帧序列特征的i-vector。
M和m都可以根据GMM-UBM模型进行自适应分布均值拼接求解得到,然后使用 EM算法迭代计算T矩阵,T矩阵就是i-vector提取器。
使用训练好的UBM通用背景模型,对输入语音帧序列先提取supervector,然后利用训练好的i-vector提取矩阵根据全差异空间分析方法提取输入语音的i-vector特征。
如图7所示,为实施例的语种识别分类器训练和分类判别的具体流程示意图,该流程以RandomForest为例。
所述底层声学特征可为以下任意一种:MFCC(Mel Frequency SepstrumCoefficient, Mel频率倒谱系数)特征、FilterBank(滤波器组)特征和PLP(PerceptualLinear Predictive,感知线性预测系数)特征。
所述步骤5的上下文扩展声学特征的拼接方法,具体为:各帧声学特征(维度为F),与对应的前T_l后T_r帧特征进行拼接得到维度为(T_l+T_r+1)*F的上下文扩展声学特征。
所述音素识别神经网络使用语音帧上下文扩展声学特征为输入,语音帧音素为标签进行训练得到的深度神经网络模型,中间包含一层瓶颈层,最后输出为音素概率,不限选用语种,使用大量标注了音素标签的语音数据进行训练得到。
所述音素特征可以为以下任意一种:音素对数似然比PLLR特征、音素识别瓶颈层输出BNF特征。
所述降维操作(PCA),具体为:比较声学特征和音素特征维度大小,将其中较大维度的特征降维到与较小维度相同维度,得到降维后的声学特征LowF2和音素特征 HighF2。需要HighF2按照LowF1进行归一化;需要时长特征按照i-vector进行归一化。
所述i-vector提取器,是使用全局差异空间(Total Variability Space)分析方法训练得到的。
系统识别语种数量为Ln,LDA降维的目标维度是待识别语种数减一(Ln-1)。所述分类器可以为以下任意一种:SVM、RandomForest、XGBoost。

Claims (6)

1.一种基于拼接特征的语种识别方法,其特征在于,该方法包括以下步骤:
步骤1,对接收的输入语音信号进行分帧处理,获得语音信号的帧序列;
步骤2,计算输入语音信号的帧序列的总数,作为时长特征;
步骤3,提取语音帧序列的底层声学特征;
步骤4,将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征,上下文扩展声学特征的拼接的具体处理包括:各帧声学特征、与对应的前T_l后T_r帧特征进行拼接得到维度为(T_l+T_r+1)*F的上下文扩展声学特征;
步骤5,将上下文扩展声学特征输入到训练好的音素识别神经网络中,利用音素识别器进行音素识别,得到音素特征序列;
步骤6,比较底层声学特征维度N和PLLR维度M,选择维度大者进行PCA降维,然后以底层声学特征为目标进行归一化,再进行拼接,作为拼接特征;
步骤7,将拼接特征输入到i-vector提取器中,提取得到语音帧序列的i-vector特征表示;其中i-vector提取器更包含UBM模型训练,具体描述如下:
使用GMM模型对全部训练语音拼接特征的概率分布进行建模,通过EM算法迭代训练得到训练数据的通用背景模型分布GMM-UBM模型,使用GMM-UBM模型的所有分量的均值进行拼接得到全部数据的分布均值,将分布平均值进行拼接得到超矢量m;
然后每段语音的语音拼接特征使用MAP adaptation方法对GMM-UBM模型进行线性插值,获得每段语音的分布超矢量M;
每段语音通过全差异子空间模型,计算得到i-vector特征;
GMM模型的公式如下:
Figure FDA0003509413350000021
Figure FDA0003509413350000022
其中,P(y|θ)表示GMM概率分布,y表示输入特征,θk表示第k个高斯分量参数,K表示GMM内高斯分量数,φ(y|θk)表示第k个高斯分量概率分布,αk表示每个高斯分量权重;
参数θk的计算公式如下:
θk=(μkk)
其中,μk表示高斯分布均值,δk表示高斯分布方差;
MAPadaptation的计算公式如下:
Figure FDA0003509413350000023
其中,F表示某段语音的帧序列,yf表示该帧特征;
通过最大后验概率找到最佳参数θmax取其均值构成超矢量;
全差异子空间公式如下:
M=m+Tω
其中,M表示某段语音的超矢量,m表示均值超矢量,T表示全差异子空间矩阵,通过训练得到,ω表示i-vector特征向量;
步骤8,使用归一化公式,以i-vector特征为目标对时长特征进行归一化,进行拼接得到t-vector特征,然后进行LDA降维,得到lda-vector特征;
步骤9,将lda-vector特征输入到训练好的分类器中,获得输入语音帧序列的语种标签,分类器训练过程具体描述如下:
以全部训练数据的lda-vector为训练输入,以对应的语种标签为输出,训练机器学习分类器。
2.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述底层声学特征为MFCC特征、FilterBank特征和PLP特征中的任意一种。
3.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述音素识别器为使用语音帧上下文扩展声学特征为输入,语音帧音素为标签进行训练得到的深度神经网络模型,中间包含一层瓶颈层,最后输出为音素概率,不限选用语种,使用大量标注了音素标签的语音数据进行训练得到。
4.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,通过所述PCA降维处理后得到的是声学特征LowF2和音素特征HighF2。
5.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,若该方法的识别语种数量为Ln,则LDA降维的目标维度为待识别语种数减一,即Ln-1。
6.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述分类器为SVM、RandomForest、XGBoost中的任意一种。
CN202010244083.4A 2020-03-31 2020-03-31 一种基于拼接特征的语种识别方法 Active CN111599344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010244083.4A CN111599344B (zh) 2020-03-31 2020-03-31 一种基于拼接特征的语种识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010244083.4A CN111599344B (zh) 2020-03-31 2020-03-31 一种基于拼接特征的语种识别方法

Publications (2)

Publication Number Publication Date
CN111599344A CN111599344A (zh) 2020-08-28
CN111599344B true CN111599344B (zh) 2022-05-17

Family

ID=72192111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010244083.4A Active CN111599344B (zh) 2020-03-31 2020-03-31 一种基于拼接特征的语种识别方法

Country Status (1)

Country Link
CN (1) CN111599344B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530407B (zh) * 2020-11-25 2021-07-23 北京快鱼电子股份公司 一种语种识别方法及系统
CN112530456B (zh) * 2021-02-18 2021-05-28 北京远鉴信息技术有限公司 一种语言类别的识别方法、装置、电子设备及存储介质
CN113035177B (zh) * 2021-03-11 2024-02-09 平安科技(深圳)有限公司 声学模型训练方法及装置
CN113160795B (zh) * 2021-04-28 2024-03-05 平安科技(深圳)有限公司 语种特征提取模型训练方法、装置、设备及存储介质
CN114626418A (zh) * 2022-03-18 2022-06-14 中国人民解放军32802部队 一种基于多中心复残差网络的辐射源识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
US20180137109A1 (en) * 2016-11-11 2018-05-17 The Charles Stark Draper Laboratory, Inc. Methodology for automatic multilingual speech recognition
CN108109613A (zh) * 2017-12-12 2018-06-01 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备
CN110858477A (zh) * 2018-08-13 2020-03-03 中国科学院声学研究所 一种基于降噪自动编码器的语种识别分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137109A1 (en) * 2016-11-11 2018-05-17 The Charles Stark Draper Laboratory, Inc. Methodology for automatic multilingual speech recognition
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN108109613A (zh) * 2017-12-12 2018-06-01 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备
CN110858477A (zh) * 2018-08-13 2020-03-03 中国科学院声学研究所 一种基于降噪自动编码器的语种识别分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Deep Neural Network Embeddings for Text-Independent Speaker Verification》;David Snyder et al.;《INTERSPEECH 2017》;20170824;第999-1003页 *
《METHODS TO IMPROVE GAUSSIAN MIXTURE MODEL BASED LANGUAGE IDENTIFICATION SYSTEM》;Eddie Wong et al.;《ICSLP 2002》;20020920;第1-4页 *
《短语音及易混淆语种识别改进系统》;李卓茜等;《中文信息学报》;20191031;第33卷(第10期);第135-142页 *

Also Published As

Publication number Publication date
CN111599344A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111599344B (zh) 一种基于拼接特征的语种识别方法
CN108305616B (zh) 一种基于长短时特征提取的音频场景识别方法及装置
US9355642B2 (en) Speaker recognition method through emotional model synthesis based on neighbors preserving principle
Ghai et al. Literature review on automatic speech recognition
CN107731233B (zh) 一种基于rnn的声纹识别方法
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
US20110257976A1 (en) Robust Speech Recognition
Kinoshita et al. Text-informed speech enhancement with deep neural networks.
WO2007114605A1 (en) Acoustic model adaptation methods based on pronunciation variability analysis for enhancing the recognition of voice of non-native speaker and apparatuses thereof
CN108986798B (zh) 语音数据的处理方法、装置及设备
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
US7617101B2 (en) Method and system for utterance verification
CN106548775A (zh) 一种语音识别方法和系统
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
Kannadaguli et al. A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada
CN111968622A (zh) 一种基于注意力机制的语音识别方法、系统及装置
Kannadaguli et al. A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker
CN114387997B (zh) 一种基于深度学习的语音情感识别方法
CN112133292A (zh) 一种针对民航陆空通话领域的端到端的自动语音识别方法
Kannadaguli et al. Phoneme modeling for speech recognition in Kannada using Hidden Markov Model
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Van Hout et al. Tackling unseen acoustic conditions in query-by-example search using time and frequency convolution for multilingual deep bottleneck features
CN112216270A (zh) 语音音素的识别方法及系统、电子设备及存储介质
Lohrenz et al. On temporal context information for hybrid BLSTM-based phoneme recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant