CN111599344A - 一种基于拼接特征的语种识别方法 - Google Patents
一种基于拼接特征的语种识别方法 Download PDFInfo
- Publication number
- CN111599344A CN111599344A CN202010244083.4A CN202010244083A CN111599344A CN 111599344 A CN111599344 A CN 111599344A CN 202010244083 A CN202010244083 A CN 202010244083A CN 111599344 A CN111599344 A CN 111599344A
- Authority
- CN
- China
- Prior art keywords
- features
- vector
- feature
- splicing
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims description 42
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000012732 spatial analysis Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于拼接特征的语种识别方法,步骤1,获得语音信号的帧序列;步骤2,计算时长特征;步骤3,提取语音帧序列的底层声学特征;步骤4,得到音素特征序列;步骤5,获得拼接特征;步骤6,将拼接特征输入到i‑vector提取器中,提取得到语音帧序列的i‑vector特征表示;步骤7,得到lda‑vector特征;步骤8,将lda‑vector特征输入到训练好的分类器中,获得输入语音帧序列的语种标签。与现有技术相比,本发明结合了高层和底层声学特征这两种特征的优点;无需训练多个音素识别器,只需要提取高层声学特征;降低复杂度的同时,提高对语音信号的语种识别性能特别是语种识别准确率。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种应用于语种识别的语种特征提取方法。
背景技术
语种识别是指判定输入语音所属语种类别的技术,作为机器自动翻译系统、语音识 别系统的前端处理技术,在国际化服务转接方面具有重要价值。特别是近年来网络巨头公司的国际化、大数据的蓬勃发展,越来越需要用到语种识别来进行分别服务。
当前语种识别主流技术包括:基于全差异空间分析方法的i-vector方法、基于语音 识别技术的PPRLM(并行音素识别语法模型)方法以及基于神经网络的embedding方 法。其中基于语音识别技术的PPRML方法更被认为是最有发展的技术方法。针对现有 的语种识别方法,使用PPRLM方法的系统虽然能够提取高层声学特征,在短语音上性 能能够超过全差异空间分析方法,但PPRML方法需要训练多个语种的音素识别器,并 且在长语音上效果并不比全差异空间分析方法更好。
如图1所示,为传统的语种识别方法示意图。该方法具体为一种基于全差异空间分析模型的语种识别方法,首先对待识别的语音数据进行分帧;提取其声学特征作为该方 法的训练预料;训练全差异空间提取器,对训练预料进行i-vector提取;进行降维处理; 然后使用Ida-vector训练分类器;当对新语音信号进行识别时,Ida-vector训练分类器对 提取得到的i-vector特征进行语种的分类判别。传统基于全差异空间分析方法的语音识 别系统直接使用底层声学特征,因此底层声学特征的选取对于识别准确率来说是相当重 要的。目前的主流底层声学特征包括MFCC特征、FilterBank特征和PLP特征。底层声 学特征主要用于描述语音信号的发音特点。但是底层声学特征不仅包含了音素区分信 息,还包含了干扰语种信息的各种干扰如说话人、信道信息,并不能很好的描述语种特 点。
高层特征能够体现音素上下文相关信息,并且是底层声学特征的优化,突出声学特 征中的音素信息,而抑制其他干扰信息。如何利用高层特征实现语种识别方法是本发明亟待解决的技术问题。
发明内容
针对传统语种识别方法存在的缺陷,本发明旨在提出一种语种特征提取方法,利用 声学特征、音素特征以及时长特征的拼接,结合全差异空间分析方法实现新的语种识别方法。
本发明的一种基于拼接特征的语种识别方法,包括以下步骤:
步骤1,对接收的输入语音信号进行分帧处理,获得语音信号的帧序列;
步骤2,计算输入语音信号的帧序列的总数,作为时长特征;
步骤3,提取语音帧序列的底层声学特征;
步骤4,将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征;
步骤5,将上下文扩展声学特征输入到训练好的音素识别神经网络中,利用音素识别器进行音素识别,得到音素特征序列;
步骤6,比较底层声学特征维度N和PLLR特征维度M,选择维度较大者进行PCA 降维,然后以底层声学特征为目标进行归一化,再进行拼接,作为拼接特征;
步骤6,将拼接特征输入到i-vector提取器中,提取得到语音帧序列的i-vector特征 表示;其中i-vector提取器更包含UBM模型训练,具体描述如下:
使用GMM模型对全部训练语音拼接特征的概率分布进行建模,通过EM算法迭代 训练得到训练数据的通用背景模型分布GMM-UBM模型,使用GMM-UBM模型的所 有分量的均值进行拼接得到全部数据的分布均值,将分布平均值进行拼接得到超矢量 m;
然后每段语音的语音拼接特征使用MAPadaptation方法对GMM-UBM模型进行线 性插值,获得每段语音的分布超矢量M;
每段语音通过全差异子空间模型,计算得到i-vector特征;
GMM模型的公式如下:
其中,P(y|θ)表示GMM概率分布,y表示输入特征,θk表示第k个高斯分 量参数,K表示GMM内高斯分量数,φ(y|θk)表示第k个高斯分量概率分布,αk表示每 个高斯分量权重;
参数θk的计算公式如下:
θk=(μk,δk)
其中,μk表示高斯分布均值,δk表示高斯分布方差;
MAP adaptation的计算公式如下:
其中,F表示某段语音的帧序列,yf表示该帧特征;
通过最大后验概率找到最佳参数θmax取其均值构成超矢量。
全差异子空间公式如下:
M=m+Tω
其中,M表示某段语音的超矢量,m表示均值超矢量,T表示全差异子空间矩阵, 通过训练得到,ω表示i-vector特征向量;
步骤7,使用归一化公式,以i-vector特征为目标对时长特征进行归一化,进行拼接得到t-vector特征,然后进行LDA降维,得到lda-vector特征;
步骤8,将lda-vector特征输入到训练好的分类器中,获得输入语音帧序列的语种标签,分类器训练过程具体描述如下:
以全部训练数据的lda-vector为训练输入,以对应的语种标签为输出,训练机器学 习分类器,例如训练SVM、RandomForest或XGBoost。
与现有技术相比,本发明的一种基于拼接特征的语种特征提取方法具有以下积极技 术效果:
(1)结合了高层和底层声学特征这两种特征的优点;
(2)无需训练多个音素识别器,只需要提取高层声学特征;
(3)降低复杂度的同时,提高对语音信号的语种识别性能特别是语种识别准确率。
附图说明
图1为传统的语种识别方法示意图;
图2为本发明的一种语种特征提取方法实施例示意图;
图3为实施例的音素特征提取的具体流程示意图;
图4为实施例的声学特征和音素特征降维拼接的具体流程示意图;
图5为实施例的ivector特征提取的具体流程示意图;
图6为实施例的lda-vector特征生成的具体流程示意图;
图7为实施例的语种识别分类器训练和分类判别的具体流程示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
如图2所示,为本发明的一种基于拼接特征的语种识别方法的实现模型示意图,该方法具体包括以下步骤:
步骤1,对接收的输入语音信号进行分帧处理,获得语音帧序列;具体地,先对语音信号进行预加重处理,以减少尖锐噪声影响,提高信号质量,然后使用语音信号处理 技术的加汉明窗方法,得到每帧数据,其中选择汉明窗的窗长为25ms,窗移为10ms, 叠加部分为15ms;
步骤2,计算输入语音信号的帧序列的总数,作为时长特征;
步骤3,提取语音帧序列的底层声学特征,可以选择MFCC特征、FilterBank特征 或者PLP特征中的任意一种。为了描述方便后续都以MFCC特征为例,维度为N,计 算MFCC的一阶、二阶差分,并与原始MFCC特征进行拼接得到底层声学特征,维度 为N*3;
步骤4,为了利用语音帧上下文信息,对底层声学特征进行上下文扩展,将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特 征,音素特征都以PLLR特征为例,特征为维度为M;利用PPRLM抽取语音信号的高 层表示PLLR特征,具体地,第t帧进行扩展时,将相邻的前T_l帧特征与后T_r帧特 征与当前特征进行拼接,则得到的上下文扩展特征为(T_l+T_r+1)N维特征;将上下文扩 展特征输入到训练好的音素识别神经网络中,得到PLLR特征序列;音素识别神经网络 的具体描述,使用大量上下文扩展声学特征作为输入,对应的素序列标签作为输出,训 练时延深度神经网络TDNN;使用训练好的音素识别神经网络,对输入语音信号的帧序 列进行音素识别,得到语音帧序列的音素对数似然比序列作为PLLR特征,维度为M, 即该识别器可识别音素总数;如图3所示,为实施例的音素特征提取的具体流程示意图;
步骤5,比较底层声学特征维度N和PLLR特征维度M,选择维度较大者进行PCA 降维,然后以底层声学特征为目标进行归一化,再进行拼接,为了描述方便假定M>N, 则对PLLR特征进行PCA降维,目标维度为N,然后将降维后的PLLR以底层声学特 征为目标进行归一化,然后拼接两个特征得到2N维新的特征,作为拼接特征;
归一化公式:
其中,pmax、pmin分别表示底层声学特征中最大值和最小值;
qmax、qmin分别表示待归一化特征中最大值和最小值;
q、qnew分别表示原始特征和归一化后特征;
步骤6,将拼接特征输入到i-vector提取器中,提取得到语音帧序列的i-vector特征 表示;所述i-vector提取器包含两个子模块,即UBM模型模块和i-vector提取模块。如图5所示,为实施例的ivector特征提取的具体流程示意图。
训练UBM模型的具体描述如下:
GMM模型的公式如下:
其中,P(y|θ)表示GMM概率分布,y表示输入特征,θk表示第k个高斯分量参数, K表示GMM内高斯分量数,φ(y|θk)表示第k个高斯分量概率分布,αk表示每个高斯分 量权重;
参数θk的计算公式如下:
θk=(μk,δk)
其中,μk表示高斯分布均值,δk表示高斯分布方差;
使用GMM模型(高斯混合模型)对全部训练语音拼接特征的概率分布进行建模, 通过EM算法迭代训练得到GMM-UBM(通用背景模型universal background model), 训练时需要保证训练数据的均衡。使用GMM-UBM模型的所有分量的均值进行拼接得 到全部数据的分布均值进行拼接得到超矢量supervector。假设GMM-UBM有C个分量, 特征维度为F,那么最后得到的supervector的维度为C*F。然后对每段输入语音帧序列 使用MAP adaptation(最大后验概率自适应)方法在GMM-UBM模型上进行自适应, 得到的语音段均值超矢量supervector;
步骤7,使用归一化公式,以i-vector特征为目标对时长特征进行归一化,然后进行拼接,得到t-vector特征;然后进行LDA降维,得到lda-vector特征;
步骤8,将lda-vector特征输入到训练好的分类器中,获得输入语音帧序列的语种标签,分类器训练过程具体描述如下:
以全部训练数据的lda-vector为训练输入,以对应的语种标签为输出,训练机器学 习分类器,例如训练SVM、RandomForest或XGBoost。
如图4所示,为实施例的声学特征和音素特征降维拼接的具体流程示意图。LDA 降维具体描述:以全部训练数据的语种拼接特征为训练输入,以对应的语种标签为输出, 使数据类间距离最大类内距离最小原理,训练一个LDA降维矩阵,目标维度是所有语 种标签数减一。例如,识别语种数为10,则降维目标维度为9。
如图6所示,为实施例的lda-vector特征生成的具体流程示意图。具体处理如下:
根据如下全差异空间分公式M=m+Tω,其中:
M表示每段语音帧序列的supervector;
m代表某个语种全部数据分布均值超矢量均值mean of supervector;
T代表全差异空间分解矩阵;
ω代表分解因子,即每个语音帧序列特征的i-vector。
M和m都可以根据GMM-UBM模型进行自适应分布均值拼接求解得到,然后使用 EM算法迭代计算T矩阵,T矩阵就是i-vector提取器。
使用训练好的UBM通用背景模型,对输入语音帧序列先提取supervector,然后利用训练好的i-vector提取矩阵根据全差异空间分析方法提取输入语音的i-vector特征。
如图7所示,为实施例的语种识别分类器训练和分类判别的具体流程示意图,该流程以RandomForest为例。
所述底层声学特征可为以下任意一种:MFCC(Mel Frequency SepstrumCoefficient, Mel频率倒谱系数)特征、FilterBank(滤波器组)特征和PLP(PerceptualLinear Predictive, 感知线性预测系数)特征。
所述步骤5的上下文扩展声学特征的拼接方法,具体为:各帧声学特征(维度为F),与对应的前T_l后T_r帧特征进行拼接得到维度为(T_l+T_r+1)*F的上下文扩展声学 特征。
所述音素识别神经网络使用语音帧上下文扩展声学特征为输入,语音帧音素为标签 进行训练得到的深度神经网络模型,中间包含一层瓶颈层,最后输出为音素概率,不限选用语种,使用大量标注了音素标签的语音数据进行训练得到。
所述音素特征可以为以下任意一种:音素对数似然比PLLR特征、音素识别瓶颈层输出BNF特征。
所述降维操作(PCA),具体为:比较声学特征和音素特征维度大小,将其中较大 维度的特征降维到与较小维度相同维度,得到降维后的声学特征LowF2和音素特征 HighF2。需要HighF2按照LowF1进行归一化;需要时长特征按照i-vector进行归一化。
所述i-vector提取器,是使用全局差异空间(Total Variability Space)分析方法训练 得到的。
系统识别语种数量为Ln,LDA降维的目标维度是待识别语种数减一(Ln-1)。 所述分类器可以为以下任意一种:SVM、RandomForest、XGBoost。
Claims (8)
1.一种基于拼接特征的语种识别方法,其特征在于,该方法包括以下步骤:
步骤1,对接收的输入语音信号进行分帧处理,获得语音信号的帧序列;
步骤2,计算输入语音信号的帧序列的总数,作为时长特征;
步骤3,提取语音帧序列的底层声学特征;
步骤4,将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征;
步骤5,将上下文扩展声学特征输入到训练好的音素识别神经网络中,利用音素识别器进行音素识别,得到音素特征序列;
步骤6,比较底层声学特征维度N和PLLR特征维度M,选择维度较大者进行PCA降维,然后以底层声学特征为目标进行归一化,再进行拼接,作为拼接特征;
步骤6,将拼接特征输入到i-vector提取器中,提取得到语音帧序列的i-vector特征表示;其中i-vector提取器更包含UBM模型训练,具体描述如下:
使用GMM模型对全部训练语音拼接特征的概率分布进行建模,通过EM算法迭代训练得到训练数据的通用背景模型分布GMM-UBM模型,使用GMM-UBM模型的所有分量的均值进行拼接得到全部数据的分布均值,将分布平均值进行拼接得到超矢量m;
然后每段语音的语音拼接特征使用MAPadaptation方法对GMM-UBM模型进行线性插值,获得每段语音的分布超矢量M;
每段语音通过全差异子空间模型,计算得到i-vector特征;
GMM模型的公式如下:
其中,P(y|θ)表示GMM概率分布,y表示输入特征,θk表示第k个高斯分量参数,K表示GMM内高斯分量数,φ(y|θk)表示第k个高斯分量概率分布,αk表示每个高斯分量权重;
参数θk的计算公式如下:
θk=(μk,δk)
其中,μk表示高斯分布均值,δk表示高斯分布方差;
MAPadaptation的计算公式如下:
其中,F表示某段语音的帧序列,yf表示该帧特征;
通过最大后验概率找到最佳参数θmax取其均值构成超矢量。
全差异子空间公式如下:
M=m+Tω
其中,M表示某段语音的超矢量,m表示均值超矢量,T表示全差异子空间矩阵,通过训练得到,ω表示i-vector特征向量;
步骤7,使用归一化公式,以i-vector特征为目标对时长特征进行归一化,进行拼接得到t-vector特征,然后进行LDA降维,得到lda-vector特征;
步骤8,将lda-vector特征输入到训练好的分类器中,获得输入语音帧序列的语种标签,分类器训练过程具体描述如下:
以全部训练数据的lda-vector为训练输入,以对应的语种标签为输出,训练机器学习分类器。
2.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述底层声学特征为MFCC特征、FilterBank特征和PLP特征中的任意一种。
3.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述步骤5中上下文扩展声学特征的拼接方法,具体处理为:各帧声学特征(维度为F),与对应的前T_l后T_r帧特征进行拼接得到维度为(T_l+T_r+1)*F的上下文扩展声学特征。
4.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述音素识别器为使用语音帧上下文扩展声学特征为输入,语音帧音素为标签进行训练得到的深度神经网络模型,中间包含一层瓶颈层,最后输出为音素概率,不限选用语种,使用大量标注了音素标签的语音数据进行训练得到。
5.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述音素特征为音素对数似然比PLLR特征、音素识别瓶颈层输出BNF特征的任意一种。
6.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,通过所述降维处理后得到的是声学特征LowF2和音素特征HighF2。
7.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,若该方法的识别语种数量为Ln,则LDA降维的目标维度为待识别语种数减一,即Ln-1。
8.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述分类器为SVM、RandomForest、XGBoost中的任意一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010244083.4A CN111599344B (zh) | 2020-03-31 | 2020-03-31 | 一种基于拼接特征的语种识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010244083.4A CN111599344B (zh) | 2020-03-31 | 2020-03-31 | 一种基于拼接特征的语种识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111599344A true CN111599344A (zh) | 2020-08-28 |
CN111599344B CN111599344B (zh) | 2022-05-17 |
Family
ID=72192111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010244083.4A Active CN111599344B (zh) | 2020-03-31 | 2020-03-31 | 一种基于拼接特征的语种识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111599344B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530407A (zh) * | 2020-11-25 | 2021-03-19 | 北京快鱼电子股份公司 | 一种语种识别方法及系统 |
CN112530456A (zh) * | 2021-02-18 | 2021-03-19 | 北京远鉴信息技术有限公司 | 一种语言类别的识别方法、装置、电子设备及存储介质 |
CN113035177A (zh) * | 2021-03-11 | 2021-06-25 | 平安科技(深圳)有限公司 | 声学模型训练方法及装置 |
CN113160795A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 语种特征提取模型训练方法、装置、设备及存储介质 |
CN114626418A (zh) * | 2022-03-18 | 2022-06-14 | 中国人民解放军32802部队 | 一种基于多中心复残差网络的辐射源识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
US20180137109A1 (en) * | 2016-11-11 | 2018-05-17 | The Charles Stark Draper Laboratory, Inc. | Methodology for automatic multilingual speech recognition |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN110858477A (zh) * | 2018-08-13 | 2020-03-03 | 中国科学院声学研究所 | 一种基于降噪自动编码器的语种识别分类方法及装置 |
-
2020
- 2020-03-31 CN CN202010244083.4A patent/CN111599344B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137109A1 (en) * | 2016-11-11 | 2018-05-17 | The Charles Stark Draper Laboratory, Inc. | Methodology for automatic multilingual speech recognition |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN110858477A (zh) * | 2018-08-13 | 2020-03-03 | 中国科学院声学研究所 | 一种基于降噪自动编码器的语种识别分类方法及装置 |
Non-Patent Citations (3)
Title |
---|
DAVID SNYDER ET AL.: "《Deep Neural Network Embeddings for Text-Independent Speaker Verification》", 《INTERSPEECH 2017》 * |
EDDIE WONG ET AL.: "《METHODS TO IMPROVE GAUSSIAN MIXTURE MODEL BASED LANGUAGE IDENTIFICATION SYSTEM》", 《ICSLP 2002》 * |
李卓茜等: "《短语音及易混淆语种识别改进系统》", 《中文信息学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530407A (zh) * | 2020-11-25 | 2021-03-19 | 北京快鱼电子股份公司 | 一种语种识别方法及系统 |
CN112530407B (zh) * | 2020-11-25 | 2021-07-23 | 北京快鱼电子股份公司 | 一种语种识别方法及系统 |
CN112530456A (zh) * | 2021-02-18 | 2021-03-19 | 北京远鉴信息技术有限公司 | 一种语言类别的识别方法、装置、电子设备及存储介质 |
CN112530456B (zh) * | 2021-02-18 | 2021-05-28 | 北京远鉴信息技术有限公司 | 一种语言类别的识别方法、装置、电子设备及存储介质 |
CN113035177A (zh) * | 2021-03-11 | 2021-06-25 | 平安科技(深圳)有限公司 | 声学模型训练方法及装置 |
CN113160795A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 语种特征提取模型训练方法、装置、设备及存储介质 |
CN113160795B (zh) * | 2021-04-28 | 2024-03-05 | 平安科技(深圳)有限公司 | 语种特征提取模型训练方法、装置、设备及存储介质 |
CN114626418A (zh) * | 2022-03-18 | 2022-06-14 | 中国人民解放军32802部队 | 一种基于多中心复残差网络的辐射源识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111599344B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111599344B (zh) | 一种基于拼接特征的语种识别方法 | |
US9355642B2 (en) | Speaker recognition method through emotional model synthesis based on neighbors preserving principle | |
CN107146601B (zh) | 一种用于说话人识别系统的后端i-vector增强方法 | |
Zhou et al. | CNN with phonetic attention for text-independent speaker verification | |
McLaren et al. | Advances in deep neural network approaches to speaker recognition | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
EP2888669B1 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
US20110257976A1 (en) | Robust Speech Recognition | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
Bhosale et al. | End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios. | |
US7617101B2 (en) | Method and system for utterance verification | |
CN106548775A (zh) | 一种语音识别方法和系统 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN112133292A (zh) | 一种针对民航陆空通话领域的端到端的自动语音识别方法 | |
CN112216270A (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
Kannadaguli et al. | Phoneme modeling for speech recognition in Kannada using Hidden Markov Model | |
CN110265049A (zh) | 一种语音识别方法及语音识别系统 | |
Van Hout et al. | Tackling unseen acoustic conditions in query-by-example search using time and frequency convolution for multilingual deep bottleneck features | |
Lohrenz et al. | On temporal context information for hybrid BLSTM-based phoneme recognition | |
Kumar et al. | Confidence-features and confidence-scores for ASR applications in arbitration and DNN speaker adaptation. | |
Koiwa et al. | Coarse speech recognition by audio-visual integration based on missing feature theory | |
Ting et al. | Combining De-noising Auto-encoder and recurrent neural networks in end-to-end automatic speech recognition for noise robustness | |
Teimoori et al. | Unsupervised help-trained LS-SVR-based segmentation in speaker diarization system | |
CN107039046A (zh) | 一种基于特征融合的语音声效模式检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |