CN109616105A - 一种基于迁移学习的带噪语音识别方法 - Google Patents

一种基于迁移学习的带噪语音识别方法 Download PDF

Info

Publication number
CN109616105A
CN109616105A CN201811454937.0A CN201811454937A CN109616105A CN 109616105 A CN109616105 A CN 109616105A CN 201811454937 A CN201811454937 A CN 201811454937A CN 109616105 A CN109616105 A CN 109616105A
Authority
CN
China
Prior art keywords
model
noisy speech
feature
transfer learning
recognition methods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811454937.0A
Other languages
English (en)
Inventor
潘成华
李参宏
万莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Net Into Polytron Technologies Inc
Original Assignee
Jiangsu Net Into Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Net Into Polytron Technologies Inc filed Critical Jiangsu Net Into Polytron Technologies Inc
Priority to CN201811454937.0A priority Critical patent/CN109616105A/zh
Publication of CN109616105A publication Critical patent/CN109616105A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提出一种基于迁移学习的带噪语音识别方法,所述方法包括判断迁移学习是否适用于带噪语音的声学建模,若是,则建立教师模型和学生模型,并利用教师模型指导学生模型进行训练,本发明实施例提出的基于迁移学习的带噪语音识别方法,利用教师模型指导学生模型进行训练,能够有效地将教师模型中的后验概率信息迁移至学生模型中,从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒性。使得系统在带噪语音环境下的识别准确率有了提升。

Description

一种基于迁移学习的带噪语音识别方法
技术领域
本发明涉及信号处理领域,具体的涉及到一种基于迁移学习的带噪语音识别方法。
背景技术
随着语音识别技术的发展,噪声成为语音识别系统广泛实用化的关键因素。目前已有的解决噪声环境下语音识别鲁棒性的主要方法有:(1)采用自适应算法训练鲁棒性声学模型;(2)直接利用带噪语音数据训练声学模型;(3)先对带噪语音进行增强处理,然后利用处理后的数据训练声学模型。这三种方法都是在干净语音和带噪语音的平行数据已知的前提下进行的,且在方法上或将干净语音直接作为训练数据,或将其作为降噪处理的参考标准,并未最大限度地挖掘干净语音的知识。
中国专利CN201110258884.7一种基于MFCC远距离差值的鲁棒语音识别方法,采用远距离差值作为语音识别特征参数,但该专利不能将老师模型中的后验概率信息迁移至学生模型中,从而提高声学模型在带噪数据集上的鲁棒性。
发明内容
基于上述问题,本发明的目的旨在至少解决所述技术缺陷之一。提出一种基于迁移学习的带噪语音识别方法,利用教师模型指导学生模型进行训练,能够有效地将教师模型中的后验概率信息迁移至学生模型中,从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒。为实现上述目的,本发明采用如下技术方案:
一种基于迁移学习的带噪语音识别方法,所述方法包括:
判断迁移学习是否适用于带噪语音的声学建模,若是,则建立教师模型和学生模型,并利用教师模型指导学生模型进行训练。
优选的,所述判断迁移学习是否适用于带噪语音的声学建模的步骤包括:
采用MFCC提取干净语音和带噪语音的特征并构成特征向量;
计算干净语音特征向量和带噪语音特征向量之间的最大均值差异MMD;
判断所述MMD是否小于阈值,若是,则适用于带噪语音的声学建模。
优选的,所述利用教师模型指导学生模型进行训练的方法包括:
采用MFCC提取干净语音和带噪语音的特征并构成特征向量;
生成GMM-HMM模型;
生成硬标签;
训练老师模型;
生成软标签;
训练学生模型。
优选的,所述采用MFCC提取干净语音和带噪语音的特征并构成特征向量的步骤包括:
对语音进行预加重、分帧和加窗处理后对每一个短时分析窗通过FFT得到对应的频谱,并通过滤波器组得到Mel频谱,并在Mel频谱上进行倒谱分析。
优选的,所述生成GMM-HMM模型的步骤包括:将采用MFCC提取的语音特征用高斯混合模型区模拟,再把均值和方差输入到HMM的模型中,其中GMM-HMM用于生成强制对齐信息,即硬标签。
优选的,所述生成硬标签的步骤包括:
通过提取的干净语音的特征,训练一个GMM-HMM模型,然后通过帧级别的强制对齐得到每帧数据的硬标签。
优选的,所述生成软标签的步骤包括:
将提取的干净语音的特征作为老师模型的输入,利用前向算法计算其后验概率分布,即为软标签。
优选的,所述训练学生模型的步骤包括:
利用提取的干净语音的特征和带噪语音的特征的平行关系,将提取的带噪语音的特征和干净语音的软标签进行对齐,得到带噪语音的特征的软标签,再利用该特征和其软标签训练学生模型。
优选的,在学生模型训练的过程中,老师模型的参数保持不变,仅更新学生模型参数。
相对于现有技术中的方案,本发明的优点:
本发明实施例提出的基于迁移学习的带噪语音识别方法,利用教师模型指导学生模型进行训练,能够有效地将教师模型中的后验概率信息迁移至学生模型中,从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒性。使得系统在带噪语音环境下的识别准确率有了提升。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明判断迁移学习是否适用于带噪语音的声学建模的流程示意图。
图2为利用教师模型指导学生模型训练的流程示意图。
图3为利用教师模型指导学生模型训练的流程示意图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以如具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
本申请公开了一种基于迁移学习的带噪语音识别方法,所述方法包括判断迁移学习是否适用于带噪语音的声学建模,若是,则建立教师模型和学生模型,并利用教师模型指导学生模型进行训练。
在本发明的其中一实施例中,请参考图1所示为本发明判断迁移学习是否适用于带噪语音的声学建模的流程示意图。如图1所示,判断迁移学习是否适用于带噪语音的声学建模的步骤包括:
步骤S1,采用MFCC提取干净语音和带噪语音的特征并构成特征向量;本系统采用MFCC进行特征提取,提取过程为,先对语音进行预加重、分帧和加窗,再对每一个短时分析窗通过FFT得到对应的频谱,并通过滤波器组得到Mel频谱,最后在Mel频谱上进行倒谱分析,即取对数,坐逆变换,实际逆变换一般通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数,获得Mel频谱倒谱系数MFCC,这个MFCC就是这帧语音的特征。这时,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量。
步骤S2,计算干净语音特征向量和带噪语音特征向量之间的最大均值差异MMD,这是迁移学习中使用频度最高的相似度度量准则,迁移学习只能在一定相似度范围内才能进行迁移。两个随机变量的MMD平方距离为
步骤S3,判断MMD是否小于阈值,若计算求得MMD的值小于阀值,则执行步骤S4,使用迁移学习来训练语音识别系统的声学建模中。
请参考图2、图3所示为利用教师模型指导学生模型训练的流程示意图,所述方法包括以下步骤:
步骤S10,采用MFCC分别提取干净语音和带噪语音的特征并构成特征向量;本系统采用MFCC进行特征提取,提取过程为,先对语音进行预加重、分帧和加窗,再对每一个短时分析窗通过FFT得到对应的频谱,并通过滤波器组得到Mel频谱,最后在Mel频谱上进行倒谱分析,即取对数,坐逆变换,实际逆变换一般通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数,获得Mel频谱倒谱系数MFCC,这个MFCC就是这帧语音的特征。这时,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量。
步骤S20,生成GMM-HMM模型:把通过MFCC提取的干净语音特征用高斯混合模型区模拟,再把均值和方差输入到HMM的模型中。GMM-HMM用于生成强制对齐信息,即硬标签。
步骤S30,生成硬标签:仅用干净语音提取特征,训练一个GMM-HMM模型,然后通过帧级别的强制对齐得到每帧数据的硬标签thard。硬标签由0、1构成的向量,比如某一帧数据的硬标签为[0 0 1 0],词向量代表该帧属于标签三的概率为1,属于其他标签的概率都为0。
步骤S40,训练老师模型:本发明将教师模型设为不同结构的神经网络,CNN、DNN、LSTM和BLSTM。CNN和LSTM在语音识别任务中可以获得比DNN更好的性能提升,对建模能力来说,CNN擅长减小频域变化,LSTM可以提供长时记忆,而DNN适合将特征映射到独立空间,将CNN,LSTM,DNN等串起来融合到一个网络中,获得比单独网络更好的性能。
步骤S50,生成软标签:用干净语音的特征xc作为教师模型的输入,利用前向算法计算其后验概率分布(软标签tsoft)。假设[0.02 0.1 0.830.03 0.01 0.01]为某一帧数据的软标签,此向量代表属于标签1的概率为0.02,属于标签2的概率为0.1,其他以此类推。
步骤S60,训练学生模型:首先利用干净语音和带噪语音的平行关系,将带噪语音提取的特征x和干净语音的软标签tsoft进行对齐,得到带噪语音特征x的软标签,再利用该特征和其软标签训练学生模型。在学生模型训练的过程中,老师模型的参数保持不变,仅更新学生模型参数。
本发明的迁移学习是将教师模型的后验概率分布知识迁移到学生模型的训练中,学生模型在训练的过程中,尽量逼近教师模型的后验概率分布,模仿教师的行为。二者之间后验概率分布的差异用相对熵来最小化。
假设Pc代表教师模型的后延概率分布,Q代表学生模型的后验概率分布,那么二者之间的后验概率分布差异可以表示为
在学生模型训练过程中,需要最小化式(1),表示为
DKL(Pc||Q)=H(Pc,Q)-H(Pc) (2)
其中,H(Pc,Q)=∑i-Pc(si|xc)lnQ(si|x) (3)
H(Pc)=∑i-Pc(si|xc)lnPc(si|xc) (4)
i表示三因子状态的下标,si表示第i个三因子状态,xc表示干净语音的特征,x表示带噪语音的特征,Pc(si|xc)表示特征xc被识别为第i个三因子状态的后验证概率,该后验概率由教师模型采用前向算法计算得到,Q(si|x)表示特征x被识别为第i个三因子状态的后验概率。式(4)只与教师模型的后验概率分布有关,与学生模型的后验概率分布无关,故可忽略,由此可得
DKL(Pc||Q)≡∑i-Pc(si|xc)lnQ(si|x) (5)
式(5)的最小值即求交叉熵的最小值。标准交叉熵训练准则中分类标签是三因子状态的由0、1构成的向量(硬标签),而式(5)中的分类标签为老师模型计算所得的后验概率分布(软标签)。因此,对式(5)进行优化时,只需将标准交叉熵准则中的硬标签替换成软标签即可。
在教师模型的指导下,学生模型在各种信噪比环境下都能获得明显的性能提升,特别是对低信噪比数据的性能提升尤为显著。其主要原因有:教师模型对干净语音中的音素特征能较好地感知和准确地建模,而带噪语音的音素特征受到干扰甚至破坏,故而不能被准确感知。与带噪语音相比,干净语音利用GMM-HMM生成的硬标签具有更高的准确率;软标签含有更为丰富的信息,GMM-HMM生成的硬标签为0、1构成的向量,而教师模型的后验概率分布是一种软标签,它是概率值向量,软标签含有更丰富的排名信息,不仅含有每帧数据最有可能的标签,还包含潜在可能标签的概率信息,故学生模型不但能利用这些丰富的信息进行更好的建模,亦可依据这些信息纠正部分错误的标签。
本发明采用迁移学习对带噪语音进行声学建模,即利用教师模型指导学生模型进行训练,能够有效地将教师模型中的后验概率信息迁移至学生模型中,从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒性。使得本发明在带噪语音环境下的识别准确率有了提升。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡如本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于迁移学习的带噪语音识别方法,其特征在于,所述方法包括判断迁移学习是否适用于带噪语音的声学建模,若是,则建立教师模型和学生模型,并利用教师模型指导学生模型进行训练。
2.根据权利要求1所述的基于迁移学习的带噪语音识别方法,其特征在于,所述判断迁移学习是否适用于带噪语音的声学建模的步骤包括:
采用MFCC提取干净语音和带噪语音的特征并构成特征向量;
计算干净语音特征向量和带噪语音特征向量之间的最大均值差异MMD;
判断所述MMD是否小于阈值,若是,则适用于带噪语音的声学建模。
3.根据权利要求1所述的基于迁移学习的带噪语音识别方法,其特征在于,所述利用教师模型指导学生模型进行训练的方法包括:
采用MFCC提取干净语音和带噪语音的特征并构成特征向量;
生成GMM-HMM模型;
生成硬标签;
训练老师模型;
生成软标签;
训练学生模型。
4.根据权利要求2所述的基于迁移学习的带噪语音识别方法,其特征在于,所述采用MFCC提取干净语音和带噪语音的特征并构成特征向量的步骤包括:
对语音进行预加重、分帧和加窗处理后对每一个短时分析窗通过FFT得到对应的频谱,并通过滤波器组得到Mel频谱,并在Mel频谱上进行倒谱分析。
5.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述生成GMM-HMM模型的步骤包括:
把通过MFCC提取的干净语音特征用高斯混合模型区模拟,再把均值和方差输入到HMM的模型中,其中GMM-HMM用于生成强制对齐信息,即硬标签。
6.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述生成硬标签的步骤包括:
通过提取的干净语音的特征,训练一个GMM-HMM模型,然后通过帧级别的强制对齐得到每帧数据的硬标签。
7.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述生成软标签的步骤包括:
将提取的干净语音的特征作为老师模型的输入,利用前向算法计算其后验概率分布,即为软标签。
8.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述训练学生模型的步骤包括:
利用提取的干净语音的特征和带噪语音的特征的平行关系,将提取的带噪语音的特征和干净语音的软标签进行对齐,得到带噪语音的特征的软标签,再利用该特征和其软标签训练学生模型。
9.根据权利要求8所述的基于迁移学习的带噪语音识别方法,其特征在于,在学生模型训练的过程中,老师模型的参数保持不变,仅更新学生模型参数。
CN201811454937.0A 2018-11-30 2018-11-30 一种基于迁移学习的带噪语音识别方法 Pending CN109616105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811454937.0A CN109616105A (zh) 2018-11-30 2018-11-30 一种基于迁移学习的带噪语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811454937.0A CN109616105A (zh) 2018-11-30 2018-11-30 一种基于迁移学习的带噪语音识别方法

Publications (1)

Publication Number Publication Date
CN109616105A true CN109616105A (zh) 2019-04-12

Family

ID=66006520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811454937.0A Pending CN109616105A (zh) 2018-11-30 2018-11-30 一种基于迁移学习的带噪语音识别方法

Country Status (1)

Country Link
CN (1) CN109616105A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及系统
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN111210803A (zh) * 2020-04-21 2020-05-29 南京硅基智能科技有限公司 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法
CN111862065A (zh) * 2020-07-28 2020-10-30 国电南瑞科技股份有限公司 基于多任务深度卷积神经网络的输电线路诊断方法和系统
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN113569940A (zh) * 2021-07-23 2021-10-29 中山大学 一种基于知识迁移和概率校正的少样本目标检测方法
CN115359784A (zh) * 2022-10-21 2022-11-18 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及系统
CN117649861A (zh) * 2023-10-31 2024-03-05 北京邮电大学 基于帧级别情感状态对齐的语音情感识别方法和系统
CN117975945A (zh) * 2024-03-28 2024-05-03 深圳市友杰智新科技有限公司 提升带噪语音识别率的网络生成方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161927A (ja) * 2014-02-28 2015-09-07 国立研究開発法人情報通信研究機構 音響モデル生成装置、音響モデルの生産方法、およびプログラム
CN107481717A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种声学模型训练方法及系统
CN107610709A (zh) * 2017-08-01 2018-01-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161927A (ja) * 2014-02-28 2015-09-07 国立研究開発法人情報通信研究機構 音響モデル生成装置、音響モデルの生産方法、およびプログラム
CN107481717A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种声学模型训练方法及系统
CN107610709A (zh) * 2017-08-01 2018-01-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
易江燕 等: ""基于迁移学习的噪声鲁棒语音识别声学建模"", 《清华大学学报(自然科学版)》 *
易江燕 等: ""基于迁移学习的鲁棒语音识别声学建模方法"", 《第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246487B (zh) * 2019-06-13 2021-06-22 思必驰科技股份有限公司 用于单通道的语音识别模型的优化方法及系统
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及系统
CN110852426B (zh) * 2019-11-19 2023-03-24 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN112786026B (zh) * 2019-12-31 2024-05-07 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN111210803A (zh) * 2020-04-21 2020-05-29 南京硅基智能科技有限公司 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法
CN111862065A (zh) * 2020-07-28 2020-10-30 国电南瑞科技股份有限公司 基于多任务深度卷积神经网络的输电线路诊断方法和系统
CN111862065B (zh) * 2020-07-28 2022-08-26 国电南瑞科技股份有限公司 基于多任务深度卷积神经网络的输电线路诊断方法和系统
CN113569940A (zh) * 2021-07-23 2021-10-29 中山大学 一种基于知识迁移和概率校正的少样本目标检测方法
CN113569940B (zh) * 2021-07-23 2023-06-06 中山大学 一种基于知识迁移和概率校正的少样本目标检测方法
CN115359784B (zh) * 2022-10-21 2023-01-17 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及系统
CN115359784A (zh) * 2022-10-21 2022-11-18 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及系统
CN117649861A (zh) * 2023-10-31 2024-03-05 北京邮电大学 基于帧级别情感状态对齐的语音情感识别方法和系统
CN117975945A (zh) * 2024-03-28 2024-05-03 深圳市友杰智新科技有限公司 提升带噪语音识别率的网络生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109616105A (zh) 一种基于迁移学习的带噪语音识别方法
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN108962237A (zh) 混合语音识别方法、装置及计算机可读存储介质
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN113516968B (zh) 一种端到端长时语音识别方法
CN108694949B (zh) 基于重排序超向量和残差网络的说话人识别方法及其装置
CN107871496B (zh) 语音识别方法和装置
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
CN108986788A (zh) 一种基于后验知识监督的噪声鲁棒声学建模方法
CN106683677A (zh) 语音识别方法及装置
CN101315733B (zh) 一种针对计算机语言学习系统发音评测的自适应方法
CN109754812A (zh) 一种基于卷积神经网络的防录音攻击检测的声纹认证方法
CN106340297A (zh) 一种基于云计算与置信度计算的语音识别方法与系统
CN104575490A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及系统
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN113488058A (zh) 一种基于短语音的声纹识别方法
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN110349597A (zh) 一种语音检测方法及装置
CN109712609A (zh) 一种解决关键词识别样本不均衡的方法
CN110349588A (zh) 一种基于词嵌入的lstm网络声纹识别方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN109410956A (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190412