CN109065033A - 一种基于随机深度时延神经网络模型的自动语音识别方法 - Google Patents

一种基于随机深度时延神经网络模型的自动语音识别方法 Download PDF

Info

Publication number
CN109065033A
CN109065033A CN201811091089.1A CN201811091089A CN109065033A CN 109065033 A CN109065033 A CN 109065033A CN 201811091089 A CN201811091089 A CN 201811091089A CN 109065033 A CN109065033 A CN 109065033A
Authority
CN
China
Prior art keywords
model
tdnn
speech recognition
automatic speech
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811091089.1A
Other languages
English (en)
Other versions
CN109065033B (zh
Inventor
黄晓荣
张伟彬
徐向民
殷瑞祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201811091089.1A priority Critical patent/CN109065033B/zh
Publication of CN109065033A publication Critical patent/CN109065033A/zh
Application granted granted Critical
Publication of CN109065033B publication Critical patent/CN109065033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于自动语音识别技术领域,涉及一种基于随机深度时延神经网络模型的自动语音识别方法,包括:准备训练数据;对训练语音音频数据提取声学特征;训练传统GMM‑HMM模型,用训练好的GMM‑HMM模型对训练语音音频数据进行强制对齐,得到对应的帧级别训练标注;利用训练语音音频数据和对应的帧级别训练标注,对基于随机深度的时延神经网络模型进行监督训练,最终结合隐马尔科夫模型得到声学模型;利用对应的文本标注数据或者其他数据集的文本进行训练,得到训练好的语言模型;利用训练好的语言模型和声学模型,构建自动语音识别的解码器。本发明不仅提高了模型的建模能力,还解决了训练过程中过拟合以及梯度消失的问题,从而提高了语音识别的准确性。

Description

一种基于随机深度时延神经网络模型的自动语音识别方法
技术领域
本发明属于自动语音识别技术领域,涉及一种基于随机深度时延神经网络模型的自动语音识别方法。
背景技术
随着深度学习技术的不断发展,自动语音识别在实际应用中的范围也越来越广,如苹果Siri、亚马逊Alexa,且不断深度到人们的工作、学习和生活中。因此,对于鲁棒性、建模能力更强的模型的需求也越来越高。
自动语音识别的主要任务是寻求一种在能够有效地解决不同环境因素(如说话人、声道等)的前提下,达到同人类一样的识别率,解决思路是给定输入语音信号,提取合适的特征,通过声学模型和语言模型解码得到对应的文字。传统的声学建模使用混合高斯模型(GMM)对每个音素状态进行建模,但是这种模型存在几个缺点:首先,GMM对非线性建模不具有优势,对于一些复杂的信号(如语音)需要更多的参数才能到达到很好的效果;其次,GMM对于输入特征维度敏感,输入维度的增长带来模型参数的几何增长。
目前,深度神经网络(DNN)已经成为自动语音识别领域研究的热点。从DNN到卷积神经网络(CNN)、循环神经网络(RNN),都在自动语音识别的声学建模上取得了比较好的效果,因此深度学习已经成为语音识别的主流方案。延时神经网络(TDNN)最早用在音素识别任务,网络每一层在当前时刻的输入都是由前一层的某些时刻的输出拼接而成。有研究者在延时神经网络中引入子采样(sub-sampling),既减少了模型参数,又加快了模型的训练速度,此后TDNN开始成为自动语音识别中的主流声学模型之一。而后,在TDNN中引入长短时记忆模型(LSTM),赋予神经网络更强的序列建模能力。
现有的TDNN模型主要存在以下问题:
1.TDNN模型在每个上下文颗粒度建模时,只有一个TDNN层,其建模能力不足;
2.较深的TDNN模型会导致梯度消失问题,从而限制了神经网络的学习能力;
3.当采用较大的TDNN模型时,容易造成过拟合问题。
发明内容
针对现有技术的不足,本发明提供一种基于随机深度时延神经网络模型的自动语音识别方法,首先在基本TDNN网络框架上,对于每层TDNN,加入更多的DNN层,并在这些DNN层中引入随机深度,以提高模型的建模能力和鲁棒性。本发明不仅提高了模型的建模能力,也很好地解决了训练过程中的过拟合以及梯度消失的问题,从而提高了语音识别的准确性。
本发明所采用的技术方案是:
一种基于随机深度的时延神经网络模型的自动语音识别方法,包括以下步骤:
a.准备训练语音音频数据和对应的文本标注数据;
b.提取特征:对训练语音音频数据提取声学特征,形成特征向量序列;
c.训练传统的GMM-HMM模型,用训练好的GMM-HMM模型对训练语音音频数据进行强制对齐,得到对应的帧级别训练标注;
d利用训练音频数据和对应的帧级别训练标注,对基于随机深度的时延神经网络(TDNN-SD)模型进行监督训练,最终结合隐马尔科夫模型得到声学模型;
e.利用对应的文本标注数据或者其他数据集的文本进行训练,得到训练好的语言模型;
f.利用训练好的语言模型和声学模型,构建自动语音识别的解码器。
进一步地,步骤d中随机深度时延神经网络(TDNN-SD)模型的构建,包括以下步骤:
①.在原有的TDNN网络框架上,对于每一个拼接了上下文帧的TDNN层,加入g个DNN层;
②.对于每一个加入的DNN层,加入shortcut连接,构成DNN残差结构;
③.在DNN残差结构内部,加入随机深度结构,得到TDNN-SD模型。
进一步地,TDNN-SD模型由TDNN-SD块(又称TDNN-SD-block)组成,每个TDNN-SD-block包含一个TDNN层和g层DNN层,且在DNN层中引入随机深度,引入了随机深度的DNN层又称SD层;具体为:在TDNN模型的第k个TDNN层的基础上,加入g个DNN层,同时引入随机深度,形成第k个TDNN-SD块,增强了模型在每个上下文颗粒度时的建模能力。
在一个优选的实施例中,对于第k个TDNN-SD块,其输入的拼接帧配置为[-m,n],且加入2个DNN层(设置g=2),通过以下方程计算第k个块在t时刻的输出激活向量
其中,表示前一个TDNN-SD块在t-m时刻的输出激活向量,表示拼接第k-1个TDNN-SD块在t-m和t+n时刻的输出激活向量,作为第k个TDNN-SD块的输入向量,W0 k和b0 k表示第k个块中TDNN层的权重矩阵和偏置向量,W1 k、b1 k、W2 k和b2 k分别表示第k个块中添加的两个DNN层的权重矩阵和偏置向量;Φ表示随机深度的丢弃(dropout)函数。
与现有的技术相比,本发明的有益效果是:
(1)在原来TDNN模型的TDNN层中加入更多的DNN层,从而增强了每个TDNN层的建模能力。与传统的TDNN模型相比,其建模能力更强,鲁棒性更高。
(2)充分考虑随机深度和TDNN各自的优点,把随机深度嵌入到TDNN中,很好地解决了训练过程中的过拟合以及梯度消失的问题,提高了语音识别的准确性。
附图说明
图1为本发明一个实施例中的TDNN-SD架构图。
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
一种基于随机深度时延神经网络(TDNN-SD)模型的自动语音识别方法,充分考虑随机深度和TDNN各自的优点,把随机深度嵌入到TDNN中。TDNN作为一种长时依赖建模的模型,其计算效率和训练时间相比于循环神经网络更加高效。通过将随机深度嵌入到TDNN中,即在原来的TDNN中,对于每一个有上下帧拼接的TDNN层,引入随机深度网络,从而增强网络的建模能力和鲁棒性,解决训练过程中的过拟合以及梯度消失的问题,从而提高语音识别的准确性。
典型的语音识别系统由特征提取、声学模型、语言模型和解码器等组成。一种基于随机深度时延神经网络模型的自动语音识别方法,包括以下步骤:
S1.准备训练语音音频数据和对应的文本标注数据。
S2.提取特征,对训练语音音频数据提取声学特征,形成特征向量序列。
本实施例中,把训练音频数据每一帧波形变成一个包含声音信息的多维向量,对训练音频数据提取梅尔倒谱系数(MFCC)作为声学特征。
S3.训练传统的GMM-HMM模型,用训练好的GMM-HMM模型对训练语音音频数据进行强制对齐,得到对应的帧级别训练标注。
S4.利用训练音频数据和对应的帧级别训练标注,对基于随机深度的时延神经网络(TDNN-SD)模型进行监督训练,最终结合隐马尔科夫模型得到声学模型。
具体为:训练基于深度学习的DNN-HMM模型,利用训练语音音频数据和对应的帧级别训练标注,对声学模型进行监督训练,此处的深度神经网络模型(DNN)为基于随机深度时延神经网络模型。
随机深度的时延神经网络(TDNN-SD)模型如图1所示,通过以下步骤获得:
①.在原有的TDNN网络框架上,对于每一个TDNN层(这里的TDNN层指拼接了上下文帧的层),加入g个DNN层。
在每个TDNN层后加入更多的DNN层,以提高网络模型的学习能力。本实施例中,选取有4层TDNN层的TDNN模型为基础模型,其网络的拼接配置为{-1,0,1;-1,0,1;-2,2;-3,3}。对于每个TDNN层,加入2个DNN层。每个DNN层的维度与TDNN层一致,激活函数为Relu,激活函数后面加入Batch Normalization。
原有的TDNN模型由若干个TDNN层组成,每个TDNN层拼接前一个TDNN层在某些时刻的输出作为其输入。对于第k层,其输入的拼接帧配置为[-m,n],通过以下方程计算第k层在t时刻的输出激活向量
其中,表示前一个TDNN层在t-m时刻的输出激活向量,表示拼接第k-1个TDNN层在t-m和t+n时刻的输出激活向量,作为第k层的输入向量,Wk表示第k层的权重矩阵,bk表示第k层的偏置向量,f表示第k层的激活函数。
②.对于每一个加入的DNN层,加入shortcut连接,构成残差结构;
加入残差结构可以加快网络内部的信息传递,缓解梯度消失的问题。本实施例中,shortcut连接采用恒等映射,不包含其它的操作。
③.在DNN残差结构内部,加入随机深度结构,得到TDNN-SD模型。
在残差结构中加入随机深度的dropout,得到TDNN-SD模型,提高网络的鲁棒性。具体为:对于每一个加入的DNN层,在其残差结构内部加入per minibatch的丢弃函数,且在触发丢弃时丢弃整个激活向量,此时的模型称随机深度时延神经网络(TDNN-SD)模型。
TDNN-SD模型由TDNN-SD块(又称TDNN-SD-block)组成,每个TDNN-SD-block包含一个TDNN层和g层DNN层,且在DNN层中引入随机深度,引入了随机深度的DNN层又称SD层;具体为:在TDNN模型的第k个TDNN层的基础上,加入g个DNN层,同时引入随机深度,形成第k个TDNN-SD块,增强了模型在每个上下文颗粒度时的建模能力。
本实施例中,对于第k个TDNN-SD块,其输入的拼接帧配置为[-m,n],且加入2个DNN层(设置g=2),通过以下方程计算第k个块在t时刻的输出激活向量
其中,表示前一个TDNN-SD块在t-m时刻的输出激活向量,表示拼接第k-1个TDNN-SD块在t-m和t+n时刻的输出激活向量,作为第k个TDNN-SD块的输入向量,W0 k和b0 k表示第k个块中TDNN层的权重矩阵和偏置向量,W1 k、b1 k、W2 k和b2 k分别表示第k个块中添加的两个DNN层的权重矩阵和偏置向量;Φ表示随机深度的丢弃(dropout)函数。
不同于传统的dropout方法,随机深度丢弃以基本残差网络模型(ResNets)作为基础模型,在所有残差块中加入随机深度丢弃函数。随机深度丢弃函数是以minibatch为单位,且在触发丢弃时直接将该残差块的整个输出向量设置为0向量。此外,与传统的丢弃函数不同,丢弃函数的概率随着训练进行不断变化,丢弃函数的配置为0@0、p@0.5和0@1,即将整个训练过程看成1,在训练开始时丢弃概率为0;训练到一半的时候,丢弃概率线性增长到p;到训练结束的时候,丢弃概率线性减少到0。本实施例中,丢弃概率p设置为0.3可以达到比较好的效果。
与普通的残差结构不同,加入随机深度后,在训练时随机断开一些残差映射支路,减少各个通路的依赖性,迫使神经网络每个通路都能够充分学习。
S5.利用对应的文本标注数据或者其他数据集的文本进行训练,得到训练好的语言模型。
S6.利用训练好的语言模型和声学模型,构建自动语音识别的解码器。
本实施例中,解码器采用加权有限状态转换器(WFST)实现。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于随机深度时延神经网络模型的自动语音识别方法,其特征在于,包括:
a.准备训练语音音频数据和对应的文本标注数据;
b.提取特征:对训练语音音频数据提取声学特征,形成特征向量序列;
c.训练传统的GMM-HMM模型,用训练好的GMM-HMM模型对训练语音音频数据进行强制对齐,得到对应的帧级别训练标注;
d.利用训练语音音频数据和对应的帧级别训练标注,对基于随机深度的时延神经网络模型进行监督训练,最终结合隐马尔科夫模型得到声学模型;
e.利用对应的文本标注数据或者其他数据集的文本进行训练,得到训练好的语言模型;
f.利用训练好的语言模型和声学模型,构建自动语音识别的解码器。
2.根据权利要求1所述的自动语音识别方法,其特征在于,步骤d中随机深度时延神经网络模型由以下步骤构建而成:
①.在原有的TDNN网络框架上,对于每一个拼接了上下文帧的TDNN层,加入g个DNN层;
②.对于每一个加入的DNN层,加入shortcut连接,构成DNN残差结构;
③.在DNN残差结构内部,加入随机深度结构,得到TDNN-SD模型。
3.根据权利要求2所述的自动语音识别方法,其特征在于,步骤②中shortcut连接采用恒等映射。
4.根据权利要求2所述的自动语音识别方法,其特征在于,步骤③中随机深度结构以基本残差网络模型作为基础模型,在所有残差块中加入随机深度丢弃函数。
5.根据权利要求4所述的自动语音识别方法,其特征在于,随机深度丢弃函数以minibatch为单位,且在触发丢弃时直接将该残差块的整个输出向量设置为0向量。
6.根据权利要求5所述的自动语音识别方法,其特征在于,随机深度丢弃函数的配置为0@0、p@0.5和0@1。
7.根据权利要求5所述的自动语音识别方法,其特征在于,丢弃函数的丢弃概率p=0.3。
8.根据权利要求2-7中任一项所述的自动语音识别方法,其特征在于,深度时延神经网络模型中对于每个TDNN层,加入2个DNN层,每个DNN层的维度与TDNN层一致,激活函数为Relu,激活函数后面加入Batch Normalization。
9.根据权利要求2-7中任一项所述的自动语音识别方法,其特征在于,深度时延神经网络模型中对于第k个TDNN-SD块,其输入的拼接帧配置为[-m,n],加入2个DNN层,通过以下方程计算第k个块在t时刻的输出激活向量
其中,表示前一个TDNN-SD块在t-m时刻的输出激活向量,表示拼接第k-1个TDNN-SD块在t-m和t+n时刻的输出激活向量,作为第k个TDNN-SD块的输入向量,W0 k和b0 k表示第k个块中TDNN层的权重矩阵和偏置向量,W1 k、b1 k、W2 k和b2 k分别表示第k个块中添加的两个DNN层的权重矩阵和偏置向量;Φ表示随机深度的丢弃函数。
CN201811091089.1A 2018-09-19 2018-09-19 一种基于随机深度时延神经网络模型的自动语音识别方法 Active CN109065033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811091089.1A CN109065033B (zh) 2018-09-19 2018-09-19 一种基于随机深度时延神经网络模型的自动语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811091089.1A CN109065033B (zh) 2018-09-19 2018-09-19 一种基于随机深度时延神经网络模型的自动语音识别方法

Publications (2)

Publication Number Publication Date
CN109065033A true CN109065033A (zh) 2018-12-21
CN109065033B CN109065033B (zh) 2021-03-30

Family

ID=64762091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811091089.1A Active CN109065033B (zh) 2018-09-19 2018-09-19 一种基于随机深度时延神经网络模型的自动语音识别方法

Country Status (1)

Country Link
CN (1) CN109065033B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859743A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN110689879A (zh) * 2019-10-10 2020-01-14 中国科学院自动化研究所 端到端语音转写模型的训练方法、系统、装置
CN110992942A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN111402893A (zh) * 2020-03-23 2020-07-10 北京达佳互联信息技术有限公司 语音识别模型确定方法、语音识别方法及装置、电子设备
CN112289297A (zh) * 2019-07-25 2021-01-29 阿里巴巴集团控股有限公司 语音合成方法、装置和系统
CN112614122A (zh) * 2020-12-29 2021-04-06 辽宁科技大学 一种基于矿石研磨图像的元素分析方法
CN112862100A (zh) * 2021-01-29 2021-05-28 网易有道信息技术(北京)有限公司 用于优化神经网络模型推理的方法及设备
CN112992157A (zh) * 2021-02-08 2021-06-18 贵州师范大学 一种基于残差和批量归一化的神经网络带噪声纹识别方法
CN113223504A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 声学模型的训练方法、装置、设备和存储介质
CN113327616A (zh) * 2021-06-02 2021-08-31 广东电网有限责任公司 声纹识别方法、装置、电子设备及存储介质
CN113555023A (zh) * 2021-09-18 2021-10-26 中国科学院自动化研究所 一种语音鉴伪与说话人识别联合建模的方法
CN113724731A (zh) * 2021-08-30 2021-11-30 中国科学院声学研究所 利用音频判别模型进行音频判别的方法和装置
CN114360517A (zh) * 2021-12-17 2022-04-15 天翼爱音乐文化科技有限公司 一种复杂环境下的音频处理方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980076348A (ko) * 1997-04-09 1998-11-16 정명식 계층적 피드백 구조를 갖는 음성인식시스템
CN106919897A (zh) * 2016-12-30 2017-07-04 华北电力大学(保定) 一种基于三级残差网络的人脸图像年龄估计方法
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN108022587A (zh) * 2017-12-15 2018-05-11 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
US20180174575A1 (en) * 2016-12-21 2018-06-21 Google Llc Complex linear projection for acoustic modeling
CN108320740A (zh) * 2017-12-29 2018-07-24 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
GB2560174A (en) * 2017-03-01 2018-09-05 Toshiba Kk A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980076348A (ko) * 1997-04-09 1998-11-16 정명식 계층적 피드백 구조를 갖는 음성인식시스템
US20180174575A1 (en) * 2016-12-21 2018-06-21 Google Llc Complex linear projection for acoustic modeling
CN106919897A (zh) * 2016-12-30 2017-07-04 华北电力大学(保定) 一种基于三级残差网络的人脸图像年龄估计方法
GB2560174A (en) * 2017-03-01 2018-09-05 Toshiba Kk A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN108022587A (zh) * 2017-12-15 2018-05-11 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN108320740A (zh) * 2017-12-29 2018-07-24 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GAO HUANG等: "Deep Networks with Stochastic Depth", 《ECCV 2016: COMPUTER VISION》 *
GAOFENG CHENG等: "An Exploration of Dropout with LSTMs", 《NTERSPEECH 2017》 *
张红伟: "基于深度神经网络的蒙古语语音识别系统", 《中国优秀硕士学位论文全文数据库》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859743B (zh) * 2019-01-29 2023-12-08 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN109859743A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
US11482208B2 (en) 2019-06-03 2022-10-25 Beijing Dajia Internet Information Technology Co., Ltd. Method, device and storage medium for speech recognition
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN112289297A (zh) * 2019-07-25 2021-01-29 阿里巴巴集团控股有限公司 语音合成方法、装置和系统
CN110689879A (zh) * 2019-10-10 2020-01-14 中国科学院自动化研究所 端到端语音转写模型的训练方法、系统、装置
CN110689879B (zh) * 2019-10-10 2022-02-25 中国科学院自动化研究所 端到端语音转写模型的训练方法、系统、装置
CN110992942A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN110992942B (zh) * 2019-11-29 2022-07-08 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN111402893A (zh) * 2020-03-23 2020-07-10 北京达佳互联信息技术有限公司 语音识别模型确定方法、语音识别方法及装置、电子设备
CN112614122A (zh) * 2020-12-29 2021-04-06 辽宁科技大学 一种基于矿石研磨图像的元素分析方法
CN112614122B (zh) * 2020-12-29 2024-04-09 辽宁科技大学 一种基于矿石研磨图像的元素分析方法
CN112862100A (zh) * 2021-01-29 2021-05-28 网易有道信息技术(北京)有限公司 用于优化神经网络模型推理的方法及设备
CN112992157A (zh) * 2021-02-08 2021-06-18 贵州师范大学 一种基于残差和批量归一化的神经网络带噪声纹识别方法
CN113223504B (zh) * 2021-04-30 2023-12-26 平安科技(深圳)有限公司 声学模型的训练方法、装置、设备和存储介质
CN113223504A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 声学模型的训练方法、装置、设备和存储介质
CN113327616A (zh) * 2021-06-02 2021-08-31 广东电网有限责任公司 声纹识别方法、装置、电子设备及存储介质
CN113724731A (zh) * 2021-08-30 2021-11-30 中国科学院声学研究所 利用音频判别模型进行音频判别的方法和装置
CN113724731B (zh) * 2021-08-30 2024-01-05 中国科学院声学研究所 利用音频判别模型进行音频判别的方法和装置
CN113555023B (zh) * 2021-09-18 2022-01-11 中国科学院自动化研究所 一种语音鉴伪与说话人识别联合建模的方法
CN113555023A (zh) * 2021-09-18 2021-10-26 中国科学院自动化研究所 一种语音鉴伪与说话人识别联合建模的方法
CN114360517A (zh) * 2021-12-17 2022-04-15 天翼爱音乐文化科技有限公司 一种复杂环境下的音频处理方法、装置及存储介质
CN114360517B (zh) * 2021-12-17 2023-04-18 天翼爱音乐文化科技有限公司 一种复杂环境下的音频处理方法、装置及存储介质

Also Published As

Publication number Publication date
CN109065033B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN109065033A (zh) 一种基于随机深度时延神经网络模型的自动语音识别方法
Sun et al. Speech emotion recognition based on DNN-decision tree SVM model
CN107437415B (zh) 一种智能语音交互方法及系统
CN107545903B (zh) 一种基于深度学习的语音转换方法
CN106056207B (zh) 一种基于自然语言的机器人深度交互与推理方法与装置
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN105702250B (zh) 语音识别方法和装置
CN110223714B (zh) 一种基于语音的情绪识别方法
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109243494B (zh) 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN109767778A (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN109036467B (zh) 基于tf-lstm的cffd提取方法、语音情感识别方法及系统
CN109192213A (zh) 庭审语音实时转写方法、装置、计算机设备及存储介质
Bhosale et al. End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios.
CN111460143A (zh) 一种多人对话系统的情绪识别模型
WO2021051628A1 (zh) 构建语音识别模型的方法、装置、设备和存储介质
CN110070855A (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN109377981A (zh) 音素对齐的方法及装置
CN113393832A (zh) 一种基于全局情感编码的虚拟人动画合成方法及系统
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
CN107452374B (zh) 基于单向自标注辅助信息的多视角语言识别方法
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
CN113837072A (zh) 一种融合多维信息的说话人情绪感知方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant