CN109616100A - 语音识别模型的生成方法及其装置 - Google Patents
语音识别模型的生成方法及其装置 Download PDFInfo
- Publication number
- CN109616100A CN109616100A CN201910005075.1A CN201910005075A CN109616100A CN 109616100 A CN109616100 A CN 109616100A CN 201910005075 A CN201910005075 A CN 201910005075A CN 109616100 A CN109616100 A CN 109616100A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- sample speech
- sample
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本发明公开了一种语音识别模型的生成方法及其装置。其中,方法包括:获取多种环境下的噪声信号,以及无噪声的样本语音信号。根据多种环境下的噪声信号和无噪声的样本语音信号,生成多种带噪声的样本语音信号。使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型。其中,样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。由此,实现了使用不同的样本语音信号对深度神经网络进行训练,以生成能够应对不同环境噪声的语音识别模型,增强了语音识别模型的鲁棒性。解决了现有技术中不能对不同环境下的噪声进行处理的技术问题。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别模型的生成方法及其装置。
背景技术
语音识别以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,把语音信号转化为相应的文本或命令。传统语音识别主要解决了安静环境下的语音识别问题,当用户在噪音环境下使用语音识别服务时,语音识别的准确度会受到噪声的影响。
相关技术中,通过信号处理来降低噪音并且提高语音信号强度,使得语音识别模型能够准确地识别出信号中的真实语音。但是信号处理方式不能对不同环境下的噪声进行处理,具有很大的局限性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音识别模型的生成方法,以使得生成的语音识别模型能够应对不同环境噪声,增强了语音识别模型的鲁棒性。
本发明的第二个目的在于提出一种语音识别模型的生成装置。
本发明的第三个目的在于提出一种计算机程序产品。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种语音识别模型的生成方法,包括:获取多种环境下的噪声信号,以及无噪声的样本语音信号;根据所述多种环境下的噪声信号和所述无噪声的样本语音信号,生成多种带噪声的样本语音信号;以及使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型,其中,所述样本语音信号包括所述多种带噪声的样本语音信号和所述无噪声的样本语音信号。
和现有技术相比,本发明实施例使用不同环境下的带噪声语音信号和无噪声语音信号对深度神经网络进行训练,以生成能够应对不同情况的语音识别模型,增强了语音识别模型的鲁棒性。
另外,本发明实施例的语音识别模型的生成方法,还具有如下附加的技术特征:
可选地,所述根据所述多种环境下的噪声信号和所述无噪声的样本语音信号,生成多种带噪声的样本语音信号,包括:步骤一,从所述多种环境下的噪声信号中随机选择一种噪声信号;步骤二,从预设范围内随机选择一个数值,以作为待生成的所述带噪声的样本语音信号的信噪比,其中,所述信噪比是所述带噪声的样本语音信号中所述无噪声的样本语音信号与所述随机选择的噪声信号的强度之比;步骤三,将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合,以生成一种所述带噪声的样本语音信号;步骤四,多次重复步骤一至三,以生成多种所述带噪声的样本语音信号。
可选地,所述将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合,以生成一种所述带噪声的样本语音信号,包括:获取所述无噪声的样本语音信号的强度和时长;根据所述无噪声的样本语音信号的时长,对所述随机选择的噪声信号进行剪切和拼接,以使剪切和拼接后的所述噪声信号的时长和所述无噪声的样本语音信号的时长相等;根据所述无噪声的样本语音信号的强度和所述信噪比,调整所述噪声信号的强度;将调整强度后的所述噪声信号叠加至所述无噪声的样本语音信号上,以生成一种所述带噪声的样本语音信号。
可选地,所述深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。
可选地,所述使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型,包括:获取所述样本语音信号对应的发音音节;从所述样本语音信号中提取对应的语音特征;将所述多种样本语音信号对应的语音特征输入所述深度神经网络;将所述样本语音信号对应的发音音节与所述深度神经网络的输出结果进行比较,以训练所述深度神经网络中的参数。
本发明第二方面实施例提出了一种语音识别模型的生成装置,包括:获取模块,用于获取多种环境下的噪声信号,以及无噪声的样本语音信号;生成模块,用于根据所述多种环境下的噪声信号和所述无噪声的样本语音信号,生成多种带噪声的样本语音信号;以及训练模块,用于使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型,其中,所述样本语音信号包括所述多种带噪声的样本语音信号和所述无噪声的样本语音信号。
另外,本发明实施例的语音识别模型的生成装置,还具有如下附加的技术特征:
可选地,所述生成模块,包括:第一选择子模块,用于执行步骤一,从所述多种环境下的噪声信号中随机选择一种噪声信号;第二选择子模块,用于执行步骤二,从预设范围内随机选择一个数值,以作为待生成的所述带噪声的样本语音信号的信噪比,其中,所述信噪比是所述带噪声的样本语音信号中所述无噪声的样本语音信号与所述随机选择的噪声信号的强度之比;混合子模块,用于执行步骤三,将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合,以生成一种所述带噪声的样本语音信号;重复子模块,用于执行步骤四,多次重复步骤一至三,以生成多种所述带噪声的样本语音信号。
可选地,所述混合子模块,包括:获取单元,用于获取所述无噪声的样本语音信号的强度和时长;拼接单元,用于根据所述无噪声的样本语音信号的时长,对所述随机选择的噪声信号进行剪切和拼接,以使剪切和拼接后的所述噪声信号的时长和所述无噪声的样本语音信号的时长相等;调整单元,用于根据所述无噪声的样本语音信号的强度和所述信噪比,调整所述噪声信号的强度;叠加单元,用于将调整强度后的所述噪声信号叠加至所述无噪声的样本语音信号上,以生成一种所述带噪声的样本语音信号。
可选地,所述深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。
可选地,所述训练模块,包括:获取子模块,用于获取所述样本语音信号对应的发音音节;提取子模块,用于从所述样本语音信号中提取对应的语音特征;输入子模块,用于将所述样本语音信号对应的语音特征输入所述深度神经网络;比较子模块,用于将所述样本语音信号对应的发音音节与所述深度神经网络的输出结果进行比较,以训练所述深度神经网络中的参数。
本发明第三方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的语音识别模型的生成方法。
本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的语音识别模型的生成方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的一种语音识别模型的生成方法的流程示意图;
图2为本发明实施例所提供的另一种语音识别模型的生成方法的流程示意图;
图3为本发明实施例所提供的长短时记忆神经网络的细胞结构的示意图;
图4为本发明实施例所提供的语音识别模型的生成过程的示意图;
图5为本发明实施例所提供的一种语音识别模型的生成装置的结构示意图;以及
图6为本发明实施例所提供的另一种语音识别模型的生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音识别模型的生成方法及其装置。
基于上述现有技术的描述可以知道,相关技术中,通过信号处理来降低噪音并且提高语音信号强度,使得语音识别模型能够准确地识别出信号中的真实语音。但是信号处理方式不能对不同环境下噪声进行处理,具有很大的局限性。
针对这一问题,本发明实施例提供了一种语音识别模型的生成方法,使用不同环境下的带噪声语音信号对深度神经网络进行训练,以生成能够应对不同环境噪声的语音识别模型,增强了语音识别模型的鲁棒性。
图1为本发明实施例所提供的一种语音识别模型的生成方法的流程示意图。如图1所示,该方法包括以下步骤:
S101,获取多种环境下的噪声信号,以及无噪声的样本语音信号。
其中,多种环境下的噪声信号是在多种环境下采集的纯噪声信号,不包含任何语音信号。而无噪声的样本语音信号则是在安静环境下采集的纯语音信号,不包含任何噪声信号。
S102,根据多种环境下的噪声信号和无噪声的样本语音信号,生成多种带噪声的样本语音信号。
其中,多种带噪声的样本语音信号之间的区别在于包含的噪声信号种类不同,或者信噪比不同,信噪比是指带噪声的样本语音信号中无噪声的样本语音信号和噪声信号的强度之比。
为了让生成的多种带噪声的样本语音信号之间存在区别,一种可能的实现方式是,通过以下步骤生成多种带噪声的样本语音信号:
步骤一,从多种环境下的噪声信号中随机选择一种噪声信号。
需要说明的是,本发明实施例所提供的一种带噪声的样本语音信号仅包含一种环境下的噪声信号。
步骤二,从预设范围内随机选择一个数值,以作为待生成的带噪声的样本语音信号的信噪比。
其中,信噪比是带噪声的样本语音信号中无噪声的样本语音信号与随机选择的噪声信号的强度之比。
可以理解,由于实际使用中待识别语音信号的信噪比可能是预设范围内的任意数值,因此采用随机选择数值的方式确定信噪比。
一种优选的实现方式是,预设范围为0db-40db。
应当理解,当信噪比为0db时,表示无噪声的样本语音信号与随机选择的噪声信号的强度之比为1:1,此时带噪声的样本语音信号中无噪声的样本语音信号和噪声信号的强度相当。
当信噪比小于0db时,带噪声的样本语音信号中无噪声的样本语音信号的强度小于噪声信号,难以准确地对带噪声的样本语音信号中进行识别。
当信噪比为40db时,表示无噪声的样本语音信号与随机选择的噪声信号的强度之比为10000:1,接近盒式磁带录音机的最佳信噪比,噪声信号的强度较小,但依然可能影响语音信号的识别。
当信噪比大于40db时,带噪声的样本语音信号中无噪声的样本语音信号的强度远大于噪声信号,噪声信号几乎不会影响语音信号的识别,已经和在安静环境下进行语音识别十分接近。
因此,考虑到实际需求,本发明实施例所提供的语音识别模型的生成方法,将训练使用的多种带噪声的样本语音信号的信噪比限制在0db到40db之间。
步骤三,将随机选择的噪声信号与无噪声的样本语音信号按照信噪比进行混合,以生成一种带噪声的样本语音信号。
可以理解,在向无噪声的样本语音信号中添加噪声信号时,需要让添加的噪声信号的时长与无噪声的样本语音信号相同。
进一步地,还需要调整添加的噪声信号的强度,以使生成的带噪声的样本语音信号的信噪比为步骤二中选择的数值。
一种可能的实现方式是,获取无噪声的样本语音信号的强度和时长,根据无噪声的样本语音信号的时长,对随机选择的噪声信号进行剪切和拼接,以使剪切和拼接后的噪声信号的时长和无噪声的样本语音信号的时长相等。根据无噪声的样本语音信号的强度和信噪比,调整噪声信号的强度。将调整强度后的噪声信号叠加至无噪声的样本语音信号上,以生成一种带噪声的样本语音信号。
需要特别说明的是,对随机选择的噪声信号进行剪切和拼接,具体是将随机选择的噪声信号剪切成时长不同的多段短噪声信号,再根据无噪声的样本语音信号的时长随机选取多段短噪声信号进行拼接。
需要强调的是,在选取短噪声信号过程中,可以重复使用同一段短噪声信号进行拼接。
步骤四,多次重复步骤一至三,以生成多种带噪声的样本语音信号。
应当理解,经过步骤一至三,可以生成一种带噪声的样本语音信号。由于对噪声信号的选择、对信噪比数值的选择、对噪声信号的拼接都是随机的,因此每次生成的带噪声的样本语音信号都不一样,多次重复步骤一至三,可以生成多种带噪声的样本语音信号。
S103,使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型。
其中,样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。
应当理解,本发明实施例所生成的语音识别模型,既需要能在安静环境下进行语音识别,又需要能在不同的噪声环境下进行语音识别。因此需要使用多种带噪声的样本语音信号和无噪声的样本语音信号,进行模型训练。
综上所述,本发明实施例所提供的语音识别模型的生成方法,获取多种环境下的噪声信号,以及无噪声的样本语音信号。根据多种环境下的噪声信号和无噪声的样本语音信号,生成多种带噪声的样本语音信号。使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型。其中,样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。由此,实现了使用不同的样本语音信号对深度神经网络进行训练,以生成能够应对不同环境噪声的语音识别模型,增强了语音识别模型的鲁棒性。
为了更加清楚地说明本发明实施例所提供的语音识别模型的生成方法是如何生成语音识别模型的,本发明实施例还提出了另一种语音识别模型的生成方法,图2为本发明实施例所提供的另一种语音识别模型的生成方法的流程示意图。如图2所示,基于图1所示的方法流程,S103使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型,包括:
S201,获取样本语音信号对应的发音音节。
其中,发音音节是样本语音信号的发音表示形式,如汉语中的拼音、英语中的音标、日语中的音谱等,通过发音音节来标注样本语音信号中语音的发音。
样本语音信号对应的发音音节是通过人工对样本语音信号进行标注后生成的,用来训练语音识别模型。
S202,从样本语音信号中提取对应的语音特征。
需要说明的是,本发明实施例所生成的语音识别模型是通过语音特征来对样本语音信号进行识别的,因此在训练时需要提取样本语音信号对应的语音特征来对语音识别模型进行训练。
S203,将样本语音信号对应的语音特征输入深度神经网络。
其中,深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。
需要说明的是,卷积神经网络有较好的特征抽象能力,可以对不同频带的带噪声语音信号对应的语音特征进行特征抽象,提高不同带噪声语音信号之间的区分性。
长短时记忆神经网络通过其细胞结构中的状态结构缓存历史的状态信息,并且通过输入门、遗忘门以及输出门对历史状态进行维护,从而实现了长距离历史信息的有效缓存。由于长短时记忆神经网络的细胞结构能够维护长距离的历史信息,因此特别适合语音识别等具有长依赖特性的序列预测任务。
图3为本发明实施例所提供的长短时记忆神经网络的细胞结构的示意图,如图3所示,输入序列为x=(x1,…,xT),其中T表示输入序列的长度。对于任意时刻的输入xt,细胞结构通过以下公式对结构中的各个单元进行计算:
it=σ(Wix xt+Wim mt-1+Wic ct-1+bi),
ft=σ(Wfx xt+Wfm mt-1+Wfc ct-1+bf),
ct=ft⊙ct-1+it⊙g(Wcx xt+Wcm mt-1+bc),
ot=σ(Wox xt+Wom mt-1+Woc ct-1+bo),
mt=ot⊙h(ct),
其中,W表示权重矩阵,b表示偏置向量。i、f、o、c、m分别表示输入门、遗忘门、输出门、状态单元以及细胞结构的输出,⊙表示向量按元素的乘积,σ为sigmoid函数,公式为g和h表示状态单元的输入和输出激活函数,具体为tanh函数,公式为
需要说明的是,深度神经网络首先对输入的语音特征进行特征编码,再经过数学运算,得到与发音音节一一对应的音节编码,将音节编码转化为对应的发音音节,输出一段发音音节。
S204,将样本语音信号对应的发音音节与深度神经网络的输出结果进行比较,以训练深度神经网络中的参数。
应当理解,如图4所示,训练深度神经网络中参数的目的就是为了能够让训练后的深度神经网络能够对样本语音信号进行处理,从中识别出样本语音信号对应的发音音节,因此当深度神经网络的输出结果和样本语音信号对应的发音音节相同时,说明深度神经网络中的参数已经能够实现对样本语音信号的识别,深度神经网络也就成为了语音识别模型。
从而,实现了通过对深度神经网络进行训练,生成语音识别模型。
为了实现上述实施例,本发明实施例还提出一种语音识别模型的生成装置,图5为本发明实施例所提供的一种语音识别模型的生成装置的结构示意图,如图5所示,该装置包括:获取模块310,生成模块320,训练模块330。
获取模块310,用于获取多种环境下的噪声信号,以及无噪声的样本语音信号。
生成模块320,用于根据多种环境下的噪声信号和无噪声的样本语音信号,生成多种带噪声的样本语音信号。
训练模块330,用于使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型,其中,样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。
进一步地,为了让生成的多种带噪声的样本语音信号之间存在区别,一种可能的实现方式是,生成模块320,包括:第一选择子模块321,用于执行步骤一,从多种环境下的噪声信号中随机选择一种噪声信号。第二选择子模块322,用于执行步骤二,从预设范围内随机选择一个数值,以作为待生成的带噪声的样本语音信号的信噪比,其中,信噪比是带噪声的样本语音信号中无噪声的样本语音信号与随机选择的噪声信号的强度之比。混合子模块323,用于执行步骤三,将随机选择的噪声信号与无噪声的样本语音信号按照信噪比进行混合,以生成一种带噪声的样本语音信号。重复子模块324,用于执行步骤四,多次重复步骤一至三,以生成多种带噪声的样本语音信号。
进一步地,为了将随机选择的噪声信号与无噪声的样本语音信号按照信噪比进行混合,一种可能的实现方式是,混合子模块323,包括:获取单元3231,用于获取无噪声的样本语音信号的强度和时长。拼接单元3232,用于根据无噪声的样本语音信号的时长,对随机选择的噪声信号进行剪切和拼接,以使剪切和拼接后的噪声信号的时长和无噪声的样本语音信号的时长相等。调整单元3233,用于根据无噪声的样本语音信号的强度和信噪比,调整噪声信号的强度。叠加单元3234,用于将调整强度后的噪声信号叠加至无噪声的样本语音信号上,以生成一种带噪声的样本语音信号。
需要说明的是,前述对语音识别模型的生成方法实施例的解释说明也适用于该实施例的语音识别模型的生成装置,此处不再赘述。
综上所述,本发明实施例所提供的语音识别模型的生成装置,获取多种环境下的噪声信号,以及无噪声的样本语音信号。根据多种环境下的噪声信号和无噪声的样本语音信号,生成多种带噪声的样本语音信号。使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型。其中,样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。由此,实现了使用不同的样本语音信号对深度神经网络进行训练,以生成能够应对不同环境噪声的语音识别模型,增强了语音识别模型的鲁棒性。
为了实现上述实施例,本发明实施例还提出另一种语音识别模型的生成装置,图6为本发明实施例所提供的另一种语音识别模型的生成装置的结构示意图,如图6所示,基于图5所示的装置结构,训练模块330,包括:获取子模块331,提取子模块332,输入子模块333,比较子模块334。
获取子模块331,用于获取样本语音信号对应的发音音节。
提取子模块332,用于从样本语音信号中提取对应的语音特征。
输入子模块333,用于将样本语音信号对应的语音特征输入深度神经网络。
比较子模块334,用于将样本语音信号对应的发音音节与深度神经网络的输出结果进行比较,以训练深度神经网络中的参数。
其中,深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。
从而,实现了通过对深度神经网络进行训练,生成语音识别模型。
为了实现上述实施例,本发明实施例还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的语音识别模型的生成方法。
为了实现上述实施例,实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的语音识别模型的生成方法。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种语音识别模型的生成方法,其特征在于,包括:
获取多种环境下的噪声信号,以及无噪声的样本语音信号;
根据所述多种环境下的噪声信号和所述无噪声的样本语音信号,生成多种带噪声的样本语音信号;以及
使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型,其中,所述样本语音信号包括所述多种带噪声的样本语音信号和所述无噪声的样本语音信号。
2.如权利要求1所述的方法,其特征在于,所述根据所述多种环境下的噪声信号和所述无噪声的样本语音信号,生成多种带噪声的样本语音信号,包括:
步骤一,从所述多种环境下的噪声信号中随机选择一种噪声信号;
步骤二,从预设范围内随机选择一个数值,以作为待生成的所述带噪声的样本语音信号的信噪比,其中,所述信噪比是所述带噪声的样本语音信号中所述无噪声的样本语音信号与所述随机选择的噪声信号的强度之比;
步骤三,将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合,以生成一种所述带噪声的样本语音信号;
步骤四,多次重复步骤一至三,以生成多种所述带噪声的样本语音信号。
3.如权利要求2所述的方法,其特征在于,所述将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合,以生成一种所述带噪声的样本语音信号,包括:
获取所述无噪声的样本语音信号的强度和时长;
根据所述无噪声的样本语音信号的时长,对所述随机选择的噪声信号进行剪切和拼接,以使剪切和拼接后的所述噪声信号的时长和所述无噪声的样本语音信号的时长相等;
根据所述无噪声的样本语音信号的强度和所述信噪比,调整所述噪声信号的强度;
将调整强度后的所述噪声信号叠加至所述无噪声的样本语音信号上,以生成一种所述带噪声的样本语音信号。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。
5.如权利要求4所述的方法,其特征在于,所述使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型,包括:
获取所述样本语音信号对应的发音音节;
从所述样本语音信号中提取对应的语音特征;
将所述样本语音信号对应的语音特征输入所述深度神经网络;
将所述样本语音信号对应的发音音节与所述深度神经网络的输出结果进行比较,以训练所述深度神经网络中的参数。
6.一种语音识别模型的生成装置,其特征在于,包括:
获取模块,用于获取多种环境下的噪声信号,以及无噪声的样本语音信号;
生成模块,用于根据所述多种环境下的噪声信号和所述无噪声的样本语音信号,生成多种带噪声的样本语音信号;以及
训练模块,用于使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型,其中,所述样本语音信号包括所述多种带噪声的样本语音信号和所述无噪声的样本语音信号。
7.如权利要求6所述的装置,其特征在于,所述生成模块,包括:
第一选择子模块,用于执行步骤一,从所述多种环境下的噪声信号中随机选择一种噪声信号;
第二选择子模块,用于执行步骤二,从预设范围内随机选择一个数值,以作为待生成的所述带噪声的样本语音信号的信噪比,其中,所述信噪比是所述带噪声的样本语音信号中所述无噪声的样本语音信号与所述随机选择的噪声信号的强度之比;
混合子模块,用于执行步骤三,将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合,以生成一种所述带噪声的样本语音信号;
重复子模块,用于执行步骤四,多次重复步骤一至三,以生成多种所述带噪声的样本语音信号。
8.如权利要求7所述的装置,其特征在于,所述混合子模块,包括:
获取单元,用于获取所述无噪声的样本语音信号的强度和时长;
拼接单元,用于根据所述无噪声的样本语音信号的时长,对所述随机选择的噪声信号进行剪切和拼接,以使剪切和拼接后的所述噪声信号的时长和所述无噪声的样本语音信号的时长相等;
调整单元,用于根据所述无噪声的样本语音信号的强度和所述信噪比,调整所述噪声信号的强度;
叠加单元,用于将调整强度后的所述噪声信号叠加至所述无噪声的样本语音信号上,以生成一种所述带噪声的样本语音信号。
9.如权利要求6-8中任一项所述的装置,其特征在于,所述深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。
10.如权利要求9所述的装置,其特征在于,所述训练模块,包括:
获取子模块,用于获取所述样本语音信号对应的发音音节;
提取子模块,用于从所述样本语音信号中提取对应的语音特征;
输入子模块,用于将所述样本语音信号对应的语音特征输入所述深度神经网络;
比较子模块,用于将所述样本语音信号对应的发音音节与所述深度神经网络的输出结果进行比较,以训练所述深度神经网络中的参数。
11.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令处理器执行时实现如权利要求1-5中任一项所述的语音识别模型的生成方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的语音识别模型的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005075.1A CN109616100B (zh) | 2019-01-03 | 2019-01-03 | 语音识别模型的生成方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005075.1A CN109616100B (zh) | 2019-01-03 | 2019-01-03 | 语音识别模型的生成方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109616100A true CN109616100A (zh) | 2019-04-12 |
CN109616100B CN109616100B (zh) | 2022-06-24 |
Family
ID=66015543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910005075.1A Active CN109616100B (zh) | 2019-01-03 | 2019-01-03 | 语音识别模型的生成方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109616100B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047502A (zh) * | 2019-04-18 | 2019-07-23 | 广州九四智能科技有限公司 | 噪声环境下层级式语音降噪识别方法及系统 |
CN110544469A (zh) * | 2019-09-04 | 2019-12-06 | 秒针信息技术有限公司 | 语音识别模型的训练方法及装置、存储介质、电子装置 |
CN110767215A (zh) * | 2019-08-01 | 2020-02-07 | 北京嘀嘀无限科技发展有限公司 | 一种训练语音识别模型、识别语音的方法及装置 |
CN110853617A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN111081222A (zh) * | 2019-12-30 | 2020-04-28 | 北京明略软件系统有限公司 | 语音识别方法、装置、存储介质以及电子装置 |
CN111210810A (zh) * | 2019-12-17 | 2020-05-29 | 秒针信息技术有限公司 | 模型训练方法和装置 |
CN111369979A (zh) * | 2020-02-26 | 2020-07-03 | 广州市百果园信息技术有限公司 | 训练样本获取方法、装置、设备及计算机存储介质 |
CN111755013A (zh) * | 2020-07-07 | 2020-10-09 | 苏州思必驰信息科技有限公司 | 去噪自动编码器训练方法和说话人识别系统 |
CN112820324A (zh) * | 2020-12-31 | 2021-05-18 | 平安科技(深圳)有限公司 | 多标签语音活动检测方法、装置及存储介质 |
CN115035911A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 噪声生成模型训练方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6631348B1 (en) * | 2000-08-08 | 2003-10-07 | Intel Corporation | Dynamic speech recognition pattern switching for enhanced speech recognition accuracy |
EP1471500B1 (en) * | 2003-04-25 | 2008-07-23 | Pioneer Corporation | System and method for speech recognition using models adapted to actual noise conditions |
CN101710490A (zh) * | 2009-11-20 | 2010-05-19 | 安徽科大讯飞信息科技股份有限公司 | 语音评测的噪声补偿方法及装置 |
CN104064197A (zh) * | 2014-06-20 | 2014-09-24 | 哈尔滨工业大学深圳研究生院 | 一种基于语音帧间动态信息提高语音识别鲁棒性的方法 |
CN105448303A (zh) * | 2015-11-27 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 语音信号的处理方法和装置 |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN107680586A (zh) * | 2017-08-01 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 远场语音声学模型训练方法及系统 |
CN108335694A (zh) * | 2018-02-01 | 2018-07-27 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
-
2019
- 2019-01-03 CN CN201910005075.1A patent/CN109616100B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6631348B1 (en) * | 2000-08-08 | 2003-10-07 | Intel Corporation | Dynamic speech recognition pattern switching for enhanced speech recognition accuracy |
EP1471500B1 (en) * | 2003-04-25 | 2008-07-23 | Pioneer Corporation | System and method for speech recognition using models adapted to actual noise conditions |
CN101710490A (zh) * | 2009-11-20 | 2010-05-19 | 安徽科大讯飞信息科技股份有限公司 | 语音评测的噪声补偿方法及装置 |
CN104064197A (zh) * | 2014-06-20 | 2014-09-24 | 哈尔滨工业大学深圳研究生院 | 一种基于语音帧间动态信息提高语音识别鲁棒性的方法 |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN105448303A (zh) * | 2015-11-27 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 语音信号的处理方法和装置 |
CN107680586A (zh) * | 2017-08-01 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 远场语音声学模型训练方法及系统 |
CN108335694A (zh) * | 2018-02-01 | 2018-07-27 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
黄晓辉,李京: "基于循环神经网络的藏语语音识别声学模型", 《中文信息学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047502A (zh) * | 2019-04-18 | 2019-07-23 | 广州九四智能科技有限公司 | 噪声环境下层级式语音降噪识别方法及系统 |
CN110767215A (zh) * | 2019-08-01 | 2020-02-07 | 北京嘀嘀无限科技发展有限公司 | 一种训练语音识别模型、识别语音的方法及装置 |
CN110544469A (zh) * | 2019-09-04 | 2019-12-06 | 秒针信息技术有限公司 | 语音识别模型的训练方法及装置、存储介质、电子装置 |
CN110544469B (zh) * | 2019-09-04 | 2022-04-19 | 秒针信息技术有限公司 | 语音识别模型的训练方法及装置、存储介质、电子装置 |
CN110853617B (zh) * | 2019-11-19 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN110853617A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN111210810A (zh) * | 2019-12-17 | 2020-05-29 | 秒针信息技术有限公司 | 模型训练方法和装置 |
CN111081222A (zh) * | 2019-12-30 | 2020-04-28 | 北京明略软件系统有限公司 | 语音识别方法、装置、存储介质以及电子装置 |
CN111369979A (zh) * | 2020-02-26 | 2020-07-03 | 广州市百果园信息技术有限公司 | 训练样本获取方法、装置、设备及计算机存储介质 |
CN111369979B (zh) * | 2020-02-26 | 2023-12-19 | 广州市百果园信息技术有限公司 | 训练样本获取方法、装置、设备及计算机存储介质 |
CN111755013A (zh) * | 2020-07-07 | 2020-10-09 | 苏州思必驰信息科技有限公司 | 去噪自动编码器训练方法和说话人识别系统 |
CN111755013B (zh) * | 2020-07-07 | 2022-11-18 | 思必驰科技股份有限公司 | 去噪自动编码器训练方法和说话人识别系统 |
CN112820324A (zh) * | 2020-12-31 | 2021-05-18 | 平安科技(深圳)有限公司 | 多标签语音活动检测方法、装置及存储介质 |
CN115035911A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 噪声生成模型训练方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109616100B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109616100A (zh) | 语音识别模型的生成方法及其装置 | |
DE112017003563B4 (de) | Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen | |
Peng et al. | Efficient speech emotion recognition using multi-scale cnn and attention | |
US6535852B2 (en) | Training of text-to-speech systems | |
CN101064104B (zh) | 基于语音转换的情感语音生成方法 | |
DE69826446T2 (de) | Stimmumwandlung | |
Yi | Natural-sounding speech synthesis using variable-length units | |
EP2028647B1 (de) | Verfahren und Vorrichtung zur Sprecherklassifizierung | |
DE102017124264A1 (de) | Bestimmen phonetischer Beziehungen | |
CN111402857A (zh) | 语音合成模型训练方法和装置、电子设备及存储介质 | |
CN111816210B (zh) | 一种语音评分的方法及装置 | |
GB2590509A (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
Campbell | Developments in corpus-based speech synthesis: Approaching natural conversational speech | |
EP1280137B1 (en) | Method for speaker identification | |
DE112021000959T5 (de) | Synthetische Sprachverarbeitung | |
CN112509550A (zh) | 语音合成模型训练方法、语音合成方法、装置及电子设备 | |
DE112022000504T5 (de) | Interaktive Inhaltsausgabe | |
Alashban et al. | Speaker gender classification in mono-language and cross-language using BLSTM network | |
Habib et al. | Toward an automatic quality assessment of voice-based telemedicine consultations: A deep learning approach | |
CN113470622B (zh) | 一种可将任意语音转换成多个语音的转换方法及装置 | |
KR102222597B1 (ko) | 콜미 서비스를 위한 음성 합성 장치 및 방법 | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
DE112021000292T5 (de) | Sprachverarbeitungssystem | |
DE112021000291T5 (de) | Erzeugen von ereignisausgaben | |
US9484045B2 (en) | System and method for automatic prediction of speech suitability for statistical modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |