CN104952448A - 一种双向长短时记忆递归神经网络的特征增强方法及系统 - Google Patents
一种双向长短时记忆递归神经网络的特征增强方法及系统 Download PDFInfo
- Publication number
- CN104952448A CN104952448A CN201510221339.9A CN201510221339A CN104952448A CN 104952448 A CN104952448 A CN 104952448A CN 201510221339 A CN201510221339 A CN 201510221339A CN 104952448 A CN104952448 A CN 104952448A
- Authority
- CN
- China
- Prior art keywords
- recurrent neural
- term memory
- feature
- long short
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种双向长短时记忆递归神经网络的特征增强方法及系统,包括:利用双向长短时记忆递归神经网络模型对输入的带噪特征和相应的不带噪特征进行训练的步骤;利用双向长短时记忆递归神经网络模型对特征进行增强的步骤;本发明通过对输入的特征进行在两个方向上建立长短时记忆递归神经网络模型可以有效地对当前帧的上下文进行建模,同时由于在神经网络中引入长短时记忆细胞以及一些控制变量,该使得该模型可以建模较长上下文的依赖。当利用该模型进行特征增强时,长时间依赖可以使得模型具有较佳的增强效果,可以提高语音识别系统和音频事件分类系统的性能。
Description
技术领域
本发明涉及语音、音频信息技术,具体来讲,本发明涉及用于增强特征以提高用于语音识别系统、音频事件检测和分类系统的性能。
背景技术
随着计算技术和信息技术的发展,特别是深度机器学习方法的提出及在语音、图像、视频等领域成功应用,语音识别系统的性能得到很大的提高和改善,语音识别技术得到了突飞猛进的发展,同时有一些商业化的识别系统和应用软件,如Google Voice Search,Bing VoiceSearch,Siri语音助手、百度语音助手、搜狗语音输入、讯飞语点等,语音作为人机交互工具正在逐渐改变人与不同设备之间的交互的方式。
当在噪声环境下使用时,语音识别系统的性能下降。因此,识别器在噪声干扰的环境下使用时的性能与安静环境下使用时的性能之间的较大差距是语音识别走向更广范围内应用的主要障碍。同样的,对于音频分类系统来讲,在干净的环境下,音频分类系统可以获得很高的分类正确率。但是,当应用到现实的情况时,如应用在基于音频事件检测和分类的音频监控时,系统所处的环境常常产生大量的非稳定的噪声,使得系统的性能下降,系统产生大量的误报。
可以从信号空间、特征空间以及模型空间等三个层面消弱由噪声而引起的训练环境与识别环境的不匹配。在特征空间上进行特征增强,其主要是通过一些技术手段,“净化”被噪声污染的语音特征,最大程度上减少训练模型与识别特征的不匹配。
语音信号是一种复杂的时变信号,且在不同的时间跨度范围内,具有复杂的相关性。而深度神经网络是通过一系列的非线性映射,学习和编码输入的特征。其可以看作数据驱动非线性的特征变换。通常其在一个固定的时间窗口或跨度上进行该非线性的特征变换。这种在利用固定时间窗口或跨度上进行的特征变换不能根据上下文信息动态的利用时间窗口或跨度进行特征变换,不能很好的反映系统的动力特性。
发明内容
为解决现有技术存在的不足,本发明公开了一种双向长短时记忆递归神经网络的特征增强方法及系统,本申请利用数据驱动的方法,以提高语音识别和音频检测分类系统的性能。
为实现上述目的,本发明的具体方案如下:
一种双向长短时记忆递归神经网络的特征增强方法,包括以下步骤:
步骤一:获取被实际场景下噪声污染的音频以及相应的干净音频并对获取被噪声污染的音频和干净的音频分别抽取特征,然后转入步骤二进行训练;
步骤二:训练时,以被噪声污染的音频特征作为训练特征,以相应的干净的音频特征作为训练目标,采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型并将训练好的双向长短时记忆递归神经网络模型进行存储;
步骤三:获取实际应用场景下带噪的音频并对获得的带噪的音频抽取特征,然后转入步骤四进行特征增强;
步骤四:增强时,对步骤三抽取的特征应用步骤二中训练好的双向长短时记忆递归神经网络模型进行增强输入的特征并将增强的特征进行存储。
所述步骤二中,在训练双向长短时记忆递归神经网络模型时,设置双向长短时记忆递归神经网络有4个隐层,从第一个隐层到第四个隐层,分别含有78、128、78、78个长短时记忆细胞块,且每一个长短时记忆细胞块只含有一个记忆细胞。
所述步骤二中,在训练双向长短时记忆递归神经网络模型时,为了提高模型训练的有效性和稳定性,丢弃正则化(dropout regularization)技术在没有递归连接输入层、隐层进行应用,同时,在训练双向长短时记忆递归神经网络时,为了防止模型的过训练,梯度剪裁的方法用于剪枝梯度,训练时,梯度的阈值设置为10。
所述步骤二中,在训练双向长短时记忆递归神经网络模型时,双向长短时记忆递归神经网络模型训练采用多个不同的流同时进行,以加快模型训练的速度。
所述步骤四中,增强时,在应用加载模块加载的双向长短时记忆递归神经网络模型对第一特征抽取模块抽取的39维梅尔倒谱系数(MFCC)进行特征增强时,设定5帧的时间偏移以更好的利用双向长短时记忆递归神经网络模型进行特征增强。
一种双向长短时记忆递归神经网络的特征增强系统,包括:双向长短时记忆递归神经网络模型的特征增强部分及双向长短时记忆递归神经网络模型训练部分;
双向长短时记忆递归神经网络模型训练部分,包括:第二输入模块、第二特征抽取模块、模型训练模块及模型存储模块;
第二输入模块,用于加载被实际场景下噪声污染的音频以及相应的干净音频并将输入的音频传送至第二特征抽取模块;
第二特征抽取模块,用于对输入的被噪声污染的音频和干净的音频分别抽取特征并将抽取的音频传送至模型训练模块;
模型训练模块,用于以输入的被噪声污染的音频特征作为训练特征,以相应的干净的音频特征作为训练目标,采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型并将训练好的双向长短时记忆递归神经网络模型存储至模型存储模块;
所述双向长短时记忆递归神经网络模型的特征增强部分包括:第一输入模块、第一特征抽取模块、模型装载模块、增强模块及增强特征存储模块;
第一输入模块,用于接受输入的实际应用场景下带噪的音频并将输入的音频传送至第一特征抽取模块;
第一特征抽取模块,用于抽取第一输入模块中的特征并将抽取的特征传送至增强模块;
模型装载模块,用于装载由双向长短时记忆递归神经网络模型训练模块训练好的双向长短时记忆递归神经网络模型;
增强模块,利用第一特征抽取模块抽取的特征,应用模型装载模块加载的训练好的双向长短时记忆递归神经网络模型,增强输入的特征,并将增强的特征传送至增强特征存储模块进行存储。
所述第一输入模块以实际场景下抽样频率为16000Hz,16位的PCM格式的音频作为输入。
所述第一特征抽取模块,设定25毫秒海明(Hamming)窗和10毫秒为窗移,抽取39维梅尔倒谱系数(MFCC)特征。
所述第二输入模块以混合实际音频场景噪音的16000Hz,16位的PCM音频和相应的没有混合实际音频场景噪音的16000Hz,16位的PCM音频作为输入。
所述第二特征抽取模块,以25毫秒海明(Hamming)窗和10毫秒为窗移,对混合实际场景噪音的音频和没有混合实际场景噪音的音频分别抽取39维梅尔倒谱系数(MFCC)特征。
所述模型训练模块,以混合实际场景噪音的音频的39维梅尔倒谱系数特征(MFCC)为特征,同时以没有混合实际场景噪音的音频的39维梅尔倒谱系数(MFCC)特征为模型训练的目标,以最小均分误差为训练的目标函数,采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型。
训练双向长短时记忆递归神经网络模型时,对梯度进行剪裁,同时在没有递归的隐层和输入层上利用丢弃正则化(dropout regularization)方法以增加模型的鲁棒性和有效性。同时在更新双向长短时记忆递归神经网络模型的参数时,利用动量(momentum)方法更新模型,动量(momentum)系数设置为0.9。
本发明首先,由第一输入模型输入被实际场景下噪音污染的音频信号,第一特征抽取模块用于抽取特征;然后,抽取的特征作为双向长短时记忆递归神经网络模型的输入用于特征增强;最后,双向长短时记忆递归神经网络模型的输出作为增强的特征。
本发明的有益效果:
双向长短时记忆递归神经网络通过引入长短时记忆细胞编码了序列中过去与未来两个方向信息,从这个意义上讲,其是一个动力系统,比只有类似静态的输入输出变换的深度神经网络具有更好的泛化能力,可以学习到更长时间的上下文信息,以及处理不同的说话人说话风格。基于双向长短时记忆递归神经网络特征增强方法将噪声污染的特征映射为干净的特征,是一种数据驱动的方法。该方法可以通过数据自动学习一非线性的映射,能够克服传统的基于深度神经网络进行语音增强的不足,该方法对于非稳定性噪声有较好的效果。
本发明通过对输入的特征进行在两个方向上建立长短时记忆递归神经网络模型可以有效地对当前帧的上下文进行建模,同时由于在神经网络中引入长短时记忆细胞以及一些控制变量,该使得该模型可以建模较长上下文的依赖。当利用该模型进行特征增强时,长时间依赖可以使得模型具有较佳的增强效果,可以提高语音识别系统和音频事件分类系统的性能。
附图说明
图1丢弃正则化(dropout regularization)应用到没有递归层的示例;
图2基于双向长短时记忆递归神经网络模型的特征增强部分示意图;
图3本发明双向长短时记忆递归神经网络的特征增强系统的方框图;
图中,201、第二输入模块,202、第二特征抽取模块,203、模型训练模块,204、模型存储模块,101、第一输入模块,102、第一特征抽取模块,103、模型装载模块,104、增强模块,105、增强特征存储模块,106、双向递归神经网络模型训练模块。
具体实施方式:
下面结合附图对本发明进行详细说明:
一种双向长短时记忆递归神经网络的特征增强方法,该方法包括如下两个部分:双向长短时记忆递归神经网络模型的训练步骤A和利用双向长短时记忆递归神经网络模型对特征进行增强B。
步骤A:双向长短时记忆递归神经网络模型训练步骤是利用双向长短时记忆递归神经网络模型训练模块对输入的带噪特征和相应的不带噪特征,利用通过时间反向传播算法,训练双向长短时记忆递归神经网络模型。在训练双向长短时记忆递归神经网络模型时,对梯度进行修剪,并利用丢弃正则化(dropout regularization)对非递归的输入进行丢弃(dropout).同时,为了增加训练速度,采用多个流的方式同时进行。
步骤B:利用双向长短时记忆递归神经网络模型对特征进行增强,包括如下步骤:
步骤B1:第一输入模块接受实际场景下音频输入;
步骤B2:第一特征抽取模块抽取特征;
步骤B3:用双向长短时记忆递归神经网络模型加载模块加载双向长短时记忆递归神经网络模型训练模块训练好的双向长短时记忆递归神经网络模型;
步骤B4:特征增强模块利用特征抽取模型抽取的特征,应用加载模块加载的双向长短时记忆递归神经网络模型增强输入的特征;
步骤B5:用特征存储模块存储用双向长短时记忆递归神经网络模型增强的特征。
双向长短时记忆递归神经网络模型训练方法采用梯度剪裁的方法以增强模型训练的鲁棒性和有效性,避免模型训练时的梯度爆炸。
双向长短时记忆递归神经网络模型包含多个隐层,且双向长短时记忆递归神经网络模型训练时,只是在没有递归连接的层运用丢弃正则化(dropout regularization)技术以增强模型训练的鲁棒性和有效性。
双向长短时记忆递归神经网络模型训练方法采用动量(momentum)方法更新训练参数以增强模型训练的鲁棒性和有效性。
双向长短时记忆递归神经网络模型训练方法采用多个不同的流同时进行,以加快模型训练的速度。
双向长短时记忆递归神经网络包含4层的长短时记忆(Long Short Term Memory,LSTM)隐层。
优选实施例,对于输入的音频按照16000赫兹进行采样,按照16位比特进行量化,并采用窗长25毫秒,以及窗移是10毫秒的海明(Hamming)窗计算音频的39维梅尔倒谱系数(MFCC)特征。
优选实施例,在利用通过时间反向传播算法训练双向长短时记忆递归神经网络模型时,对梯度进行剪裁,设置梯度剪裁的阈值是10。
优选实施例,在利用通过时间反向传播算法训练双向长短时记忆递归神经网络模型时,只对不包含递归层应用丢弃正则化(dropout regularization)技术。图1给出了在前向长短时记忆递归神经网络模型训练时应用丢弃正则化(dropout regularization)的示例。在图1中,虚线部分表示运用丢弃正则化(dropout regularization)技术。
优选实施例,在利用通过时间反向传播算法训练双向长短时记忆递归神经网络模型时,设置最大的递归帧数是40帧。
优选实施例,在利用双向长短时记忆递归神经网络模型进行特征增强时,为获得较佳的增强效果,设置时间延迟为5帧。
本发明为一种双向长短时记忆递归神经网络的特征增强系统,所述的系统包括:第二输入模块201:输入采样率为16000赫兹,16位比特编码的带噪音频,以及相应的采样率为16000赫兹,16位比特编码的干净音频。第二特征抽取模块202:对第二音频模块201输入的带噪音频和相应的干净音频,分别抽取39维梅尔倒谱系数(MFCC)特征。双向长短时记忆递归神经网络模型训练模块203:用于训练双向长短时记忆递归神经网络模型。训练时采用的学习速率是0.00001,动量(momentum)的值为0.9。训练之前采用服从均值为0,标准差是0.1的正态分布的随机值初始化训练的权值矩阵、偏移向量等。设置双向长短时记忆递归神经网络有4个隐层,从第一个隐层到第四个隐层,分别含有78、128、78、78个长短时记忆细胞块,且每一个长短时记忆细胞块只含有一个记忆细胞。为了提高模型训练的有效性和稳定性,丢弃正则化(dropout regularization)技术在没有递归连接输入层、隐层进行应用。同时,在训练双向长短时记忆递归神经网络时,为了防止模型的过训练,梯度剪裁的方法用于剪枝梯度。训练时,梯度的阈值设置为10.模型存储模块204:主要用于存储用双向长短时记忆递归神经网络模型训练模块训练获得的模型。第一音频模块101:输入采样率为16000赫兹,16位比特编码的实际场景下的音频。第一特征抽取模块102:对第一音频模块输入的音频,抽取39维梅尔倒谱系数(MFCC)特征。模型装载模块103:从模型库装载由模型训练模块训练好的双向长短时记忆递归神经网络模型。增强模块104:对第一特征抽取模块102抽取的特征,利用模型装载模块103装载的双向长短时记忆递归神经网络模型,进行特征增强。增强特征存储模块104:对增强模块103增强的特征进行保存。本系统可以在计算机、服务器或者计算机网络中实现,其第一、第二输入模块可以使麦克风等设备。
实施例
如图3所示,系统主要包括双向长短时记忆递归神经网络模型训练部分和基于双向长短时记忆递归神经网络模型的特征增强部分。其中,双向长短时记忆递归神经网络模型训练部分主要由第二音频输入模块201、第二特征抽取模块202、双向长短时记忆递归神经网络模型训练模块203、模型存储204组成。基于双向长短时记忆递归神经网络模型的特征增强部分主要由第一音频输入模块101、第一特征抽取模块102、模型装载模块103、增强模块104、增强特征存储模块105组成。第二音频输入模块201,输入包括采样率为16000赫兹,16位比特编码的带噪音频,以及相应的采样率为16000赫兹,16位比特编码的干净音频。第二特征抽取模块202,对第二音频输入模块201输入的带噪音频和相应的干净音频分别以25毫秒海明(Hamming)窗和10毫秒为窗移,抽取39维梅尔倒谱系数特征MFCC。双向长短时记忆递归神经网络模型训练模块203,以输入的被噪声污染的音频特征作为训练特征,以相应的干净的音频特征作为训练目标,采用通过时间反向传播算法训练模型。在训练模型时,对梯度进行剪枝,并在没有递归的层利用Dropout方法以防止模型的过训练。同时,在更新模型时,利用动量(momentum)方法更新模型,动量(momentum)系数设置为0.9。
递归神经网络(Recurrent Neural Network,RNN)与普通的前馈神经网络(Feed-ForwardNeural Network,FFNN)主要的不同在于:递归神经网络编码了时序序列中过去信息的内部状态,并在递归神经网络中利用。从这个意义上讲,递归神经网络是一个动力系统,比只有类似静态输入输出变换的深度神经网络具有更好的泛化能力。理论上,状态空间的利用使得递归神经网络可以学习到更长时间的上下文信息。
对于递归神经网络,可以表述如下:
设xt是t时刻输入的K×1特征矢量,ht是隐层单元的值,是N×1矢量,yt是输出,是L×1矢量,则只有一个隐层的递归神经网络可以表示为:
ht=f(Wxhxt+Whhht-1) (1)
yt=g(Whyht) (2)
其中Why是连接N个隐层单元到L个输出的L×N权值矩阵,Wxh是连接K个输入单元到N个隐层单元的N×K矩阵,Whh是连接时刻t-1的N个隐层单元到时刻t的N个隐层单元权值矩阵。f(·)和g(·)分别是隐层的和输出层的激活函数。
通过时间反向传播(Backpropagation-Through-Time,BPTT)算法用于学习权值矩阵。
假设优化的目标函数是
其中yt是实际的输出矢量,lt是目标矢量,T是总的时间帧。
利用梯度下降法最小化目标函数,其更新准则是:
其中γ是学习速率,w是权值矩阵。
设ut=(Wxhxt+Whhht-1),vt=Whyht,
则在T时刻,输出层的误差项(Error Term)为
隐层的误差项(Error Term)为
在(5)和(6)中,“·”是矩阵中逐元素相乘。
在其他时刻t=T-1,T-2,…,1,输出层和隐层的误差项(Error Term)分别为:
利用上述计算的输出层和隐层的误差项(Error Term),输出层的权值矩阵、隐层的权值矩阵和递归矩阵可以更新如下:
递归神经网络可以学习到长时依赖(Long-Term Dependent),并且理论上讲,梯度下降法可用于训练递归神经网络模型。但是,实际训练递归神经网络时,存在着梯度消失(VanishingGradient)和梯度爆炸(Exploding Gradient)的问题。长短时记忆递归神经网络通过将长短时记忆细胞(Long Short-Term Memory Cell)引入到递归神经网络中,可以在某种程度上避免梯度消失的问题。
长短时记忆细胞集可以描述如下:
it=f(W(xi)xt+W(hi)ht-1+W(ci)ct-1+b(i)) (12)
ft=f(W(xf)xt+W(hf)ht-1+W(cf)ct-1+b(f)) (13)
ct=ft·ct-1+it·g(W(xc)xt+W(hc)ht-1+b(c)) (14)
ot=f(W(xo)xt+W(ho)ht-1+W(co)ct+b(o)) (15)
ht=ot·h(ct) (16)
其中it,ft,ct,ot,ht是维数相同的矢量,分别代表在时刻t时,输入门(Input Gate)、遗忘门(ForgetGate)、细胞激活(Cell Activation)、输出门(Output Gate)和隐层等五种不同的信息类型,“·”表示逐元素相乘,f,g,h分别表示不同门的激活函数、细胞输入激活函数以及细胞输出激活函数。W(xi),W(xf),W(xo)分别是输入门、遗忘门、输出门与输入之间的权值矩阵,W(hi),W(hf),W(ho),分别表示是输入门、遗忘门、输出门与递归输入之间的权值矩阵,W(ci),W(cf),W(co)是输入门、遗忘门、输出门与记忆细胞之间的权值矩阵,W(xc)是记忆细胞和输入之间权值矩阵,W(hc)是记忆细胞和递归输入之间的权值矩阵,b(i),b(f),b(c),b(o)代表相应的偏置矢量。长短时记忆递归神经网络(LSTM-RNN)模型训练仍然采用BPTT算法。
对于双向长短时记忆递归神经网络的LSTM记忆细胞集可以描述如下:
前向状态序列可以表示为:
后向状态序列可表示为:
结合前向和后项状态的输出可以表示为:
其中,分别表示前向LSTM隐层、后项LSTM隐层和输出层之间权值,by是相应的偏移矢量。
如图2所示,基于双向长短时记忆递归神经网络模型的特征增强部分主要是包括:首先,从第一输入模块101获得采样率为16000赫兹,16位比特编码的实际场景下的音频。然后,第一特征抽取模块102对第一输入模块101输入的音频,抽取39维梅尔倒谱系数MFCC特征。利用模型装载模块103从模型库装载由模型训练模块203训练好的双向长短时记忆递归神经网络模型。最后,增强模块104对第一特征抽取模块102抽取的特征,利用模型装载模块103装载的双向长短时记忆递归神经网络模型,进行特征增强。对增强模块104增强的特征由增强特征存储模块105保存到存储介质。增强特征存储模块105与双向递归神经网络模型训练模块106相连。双向递归神经网络模型训练模块106为双向长短时记忆递归神经网络模型训练部分,用于对双向递归神经网络模型的训练。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种双向长短时记忆递归神经网络的特征增强方法,其特征是,包括以下步骤:
步骤一:获取被实际场景下噪声污染的音频以及相应的干净音频并对获取被噪声污染的音频和干净的音频分别抽取特征,然后转入步骤二进行训练;
步骤二:训练时,以被噪声污染的音频特征作为训练特征,以相应的干净的音频特征作为训练目标,采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型并将训练好的双向长短时记忆递归神经网络模型进行存储;
步骤三:获取实际应用场景下带噪的音频并对获得的带噪的音频抽取特征,然后转入步骤四进行特征增强;
步骤四:增强时,对步骤三抽取的特征应用步骤二中训练好的双向长短时记忆递归神经网络模型进行增强输入的特征并将增强的特征进行存储。
2.如权利要求1所述的一种双向长短时记忆递归神经网络的特征增强方法,其特征是,所述步骤二中,在训练双向长短时记忆递归神经网络模型时,设置双向长短时记忆递归神经网络有4个隐层,从第一个隐层到第四个隐层,分别含有78、128、78、78个长短时记忆细胞块,且每一个长短时记忆细胞块只含有一个记忆细胞。
3.如权利要求1或2所述的一种双向长短时记忆递归神经网络的特征增强方法,其特征是,所述步骤二中,在训练双向长短时记忆递归神经网络模型时,为了提高模型训练的有效性和稳定性,丢弃正则化技术在没有递归连接输入层、隐层进行应用,同时,在训练双向长短时记忆递归神经网络时,为了防止模型的过训练,梯度剪裁的方法用于剪枝梯度,训练时,梯度的阈值设置为10。
4.如权利要求1或2所述的一种双向长短时记忆递归神经网络的特征增强方法,其特征是,所述步骤二中,在训练双向长短时记忆递归神经网络模型时,双向长短时记忆递归神经网络模型训练采用多个不同的流同时进行,以加快模型训练的速度。
5.如权利要求1所述的一种双向长短时记忆递归神经网络的特征增强方法,其特征是,所述步骤四中,增强时,在应用加载模块加载的双向长短时记忆递归神经网络模型对第一特征抽取模块抽取的39维梅尔倒谱系数特征进行特征增强时,设定5帧的时间偏移以更好的利用双向长短时记忆递归神经网络模型进行特征增强。
6.一种应用如权利要求1的一种双向长短时记忆递归神经网络的特征增强方法的系统,其特征是,包括:双向长短时记忆递归神经网络模型的特征增强部分及双向长短时记忆递归神经网络模型训练部分;
双向长短时记忆递归神经网络模型训练部分,包括:第二输入模块、第二特征抽取模块、模型训练模块及模型存储模块;
第二输入模块,用于加载被实际场景下噪声污染的音频以及相应的干净音频并将输入的音频传送至第二特征抽取模块;
第二特征抽取模块,用于对输入的被噪声污染的音频和干净的音频分别抽取特征并将抽取的音频传送至模型训练模块;
模型训练模块,用于以输入的被噪声污染的音频特征作为训练特征,以相应的干净的音频特征作为训练目标,采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型并将训练好的双向长短时记忆递归神经网络模型存储至模型存储模块;
所述双向长短时记忆递归神经网络模型的特征增强部分包括:第一输入模块、第一特征抽取模块、模型装载模块、增强模块及增强特征存储模块;
第一输入模块,用于接受输入的实际应用场景下带噪的音频并将输入的音频传送至第一特征抽取模块;
第一特征抽取模块,用于抽取第一输入模块中的特征并将抽取的特征传送至增强模块;
模型装载模块,用于装载由双向长短时记忆递归神经网络模型训练模块训练好的双向长短时记忆递归神经网络模型;
增强模块,利用第一特征抽取模块抽取的特征,应用模型装载模块加载的训练好的双向长短时记忆递归神经网络模型,增强输入的特征,并将增强的特征传送至增强特征存储模块进行存储。
7.如权利要求6所述的一种双向长短时记忆递归神经网络的特征增强方法的系统,其特征是,所述第一输入模块以实际场景下抽样频率为16000Hz,16位的PCM格式的音频作为输入;
所述第一特征抽取模块,设定25毫秒海明窗和10毫秒为窗移,抽取39维梅尔倒谱系数特征。
8.如权利要求6或7所述的一种双向长短时记忆递归神经网络的特征增强方法的系统,其特征是,所述第二输入模块以混合实际音频场景噪音的16000Hz,16位的PCM音频和相应的没有混合实际音频场景噪音的16000Hz,16位的PCM音频作为输入;
所述第二特征抽取模块,以25毫秒海明窗和10毫秒为窗移,对混合实际场景噪音的音频和没有混合实际场景噪音的音频分别抽取39维梅尔倒谱系数特征。
9.如权利要求6所述的一种双向长短时记忆递归神经网络的特征增强方法的系统,其特征是,所述模型训练模块,以混合实际场景噪音的音频的39维梅尔倒谱系数特征为特征,同时以没有混合实际场景噪音的音频的39维梅尔倒谱系数特征为模型训练的目标,以最小均分误差为训练的目标函数,采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型。
10.如权利要求9所述的一种双向长短时记忆递归神经网络的特征增强方法的系统,其特征是,训练双向长短时记忆递归神经网络模型时,对梯度进行剪裁,同时在没有递归的隐层和输入层上利用丢弃正则化方法以增加模型的鲁棒性和有效性,同时在更新双向长短时记忆递归神经网络模型的参数时,利用动量方法更新模型,动量系数设置为0.9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510221339.9A CN104952448A (zh) | 2015-05-04 | 2015-05-04 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510221339.9A CN104952448A (zh) | 2015-05-04 | 2015-05-04 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104952448A true CN104952448A (zh) | 2015-09-30 |
Family
ID=54167060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510221339.9A Pending CN104952448A (zh) | 2015-05-04 | 2015-05-04 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104952448A (zh) |
Cited By (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389980A (zh) * | 2015-11-09 | 2016-03-09 | 上海交通大学 | 基于长短时记忆递归神经网络的短时交通流预测方法 |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN105559777A (zh) * | 2016-03-17 | 2016-05-11 | 北京工业大学 | 基于小波包和lstm型rnn神经网络的脑电识别方法 |
CN105955952A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的信息提取方法 |
CN105975456A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种企业实体名称分析识别系统 |
CN105975455A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向递归神经网络的信息分析系统 |
CN106251860A (zh) * | 2016-08-09 | 2016-12-21 | 张爱英 | 面向安防领域的无监督的新颖性音频事件检测方法及系统 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106599992A (zh) * | 2015-10-08 | 2017-04-26 | 上海兆芯集成电路有限公司 | 以处理单元群组作为时间递归神经网络长短期记忆胞进行运作的神经网络单元 |
CN106653020A (zh) * | 2016-12-13 | 2017-05-10 | 中山大学 | 一种基于深度学习的智慧视听设备多业务控制方法及系统 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN106683663A (zh) * | 2015-11-06 | 2017-05-17 | 三星电子株式会社 | 神经网络训练设备和方法以及语音识别设备和方法 |
CN106919977A (zh) * | 2015-12-25 | 2017-07-04 | 科大讯飞股份有限公司 | 一种前馈序列记忆神经网络及其构建方法和系统 |
CN107068161A (zh) * | 2017-04-14 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN107680597A (zh) * | 2017-10-23 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
CN107886967A (zh) * | 2017-11-18 | 2018-04-06 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
CN107890348A (zh) * | 2017-11-21 | 2018-04-10 | 郑州大学 | 一种基于深度学习法心电节拍特征自动化提取及分类方法 |
CN107993636A (zh) * | 2017-11-01 | 2018-05-04 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN108074575A (zh) * | 2017-12-14 | 2018-05-25 | 广州势必可赢网络科技有限公司 | 一种基于循环神经网络的身份验证方法及装置 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN108231086A (zh) * | 2017-12-24 | 2018-06-29 | 航天恒星科技有限公司 | 一种基于fpga的深度学习语音增强器及方法 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
CN108320732A (zh) * | 2017-01-13 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 生成目标说话人语音识别计算模型的方法和装置 |
CN108510985A (zh) * | 2017-02-24 | 2018-09-07 | 百度(美国)有限责任公司 | 用于减小生产语音模型中的原则性偏差的系统和方法 |
CN108780523A (zh) * | 2016-03-18 | 2018-11-09 | 高通股份有限公司 | 使用本地设备提供的传感器数据和标签的基于云的处理 |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN108986798A (zh) * | 2018-06-27 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 语音数据的处理方法、装置及设备 |
CN109044396A (zh) * | 2018-06-25 | 2018-12-21 | 广东工业大学 | 一种基于双向长短时记忆神经网络的智能心音识别方法 |
CN109192187A (zh) * | 2018-06-04 | 2019-01-11 | 平安科技(深圳)有限公司 | 基于人工智能的作曲方法、系统、计算机设备和存储介质 |
CN109214107A (zh) * | 2018-09-26 | 2019-01-15 | 大连海事大学 | 一种船舶航行行为在线预测方法 |
CN109273021A (zh) * | 2018-08-09 | 2019-01-25 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
WO2019024083A1 (en) * | 2017-08-04 | 2019-02-07 | Nokia Technologies Oy | ARTIFICIAL NEURONAL NETWORK |
CN109346107A (zh) * | 2018-10-10 | 2019-02-15 | 中山大学 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
CN109360581A (zh) * | 2018-10-12 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的语音增强方法、可读存储介质及终端设备 |
WO2019096149A1 (zh) * | 2017-11-15 | 2019-05-23 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN109859767A (zh) * | 2019-03-06 | 2019-06-07 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
CN110147788A (zh) * | 2019-05-27 | 2019-08-20 | 东北大学 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
CN110390294A (zh) * | 2019-07-19 | 2019-10-29 | 中国人民解放军国防科技大学 | 一种基于双向长短期记忆神经网络的目标跟踪方法 |
CN110390952A (zh) * | 2019-06-21 | 2019-10-29 | 江南大学 | 基于双特征2-DenseNet并联的城市声音事件分类方法 |
US10540962B1 (en) * | 2016-02-26 | 2020-01-21 | Google Llc | Speech recognition with attention-based recurrent neural networks |
CN110879253A (zh) * | 2018-09-05 | 2020-03-13 | 哈尔滨工业大学 | 一种基于改进长短时记忆网络的钢轨裂纹声发射信号检测方法 |
US10679612B2 (en) | 2017-01-04 | 2020-06-09 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN111354345A (zh) * | 2020-03-11 | 2020-06-30 | 北京字节跳动网络技术有限公司 | 生成语音模型和语音识别的方法、装置、设备以及介质 |
WO2020199990A1 (en) * | 2019-03-29 | 2020-10-08 | Goodix Technology (Hk) Company Limited | Speech processing system and method therefor |
CN112349277A (zh) * | 2020-09-28 | 2021-02-09 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的特征域语音增强方法及相关产品 |
WO2021057239A1 (zh) * | 2019-09-23 | 2021-04-01 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
CN112820279A (zh) * | 2021-03-12 | 2021-05-18 | 深圳市臻络科技有限公司 | 基于语音上下文动态特征的帕金森病检测方法 |
CN113920473A (zh) * | 2021-10-15 | 2022-01-11 | 宿迁硅基智能科技有限公司 | 完整事件确定方法、存储介质及电子装置 |
US11783173B2 (en) | 2016-06-23 | 2023-10-10 | Microsoft Technology Licensing, Llc | Multi-domain joint semantic frame parsing |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452575A (zh) * | 2008-12-12 | 2009-06-10 | 北京航空航天大学 | 一种基于神经网络的图像自适应增强方法 |
CN104538028A (zh) * | 2014-12-25 | 2015-04-22 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
-
2015
- 2015-05-04 CN CN201510221339.9A patent/CN104952448A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452575A (zh) * | 2008-12-12 | 2009-06-10 | 北京航空航天大学 | 一种基于神经网络的图像自适应增强方法 |
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
CN104538028A (zh) * | 2014-12-25 | 2015-04-22 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
Non-Patent Citations (7)
Title |
---|
JUN DU, QING WANG, TIAN GAO, ETC: "Robust Speech Recognition with Speech Enhanced Deep Neural Networks", <INTERSPEECH> * |
JURGEN T. GEIGER ETC: "Memory-Enhanced Neural Networks and NMF for Robust ASR", <IEEE/ACM TRANSACTIONS, SPEECH, AND LANGUAGE PROCESSING> * |
KAISHENG YAO ETC: "Spoken Language Understanding using Long Short-Term Memory Neural Networks", <RESEARCHGATE> * |
MARTIN WOLLMER, ZICING ZHANG, ETC: "Feature Enhancement by Bidirectional LSTM Networks for Conversational Speech Recognition Highly Non-stationary Noise", <ICASSP> * |
MIKE SCHUSTER ETC: "Bidirectional Recurrent Neural Networks", <IEEE TRANSACTIONS ON SIGNAL PROCESSING> * |
YONG XU, JUN DU, LI-RONG DAI, AND CHIN-HUI LEE: "A Regression Apporach to Speech Enhancement Based on Deep Neural Networks", <IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING> * |
张亮,黄曙光,石昭祥,胡荣贵: "基于LSTM型RNN的CAPTCHA识别方法", 《模式识别与人工智能》 * |
Cited By (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599992A (zh) * | 2015-10-08 | 2017-04-26 | 上海兆芯集成电路有限公司 | 以处理单元群组作为时间递归神经网络长短期记忆胞进行运作的神经网络单元 |
CN106599992B (zh) * | 2015-10-08 | 2019-04-09 | 上海兆芯集成电路有限公司 | 以处理单元群组作为时间递归神经网络长短期记忆胞进行运作的神经网络单元 |
CN106683663B (zh) * | 2015-11-06 | 2022-01-25 | 三星电子株式会社 | 神经网络训练设备和方法以及语音识别设备和方法 |
CN106683663A (zh) * | 2015-11-06 | 2017-05-17 | 三星电子株式会社 | 神经网络训练设备和方法以及语音识别设备和方法 |
CN105389980B (zh) * | 2015-11-09 | 2018-01-19 | 上海交通大学 | 基于长短时记忆递归神经网络的短时交通流预测方法 |
CN105389980A (zh) * | 2015-11-09 | 2016-03-09 | 上海交通大学 | 基于长短时记忆递归神经网络的短时交通流预测方法 |
CN105513591B (zh) * | 2015-12-21 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN106919977A (zh) * | 2015-12-25 | 2017-07-04 | 科大讯飞股份有限公司 | 一种前馈序列记忆神经网络及其构建方法和系统 |
CN106919977B (zh) * | 2015-12-25 | 2022-05-17 | 科大讯飞股份有限公司 | 一种前馈序列记忆神经网络及其构建方法和系统 |
US11151985B2 (en) | 2016-02-26 | 2021-10-19 | Google Llc | Speech recognition with attention-based recurrent neural networks |
US10540962B1 (en) * | 2016-02-26 | 2020-01-21 | Google Llc | Speech recognition with attention-based recurrent neural networks |
CN105559777A (zh) * | 2016-03-17 | 2016-05-11 | 北京工业大学 | 基于小波包和lstm型rnn神经网络的脑电识别方法 |
CN108780523A (zh) * | 2016-03-18 | 2018-11-09 | 高通股份有限公司 | 使用本地设备提供的传感器数据和标签的基于云的处理 |
CN108780523B (zh) * | 2016-03-18 | 2022-05-03 | 高通股份有限公司 | 使用本地设备提供的传感器数据和标签的基于云的处理 |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN105975456A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种企业实体名称分析识别系统 |
CN105955952A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的信息提取方法 |
CN105975455A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向递归神经网络的信息分析系统 |
US11783173B2 (en) | 2016-06-23 | 2023-10-10 | Microsoft Technology Licensing, Llc | Multi-domain joint semantic frame parsing |
CN106251860A (zh) * | 2016-08-09 | 2016-12-21 | 张爱英 | 面向安防领域的无监督的新颖性音频事件检测方法及系统 |
CN106251860B (zh) * | 2016-08-09 | 2020-02-11 | 张爱英 | 面向安防领域的无监督的新颖性音频事件检测方法及系统 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN106653056B (zh) * | 2016-11-16 | 2020-04-24 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN106653020A (zh) * | 2016-12-13 | 2017-05-10 | 中山大学 | 一种基于深度学习的智慧视听设备多业务控制方法及系统 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
US10679612B2 (en) | 2017-01-04 | 2020-06-09 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN108320732A (zh) * | 2017-01-13 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 生成目标说话人语音识别计算模型的方法和装置 |
CN108510985A (zh) * | 2017-02-24 | 2018-09-07 | 百度(美国)有限责任公司 | 用于减小生产语音模型中的原则性偏差的系统和方法 |
CN107068161A (zh) * | 2017-04-14 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
US10867618B2 (en) | 2017-04-14 | 2020-12-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech noise reduction method and device based on artificial intelligence and computer device |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN107452389B (zh) * | 2017-07-20 | 2020-09-01 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
US11481625B2 (en) | 2017-08-04 | 2022-10-25 | Nokia Technologies Oy | Artificial neural network |
WO2019024083A1 (en) * | 2017-08-04 | 2019-02-07 | Nokia Technologies Oy | ARTIFICIAL NEURONAL NETWORK |
WO2019080248A1 (zh) * | 2017-10-23 | 2019-05-02 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN107680597A (zh) * | 2017-10-23 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN107993636B (zh) * | 2017-11-01 | 2021-12-31 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN107993636A (zh) * | 2017-11-01 | 2018-05-04 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
US10818311B2 (en) | 2017-11-15 | 2020-10-27 | Institute Of Automation, Chinese Academy Of Sciences | Auditory selection method and device based on memory and attention model |
WO2019096149A1 (zh) * | 2017-11-15 | 2019-05-23 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN107886967A (zh) * | 2017-11-18 | 2018-04-06 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
CN107890348A (zh) * | 2017-11-21 | 2018-04-10 | 郑州大学 | 一种基于深度学习法心电节拍特征自动化提取及分类方法 |
CN108074575A (zh) * | 2017-12-14 | 2018-05-25 | 广州势必可赢网络科技有限公司 | 一种基于循环神经网络的身份验证方法及装置 |
CN108231086A (zh) * | 2017-12-24 | 2018-06-29 | 航天恒星科技有限公司 | 一种基于fpga的深度学习语音增强器及方法 |
CN109192187A (zh) * | 2018-06-04 | 2019-01-11 | 平安科技(深圳)有限公司 | 基于人工智能的作曲方法、系统、计算机设备和存储介质 |
CN109044396A (zh) * | 2018-06-25 | 2018-12-21 | 广东工业大学 | 一种基于双向长短时记忆神经网络的智能心音识别方法 |
CN109044396B (zh) * | 2018-06-25 | 2021-03-30 | 广东工业大学 | 一种基于双向长短时记忆神经网络的智能心音识别方法 |
CN108986798A (zh) * | 2018-06-27 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 语音数据的处理方法、装置及设备 |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN109273021B (zh) * | 2018-08-09 | 2021-11-30 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
CN109273021A (zh) * | 2018-08-09 | 2019-01-25 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
CN110879253B (zh) * | 2018-09-05 | 2021-04-06 | 哈尔滨工业大学 | 一种基于改进长短时记忆网络的钢轨裂纹声发射信号检测方法 |
CN110879253A (zh) * | 2018-09-05 | 2020-03-13 | 哈尔滨工业大学 | 一种基于改进长短时记忆网络的钢轨裂纹声发射信号检测方法 |
CN109214107A (zh) * | 2018-09-26 | 2019-01-15 | 大连海事大学 | 一种船舶航行行为在线预测方法 |
CN109346107A (zh) * | 2018-10-10 | 2019-02-15 | 中山大学 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
CN109346107B (zh) * | 2018-10-10 | 2022-09-30 | 中山大学 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
CN109360581A (zh) * | 2018-10-12 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的语音增强方法、可读存储介质及终端设备 |
WO2020177371A1 (zh) * | 2019-03-06 | 2020-09-10 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 |
CN109859767B (zh) * | 2019-03-06 | 2020-10-13 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 |
CN109859767A (zh) * | 2019-03-06 | 2019-06-07 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 |
WO2020199990A1 (en) * | 2019-03-29 | 2020-10-08 | Goodix Technology (Hk) Company Limited | Speech processing system and method therefor |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
CN110147788A (zh) * | 2019-05-27 | 2019-08-20 | 东北大学 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
CN110390952B (zh) * | 2019-06-21 | 2021-10-22 | 江南大学 | 基于双特征2-DenseNet并联的城市声音事件分类方法 |
CN110390952A (zh) * | 2019-06-21 | 2019-10-29 | 江南大学 | 基于双特征2-DenseNet并联的城市声音事件分类方法 |
CN110390294B (zh) * | 2019-07-19 | 2021-03-09 | 中国人民解放军国防科技大学 | 一种基于双向长短期记忆神经网络的目标跟踪方法 |
CN110390294A (zh) * | 2019-07-19 | 2019-10-29 | 中国人民解放军国防科技大学 | 一种基于双向长短期记忆神经网络的目标跟踪方法 |
WO2021057239A1 (zh) * | 2019-09-23 | 2021-04-01 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
CN111354345A (zh) * | 2020-03-11 | 2020-06-30 | 北京字节跳动网络技术有限公司 | 生成语音模型和语音识别的方法、装置、设备以及介质 |
CN112349277A (zh) * | 2020-09-28 | 2021-02-09 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的特征域语音增强方法及相关产品 |
CN112820279A (zh) * | 2021-03-12 | 2021-05-18 | 深圳市臻络科技有限公司 | 基于语音上下文动态特征的帕金森病检测方法 |
CN112820279B (zh) * | 2021-03-12 | 2024-02-09 | 深圳市臻络科技有限公司 | 基于语音上下文动态特征的帕金森检测模型构建方法 |
CN113920473A (zh) * | 2021-10-15 | 2022-01-11 | 宿迁硅基智能科技有限公司 | 完整事件确定方法、存储介质及电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104952448A (zh) | 一种双向长短时记忆递归神经网络的特征增强方法及系统 | |
CN107301864B (zh) | 一种基于Maxout神经元的深度双向LSTM声学模型 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN104538028B (zh) | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology. | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
CN107680597A (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN104700828A (zh) | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 | |
CN105139864A (zh) | 语音识别方法和装置 | |
CN109256118B (zh) | 基于生成式听觉模型的端到端汉语方言识别系统和方法 | |
CN113674732B (zh) | 语音置信度检测方法、装置、电子设备和存储介质 | |
CN104751228A (zh) | 深度神经网络的构建方法及系统 | |
CN111292768A (zh) | 丢包隐藏的方法、装置、存储介质和计算机设备 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN115101085A (zh) | 一种卷积增强外部注意力的多说话人时域语音分离方法 | |
CN114267372A (zh) | 语音降噪方法、系统、电子设备和存储介质 | |
Shahnawazuddin et al. | Children's speaker verification in low and zero resource conditions | |
Suh et al. | Phoneme segmentation of continuous speech using multi-layer perceptron | |
CN111144027A (zh) | 一种基于bp神经网络全特性曲线函数的逼近方法 | |
CN103474062A (zh) | 一种语音识别方法 | |
CN116580694A (zh) | 音频对抗样本生成方法、装置、设备及存储介质 | |
CN114564568A (zh) | 基于知识增强与上下文感知的对话状态追踪方法及系统 | |
Djeffal et al. | Noise-robust speech recognition: A comparative analysis of LSTM and CNN approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150930 |