CN106782511A - 修正线性深度自编码网络语音识别方法 - Google Patents

修正线性深度自编码网络语音识别方法 Download PDF

Info

Publication number
CN106782511A
CN106782511A CN201611195535.4A CN201611195535A CN106782511A CN 106782511 A CN106782511 A CN 106782511A CN 201611195535 A CN201611195535 A CN 201611195535A CN 106782511 A CN106782511 A CN 106782511A
Authority
CN
China
Prior art keywords
training
signal
network
carries out
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611195535.4A
Other languages
English (en)
Inventor
黄丽霞
张雪英
孙颖
娄英丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201611195535.4A priority Critical patent/CN106782511A/zh
Publication of CN106782511A publication Critical patent/CN106782511A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Abstract

一种修正线性深度自编码网络语音识别方法,所述方法首先是采用修正线性单元作为激活函数替换传统的Sigmoid函数对深度自编码网络进行训练,其次是引入L2正则化来优化深度模型训练过程中容易产生的过拟合问题,最后通过逐层贪婪无监督的“预训练”和有监督的“微调”得到具有特征表示的权值进行语音识别。本方法充分利用了深度神经网络强大的从少数样本集中学习数据集本质特征的能力,克服了训练中的梯度消失和过拟合问题,提高了系统在噪声环境下的识别精度。

Description

修正线性深度自编码网络语音识别方法
技术领域
本发明涉及一种应用建立深度学习网络模型对语音进行识别的方法,属于语音信号处理领域,具体涉及一种修正线性深度自编码网络语音识别方法。
背景技术
由于传统语音识别方法的理论假设和实际情况相比存在较大差异,导致在现实应用中难以达到预期性能,亟待在理论取得突破。深度学习是当前针对大数据的重要机器学习理论,在语音、图像、文本等领域有广泛的应用。目前,深度学习算法在语音识别方面已有一定的发展,它模拟了人类神经元活动原理,具有自学习、联想、对比、推理和概括能力,为解决语音识别这样的一个复杂的模式识别问题提供了新的途径。但是,随着模型深度增加,训练难度也在逐渐加大,如何找到一种快速有效的训练算法,是目前研究中需要克服的难题。
目前针对建立深度学习语音识别声学模型的最常用方法是使用受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)作为基本单元,通过无监督逐层贪婪训练算法和对比散度算法,建立深度置信网络(Deep Belief Network,DBN)声学模型,例如文献“Afast learning algorithm for deep belief nets”(Neural Computation, 2006, 18(7))中所提到。这种方法解决传统BP算法训练多层神经网络需要大量的含标号训练样本集、较慢的收敛速度、以及因不合适的参数选择而陷入局部最优的难题。
在文献“Context Dependent Pre-Trained Deep Neural Networks for LargeVocabulary Speech Recognition”(IEEE Transactions on Audio Speech and LanguageProcessing, 2012, 20(1))中,微软研究人员进一步使用深度信念网络对数以千计的senones(一种比音素小很多的建模单元)直接建模,提出了第1个成功应用于大词汇量语音识别系统的上下文相关的深层神经网络-隐马尔可夫混合模型(Context-Dependent DeepNeural Network Hidden Markov Model,CD-DNN-HMM)。
虽然深度学习语音识别的方法一直在不断改进,但无论哪种方法在噪声环境下识别性能的急剧下降仍是一个重大难题,这极大制约着自动语音识别技术在实际中的应用。另外,深度模型训练时容易产生的“梯度消失”和过拟合等问题也始终影响着系统的性能表现。
发明内容
本发明要解决的具体技术问题是:如何在噪声环境下,建立深度学习语音识别系统方法,并取得良好的抗噪性能。
为了优化深度模型的训练算法,提出基于L2正则化的修正线性深度自编码网络(Rectified Deep Auto-encoder,RDAE)模型构建方法;首先采用修正线性单元作为激活函数替换传统的Sigmoid函数对深度自编码网络进行训练,其次引入L2正则化来优化深度模型训练过程中容易产生的过拟合问题,最后通过无监督的“预训练”(pre-training)和有监督的“微调”(fine-tuning)得到一组具有特征表示的权值,从而对测试语音完成识别任务。
本发明的具体技术方案为:建立基于L2正则化的修正线性深度自编码网络模型构建方法,在训练时首先进行无监督学习,称为网络“预训练”,然后将预训练得到的参数当作有监督学习的初始值再进行有监督训练,最后通过反向传播算法调整所有层的参数,称为网络“微调”;具体步骤如下:
1)语音数据预处理:
11)对语音信号进行采样和量化,采样率为,帧长256采样点,帧移128采样点;
12)对步骤11)所得到的语音信号进行预处理,包括预加重、分帧、加窗以及归一化处理;
13)将步骤12)所得的单帧信号进行端点检测,获得有效的单帧信号;
2)提取声学特征:
21)将步骤13)所得的有效单帧信号进行快速傅里叶变换,得到语音信号的频域信号。
22)使用对应的滤波器组对步骤21)所得的频域信号进行滤波处理;
23)对22)所得的滤波信号进行一系列非线性变换得到语音的声学特征;
3)训练修正线性深度自编码网的步骤:
31)激活函数以修正线性单元ReLU为例,利用“训练集”数据通过无监督逐层贪婪训练算法“预训练”网络的第一个修正线性自动编码器(Rectified Auto-encoder,RAE),并得到参数
32)将第一个RAE的输出作为第二个RAE的输入,按相同的方式继续训练得到第二组参数,并对后面所有的RAE采取相同的策略依次训练其参数;
33)在所有隐含层训练完成之后,通过有监督的反向传播算法调整所有层的参数,实现网络“微调”;
34)将最顶层的隐含层输出作为Softmax分类器的输入,对输入的语音数据进行分类识别;
35)选用三种激活函数ReLU、Sigmoid、tanh与两种方法L2正则化和权重衰减Dropout的不同组合进行实验,分析不同方法对系统识别性能的影响;
36)选用ReLU和L2正则化的组合方法较其他方法取得了最佳的识别结果,从而证明了基于L2正则化的修正线性深度自编码网络模型构建方法的可行性。
与传统的深度学习语音识别算法相比,本发明克服了深度模型训练时产生的梯度消失和过拟合问题,优化模型训练算法,提高了训练效率,增强了语音系统的识别性能和抗噪能力。
附图说明
图1是本发明修正线性深度自编码网络语音识别方法框图。
图2是本发明GFCC特征提取流程框图。
图3是本发明MFCC特征提取流程框图。
图4是本发明中建立的修正线性深度自编码网络模型图。
图5是本发明ReLU函数图像。
图6是本发明修正线性深度自编码网络训练过程示意图。
图7是本发明不同方法组合的平均识别率折线图。
图8是本发明不同方法组合的实验结果表图。
具体实施方式
对本发明的具体实施方式作出进一步说明如下。
由于自动编码器可以通过无监督逐层贪婪训练算法进行快速训练,因此,这种方法绕过了直接从整体上训练 DAE的高度复杂性,而将其化简为对多个自动编码器的训练问题。通过这种方式训练后,再经过传统的全局学习算法进行对网络的微调,以最大似然函数为目标函数,使网络达到最优。这种学习算法,本质上等同于先通过逐层自动编码器预训练使模型得到一个较优的初始参数值,然后再通过采用少量的传统学习算法,进一步训练优化网络。
在训练时,针对以传统的Sigmoid函数作为激活函数的DAE模型,在利用反向传播算法从深层向浅层传递误差时,梯度指数经过每层的衰减后浅层很难接受到有效的训练信号问题,以及容易发生的过拟合现象,本发明提出基于L2正则化的修正线性深度自编码网络模型构建方法,优化网络模型训练算法,提高系统识别性能。
附图1是本发明建立修正线性深度自编码网络语音识别系统的流程图,在本发明中,利用语音信号的声学特性,并结合深度神经网络具有的深层非线性表达特性进行语音识别。
本发明方法包括语音数据预处理、提取声学特征和训练修正线性深度自编码网三大步:
1)语音数据预处理:
11)对语音信号进行采样和量化,采样率为,帧长256采样点,帧移128采样点;
12)对步骤11)所得到的语音信号进行预处理,包括预加重、分帧、加窗以及归一化处理;
13)将步骤12)所得的单帧信号进行端点检测,获得有效的单帧信号;
2)提取声学特征:
21)将步骤13)所得的有效单帧信号进行快速傅里叶变换,得到语音信号的频域信号;
22)使用对应的滤波器组对步骤21)所得的频域信号进行滤波处理;
23)对22)所得的滤波信号进行一系列非线性变换得到语音的声学特征;
3)训练修正线性深度自编码网的步骤为:
31)利用“训练集”数据通过无监督逐层贪婪训练算法“预训练”网络的第一个修正线性自动编码器(Rectified Auto-encoder,RAE),并得到参数
32)将第一个RAE的输出作为第二个RAE的输入,按相同的方式继续训练得到第二组参数,并对后面所有的RAE采取相同的策略依次训练其参数;
33)在所有隐含层训练完成之后,通过有监督的反向传播算法调整所有层的参数,实现网络“微调”;
34)将最顶层的隐含层输出作为Softmax分类器的输入,对输入的语音数据进行分类识别;
35)选用三种激活函数ReLU、Sigmoid、tanh与两种方法L2正则化和权重衰减Dropout的不同组合进行实验,分析不同方法对系统识别性能的影响;
36)实验结果证明,选用ReLU和L2正则化的组合方法较其他方法取得了最佳的识别结果,从而证明了基于L2正则化的修正线性深度自编码网络模型构建方法的可行性和研究价值。
下面对应本发明的实施步骤,结合附图对本发明技术方案的具体实施进行详细说明。
1、本发明在提取语音信号的声学特征之前,对其进行预处理,对应步骤11)、12)和13)中所述的预处理,内容包括:预加重、分帧、加窗以及端点检测,具体内容如下:
(1)对语音信号进行采样和量化,采样率为,帧长256采样点,帧移128采样点;
(2)为了滤除低频干扰,对语音信号进行预加重处理,利用一阶数字预加重滤波器实现,其函数为:
其中,为预加重滤波器的系数,取值范围一般在0.94~0.97,通常取0.95。预加重之后的信号为:
(3)使用汉明窗对语音信号进行加窗,将语音信号划分为一个一个的短时段,每一个短时段称为一帧,具体如下:
汉明窗:
加窗后的语音信号为:
(4)根据语音信号的能量和过零率,采用双门限比较端点检测法确定语音信号的起始点和终止点,具体如下:对语音信号每一帧表示为表示采样点,表示帧长,表示帧数;
计算语音信号每一帧的短时帧能量:;计算语音信号每一帧的过零率:
第一级判决:首先根据语音信号的平均能量值即所有E i的平均值设定一个较高的阈值T 1,用来寻找语音的起始点;然后再利用噪声的平均能量设定一个较低的阈值T 2,用来判定第一级判决中语音信号的终止点,至此第一级判决结束;
第二级判决:利用噪声的平均过零率Z N 即所有Z i 的平均值,设定一个阈值T 3,用来判定语音信号开始时的清音和结尾处的尾音。
2、对经过预处理的语音信号进行特征提取,对应步骤21)、22)和23)所述的特征提取,GFCC特征和MFCC特征提取流程框图参见附图2,分别采用Mel滤波器组和Gammatone滤波器组进行特征参数的提取,得到维度为1024维的梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)和Gammatone听觉滤波器频率倒谱系数(GammatoneFrequency Cepstrum Coefficient,GFCC),具体过程以GFCC为例:
(1)将经过预处理的信号进行快速傅里叶变换(Fast Fourier Transform, FFT);
对加窗后的语音信号进行快速傅里叶变换,把语音信号由时域变到频域,得到语音信号的频域信号
(2)Gammatone滤波器组滤波,对频域信号取模的平方得到能量谱,然后用Gammatone滤波器组进行滤波处理:
(3)对数压缩,对每个滤波器的输出进行对数压缩:
其中,是分帧后每一帧信号的傅里叶变换,是第通道的归一化幅频响应,N为每一帧信号的样点数,P为滤波器个数,
(4)离散余弦变换(Discrete Cosine Transform, DCT)。对经过指数压缩的能量信号进行离散余弦变换
其中,M为GFCC特征的维数;
(5)升半正弦倒谱提升,对经过DCT得到的特征进行升半正弦倒谱提升:
倒谱提升后的特征
3、建立修正线性深度自动编码网络,对应步骤31)、32)、33)和34)所述的训练步骤,修正线性深度自编码网络模型参见附图3。该网络由一层输入层、两层隐含层和一层输出层组成。输入层的单元节点数根据声学特征的位数来确定,各隐含层的单元节点数通过多次实验比较选择效果最好的一组参数,输出层分类器采用Softmax函数实现对语音的分类识别。
ReLU函数图像参见附图4,根据ReLU单元的函数特性,代替Sigmoid函数作为模型的激活函数。ReLU函数的定义为:
从图像上可以看出,当输入小于0时函数输出结果也为0,当输入大于0时,函数输出保持线性,并与输入保持一致。相比Sigmoid函数,ReLU这种硬判决的形式更能模拟出人脑神经元的信息传递方式,也更接近真实的生物神经网络;另外它具有的分段特性以及天然的稀疏性,有效的提高网络的计算速度和运行效率。
ReLU的平滑表示Softplus函数图像也如附图4所示。虽然ReLU函数具有一定的优势,但不可否认的是,作为分段函数其导数在原点处不连续,即时,导数为0;时,导数为1,有可能会影响它的性能表现。因此,与ReLU近似平滑的Softplus函数也被广泛地使用,其函数定义为:
其导数在定义域内处处连续,并且它的导函数即为Sigmoid函数。另外,当时其导数为非零数,当时其导数趋近于1。
修正线性深度自编码网络训练过程示意图参见附图5。通过改进的自动编码器RAE,采用无监督学习“预训练”和有监督学习“微调”的方式,对修正线性深度自编码网络进行训练。
设输入向量,隐含层向量,输出层向量,可以得到隐含层和输出层与输入层的映射关系分别为:
其中,为修正线性单元ReLU,分别为互为转置的权值矩阵,为偏置向量。
RAE的学习目标是使得目标输出最大可能地等于输入,为了防止深度模型在小量样本下容易产生的过拟合问题,选择在网络层中引入正则项(惩罚因子),也就是在误差函数中加入某层或某几层权值的L2范数,从而限制权值的大小,对于向量,L2范数表达式如下:
将其引入到损失函数,则损失函数为:
其中,λ为正则项系数,X为由若干个样本向量构成的矩阵,n为样本数。
RAE权重训练采用随机梯度下降算法,权值更新公式为:
其中为更新步长,偏置向量的更新方式相同。
在前一层的基础上,将隐含层输出Z作为下一层RAE的输入向量按照同样的步骤依次训练,得到参数
将预训练得到的参数对网络进行初始化操作,接着在有监督的学习方式下通过反向传播算法对网络的所有层参数进行“微调”。具体过程如下:当神经元为第一层隐含层单元时:
为隐含层第个神经元。为输入层第个神经元与本层隐含层第个神经元之间的权值。为隐含层第个神经元的阈值。计算可得:
其中为修正线性单元ReLU,是隐含层第个神经元输出。
该算法的学习规则是基于最小均方误差计算的,当一个样本输入网络并产生输出时,均方误差为:
根据梯度下降法,权值修正量应为:
,则可得到为学习率。可求得各层的反向传播误差:
同理可得到输出层误差和隐含层误差,根据各层计算得到的误差对网络参数进行“微调”。
4、分析不同方法组合对系统识性能的影响,对应步骤35)和36)所述的实验步骤。本发明通过多次实验的方式证明该方法的有效性和可行性,在选用相同的语料情况下,分析对比6种不同方法组合的实验结果(如表图8所示)。6种方法组合均在深度自编码网络的基础上完成,选用不同的激活函数和约束方法证明该发明的可行性。6种组合方法依次为:
1)激活函数为tanh函数,约束方法为L2正则化;
2)激活函数为tanh函数,约束方法为Dropout;
3)激活函数为Sigmoid函数,约束方法为L2正则化;
4)激活函数为Sigmoid函数,约束方法为Dropout;
5)激活函数为ReLU,约束方法为L2正则化;
6)激活函数为ReLU,约束方法为Dropout。
实验采用的语料库内容为数字和简单控制性语句,此语料库包括10词、20词、30词、40词以及50词五种不同的子库,均在纯净环境下录制,本语料库由16名男性发声构成,每人每词发音3遍,在完全闭集的非特定人识别中,采用9人的发音作为训练语料库,而另外7人的发音作为测试语料库进行实验。例如,采用10词进行非特定人识别,则采用9人的10词下的语音作为训练(训练文件数为10*3*9=270个),而另外7人相同条件下的语音作为测试(测试文件数10*3*7=210个)。语料库采样频率为11025Hz,采样比特率为16bit。
6种方法组合的平均识别率折线图如图7所示,从图像可以看出方法组合5的平均识别率最高,可达到95%以上,较其他方法组合有明显的优势。因此本发明选用ReLU为激活函数,L2正则化为约束方法来构建修正线性深度自编码网络,该方法弥补了传统方法中存在的梯度消失和过拟合问题,增强了模型学习和表达的能力,提高模型训练效率,具有重要的研究意义。

Claims (1)

1.一种修正线性深度自编码网络语音识别方法,所述方法首先是采用修正线性单元作为激活函数替换传统的Sigmoid函数对深度自编码网络进行训练,其次是引入L2正则化来优化深度模型训练过程中容易产生的过拟合问题,最后通过逐层贪婪无监督的“预训练”和有监督的“微调”得到具有特征表示的权值进行语音识别,其具体方法是按下列步骤进行的:
1)语音数据预处理:
11)对语音信号进行采样和量化,采样率为,帧长256采样点,帧移128采样点;
12)对步骤11)所得到的语音信号进行预处理,包括预加重、分帧、加窗以及归一化处理;
13)将步骤12)所得的单帧信号进行端点检测,获得有效的单帧信号;
2)提取声学特征:
21)将步骤13)所得的有效单帧信号进行快速傅里叶变换,得到语音信号的频域信号;
22)使用对应的滤波器组对步骤21)所得的频域信号进行滤波处理;
23)对22)所得的滤波信号进行一系列非线性变换得到语音的声学特征;
3)训练修正线性深度自编码网的步骤:
31)利用“训练集”数据通过无监督逐层贪婪训练算法“预训练”网络的第一个修正线性自动编码器,并得到参数
32)将第一个RAE的输出作为第二个RAE的输入,按相同的方式继续训练得到第二组参数,并对后面所有的RAE采取相同的策略依次训练其参数;
33)在所有隐含层训练完成之后,通过有监督的反向传播算法调整所有层的参数,实现网络“微调”;
34)将最顶层的隐含层输出作为Softmax分类器的输入,对输入的语音数据进行分类识别;
35)选用三种激活函数ReLU、Sigmoid、tanh与两种方法L2正则化和权重衰减Dropout的不同组合进行实验,分析不同方法对系统识别性能的影响;
36) 选用ReLU和L2正则化的组合方法较其他方法取得了最佳的识别结果,从而证明基于L2正则化的修正线性深度自编码网络模型构建方法的可行性。
CN201611195535.4A 2016-12-22 2016-12-22 修正线性深度自编码网络语音识别方法 Pending CN106782511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611195535.4A CN106782511A (zh) 2016-12-22 2016-12-22 修正线性深度自编码网络语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611195535.4A CN106782511A (zh) 2016-12-22 2016-12-22 修正线性深度自编码网络语音识别方法

Publications (1)

Publication Number Publication Date
CN106782511A true CN106782511A (zh) 2017-05-31

Family

ID=58900392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611195535.4A Pending CN106782511A (zh) 2016-12-22 2016-12-22 修正线性深度自编码网络语音识别方法

Country Status (1)

Country Link
CN (1) CN106782511A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784215A (zh) * 2017-10-13 2018-03-09 上海交通大学 基于智能终端的声音装置进行唇读的用户认证方法及系统
CN107871133A (zh) * 2017-12-27 2018-04-03 中公高科养护科技股份有限公司 边缘检测网络的优化方法、路面病害的识别方法及系统
CN108346428A (zh) * 2017-09-13 2018-07-31 腾讯科技(深圳)有限公司 语音活动检测及其模型建立方法、装置、设备及存储介质
CN108460499A (zh) * 2018-04-02 2018-08-28 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN108615533A (zh) * 2018-03-28 2018-10-02 天津大学 一种基于深度学习的高性能语音增强方法
CN108766426A (zh) * 2018-05-31 2018-11-06 中国舰船研究设计中心 一种舰艇用智能语音交互指挥系统
CN108831443A (zh) * 2018-06-25 2018-11-16 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法
CN108847223A (zh) * 2018-06-20 2018-11-20 陕西科技大学 一种基于深度残差神经网络的语音识别方法
CN109036470A (zh) * 2018-06-04 2018-12-18 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN109033505A (zh) * 2018-06-06 2018-12-18 东北大学 一种基于深度学习的超快冷温度控制方法
CN109407007A (zh) * 2018-12-24 2019-03-01 广东省智能制造研究所 一种电池荷电状态检测方法及装置
CN109887491A (zh) * 2019-03-18 2019-06-14 百度在线网络技术(北京)有限公司 声学模型训练方法和装置、电子设备、计算机可读介质
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN110322891A (zh) * 2019-07-03 2019-10-11 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质
CN110473557A (zh) * 2019-08-22 2019-11-19 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号编解码方法
CN110491400A (zh) * 2019-08-21 2019-11-22 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号重建方法
CN111938654A (zh) * 2020-07-06 2020-11-17 华南师范大学 足态测试方法、系统、可穿戴设备及存储介质
CN113506564A (zh) * 2020-03-24 2021-10-15 百度在线网络技术(北京)有限公司 用于生成对抗声音信号的方法、装置、设备和介质
US11170301B2 (en) 2017-11-16 2021-11-09 Mitsubishi Electric Research Laboratories, Inc. Machine learning via double layer optimization
CN114499702A (zh) * 2022-03-28 2022-05-13 成都锢德科技有限公司 一种便携式实时信号采集分析识别系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统
CN104112263A (zh) * 2014-06-28 2014-10-22 南京理工大学 基于深度神经网络的全色图像与多光谱图像融合的方法
CN104200224A (zh) * 2014-08-28 2014-12-10 西北工业大学 基于深度卷积神经网络的无价值图像去除方法
CN104523264A (zh) * 2014-12-31 2015-04-22 深圳职业技术学院 一种心电信号处理方法
CN104850735A (zh) * 2015-04-28 2015-08-19 浙江大学 一种基于栈式自编码的活动识别方法
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN105447569A (zh) * 2015-12-18 2016-03-30 北京柏惠维康科技有限公司 一种基于深度学习的乳腺癌细胞特征分析系统
CN106203625A (zh) * 2016-06-29 2016-12-07 中国电子科技集团公司第二十八研究所 一种基于多重预训练的深层神经网络训练方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统
CN104112263A (zh) * 2014-06-28 2014-10-22 南京理工大学 基于深度神经网络的全色图像与多光谱图像融合的方法
CN104200224A (zh) * 2014-08-28 2014-12-10 西北工业大学 基于深度卷积神经网络的无价值图像去除方法
CN104523264A (zh) * 2014-12-31 2015-04-22 深圳职业技术学院 一种心电信号处理方法
CN104850735A (zh) * 2015-04-28 2015-08-19 浙江大学 一种基于栈式自编码的活动识别方法
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN105447569A (zh) * 2015-12-18 2016-03-30 北京柏惠维康科技有限公司 一种基于深度学习的乳腺癌细胞特征分析系统
CN106203625A (zh) * 2016-06-29 2016-12-07 中国电子科技集团公司第二十八研究所 一种基于多重预训练的深层神经网络训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张晓丹: ""关于在噪声环境下语音识别优化研究"", 《计算机仿真》 *
王山海: ""基于深度学习神经网络的孤立词语音识别的研究"", 《计算机应用研究》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346428B (zh) * 2017-09-13 2020-10-02 腾讯科技(深圳)有限公司 语音活动检测及其模型建立方法、装置、设备及存储介质
CN108346428A (zh) * 2017-09-13 2018-07-31 腾讯科技(深圳)有限公司 语音活动检测及其模型建立方法、装置、设备及存储介质
US11393492B2 (en) 2017-09-13 2022-07-19 Tencent Technology (Shenzhen) Company Ltd Voice activity detection method, method for establishing voice activity detection model, computer device, and storage medium
CN107784215A (zh) * 2017-10-13 2018-03-09 上海交通大学 基于智能终端的声音装置进行唇读的用户认证方法及系统
US11170301B2 (en) 2017-11-16 2021-11-09 Mitsubishi Electric Research Laboratories, Inc. Machine learning via double layer optimization
CN107871133A (zh) * 2017-12-27 2018-04-03 中公高科养护科技股份有限公司 边缘检测网络的优化方法、路面病害的识别方法及系统
CN108615533A (zh) * 2018-03-28 2018-10-02 天津大学 一种基于深度学习的高性能语音增强方法
CN108460499A (zh) * 2018-04-02 2018-08-28 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN108460499B (zh) * 2018-04-02 2022-03-08 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN108766426A (zh) * 2018-05-31 2018-11-06 中国舰船研究设计中心 一种舰艇用智能语音交互指挥系统
CN108766426B (zh) * 2018-05-31 2021-09-07 中国舰船研究设计中心 一种舰艇用智能语音交互指挥系统
CN109036470A (zh) * 2018-06-04 2018-12-18 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN109036470B (zh) * 2018-06-04 2023-04-21 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN109033505A (zh) * 2018-06-06 2018-12-18 东北大学 一种基于深度学习的超快冷温度控制方法
CN108847223A (zh) * 2018-06-20 2018-11-20 陕西科技大学 一种基于深度残差神经网络的语音识别方法
CN108847223B (zh) * 2018-06-20 2020-09-29 陕西科技大学 一种基于深度残差神经网络的语音识别方法
CN108831443A (zh) * 2018-06-25 2018-11-16 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法
CN108831443B (zh) * 2018-06-25 2020-07-21 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法
CN109407007A (zh) * 2018-12-24 2019-03-01 广东省智能制造研究所 一种电池荷电状态检测方法及装置
CN109887491A (zh) * 2019-03-18 2019-06-14 百度在线网络技术(北京)有限公司 声学模型训练方法和装置、电子设备、计算机可读介质
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN110322891B (zh) * 2019-07-03 2021-12-10 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质
CN110322891A (zh) * 2019-07-03 2019-10-11 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质
CN110491400B (zh) * 2019-08-21 2021-05-28 浙江树人学院(浙江树人大学) 一种基于深度自编码器的语音信号重建方法
CN110491400A (zh) * 2019-08-21 2019-11-22 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号重建方法
CN110473557B (zh) * 2019-08-22 2021-05-28 浙江树人学院(浙江树人大学) 一种基于深度自编码器的语音信号编解码方法
CN110473557A (zh) * 2019-08-22 2019-11-19 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号编解码方法
CN113506564A (zh) * 2020-03-24 2021-10-15 百度在线网络技术(北京)有限公司 用于生成对抗声音信号的方法、装置、设备和介质
CN113506564B (zh) * 2020-03-24 2024-04-12 百度在线网络技术(北京)有限公司 用于生成对抗声音信号的方法、装置、设备和介质
CN111938654A (zh) * 2020-07-06 2020-11-17 华南师范大学 足态测试方法、系统、可穿戴设备及存储介质
CN114499702A (zh) * 2022-03-28 2022-05-13 成都锢德科技有限公司 一种便携式实时信号采集分析识别系统
CN114499702B (zh) * 2022-03-28 2022-07-12 成都锢德科技有限公司 一种便携式实时信号采集分析识别系统

Similar Documents

Publication Publication Date Title
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
CN108766419A (zh) 一种基于深度学习的非常态语音区别方法
CN109767759A (zh) 基于改进型cldnn结构的端到端语音识别方法
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
CN107633842A (zh) 语音识别方法、装置、计算机设备及存储介质
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN110379412A (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
CN106847309A (zh) 一种语音情感识别方法
CN107785015A (zh) 一种语音识别方法及装置
Hwang et al. Ensemble of deep neural networks using acoustic environment classification for statistical model-based voice activity detection
CN110853680A (zh) 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
El Choubassi et al. Arabic speech recognition using recurrent neural networks
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN111261147A (zh) 一种面向语音识别系统的音乐嵌入攻击防御方法
CN107068167A (zh) 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN109559755A (zh) 一种基于dnn噪声分类的语音增强方法
CN113488058A (zh) 一种基于短语音的声纹识别方法
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、系统及存储介质
Li et al. Densely connected network with time-frequency dilated convolution for speech enhancement
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
Rani et al. Speech recognition using neural network
CN110415685A (zh) 一种语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170531

WD01 Invention patent application deemed withdrawn after publication