CN110895933A - 一种基于空时残差神经网络的远场语音识别方法 - Google Patents
一种基于空时残差神经网络的远场语音识别方法 Download PDFInfo
- Publication number
- CN110895933A CN110895933A CN201811030952.2A CN201811030952A CN110895933A CN 110895933 A CN110895933 A CN 110895933A CN 201811030952 A CN201811030952 A CN 201811030952A CN 110895933 A CN110895933 A CN 110895933A
- Authority
- CN
- China
- Prior art keywords
- lstm
- neural network
- space
- residual error
- gate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 abstract description 10
- 210000004027 cell Anatomy 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000002097 J-spectroscopy Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:步骤1)构建并训练空时残差神经网络ST‑RES‑LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;步骤2)利用训练好的空时残差神经网络ST‑RES‑LSTM进行声学模型训练,并生成每一帧的分类概率;步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。
Description
技术领域
本发明涉及语音识别领域,特别涉及一种基于空时残差神经网络的远场语音识别方法。
背景技术
随着计算机计算性能的提升、可用训练数据的增加以及神经网络训练算法的优化,基于神经网络的声学建模技术已经在语音识别领域得到广泛的应用。
传统的前馈神经网络的输出,仅与当前输入的有限上下文相关,因而前馈神经网络不具有记忆能力。为此,引入了递归神经网络,它的结构特点是在网络连接中成环,即神经元的激活值由输入和神经元之前时刻的状态共同决定。目前主流的递归神经网络单元是长短时记忆单元(Long Short-Term Memory,LSTM)。这种单元的设计目的是为网络提供长时记忆能力,即记忆并利用距离当前时刻较远的上文信息的能力。LSTM神经网络在多种分类任务中获得了良好的效果,在语音识别任务中也取得了较前馈神经网络显著的性能提升。
研究证明,随着深度的增加,神经网络的建模能力也在增强。但是随着网络变深,网络的收敛速度越慢训练时间越长。当网络深到一定程度就会出现梯度消失问题,网络的正确率出现下降的现象。
LSTM单元的基本运算如下面公式所示:
其中,分别代表输入门、遗忘门和输出门对输入的权重矩阵,分别代表输入门、遗忘门和输出门对上一时刻反馈的权重矩阵,分别代表输入门、遗忘门和输出门对上一时刻LSTM细胞的权重矩阵,分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵,分别代表输入门、遗忘门和输出门的偏置向量,δ和tanh分别代表sigmoid激活函数和双曲正切激活函数。
下面根据公式(11)对神经网络参数求导可知:
发明内容
本发明的目的在于解决深度神经网络梯度消失导致语音识别性能变差的问题。
为了实现上述目的,本发明提出了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:
步骤1)构建并训练空时残差神经网络ST-RES-LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;
步骤2)利用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练,并生成每一帧的分类概率;
步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)构建空时残差神经网络ST-RES-LSTM:
其中,分别代表输入门、遗忘门和输出门对输入的权重矩阵,分别代表输入门、遗忘门和输出门对t-1时刻反馈信息的权重矩阵,分别代表输入门、遗忘门和输出门对t-1时刻LSTM细胞信息的权重矩阵,分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵,分别代表输入门、遗忘门和输出门的偏置向量,δ和tanh分别代表sigmoid激活函数和双曲正切激活函数;分别代表了输入门,遗忘门,输出门的输出;
步骤1-2)使用随机梯度下降算法训练步骤1)构建的ST-RES-LSTM神经网络。
作为上述方法的一种改进,所述步骤1-2)具体包括:
步骤1-2-1)提取训练集中的语音数据的梅尔频率倒谱系数特征;
步骤1-2-2)根据训练集中的语音数据的语音标注和梅尔频率倒谱系数特征训练隐氏马尔科夫模型,生成语音数据的所有语音帧的标注信息;
步骤1-2-3)将训练集中的语音的梅尔频率倒谱系数特征和标注信息输入到构建好的ST-RES-LSTM神经网络中,并使用随机梯度下降算法来更新网络的参数,直至该神经网络收敛,得到训练好的空时残差神经网络ST-RES-LSTM。
本发明的优点在于:
1、本发明的方法相较于普通残差网络(RES-LSTM),能进一步缓解语音识别声学建模梯在层数加深时带来的梯度消失的问题,从而提高语音识别的正确率;
2、本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。
附图说明
图1为本发明的基于空时残差神经网络的基本结构示意图。
具体实施方式
下面结合附图和实施例对本发明的方法进行详细说明。
本发明首先对RES-LSTM网络进行了改进,提出了空间残差神经网络S-RES-LSTM,具体公式如下:
LSTM单元的基本运算如下面公式所示:
其中,分别代表输入门、遗忘门和输出门对输入的权重矩阵,分别代表输入门、遗忘门和输出门对上一时刻反馈的权重矩阵,分别代表输入门、遗忘门和输出门对上一时刻LSTM细胞的权重矩阵,分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵,分别代表输入门、遗忘门和输出门的偏置向量,δ和tanh分别代表sigmoid激活函数和双曲正切激活函数;分别代表了输入门,遗忘门,输出门的输出;代表了LSTM的反馈信息;
下面根据(16)对神经网络参数求导可知:
对比(12)和(17)式可以发现,(12)在梯度计算的时候会出现投影矩阵连乘,如果那么将会变的很大。当那么将会变的很小,从而出现梯度消失的问题。而(17)相较于(12)在梯度计算的时候就不会出现这样的问题,所以更能缓解(12)在深层网络时候出现的梯度消失问题,进而提高语音识别的性能。
为了进一步提高S-RES-LSTM的建模能力,本发明在时间上也引入残差结构,即空时残差神经网络ST-RES-LSTM,具体公式如下:
在语音识别流程中,使用随机梯度下降(SGD)算法来训练构建的ST-RES-LSTM神经网络,具体训练过程如下:
1)对训练集中的语音数据提取梅尔频率倒谱系数(MFCC)特征;
2)然后根据语音标注和MFCC特征训练隐氏马尔科夫模型,并对训练集中的语音数据生成所有语音帧的标注信息;
3)最后将训练集中的语音的MFCC特征特征和标注信息输入到构建好的ST-RES-LSTM神经网络中,并使用随机梯度下降算法来更新网络的参数,直至神经网络收敛,得到训练好的空时残差神经网络ST-RES-LSTM。
将本发明提出的空时残差神经网络ST-RES-LSTM用于远场语音识别的任务中,并在AMI数据集上验证了方法的有效性。
在语音识别流程使用本发明提出的空时残差神经网络ST-RES-LSTM来进行声学建模,具体步骤如下所示:
步骤1)用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练,并生成每一帧的分类概率;
步骤2)构建语音识别解码网络,并使用步骤1)的训练好的声学模型进行维特比解码出最终识别结果。
具体语音识别的性能指标字错误率结果见表1和表2:
表1:空时残差LSTM的性能随着网络深度的变化
表2:在训练数据中加入近场语音数据后空时残差LSTM的性能随网络深度变化
表1中可以看出,随着网络深度由3层变成6层,普通的LSTM(Plain-LSTM)性能增加,然后当深度由6层增加到9层网络的性能就开始降低。这说明随着网络的深度增加,深度神经网络会出现梯度消失的现象。而文献中提出的RES-LSTM能有效的缓解这种现象。而本文提出的ST-RES-LSTM能进一步的降低语音识别的字错误率,提高系统的性能。当只用远场数据训练声学模型,ST-RES-LSTM在6层和9层的情况下相较于RES-LSTM有绝对1%的字错误率下降。为了进一步验证该方法的有效性,在训练数据中加入了近场数据,实验表明,在6层和9层的情况下,空时残差LSTM仍然有绝对1%的字错误率的下降。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种基于空时残差神经网络的远场语音识别方法,所述方法包括:
步骤1)构建并训练空时残差神经网络ST-RES-LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;
步骤2)利用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练,并生成每一帧的分类概率;
步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。
2.根据权利要求1所述的基于空时残差神经网络的远场语音识别方法,其特征在于,所述步骤1)具体包括:
步骤1-1)构建空时残差神经网络ST-RES-LSTM:
其中,分别代表输入门、遗忘门和输出门对输入的权重矩阵,分别代表输入门、遗忘门和输出门对t-1时刻反馈信息的权重矩阵,分别代表输入门、遗忘门和输出门对t-1时刻LSTM细胞信息的权重矩阵,分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵,分别代表输入门、遗忘门和输出门的偏置向量,δ和tanh分别代表sigmoid激活函数和双曲正切激活函数;分别代表了输入门,遗忘门,输出门的输出;
步骤1-2)使用随机梯度下降算法训练步骤1)构建的ST-RES-LSTM神经网络。
3.根据权利要求2所述的基于空时残差神经网络的远场语音识别方法,其特征在于,所述步骤1-2)具体包括:
步骤1-2-1)提取训练集中的语音数据的梅尔频率倒谱系数特征;
步骤1-2-2)根据训练集中的语音数据的语音标注和梅尔频率倒谱系数特征训练隐氏马尔科夫模型,生成语音数据的所有语音帧的标注信息;
步骤1-2-3)将训练集中的语音的梅尔频率倒谱系数特征和标注信息输入到构建好的ST-RES-LSTM神经网络中,并使用随机梯度下降算法来更新网络的参数,直至该神经网络收敛,得到训练好的空时残差神经网络ST-RES-LSTM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811030952.2A CN110895933B (zh) | 2018-09-05 | 2018-09-05 | 一种基于空时残差神经网络的远场语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811030952.2A CN110895933B (zh) | 2018-09-05 | 2018-09-05 | 一种基于空时残差神经网络的远场语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110895933A true CN110895933A (zh) | 2020-03-20 |
CN110895933B CN110895933B (zh) | 2022-05-03 |
Family
ID=69785331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811030952.2A Active CN110895933B (zh) | 2018-09-05 | 2018-09-05 | 一种基于空时残差神经网络的远场语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110895933B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401530A (zh) * | 2020-04-22 | 2020-07-10 | 上海依图网络科技有限公司 | 循环神经网络及其训练方法训练方法 |
CN112927682A (zh) * | 2021-04-16 | 2021-06-08 | 西安交通大学 | 一种基于深度神经网络声学模型的语音识别方法及系统 |
CN112992155A (zh) * | 2021-03-02 | 2021-06-18 | 复旦大学 | 一种基于残差神经网络的远场语音说话人识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293288A (zh) * | 2017-06-09 | 2017-10-24 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
CN107679585A (zh) * | 2017-09-27 | 2018-02-09 | 清华大学 | 基于时间残差长短时记忆网络的阿拉伯文识别方法及系统 |
CN108038539A (zh) * | 2017-10-26 | 2018-05-15 | 中山大学 | 一种集成长短记忆循环神经网络与梯度提升决策树的方法 |
US20180137143A1 (en) * | 2016-11-15 | 2018-05-17 | Sentient Technologies (Barbados) Limited | Data Object Creation and Recommendation Using Machine Learning Based Offline Evolution |
US20180144214A1 (en) * | 2016-11-23 | 2018-05-24 | General Electric Company | Deep learning medical systems and methods for image reconstruction and quality evaluation |
-
2018
- 2018-09-05 CN CN201811030952.2A patent/CN110895933B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137143A1 (en) * | 2016-11-15 | 2018-05-17 | Sentient Technologies (Barbados) Limited | Data Object Creation and Recommendation Using Machine Learning Based Offline Evolution |
US20180144214A1 (en) * | 2016-11-23 | 2018-05-24 | General Electric Company | Deep learning medical systems and methods for image reconstruction and quality evaluation |
CN107293288A (zh) * | 2017-06-09 | 2017-10-24 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
CN107679585A (zh) * | 2017-09-27 | 2018-02-09 | 清华大学 | 基于时间残差长短时记忆网络的阿拉伯文识别方法及系统 |
CN108038539A (zh) * | 2017-10-26 | 2018-05-15 | 中山大学 | 一种集成长短记忆循环神经网络与梯度提升决策树的方法 |
Non-Patent Citations (4)
Title |
---|
HONG WEI: "Residual Convolutional LSTM for Tweet Count Prediction", 《COMPANION PROCEEDINGS OF THE THE WEB CONFERENCE 2018》 * |
JAEYOUNG KIM: "Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech", 《ARXIV:1701.03360V3》 * |
YUANYUAN ZHAO: "Multidimensional Residual Learning Based on Recurrent Neural Networks", 《INTERSPEECH 2016》 * |
康友隐: "基于深度时空残差网络的航班需求预测方法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401530A (zh) * | 2020-04-22 | 2020-07-10 | 上海依图网络科技有限公司 | 循环神经网络及其训练方法训练方法 |
CN112992155A (zh) * | 2021-03-02 | 2021-06-18 | 复旦大学 | 一种基于残差神经网络的远场语音说话人识别方法及装置 |
CN112992155B (zh) * | 2021-03-02 | 2022-10-14 | 复旦大学 | 一种基于残差神经网络的远场语音说话人识别方法及装置 |
CN112927682A (zh) * | 2021-04-16 | 2021-06-08 | 西安交通大学 | 一种基于深度神经网络声学模型的语音识别方法及系统 |
CN112927682B (zh) * | 2021-04-16 | 2024-04-16 | 西安交通大学 | 一种基于深度神经网络声学模型的语音识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110895933B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9400955B2 (en) | Reducing dynamic range of low-rank decomposition matrices | |
CN107301864B (zh) | 一种基于Maxout神经元的深度双向LSTM声学模型 | |
US10902845B2 (en) | System and methods for adapting neural network acoustic models | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology. | |
CN107293288B (zh) | 一种残差长短期记忆循环神经网络的声学模型建模方法 | |
US20220004870A1 (en) | Speech recognition method and apparatus, and neural network training method and apparatus | |
CN105845128B (zh) | 基于动态剪枝束宽预测的语音识别效率优化方法 | |
WO2016101688A1 (zh) | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 | |
CN110895933B (zh) | 一种基于空时残差神经网络的远场语音识别方法 | |
CN105279552B (zh) | 一种基于字的神经网络的训练方法和装置 | |
US9886948B1 (en) | Neural network processing of multiple feature streams using max pooling and restricted connectivity | |
CN111126602A (zh) | 一种基于卷积核相似性剪枝的循环神经网络模型压缩方法 | |
CN111179944B (zh) | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 | |
CN108461080A (zh) | 一种基于hlstm模型的声学建模方法和装置 | |
CN112734029A (zh) | 一种神经网络通道剪枝方法、存储介质及电子设备 | |
Li et al. | Improving long short-term memory networks using maxout units for large vocabulary speech recognition | |
US20180061395A1 (en) | Apparatus and method for training a neural network auxiliary model, speech recognition apparatus and method | |
CN114943335A (zh) | 一种三值神经网络逐层优化方法 | |
US11783841B2 (en) | Method for speaker authentication and identification | |
Liu et al. | Using bidirectional associative memories for joint spectral envelope modeling in voice conversion | |
Xu et al. | Low-bit quantization of recurrent neural network language models using alternating direction methods of multipliers | |
Zaharia et al. | Quantized dynamic time warping (DTW) algorithm | |
US20230096150A1 (en) | Method and apparatus for determining echo, and storage medium | |
CN115223573A (zh) | 语音唤醒方法、装置、电子设备以及存储介质 | |
Mana et al. | Online batch normalization adaptation for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |