CN110895933B - 一种基于空时残差神经网络的远场语音识别方法 - Google Patents

一种基于空时残差神经网络的远场语音识别方法 Download PDF

Info

Publication number
CN110895933B
CN110895933B CN201811030952.2A CN201811030952A CN110895933B CN 110895933 B CN110895933 B CN 110895933B CN 201811030952 A CN201811030952 A CN 201811030952A CN 110895933 B CN110895933 B CN 110895933B
Authority
CN
China
Prior art keywords
lstm
neural network
space
gate
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811030952.2A
Other languages
English (en)
Other versions
CN110895933A (zh
Inventor
张鹏远
张震
邬龙
王丽
李鹏
侯炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201811030952.2A priority Critical patent/CN110895933B/zh
Publication of CN110895933A publication Critical patent/CN110895933A/zh
Application granted granted Critical
Publication of CN110895933B publication Critical patent/CN110895933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:步骤1)构建并训练空时残差神经网络ST‑RES‑LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;步骤2)利用训练好的空时残差神经网络ST‑RES‑LSTM进行声学模型训练,并生成每一帧的分类概率;步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。

Description

一种基于空时残差神经网络的远场语音识别方法
技术领域
本发明涉及语音识别领域,特别涉及一种基于空时残差神经网络的远场语音识别方法。
背景技术
随着计算机计算性能的提升、可用训练数据的增加以及神经网络训练算法的优化,基于神经网络的声学建模技术已经在语音识别领域得到广泛的应用。
传统的前馈神经网络的输出,仅与当前输入的有限上下文相关,因而前馈神经网络不具有记忆能力。为此,引入了递归神经网络,它的结构特点是在网络连接中成环,即神经元的激活值由输入和神经元之前时刻的状态共同决定。目前主流的递归神经网络单元是长短时记忆单元(Long Short-Term Memory,LSTM)。这种单元的设计目的是为网络提供长时记忆能力,即记忆并利用距离当前时刻较远的上文信息的能力。LSTM神经网络在多种分类任务中获得了良好的效果,在语音识别任务中也取得了较前馈神经网络显著的性能提升。
研究证明,随着深度的增加,神经网络的建模能力也在增强。但是随着网络变深,网络的收敛速度越慢训练时间越长。当网络深到一定程度就会出现梯度消失问题,网络的正确率出现下降的现象。
LSTM单元的基本运算如下面公式所示:
Figure BDA0001789715390000011
Figure BDA0001789715390000012
Figure BDA0001789715390000013
Figure BDA0001789715390000014
Figure BDA0001789715390000015
Figure BDA0001789715390000016
Figure BDA0001789715390000017
其中,
Figure BDA0001789715390000018
分别代表输入门、遗忘门和输出门对输入
Figure BDA0001789715390000019
的权重矩阵,
Figure BDA0001789715390000021
分别代表输入门、遗忘门和输出门对上一时刻反馈
Figure BDA0001789715390000022
的权重矩阵,
Figure BDA0001789715390000023
分别代表输入门、遗忘门和输出门对上一时刻LSTM细胞
Figure BDA0001789715390000024
的权重矩阵,
Figure BDA0001789715390000025
分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵,
Figure BDA0001789715390000026
分别代表输入门、遗忘门和输出门的偏置向量,δ和tanh分别代表sigmoid激活函数和双曲正切激活函数。
Figure BDA0001789715390000027
分别代表了输入门,遗忘门,输出门的输出;
Figure BDA0001789715390000028
代表了LSTM的反馈信息;
Figure BDA0001789715390000029
代表了LSTM的细胞信息经过输出门后的信息;
Figure BDA00017897153900000210
代表了LSTM的投影降维矩阵;
Figure BDA00017897153900000211
代表了LSTM的输出;nr代表了反馈向量的维度。
为了缓解语音识别中深层LSTM网络的梯度消失问题,传统方法是采用残差技术(RES-LSTM),直接将输入
Figure BDA00017897153900000212
跳连接到输出。即上面公式(5)、(6)可变成如下形式:
Figure BDA00017897153900000213
Figure BDA00017897153900000214
Figure BDA00017897153900000215
但是经过分析,由于跳连接来自于当前层的输入,而当前层的输入是低层的输出经过一个投影矩阵
Figure BDA00017897153900000216
后的结果。数学上可以证明,该投影矩阵可能带来梯度消失的问题。
如果用JRES代表普通残差网络的代价函数,L代表网络的总层数,l代表网络的层序号,fl(.)代表第l层神经网络的数学运算,θ代表网络的参数,
Figure BDA00017897153900000217
代表了LSTM单元的投影矩阵,那么具体计算如下:
Figure BDA00017897153900000218
下面根据公式(11)对神经网络参数求导可知:
Figure BDA00017897153900000219
从公式(12)可以看出,在梯度计算的时候会出现投影矩阵连乘,如果
Figure BDA0001789715390000031
那么
Figure BDA0001789715390000032
将会变的很大。当
Figure BDA0001789715390000033
那么
Figure BDA0001789715390000034
将会变的很小,从而使得语音识别声学建模出现梯度消失问题,从而导致语音识别性能变差。
发明内容
本发明的目的在于解决深度神经网络梯度消失导致语音识别性能变差的问题。
为了实现上述目的,本发明提出了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:
步骤1)构建并训练空时残差神经网络ST-RES-LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;
步骤2)利用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练,并生成每一帧的分类概率;
步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)构建空时残差神经网络ST-RES-LSTM:
Figure BDA0001789715390000035
Figure BDA0001789715390000036
Figure BDA0001789715390000037
Figure BDA0001789715390000038
其中,
Figure BDA0001789715390000039
分别代表输入门、遗忘门和输出门对输入
Figure BDA00017897153900000310
的权重矩阵,
Figure BDA00017897153900000311
分别代表输入门、遗忘门和输出门对t-1时刻反馈信息
Figure BDA00017897153900000312
的权重矩阵,
Figure BDA00017897153900000313
分别代表输入门、遗忘门和输出门对t-1时刻LSTM细胞信息
Figure BDA00017897153900000314
的权重矩阵,
Figure BDA00017897153900000315
分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵,
Figure BDA00017897153900000316
分别代表输入门、遗忘门和输出门的偏置向量,δ和tanh分别代表sigmoid激活函数和双曲正切激活函数;
Figure BDA00017897153900000317
分别代表了输入门,遗忘门,输出门的输出;
Figure BDA0001789715390000041
Figure BDA0001789715390000042
Figure BDA0001789715390000043
Figure BDA0001789715390000044
其中,
Figure BDA0001789715390000045
代表了t时刻LSTM细胞信息
Figure BDA0001789715390000046
经过输出门后的信息;
Figure BDA0001789715390000047
代表了空间残差信息,
Figure BDA0001789715390000048
代表了空间和时间残差信息;
Figure BDA0001789715390000049
代表了LSTM的投影降维矩阵;
Figure BDA00017897153900000410
代表了LSTM的输出;Append(.)是将输入向量拼接起来的操作;
步骤1-2)使用随机梯度下降算法训练步骤1)构建的ST-RES-LSTM神经网络。
作为上述方法的一种改进,所述步骤1-2)具体包括:
步骤1-2-1)提取训练集中的语音数据的梅尔频率倒谱系数特征;
步骤1-2-2)根据训练集中的语音数据的语音标注和梅尔频率倒谱系数特征训练隐氏马尔科夫模型,生成语音数据的所有语音帧的标注信息;
步骤1-2-3)将训练集中的语音的梅尔频率倒谱系数特征和标注信息输入到构建好的ST-RES-LSTM神经网络中,并使用随机梯度下降算法来更新网络的参数,直至该神经网络收敛,得到训练好的空时残差神经网络ST-RES-LSTM。
本发明的优点在于:
1、本发明的方法相较于普通残差网络(RES-LSTM),能进一步缓解语音识别声学建模梯在层数加深时带来的梯度消失的问题,从而提高语音识别的正确率;
2、本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。
附图说明
图1为本发明的基于空时残差神经网络的基本结构示意图。
具体实施方式
下面结合附图和实施例对本发明的方法进行详细说明。
本发明首先对RES-LSTM网络进行了改进,提出了空间残差神经网络S-RES-LSTM,具体公式如下:
LSTM单元的基本运算如下面公式所示:
Figure BDA0001789715390000051
Figure BDA0001789715390000052
Figure BDA0001789715390000053
Figure BDA0001789715390000054
Figure BDA0001789715390000055
Figure BDA0001789715390000056
Figure BDA0001789715390000057
其中,
Figure BDA0001789715390000058
分别代表输入门、遗忘门和输出门对输入
Figure BDA0001789715390000059
的权重矩阵,
Figure BDA00017897153900000510
分别代表输入门、遗忘门和输出门对上一时刻反馈
Figure BDA00017897153900000511
的权重矩阵,
Figure BDA00017897153900000512
分别代表输入门、遗忘门和输出门对上一时刻LSTM细胞
Figure BDA00017897153900000513
的权重矩阵,
Figure BDA00017897153900000514
分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵,
Figure BDA00017897153900000515
分别代表输入门、遗忘门和输出门的偏置向量,δ和tanh分别代表sigmoid激活函数和双曲正切激活函数;
Figure BDA00017897153900000516
分别代表了输入门,遗忘门,输出门的输出;
Figure BDA00017897153900000517
代表了LSTM的反馈信息;
Figure BDA00017897153900000518
Figure BDA00017897153900000519
Figure BDA00017897153900000520
Figure BDA00017897153900000521
代表了LSTM的细胞信息经过输出门后的信息;
Figure BDA00017897153900000522
代表了LSTM的投影降维矩阵;
Figure BDA00017897153900000523
代表了LSTM的输出。
如果用JS-RES代表网络的代价函数,L代表网络的总层数,l代表网络的层序号,fl(.)代表第l层神经网络的数学运算,θ代表网络的参数,
Figure BDA00017897153900000524
代表了LSTM单元的投影矩阵,那么具体计算如下:
Figure BDA0001789715390000061
下面根据(16)对神经网络参数求导可知:
Figure BDA0001789715390000062
对比(12)和(17)式可以发现,(12)在梯度计算的时候会出现投影矩阵连乘,如果
Figure BDA0001789715390000063
那么
Figure BDA0001789715390000064
将会变的很大。当
Figure BDA0001789715390000065
那么
Figure BDA0001789715390000066
将会变的很小,从而出现梯度消失的问题。而(17)相较于(12)在梯度计算的时候就不会出现这样的问题,所以更能缓解(12)在深层网络时候出现的梯度消失问题,进而提高语音识别的性能。
为了进一步提高S-RES-LSTM的建模能力,本发明在时间上也引入残差结构,即空时残差神经网络ST-RES-LSTM,具体公式如下:
Figure BDA0001789715390000067
Figure BDA0001789715390000068
Figure BDA0001789715390000069
其中,Append(.)是将输入向量拼接起来的操作。
Figure BDA00017897153900000610
代表了空间残差信息,
Figure BDA00017897153900000611
代表了空间和时间残差信息,具体结构如图1所示。
在语音识别流程中,使用随机梯度下降(SGD)算法来训练构建的ST-RES-LSTM神经网络,具体训练过程如下:
1)对训练集中的语音数据提取梅尔频率倒谱系数(MFCC)特征;
2)然后根据语音标注和MFCC特征训练隐氏马尔科夫模型,并对训练集中的语音数据生成所有语音帧的标注信息;
3)最后将训练集中的语音的MFCC特征特征和标注信息输入到构建好的ST-RES-LSTM神经网络中,并使用随机梯度下降算法来更新网络的参数,直至神经网络收敛,得到训练好的空时残差神经网络ST-RES-LSTM。
将本发明提出的空时残差神经网络ST-RES-LSTM用于远场语音识别的任务中,并在AMI数据集上验证了方法的有效性。
在语音识别流程使用本发明提出的空时残差神经网络ST-RES-LSTM来进行声学建模,具体步骤如下所示:
步骤1)用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练,并生成每一帧的分类概率;
步骤2)构建语音识别解码网络,并使用步骤1)的训练好的声学模型进行维特比解码出最终识别结果。
具体语音识别的性能指标字错误率结果见表1和表2:
表1:空时残差LSTM的性能随着网络深度的变化
Figure BDA0001789715390000071
表2:在训练数据中加入近场语音数据后空时残差LSTM的性能随网络深度变化
Figure BDA0001789715390000072
Figure BDA0001789715390000081
表1中可以看出,随着网络深度由3层变成6层,普通的LSTM(Plain-LSTM)性能增加,然后当深度由6层增加到9层网络的性能就开始降低。这说明随着网络的深度增加,深度神经网络会出现梯度消失的现象。而文献中提出的RES-LSTM能有效的缓解这种现象。而本文提出的ST-RES-LSTM能进一步的降低语音识别的字错误率,提高系统的性能。当只用远场数据训练声学模型,ST-RES-LSTM在6层和9层的情况下相较于RES-LSTM有绝对1%的字错误率下降。为了进一步验证该方法的有效性,在训练数据中加入了近场数据,实验表明,在6层和9层的情况下,空时残差LSTM仍然有绝对1%的字错误率的下降。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于空时残差神经网络的远场语音识别方法,所述方法包括:
步骤1)构建并训练空时残差神经网络ST-RES-LSTM,该神经网络是在空间和时间两个维度上都引入了残差结构的LSTM神经网络;
步骤2)利用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练,并生成每一帧的分类概率;
步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果;
所述步骤1)具体包括:
步骤1-1)构建空时残差神经网络ST-RES-LSTM:
Figure FDA0003503333920000011
Figure FDA0003503333920000012
Figure FDA0003503333920000013
Figure FDA0003503333920000014
其中,
Figure FDA0003503333920000015
分别代表输入门、遗忘门和输出门对输入
Figure FDA0003503333920000016
的权重矩阵,
Figure FDA0003503333920000017
分别代表输入门、遗忘门和输出门对t-1时刻反馈信息
Figure FDA0003503333920000018
的权重矩阵,
Figure FDA0003503333920000019
分别代表输入门、遗忘门和输出门对t-1时刻LSTM细胞信息
Figure FDA00035033339200000110
的权重矩阵,
Figure FDA00035033339200000111
分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵,
Figure FDA00035033339200000112
分别代表输入门、遗忘门和输出门的偏置向量,δ和tanh分别代表sigmoid激活函数和双曲正切激活函数;
Figure FDA00035033339200000113
分别代表了输入门,遗忘门,输出门的输出;
Figure FDA00035033339200000114
Figure FDA00035033339200000115
Figure FDA00035033339200000116
Figure FDA00035033339200000117
其中,
Figure FDA0003503333920000021
代表了t时刻LSTM细胞信息
Figure FDA0003503333920000022
经过输出门后的信息;
Figure FDA0003503333920000023
代表了空间残差信息,
Figure FDA0003503333920000024
代表了空间和时间残差信息;
Figure FDA0003503333920000025
代表了LSTM的投影降维矩阵;
Figure FDA0003503333920000026
代表了LSTM的输出;Append(.)是将输入向量拼接起来的操作;
步骤1-2)使用随机梯度下降算法训练步骤1-1)构建的ST-RES-LSTM神经网络。
2.根据权利要求1所述的基于空时残差神经网络的远场语音识别方法,其特征在于,所述步骤1-2)具体包括:
步骤1-2-1)提取训练集中的语音数据的梅尔频率倒谱系数特征;
步骤1-2-2)根据训练集中的语音数据的语音标注和梅尔频率倒谱系数特征训练隐氏马尔科夫模型,生成语音数据的所有语音帧的标注信息;
步骤1-2-3)将训练集中的语音的梅尔频率倒谱系数特征和标注信息输入到构建好的ST-RES-LSTM神经网络中,并使用随机梯度下降算法来更新网络的参数,直至该神经网络收敛,得到训练好的空时残差神经网络ST-RES-LSTM。
CN201811030952.2A 2018-09-05 2018-09-05 一种基于空时残差神经网络的远场语音识别方法 Active CN110895933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811030952.2A CN110895933B (zh) 2018-09-05 2018-09-05 一种基于空时残差神经网络的远场语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811030952.2A CN110895933B (zh) 2018-09-05 2018-09-05 一种基于空时残差神经网络的远场语音识别方法

Publications (2)

Publication Number Publication Date
CN110895933A CN110895933A (zh) 2020-03-20
CN110895933B true CN110895933B (zh) 2022-05-03

Family

ID=69785331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811030952.2A Active CN110895933B (zh) 2018-09-05 2018-09-05 一种基于空时残差神经网络的远场语音识别方法

Country Status (1)

Country Link
CN (1) CN110895933B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401530B (zh) * 2020-04-22 2021-04-09 上海依图网络科技有限公司 一种用于语音识别装置神经网络的训练方法
CN112992155B (zh) * 2021-03-02 2022-10-14 复旦大学 一种基于残差神经网络的远场语音说话人识别方法及装置
CN112927682B (zh) * 2021-04-16 2024-04-16 西安交通大学 一种基于深度神经网络声学模型的语音识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN107679585A (zh) * 2017-09-27 2018-02-09 清华大学 基于时间残差长短时记忆网络的阿拉伯文识别方法及系统
CN108038539A (zh) * 2017-10-26 2018-05-15 中山大学 一种集成长短记忆循环神经网络与梯度提升决策树的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606885B2 (en) * 2016-11-15 2020-03-31 Evolv Technology Solutions, Inc. Data object creation and recommendation using machine learning based online evolution
US10074038B2 (en) * 2016-11-23 2018-09-11 General Electric Company Deep learning medical systems and methods for image reconstruction and quality evaluation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN107679585A (zh) * 2017-09-27 2018-02-09 清华大学 基于时间残差长短时记忆网络的阿拉伯文识别方法及系统
CN108038539A (zh) * 2017-10-26 2018-05-15 中山大学 一种集成长短记忆循环神经网络与梯度提升决策树的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Multidimensional Residual Learning Based on Recurrent Neural Networks;Yuanyuan Zhao;《INTERSPEECH 2016》;20160912;第3419-3423页 *
Residual Convolutional LSTM for Tweet Count Prediction;Hong Wei;《Companion Proceedings of the The Web Conference 2018》;20180427;第1309-1316页 *
Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech;Jaeyoung Kim;《arXiv:1701.03360v3》;20170605;全文 *
基于深度时空残差网络的航班需求预测方法研究;康友隐;《中国优秀硕士学位论文全文数据库》;20180630(第6期);C031-209 *

Also Published As

Publication number Publication date
CN110895933A (zh) 2020-03-20

Similar Documents

Publication Publication Date Title
US9400955B2 (en) Reducing dynamic range of low-rank decomposition matrices
CN107301864B (zh) 一种基于Maxout神经元的深度双向LSTM声学模型
Nakkiran et al. Compressing deep neural networks using a rank-constrained topology.
US10902845B2 (en) System and methods for adapting neural network acoustic models
US20220004870A1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
CN107293288B (zh) 一种残差长短期记忆循环神经网络的声学模型建模方法
CN105845128B (zh) 基于动态剪枝束宽预测的语音识别效率优化方法
WO2016101688A1 (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN110895933B (zh) 一种基于空时残差神经网络的远场语音识别方法
CN105279552B (zh) 一种基于字的神经网络的训练方法和装置
US9886948B1 (en) Neural network processing of multiple feature streams using max pooling and restricted connectivity
CN108735199B (zh) 一种声学模型的自适应训练方法及系统
CN111179944B (zh) 语音唤醒及年龄检测方法、装置及计算机可读存储介质
CN108461080A (zh) 一种基于hlstm模型的声学建模方法和装置
Li et al. Improving long short-term memory networks using maxout units for large vocabulary speech recognition
US20180061395A1 (en) Apparatus and method for training a neural network auxiliary model, speech recognition apparatus and method
CN114943335A (zh) 一种三值神经网络逐层优化方法
US11783841B2 (en) Method for speaker authentication and identification
Liu et al. Using bidirectional associative memories for joint spectral envelope modeling in voice conversion
Xu et al. Low-bit quantization of recurrent neural network language models using alternating direction methods of multipliers
Zaharia et al. Quantized dynamic time warping (DTW) algorithm
US20230096150A1 (en) Method and apparatus for determining echo, and storage medium
CN111177381A (zh) 基于语境向量反馈的槽填充和意图检测联合建模方法
CN115223573A (zh) 语音唤醒方法、装置、电子设备以及存储介质
Mana et al. Online batch normalization adaptation for automatic speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant