CN110164418B - 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法 - Google Patents

基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法 Download PDF

Info

Publication number
CN110164418B
CN110164418B CN201910621276.4A CN201910621276A CN110164418B CN 110164418 B CN110164418 B CN 110164418B CN 201910621276 A CN201910621276 A CN 201910621276A CN 110164418 B CN110164418 B CN 110164418B
Authority
CN
China
Prior art keywords
time
frequency
neural network
frequency domain
recurrent neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910621276.4A
Other languages
English (en)
Other versions
CN110164418A (zh
Inventor
韩纪庆
薛嘉宾
郑铁然
郑贵滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910621276.4A priority Critical patent/CN110164418B/zh
Publication of CN110164418A publication Critical patent/CN110164418A/zh
Application granted granted Critical
Publication of CN110164418B publication Critical patent/CN110164418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,属于语音信号处理技术领域。本发明是为了解决目前的加速方法大多是在牺牲识别性能的条件下进行加速导致其不能满足实际任务的需要问题。本发明的方法针对频谱或者频谱的多通道频谱子带进行时频块切分,然后进行局部特征提取,将卷积神经网络与Grid‑LSTM相结合,弥补了Grid‑LSTM在大频域步长情况下的精度损失。主要用于自动语音识别。

Description

基于卷积网格长短时记忆递归神经网络的自动语音识别加速 方法
技术领域
本发明涉及一种自动语音识别加速方法。属于语音信号处理技术领域。
背景技术
长短时记忆(Long Short-Term Memory,LSTM)递归神经网络是自动语音识别任务中最常使用的模型。
近年来,随着LSTM的不断发展,出现了一类增强版本的LSTM,即二维LSTM(TwoDimension LongShort-TermMemory,2D-LSTM)。在这类LSTM中,最具代表性的是网格长短时(GridLongShort-TermMemory,Grid-LSTM)递归网络,其在频域和时域分别使用独立的LSTM进行序列建模。网格长短时记忆递归神经网络已成为自动语音识别(AutomaticSpeech Recognition,ASR)系统的重要组成部分。然而,由于Grid-LSTM在时域和频域分别使用两个独立的长短时记忆(LongShort-TermMemory,LSTM)递归网络对序列依赖关系进行建模,因此,Grid-LSTM在训练和推理过程中存在计算时间较长和计算量巨大的问题,即:由于Grid-LSTM使用两个独立的LSTM针对输入频谱进行滤波操作,因此会导致巨大的计算代价。进一步,由于其自身的网格限制,使得模型无法并行运算。
在实际使用过程中,系统对于模型的实时推理能力要求较高,因此Grid-LSTM往往无法有效应用在实际任务中。目前的加速方法大多是在牺牲识别性能的条件下进行加速,并不能满足实际任务的需要。
发明内容
本发明是为了解决目前的加速方法大多是在牺牲识别性能的条件下进行加速导致其不能满足实际任务的需要问题。
基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,包括以下步骤:
步骤1、时频块切分:
针对频谱X或者输入频谱X的多通道频谱子带X′进行时频块切分:
使用频率方向长度F,时间方向长度T的滑动窗,按照频域轴步长frestrip,时间轴步长timestrip,将频谱X或其多通道频谱子带X′切分为一系列时频块集合Xblock=[x′1,1,x′2,1,...,x′t,k,...];x′t,k为一个时频块,t表示时域,k表示频域;
步骤2、局部特征提取:
首先,针对x′t,k进行卷积运算,提取当前时频块的局部频域特征
Ft,k=x′t,k*WF
其中,WF为卷积核的第F个子卷积核矩阵;
然后,针对Ft,k进行池化,Pt,k为池化后的Ft,k
将Pt,k归一化到指定维度
xt,k=Pt,k×WL+b,
xt,k为归一化到指定维度后的Pt,k,WL为权值矩阵,b为归一化到指定维度操作对应的偏置量;
步骤3、全局时频模式建模:
针对步骤2中得到的局部特征xt,k进行全局时频模式建模:
分别在频域和时域使用两个独立的LSTM进行建模,具体流程如下:
Figure GDA0003024791220000021
Figure GDA0003024791220000022
Figure GDA0003024791220000023
Figure GDA0003024791220000024
Figure GDA0003024791220000025
Figure GDA0003024791220000026
Figure GDA0003024791220000027
其中,s∈(t,k),角标t,k表示时域、频域对应的参数;u∈(i,f,c,o),角标i,f,c,o分别表示输入、遗忘、记忆单元和输出对应的参数;
Figure GDA0003024791220000028
分别表示在时频步长t,k处的输入、遗忘、记忆单元和输出的激活门;
Figure GDA0003024791220000029
表示对应的偏置;
Figure GDA00030247912200000210
是Grid-LSTM层的输出;
Figure GDA00030247912200000211
为对应的权值矩阵,角标ix表示输入x*到i门对应的参数,fx表示输入x*到f门对应的参数,cx表示输入x*到c门对应的参数,ox表示输入x*到o门对应的参数,角标um表示输出m到u门对应的参数;⊙表示元素级别的点乘;σ是一个逻辑sigmoid激活函数,g(·)和h(·)是单元输入和输出的激活函数tanh。
进一步地,输入频谱X的多通道频谱子带X′的确定过程如下:
针对频谱X,将其沿频域轴方向切分成N个子带,得到N个频域子带,且将N个频域子带之间的信息进行关联,将N个频域子带并排形成一个N通道的频域子带X′。
进一步地,所述的N=3。
有益效果:
本发明提出一种基于大频域步长的Grid-LSTM改进模型,即卷积网格长短时记忆(Convolutional Grid Long Short-Term Memory,ConvGrid-LSTM)递归神经网络。该模型将卷积神经网络(ConvolutionalNeuralNetwork,CNN)与Grid-LSTM相结合,弥补了Grid-LSTM在大频域步长情况下的精度损失。在此基础上,本发明进一步提出一种多通道频域子带的Grid-LSTM改进模型,即频域块卷积网格长短时(FrequencyBlockConvolutional GridLong Short-Term Memory,fbConvGrid-LSTM)递归神经网络。在国际公开的数据集,与传统Grid-LSTM网络结构的方法进行了对比,本发明所提出的方法取得了最佳的性能表现。
附图说明
图1为本发明处理模型示意图,从左向右依次分为频谱输入(input),时频块划分与局部特征提取(Local time-frequency feature extract)和全局时频结构建模(Globaltime-frequency feature extract);
图2为具体实施方式一中局部时频结构建模的具体过程;
图3为多通道频域子带的构建方式;
图4为具体实施方式二中局部时频结构建模的具体过程。
具体实施方式
具体实施方式一:
本实施方式所述的基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,包括以下步骤:
步骤1、时频块切分:
针对频谱X,使用频率方向长度F=16,时间方向长度T=1的滑动窗,按照频域轴步长frestrip=16,时间轴步长timestrip=1,将频谱X切分为一系列时频块集合Xblock=[x′1,1,x′2,1,...,x′t,k,...];x′t,k为一个时频块,t表示时域,k表示频域;
步骤2、局部特征提取:
对每个时频块x′t,k进行如图2所示的局部特征提取操作:
首先,针对x′t,k进行卷积运算,提取当前时频块的局部频域特征Ft,k
Ft,k=x′t,k*WF
其中,WF为卷积核的第F个子卷积核矩阵;
然后,针对Ft,k进行池化,消除频率偏移带来的影响:
Pt,k=MeanPooling(Ft,k),
MeanPooling表示平均池化;Pt,k为池化操作后的Ft,k
接下来,将Pt,k归一化到指定维度
xt,k=Pt,k×WL+b,
xt,k为归一化到指定维度后的Pt,k,WL为权值矩阵,b为归一化到指定维度操作对应的偏置量;
步骤3、全局时频模式建模:
针对步骤2中得到的局部特征xt,k进行全局时频模式建模:
分别在频域和时域使用两个独立的LSTM进行建模,具体流程如下:
Figure GDA0003024791220000041
Figure GDA0003024791220000042
Figure GDA0003024791220000043
Figure GDA0003024791220000044
Figure GDA0003024791220000045
Figure GDA0003024791220000046
Figure GDA0003024791220000047
其中,s∈(t,k),角标t,k表示时域、频域对应的参数;u∈(i,f,c,o),角标i,f,c,o分别表示输入、遗忘、记忆单元和输出对应的参数;
Figure GDA0003024791220000048
分别表示在时频步长t,k处的输入、遗忘、记忆单元和输出的激活门;
Figure GDA0003024791220000049
表示对应的偏置;
Figure GDA00030247912200000410
是Grid-LSTM层的输出;
Figure GDA00030247912200000411
为对应的权值矩阵,角标ix表示输入x*到i门对应的参数,fx表示输入x*到f门对应的参数,cx表示输入x*到c门对应的参数,ox表示输入x*到o门对应的参数,角标um表示输出m到u门(i,f,c,o门)对应的参数;⊙表示元素级别的点乘;σ是一个逻辑sigmoid激活函数,g(·)和h(·)是单元输入和输出的激活函数tanh。
具体实施方式二:
本实施方式所述的基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,包括以下步骤:
步骤1、时频块切分:
为了能够更好的利用CNN的并行处理能力,对输入频谱X进行多通道频谱子带X′处理:频谱X多通道频谱子带X′为三通道频谱子带,通过多通道频谱子带切分过程实现:为了能够更好的利用CNN的并行处理能力,针对频谱X,将其沿频域轴方向切分成三个子带,且将三个子带之间的信息进行关联,将三个频域子带按照如图3所示的方法并排形成一个三通道的频域子带X′;
使用频率方向长度F=16,时间方向长度T=1的滑动窗,按照频域轴步长frestrip=16,时间轴步长timestrip=1,将其多通道频谱子带X′切分为一系列时频块集合Xblock=[x′1,1,x′2,1,...,x′t,k,...];x′t,k为一个时频块,t表示时域,k表示频域;
步骤2、局部特征提取:
对每个时频块x′t,k进行如图4所示的局部特征提取操作:
首先,针对x′t,k进行卷积运算,提取当前时频块的局部频域特征Ft,k
Ft,k=x′t,k*WF
其中,WF为卷积核的第F个子卷积核矩阵;
然后,针对Ft,k进行池化,消除频率偏移带来的影响:
Pt,k=MeanPooling(Ft,k),
MeanPooling表示平均池化;Pt,k为池化操作后的Ft,k
接下来,将Pt,k归一化到指定维度
xt,k=Pt,k×WL+b,
xt,k为归一化到指定维度后的Pt,k,WL为权值矩阵,b为归一化到指定维度操作对应的偏置量;
步骤3、全局时频模式建模:
针对步骤2中得到的局部特征xt,k进行全局时频模式建模:
分别在频域和时域使用两个独立的LSTM进行建模,具体流程如下:
Figure GDA0003024791220000051
Figure GDA0003024791220000052
Figure GDA0003024791220000053
Figure GDA0003024791220000054
Figure GDA0003024791220000055
Figure GDA0003024791220000056
Figure GDA0003024791220000057
其中,s∈(t,k),角标t,k表示时域、频域对应的参数;u∈(i,f,c,o),角标i,f,c,o分别表示输入、遗忘、记忆单元和输出对应的参数;
Figure GDA0003024791220000058
分别表示在时频步长t,k处的输入、遗忘、记忆单元和输出的激活门;
Figure GDA0003024791220000059
表示对应的偏置;
Figure GDA00030247912200000510
是Grid-LSTM层的输出;
Figure GDA0003024791220000061
为对应的权值矩阵,角标ix表示输入x*到i门对应的参数,fx表示输入x*到f门对应的参数,cx表示输入x*到c门对应的参数,ox表示输入x*到o门对应的参数,角标um表示输出m到u门(i,f,c,o门)对应的参数;⊙表示元素级别的点乘;σ是一个逻辑sigmoid激活函数,g(·)和h(·)是单元输入和输出的激活函数tanh。

Claims (7)

1.基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,其特征在于,包括以下步骤:
步骤1、时频块切分:
针对频谱X或者输入频谱X的多通道频谱子带X′进行时频块切分:
使用频率方向长度F,时间方向长度T的滑动窗,按照频域轴步长frestrip,时间轴步长timestrip,将频谱X的多通道频谱子带X′切分为一系列时频块集合Xblock=[x′1,1,x′2,1,…,x′t,k,…];x′t,k为一个时频块,t表示时域,k表示频域;
频谱X的多通道频谱子带X‘的确定过程如下:
针对频谱X,将其沿频域轴方向切分成N个子带,得到N个频域子带,且将N个频域子带之间的信息进行关联,将N个频域子带并排形成一个N通道的频域子带X′;
步骤2、局部特征提取:
首先,针对x′t,k进行卷积运算,提取当前时频块的局部频域特征
Ft,k=x′t,k*WF
其中,WF为卷积核的第F个子卷积核矩阵;
然后,针对Ft,k进行池化,Pt,k为池化后的Ft,k
将Pt,k归一化到指定维度
xt,k=Pt,k×WL+b,
xt,k为归一化到指定维度后的Pt,k,WL为权值矩阵,b为归一化到指定维度操作对应的偏置量;
步骤3、全局时频模式建模:
针对步骤2中得到的局部特征xt,k进行全局时频模式建模:
分别在频域和时域使用两个独立的LSTM进行建模,具体流程如下:
Figure FDA0003024791210000011
Figure FDA0003024791210000012
Figure FDA0003024791210000013
Figure FDA0003024791210000014
Figure FDA0003024791210000015
Figure FDA0003024791210000016
Figure FDA0003024791210000017
其中,s∈(t,k),角标t,k表示时域、频域对应的参数;u∈(i,f,c,o),角标i,f,c,o分别表示输入、遗忘、记忆单元和输出对应的参数;
Figure FDA0003024791210000021
分别表示在时频步长t,k处的输入、遗忘、记忆单元和输出的激活门;
Figure FDA0003024791210000022
表示对应的偏置;
Figure FDA0003024791210000023
是Grid-LSTM层的输出;
Figure FDA0003024791210000024
为对应的权值矩阵,角标ix表示输入x*到i门对应的参数,fx表示输入x*到f门对应的参数,cx表示输入x*到c门对应的参数,ox表示输入x*到o门对应的参数,角标um表示输出m到u门对应的参数;⊙表示元素级别的点乘;
Figure FDA0003024791210000025
是一个逻辑sigmoid激活函数,g(·)和h(·)是单元输入和输出的激活函数tanh。
2.根据权利要求1所述的基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,其特征在于,所述的N=3。
3.根据权利要求1或2所述的基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,其特征在于,所述使用频率方向长度F=16。
4.根据权利要求3所述的基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,其特征在于,时间方向长度T=1。
5.根据权利要求4所述的基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,其特征在于,频域轴步长frestrip=16。
6.根据权利要求5所述的基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,其特征在于,时间轴步长timestrip=1。
7.根据权利要求1或2所述的基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,其特征在于,针对Ft,k进行池化:
Pt,k=MeanPooling(Ft,k),
MeanPooling表示平均池化;Pt,k为池化操作后的Ft,k
CN201910621276.4A 2019-07-10 2019-07-10 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法 Active CN110164418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910621276.4A CN110164418B (zh) 2019-07-10 2019-07-10 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910621276.4A CN110164418B (zh) 2019-07-10 2019-07-10 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法

Publications (2)

Publication Number Publication Date
CN110164418A CN110164418A (zh) 2019-08-23
CN110164418B true CN110164418B (zh) 2021-08-27

Family

ID=67638036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910621276.4A Active CN110164418B (zh) 2019-07-10 2019-07-10 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法

Country Status (1)

Country Link
CN (1) CN110164418B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588437B (zh) * 2022-12-13 2023-04-07 南方电网数字电网研究院有限公司 语音增强方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180025721A1 (en) * 2016-07-22 2018-01-25 Google Inc. Automatic speech recognition using multi-dimensional models
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN109243491A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 在频谱上对语音进行情绪识别的方法、系统及存储介质
US20190092318A1 (en) * 2017-09-22 2019-03-28 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for rear signal identification using machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180025721A1 (en) * 2016-07-22 2018-01-25 Google Inc. Automatic speech recognition using multi-dimensional models
US20190092318A1 (en) * 2017-09-22 2019-03-28 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for rear signal identification using machine learning
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN109243491A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 在频谱上对语音进行情绪识别的方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bo Li.Reducing the Computational Complexity of Two-Dimensional LSTMs.《INTERSPEECH 2017》.2017,正文第2页2.1-2.2节. *
Pengcheng Li.An Attention Pooling based Representation Learning Method for Speech Emotion Recognition.《Interspeech 2018 》.2018,全文. *

Also Published As

Publication number Publication date
CN110164418A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
Zhang et al. FurcaNeXt: End-to-end monaural speech separation with dynamic gated dilated temporal convolutional networks
CN108764471B (zh) 基于特征冗余分析的神经网络跨层剪枝方法
CN109840589B (zh) 一种在fpga上运行卷积神经网络的方法和装置
CN109410917B (zh) 基于改进型胶囊网络的语音数据分类方法
CN110874550A (zh) 数据处理方法、装置、设备和系统
CN110718211B (zh) 一种基于混合压缩卷积神经网络的关键词识别系统
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN103730112A (zh) 语音多信道模拟与采集方法
CN110164418B (zh) 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法
CN112885375A (zh) 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法
CN116959477B (zh) 一种基于卷积神经网络的噪声源分类的方法及装置
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
CN113380262A (zh) 一种基于注意力机制与扰动感知的声音分离方法
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
CN115331690B (zh) 一种用于通话语音的噪声实时消除的方法
CN112613604A (zh) 神经网络的量化方法及装置
CN111160517B (zh) 一种深度神经网络的卷积层量化方法及装置
CN111027693A (zh) 一种基于去权重剪枝的神经网络压缩方法及系统
CN113033804B (zh) 一种面向遥感图像的卷积神经网络压缩方法
US20240071411A1 (en) Determining dialog quality metrics of a mixed audio signal
CN115328661A (zh) 一种基于语音和图像特征的算力均衡执行方法及芯片
CN114998661A (zh) 一种基于定点数量化的目标检测方法
CN114974281A (zh) 语音降噪模型的训练方法、装置、存储介质及电子装置
CN111832596B (zh) 数据处理方法、电子设备及计算机可读介质
CN112908344A (zh) 一种鸟鸣声智能识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant