CN113035178A - 基于transformer的语音识别解码加速方法 - Google Patents
基于transformer的语音识别解码加速方法 Download PDFInfo
- Publication number
- CN113035178A CN113035178A CN202110282790.7A CN202110282790A CN113035178A CN 113035178 A CN113035178 A CN 113035178A CN 202110282790 A CN202110282790 A CN 202110282790A CN 113035178 A CN113035178 A CN 113035178A
- Authority
- CN
- China
- Prior art keywords
- self
- prediction result
- src
- decoding
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001133 acceleration Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 70
- 230000007246 mechanism Effects 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 15
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明属于端到端语音识别技术领域,涉及的基于transformer的语音识别解码加速方法,包括以下步骤:S1、向transformer语音识别模型输入一条待识别音频特征序列和启动标签,语音识别模型输出初始时刻预测结果;S2、将启动标签同预测结果拼接,作为解码下一时刻历史预测结果;S3、向语音识别模型输入另一条待识别音频特征序列和历史预测结果,通过解码器模块的加速运算,加速计算解码各时刻预测结果序列;S4、将各时刻预测结果序列同该时刻预测结果做拼接,更新历史预测结果;S5、重复步骤上述,直至音识别模型预测出终止标签,此时解码完成,将最终的历史预测结果去除初始标签即为解码序列。
Description
技术领域
本发明属于端到端语音识别技术领域,涉及改一种基于transformer的语音识别解码加速。
背景技术
目前最经典的语音识别方法是基于隐马尔科夫模型(Hidden Markov Model,HMM)和神经网络(Deep Neural Network,DNN)相结合的方法。尽管这种方法很好地利用了语音信号的短时平稳特性,但仍存在声学模型、发音词典、语言模型多模型级联,模型训练目标不一致、解码空间大等缺点。而端到端语音识别的发明简化了整个语音识别流程,训练目标简单一致。
目前端到端语音识别模型可以主要分为三类:连续时间分类模型(ConnectionistTemporal Classification,CTC),循环神经网络转换机模型(Recurrent Neural Network-Transducer,RNN-Transducer)和基于注意力机制的序列模型(Attention-based End-to-End Model,A-E2E)。其中,CTC模型中引入独立性假设,RNN-Transducer主要应用于流式语音识别模型,而基于注意力机制的序列模型采用注意力机制对齐帧级语音信号与文字序列,其准确性于端到端语音识别中较高。端到端语音识别框架主要分为听,注意,拼写(Listen Attend and Spell,LAS)语音识别框架和基于transformer的端到端语音识别框架。其中,基于transformer的模型因为将自注意力机制替换传统时序建模模型,其准确性有明显提高(Zhou S,Dong L,Xu S,et al.Syllable-based sequence-to-sequencespeech recognition with the transformer in mandarin chinese[J].arXiv preprintarXiv:1804.10752,2018.)。而transformer注意力模块在并行计算加快训练速度的同时,解码速度却受到了较大的影响。解码各步,自注意力模块对全部历史预测结果进行时序建模,再通过编码器-解码器注意力模块针对语音信号进行映射处理,以得到当前时刻预测结果。由此可见,transformer框架解码各步针对全部历史结果进行预测,这种建模方式在模型精度、训练效率上有很大的优势,但在解码时刻容易遇到时延过长等问题,故基于transformer的端到端语音识别模型需要在解码步骤中引入加速操作,加速解码进程。
发明内容
针对现有技术的不足,本发明提供一种改进的基于transformer的语音识别解码加速方法,在考虑模型建模结构、解码步骤等方面的因素下,通过在transformer解码各步中进行重复性比较、提炼,并且缓存重复计算步骤相应的计算结果,保存缓存结果并进行显示建模,避免重复计算,在不损失模型精度的同时提升了各个步骤的解码速度。与传统的transformer模型相比,其解码效率更高,工业实用性更强。
本发明至少通过如下技术方案之一实现。
基于transformer的语音识别解码加速方法,包括以下步骤:
S1、向transformer语音识别模型输入待识别音频特征序列和启动标签,transformer语音识别模型输出初始时刻预测结果;
S2、将启动标签同预测结果拼接,作为解码下一时刻历史预测结果;
S3、向transformer语音识别模型输入所述待识别音频特征序列和历史预测结果,transformer语音识别模型通过解码器模块的加速运算,加速计算解码各时刻预测结果序列;
S4、将各时刻预测结果序列同该时刻预测结果做拼接,更新历史预测结果;
S5、重复步骤S1~步骤S4,直至transformer语音识别模型预测出终止标签,此时解码完成,将最终的历史预测结果去除初始标签即为解码序列。
优选的,所述transformer语音识别模型包括编码器模块和解码器模块。
优选的,输入的待识别音频特征序列包括滤波器组特征、梅尔频率倒谱系数特征。
优选的,所述编码器模块为使用循环神经网络、长短时记忆网络。
优选的,所述编码器模块包括第一自注意力模块,待识别音频特征序列输入第一自注意力模块得出音频特征高维特征表示,具体公式为:
QB=WQX
KB=WkX
VB=WVX
其中,X=[x1,x2,...,xt,...,xT]为待识别音频特征序列,其中xt代表第t帧音频特征,且X∈RT×d,T为音频序列长度,d为模型维度;WQ、Wk、WV代表不同的维度变换矩阵;QB∈RT ×d、KB∈RT×d、VB∈RT×d分别代表编码器查询向量、键向量、值向量,各向量通过第一自注意力模块,即为编码器模块输出的结果HB∈RT×d:
HB=VBsoft max(QBKB T/√dk)
其中,dk为缩放因子。
优选的,所述解码器模块包括两级注意力模块,分别为第二自注意力模块和编码器-解码器注意力模块;
第二自注意力模块进行时序信息建模,具体公式为:
Qself_0=WQ_selfy0
Kself_0=Wk_selfy0
Vself_0=WV_selfy0
其中,y0∈R1×d表示初始时刻向解码器模块输入的启动标签SOS,WQ_self、Wk_self、WV_self代表维度变换矩阵;Qself_0∈Rd×d、Kself_0∈Rd×d、Vself_0∈Rd×d分别为初始时刻解码器模块的查询向量、键向量、值向量;第二自注意力模块的输出为Hself_0∈R1×d:
Hself_0=Vself_0soft max(Qself_0Kself_0T/√dk)
所述编码器-解码器注意力模块根据第二自注意力模块建模的结果,确定当前时刻重点输入的音频特征序列区间,如下:
Qsrc_0=WQ_srcHself_0
Ksrc_0=Wk_srcHB
Vsrc_0=WV_srcHB
其中,WQ_src、Wk_src、WV_src代表维度变换矩阵;Qsrc_0∈R1×d、Ksrc_0∈RT×d、Vsrc_0∈RT×d分别代表时刻t=0时的查询向量、键向量、值向量,所述编码器-解码器注意力模块的输出为Hsrc_0∈R1×d:
Hsrc_0=Vsrc_0soft max(Qsrc_0Ksrc_0 T/√dk)。
优选的,步骤S2具体是:将输出结果Hsrc_0经过前馈层、softmax层归一化得到初始预测时刻全部文字输出概率,则输出概率最大的文字作为初始时刻预测结果y1,且y1∈R1 ×d;将y1拼接到初始时刻向解码器模块输入的启动标签y0之后,拼接结果作为下一时刻的历史预测结果替换y0参与下一步的解码,此时当前模型历史预测结果为[y0,y1]。
优选的,步骤S3所述的加速运算包括进行第二自注意力模块和编码器-解码器注意力模块的加速运算。
优选的,所述第二自注意力模块的加速运算,具体包括以下步骤:
(1).若当前为解码时刻为t,则当前历史预测结果应为Yt=[y0,y1,...,yt-1],且Yt∈Rt×d,其中yt-1为t-1时刻模型预测结果,Yt为初始标签同0至t-1时刻预测结果拼接所得,将t-1时刻的自注意力机制结果为缓存向量cache∈Rt-1×d,即cache=Hself_t-1;
(2).解码时刻t,取yt-1∈R1×d作为查询向量维度变换输入,则注意力表示为:
Qself_t=WQ_selfyt-1
Kself_t=Wk_selfYt
Vself_t=WV_selfYt
Hself_t_mid=Vself_tsoft max(Qself_tKself_t T/√dk)
其中,Qself_t∈R1×d、Kself_t∈Rt×d、Vself_t∈Rt×d为时刻t的查询向量、键向量、值向量,Hself_t_mid∈R1×d为自注意力机制结果;
(3).将缓存向量cache与Hself_t_mid拼接,作为解码时刻t完整的自注意力机制值Hself_t∈Rt×d,即:
Hself_t=Concat(cache,Hself_t_mid)
其中,Concat为拼接操作,同时将Hself_t替换为t时刻缓存向量cache。
优选的,所述编码器-解码器注意力模块的加速运算,具体包括以下步骤:
1).将t=0时刻键向量、值向量分别存入缓存向量cache_k∈RT×d、cache_v∈RT×d,即:
cache_k=Ksrc_0
cache_v=Vsrc_0;
2).编码器-解码器注意力模块运算表示为:
Qself_t=WQ-selfHself_t
Hself_t=cache_v soft max(Qself_t cache_kT/√dk)
其中,Qself_t∈Rt×d为查询向量,Hself_t∈Rt×d为当前时刻编码器-解码器注意力机制运算结果。
与现有的技术相比,本发明的有益效果为:基于transformer模型的解码加速过程可以在不损失任何精度的情况下大幅度提升模型解码速度。本发明通过在解码器模块两级注意力模块内部引入加速机制,相较于传统模型可大幅减少计算复杂度,提升解码效率解决模型功耗低资源问题。
附图说明
图1为本实施例基于transformer的语音识别解码加速方法的示意图;
图2为本实施例transformer解码器自注意力模块进行加速过程的流程图;
图3为本实施例编码器-解码器注意力模块进行加速过程的流程图。
具体实施方式
下面对本发明作进一步详细的描述。
如图1、图2所示,本实施例的基于transformer的语音识别解码加速方法,包括以下步骤:
本实施中使用对选取的语音数据集提取40维FBANK作为输入音频特征,所述声学特征经过2维的卷积层,进行帧级别声学特征的隐层特征提取、降采样等操作。
S1、将待识别音频特征输入transformer语音识别模型的编码器模块。
本实施中使用对选取的语音数据集提取40维FBANK作为输入音频特征。
所述声学特征经过2维的卷积层,进行帧级别声学特征的隐层特征提取、降采样等操作。
作为另一实施例,输入额待识别音频特征可为滤波器组特征、梅尔频率倒谱系数特征。
所述编码器模块包括第一自注意力模块,待识别音频特征序列输入第一自注意力模块得出音频特征高维特征表示,具体公式为:
QB=WQX
KB=WkX
VB=WVX
其中,X=[x1,x2,...,xt,...,xT]为待识别音频特征序列其中xt代表第t帧音频特征,且X∈RT×d,T为音频序列长度,d为模型维度;WQ、Wk、WV代表不同的维度变换矩阵;QB∈RT ×d、KB∈RT×d、VB∈RT×d分别代表编码器查询向量、键向量、值向量,各向量通过第一自注意力模块,即为编码器模块输出的结果HB∈RT×d:
HB=VBsoft max(QBKB T/√dk)
其中,dk为缩放因子。
上述向量通过第一自注意力模块得出音频特征高维特征表示,即编码器模块输出结果HB∈RT×d:
HB=VBsoft max(QBKB T/√dk)
其中,dk为缩放因子,通常取64。
作为另一实施例,编码器模块可使用循环神经网络替换自注意力模块。使用循环神经网络为:
rt=RNN(rt-1,ct-1,xt)
其中RNN代表循环神经网络模块,rt-1表示t-1时刻循环神经网络输出结果,ct-1表示t-1时刻神经网络隐层表示,xt代表第t帧音频特征;则音频特征高维表示表示为RB=[r1,r2,...,rt,...,rT]。
作为另一实施例,长短时记忆网络替换自注意力模块,长短时记忆网络为:
lt=LSTM(lt-1,ft-1,xt)
其中LSTM代表长短时记忆模块,lt-1表示t-1时刻长短时记忆网络输出结果,ft-1表示t-1时刻神经网络隐层表示,xt代表第t帧音频特征;则音频特征高维表示可表示为LB=[l1,l2,...,lt,...,lT]。
S2、同时初始时刻向transformer语音识别模型的解码器模块输入启动标签SOS,表示为y0∈R1×d。
所述解码器模块包括两级注意力模块,分别为第二自注意力模块和编码器-解码器注意力模块;其中:所述第二自注意力模块针对输入音频进行时序信息建模,所述编码器-解码器注意力模块则根据第二自注意力模块建模结果,确定当前时刻重点输入音频的特征序列区间。
第二自注意力模块针进行时序信息建模,具体公式为:
Qself_0=WQ_selfy0
Kself_0=Wk_selfy0
Vself_0=WV_selfy0
其中,y0∈R1×d表示初始时刻向解码器模块输入的启动标签SOS,WQ_self、Wk_self、WV_self代表维度变换矩阵;Qself_0∈Rd×d、Kself_0∈Rd×d、Vself_0∈Rd×d分别为初始时刻解码器模块的查询向量、键向量、值向量;第二自注意力模块的输出为Hself_0∈R1×d:
Hself_0=Vself_0soft max(Qself_0Kself_0 T/√dk)
如图3所示,所述编码器-解码器注意力模块根据第二自注意力模块建模的结果,确定当前时刻重点输入的音频特征序列区间,如下:
Qsrc_0=WQ_srcHself_0
Ksrc_0=Wk_srcHB
Vsrc_0=WV_srcHB
其中,WQ_src、Wk_src、WV_src代表维度变换矩阵;Qsrc_0∈R1×d、Ksrc_0∈RT×d、Vsrc_0∈RT×d分别代表时刻t=0时的查询向量、键向量、值向量,所述编码器-解码器注意力模块的输出为Hsrc_0∈R1×d:
Hsrc_0=Vsrc_0soft max(Qsrc_0Ksrc_0 T/√dk)。
S3、将编码器-解码器注意力模块输出结果经过前馈层、softmax层归一化计算可得初始预测时刻全部文字输出概率,则输出概率最大的文字可视作初始时刻预测结果y1,且y1∈R1×d。
S4、将y1拼接到启动标签y0之后,作为下一时刻的历史预测结果替换y0参与后续解码器运算,即当前模型历史预测结果为[y0,y1]。
S5、transformer模型后续解码时刻,进行模型加速解码。
假设当前为解码步骤t,则历史预测结果应为Yt=[y0,y1,...,yt-1],且Yt∈Rt×d。首先进行自注意力模块加速,加速解码包括以下步骤:
a、第二自注意力模块加速运算,具体包括以下步骤:
(1).保存t-1时刻的自注意力机制结果为缓存向量cache∈Rt-1×d,即cache=Hself_t-1;
(2).解码时刻t,取yt-1∈R1×d作为查询向量维度变换输入,则注意力计算可表示为:
Qself_t=WQ_selfyt-1
Kself_t=Wk_selfYt
Vself_t=WV_selfYt
Hself_t_mid=Vselftsoft max(Qself_tKself_t T/√dk)
其中,Qself_t∈R1×d、Kself_t∈Rt×d、Vself_t∈Rt×d为查询向量、键向量、值向量。Hself_t_mid∈R1×d为自注意力机制计算结果;
(3).将缓存向量cache与Hself_t_mid拼接,作为解码时刻t完整的自注意力机制值Hself_t∈Rt×d,即:
Hself_t=Concat(cache,Hself_t_mid)
其中,Concat为拼接操作。同时将Hself_t替换为t时刻缓存向量cache;
其自注意力计算简化在于,查询向量由Yt替换为yt-1,大小由t缩减为1,减少计算量,提升计算速度;
b、进行解码时刻t的编码器-解码器注意力加速运算,具体包括以下步骤:
1).将t=0时刻键、值向量分别存入缓存向量cache_k∈RT×d、cache_v∈RT×d,即:
cache_k=Ksrc_0
cache_v=Vsrc_0
2).编码器-解码器注意力模块运算可表示为:
Qself_t=WQ_selfHself_t
Hself_t=cache_v soft max(Qself_t cache_kT/√dk)
其中,Qself_t∈Rt×d为查询向量,Hself_t∈Rt×d为当前时刻编码器-解码器注意力机制运算结果。
其计算简化在于,对于解码t大于1的所有步骤,省去键、值向量的计算,减少计算量,提升计算速度。
S6、将输出结果Hself_t经过前馈层、softmax层归一化操作可得t时刻全部文字输出概率,则输出概率最大的文字即可视作t时刻预测结果yt。将yt拼接到历史预测结果Yt之后,作为t+1时刻的历史预测结果Yt+1,即Yt+1=[y0,y1,...,yt-1,yt],替换Yt参与后续解码器运算。
S7、重复步骤S5、步骤S6计算步骤,直到解码时刻模型预测概率最大文字为停止标签EOS,解码结束。将历史预测结果去掉起始标签SOS可表示为带识别音频对应的模型识别结果。
加速处理具有以下特点:
1)假设当前时刻解码时间为t,则加速过程需要设置缓存向量cache,在自注意力模块中将前一时刻的注意力结果保存为缓存向量;编码器-解码器注意力模块加速中将t=1时刻维度变换相应的键、值向量保存为缓存向量,方便于后续使用。
2)加速操作减少计算的目的是减少参与计算的矩阵,从而减少计算量。本发明所涉及的技术方法,在本领域的技术人员可以很容易应用到其他网络结构中,都应视为本发明的变种。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于transformer的语音识别解码加速方法,其特征在于,包括以下步骤:
S1、向transformer语音识别模型输入待识别音频特征序列和启动标签,transformer语音识别模型输出初始时刻预测结果;
S2、将启动标签同预测结果拼接,作为解码下一时刻历史预测结果;
S3、向transformer语音识别模型输入所述待识别音频特征序列和历史预测结果,transformer语音识别模型通过解码器模块的加速运算,加速计算解码各时刻预测结果序列;
S4、将各时刻预测结果序列同该时刻预测结果做拼接,更新历史预测结果;
S5、重复步骤S1~步骤S4,直至transformer语音识别模型预测出终止标签,此时解码完成,将最终的历史预测结果去除初始标签即为解码序列。
2.根据权利要求1所述的基于transformer的语音识别解码加速方法,其特征在于,所述transformer语音识别模型包括编码器模块和解码器模块。
3.根据权利要求2所述的基于transformer的语音识别解码加速方法,其特征在于,输入的待识别音频特征序列包括滤波器组特征、梅尔频率倒谱系数特征。
4.根据权利要求3所述的基于transformer的语音识别解码加速方法,其特征在于,所述编码器模块为使用循环神经网络、长短时记忆网络。
5.根据权利要求3所述的基于transformer的语音识别解码加速方法,其特征在于,所述编码器模块包括第一自注意力模块,待识别音频特征序列输入第一自注意力模块得出音频特征高维特征表示,具体公式为:
QB=WQX
KB=WkX
VB=WVX
其中,X=[x1,x2,...,xt,...,xT]为待识别音频特征序列,其中xt代表第t帧音频特征,且X∈RT×d,T为音频序列长度,d为模型维度;WQ、Wk、WV代表不同的维度变换矩阵;QB∈RT×d、KB∈RT×d、VB∈RT×d分别代表编码器查询向量、键向量、值向量,各向量通过第一自注意力模块,即为编码器模块输出的结果HB∈RT×d:
其中,dk为缩放因子。
6.根据权利要求5所述的基于transfomer的语音识别解码加速方法,其特征在于,所述解码器模块包括两级注意力模块,分别为第二自注意力模块和编码器-解码器注意力模块;
第二自注意力模块进行时序信息建模,具体公式为:
Qself_0=WQ_selfy0
Kself_0=Wk_selfy0
Vself_0=WV_selfy0
其中,y0∈R1×d表示初始时刻向解码器模块输入的启动标签SOS,WQ_self、Wk_self、WV_self代表维度变换矩阵;Qself_0∈Rd×d、Kself_0∈Rd×d、Vself_0∈Rd×d分别为初始时刻解码器模块的查询向量、键向量、值向量;第二自注意力模块的输出为Hself_0∈R1×d:
所述编码器-解码器注意力模块根据第二自注意力模块建模的结果,确定当前时刻重点输入的音频特征序列区间,如下:
Qsrc_0=WQ_srcHself_0
Ksrc_0=Wk_srcHB
Vsrc_0=WV_srcHB
其中,WQ_src、Wk_src、WV_src代表维度变换矩阵;Qsrc_0∈R1×d、Ksrc_0∈RT×d、Vsrc_0∈RT×d分别代表时刻t=0时的查询向量、键向量、值向量,所述编码器-解码器注意力模块的输出为Hsrc_0∈R1×d:
7.根据权利要求6所述的基于transformer的语音识别解码加速方法,其特征在于,步骤S2具体是:将输出结果Hsrc_0经过前馈层、softmax层归一化得到初始预测时刻全部文字输出概率,则输出概率最大的文字作为初始时刻预测结果y1,且y1∈R1×d;将y1拼接到初始时刻向解码器模块输入的启动标签y0之后,拼接结果作为下一时刻的历史预测结果替换y0参与下一步的解码,此时当前模型历史预测结果为[y0,y1]。
8.根据权利要求7所述的基于transformer的语音识别解码加速方法,其特征在于,步骤S3所述的加速运算包括进行第二自注意力模块和编码器-解码器注意力模块的加速运算。
9.根据权利要求8所述的基于transformer的语音识别解码加速方法,其特征在于,所述第二自注意力模块的加速运算,具体包括以下步骤:
(1).若当前为解码时刻为t,则当前历史预测结果应为Yt=[y0,y1,...,yt-1],且Yt∈Rt ×d,其中yt-1为t-1时刻模型预测结果,Yt为初始标签同0至t-1时刻预测结果拼接所得,将t-1时刻的自注意力机制结果为缓存向量cache∈Rt-1×d,即cache=Hself_t-1;
(2).解码时刻t,取yt-1∈R1×d作为查询向量维度变换输入,则注意力表示为:
Qself_t=WQ_selfyt-1
Kself_t=Wk_selfYt
Vself_t=WV_selfYt
其中,Qself_t∈R1×d、Kself_t∈Rt×d、Vself_t∈Rt×d为时刻t的查询向量、键向量、值向量,Hself_t_mid∈R1×d为自注意力机制结果;
(3).将缓存向量cache与Hself_t_mid拼接,作为解码时刻t完整的自注意力机制值Hself_t∈Rt×d,即:
Hself_t=Concat(cache,Hself_t_mid)
其中,Concat为拼接操作,同时将Hself_t替换为t时刻缓存向量cache。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282790.7A CN113035178B (zh) | 2021-03-16 | 2021-03-16 | 基于transformer的语音识别解码加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282790.7A CN113035178B (zh) | 2021-03-16 | 2021-03-16 | 基于transformer的语音识别解码加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035178A true CN113035178A (zh) | 2021-06-25 |
CN113035178B CN113035178B (zh) | 2024-01-05 |
Family
ID=76471012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110282790.7A Active CN113035178B (zh) | 2021-03-16 | 2021-03-16 | 基于transformer的语音识别解码加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035178B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115527525A (zh) * | 2022-11-23 | 2022-12-27 | 广州小鹏汽车科技有限公司 | 语音识别模型生成方法、语音交互方法、车辆和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190189111A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Multi-Lingual End-to-End Speech Recognition |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN111859927A (zh) * | 2020-06-01 | 2020-10-30 | 北京先声智能科技有限公司 | 一种基于注意力共享Transformer的语法改错模型 |
CN112037798A (zh) * | 2020-09-18 | 2020-12-04 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
-
2021
- 2021-03-16 CN CN202110282790.7A patent/CN113035178B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190189111A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Multi-Lingual End-to-End Speech Recognition |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN111859927A (zh) * | 2020-06-01 | 2020-10-30 | 北京先声智能科技有限公司 | 一种基于注意力共享Transformer的语法改错模型 |
CN112037798A (zh) * | 2020-09-18 | 2020-12-04 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
刘柏基: "基于注意力机制的端到端语音识别应用研究", 中国优秀硕士学位论文全文数据库信息科技辑, pages 136 - 368 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115527525A (zh) * | 2022-11-23 | 2022-12-27 | 广州小鹏汽车科技有限公司 | 语音识别模型生成方法、语音交互方法、车辆和存储介质 |
CN115527525B (zh) * | 2022-11-23 | 2023-04-18 | 广州小鹏汽车科技有限公司 | 语音识别模型生成方法、语音交互方法、车辆和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113035178B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111199727B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111429889A (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111145729B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
JP2001188558A (ja) | 音声認識装置、方法、コンピュータ・システム及び記憶媒体 | |
CN113035231A (zh) | 关键词检测方法及装置 | |
CN112151003A (zh) | 并行语音合成方法、装置、设备以及计算机可读存储介质 | |
WO2023059969A1 (en) | Joint unsupervised and supervised training for multilingual automatic speech recognition | |
Mamatov et al. | Speech recognition based on transformer neural networks | |
CN113035178A (zh) | 基于transformer的语音识别解码加速方法 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
Li | A lightweight architecture for query-by-example keyword spotting on low-power IoT devices | |
US20230317059A1 (en) | Alignment Prediction to Inject Text into Automatic Speech Recognition Training | |
Deng et al. | History utterance embedding transformer lm for speech recognition | |
CN113450777A (zh) | 一种基于对比学习的端到端音障语音识别方法 | |
Chenxuan | Research on speech recognition technology for smart home | |
Cai et al. | CNN-Self-Attention-DNN Architecture For Mandarin Recognition | |
Guo et al. | A Chinese Speech Recognition System Based on Fusion Network Structure | |
Savitha | Deep recurrent neural network based audio speech recognition system | |
CN113763939B (zh) | 基于端到端模型的混合语音识别系统及方法 | |
US20230017892A1 (en) | Injecting Text in Self-Supervised Speech Pre-training | |
Wang et al. | End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders | |
US20230103722A1 (en) | Guided Data Selection for Masked Speech Modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |