CN113488028B - 基于快速跳跃解码的语音转写识别训练解码方法及系统 - Google Patents
基于快速跳跃解码的语音转写识别训练解码方法及系统 Download PDFInfo
- Publication number
- CN113488028B CN113488028B CN202110698291.6A CN202110698291A CN113488028B CN 113488028 B CN113488028 B CN 113488028B CN 202110698291 A CN202110698291 A CN 202110698291A CN 113488028 B CN113488028 B CN 113488028B
- Authority
- CN
- China
- Prior art keywords
- decoding
- acoustic
- sequence
- coding state
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013518 transcription Methods 0.000 title claims abstract description 27
- 230000035897 transcription Effects 0.000 title claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000010845 search algorithm Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 62
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于快速跳跃解码的语音转写识别训练解码方法及系统,包括声学特征提取模块,提取声学特征序列;声学编码器,将声学特征序列转变为声学编码状态序列;解码器,基于声学编码状态序列,在预测概率分布,训练阶段计算损失;在解码阶段预测当前位置,将非空格标记为触发解码位置;语言预测器,用于建模文本标记之间的时序依赖关系;联合网络模块,通过声学编码状态序列和文本编码状态序列组合,在训练阶段预测得到概率分布;在解码阶段基于概率分布,使用搜索算法对解码路径进行更新;联合损失计算模块,训练阶段,根据解码器得到的概率分布,以及联合网络模块预测得到的概率分布,计算联合损失,根据联合损失计算梯度,进行反向传播。
Description
技术领域
本发明涉及电子信号处理技术领域,尤其是涉及基于快速跳跃解码的语音转写识别方法及系统。
背景技术
语音识别作为人机交互的入口,是人工智能领域中一个重要的研究方向。端到端语音识别丢弃了混合语音识别模型依赖的发音词典、语言模型和解码网络,实现了音频特征序列到文字序列的直接转换。其中语音转写模型为代表的模型在流式语音识别场景下取得了巨大的成功,尤其是循环神经网络语音转写模型(RNN-Transducer)和基于Transformer的语音转写模型(Transformer-Transducer)为代表。语音转写模型采用逐帧解码的方式,沿着声学编码状态序列,从左到右开始解码。解码过程中将声学编码状态向量和语言预测器产生的文本编码状态向量一起输入到联合网络模块中,最终解码出该帧是空格标记还是文本标记。经过统计,对于普通的中文语音识别场景,解码到的空格标记占据了最终解码结果的近90%的位置,而空格标记并不会出现在最终的识别结果中。分析得到,每次解码出空格标记的过程都需要经过语言预测网络和联合网络模块的前向计算,这一特性浪费了大量的计算时间,进而导致语音转写模型的解码计算量大,速度低下。
发明内容
为解决现有技术的不足,实现加速语音转写模型的解码速度的目的,本发明采用如下的技术方案:
基于快速跳跃解码的语音转写识别训练方法,包括如下步骤:
S11,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成声学特征序列;
S12,将声学特征序列进行声学编码,输出声学编码状态序列,包括一系列的声学编码状态向量;
S13,将声学编码状态序列进行CTC解码,预测得到CTC概率分布矩阵,并计算CTC损失LCTC;
S14,将对应的文本标注训练数据进行语言预测,并计算得到文本编码状态序列,包括一系列的文本编码状态向量;
S15,将声学编码状态序列和文本编码状态序列组合,并输入联合网络,预测得到Transducer概率分布矩阵;
S16,根据解码预测得到的CTC概率分布矩阵,以及联合网络预测得到的Transducer概率分布矩阵,计算对齐Transducer损失LAL-Transducer,通过在原始Transducer损失函数中添加正则项,迫使联合网络预测到空格的位置与CTC解码预测的空格标记的位置对齐;
S17,将CTC损失LCTC和对齐Transducer损失LAL-Transducer相加得到联合损失LJoint=(1-λ)LCTC+λLAL-Transducer,λ表示对齐权重,根据两者的联合损失LJoint计算梯度,进行反向传播,其中λ的典型值为0.5;
S18,循环执行S12至S17,直至达到预设的训练结束条件,完成训练。
进一步地,所述S16中的对齐Transducer损失,包括如下步骤:
S161,根据CTC概率分布矩阵,计算预测空格的概率分布,在t时刻预测得到空格标记的概率:
其中,表示CTC解码过程的最后映射层在第t时刻,对应词表V中第j个单元的值,表示最后映射层在第t时刻,对应词表中空格标记位置的值,预测得到非空格标记的概率表示为/>
S162,构建Transducer概率图,用于对齐Transducer损失的计算,针对长度为T的声学编码状态向量和长度为U的文本编码状态向量,其概率图大小为长为T,宽为U+1的矩形,+1表示添加了一个额外的空格标记,概率图中只存在横向转移和纵向转移,横向转移表示在任意节点(t,u)预测得到一个空格标记,纵向转移表示在任意节点(t,u)预测得到一个非空格标记,图中任何一条从左下角开始到右上角结束的转移路径都是模型一条可行路径;
S163,对齐Transducer损失的函数:
其中,γ1和γ2分别是非空格对齐权重和空格对齐权重,P(At,u|x)表示Transducer概率图中经过节点(t,u)的所有可行路径的概率和;表示Transducer概率图中经过节点(t,u),并以此节点位置预测标记为非空格标记的所有可行路径的概率和;/>表示Transducer概率图中经过节点(t,u),并以此节点位置预测标记为空格标记的所有可行路径的概率和。
进一步地,所述对齐损失的函数计算中,各子项的计算过程如下:
P(At,u|x)=α(t,u)β(t,u)
其中,y(t,u)和分别表示在节点(t,u)位置预测为非空格标记和空格标记的概率;α(t,u)是前向变量,表示概率图中所有从起始点出发到达节点(t,u)的路径的概率和;β(t,u)是后向变量,表示所有从节点(t,u)出发,到达概率图中右上角结束标记停止的路径的概率和。为了高效的计算对齐Transducer损失,其在实际计算过程中应用了基于动态规划的前后向算法。
进一步地,所述S15中的联合网络,将声学编码状态序列和文本编码状态序列的特征维度拼接在一起的组合特征作为输入,输出为词表的大小。
进一步地,所述S15中的概率分布矩阵,是四维的张量的Transducer概率矩阵,第一维度表示批的大小B,第二维度表示声学编码状态向量的长度T,第三个维度为U+1,表示文本编码状态向量的长度U再加上一个空格标记,第四维度表示词表的大小V。
进一步地,所述S11中语音训练数据的特征提取,通过对时域下的语音波形信号加窗分帧后,进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,所述系数包括梅尔频率倒谱系数、梅尔滤波器组系数。
进一步地,所述S12中的声学编码,使用带有卷积前端模块的Transformer模型构建,包括卷积前端模块和Transformer编码层,卷积前端模块包括一组卷积层和线性映射层,卷积层将输入的声学特征序列计算和时序降采样后,将不同卷积层通道的声学特征进行拼接,使卷积层通道维度和声学特征维度整合到同一纬度,通过线性映射层进行线性变换,使卷积前端模块的输出匹配Transformer编码层的输入维度,即编码器的维度。
基于快速跳跃解码的语音转写识别解码方法,完成训练后,对语音数据进行解码,包括如下步骤:
S21,获取语音数据并提交处理器;
S22,对语音数据提取特征,得到声学特征序列;
S23,将声学特征序列进行声学编码,计算得到声学编码状态序列;
S24,将声学编码状态序列进行CTC解码,计算得到CTC概率分布矩阵,并计算在每一帧预测得到空格的概率
S25,如果预测得到空格的概率大于等于空格触发阈值/>则标记为非触发解码位置,并丢弃该声学编码状态向量,否则标记为触发解码位置,并将其声学编码状态向量按时间顺序拼接,构成声学触发解码状态序列,从声学触发解码状态序列,按时间顺序逐帧选择声学编码状态向量;训练过程中,为了追求快速计算,都是以序列的形式进行的,但是在解码过程中,当前模型针对语音识别任务必须进行逐帧(声学特征向量)的解码。因此都是按照时间顺序,一个声学向量接着一个向量的进行处理;
S26,将先前的语言预测器的隐藏层向量和上一时刻预测得到的触发解码位置标记,即非空格文本标记(如果先前没有预测出任何非空格文本标记,则输入<BLK>)进行语言预测,预测得到文本编码状态向量,并产生新的隐藏层向量;
S27,将文本编码状态向量与触发解码位置的声学编码状态向量组合,并输入联合网络,预测得到Transducer概率分布矩阵;
S28,基于Transducer概率分布矩阵,计算出当前位置预测得到的文本标记(可能是空格标记或者非空格标记),并使用BeamSearch搜索算法对可能的解码路径进行更新;
S29,重复S25至S28步骤,直至达到BeamSearch搜索的停止条件为止,并输出概率最大的解码路径作为最终解码结果。
进一步地,所述S25中划定固定长度的窗口,例如触发位置的前后各一帧,将窗口内的非触发帧也标记为触发帧。该方法用来避免关键帧的丢失进而导致模型的解码准确率下降。
基于快速跳跃解码的语音转写识别系统,包括:依次相互连的声学特征提取模块、声学编码器、CTC解码器、语言预测器、联合网络模块和联合损失计算模块;
所述声学特征提取模块,训练阶段,用于提取一系列语音训练数据的特征,构成声学特征序列;解码阶段,用于提取一系列语音数据的特征,构成声学特征序列;
所述声学编码器,用于输入声学特征序列转变为声学编码状态序列;
所述CTC解码器,基于声学编码状态序列,预测CTC概率分布,训练阶段,计算CTC损失;解码阶段,基于每个待解码的声学编码状态向量,预测当前位置是否是空格标记,如果是,则直接跳过,否则,标记为触发解码位置;
所述语言预测器,用于建模文本标记之间的时序依赖关系,训练阶段,将对应的文本标注训练数据进行语言预测,并计算得到文本编码状态序列;解码阶段,语言预测器进行逐步的解码,解码的每步都采用先前预测得到的非空格标记和隐藏层向量作为输入,计算得到文本编码状态向量,并更新隐藏层向量;
所述联合网络模块,将声学编码状态序列和文本编码状态序列组合,并输入联合网络模块,训练阶段,预测得到Transducer概率分布;解码阶段,基于Transducer概率分布,使用BeamSearch搜索算法对可能的解码路径进行更新;
所述联合损失计算模块,训练阶段,根据CTC解码器得到的CTC概率分布,以及联合网络模块预测得到的Transducer概率分布矩阵,计算对齐Transducer损失,使联合网络模块预测到空格的位置与CTC解码器预测的空格标记的位置对齐,将CTC解码器计算的CTC损失和对齐Transducer损失相加得到联合损失,根据联合损失计算梯度,进行反向传播。
所述CTC解码器,包括一层线性映射层,其输入为声学编码状态向量的维度,输出为词表的大小。
所述语言预测器,包括词嵌入表示模块,以及循环神经网络,所述循环神经网络包括多层单向循环神经网络或循环神经网络的变体结构(如门控循环神经网络和长短时记忆网络)。
所述语言预测器是基于Transformer的文本编码器。
所述联合网络模块,包括使用Tanh激活函数进行连接的两层线性映射层堆叠而成。
本发明的优势和有益效果在于:
本发明将CTC解码器引入到原始的语音转写模型中,利用对齐Transducer损失函数,将CTC解码器预测的空格标记以及文本标记的位置与联合网络模块预测的空格标记以及文本标记的位置进行了对齐。在解码过程中,系统可通过简单的CTC解码器,提前预测得到待解码帧是否是空格标记,而不需要经过复杂的语言预测器和联合网络的前向计算,如果是空格标记则可以跳过该帧。如果该帧标记为非空格标记或者处于触发窗口中,则在该帧进行解码。这一操作使得系统能够避免冗余的计算,获得至少3倍的解码速度提升,并且几乎没有性能损失。
附图说明
图1是本发明的整体结构以及训练过程示意图。
图2是本发明中对齐损失计算的结构示意图。
图3是本发明模型解码过程的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
基于快速跳跃解码的语音转写识别模型及训练方法,如图1所示,包括以下步骤:
步骤1,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成声学特征序列;
语音识别的目标是将连续语音信号转化为文字序列,在识别过程中,通过对时域下的波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)。典型地采用80维的FBANK特征。
步骤2,将声学特征序列输入声学编码器中,输出声学编码状态序列;
典型地采用Transformer结构作为声学编码器,声学编码器包含一个卷积前端模块和12层Transformer编码层。其中卷积前端模块包含有两个层卷积和一个线性映射层,卷积核的大小均为3×3(两个堆叠的3×3卷积),第一层卷积的通道数与输入特征维度匹配,输出通道数等于模型维度,第二次卷积的输入通道数与输出通道数均等于模型维度,两层卷积的步长均为2,因此每层卷积降采样2倍,两层卷积近似将输入特征序列降采样了4倍,然后将通道维度和特征维度整合到同一纬度,然后通过线性变换以使得模块输出匹配编码器的输入维度。在其他实施例中,也可以以使用多层单向或者双向循环神经网络和多层卷积编码器以及以上描述的模型结构的组合。
步骤3,将声学编码状态序列输入到CTC解码模块中,预测得到CTC概率分布矩阵,并进一步计算CTC损失函数LCTC;
在本实施例中,所述CTC解码器模块仅包含一层线性映射,其输入等于声学编码状态向量的维度,输出等于词表的大小。
步骤4,将文本序列输入到语言预测器中,并计算得到文本状态编码序列;
语言预测器类似于语言模型,在本实施例中,其包含一层词嵌入表示层(Embedding)和两层单向的长短时记忆网络。语言预测器用来建模文本标记之间的时序依赖关系。
步骤5,将声学编码状态序列和文本编码状态序列组合输入到联合网络模块中,并预测得到Transducer概率分布矩阵;
联合网络模块由两层线性映射层堆叠组成,中间使用Tanh激活函数进行连接。联合网络模块采用按照特征维度拼接在一起的组合特征作为输入,输出大小等于词表的大小。在其他的实施例中,联合网络可由其他更加复杂的方式构成,但是其输入和输出保持不变。Transducer概率矩阵为一个四维的张量,其第一维度表示批的大小B;第二维度表示声学编码状态向量的长度T;第三个维度为U+1,表示文本编码状态向量的长度U再加上一个空格标记;最后一个维度表示词表的大小V。
步骤6,依赖预测得到的CTC概率分布矩阵和Transducer概率分布矩阵,计算对齐Transducer损失LAL-Transducer;
如图2所示,对齐Transducer损失的基本原理是通过在原始Transducer损失函数中添加正则项,来迫使语音转写模型预测到空格的位置能够与CTC解码器预测的空格标记的位置对齐。为了实现这一功能,首先应该针对CTC概率分布矩阵来计算CTC解码器预测空格的概率分布,其中,CTC解码器在t时刻预测得到空格标记的概率可以表示为(表示CTC解码器最后映射层在第t时刻,对应词表V中第j个单元的值;/>则表示最后映射层在第t时刻对应词表中空格标记位置的数值):
那么预测得到非空格标记的概率可以表示为
对齐Transducer损失的计算需要构建一个Transducer概率图,针对长度为T的声学编码状态序列和长度为U的文本编码状态向量,其概率图大小为长为T,宽为U+1(添加了一个额外的空格标记)的矩形。概率图中只存在横向转移和纵向转移,其中横向转移表示在任意节点(t,u)预测得到一个空格标记,纵向转移表示在任意节点(t,u)预测得到一个非空格标记。图中任何一条从左下角开始到右上角结束的转移路径都是模型一条可行路径。
对齐Transducer损失定义为以下形式:
其中γ1和γ2分别是非空格对齐权重和空格对齐权重,本实施例中,其值均在0.0001~0.01范围内。损失函数计算中的子项可以被进一步拆解,具体计算过程如下:
P(At,u|x)=α(t,u)β(t,u)
其中,P(At,u|x)表示Transducer概率图中经过节点(t,u)的所有可行路径的概率和;表示Transducer概率图中经过节点(t,u),并以此节点位置预测标记为非空格标记的所有可行路径的概率和;/>表示Transducer概率图中经过节点(t,u),并以此节点位置预测标记为空格标记的所有可行路径的概率和;y(t,u)和/>分别表示在节点(t,u)位置预测为非空格标记和空格标记的概率;α(t,u)是前向变量,表示概率图中所有从起始点出发到达节点(t,u)的路径的概率和;β(t,u)是后向变量,表示所有从节点(t,u)出发,到达概率图中右上角结束标记停止的路径的概率和。为了高效的计算对齐Transducer损失,其在实际计算过程中应用了基于动态规划的前后向算法。
步骤7,将CTC损失LCTC和对齐Transducer损失LAL-Transducer相加得到联合损失LJoint=LCTC+LAL-Transducer,根据两者的联合损失LJoint计算梯度,并进行反向传播;
由于CTC损失的权重和对齐Transducer损失的权重在数值上很接近,在本实施例中没有对齐进行加权求和,等效于权重为0.5。在其他的实施例中可以设置不同的权重。
步骤8,循环执行步骤1至步骤7,直至达到预设的训练结束条件,完成训练。
实施例二:
如图3所示,基于快速跳跃解码的语音转写识别模型解码方法。
解码步骤1,从文件路径中读取语音文件并提交给处理器;
处理器可以是智能手机,云端服务器或者其他嵌入式设备。
解码步骤2,对输入语音提取特征,得到声学特征序列;
语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK),特征处理方法与训练过程保持一致。
解码步骤3,将语音特征序列依次输入声学编码器,计算得到声学编码状态序列;
解码步骤4,将声学编码状态序列输入到CTC解码器中,计算得到CTC概率分布矩阵,并进一步计算在每一帧预测得到空格的概率
解码步骤5,如果预测得到空格的概率大于等于空格触发阈值/>则标记为非触发解码位置,并丢弃该声学编码状态向量,将所有的触发解码位置(预测得到空格的概率小于触发阈值)的声学编码状态向量按照时间顺序拼接起来,构成声学触发解码状态序列;
使用CTC解码器对声学编码状态序列进行提前预测,如果预测结果为空格,并概率大于预先设定的触发阈值,则将该帧跳过。在本实施例中,设定触发阈值为0.98,。解码过程实际上仅在触发位置应用BeamSearch方法进行解码。为了避免关键帧的丢失进而导致模型的解码准确率下降,可以划定一个固定长度的窗口,其典型值为触发位置的前后各一帧,即窗口内的非触发帧也标记为触发帧。
解码步骤6,从声学触发解码状态序列按照时间顺序逐帧选择声学编码状态向量;
解码步骤7,将先前的语言预测器的隐藏层向量和上一时刻预测得到的触发解码位置标记,即非空格文本标记(如果先前没有预测出任何非空格文本标记,则输入<BLK>)进行语言预测,预测得到文本编码状态向量,并产生新的隐藏层向量;
解码步骤8,将文本编码状态向量和声学编码状态向量进行组合,输入到联合网络模块中,并预测得到Transducer概率分布;
解码步骤9,基于Transducer概率分布,使用BeamSearch搜索算法来对可能的解码路径进行更新;
在本实施例中,典型的BeamSearch搜索方法,设定搜索宽度为5。并且在解码过程中,对于拥有相同前缀标记的路径进行概率融合,融合方法为对两条不同路径的求概率和,并更新合并之后的路径的概率值。
解码步骤10,重复解码步骤4至解码步骤9,直至达到BeamSearch搜索的停止条件为止,并输出概率最大的解码路径作为最终解码结果。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (9)
1.基于快速跳跃解码的语音转写识别训练方法,其特征在于包括如下步骤:
S11,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成声学特征序列;
S12,将声学特征序列进行声学编码,输出声学编码状态序列;
S13,将声学编码状态序列进行解码,得到概率分布,并计算损失LCTC;
S14,将对应的文本标注训练数据进行语言预测,并计算得到文本编码状态序列;
S15,将声学编码状态序列和文本编码状态序列组合,并输入联合网络,预测得到概率分布;
S16,根据解码预测得到的概率分布,以及联合网络预测得到的概率分布,计算对齐损失LAL-Transducer,使联合网络预测到空格的位置与解码预测的空格标记的位置对齐,对齐损失包括如下步骤:
S161,根据解码预测得到的概率分布,计算预测空格的概率分布,在t时刻预测得到空格标记的概率:
其中,表示解码过程的最后映射层在第t时刻,对应词表V中第j个单元的值,/>表示最后映射层在第t时刻,对应词表中空格标记位置的值,预测得到非空格标记的概率表示为
S162,构建概率图,用于对齐损失的计算,针对长度为T的声学编码状态向量和长度为U的文本编码状态向量,其概率图大小为长为T,宽为U+1的矩形,+1表示添加了一个额外的空格标记,概率图中存在横向转移和纵向转移,横向转移表示在任意节点(t,u)预测得到一个空格标记,纵向转移表示在任意节点(t,u)预测得到一个非空格标记;
S163,对齐损失的函数:
其中,γ1和γ2分别是非空格对齐权重和空格对齐权重,P(At,u|x)表示概率图中经过节点(t,u)的所有可行路径的概率和;表示概率图中经过节点(t,u),并以此节点位置预测标记为非空格标记的所有可行路径的概率和;/>表示概率图中经过节点(t,u),并以此节点位置预测标记为空格标记的所有可行路径的概率和;
S17,将损失LCTC和对齐损失LAL-Transducer相加得到联合损失LJoint=(1-λ)LCTC+λLAL-Transducer,λ表示对齐权重,根据联合损失LJoint计算梯度,进行反向传播;
S18,循环执行S12至S17,直至达到训练结束条件,完成训练。
2.如权利要求1所述的基于快速跳跃解码的语音转写识别训练方法,其特征在于所述对齐损失的函数计算中,各子项的计算过程如下:
P(At,u|x)=α(t,u)β(t,u)
其中,y(t,u)和分别表示在节点(t,u)位置预测为非空格标记和空格标记的概率;α(t,u)是前向变量,表示概率图中所有从起始点出发到达节点(t,u)的路径的概率和;β(t,u)是后向变量,表示所有从节点(t,u)出发,到达概率图中右上角结束标记停止的路径的概率和。
3.如权利要求1所述的基于快速跳跃解码的语音转写识别训练方法,其特征在于所述S15中的联合网络,将声学编码状态序列和文本编码状态序列的特征维度拼接在一起的组合特征作为输入,输出为词表的大小。
4.如权利要求1所述的基于快速跳跃解码的语音转写识别训练方法,其特征在于所述S15中联合网络预测得到的概率分布,是四维的张量的概率矩阵,第一维度表示批的大小B,第二维度表示声学编码状态向量的长度T,第三个维度为U+1,表示文本编码状态向量的长度U再加上一个空格标记,第四维度表示词表的大小V。
5.如权利要求1所述的基于快速跳跃解码的语音转写识别训练方法,其特征在于所述S11中语音训练数据的特征提取,通过对时域下的语音波形信号加窗分帧后,进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,所述系数包括梅尔频率倒谱系数、梅尔滤波器组系数。
6.如权利要求1所述的基于快速跳跃解码的语音转写识别训练方法,其特征在于所述S12中的声学编码,使用带有卷积前端模块的Transformer模型构建,包括卷积前端模块和Transformer编码层,卷积前端模块包括一组卷积层和线性映射层,卷积层将输入的声学特征序列计算和时序降采样后,将卷积层通道维度和声学特征维度整合到同一纬度,通过线性映射层进行线性变换,使卷积前端模块的输出匹配Transformer编码层的输入维度。
7.基于快速跳跃解码的语音转写识别解码方法,其特征在于包括如下步骤:
S21,获取语音数据;
S22,对语音数据提取特征,得到声学特征序列;
S23,将声学特征序列进行声学编码,计算得到声学编码状态序列;
S24,将声学编码状态序列进行解码,计算得到概率分布,并计算预测得到空格的概率;
S25,如果预测得到空格的概率大于等于空格触发阈值,则标记为非触发解码位置,否则标记为触发解码位置,并将其声学编码状态向量按时间顺序逐帧选择;
S26,将语言预测的隐藏层向量和预测得到的触发解码位置标记,进行语言预测,预测得到文本编码状态向量,并产生新的隐藏层向量;
S27,将文本编码状态向量与触发解码位置的声学编码状态向量组合,并输入联合网络,预测得到概率分布;
S28,基于解码预测得到的概率分布,计算出当前位置预测得到的文本标记,并使用搜索算法对解码路径进行更新;
S29,重复S25至S28步骤,直至达到搜索的停止条件为止,并输出概率最大的解码路径作为最终解码结果。
8.如权利要求7所述的基于快速跳跃解码的语音转写识别解码方法,其特征在于所述S25中划定固定长度的窗口,将窗口内的非触发帧也标记为触发帧。
9.基于快速跳跃解码的语音转写识别系统,其特征在于包括:依次相互连的声学特征提取模块、声学编码器、解码器、语言预测器、联合网络模块和联合损失计算模块;
所述声学特征提取模块,训练阶段,用于提取一系列语音训练数据的特征,构成声学特征序列;解码阶段,用于提取一系列语音数据的特征,构成声学特征序列;
所述声学编码器,用于输入声学特征序列转变为声学编码状态序列;
所述解码器,基于声学编码状态序列,预测概率分布,训练阶段,计算损失;解码阶段,基于每个待解码的声学编码状态向量,预测当前位置是否是空格标记,如果是,则直接跳过,否则,标记为触发解码位置;
所述语言预测器,用于建模文本标记之间的时序依赖关系,训练阶段,将对应的文本标注训练数据进行语言预测,并计算得到文本编码状态序列;解码阶段,语言预测器进行逐步的解码,解码的每步都采用先前预测得到的非空格标记和隐藏层向量作为输入,计算得到文本编码状态向量,并更新隐藏层向量;
所述联合网络模块,将声学编码状态序列和文本编码状态序列组合,并输入联合网络模块,训练阶段,预测得到概率分布;解码阶段,基于联合网络预测得到的概率分布,使用搜索算法对解码路径进行更新;
所述联合损失计算模块,训练阶段,根据解码器得到的概率分布,以及联合网络模块预测得到的概率分布,计算对齐损失,使联合网络模块预测到空格的位置与解码器预测的空格标记的位置对齐,将解码器计算的损失和对齐损失相加得到联合损失,根据联合损失计算梯度,进行反向传播。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110698291.6A CN113488028B (zh) | 2021-06-23 | 2021-06-23 | 基于快速跳跃解码的语音转写识别训练解码方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110698291.6A CN113488028B (zh) | 2021-06-23 | 2021-06-23 | 基于快速跳跃解码的语音转写识别训练解码方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113488028A CN113488028A (zh) | 2021-10-08 |
CN113488028B true CN113488028B (zh) | 2024-02-27 |
Family
ID=77935945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110698291.6A Active CN113488028B (zh) | 2021-06-23 | 2021-06-23 | 基于快速跳跃解码的语音转写识别训练解码方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488028B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113948085B (zh) * | 2021-12-22 | 2022-03-25 | 中国科学院自动化研究所 | 语音识别方法、系统、电子设备和存储介质 |
CN115019782B (zh) * | 2022-06-02 | 2024-07-16 | 北京工业大学 | 一种基于ctc多层损失的语音识别方法 |
CN116682432B (zh) * | 2022-09-23 | 2024-05-31 | 荣耀终端有限公司 | 语音识别方法、电子设备及可读介质 |
CN116682420B (zh) * | 2022-12-30 | 2024-04-05 | 荣耀终端有限公司 | 语音识别方法、电子设备及可读介质 |
CN117219078A (zh) * | 2023-10-20 | 2023-12-12 | 深圳市宏泰智能创意电子科技有限公司 | 基于人工智能的摆件语音识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111415667A (zh) * | 2020-03-25 | 2020-07-14 | 极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
CN112037798A (zh) * | 2020-09-18 | 2020-12-04 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
CN112509564A (zh) * | 2020-10-15 | 2021-03-16 | 江苏南大电子信息技术股份有限公司 | 基于连接时序分类和自注意力机制的端到端语音识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7299989B2 (en) * | 2000-12-15 | 2007-11-27 | Symbol Technologies, Inc. | System and method for decoding and encoding compensated optical codes |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
-
2021
- 2021-06-23 CN CN202110698291.6A patent/CN113488028B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111415667A (zh) * | 2020-03-25 | 2020-07-14 | 极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
CN112037798A (zh) * | 2020-09-18 | 2020-12-04 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
CN112509564A (zh) * | 2020-10-15 | 2021-03-16 | 江苏南大电子信息技术股份有限公司 | 基于连接时序分类和自注意力机制的端到端语音识别方法 |
Non-Patent Citations (1)
Title |
---|
编码理论、信道理论与技术、编译码器;电子科技文摘(第09期);37-41 * |
Also Published As
Publication number | Publication date |
---|---|
CN113488028A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113488028B (zh) | 基于快速跳跃解码的语音转写识别训练解码方法及系统 | |
US11776531B2 (en) | Encoder-decoder models for sequence to sequence mapping | |
Le et al. | Deep shallow fusion for RNN-T personalization | |
Miao et al. | Online Hybrid CTC/Attention Architecture for End-to-End Speech Recognition. | |
Sundermeyer et al. | Comparison of feedforward and recurrent neural network language models | |
Tripathi et al. | Monotonic recurrent neural network transducer and decoding strategies | |
CN111415667A (zh) | 一种流式端到端语音识别模型训练和解码方法 | |
CN114787914A (zh) | 用异步解码器流式传输端到端语音识别的系统和方法 | |
CN111382584A (zh) | 文本翻译方法、装置、可读存储介质和计算机设备 | |
CN113257248B (zh) | 一种流式和非流式混合语音识别系统及流式语音识别方法 | |
Li et al. | End-to-end speech recognition with adaptive computation steps | |
CN113488029B (zh) | 基于参数共享非自回归语音识别训练解码方法及系统 | |
US11450310B2 (en) | Spoken language understanding | |
Zhang et al. | Faster, simpler and more accurate hybrid asr systems using wordpieces | |
US11715461B2 (en) | Transformer-based automatic speech recognition system incorporating time-reduction layer | |
Chen et al. | Sequence discriminative training for deep learning based acoustic keyword spotting | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
KR102344218B1 (ko) | 음성 인식 시스템 및 음성 인식 시스템의 학습 방법 | |
Punjabi et al. | Joint ASR and language identification using RNN-T: An efficient approach to dynamic language switching | |
CN115132175A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
Yang et al. | A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition | |
CN112530401A (zh) | 一种语音合成方法、系统及装置 | |
CN115408494A (zh) | 一种融合多头注意力对齐的文本匹配方法 | |
Soltau et al. | Reducing the computational complexity for whole word models | |
CN113793599B (zh) | 语音识别模型的训练方法和语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |