CN112037798B - 基于触发式非自回归模型的语音识别方法及系统 - Google Patents
基于触发式非自回归模型的语音识别方法及系统 Download PDFInfo
- Publication number
- CN112037798B CN112037798B CN202010987375.7A CN202010987375A CN112037798B CN 112037798 B CN112037798 B CN 112037798B CN 202010987375 A CN202010987375 A CN 202010987375A CN 112037798 B CN112037798 B CN 112037798B
- Authority
- CN
- China
- Prior art keywords
- acoustic
- sequence
- module
- loss
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000005070 sampling Methods 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000008859 change Effects 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 15
- 230000001960 triggered effect Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000003190 augmentative effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了基于触发式非自回归模型的语音识别方法及系统,方法包括:S11,提取声学特征序列;S12,生成卷积降采样序列;S13,生成声学编码状态序列;S14,计算预测标记的概率分布和联结时序损失;S15,计算尖峰的位置和个数;S16,声学解码器计算交叉熵损失;S17,根据联结时序损失和交叉熵损失的联合损失计算梯度,进行反向传播;S18,循环执行S12至S17,直至完成训练;系统包括:依次相互连接的声学特征序列提取模块、卷积降采样模块、声学编码器、联结时序分类模块、声学解码器、联合损失计算模块,联结时序分类模块包括线性变化模块、联结时序损失计算模块、尖峰抽取模块。
Description
技术领域
本发明涉及电子信号处理技术领域,尤其是涉及了基于触发式非自回归模型的语音识别方法及系统。
背景技术
语音识别作为人机交互的入口,是人工智能领域中一个重要的研究方向。端到端语音识别丢弃了混合语音识别模型依赖的发音词典、语言模型和解码网络,实现了音频特征序列到文字序列的直接转换。作为序列到序列的模型的代表,语音转换器(Speech-Transformer)具有极强的序列建模能力。模型采用整段语音作为输入,经过编码器将输入语音编码为高层次的特征表示;解码器从起始符号开始,在编辑器输出的基础上,逐步的预测出对应的文本序列,直到预测到结束标记为止。这种解码方法我们称之为自回归式解码。自回归式解码依赖于过去时间生成的标记,这种时序依赖特性严重影响了解码的效率,并且很难通过GPU并行计算来进行加速,使得自回归模型部署于实时性要求比较高的场景有了一定的局限性。针对这一问题,本发明提出了一种基于触发式非自回归模型的语音识别方法。
发明内容
为解决现有技术的不足,提高语音识别解码的效率,提高语音识别实时性的目的,本发明采用如下的技术方案:
基于触发式非自回归模型的语音识别方法,包括如下步骤:
S11,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成声学特征序列;
S12,将声学特征序列输入卷积降采样模块中,计算并输出卷积降采样序列;
S13,将卷积降采样序列输入声学编码器中,输出声学编码状态序列;
S14,将声学编码状态序列输入线性变换层,并结合文本标注训练数据计算联结时序损失,所述线性变换层用于计算得到预测标记的概率分布;
S15,根据预测标记的概率分布计算尖峰的位置和个数,非空格标记的概率大于触发阈值时,标记为一个尖峰位置,相邻的尖峰仅保留第一个,并存储尖峰位置;
S16,将尖峰位置对应的触发声学编码状态序列和声学编码状态序列输入声学解码器,并结合文本标注训练数据计算交叉熵损失;
S17,将联结时序损失和交叉熵损失进行加权,根据两者的联合损失计算梯度,进行反向传播,优化触发式非自回归模型;
S18,循环执行S12至S17,直至达到预设的训练结束条件,完成训练。
将声学编码状态序列输入一个线性变换层,计算得到预测标记的概率分布,并计算联结时序损失,辅助模型收敛,根据尖峰位置来获得初始化的解码器输入,尖峰个数表示了语句中所包含的标记个数,避免了冗余计算,避免了时序依赖,提高了解码速度,提升了解码的精度。
所述S11,通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,所述系数是梅尔频率倒谱系数或梅尔滤波器组系数。
所述S12,卷积降采样模块采用两层二维卷积,卷积核大小均为3×3,步长均为2,将输入特征序列降采样了4倍。
所述编码器是基于自注意力机制的声学编码器,卷积降采样模块将语音特征序列转换为卷积降采样序列后,对序列中的特征加上正余弦位置编码,正余弦位置编码包括偶数位置编码PE(t,2i)=sin(t/100002i/d_model)和奇数位置编码PE(t,2i+1)=cos(t/100002i/d_model),t表示转换后的语音特征的时间步,i表示转换后的语音特征的第i个位置,d_model表示维度。
所述声学编码器是基于自注意力机制的声学编码器,包括多层自注意力机制的编码模块,每个编码模块包括多头自注意力层和前馈网络层,所述多头自注意力层机制的实现如下:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
MultiHeadAttention表示多头注意力机制,将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度,再通过前馈网络得到输出结果,Wi Q、WO表示可以学习的权重矩阵,Q=K=V=X,均表示第一层自注意力编码模块输入的卷积降采样序列,或者前一层自注意力编码模块的输出,dk是向量K的维度;
所述前馈网络层计算的实现如下:
FFN(x)=GLU(xW1+b1)W2+b2
x表示前馈网络层的输入,W1和W2表示权重矩阵,b1和b2表示权重偏置向量;
所述声学解码器包括多层基于自注意力机制的解码模块,每个解码模块包括多头自注意力层、多头源注意力层和前馈网络层,所述解码模块的多头自注意力层机制和前馈网络层计算的实现与所述声学编码器一致,第一层的输入为所述触发声学编码状态序列,或者前一层自注意力编码模块的输出,多头源注意力层机制与多头自注意力机制不同处在于,多头源注意力层机制的K和V第一层的输入为所述声学编码状态序列。
所述S15,触发阈值的范围在0.5至0.8之间,避免触发阈值过低时引起触发尖峰过多,触发阈值过高时漏掉一些触发尖峰位置,引起最终解码结果漏字。
所述S17,联合损失函数L=αLCTC+(1-α)LCE,α表示联结时序损失在联合损失函数中的权重,LCTC表示联结时序损失,LCE表示交叉熵损失,将α设为0.5,更好的优化CTC模块和解码器部分,避免优化过程因失衡导致优化效果变差。
完成训练后,对语音数据进行解码,包括如下步骤:
S21,获取语音数据并提交处理器;
S22,对语音数据提取特征,得到语音特征序列;
S23,将语音特征序列依次通过卷积降采样模块和声学编码器,计算得到声学编码状态序列;
S24,将声学编码状态序列通过线性变换层,计算标记的概率分布,并进一步得到每个位置属于非空格标记的概率;
S25,非空格标记的概率大于触发阈值时,标记为一个尖峰位置,相邻的尖峰仅保留第一个,存储尖峰的位置;
S26,将尖峰位置对应的触发声学编码状态序列输入声学解码器,声学解码器输出的每个位置的最高概率所表示的标记相连接,至结束标记为止,以此表示目标序列,解码完成。声学解码器输入的序列的长度不会一直等于真实文本的长度,往往会略长于真实文本,因此,增加了一个结束标记,当连接最大概率标记的过程中遇到了结束标记,就在结束标记位置停止。
为声学解码器的输入扩充空白向量,避免解码过程中的漏字;
基于触发式非自回归模型的语音识别系统,包括:依次相互连接的声学特征序列提取模块、卷积降采样模块、声学编码器、联结时序分类模块、声学解码器、联合损失计算模块,所述联结时序分类模块包括线性变化模块、联结时序损失计算模块、尖峰抽取模块,其中,声学编码器又与声学解码器连接,线性变化模块分别与声学编码器、联结时序损失计算模块和尖峰抽取模块连接,尖峰抽取模块与声学解码器连接,联结时序损失计算模块与联合损失计算模块连接;
声学特征序列提取模块,用于提取一系列语音训练数据或语音数据的特征,构成声学特征序列;
卷积降采样模块,用于将声学特征序列降采样为卷积降采样序列;
声学编码器,用于将卷积降采样序列编码为声学编码状态序列;
线性变化模块,用于计算得到预测标记的概率分布;
联结时序损失计算模块,用于结合预测标记的概率分布和文本标注训练数据,计算联结时序损失;
尖峰抽取模块,根据预测标记的概率分布计算尖峰的位置和个数,非空格标记的概率大于触发阈值时,标记为一个尖峰位置,相邻的尖峰仅保留第一个,并存储尖峰位置,生成尖峰位置对应的触发声学编码状态序列;
声学解码器,用于将触发声学编码状态序列和声学编码状态序列作为输入,并结合文本标注训练数据计算交叉熵损失;
联合损失计算模块,用于将联结时序损失和交叉熵损失进行加权,根据两者的联合损失计算梯度,进行反向传播;
系统训练部分,将语音训练数据、文本标注训练数据输入系统进行循环训练,直至达到预设的训练结束条件,完成训练;
系统解码部分,将语音数据输入系统,依次经过声学特征序列提取模块、卷积降采样模块、声学编码器、线性变化模块、尖峰抽取模块、声学解码器,由声学解码器输出的每个位置的最高概率所表示的标记相连接,至结束标记为止,以此表示目标序列,完成解码。
本发明的优势和有益效果在于:
本发明避免了冗余计算,避免了时序依赖,提高了解码速度,提升了解码的精度;将声学编码状态序列输入一个线性变换层,计算得到预测标记的概率分布,并计算联结时序损失,辅助模型收敛,根据尖峰位置来获得初始化的解码器输入,尖峰个数表示了语句中所包含的标记个数,避免了冗余计算。
附图说明
图1是本发明的整体结构示意图。
图2是本发明中卷积降采样模块结构示意图。
图3是本发明中自注意力编码器结构示意图。
图4是本发明中自注意力解码器结构示意图。
图5是本发明中解码示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
实施例一:
流式端到端语音识别模型及训练方法,基于自注意力变换网络构建的模型包括基于自注意力机制的声学编码器、基于自注意力机制的解码器,如图1-4所示,包括以下步骤:
步骤1,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成语音特征序列;
语音识别的目标是将连续语音信号转化为文字序列,在识别过程中,通过对时域下的波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)。
步骤2,将语音特征序列输入卷积降采样模块中进行计算,输出卷积降采样序列;
降采样过程采用两层2维卷积对输入的语音特征序列进行处理,其中卷积核的大小均为3×3(两个堆叠的3×3卷积),第一层卷积的通道数与输入特征维度匹配,输出通道数等于模型维度,第二次卷积的输入通道数与输出通道数均等于模型维度,两层卷积的步长均为2,因此每层卷积降采样2倍,两层卷积近似将输入特征序列降采样了4倍,卷积的输出是4维特征,模块将通道维度和特征维度整合到同一纬度,然后通过线性变换以使得模块输出匹配编码器的输入维度,由于编码器是基于自注意力机制的声学编码器,因此对转换后的特征加上正余弦位置编码,正余弦位置编码包括偶数位置编码PE(t,2i)=sin(t/100002i/d_model),奇数位置编码PE(t,2i+1)=cos(t/100002i/d_model),其中t表示处理后的语音特征的时间步,i表示处理后的语音特征的第i个位置,d_model表示模型的维度。
步骤3,将卷积降采样序列输入一个基于注意力机制的序列到序列模型的编码器中,输出声学编码状态序列;
声学编码器采用的是基于自注意力机制的声学编码器,在其他实现中,编码器可以使用基于长短时记忆网络(LSTM)等其他类型的编码器来代替,而基于自注意力机制的声学编码器,由6层或者12层的基于自注意力机制的编码模块堆叠构成,每个模块包含一个多头自注意力层(Multi-Head Attention)和一个前馈网络层(Feed-Forward Network),通过经验参数,采用4或者8个注意力头,前馈网络层包含两层线性变换,线性层之间使用非线性激活函数,根据经验使用门控线性单元(GLU)作为激活函数。
多头注意力机制的实现为:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
其中MultiHeadAttention表示多头注意力机制,其将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度,然后通过前馈网络FFN得到输出结果,公式中的Wi Q、WO都是可以学习的权重矩阵,对于自注意力编码模块,Q=K=V=X,均表示第一层自注意力编码模块输入的卷积降采样序列,或者前一层自注意力编码模块的输出,dk是向量K的维度(等于X的维度);
前馈计算的实现为:
FFN(x)=GLU(xW1+b1)W2+b2
x表示前馈网络层的输入,W1和W2表示权重矩阵,b1和b2表示权重偏置向量。
步骤4,将声学编码状态序列输入一个线性变换层,并结合文本标注训练数据计算联结时序损失(CTC损失);
CTC部分的线性变换层的输入是模型维度,输出是词表大小,线性变换的输出通过Softmax函数计算得到预测标记的概率分布。
步骤5,根据步骤4中线性层预测的空格概率,计算尖峰概率的位置和个数,非空格的概率通过1减去空格的概率计算得到,非空格概率大于一个阈值,即标记一个尖峰位置,相邻的尖峰仅保留第一个,并存储尖峰的位置;
根据经验设定计算尖峰的阈值范围在0.5~0.8之间,当非空格概率大于这一阈值,即可被标记为尖峰,尖峰的位置通常位于发音词的中间,具有一定的初始信息,尖峰的个数表示了输入语音中标记的个数。当触发阈值低于0.5时,会引起触发尖峰过多,当触发阈值高于0.8时,会漏掉一些触发尖峰位置,引起最终解码结果漏字。
步骤6,使用尖峰位置对应的触发声学编码状态序列和声学编码器输出的声学编码状态序列作为解码器的输入,根据解码器的输出概率结合文本标注训练数据计算交叉熵损失;
基于自注意力机制的解码器,由6层基于自注意力机制的解码模块构成,每个模块包含一个多头自注意力层、一个多头源注意力层和一个前馈网络层。其中多头自注意力层和多头源注意力层均包含4个注意力头;前馈网络层,包含两层线性连接,第一层线性层的输出经过门控线性单元作为非线性激活函数,不同于自回归模型结构,触发式非自回归模型的训练过程中不再使用Mask在每一训练步遮蔽后面的时序信息。
自注意力机制和前馈层的计算与编码器端完全一致,其第一层输入是触发声学编码状态序列,后续层的输入是前一层的输出,源注意力机制的计算与自注意力机制相同,不同之处在于源注意力机制的K和V来自于声学解码器输出的声学编码状态序列,源注意力机制的Q仍与自注意力机制的Q相同。
步骤7,将步骤4中的联结时序损失和步骤6的交叉熵损失进行加权,并根据联合损失计算梯度,并进行反向传播,优化模型;
公式表示如下:
L=αLCTC+(1-α)LCE
α表示联结时序损失在联合损失函数中的权重,L表示联合损失函数,LCTC表示联结时序损失(CTC损失),LCE表示交叉熵损失,通过实验表明,将α设置为0.5时效果最好,此时CTC模块和解码器部分都能被很好地优化,避免优化过程因失衡导致优化效果变差。
步骤8,循环执行步骤2-7,直至达到预设的训练结束条件,得到训练好的非自回归端到端语音识别模型,至此完成模型训练。
实施例二:
如图5所示,流式端到端语音识别模型的解码方法。
解码步骤1,从文件路径中读取语音文件并提交给处理器;
处理器可以是智能手机,云端服务器或者其他嵌入式设备。
解码步骤2,对输入语音提取特征,得到语音特征序列;
语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK),特征处理方法与训练过程保持一致。
解码步骤3,将语音特征序列依次通过卷积降采样模块和编码器,计算得到编码状态序列;
解码步骤4,将编码状态序列通过CTC部分的线性变换,并计算标记的概率分布,进一步得到编码序列的每个位置属于非空格标记的概率;
解码步骤5,如果上述非空格概率大于预先设定的阈值,即被标记为触发尖峰位置,如果两个尖峰相邻仅保留第一个,记录触发尖峰位置;
解码器的输入可以扩充3~4个空白向量,来避免解码过程中漏字;
解码步骤6,将触发尖峰位置对应的声学编码序列作为解码器的输入,解码器输出的每个位置的最高概率所表示的标记从左到右连接起来(到结束标记为止)即表示目标序列,结束标记标志着文本的最后一个位置,至此,解码过程全部结束。
假设解码器的输入是一个长度为M的序列(M是编码器触发尖峰的个数),解码器的输出的长度也是一个长度为M的序列,序列的每个位置都是一个长度为N的向量,N表示建模单元的个数(即词表的大小);解码过程中,在解码序列的每个位置,记录长度为N的向量中概率最高的位置,其索引即表示预测的标记(也就是建模单元),将每个位置得到的标记从左到右连接起来,得到长度为M的文本序列,事实上,M的长度不会一直等于真实文本的长度,往往会略长于真实文本,因此,在建模单元中增加了一个结束标记,如果从左到右连接最大概率标记的过程中遇到了结束标记,就在结束标记位置停止即可,此时的预测文本长度小于M。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.基于触发式非自回归模型的语音识别方法,其特征在于包括如下步骤:
S11,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成声学特征序列;
S12,将声学特征序列输入卷积降采样模块中,计算并输出卷积降采样序列;
S13,将卷积降采样序列输入声学编码器中,输出声学编码状态序列;
S14,将声学编码状态序列输入线性变换层,并结合文本标注训练数据计算联结时序损失,所述线性变换层用于计算得到预测标记的概率分布;
S15,根据预测标记的概率分布计算尖峰的位置和个数,非空格标记的概率大于触发阈值时,标记为一个尖峰位置,相邻的尖峰仅保留第一个,并存储尖峰位置;
S16,将尖峰位置对应的触发声学编码状态序列和声学编码状态序列输入声学解码器,并结合文本标注训练数据计算交叉熵损失;
S17,将联结时序损失和交叉熵损失进行加权,根据两者的联合损失计算梯度,进行反向传播;
S18,循环执行S12至S17,直至达到预设的训练结束条件,完成训练。
2.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于所述S11,通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,所述系数是梅尔频率倒谱系数或梅尔滤波器组系数。
3.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于所述S12,卷积降采样模块采用两层二维卷积,卷积核大小均为3×3,步长均为2。
4.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于所述编码器是基于自注意力机制的声学编码器,卷积降采样模块将语音特征序列转换为卷积降采样序列后,对序列中的特征加上正余弦位置编码,所述正余弦位置编码包括偶数位置编码PE(t,2i)=sin(t/100002i/d_model)和奇数位置编码PE(t,2i+1)=cos(t/100002i/d_model),t表示转换后的语音特征的时间步,i表示转换后的语音特征的第i个位置,d_model表示维度。
5.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于所述声学编码器是基于自注意力机制的声学编码器,包括多层自注意力机制的编码模块,每个编码模块包括多头自注意力层和前馈网络层,所述多头自注意力层机制的实现如下:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
MultiHeadAttention表示多头注意力机制,将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度,再通过前馈网络得到输出结果,Wi Q、Wi K、Wi V、WO表示可以学习的权重矩阵,Q=K=V=X,均表示第一层自注意力编码模块输入的卷积降采样序列,或者前一层自注意力编码模块的输出,dk是向量K的维度;
所述前馈网络层计算的实现如下:
FFN(x)=GLU(xW1+b1)W2+b2
x表示前馈网络层的输入,W1和W2表示权重矩阵,b1和b2表示权重偏置向量;
所述声学解码器包括多层基于自注意力机制的解码模块,每个解码模块包括多头自注意力层、多头源注意力层和前馈网络层,所述解码模块的多头自注意力层机制和前馈网络层计算的实现与所述声学编码器一致,第一层的输入为所述触发声学编码状态序列,或者前一层自注意力编码模块的输出,多头源注意力层机制与多头自注意力机制不同处在于,多头源注意力层机制的K和V第一层的输入为所述声学编码状态序列。
6.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于所述S15,触发阈值的范围在0.5至0.8之间。
7.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于所述S17,联合损失函数L=αLCTC+(1-α)LCE,α表示联结时序损失在联合损失函数中的权重,LCTC表示联结时序损失,LCE表示交叉熵损失,α为0.5。
8.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于完成训练后,对语音数据进行解码,包括如下步骤:
S21,获取语音数据并提交处理器;
S22,对语音数据提取特征,得到语音特征序列;
S23,将语音特征序列依次通过卷积降采样模块和声学编码器,计算得到声学编码状态序列;
S24,将声学编码状态序列通过线性变换层,计算标记的概率分布,并进一步得到每个位置属于非空格标记的概率;
S25,非空格标记的概率大于触发阈值时,标记为一个尖峰位置,相邻的尖峰仅保留第一个,存储尖峰的位置;
S26,将尖峰位置对应的触发声学编码状态序列输入声学解码器,声学解码器输出的每个位置的最高概率所表示的标记相连接,至结束标记为止,以此表示目标序列,解码完成。
9.如权利要求8所述的基于触发式非自回归模型的语音识别方法,其特征在于为声学解码器的输入扩充空白向量。
10.基于触发式非自回归模型的语音识别系统,其特征在于包括:依次相互连接的声学特征序列提取模块、卷积降采样模块、声学编码器、联结时序分类模块、声学解码器、联合损失计算模块,所述联结时序分类模块包括线性变化模块、联结时序损失计算模块、尖峰抽取模块,其中,声学编码器又与声学解码器连接,线性变化模块分别与声学编码器、联结时序损失计算模块和尖峰抽取模块连接,尖峰抽取模块与声学解码器连接,联结时序损失计算模块与联合损失计算模块连接;
声学特征序列提取模块,用于提取一系列语音训练数据或语音数据的特征,构成声学特征序列;
卷积降采样模块,用于将声学特征序列降采样为卷积降采样序列;
声学编码器,用于将卷积降采样序列编码为声学编码状态序列;
线性变化模块,用于计算得到预测标记的概率分布;
联结时序损失计算模块,用于结合预测标记的概率分布和文本标注训练数据,计算联结时序损失;
尖峰抽取模块,根据预测标记的概率分布计算尖峰的位置和个数,非空格标记的概率大于触发阈值时,标记为一个尖峰位置,相邻的尖峰仅保留第一个,并存储尖峰位置,生成尖峰位置对应的触发声学编码状态序列;
声学解码器,用于将触发声学编码状态序列和声学编码状态序列作为输入,并结合文本标注训练数据计算交叉熵损失;
联合损失计算模块,用于将联结时序损失和交叉熵损失进行加权,根据两者的联合损失计算梯度,进行反向传播;
系统训练部分,将语音训练数据、文本标注训练数据输入系统进行循环训练,直至达到预设的训练结束条件,完成训练;
系统解码部分,将语音数据输入系统,依次经过系统的声学特征序列提取模块、卷积降采样模块、声学编码器、线性变化模块、尖峰抽取模块、声学解码器,由声学解码器输出的每个位置的最高概率所表示的标记相连接,至结束标记为止,以此表示目标序列,完成解码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010987375.7A CN112037798B (zh) | 2020-09-18 | 2020-09-18 | 基于触发式非自回归模型的语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010987375.7A CN112037798B (zh) | 2020-09-18 | 2020-09-18 | 基于触发式非自回归模型的语音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112037798A CN112037798A (zh) | 2020-12-04 |
CN112037798B true CN112037798B (zh) | 2022-03-01 |
Family
ID=73573954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010987375.7A Active CN112037798B (zh) | 2020-09-18 | 2020-09-18 | 基于触发式非自回归模型的语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112037798B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735467A (zh) * | 2020-12-28 | 2021-04-30 | 福州数据技术研究院有限公司 | 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备 |
CN112581980B (zh) * | 2021-02-26 | 2021-05-25 | 中国科学院自动化研究所 | 时频通道注意力权重计算和向量化的方法和网络 |
CN113035178B (zh) * | 2021-03-16 | 2024-01-05 | 华南理工大学 | 基于transformer的语音识别解码加速方法 |
CN113327603B (zh) * | 2021-06-08 | 2024-05-17 | 广州虎牙科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN113257248B (zh) * | 2021-06-18 | 2021-10-15 | 中国科学院自动化研究所 | 一种流式和非流式混合语音识别系统及流式语音识别方法 |
CN113488029A (zh) * | 2021-06-23 | 2021-10-08 | 中科极限元(杭州)智能科技股份有限公司 | 基于参数共享非自回归语音识别训练解码方法及系统 |
CN113488028B (zh) * | 2021-06-23 | 2024-02-27 | 中科极限元(杭州)智能科技股份有限公司 | 基于快速跳跃解码的语音转写识别训练解码方法及系统 |
CN113362813B (zh) * | 2021-06-30 | 2024-05-28 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN113470620A (zh) * | 2021-07-06 | 2021-10-01 | 青岛洞听智能科技有限公司 | 一种语音识别方法 |
CN113284485B (zh) * | 2021-07-09 | 2021-11-09 | 中国科学院自动化研究所 | 统一中英混合文本生成和语音识别的端到端系统 |
CN113782029B (zh) * | 2021-09-22 | 2023-10-27 | 广东电网有限责任公司 | 语音识别模型的训练方法、装置、设备以及存储介质 |
CN113936641B (zh) * | 2021-12-17 | 2022-03-25 | 中国科学院自动化研究所 | 一种可定制的中英混合语音识别端到端系统 |
CN113990296B (zh) * | 2021-12-24 | 2022-05-27 | 深圳市友杰智新科技有限公司 | 语音声学模型的训练方法、后处理方法和相关设备 |
CN114299937B (zh) * | 2021-12-31 | 2022-07-01 | 镁佳(北京)科技有限公司 | 一种dnn模型训练方法及语音识别方法、装置 |
CN116682420B (zh) * | 2022-12-30 | 2024-04-05 | 荣耀终端有限公司 | 语音识别方法、电子设备及可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN110349571A (zh) * | 2019-08-23 | 2019-10-18 | 北京声智科技有限公司 | 一种基于连接时序分类的训练方法及相关装置 |
CN110444203A (zh) * | 2019-07-17 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
CN110534092A (zh) * | 2019-06-28 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN111199727A (zh) * | 2020-01-09 | 2020-05-26 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2437559B (en) * | 2006-04-26 | 2010-12-22 | Zarlink Semiconductor Inc | Low complexity noise reduction method |
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
-
2020
- 2020-09-18 CN CN202010987375.7A patent/CN112037798B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN110534092A (zh) * | 2019-06-28 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110444203A (zh) * | 2019-07-17 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
CN110349571A (zh) * | 2019-08-23 | 2019-10-18 | 北京声智科技有限公司 | 一种基于连接时序分类的训练方法及相关装置 |
CN111199727A (zh) * | 2020-01-09 | 2020-05-26 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
Non-Patent Citations (4)
Title |
---|
Speaker recognition from whispered speech: A tutorial survey and an application of time-varying linear prediction;Ville Vestman;《Speech Communication》;20181230;全文 * |
基于卷积神经网络的语音合成声码器研究;伍宏传;《硕士学位论文》;20191230;全文 * |
嵌入式语音识别系统的研究与设计;杨芬娜;《硕士学位论文》;20151230;全文 * |
端到端维吾尔语语音识别研究;丁枫林等;《小型微型计算机系统》;20200115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112037798A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112037798B (zh) | 基于触发式非自回归模型的语音识别方法及系统 | |
CN111429889B (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
Arık et al. | Deep voice: Real-time neural text-to-speech | |
He et al. | Streaming small-footprint keyword spotting using sequence-to-sequence models | |
CN111477221A (zh) | 采用双向时序卷积与自注意力机制网络的语音识别系统 | |
CN113257248B (zh) | 一种流式和非流式混合语音识别系统及流式语音识别方法 | |
CN111415667A (zh) | 一种流式端到端语音识别模型训练和解码方法 | |
CN114787914A (zh) | 用异步解码器流式传输端到端语音识别的系统和方法 | |
Zhu et al. | Phone-to-audio alignment without text: A semi-supervised approach | |
CN111931736B (zh) | 利用非自回归模型与整合放电技术的唇语识别方法、系统 | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
CN116092501B (zh) | 语音增强方法、语音识别方法、说话人识别方法和系统 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN114373451A (zh) | 一种端到端中文语音识别方法 | |
Yang et al. | A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition | |
CN113488029A (zh) | 基于参数共享非自回归语音识别训练解码方法及系统 | |
CN115148211A (zh) | 音频敏感内容检测方法、计算机设备和计算机程序产品 | |
CN113488028B (zh) | 基于快速跳跃解码的语音转写识别训练解码方法及系统 | |
Soltau et al. | Reducing the computational complexity for whole word models | |
Yang et al. | Keyword search using attention-based end-to-end asr and frame-synchronous phoneme alignments | |
CN116324973A (zh) | 包含时间缩减层的基于变换器的自动语音识别系统 | |
Park et al. | Conformer-based on-device streaming speech recognition with KD compression and two-pass architecture | |
CN114203170A (zh) | 基于非自回归模型的流式语音识别系统及方法 | |
Mamyrbayev et al. | Modern trends in the development of speech recognition systems | |
CN111128191B (zh) | 一种在线端对端语音转写方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |