CN113488029A - 基于参数共享非自回归语音识别训练解码方法及系统 - Google Patents

基于参数共享非自回归语音识别训练解码方法及系统 Download PDF

Info

Publication number
CN113488029A
CN113488029A CN202110699356.9A CN202110699356A CN113488029A CN 113488029 A CN113488029 A CN 113488029A CN 202110699356 A CN202110699356 A CN 202110699356A CN 113488029 A CN113488029 A CN 113488029A
Authority
CN
China
Prior art keywords
autoregressive
sequence
layer
decoding
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110699356.9A
Other languages
English (en)
Inventor
温正棋
田正坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Original Assignee
Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd filed Critical Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority to CN202110699356.9A priority Critical patent/CN113488029A/zh
Publication of CN113488029A publication Critical patent/CN113488029A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了基于参数共享非自回归语音识别训练解码方法及系统,训练方法:提取语音训练数据的特征,构成声学特征序列;将声学特征序列进行声学编码,输出声学编码状态序列;将声学编码状态序列和空白填充序列进行非自回归解码,结合文本标注训练数据,计算非自回归交叉熵损失;将声学编码状态序列和文本标注训练数据进行自回归解码,结合文本标注训练数据,计算自回归交叉熵损失;根据非自回归交叉熵损失和自回归交叉熵损失加权,得到联合损失,计算梯度,并进行反向传播;循环执行,直至训练完成;解码方法:通过训练好的模型进行语音识别;系统包括声学特征序列提取模块、声学编码器、非自回归解码器、自回归解码器、联合损失计算模块。

Description

基于参数共享非自回归语音识别训练解码方法及系统
技术领域
本发明涉及电子信号处理技术领域,尤其是涉及了基于参数共享非自回归语音识别训练解码方法及系统。
背景技术
语音识别作为人机交互的入口,是人工智能领域中一个重要的研究方向。端到端语音识别丢弃了混合语音识别模型依赖的发音词典、语言模型和解码网络,实现了音频特征序列到文字序列的直接转换。经典的编码解码模型使用字自回归方式进行解码,其编码器将输入语音编码为高层次的特征表示;解码器从起始符号开始,在编辑器输出的基础上,逐步的预测出对应的文本序列,直到预测到结束标记为止。自回归解码的时序依赖特性严重影响了解码的效率,并且很难通过GPU并行计算来进行加速,使得自回归模型部署于实时性要求比较高的场景有了一定的局限性。非自回归模型大大提高了解码效率,其可以直接将声学编码状态序列转换为目标文本序列,不需要逐步解码。然而非自回归模型面临着训练困难等问题,以及其识别准确率距离自回归模型还有一些差距。
发明内容
为解决现有技术的不足,加速非回归模型训练速度,缩小非自回归模型与自回归模型识别准确率之间的差距,本发明采用如下的技术方案:
基于参数共享非自回归语音识别训练方法,包括如下步骤:
S11,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成声学特征序列;
S12,将声学特征序列进行声学编码,输出声学编码状态序列;
S13,将声学编码状态序列和空白填充序列进行非自回归解码,通过解码输出的概率矩阵,结合文本标注训练数据,计算非自回归交叉熵损失LNAR
S14,将声学编码状态序列和文本标注训练数据,即带有起始标记的目标文本序列进行自回归解码,通过解码输出的概率矩阵,结合文本标注训练数据,计算自回归交叉熵损失LAR
S15,根据非自回归交叉熵损失LNAR和自回归交叉熵损失LAR加权,得到联合损失LJoint=αLNAR+(1-α)LAR计算梯度,并进行反向传播,α表示非自回归交叉熵损失在联合损失函数中的权重,α的值为0.3~0.5时效果最好;
S16,循环执行S12至S15,直至达到预设的训练结束条件,完成训练。
进一步地,所述自回归解码,依次进行词嵌入、位置编码、6层自回归解码层解码和1层输出映射,自回归解码层包括遮蔽多层自注意力机制层、多头注意力机制层和前馈映射层,将带有起始标记的目标文本序列进行词嵌入,得到的词嵌入表示序列添加位置编码后,输入到遮蔽多层自注意力机制层,每层遮蔽自注意力机制的计算如下:
Figure BDA0003129160400000021
其中,Q表示查询值、K表示关键值、V表示内容值,dk是向量K的维度,M表示一个上三角矩阵,对角线上方元素为-INF,在计算机中表示负无穷小,其对应位置通过softmax计算后变成0,以此实现对于特定位置信息的遮蔽操作,对角线下方元素为0,多头注意力机制层将多个遮蔽自注意力机制的输出向量拼接到一起,再通过前馈映射层得到输出结果。
进一步地,所述非自回归解码,依次进行词嵌入、位置编码、6层非自回归解码层解码和1层输出映射,非自回归解码层包括多层自注意力机制层、多头注意力机制层和前馈映射层,空白填充序列输入词嵌入,得到的词嵌入表示序列添加位置编码后,输入到多层自注意力机制层,每层自注意力机制的计算如下:
Figure BDA0003129160400000022
其中,Q表示查询值、K表示关键值、V表示内容值,dk是向量K的维度;
多头注意力机制层将多个自注意力机制的输出向量拼接到一起,再通过前馈映射层得到输出结果。
进一步地,所述多头注意力机制层包括多头自注意力机制层和多头编码解码注意力机制层,实现如下:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
其中,Wi Q、Wi K、Wi V、WO表示可以学习的权重矩阵,MultiHeadAttention表示多头编码解码注意力机制,对于多头自注意力机制,其中Q=K=V,均表示前一层网络的输出序列,对于多头编码解码注意力机制,其中Q表示前一层网络的输出序列,K=V表示所述声学编码状态序列,MultiHeadAttention将多个输出向量headi拼接到一起后,经过线性层映射到一个固定维度。
进一步地,所述前馈映射层计算的实现如下:
FFN(x)=GLU(xW1+b1)W2+b2
x表示前馈映射层的输入,W1和W2表示权重矩阵,b1和b2表示权重偏置向量。
进一步地,所述S11中提取语音训练数据的特征,是在时域下,对语音训练数据的语音波形信号加窗分帧后,进行离散傅里叶变换,提取特定频率分量的系数,组成特征向量,一系列的特征向量构成声学特征序列,所述特定频率分量的系数包括梅尔频率倒谱系数、梅尔滤波器组系数。
进一步地,所述S12中的声学编码,使用带有卷积前端模块的Transformer模型构建,包括卷积前端模块和Transformer编码层,卷积前端模块包括一组卷积层和线性映射层,卷积层将输入的声学特征序列计算和时序降采样后,将不同卷积层通道的声学特征进行拼接,使卷积层通道维度和声学特征维度整合到同一纬度,通过线性映射层进行线性变换,使卷积前端模块的输出匹配Transformer编码层的输入维度,即编码器的维度。
进一步地,所述位置编码,将词嵌入表示序列,加上正余弦位置编码,所述正余弦位置编码包括偶数位置编码PE(t,2i)=sin(t/100002i/d_model)和奇数位置编码PE(t,2i+1)=cos(t/100002i/d_model),t表示词嵌入表示序列的时间轴的第t个位置,i表示转换后的词嵌入表示序列特征轴的第i个位置,d_model表示模型维度。
基于参数共享非自回归语音识别解码方法,完成训练后,对语音数据进行解码,包括如下步骤:
S21,获取语音数据并提交处理器;
S22,对语音数据提取特征,得到声学特征序列;
S23,将语音特征序列进行声学编码,计算得到声学编码状态序列;
S24,将固定长度为L的空白填充序列和声学编码状态序列,进行非自回归解码,得到概率矩阵;
S25,基于概率矩阵,沿着时间轴从左到右,依据Beam Search搜索方法找到以结束标记<EOS>为结尾的概率最高的N条路径,并作为候选序列;
S26,将这N条候选序列第一个位置填充开始标记<BOS>并删除结束标记,然后伴随声学编码状态序列一起,进行自回归解码,根据输出的概率矩阵分别计算每条候选序列的分数;
S27,依据自回归解码后二次评估的分数,对N条候选序列进行重新排序,将评分最高的序列输出作为最终识别结果。
基于参数共享非自回归语音识别系统,包括声学特征序列提取模块、声学编码器、非自回归解码器、自回归解码器、联合损失计算模块;
所述声学特征序列提取模块,训练阶段,用于提取一系列语音训练数据的特征,构成声学特征序列;解码阶段,用于提取一系列语音数据的特征,构成声学特征序列;
所述声学编码器,用于将声学特征序列转变为声学编码状态序列;
所述非自回归解码器,训练阶段,用于将声学编码状态序列和空白填充序列作为输入,输出概率矩阵;解码阶段,用于将声学编码状态序列和空白填充序列作为输入,根据输出的概率矩阵,生成多条候选序列;
所述自回归解码器,训练阶段,用于将声学编码状态序列和文本标注训练数据,即带有起始标记的目标文本序列作为输入,输出概率矩阵;解码阶段,对非自回归解码器生成的多条候选序列,伴随声学编码状态序列一起,进行自回归解码,根据输出的概率矩阵,分别计算每条候选序列的分数,将评分最高的候选序列作为最终识别结果,完成解码;
所述非自回归解码器与自回归解码器具有相同的网络结构,使用同一模型来实现,其区别在于自回归解码器的结构为了建模输入序列之间的时序依赖关系,在训练和解码过程中的每一步引入遮蔽序列,实现对于特定位置信息的遮蔽操作,遮蔽掉序列中的未来时刻;
所述联合损失计算模块,训练阶段,通过非自回归解码器输出的概率矩阵,结合文本标注训练数据,计算非自回归交叉熵损失;通过自回归解码器输出的概率矩阵,结合文本标注训练数据,计算自回归交叉熵损失;通过权重,对非自回归交叉熵损失和自回归交叉熵损失加权,计算梯度,并进行反向传播,循环训练,直至达到预设的训练结束条件,完成训练。
本发明的优势和有益效果在于:
本发明在非自回归模型的基础上,引入了自回归模型来辅助训练和解码。其通过参数共享和联合训练的方式,大大降低了非自回归模型的训练难度,提高了模型的训练速度。并且本发明所提出的基于非自回归模型和自回归模型的两步解码方式,能够在低延时的条件下,大大提升模型的解码准确率。
附图说明
图1是本发明的系统结构示意图。
图2是本发明中非自回归解码器结构示意图。
图3是本发明中非自回归解码层结构示意图。
图4是本发明中自回归解码器结构示意图。
图5是本发明中自回归解码层结构示意图。
图6是本发明中解码过程示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
基于两步解码的参数共享非自回归模型及训练方法,基于自注意力变换网络构建的模型包括基于自注意力机制的声学编码器、基于自注意力机制的解码器,如图1所示,包括以下步骤:
步骤1,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成语音特征序列;
语音识别的目标是将连续语音信号转化为文字序列,在识别过程中,通过对时域下的波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)。典型地采用80维的FBANK特征。
步骤2,将语音特征序列输入声学编码器中进行计算,输出声学编码状态序列;
本实施例采用Transformer结构作为声学编码器,声学编码器包含一个卷积前端模块和12层Transformer编码层。其中卷积前端模块包含有两个层卷积和一个线性映射层,卷积核的大小均为3×3(两个堆叠的3×3卷积),第一层卷积的通道数与输入特征维度匹配,输出通道数等于模型维度,第二次卷积的输入通道数与输出通道数均等于模型维度,两层卷积的步长均为2,因此每层卷积降采样2倍,两层卷积近似将输入特征序列降采样了4倍,然后将通道维度和特征维度整合到同一纬度,然后通过线性变换以使得模块输出匹配编码器的输入维度。
步骤3,将声学编码状态序列和空白填充序列输入至非自回归解码器,根据目标文本序列计算交叉熵损失LNAR
如图2所示,非自回归解码器包含词嵌入模块、位置编码模块、6层非自回归解码层和一层输出映射层。
非自回归解码器与自回归解码器中应用的位置编码模块,其用于在获取到的词嵌入表示序列基础上加上正余弦位置编码,所述正余弦位置编码包括偶数位置编码PE(t,2i)=sin(t/100002i/d_model)和奇数位置编码PE(t,2i+1)=cos(t/100002i/d_model),t表示词嵌入表示序列的时间轴的第t个位置,i表示转换后的词嵌入表示序列特征轴的第i个位置,d_model表示模型维度。
如图3所示,非自回归解码层中使用了多层自注意力机制层,多头编码解码注意力机制层和前馈映射层,所述多头注意力层机制的实现如下:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
Figure BDA0003129160400000051
MultiHeadAttention表示多头注意力机制,将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度,再通过前馈映射得到输出结果,Wii Q、Wi K、Wi V、WO表示可以学习的权重矩阵,dk是向量K的维度。对于多头自注意力机制,其中Q=K=V,均表示前一层网络的输出序列;对于多头编码解码注意力机制,其中Q表示前一层网络的输出序列,K=V,表示的是声学编码状态序列。
所述前馈映射层计算的实现如下:
FFN(x)=GLU(xW1+b1)W2+b2
x表示前馈映射层的输入,W1和W2表示权重矩阵,b1和b2表示权重偏置向量。
计算交叉熵损失:
Figure BDA0003129160400000061
其中,U表示目标文本序列的长度,yi表示目标文本序列中第i个标记(数值为1),pi表示模型在第i个位置softmax输出标记yi的概率,数值范围在0和1之间。
步骤4,将声学编码状态序列和带有起始标记的目标文本序列输入至自回归解码器,根据目标文本序列计算交叉熵损失LAR
如图4所示,自回归解码器包含词嵌入模块、位置编码模块、6层非自回归解码层和一层输出映射层。
如图5所示,自回归解码器中使用了遮蔽多层自注意力机制层,多头编码解码注意力机制层和前馈映射层,其中多头编码解码注意力机制和前馈映射层的计算与非自回归解码器相同。其遮蔽自注意力机制的计算如下:
Figure BDA0003129160400000062
其中M表示一个上三角矩阵,对角线上方元素为-INF,对角线下方元素为0。遮蔽多头注意力机制仍然按照同样的方法,将多个遮蔽自注意力机制的输出拼接到一起。
计算交叉熵损失:
Figure BDA0003129160400000063
其中,U表示目标文本序列的长度,yi表示目标文本序列中第i个标记(数值为1),pi表示模型在第i个位置softmax输出标记yi的概率,数值范围在0和1之间。
步骤5,将非自回归解码器损失LNAR和自回归解码器损失LAR进行加权得到联合损失LJoint=αLNAR+(1-α)LAR,根据两者的联合损失LJoint计算梯度,并进行反向传播;
根据经验设定计算权重系数α的取值范围在0.3~0.5之间。
步骤6,循环执行S12至S15,直至达到预设的训练结束条件,完成训练。
如图6所示,基于两步解码的参数共享非自回归模型解码方法。
解码步骤1,从文件路径中读取语音文件并提交给处理器;
处理器可以是智能手机,云端服务器或者其他嵌入式设备。
解码步骤2,对输入语音提取特征,得到语音特征序列;
语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK),特征处理方法与训练过程保持一致。
解码步骤3,将语音特征序列依次声学编码器,计算得到声学编码状态序列;
解码步骤4,将固定长度为L的空白填充序列和声学编码状态序列输入到自回归解码器,计算得到输出概率矩阵;
典型地,设置固定长度L大于等于目标文本中序列的最大长度。对于中文语音识别任务而言,一个典型值是60。
解码步骤4,基于输出概率矩阵,沿着时间轴从左到右,依据Beam Search搜索方法找到以结束标记<EOS>为结尾的概率最高的N条路径,并作为候选序列;
所有的解码路径均从输出概率矩阵的最左端开始,到结束标记<EOS>为止。
每条可行路径均表示一条可能的识别序列。每条路径的概率的计算为路径中所有标签的对数概率相加的平均值。
概率最高的N条可能的识别序列构成候选序列。
解码步骤5,将这N条候选第一个位置填充开始标记<BOS>并删除掉结束标记,然后伴随声学编码状态序列一起传送至自回归解码器,来分别计算每条候选序列的分数;
所有的N条候选序列删除掉结尾的结束标记,并在开始添加一个开始标记,输入到自回归解码器中。
计算自回归解码器预测原始N条候选序列(包含结束标记,不包含开始标记)的概率。使用自回归预测得到的概率作为二次评分。二次评分仍然使用每一条候选序列中所有标记的对数概率和的平均值来表示。
解码步骤6,依据自回归解码器二次评估的分数,对这N条候选序列进行重新排序,然后将评分最高的序列输出作为最终识别结果。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.基于参数共享非自回归语音识别训练方法,其特征在于包括如下步骤:
S11,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成声学特征序列;
S12,将声学特征序列进行声学编码,输出声学编码状态序列;
S13,将声学编码状态序列和空白填充序列进行非自回归解码,通过解码输出的概率矩阵,结合文本标注训练数据,计算非自回归交叉熵损失LNAR
S14,将声学编码状态序列和文本标注训练数据进行自回归解码,通过解码输出的概率矩阵,结合文本标注训练数据,计算自回归交叉熵损失LAR
S15,根据非自回归交叉熵损失LNAR和自回归交叉熵损失LAR加权,得到联合损失LJoint=αLNAR+(1-α)LAR计算梯度,并进行反向传播,α表示非自回归交叉熵损失在联合损失函数中的权重;
S16,循环执行S12至S15,直至达到预设的训练结束条件,完成训练。
2.如权利要求1所述的基于参数共享非自回归语音识别训练方法,其特征在于所述自回归解码,依次进行词嵌入、位置编码、自回归解码层解码和输出映射,自回归解码层包括遮蔽多层自注意力机制层、多头注意力机制层和前馈映射层,将带有起始标记的目标文本序列进行词嵌入,得到的词嵌入表示序列添加位置编码后,输入到遮蔽多层自注意力机制层,每层遮蔽自注意力机制的计算如下:
Figure FDA0003129160390000011
其中,Q表示查询值、K表示关键值、V表示内容值,dk是向量K的维度,M表示上三角矩阵,对角线上方元素为-INF,对角线下方元素为0,多头注意力机制层将多个遮蔽自注意力机制的输出向量拼接到一起,再通过前馈映射层得到输出结果。
3.如权利要求1所述的基于参数共享非自回归语音识别训练方法,其特征在于所述非自回归解码,依次进行词嵌入、位置编码、非自回归解码层解码和输出映射,非自回归解码层包括多层自注意力机制层、多头注意力机制层和前馈映射层,空白填充序列输入词嵌入,得到的词嵌入表示序列添加位置编码后,输入到多层自注意力机制层,每层自注意力机制的计算如下:
Figure FDA0003129160390000012
其中,Q表示查询值、K表示关键值、V表示内容值,dk是向量K的维度;
多头注意力机制层将多个自注意力机制的输出向量拼接到一起,再通过前馈映射层得到输出结果。
4.如权利要求2或3所述的基于参数共享非自回归语音识别训练方法,其特征在于所述多头注意力机制层包括多头自注意力机制层和多头编码解码注意力机制层,实现如下:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
其中,Wi Q、Wi K、Wi V、WO表示可以学习的权重矩阵,MultiHeadAttention表示多头编码解码注意力机制,对于多头自注意力机制,其中Q=K=V,均表示前一层网络的输出序列,对于多头编码解码注意力机制,其中Q表示前一层网络的输出序列,K=V表示所述声学编码状态序列,MultiHeadAttention将多个输出向量headi拼接到一起后,经过线性层映射到一个固定维度。
5.如权利要求2或3所述的基于参数共享非自回归语音识别训练方法,其特征在于所述前馈映射层计算的实现如下:
FFN(x)=GLU(xW1+b1)W2+b2
x表示前馈映射层的输入,W1和W2表示权重矩阵,b1和b2表示权重偏置向量。
6.如权利要求1所述的基于参数共享非自回归语音识别训练方法,其特征在于所述S11中提取语音训练数据的特征,是在时域下,对语音训练数据的语音波形信号加窗分帧后,进行离散傅里叶变换,提取特定频率分量的系数,组成特征向量,一系列的特征向量构成声学特征序列,所述特定频率分量的系数包括梅尔频率倒谱系数、梅尔滤波器组系数。
7.如权利要求1所述的基于参数共享非自回归语音识别训练方法,其特征在于所述S12中的声学编码,使用带有卷积前端模块的Transformer模型构建,包括卷积前端模块和Transformer编码层,卷积前端模块包括一组卷积层和线性映射层,卷积层将输入的声学特征序列计算和时序降采样后,将卷积层通道维度和声学特征维度整合到同一纬度,通过线性映射层进行线性变换,使卷积前端模块的输出匹配Transformer编码层的输入维度。
8.如权利要求2或3所述的基于参数共享非自回归语音识别训练方法,其特征在于所述位置编码,将词嵌入表示序列,加上正余弦位置编码,所述正余弦位置编码包括偶数位置编码PE(t,2i)=sin(t/100002i/d_model)和奇数位置编码PE(t,2i+1)=cos(t/100002i/d_model),t表示词嵌入表示序列的时间轴的第t个位置,i表示转换后的词嵌入表示序列特征轴的第i个位置,d_model表示模型维度。
9.基于参数共享非自回归语音识别解码方法,其特征在于包括如下步骤:
S21,获取语音数据;
S22,对语音数据提取特征,得到声学特征序列;
S23,将语音特征序列进行声学编码,计算得到声学编码状态序列;
S24,将固定长度为L的空白填充序列和声学编码状态序列,进行非自回归解码,得到概率矩阵;
S25,基于概率矩阵,沿着时间轴,找到以结束标记为结尾的概率最高的N条路径,并作为候选序列;
S26,将这N条候选序列第一个位置填充开始标记并删除结束标记,然后伴随声学编码状态序列一起,进行自回归解码,根据输出的概率矩阵分别计算每条候选序列的分数;
S27,依据自回归解码后评估的分数,将评分最高的序列输出作为最终识别结果。
10.基于参数共享非自回归语音识别系统,包括声学特征序列提取模块、声学编码器、非自回归解码器、自回归解码器、联合损失计算模块;
所述声学特征序列提取模块,训练阶段,用于提取一系列语音训练数据的特征,构成声学特征序列;解码阶段,用于提取一系列语音数据的特征,构成声学特征序列;
所述声学编码器,用于将声学特征序列转变为声学编码状态序列;
所述非自回归解码器,训练阶段,用于将声学编码状态序列和空白填充序列作为输入,输出概率矩阵;解码阶段,用于将声学编码状态序列和空白填充序列作为输入,根据输出的概率矩阵,生成多条候选序列;
所述自回归解码器,训练阶段,用于将声学编码状态序列和文本标注训练数据作为输入,输出概率矩阵;解码阶段,对非自回归解码器生成的多条候选序列,伴随声学编码状态序列一起,进行自回归解码,根据输出的概率矩阵,分别计算每条候选序列的分数,将评分最高的候选序列作为最终识别结果,完成解码;
所述非自回归解码器与自回归解码器具有相同的网络结构,使用同一模型来实现,其区别在于自回归解码器的结构,在训练和解码过程中引入遮蔽序列,实现对于特定位置信息的遮蔽操作;
所述联合损失计算模块,训练阶段,通过非自回归解码器输出的概率矩阵,结合文本标注训练数据,计算非自回归交叉熵损失;通过自回归解码器输出的概率矩阵,结合文本标注训练数据,计算自回归交叉熵损失;通过权重,对非自回归交叉熵损失和自回归交叉熵损失加权,计算梯度,并进行反向传播,循环训练,直至达到预设的训练结束条件,完成训练。
CN202110699356.9A 2021-06-23 2021-06-23 基于参数共享非自回归语音识别训练解码方法及系统 Pending CN113488029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110699356.9A CN113488029A (zh) 2021-06-23 2021-06-23 基于参数共享非自回归语音识别训练解码方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110699356.9A CN113488029A (zh) 2021-06-23 2021-06-23 基于参数共享非自回归语音识别训练解码方法及系统

Publications (1)

Publication Number Publication Date
CN113488029A true CN113488029A (zh) 2021-10-08

Family

ID=77935937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110699356.9A Pending CN113488029A (zh) 2021-06-23 2021-06-23 基于参数共享非自回归语音识别训练解码方法及系统

Country Status (1)

Country Link
CN (1) CN113488029A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364055A (zh) * 2023-05-31 2023-06-30 中国科学院自动化研究所 基于预训练语言模型的语音生成方法、装置、设备及介质
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170004824A1 (en) * 2015-06-30 2017-01-05 Samsung Electronics Co., Ltd. Speech recognition apparatus, speech recognition method, and electronic device
US20180254036A1 (en) * 2015-11-06 2018-09-06 Alibaba Group Holding Limited Speech recognition method and apparatus
CN108630199A (zh) * 2018-06-30 2018-10-09 中国人民解放军战略支援部队信息工程大学 一种声学模型的数据处理方法
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech
CN111382582A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种基于非自回归的神经机器翻译解码加速方法
CN111797589A (zh) * 2020-05-29 2020-10-20 华为技术有限公司 一种文本处理网络、神经网络训练的方法以及相关设备
CN112037798A (zh) * 2020-09-18 2020-12-04 中科极限元(杭州)智能科技股份有限公司 基于触发式非自回归模型的语音识别方法及系统
CN112951203A (zh) * 2021-04-25 2021-06-11 平安科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170004824A1 (en) * 2015-06-30 2017-01-05 Samsung Electronics Co., Ltd. Speech recognition apparatus, speech recognition method, and electronic device
US20180254036A1 (en) * 2015-11-06 2018-09-06 Alibaba Group Holding Limited Speech recognition method and apparatus
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech
CN108630199A (zh) * 2018-06-30 2018-10-09 中国人民解放军战略支援部队信息工程大学 一种声学模型的数据处理方法
CN111382582A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种基于非自回归的神经机器翻译解码加速方法
CN111797589A (zh) * 2020-05-29 2020-10-20 华为技术有限公司 一种文本处理网络、神经网络训练的方法以及相关设备
CN112037798A (zh) * 2020-09-18 2020-12-04 中科极限元(杭州)智能科技股份有限公司 基于触发式非自回归模型的语音识别方法及系统
CN112951203A (zh) * 2021-04-25 2021-06-11 平安科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张威;翟明浩;黄子龙;李巍;曹毅;: "SE-MCNN-CTC的中文语音识别声学模型", 应用声学, no. 02, 11 March 2020 (2020-03-11) *
黄晓辉;李京;: "基于循环神经网络的藏语语音识别声学模型", 中文信息学报, no. 05 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364055A (zh) * 2023-05-31 2023-06-30 中国科学院自动化研究所 基于预训练语言模型的语音生成方法、装置、设备及介质
CN116364055B (zh) * 2023-05-31 2023-09-01 中国科学院自动化研究所 基于预训练语言模型的语音生成方法、装置、设备及介质
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质
CN117807603B (zh) * 2024-02-29 2024-04-30 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112037798B (zh) 基于触发式非自回归模型的语音识别方法及系统
CN111429889B (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN110534095B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
Arık et al. Deep voice: Real-time neural text-to-speech
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111415667A (zh) 一种流式端到端语音识别模型训练和解码方法
CN114787914A (zh) 用异步解码器流式传输端到端语音识别的系统和方法
Zhu et al. Phone-to-audio alignment without text: A semi-supervised approach
Li et al. End-to-end speech recognition with adaptive computation steps
CN113257248B (zh) 一种流式和非流式混合语音识别系统及流式语音识别方法
CN111783477B (zh) 一种语音翻译方法及系统
Zhang et al. Improving end-to-end single-channel multi-talker speech recognition
CN113488029A (zh) 基于参数共享非自回归语音识别训练解码方法及系统
CN112489616A (zh) 一种语音合成方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114999460A (zh) 一种结合Transformer的轻量化中文语音识别方法
CN113488028B (zh) 基于快速跳跃解码的语音转写识别训练解码方法及系统
Wei et al. Attentive contextual carryover for multi-turn end-to-end spoken language understanding
Chen et al. Pre-training for spoken language understanding with joint textual and phonetic representation learning
CN116324973A (zh) 包含时间缩减层的基于变换器的自动语音识别系统
CN112489651A (zh) 语音识别方法和电子设备、存储装置
CN115019785A (zh) 流式语音识别方法、装置、电子设备及存储介质
Mamyrbayev et al. Modern trends in the development of speech recognition systems
CN114203151A (zh) 语音合成模型的训练的相关方法以及相关装置、设备
Yang et al. Multi-level modeling units for end-to-end Mandarin speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination