CN114203170A - 基于非自回归模型的流式语音识别系统及方法 - Google Patents
基于非自回归模型的流式语音识别系统及方法 Download PDFInfo
- Publication number
- CN114203170A CN114203170A CN202111541837.3A CN202111541837A CN114203170A CN 114203170 A CN114203170 A CN 114203170A CN 202111541837 A CN202111541837 A CN 202111541837A CN 114203170 A CN114203170 A CN 114203170A
- Authority
- CN
- China
- Prior art keywords
- sequence
- acoustic
- autoregressive
- mark
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了基于非自回归模型的流式语音识别系统及方法,方法包括:S11,提取声学特征序列;S12,生成声学编码状态序列;S13,生成声学编码状态序列;S14,计算CTC输出概率分布和联结时序损失;S15,利用维特比算法进行对齐;S16,逐段输入并计算联合交叉熵损失;S17,根据联结时序损失和联合交叉熵损失的联合损失计算梯度,进行反向传播;S18,循环执行S12至S17,直至完成训练;系统包括:依次相互连接的声学特征序列提取模块、流式声学编码器、CTC线性变换层和非自回归解码器。本发明通过对输入的音频段进行逐段的非自回归解码,实现了流式推理速度的提升。避免了语言建模能力的损失。
Description
技术领域
本发明属于电子信号处理技术领域,尤其涉及一种基于非自回归模型的流式语音识别系统及方法。
背景技术
语音识别作为人机交互的入口,在辅助机器获取外部信息以及提高人机交互体验方面具有重要的应用价值。流式语音识别方法通常采用基于自回归模型的模型进行实现,常见的模型包括RNN-Transducer模型和基于注意力机制的编码解码模型,其解码器从起始符号开始,在编辑器输出的基础上,逐步或者逐帧地预测出对应的文本序列,直到预测到结束标记为止。这种自回归式解码的解码方式依赖于过去时间生成的标记,这种时序依赖特性严重影响了解码的效率,也很难通过并行计算来进一步优化推理速度。非自回归语音识别方法已经在非流式语音识别任务中获得了突破性进展,其极快的推理效率获得了很多关注,本发明针对流式识别自回归解码慢的问题,将非自回归技术引入其中,首创了基于非自回归模型的流式语音识别方法。
发明内容
本发明目的在于提供一种基于非自回归模型的流式语音识别系统及方法,以解决现有的语音识别解码的效率低,语音识别实时性差的技术问题。
为解决上述技术问题,本发明的一种基于非自回归模型的流式语音识别系统及方法的具体技术方案如下:
一种基于非自回归模型的流式语音识别系统,包括:依次相互连接的声学特征序列提取模块、流式声学编码器、CTC线性映射层和非自回归解码器;
所述声学特征序列提取模块,用于对输入语音序列进行特征提取;
所述流式声学编码器,用于将输入语音序列转换进行流式编码,并输出声学编码状态序列;
所述CTC线性映射层,用于计算得到CTC输出概率分布,辅助确定文本标记位置;
所述非自回归解码器,用于对块状声学编码状态子序列进行非自回归解码。
本发明还公开了一种基于非自回归模型的流式语音识别方法,包括如下步骤:
S11,获取语音训练数据与对应文本数据构成语音-文本对作为训练数据,并提取声学特征序列;
S12,将声学特征序列输入流式声学编码器中,通过前向计算,输出声学编码状态序列;
S13,将声学编码状态序列输入CTC线性变换层计算得到CTC输出概率分布,并结合文本标注计算联结时序损失,即CTC损失;
S14,根据维特比算法利用CTC输出概率分布将声学编码状态序列与对应的文本标记序列进行对齐,确定文本标记序列在声学编码状态序列中的位置,并进行记录;
S15,将声学编码状态划分为等长且不重叠的声学编码特征块,如果有文本标记位于本块内部,则将本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列作为非自回归解码器输入,计算出非自回归概率分布;
S16,将每块对应的非自回归概率分布与每块对应的文本标记分别计算交叉熵损失,并进行求和,得到联合非自回归交叉熵损失LCE;
S17,将联结时序损失和联合非自回归交叉熵损失进行加权,根据两者的联合损失计算梯度,进行反向传播;
S18,循环执行S12至S17,直至达到预设的训练结束条件,完成训练。
进一步地,所述步骤S11中通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,所述系数是梅尔频率倒谱系数或梅尔滤波器组系数,或者通过各种预训练模型生成的低层次或者高层次特征表示。
进一步地,所述步骤S12中流式声学编码器是基于卷积网络和单向自注意力网络构的声学编码器,卷积部分负责对局部声学特征建模和时序降采样;单向自注意力网络负责建模输入序列的上文依赖关系;所述流式声学编码器由单向的循环网络模型或者卷积神经网络来构建。
进一步地,所述步骤S13中CTC线性变换层仅包含一层线性映射,负责将流式声学编码器的输出映射到输出词表大小,其每个输出单元与词表中的一个标签一一对应,所述词表中包含空格标签,对应到CTC模型中的空格标志。
进一步地,所述步骤S15中非自回归解码器的输入包含三部分,分别是本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列;本块声学特征子序列用于计算注意力机制以获取声学信息;先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列被按照顺序拼接起来作为输入;填充序列的长度等于一个切分中所包含的标签的个数的最大值;模型仅在填充标记位置计算出非自回归概率分布。
进一步地,所述步骤S16中交叉熵损失的计算遵循常用的交叉熵损失计算方法。
进一步地,所述步骤S17中联合损失函数L=αLCTC+(1-α)LCE,α表示联结时序损失在联合损失函数中的权重,LCTC表示联结时序损失,LCE表示联合非自回归交叉熵损失,α为0.5。
进一步地,在完成训练后,对语音数据进行解码,包括如下步骤:
S21,从外部音频采集设备中得到一个固定长度的语音包进行逐包输入识别系统,语音包长度等于训练过程中一个块对应的音频长度;
S22,对输入语音包语音数据提取特征,得到语音特征序列;
S23,将语音特征序列输入流式声学编码器,计算得到声学编码状态序列;
S24,利用CTC输出概率分布中是否存在非空格标记概率大于0.5的条件来判断本块声学编码子序列中是否存在待解码标记;将声学编码状态序列通过CTC线性变换层,计算标记的CTC输出概率分布,并计算非空格标记的概率,如果非空格标记的概率大于0.5,则认为本切分中存在标记,则继续步骤S25,否则跳转是S21,重复S21~S24步骤;
S25,将先前已经预测得到的标记序列以及固定长度的填充序列进行拼接,与本块声学编码状态子序列一起作为非自回归解码器的输入,并计算出非自回归概率分布;如果先前预测标记序列为空,则仅将固定长度的填充序列与本块声学编码状态子序列一起作为非自回归解码器的输入;
S26,对预测得到的非自回归概率分布进行解析,从填充标记的第一个位置开始,取得每个位置预测得到的概率最大输出对应的词表中的标记作为输出标记,并从左到右拼接起来,直到填充的最后一个位置的输出,或者空格标记或者结束标记为止;
S27,重复S21~S26,至最后一个语音包输入并计算到解码最后一个位置为止,解码完成。
本发明的一种基于非自回归模型的流式语音识别系统及方法具有以下优点:本发明通过对输入的音频段进行逐段的非自回归解码,实现了流式推理速度的提升。每块之间又具有一定的依赖关系,从而避免了语言建模能力的损失。
附图说明
图1是本发明的整体结构示意图。
图2是本发明中训练流程示意图。
图3是本发明中解码流程示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于非自回归模型的流式语音识别系统及方法做进一步详细的描述。
如图1所示,本发明的一种基于非自回归模型的流式语音识别系统,包括:依次相互连接的声学特征序列提取模块、流式声学编码器、CTC线性映射层、非自回归解码器。
声学特征序列提取模块,用于对输入语音序列进行特征提取;
流式声学编码器,将输入语音序列转换进行流式编码,并输出声学编码状态序列;
CTC线性映射层,用于计算得到CTC输出概率分布,辅助确定文本标记位置;
非自回归解码器,用于对块状声学编码状态子序列进行非自回归解码。如图2所示,基于非自回归模型的流式语音识别方法,包括如下步骤:
S11,获取语音训练数据与对应文本数据构成语音-文本对作为训练数据,并提取声学特征序列;通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,所述系数是梅尔频率倒谱系数或梅尔滤波器组系数,或者通过各种预训练模型生成的低层次或者高层次特征表示。
S12,将声学特征序列输入流式声学编码器中,通过前向计算,输出声学编码状态序列;流式声学编码器是基于卷积网络和单向自注意力网络构的声学编码器,卷积部分负责对局部声学特征建模和时序降采样。单向自注意力网络负责建模输入序列的上文依赖关系。其中流式声学编码器也可以由单向的循环网络模型或者卷积神经网络来构建。
S13,将声学编码状态序列输入CTC线性变换层计算得到CTC输出概率分布,并结合文本标注计算联结时序损失(CTC损失);CTC线性变换层仅包含一层线性映射,负责将流式声学编码器的输出映射到输出词表大小,其每个输出单元与词表中的一个标签一一对应。词表中包含空格标签,对应到CTC模型中的空格标志。
S14,根据维特比算法利用CTC输出概率分布来声学编码状态序列与对应的文本标记序列进行对齐,确定每个标签在声学编码状态序列中的位置,并进行记录;
S15,将声学编码状态划分为等长且不重叠的声学编码特征块,如果有文本标记位于本块内部,则将本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列作为非自回归解码器输入,计算出非自回归概率分布;非自回归解码器的输入包含三部分,分别是本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列。本块声学特征子序列用于计算注意力机制以获取声学信息。先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列被按照顺序拼接起来作为输入;填充序列的长度等于一个切分中所包含的标签的个数的最大值;模型仅在填充标记位置计算出非自回归概率分布;
S16,将每块对应的非自回归概率分布与每块对应的文本标记分别计算交叉熵损失,并进行求和,得到联合非自回归交叉熵损失LCE;其中交叉熵损失的计算遵循常用的交叉熵损失计算方法。
S17,将联结时序损失和联合非自回归交叉熵损失进行加权,根据两者的联合损失计算梯度,进行反向传播;联合损失函数L=αLCTC+(1-α)LCE,α表示联结时序损失在联合损失函数中的权重,LCTC表示联结时序损失,LCE表示联合非自回归交叉熵损失,α为0.5。
S18,循环执行S12至S17,直至达到预设的训练结束条件,完成训练。
如图3所示,基于非自回归模型的流式语音识别方法在于完成训练后,对语音数据进行解码,包括如下步骤:
S21,从外部音频采集设备中得到一个固定长度的语音包进行逐包输入识别系统,语音包长度等于训练过程中一个块对应的音频长度;
S22,对输入语音包语音数据提取特征,得到语音特征序列;
S23,将语音特征序列输入流式声学编码器,计算得到声学编码状态序列;
S24,利用CTC输出概率分布中是否存在非空格标记概率大于0.5的条件来判断本块声学编码子序列中是否存在待解码标记;将声学编码状态序列通过CTC线性变换层,计算标记的CTC输出概率分布,并计算非空格标记的概率(1-空格标记的概率),如果非空格标记的概率大于0.5,则认为本切分中存在标记,则继续步骤S25,否则跳转是S21,重复S21~S24步骤;
S25,将先前已经预测得到的标记序列以及固定长度的填充序列进行拼接,与本块声学编码状态子序列一起作为非自回归解码器的输入,并计算出非自回归概率分布;如果先前预测标记序列为空,则仅将固定长度的填充序列与本块声学编码状态子序列一起作为非自回归解码器的输入;
S26,对预测得到的非自回归概率分布进行解析,从填充标记的第一个位置开始,取得每个位置预测得到的概率最大输出对应的词表中的标记作为输出标记,并从左到右拼接起来,直到填充的最后一个位置的输出,或者空格标记或者结束标记为止;
S27,重复上述步骤,至最后一个语音包输入并计算到解码最后一个位置为止,解码完成。
实施例一:
基于非自回归模型的流式语音识别系统训练方法,其包括声学特征序列提取模块、流式声学编码器、CTC线性映射层、非自回归解码器,如图1所示,训练过程包括以下步骤:
步骤1,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成语音特征序列;
语音识别的目标是将连续语音信号转化为文字序列,在识别过程中,通过对时域下的波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK),本实施例采用80维FBANK特征作为输入,其他实施例中可以采取其他特征。
步骤2,将声学特征输入一个流式声学编码器中,输出声学编码状态序列;
本实施例中流式声学编码器采用的是基于卷积网络和单向自注意力机制的声学编码器构成,卷积网络用来对输入特征进行局部建模以及时序降采样,在其他实现中,编码器可以使用基于单向长短时记忆网络(LSTM)等其他类型的编码器来代替,而基于单向自注意力机制的声学编码器,由6层或者12层的单向自注意力机制的编码模块堆叠构成,每个模块包含一个多头单向自注意力层(Multi-Head Attention)和一个前馈网络层(Feed-Forward Network),通过经验参数,采用4或者8个注意力头,前馈网络层包含两层线性变换,线性层之间使用非线性激活函数,根据经验使用门控线性单元(GLU)作为激活函数。
多头注意力机制的实现为:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headn)WO
其中MultiHeadAttention表示多头注意力机制,其将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度,然后通过前馈网络FFN得到输出结果,公式中的WO都是可以学习的权重矩阵,对于自注意力编码模块,Q=K=V=X,均表示第一层自注意力编码模块输入的卷积降采样序列,或者前一层自注意力编码模块的输出,dk是向量K的维度(等于X的维度);
前馈计算的实现为:
FFN(x)=GLU(xW1+b1)W2+b2
x表示前馈网络层的输入,W1和W2表示权重矩阵,b1和b2表示权重偏置向量。
步骤3,将声学编码状态序列输入一个CTC线性变换层,计算得到CTC输出概率分布并结合文本标注训练数据计算联结时序损失(CTC损失);
其中CTC损失的计算遵循通用CTC损失计算方法,通过前后向算法对所有可能的对齐路径进行概率求和,并对概率和的负对数形式进行优化。
步骤4,根据维特比算法利用CTC输出概率分布来声学编码状态序列与对应的文本标记序列进行对齐,确定每个标签在声学编码状态序列中的位置,并进行记录;
使用维特比算法生成对齐路径的方法在语音识别中比较常用,对齐路径通过对输出概率分布中概率最大的路径进行回溯而生成。
步骤5,将声学编码状态划分为等长且不重叠的声学编码特征块,如果有文本标记位于本块内部,则将本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列作为非自回归解码器输入,计算出非自回归概率分布;
声学编码特征块的长度通常对应与长度为1秒左右的语音,其长度设置可以根据系统实时性要求进行。
步骤6,将每块对应的非自回归概率分布与每块对应的文本标记分别计算交叉熵损失,并进行求和,得到联合非自回归交叉熵损失;
针对每个编码块都需要计算交叉熵损失,每个块的输出标记根据CTC输出概率分布产生的对齐标记的位置确定。每个块仅使用块内的标记和空白标记来计算交叉熵损失。并对不同块输出的交叉熵损失进行求和,作为联合非自回归交叉熵损失LCE。
步骤7,将联结时序损失和联合非自回归交叉熵损失进行加权,根据两者的联合损失计算梯度,进行反向传播;
联合损失函数L=αLCTC+(1-α)LCE,α表示联结时序损失在联合损失函数中的权重,LCTC表示联结时序损失,LCE表示联合非自回归交叉熵损失,α为0.5。
步骤8,循环执行S12至S17,直至达到预设的训练结束条件,完成训练。
基于非自回归模型的流式语音识别方法,其解码包括如下步骤:
解码步骤1,从外部音频采集设备中得到一个固定长度的语音包,语音包长度等于训练过程中一个块对应的音频长度;
外部音频采集设备可以是智能手机或者其他嵌入式设备。
解码步骤2,对输入语音包语音数据提取特征,得到语音特征序列;
语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK),特征处理方法与训练过程保持一致。
解码步骤3,将语音特征序列输入流式声学编码器,计算得到声学编码状态序列;
解码步骤4,将声学编码状态序列通过CTC线性变换层,计算标记的CTC输出概率分布,并计算非空格标记的概率(1-空格标记的概率),如果非空格标记的概率大于0.5,则认为本切分中存在标记,则继续步骤S25,否则跳转是S21,重复S21~S24步骤;
解码步骤5,将先前已经预测得到的标记序列以及固定长度的填充序列进行拼接,与本块声学编码状态子序列一起作为非自回归解码器的输入,并计算出非自回归概率分布;如果先前预测标记序列为空,则仅将固定长度的填充序列与本块声学编码状态子序列一起作为非自回归解码器的输入;
解码步骤6,对预测得到的非自回归概率分布进行解析,从填充标记的第一个位置开始,取得每个位置预测得到的概率最大输出对应的词表中的标记作为输出标记,并从左到右拼接起来,直到填充的最后一个位置的输出,或者空格标记或者结束标记为止;
解码步骤7,重复上述步骤,至最后一个语音包输入并计算到解码最后一个位置为止,解码完成。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (9)
1.一种基于非自回归模型的流式语音识别系统,其特征在于,包括:依次相互连接的声学特征序列提取模块、流式声学编码器、CTC线性映射层和非自回归解码器;
所述声学特征序列提取模块,用于对输入语音序列进行特征提取;
所述流式声学编码器,用于将输入语音序列转换进行流式编码,并输出声学编码状态序列;
所述CTC线性映射层,用于计算得到CTC输出概率分布,辅助确定文本标记位置;
所述非自回归解码器,用于对块状声学编码状态子序列进行非自回归解码。
2.一种利用如权利要求1所述的基于非自回归模型的流式语音识别系统进行流式语音识别的方法,其特征在于,包括如下步骤:
S11,获取语音训练数据与对应文本数据构成语音-文本对作为训练数据,并提取声学特征序列;
S12,将声学特征序列输入流式声学编码器中,通过前向计算,输出声学编码状态序列;
S13,将声学编码状态序列输入CTC线性变换层计算得到CTC输出概率分布,并结合文本标注计算联结时序损失,即CTC损失;
S14,根据维特比算法利用CTC输出概率分布将声学编码状态序列与对应的文本标记序列进行对齐,确定文本标记序列在声学编码状态序列中的位置,并进行记录;
S15,将声学编码状态划分为等长且不重叠的声学编码特征块,如果有文本标记位于本块内部,则将本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列作为非自回归解码器输入,计算出非自回归概率分布;
S17,将联结时序损失和联合非自回归交叉熵损失进行加权,根据两者的联合损失计算梯度,进行反向传播;
S18,循环执行S12至S17,直至达到预设的训练结束条件,完成训练。
3.根据权利要求2所述的基于非自回归模型的流式语音识别方法,其特征在于,所述步骤S11中通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,所述系数是梅尔频率倒谱系数或梅尔滤波器组系数,或者通过各种预训练模型生成的低层次或者高层次特征表示。
4.根据权利要求2所述的基于非自回归模型的流式语音识别方法,其特征在于,所述步骤S12中流式声学编码器是基于卷积网络和单向自注意力网络构的声学编码器,卷积部分负责对局部声学特征建模和时序降采样;单向自注意力网络负责建模输入序列的上文依赖关系;所述流式声学编码器由单向的循环网络模型或者卷积神经网络来构建。
5.根据权利要求2所述的基于非自回归模型的流式语音识别方法,其特征在于,所述步骤S13中CTC线性变换层仅包含一层线性映射,负责将流式声学编码器的输出映射到输出词表大小,其每个输出单元与词表中的一个标签一一对应,所述词表中包含空格标签,对应到CTC模型中的空格标志。
6.根据权利要求2所述的基于非自回归模型的流式语音识别方法,其特征在于,所述步骤S15中非自回归解码器的输入包含三部分,分别是本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列;本块声学特征子序列用于计算注意力机制以获取声学信息;先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列被按照顺序拼接起来作为输入;填充序列的长度等于一个切分中所包含的标签的个数的最大值;模型仅在填充标记位置计算出非自回归概率分布。
7.根据权利要求2所述的基于非自回归模型的流式语音识别方法,其特征在于,所述步骤S16中交叉熵损失的计算遵循常用的交叉熵损失计算方法。
9.根据权利要求2所述的基于非自回归模型的流式语音识别方法,其特征在于,在完成训练后,对语音数据进行解码,包括如下步骤:
S21,从外部音频采集设备中得到一个固定长度的语音包进行逐包输入识别系统,语音包长度等于训练过程中一个块对应的音频长度;
S22,对输入语音包语音数据提取特征,得到语音特征序列;
S23,将语音特征序列输入流式声学编码器,计算得到声学编码状态序列;
S24,利用CTC输出概率分布中是否存在非空格标记概率大于0.5的条件来判断本块声学编码子序列中是否存在待解码标记;将声学编码状态序列通过CTC线性变换层,计算标记的CTC输出概率分布,并计算非空格标记的概率,如果非空格标记的概率大于0.5,则认为本切分中存在标记,则继续步骤S25,否则跳转是S21,重复S21~S24步骤;
S25,将先前已经预测得到的标记序列以及固定长度的填充序列进行拼接,与本块声学编码状态子序列一起作为非自回归解码器的输入,并计算出非自回归概率分布;如果先前预测标记序列为空,则仅将固定长度的填充序列与本块声学编码状态子序列一起作为非自回归解码器的输入;
S26,对预测得到的非自回归概率分布进行解析,从填充标记的第一个位置开始,取得每个位置预测得到的概率最大输出对应的词表中的标记作为输出标记,并从左到右拼接起来,直到填充的最后一个位置的输出,或者空格标记或者结束标记为止;
S27,重复S21~S26,至最后一个语音包输入并计算到解码最后一个位置为止,解码完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111541837.3A CN114203170A (zh) | 2021-12-16 | 2021-12-16 | 基于非自回归模型的流式语音识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111541837.3A CN114203170A (zh) | 2021-12-16 | 2021-12-16 | 基于非自回归模型的流式语音识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114203170A true CN114203170A (zh) | 2022-03-18 |
Family
ID=80654466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111541837.3A Pending CN114203170A (zh) | 2021-12-16 | 2021-12-16 | 基于非自回归模型的流式语音识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114203170A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115910044A (zh) * | 2023-01-10 | 2023-04-04 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置及车辆 |
-
2021
- 2021-12-16 CN CN202111541837.3A patent/CN114203170A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115910044A (zh) * | 2023-01-10 | 2023-04-04 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置及车辆 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arık et al. | Deep voice: Real-time neural text-to-speech | |
CN112037798B (zh) | 基于触发式非自回归模型的语音识别方法及系统 | |
Liu et al. | Diffsinger: Singing voice synthesis via shallow diffusion mechanism | |
CN110648658B (zh) | 一种语音识别模型的生成方法、装置及电子设备 | |
US11705107B2 (en) | Real-time neural text-to-speech | |
CN111429889B (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111477221A (zh) | 采用双向时序卷积与自注意力机制网络的语音识别系统 | |
CN111415667A (zh) | 一种流式端到端语音识别模型训练和解码方法 | |
CN113257248B (zh) | 一种流式和非流式混合语音识别系统及流式语音识别方法 | |
CN110570845B (zh) | 一种基于域不变特征的语音识别方法 | |
Zhu et al. | Phone-to-audio alignment without text: A semi-supervised approach | |
CN111931736B (zh) | 利用非自回归模型与整合放电技术的唇语识别方法、系统 | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
CN114373451A (zh) | 一种端到端中文语音识别方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN113450761A (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
Leong et al. | Online Compressive Transformer for End-to-End Speech Recognition. | |
CN115985342A (zh) | 发音检错方法、装置、电子设备和存储介质 | |
CN114203170A (zh) | 基于非自回归模型的流式语音识别系统及方法 | |
CN113488028B (zh) | 基于快速跳跃解码的语音转写识别训练解码方法及系统 | |
Tian et al. | One in a hundred: Select the best predicted sequence from numerous candidates for streaming speech recognition | |
CN113628630B (zh) | 基于编解码网络的信息转换方法和装置、电子设备 | |
CN113257230B (zh) | 语音处理方法及装置、计算机可存储介质 | |
Li et al. | High-quality many-to-many voice conversion using transitive star generative adversarial networks with adaptive instance normalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |