CN114373451A

CN114373451A - 一种端到端中文语音识别方法

Info

Publication number: CN114373451A
Application number: CN202210077486.3A
Authority: CN
Inventors: 孙俊; 陈戈; 吴豪; 吴小俊; 方伟; 陈祺东; 李超; 游琪; 冒钟杰
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-19

Abstract

一种端到端中文语音识别方法，属于语音识别领域。首先探索了基于Transformer编码器和LAS解码器的Transformer‑LAS语音识别模型的效果，并针对Transformer不善于捕捉局部信息的问题，使用Conformer代替Transformer，提出Conformer‑LAS模型；其次，由于Attention过于灵活的对齐方式会使其在嘈杂环境中的效果急剧下降，研究中采用连接时序分类(CTC)辅助训练以加快收敛，并加入音素级别的中间CTC损失联合优化，提出效果更好的Conformer‑LAS‑CTC语音识别模型；最后，在开源中文普通话Aishell‑1数据集上对提出来的模型进行验证。

Description

一种端到端中文语音识别方法

技术领域

本发明属于语音识别领域，具体涉及基于Conformer的混合CTC/Attention端到端中文语音识别方法

背景技术

自动语音识别系统(Automatic Speech Recognition,ASR)广泛应用到许多产品中，来支持各种业务应用程序，比如：手机助手、智能家居、客服机器人、会议记录等等，已经成为生活中不可或缺的一部分。传统的ASR系统通常由三部分构成，声学模型，发音词典，以及语言模型，构建和调整这些单独的组件通常较为复杂。近些年来，随着计算能力快速发展以及数据资源的急剧增长，将传统语音识别三个模块融合一体的端到端(end-to-end,E2E)ASR系统取得显著的进展。不同于前述的混合架构，E2E模型只需要音频和对应的文本标签，在一个模型中通过训练学习语音到文字的映射，可以直接将语音输入转换为字符序列输出，大大简化了训练过程。目前流行的E2E语音方法主要基于以下三种模型构建：连接时序分类(connectionist temporal classification,CTC)和基于注意力的编解码器(attention based encoder decoder,AED)，以及换能器(transducers)。这些深度学习模型易于搭建、调优，在某些应用场景方面的识别率都超过了基于传统语音识别方法的模型，还可以将多个模型进行灵活的组合，利用不同基础模型的优点来达到更好的效果。

基于CTC构建端到端声学型，无需时间维度上帧级别对齐标签，极大地简化了声学模型训练流程。Graves【Graves A,Fernández S,Gomez F,et al.Connectionist temporalclassification:labelling unsegmented sequence data with recurrent neuralnetworks[C]//Proceedings of the 23rd international conference on Machinelearning.2006:369-376.】首次构建了神经网络连接时序分类(Neural network CTC,NN—CTC)声学模型并验证了其对于声学建模的有效性；Hannun等【HannunA,Case C,Casper J,et al.Deep Speech:Scaling up end-to-end speech recognition[J].ComputerScience,2014.】采用了带有双向递归层的5层RNN，经过CTC损失训练以及语言模型来纠正，在Switchboard数据集上获得了当时最好的结果。同时他们还提出了一些优化方案。Amodei等人【Amodei D,Ananthanarayanan S,Anubhai R,et al.Deep speech 2:End-to-endspeech recognition in english and mandarin[C]//International conference onmachine learning.PMLR,2016:173-182.】在这基础上，使用有13个隐层(包含卷积层)的模型取得了更好的结果。Jaesong Lee【Lee J,Watanabe S.Intermediate lossregularization for ctc-based speech recognition[C]//ICASSP 2021-2021IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2021:6224-6228.】提出了中间CTC损失来规范CTC训练并提高了性能。

基于自注意力的Transformer体系结构由于能够捕获长距离交互和高训练效率而被广泛用于序列建模。但Transformer虽然在提取长序列依赖的时候有效，提取细粒度的局部特征图案的能力却比较弱；【Gulati A,Qin J,Chiu C C,et al.Conformer:Convolu-tion-augmented transformer for speech recognition[J].arXiv preprint arXiv:2005.08100,2020.】中假设全局和局部相互作用对参数有效性都很重要，结合擅长提取局部特征，但需要更多的层或者参数量去捕捉全局信息的CNN，提出了一种新的自我注意和卷积的组合Conformer，实现自我注意学习全局交互作用，而卷积有效地捕获基于相对偏移的局部相关性。

Chan在【Chan W,Jaitly N,Le Q,et al.Listen,attend and spell:A neuralnetwork for large vocabulary conversational speech recognition[C]//2016IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2016.】中提出了Listen,Attend and Spell(LAS)，与之前的方法不同，LAS在标签序列中不做独立性假设，也不依赖于HMM。LAS同样基于具有注意力的序列到序列学习框架。它由一个编码器循环神经网络(RNN)作为听者(listener)，一个解码器RNN作为拼写者(speller)。listener采用金字塔型RNN，将低级语音信号转换为高级特征。speller使用注意机制指定字符序列的概率分布，将这些更高级别的特征转换为输出标签。但前人的工作尚未探索基于最先进的Conformer模型作为listener所带来的效果。

基于以上内容，本发明首先探索了不同编解码器组合而成的LAS语音识别系统的性能，对比了不同编解码器结构下语音识别的准确率；其次，以Conformer编码器结合LAS模型提出了基于Conformer的LAS语音识别模型(Conformer-LAS)；为进一步提高语音识别准确率以及加快模型训练收敛速度，添加CTC解码器联合训练，并加入【Lee J,WatanabeS.Intermediate loss regularization for ctc-based speech recognition[C]//ICASSP 2021-2021IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2021:6224-6228.】中提出的中间层CTC损失作为子任务辅助训练，提出Conformer-LAS-CTC语音识别模型；最后，基于Aishell-1数据集开展语音识别研究，对比不同模型的实验效果，其实验结果验证了本发明提出的Conformer-LAS-CTC语音识别模型的先进性。

发明内容

本发明旨在解决现有技术存在的问题，提供一种基于Conformer的混合CTC/Attention端到端中文语音识别方法。

本发明的技术方案：

一种端到端中文语音识别方法，步骤如下：

一、数据的预处理

对于语音数据进行预加重、分帧、加窗，进行快速傅里叶变换，计算谱线能量，进行Mel滤波，取对数得到Fbank特征；将预处理后的数据分为训练集和验证集；

二、建立基于Conformer的混合CTC/Attention模型

基于Conformer的混合CTC/Attention模型包括三个部分：共享Conformer编码器、CTC解码器和LAS注意力解码器。

所述的共享Conformer编码器首先使用卷积子采样层处理输入，将卷积子采样层处理后的数据输入到N个Conformer编码器块中，每个Conformer编码器块依次包括前馈模块(Feedforward module)、多头自注意力模块MHSA(Multi-head self-attentionModule)、卷积模块(Convolution Module)、前馈模块(Feedforward module)和层归一化，Conformer编码器中每个模块后均设置一个残差单元，其中，前馈模块与多头自注意力模块之间、前馈模块与层归一化之间采用半步残差连接；所述的多头自注意力模块包括层归一化、集成相对正弦位置编码的多头自注意力和dropout；所述的卷积模块包含一个扩展因子为2的逐点卷积，通过GLU激活层投影通道数，然后是一维深度卷积，一维深度卷积后接Batchnorm和swish激活层。共享Conformer编码器将输入的帧级别声学特征x＝(x₁,...x_T)映射到序列高级表示h＝(h₁,h₂,...,h_U)。

所述的LAS注意力解码器采用两层的单向LSTM结构，且引入注意力机制。具体解码过程为：利用局部注意力(local-attention)来关注共享Conformer编码器器输出的信息，利用LSTM来解码出信息，在每个LSTM的输出过程中，LAS注意力解码器将已经生成的文本(y₁,y₂,...,y_s-1)联合共享Conformer编码器输出特征h＝(h₁,h₂,...,h_U)进行注意力解码，最终生成目标转录序列y＝(y₁,y₂,...,y_S)，从而得到输出序列y的概率如下：

在每个时间步t，通过注意力机制计算输出对编码器特征h的条件依赖。注意力机制是当前解码器隐藏状态和编码器输出特征的函数，通过以下机制将编码器特征压缩为上下文向量u_it。

其中h_i为共享Conformer编码器输出特征；向量

b_a，以及矩阵W_h，W_d都是经过学习得到的参数；d_t表示解码器在时间步数t的隐藏状态。然后对u_it进行softmax，得到attention分布：

α_t＝softmax(u_t) (4)

利用α_it通过对h_i加权求和得到相应的上下文向量：

每一时刻，用于捕捉先前输出上下文的注意力解码器隐藏状态d_t经以下方式得到：

其中d_t-1是上一个隐藏状态，

是通过y_t-1学习得到的嵌入层向量。在t时刻，输出y_t的后验概率如下：

P(y_t|h,y＜t)＝softmax(W_s[c_t；d_t]+b_s) (7)

其中W_s和b_s可学习参数。

所述的CTC解码器以共享Conformer编码器输出特征h作为输入进行解码，经过Softmax层之后，CTC解码器的输出为P(q_t|h)，q_t为t时刻的输出，则标签序列l为所有路径概率总和：

式中:Γ(q_t)为标签序列的多对一的映射。因为同一个标签序列可能有多条路径与其对应，所以需要去掉路径中的重复的标签和空白标签。q_t∈A,t＝1,2,...,T，A为加了空白标签“-”的标签集合，输出序列中概率最大的标注序列l^*为：

l^*＝arg_lmaxP(l|h) (9)

CTC解码器的损失函数是所有标签的负对数概率和，可以通过反向传播训练CTC网络：

CTC_loss＝-logP(l|h) (10)

在CTC解码器训练中跳过中间层之后的所有层，加入中间层音素级别CTC损失，即InterCTC_loss作为辅助任务诱导出一个子模型。通过获得CTC解码器的中间表示以计算子模型的损失，与CTC解码器完整模型一样，子模型损失函数如下式：

其中，

表示子模型的输出。

基于Conformer的混合CTC/Attention模型使用CTC解码器和LAS注意力解码器联合优化模型参数，同时加入中间层音素级别CTC解码器损失，用于正则化较底层参数，因此，在训练过程中定义损失函数如下式：

T_loss＝λCTC_loss+μInterCTC_loss+(1-λ-μ)Att_loss (12)

其中，CTC_loss,InterCTC_loss，Att_loss分别是CTC解码器损失，中间层音素级别CTC解码器损失与LAS注意力解码器损失，λ和μ是两个超参数，用于衡量CTC解码器、中间层音素级别CTC解码器与LAS注意力解码器权重。

训练过程中使loss下降曲线收敛到平稳，结束训练，得到最终模型；

三、对基于Conformer的混合CTC/Attention模型进行训练，使用训练好的模型对验证集进行验证，实现端到端中文语音识别。

本发明的技术效果：本发明提出了Conformer-LAS-CTC声学模型用于端到端语音识别。我们研究了不同编解码器组合的识别效果，证明了Conformer编码器与LAS解码器组合，并添加音素级别CTC辅助解码，引入中间CTC损失联合训练。该模型在Aishell-1数据集上显示出最好的性能。本发明还对比了传统语音识别模型和其他端到端模型，验证了Conformer-LAS-CTC声学模型的先进性。该模型在Conformer decoder具有3层LSTM网络时达到了CER4.54％的最佳性能。未来的研究中会探索不同的超参数对模型的影响，以及会研究融合外部语言模型解码提升模型的鲁棒性。

附图说明

图1是Conformer编码器模型架构；

图2是LAS模型架构；

图3是Conformer-LAS-CTC语音识别模型；

图4是训练过程损失；

图5是验证集上字错率。

具体实施方式

1相关工作

1.1Conformer编码器

由Anmol Gulati【Gulati A,Qin J,Chiu C C,et al.Conformer:Convolu-tion-augmented transformer for speech recognition[J].arXiv preprint arXiv:2005.08100,2020.】提出的Conformer对比【Dong L,Xu S,Xu B.Speech-transformer:ano-recurrence sequence-to-sequence model for speech recognition[C]//2018IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2018:5884-5888.】将卷积和自我注意相结合，自我注意学习全局交互作用，而卷积有效地捕获基于相对偏移的局部相关性，从而获得了比单独使用卷积或自我注意更有效的结果。Conformer Encoder首先使用卷积子采样层处理输入，然后使用大量的conformerblock代替【Zhang Q,Lu H,Sak H,et al.Transformer transducer:A streamable speechrecognition model with transformer encoders and rnn-t loss[C]//ICASSP 2020-2020IEEE In-ternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020:7829-7833.】【Karita S,Chen N,Hayashi T,et al.A comparativestudy on transformer vs rnn in speech applications[C]//2019IEEE AutomaticSpeech Recognition and Understanding Workshop(ASRU).IEEE,2019:449-456.】中的Transformer块来处理输入，图1左边展示了Conformer编码器整体架构，右边展示了Conformer block具体结构：

其中Conformer block是由前馈模块(Feedforward module)，多头自注意模块(Multi-head self-attention Module)，卷积模块(Convolution Module)三个模块组成，Conformer block前后各有一个前馈层，多头自注意力模块和卷积模块被夹在中间，并且前馈层采用半步残差连接，每个大模块后面跟着层归一化(Layernorm)，每个模块上都采用了残差单元。通过这种结构，将卷积和Attention串联起来达到增强的效果。

采用的多头自注意模块(MHSA)中，还集成了Transformer XL的一项重要技术，即相对正弦位置编码方案。相对位置编码使得自我注意模块在不同的输入长度上具有更好的泛化能力，并且产生的编码器对话语长度的变化具有更强的鲁棒性。

卷积模块包含一个扩展因子为2的逐点卷积，通过GLU激活层投影通道数，然后是一维深度卷积，卷积后接Batchnorm和swish激活层。

在Conformer block中，前后都部署了相同的Feedforward module，每个FFN都贡献一半的值，称为半步FFN。在数学上，对于第i个Conformer block的输入x_i，输出h_i计算公式如下:

其中，FFN是指前馈模块，MHSA是指多头自注意力模块，Conv是指卷积模块，Layernorm表示层归一化，每个模块间都使用残差连接。

1.2LAS解码器

LAS模型包含了编码器listener，解码器speller和一个注意力网络，大致模型架构如下图所示。

其中listener是声学模型的编码器，执行编码操作，这个操作将输入声学序列x＝(x₁,...,x_T)转换为高层次的表示h，其中高级别特征序列h的长度可以和输入声学序列x一样，或者得到下采样后的短序列。

本发明探索了BLSTM,Transformer,Conformer三种不同的模型结构作为listener对整体语音识别模型的影响。

speller是一个基于注意力机制的解码器，在每个输出步骤中，转换器都会根据之前看到的所有字符生成下一个字符的概率分布，从而得到输出序列y的概率如下：

其中，向量

α_t＝softmax(u_t) (4)

利用α_it通过对h_i加权求和得到相应的上下文向量：

每一时刻，用于捕捉先前输出上下文的解码器隐藏状态d_t经以下方式得到：

其中d_t-1是上一个隐藏状态，

P(y_t|h,y＜t)＝softmax(W_s[c_t；d_t]+b_s) (7)

其中W_s和b_s可学习参数。最后，模型损失函数定义为：

Att_loss＝-log(P(y|x)) (8)

1.3连接时序分类(Connectionist temporal classification,CTC)

CTC在标注符号集中加入了一个空白符号(blank)，它意味着此帧没有预测值输出。因而在模型的预测输出中就包含了很多空白符号，一个音素对应的一整段语音中只有一个尖峰被识别器确认，其他都被识别为空白，结果相当于自动的切分了音素边界，实现了将空白符号和连续出现的状态进行了消除，就能得到最终预测的字符序列。

在给定输入序列h下，经过Softmax层输出之后，网络的输出为P(q_t|h)，q_t为t时刻的输出，则标签序列l为所有路径概率总和为:

式中:Γ(q_t)为标签序列的多对一的映射。因为同一个标签序列可能有多条路径与其对应，所以需要去掉路径中的重复的标签和空白标签。q_t∈A,t＝1,2,...,T，A为加了空白标签“-”的标签集合，输出序列中概率最大的标注序列为：

l^*＝arg_lmaxP(l|h) (9)

CTC的损失函数是所有标签的负对数概率和，可以通过反向传播训练CTC网络：

CTC_loss＝-logP(l|h) (10)

2模型架构

为了实现更好的语音识别模型，本发明采用Conformer模型作为编码器(listener)，LAS模型的Attention and spell部分与CTC模型联合解码，共同构造端到端的Conformer-LAS-CTC语音识别系统。图3给出了该模型架构。

它包括三个部分，一个共享编码器，一个CTC解码器和一个注意力解码器。共享编码器由N个Conformer编码器层组成。CTC解码器由线性层和对数softmax层组成，CTC损失函数应用于训练中的softmax输出。LAS解码器结构在前文1.2中详细介绍。

2.1 Conformer与LAS结合

和其他编码器模型的对比实验中，Conformer都实现了最好的效果。其中卷积块在效果上最为重要，两个半步FFN的效果也优于只有一个FFN的结构。在多头自注意力机制中集成相对正弦位置编码，即使输入长度不同，自我注意模块也具备很好的泛化能力和更强的鲁棒性。所以在本发明提出的模型中，使用Conformer编码器将输入的帧级别声学特征x＝(x₁,...x_M)映射到一种序列高级表示(h₁,h₂,...,h_U)。

LAS解码器则通过使用注意力机制指定字符序列的概率分布，相较于其他端到端模型，LAS网络生成字符序列，而不对字符之间进行任何独立假设。这也决定了该模型解码会带来更好的精确度。在本发明提出的结构中，采用Conformer编码器与LAS解码器联合，解码器将已经生成的文本(y₁,y₂,...,y_s-1)联合隐藏状态(h₁,h₂,...,h_U)进行注意力解码，将这些更高级别的特征转换解码，最终生成目标转录序列(y₁,y₂,...,y_S)。

2.2 CTC辅助训练

由于CTC可以被视为一种能够直接优化输入序列与输出目标序列似然度的目标函数，在此目标函数下，CTC在训练过程中自动学习并优化输入、输出序列的对应关系，所以本发明结构加入音素级别CTC解码器辅助训练。

在残差网络正则化技术中，随机深度通过随机跳过一些层来帮助训练非常深的网络，但由于其集成策略，它对正则化低层无效。受此启发，在CTC训练中跳过中间层之后的所有层，加入中间CTC损失(InterCTC_loss)作为辅助任务来诱导子模型。训练依赖于较低层的子模型可以规范整个模型的较低部分，从而进一步改善CTC的性能。

我们考虑具有CTC损失函数的N层编码器，由于子模型和完整模型共享较低的结构，通过获得模型的中间表示以计算其相应的CTC损失，与完整模型一样，对子模型同样使用CTC损失：

子模型的输出表示为

即完整模型的中间表示。再用原始CTC损失和中间CTC损失进行训练，以很小的计算开销正则化较低层。

2.3多任务损失

CTC可以学习声学特征和标签序列之间的单调对齐，这有助于编码器更快地收敛；基于注意的解码器可以学习目标序列之间的依赖关系。因此，将CTC和注意损失相结合不仅有助于基于注意的解码器的收敛，而且使混合模型能够利用标签依赖性。

本发明模型使用CTC和LAS解码器联合优化模型参数，同时加入中间层音素级别CTC损失，用于正则化较底层参数，以进一步提高模型性能，因此，在训练过程中定义损失函数如下式：

其中，CTC_loss,InterCTC_loss，Att_loss分别是CTC损失，中间层CTC损失与attention损失，λ和μ是两个超参数，用于衡量CTC、中间层CTC与attention权重。

3实验结果及分析

3.1实验数据

本发明实验使用的数据集为希尔贝壳开源的178h数据集(Aishell-1)，采样率16kHz。包括400位来自中国不同口音区域的发音人，语料内容涵盖财经、科技、体育、娱乐、时事新闻。其中按无交叠原则划分为训练集、验证集以及测试集，训练集120418条音频，验证集14331条音频，测试集7176条音频。

3.2实验平台

本发明实验所采用的硬件配置为Intel(R)Core(TM)i7-5930K处理器，32GB运行内存，GPU显卡为NVIDIA GeForce GTX TITAN X；软件环境为64位Ubuntu18.04操作系统上搭建的Pytorch深度学习环境。

3.3实验步骤

本发明实验中，使用80维FBank(Filter Banks)作为输入特征，其中帧长为25ms，帧移为10ms。在训练时我们使用Adam【Kingma D P,Ba J.Adam:A method for stochasticopti-mization[J].arXiv preprint arXiv:1412.6980,2014.】优化器，并使用【Zhang Q,Lu H,Sak H,et al.Transformer transducer:A streamable speech recognition modelwith transformer encoders and rnn-t loss[C]//ICASSP 2020-2020IEEE In-ternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020:7829-7833.】中的学习率自适应变化策略，其中热身步数为25k，最高学习率为0.001。本发明实验对于训练集音频应用变速0.9,1.1来扩充数据集^[26]，以及使用Google提出的SpecAugment【Park D S,Chan W,Zhang Y,et al.Specaugment:Asimple dataaugmentation method for automatic speech recogni-tion[J].arXiv preprintarXiv:1904.08779,2019.】来随机掩盖时域频域的一部分信息，其中掩盖参数为F＝27,T＝100。在音频特征输入部分使用两个2-D卷积神经网络(CNN)模块，每个模块都有两个卷积神经网络以及批次归一化层(BatchNorm2d)以及ReLu激活函数，每个CNN都有32个滤波器组，每个滤波器内核大小为3x3，步长为1。然后接2维最大池化层(2D-MaxPool)，内核大小为2x2，步长为2，然后再通过线性层(Linear)输出为256的维度，最后再使用2个核大小为2，步长为2的一维最大池化层(1D-Maxpool)进行下采样，减少语音特征冗余信息。主体网络结构是LAS，Listen使用基于Conformer的Encoder结构中参数配置为多头注意层使用d_model＝256,h＝4,前馈神经网络层d_ff＝1024,卷积模块中Pointwise CNN输入通道为256，输出为512，卷积核大小为1，depthwise CNN输入通道为256，输出通道为256，卷积核大小为15，其中使用的Swish^[28]激活函数，每个模块之前都使用了Layernorm和残差连接来加速模型训练收敛，使用每层dropout比率为0.1来提高模型鲁棒性。在编码器中间层，使用了基于音素级别的CTC loss(权重为0.1)来辅助训练，attend中利用局部注意力(local-attention)来关注编码器器输出的信息，spell利用LSTM来解码出信息，其中输入维度为1024，训练中使用dropout，比率为0.3。本发明所有的实验结果都是在无外部语言模型和超参数优化的情况下得到的。

3.4实验分析

本发明首先在Aishell-1数据集上验证了所提出的Conformer-LAS,以及使用音素级别中间层CTC损失(权重为0.1)辅助训练的Conformer-LAS-CTC效果，并将其与基线模型以及其他编解码器组合模型的实验效果进行对比，如表1所示。我们使用字错率CER作为评判标准，所有的评估结果都四舍五入保留至小数点后2位。

表1不同编解码器在Aishell-1上的实验结果

从表1可以看出：

(1)在解码器都采用LAS模型时，所提出的Conformer-LAS-CTC模型相对于以BLSM为编码器的模型测字错率相对降低了19.52％，相对于Transformer编码器模型更是相对降低了46.74％。

(2)使用音素级别中间CTC损失辅助训练的Conformer-LAS-CTC(+Inter CTC)模型获得了最优效果，相对于Conformer-LAS-CTC模型在测试集上又获得了2.11％的提升。

为了更好的体现各模型之间的差异，本发明在训练集中每隔1000步选取一个损失值，各模型在训练集上的损失曲线如图4所示；在验证集中选取前80epoch，训练过程的识别字错率(CER)曲线如图5所示。

从图4训练过程损失曲线中可以看出，在最初的0-10k步中，Conformer-LAS-CTC就已经体现出优势，相比Transformer-LAS和Conformer-LAS模型的loss曲线，其斜率更大，下降更快，在10k步之后Conformer-LAS-CTC相比于blstm-LAS模型则更加平稳，这意味着Conformer-LAS-CTC模型相比于其他模型可以快速且稳定地训练出loss值。从图5验证集上字错率曲线中可以看到，随着迭代次数的增加，模型逐渐趋于收敛，字错率最终都稳定在一个固定范围内，Conformer-LAS和Conformer-LAS-CTC的字错率都明显低于BLSTM-LAS模型和Transformer-LAS。其中Conformer-LAS-CTC采用Conformer-LAS编解码器学习目标序列之间的依赖关系，并采用CTC辅助加快收敛，在训练集上能学到更多的信息，模型泛化性能和准确率都得到了提升。

本发明还将所提出的模型与传统语音识别方法以及近两年主流的端到端模型上在Aishell-1的效果进行了对比，结果如表2所示。

表2不同声学模型在Aishell-1上的实验结果

(1)Guo P,Boyer F,Chang X,et al.Recent developments on espnet toolkitboosted by conformer[C]//ICASSP 2021-2021IEEE International Conference onAcoustics,Speech and Signal Processing(ICASSP).IEEE,2021:5874-5878.

(2)Zhang B,Wu D,Yang C,et al.WeNet:Production First and ProductionReady End-to-End Speech Recognition Toolkit[J].arXiv preprint arXiv:2102.01547,2021.

(3)朱学超,张飞,高鹭,等.基于残差网络和门控卷积网络的语音识别研究[J/OL].计算机工程与应用:1-8[2021-12-27].ZHU X C,ZHANG F,GAO L,et al.Research onSpeech Recognition Based on Residual Network and Gated Con-volutionNetwork.CEA:1-8[2021-12-27].

(4)谢旭康,陈戈,孙俊,陈祺东.TCN-Transformer-CTC的端到端语音识别[J/OL].计算机应用研究:1-6[2021-12-27].DOI:10.19734/j.issn.1001-3695.2021.08.0323.XIEX K,CHEN G,SUN J,et al.TCN-Transformer-CTC for end-to-end speechrecognition.Application Research of Comput-ers:1-6[2021-12-27].DOI:10.19734/j.issn.1001-3695.2021.08.0323.

(5)Liang C,Xu M,Zhang X L.Transformer-based end-to-end speechrecognition with residual Gaussian-based self-attention[J].arXiv preprintarXiv:2103.15722,2021.

(6)Li S,Xu M,Zhang X L.Conformer-based End-to-end Speech RecognitionWith Rotary Position Embedding[J].arXiv preprint arXiv:2107.05907,2021.

从表中相比于其他端到端模型，本发明提出的模型也进一步降低了字错率，这清楚地证明了所提出的Conformer-LAS-CTC模型的有效性。

为了进一步验证所提出的模型性能，我们还探索了不同解码层数对语音识别效果的影响，通过控制LAS解码器中所采用的LSTM层数分别为1层、2层、3层，将获得的实验结果进行对比，结果如表3所示。

表3不同解码层次实验结果

从表中可以看出随着spell层数增加，语音识别模型在测试集上的字错率逐渐下降，由此得出更多的解码器层将有利于获得更好的识别效果。所提出的模型在组合3层解码层时达到了4.54％的错误率。

Claims

1.一种端到端中文语音识别方法，其特征在于，步骤如下：

一、数据的预处理

二、建立基于Conformer的混合CTC/Attention模型

基于Conformer的混合CTC/Attention模型包括三个部分：共享Conformer编码器、CTC解码器和LAS注意力解码器；

所述的共享Conformer编码器首先使用卷积子采样层处理输入，将卷积子采样层处理后的数据输入到N个Conformer编码器块中，每个Conformer编码器块依次包括前馈模块、多头自注意力模块MHSA、卷积模块、前馈模块和层归一化，Conformer编码器中每个模块后均设置一个残差单元，其中，前馈模块与多头自注意力模块之间、前馈模块与层归一化之间采用半步残差连接；所述的多头自注意力模块包括层归一化、集成相对正弦位置编码的多头自注意力和dropout；所述的卷积模块包含一个扩展因子为2的逐点卷积，通过GLU激活层投影通道数，然后是一维深度卷积，一维深度卷积后接Batchnorm和swish激活层；共享Conformer编码器将输入的帧级别声学特征x＝(x₁,...x_T)映射到序列高级表示h＝(h₁,h₂,...,h_U)；

所述的LAS注意力解码器采用两层的单向LSTM结构，且引入注意力机制；具体解码过程为：利用局部注意力来关注共享Conformer编码器器输出的信息，利用LSTM来解码出信息，在每个LSTM的输出过程中，LAS注意力解码器将已经生成的文本(y₁,y₂,...,y_s-1)联合共享Conformer编码器输出特征h＝(h₁,h₂,...,h_U)进行注意力解码，最终生成目标转录序列y＝(y₁,y₂,...,y_S)，从而得到输出序列y的概率如下：