CN114023316B - 基于TCN-Transformer-CTC的端到端中文语音识别方法 - Google Patents

基于TCN-Transformer-CTC的端到端中文语音识别方法 Download PDF

Info

Publication number
CN114023316B
CN114023316B CN202111298827.1A CN202111298827A CN114023316B CN 114023316 B CN114023316 B CN 114023316B CN 202111298827 A CN202111298827 A CN 202111298827A CN 114023316 B CN114023316 B CN 114023316B
Authority
CN
China
Prior art keywords
layer
ctc
tcn
loss
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111298827.1A
Other languages
English (en)
Other versions
CN114023316A (zh
Inventor
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uniform Entropy Technology Wuxi Co ltd
Original Assignee
Uniform Entropy Technology Wuxi Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uniform Entropy Technology Wuxi Co ltd filed Critical Uniform Entropy Technology Wuxi Co ltd
Priority to CN202111298827.1A priority Critical patent/CN114023316B/zh
Publication of CN114023316A publication Critical patent/CN114023316A/zh
Application granted granted Critical
Publication of CN114023316B publication Critical patent/CN114023316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了基于TCN‑Transformer‑CTC的端到端中文语音识别方法,属于语音识别领域。针对目前现有技术的问题,本发明首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出了识别中效果更好,泛化性更强的TCN‑Transformer‑CTC模型。不使用任何语言模型的情况下,在希尔贝壳中文普通话开源语音数据库AISHELL‑1上的实验结果表明:TCN‑Transformer‑CTC相较于Transformer字错误率相对降低10.91%,模型最终字错误率为5.31%。

Description

基于TCN-Transformer-CTC的端到端中文语音识别方法
技术领域
本发明属于语音识别领域,具体涉及一种TCN-Transformer-CTC的端到端中文语音识别方法。
背景技术
自动语言识别(Automatic Speech Recognition,ASR)技术可以让人与人、人与机器更顺畅的交流,目前,随着语音识别技术快速发展,语音识别技术在智能客服、智能家具、车载系统、机器人等领域广泛应用。传统的连续语音识别系统是由多个复杂的模块组成,包括训练基于隐马尔可夫模型(HMM)的声学模型,构建发音字典以及语言模型,因此是一项复杂的工程。其一般步骤为,首先需要专业语言学家设计的发音字典,然后将声学模型产生的音素序列映射到单词序列,进而使用大量文本数据训练的语言模型对单词序列进行打分,最终得出最后的预测文本。
传统的语音识别模型的处理流程复杂,近年来,伴随着计算能力的提高以及数据资源的扩展,端到端的语音识别系统将声学模型、发音字典、语言模型集成到单个系统中共同训练,极大地简化了训练和推理过程,因此成为当前的研究热点。一般的端到端语音识别系统主要有:连接主义时序分类(Connectionist temporal classification,CTC)和基于注意机制(attention)的系统。基于两种方法的ASR系统都可以解决语音识别中输入和输出序列的变化长度的问题。基于CTC的模型将语音识别看做分类问题,每一声学输入帧对应一个输出标签,利用重复标签和空白标签来鉴别没有输出标签的声学帧,可以很好的实现对齐问题,但CTC在输出标签之间有很强的独立性假设,忽略了上下文联系,因此在没有强大的语言模型情况下不能表现良好。另一方面,基于attention的编解码器模型直接将声学帧序列映射到标签序列,同时在解码器中考虑了输出标签的上下文关系,所以效果一般比基于CTC的模型效果好,但在实际场景中,由于噪音的影响会导致注意力的对齐机制崩溃,从而结果不如预期。同时结合attention模型和CTC模型优势的混合attention/CTC端到端模型引起了研究人员的关注,在训练过程中,CTC作为基于attention的编解码器模型的辅助训练任务,可以加快模型的收敛速度以及提高模型准确度,他们将CTC应用于基于attention的循环神经网络(Recurrent Neural Network,RNN)编解码器模型中,但RNN的顺序性限制了训练的计算并行化,在处理语音这种长序列输入时相当耗时。Linhao Dong等人[Watanabe S,Hori T,Kim S,et al.Hybrid CTC/attention architecture for end-to-end speech recognition[J].IEEE Journal of Selected Topics in SignalProcessing,2017,11(8):1240-1253.]提出基于Transformer的端到端语音识别模型,其编码器,解码器基本模块都是自我注意力(self-attention),不同于RNN一一计算位置链来绘制不同位置之间的依赖关系,self-attention通过位置对获取时序信息,只需要计算一次即可获得变换表示,省去了RNN中逐个计算步骤,因此可以通过更多的并行化训练。基于Transformer的语音识别模型在获得更快的训练的速度同时可以获得与基于RNN编解码器的模型相媲美的识别率。但由于Transformer中的多头自主力机制对位置信息不敏感,所以引入相应的位置编码(Position Encoding),随后Alex Bie[Zhou S,Dong L,Xu S,etal.Syllable-based se-quence-to-sequence speech recognition with the tr·ansformer in mandarin chinese[J].arXiv preprint arXiv:1804.10752,2018.]等人的工作指出位置信息会随着网络层的增加而逐渐丢失,以及卷积神经网络(ConvolutionalNeural Network,CNN)替代Position Encoding获取位置信息可以提升模型效果。
然而,上面所例举的工作基本上都专注于英语ASR任务,英文语音识别一般通过子词、CI音素、上下文相关音素和单词模型等发音单元构建模型,且都已取得了不错的效果,但基于attention的普通话ASR任务却少有研究。由于中文和英文两种语言之间存在一些明显的差异,普通话发音的逻辑单元是音节,不同的声调可以代表不同的字,所以无法直接将上述方法应用于中文普通话的端到端语音识别中,需要结合模型和普通话发音特点进行改进。
发明内容
本发明旨在提出混合attention/CTC端到端的中文语音识别模型(TCN-Transformer-CTC),并利用时序卷积神经网络(Temporal convolutional neural,TCN)替代解码器端Position Encoding,前面层通过TCN学习局部位置关系,长距离位置关系则留给后续层学习。此外本发明模型在编码器、解码器中引入了拼接操作来削弱位置信息在网络层次流动时的衰减。本发明最好的模型配置,在无外部语言模型或者超参数调整的情况下在开源数据集Aishell-1,aidatatang上相比前人的一些工作均得到了相应的提升,测试集字错误分别为5.39%,6.19%。
本发明的技术方案:
基于TCN-Transformer-CTC的端到端中文语音识别方法,步骤如下:
步骤一、数据的预处理
对于语音数据进行预加重、分帧、加窗,进行快速傅里叶变换,计算谱线能量,进行Mel滤波,取对数得到80维Fbank特征;将预处理后的数据分为训练集和验证集;
步骤二、建立时间序列卷积网络-转换器-连接性时序分类网络模型,即TCN-Transformer-CTC模型
TCN-Transformer-CTC模型包括前置处理模块、编解码器模块和混合连接性时序分类/注意力损失模块;
所述的前置处理模块包括声学前置模块、文本前置模块;在声学前置模块中使用K个2-D卷积模块,每个2-D卷积模块包含2-D卷积层、批次归一化层和ReLU激活层;2-D卷积模块后连接线性层,最后使用位置编码获取包含绝对位置信息的声学特征;在文本前置模块中,先使用嵌入层将文本标签映射到隐藏空间,通过位置编码后,使用J个时间序列卷积模块TCN来学习隐式的位置关系以及加强文本元素之间的联系,每个时间序列卷积模块包括1-D卷积层、归一化层和ReLU激活层;
所述的编解码器模块包括编码器和解码器;二者分别由若干个相同的模块堆叠组成;其中,编码器每个模块包括多头注意力(Multi-Head Attention)层,时间序列卷积模块(TCN)和位置前馈(Feed Forward)层,每个层后都使用残差连接(skip connection)和层归一化(Layer norm);在信息流入编码器的多头注意力层的同时并行输入到TCN模块中,用于更好的融合布局和全局信息,以及利用TCN来学习序列一直的位置关系,随后增加了拼接(Concat)层将经过多头注意力层的输出信息和经过TCN的输出信息融合起来;解码器每个模块包括掩盖未来信息的多头注意力(Masked Multi-Head Attention)层、编码器解码器注意力(CrossMulti-Head Attention)层和位置前馈(Feed Forward)层,每个层后都使用残差连接(skip connection)和层归一化(Layer norm),在解码器掩盖未来信息的多头注意力(Masked Multi-Head Attention)层后增加了拼接(Concat)层;
所述的混合连接性时序分类/注意力损失模块使用CTC目标函数作为辅助任务,CTC的前向后向算法在语音和标签序列之前强制进行单调对齐,混合CTC/注意力损失定义为CTC损失和注意力损失的加权和:
Tloss=λCTCloss+(1-λ)ATTloss (9)
其中,参数λ∈[0,1],用来衡量CTC损失和注意力损失的重要程度;Tloss为混合CTC/注意力损失,CTCloss为CTC损失;ATTloss为注意力损失;
训练过程中使loss下降曲线收敛到平稳,结束训练,得到最终模型;
步骤三、利用训练接对TCN-Transformer-CTC模型进行训练,使用训练好的对TCN-Transformer-CTC模型对验证集进行验证,实现端到端中文语音识别。
进一步地,80维Fbank特征表示为(batch,max_len,feat_dim);其中,batch表示批次,max_len表示音频时域长度,feat_dim表示梅尔滤波器组数这里为80。
本发明的有益效果:在本发明中,提出使用时延卷积网络TCN学到的输入表征来代替原来位置编码的绝对位置表征,以及在在声学前置处理模块使用1-D最大池化层来减少参数量以及语音特征的冗余。文本提出的TCN-Transformer以及TCN–Transformer-CTC用于普通话语音识别两种端到端语音识别模型,相较于传统的模块化模型需要大量的人工准备,只需要训练一个单一模型,通过大量的实验验证了本发明提出的声学模型可以超过一般的传统方法和端到端模型的识别率,还可以方便的对模型的整体性能进行调优。后续的研究中会通过加入模型融合的方法以及使用无监督学习来进一步提高识别率和模型的鲁棒性,以及验证TCN在不同的层数Transformer中所带来的收益。
附图说明
图1为按比例缩放的点积注意力架构。
图2为多头注意力结构图。
图3为TCN-Transformer-CTC模型架构。
图4(a)为声学前置模块。
图4(b)为文本前置模块。
图5为编码器和解码器架构。
图6为AISHELL-1数据集的损失曲线,其中(a)为AISHELL-1验证集损失变化曲线,(b)为AISHELL-1验证集损失变化曲线。
具体实施方式
1.连接时序分类与注意力机制
1.1连接时序分类(Connectionist temporal classifi-cation,CTC)
CTC模型是由Graves等【Graves A,Fernández S,Gomez F,et al.Connectionisttemporal classification:labelling unsegmented sequence data with recurrentneural networks[C]//Proceedings of the 23rd international conference onMachine learning.2006:369-376.】提出的一种时序分类方法,相比传统语音识别需要做预先对齐的操作,它直接将输入音频序列映射到单词或其它建模单元(例如音素和字符)的系统,极大简化了语音识别模型地构建和训练。同时CTC引入了空白标签,让网络在判断当前输入语音帧时可以得到缓冲,解决了重复字符和连续标签对齐的问题。
首先,CTC引入了一个潜在变量CTC路径π=(π12,...,πL)作为输入序列的帧级别标签,并在相邻的相同标签中则插入特殊的“空白”符号表示空输出。通过去除相同标签的重复以及空白符号,可以将不同的输出路径映射到特定的标签序列。它假定不同帧上的标签是条件独立的,然后分别计算每个帧对应标签的条件概率,最后一条CTC路径的概率为每个帧对应标签概率的积,计算公式如下:
其中x为输入声学帧序列,T表示声学帧长度,qtt)表示在第t的声学帧时,应输出标签πt的softmax概率。
进而,我们得出最终输出的标签序列的概率为:
其中y是输出标签序列,表示所有CTC路径π中能映射到标签序列y的集合。
采用一种前向后向算法可以快速的对所有可能的CTC路径进行求和,标签y的概率可以通过前向变量:
其中i是输出标签索引,t是输入帧索引,αt(i)是前向变量,表示在时刻t状态为i时,前面的时刻观察到标签y的前一部分状态的概率,βt(i)是后向变量,表示时刻t状态i开始,观察到标签y的后一部分状态的概率。
CTC损失定义为输出标签序列概率的负对数似然:
CTCloss=-lnP(y|x) (4)
1.2多头注意力(Multi-head attention)
注意力(attention)是指对于某个时刻的输出在输入上各部分的权重。区别于序列到序列(seq2seq)模型里使用的加性注意力(additive attention),本发明模型选择了按比例缩放的点积注意力(Scaled Dot-Product Attention),模型结构如图1所示。【Ashish V aswani,Noam Shazeer,Niki Parmar,et al.Attention is all you need[J]arXiv preprint arX-iv:1706.03762,2017.】三个输入分别为查询Q、键K、值V,Q和每个K遵循点积相似度函数计算方法来获得权重,同时通过除以一个K的维度进行放缩,采用softmax函数对这些权重进行归一化处理,以解决内积值太大的问题:
其中t表示输入数量,d表示输入的相应元素尺寸。
多头注意力结构(Multi-Head Attention)由google机器翻译团队于2017年提出[13],作为注意力机制的一种变体,它由多个Scaled Dot-Product Attention的基础单元堆叠而成,可以对输入信息进行并行处理,由点积注意力提取多组不同信息,并进行拼接处理。其优点在于可以从不同的子空间中获取到多种维度的相关信息。
Multi-Head Attention如图2所示,通过式(6)计算出h头点积注意力,再将各子空间的输出进行Concat拼接并投影,输出注意力后的特征矩阵:
其中H表示注意力头数量,可训练参数矩阵dk=dm/H。
通过不同的线性变化,如输入映射到不同的子空间,可以使模型从不同角度理解输入的序列,以使最终的输出融合更多角度的特征信息。
2.模型架构
本发明提出的TCN–Transformer-CTC模型结构如图3所示,它由前置处理模块(声学前置模块、文本前置模块),编解码器(encoder-decoder),混合CTC/attention loss组成。它将ASR看做序列到序列任务,encoder将输入的帧级别声学特征x=(x1,...xT)映射到一种序列高级表示(h1,h2,...,hN),decoder通过已经生成的文本(y1,y2,...,yl-1)联合经过注意力调节的隐藏状态(h1,h2,...,hN)解码生成,最终生成目标转录序列(y1,y2,...,yL)。
2.1前置处理模块
前置处理模块分为声学前置模块和文本前置模块。在声学前置模块中使用K个2-D卷积模块,每个卷积模块包含一个2-D卷积层,一个批次归一化层,一个ReLU激活层。下采样后的特征经过线性层后得到一个更高级的特征,最后使用位置编码获取声学特征的绝对位置信息,具体结构如图4(a)。文本前置模块中,使用J个TCN模块来学习隐含的位置关系,具体结构如图4(b),实验表明这种结构是非常有效的。
2.2编解码器(encoder-decoder)
编码器和解码器的结构如图5所示,由若干个相同的模块堆叠组成,每个模块具有两个主要的子层结构,分别是Multi-Head Attention层和前馈网络层(Feed Forward),在每个子层后都使用残差连接(skip connection)和层归一化(Layer norm)。解码器与编码器不同的是使用了掩盖未来信息的多头注意注意力机制,使解码时不能看见未来的标签信息,以及在第二个Mult-Head Attention层使用的是跨越注意力(cross-attention)。区别于Linhao Dong等人【Dong Linhao,Xyu Shuang,Xyu Bo.Speech-transformer:a no-recurrence sequence-to-sequence model for speech recognition[C]//IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2018:5884-5888.】中的Transformer模型,首先,本发明对编码器解码器结构进行调整,在编码器部分,使用并行TCN结构,其作用是与Multi-Head Attention层处理后的特征进行融合,提取更多特征的同时减缓位置信息的消失;其次,解码器输出部分还会输入到CTC结构中,来辅助模型训练,加速训练收敛速度。
2.3混合CTC/attention损失
本发明模型使用CTC目标函数作为辅助任务,与注意力模型不同,CTC的前向后向算法可以在语音和标签序列之前强制进行单调对齐,使模型在嘈杂的外部环境中鲁棒性更好,同时,可以加速模型训练的收敛速度。TCN-Transformer-CTC模型结合了CTC以及attention的优势,损失函数定义为CTC损失和attention损失的加权和:
Tloss=λCTCloss+(1-λ)ATTloss (8)
其中参数λ∈[0,1],用来衡量CTC损失和attention损失的重要程度。
3.实验结果及其分析
3.1实验数据
本发明在希尔贝壳中文普通话开源数据库AISHELL-ASR0009-OS1(AISHELL-1)【BuH,Du J,Na X,et al.Aishell-1:An open-source manda-rin speech corpus and aspeech recognition base-line[C]//201720th Conference of the Oriental Chapterof the International Coordinating Committee on Speech Da-tabases and SpeechI/O Systems and Assessment(O-COCOSDA).IEEE,2017:1-5.】和数据堂开源的中文语音数据集(aidatatang_200zh)【Beijing DataTang Technology Co.,Ltd,“aidatatang 200zh,a free Chinese Mandarin speech corpus,”.】上进行模型验证。其中Aishell-1语料库是由400名来自中国不同口音区域的发言人参与录制,时长178小时,录音准确率在95%以上;aidatatang_200zh语料库是由600位来自中国不同口音区域的发言人参与录制,时长200小时,录音准确率不低于98%。两种数据集都按照无交叠原则划分为训练集、开发集以及测试集。
3.2实验环境
实验硬件环境为Intel(R)Xeon(R)CPU E5-2620 v3@2.40GHz处理器,64GB运行内存,GPU显卡为NVIDIA Tesla K80(四显卡);软件环境为64位Centos7操作系统下搭建的Pytorch深度学习框架。
3.3实验步骤
对于输入音频特征,统一采用80维对数梅尔滤波器特征(Fbank),25ms每帧,移动窗口为10ms,并在特征输入之前进行了全局归一化(global-cmvn)。对于输出,其中AISHELL-1采用了4233个大小的词汇集,该词汇集包括训练集文本的4230个中文普通话字符;aidatatang_200zh采用了3944个大小的词汇集,该词汇集包括训练集文本的3941个字符。另外,两个数据集的词汇集中都加入了额外的三个令牌字符,分别为空白字符<blank>,未知字符<unk>以及开始结束标志<sos/eos>。对于验证集和测试集的标签,我们将集外词(OOV)全部处理为<unk>标签。为了产生更多的训练数据以及提高模型鲁棒性,我们在训练集的音频上应用了0.9,1.1的在线速度扰动,以及在时域和频域上掩盖掉一部分信息等语音增强技术。
本发明实验模型具有以下配置:(1):声学前置模块中使用两个2-D CNN模块,每个模块都有一个CNN层以及ReLu激活函数,每个CNN都有256个滤波器组,每个滤波器内核大小为3x3,步长为1,进行下采样,减少语音特征冗余信息。(2):encoder-decoder模块中,encoder由12层相同子层组成,所有子层由TCN与Multi-head attention并行层以及Feed-forward层构成,其中,TCN卷积核大小为3,填充为2,膨胀因子为1,Multi-head attention层均产生维度为256的输出,注意力头H为4,在Feed-forward中,内部维度为2048。decoder由6层相同子层组成,Multi-head attention,Feed-forward层模块结构、参数设置与编码器相同。(3):在文本前置处理模块中,本发明使用3个相同TCN模块,每个模块都使用图4(b)中描述的结构组成,其中一维卷积输入滤波器为256,卷积核为3,步长为1,填充为2,膨胀因子为1。
此外,在训练过程,将样本根据音频长度升序排序进行训练,batchsize为26,实验使用超参数β1=0.9,β2=0.98,ε=109的Adam【Diederik Kingma and Jimmy Ba,“Adam:Amethod for stochastic optimization,”arXiv preprint arXiv:1412.6980,2014.】优化器,并在整个训练过程中根据以下公式动态调节学习率:
其中n为训练步数,k为缩放因子,warmup_n为热身步数,dmodel为注意力中矩阵维度。本发明使用k为10,dmodel为256,warmup_n为25000步,训练240个epoch。为了防止过拟合,我们在每个子层中比率为0.1的Dropout。在训练完成之后,本发明使用模型参数平均方法【Izmailov P,Podoprikhin D,Garipov T,et al.Averaging weights leads to wideroptima and better generalization[J].arXiv preprint arXiv:1803.05407,2018.】,将在验证集表现最好的30个epoch的参数进行平均作为最终模型的参数,使模型权重更接近最近的局部最小值。在推理过程中,采用宽度为10的集束搜索方法(beam search)【KumarA,Vembu S,Menon AK,et al.Beam search algo-rithms for multilabel learning[J].Machine learning,2013,92(1):65-89.】得到最后预测文本。所有实验结果都是在无外部语言模型或者超参数调整下获得的最佳性能。
3.4评价标准及实验分析
本发明所有实验都是基于端到端语音识别工具WeNet【Zhang B,Wu D,Yang C,etal.WeNet:Production First and Production Ready End-to-End Speech RecognitionToolkit[J].arXiv preprint arXiv:2102.01547,2021.】开展,分别在AISHELL-1和aidatatang_200zh数据集的训练集上进行训练,在各自的验证集和测试集上评价实验结果。评价标准采用字错率(Character Error Rate,CER),即:
CER=(S+D+I)/N (10)
其中S为替换,D为删除,I为插入,N为句子字数。为了验证本发明提出模型的识别性能,我们将改进后最新模型的attention解码结果与WeNet的基线模型、开源的端到端语音识别工具espent【Watanabe S,Hori T,Karita S,et al.Espnet:End-to-end speechprocessing toolkit[J].arXiv preprint arXiv:1804.00015,2018】上现有模型在AISHELL-1和aidatatang_200zh数据集上获得的结果进行比较。
3.4.1 AISHELL-1实验结果分析
首先,我们将所有对比的声学模型,包括Espnet中的Transformer模型(Espnet-Transfomer),以及本发明的基线系统Transformer(CTC权重为0),Trans-former-CTC(CTC权重为0.3)在AISHELL-1数据集上进行了基于字符为建模单元的声学模型实验并进行对比分析,其实验结果如表1所示。
从表1可以看出,TCN-Transformer相对于ESPnet-Transformer【Zhang B,Wu D,Yang C,et al.WeNet:Production First and Production Ready End-to-End SpeechRecognition Toolkit[J].arXiv preprint arXiv:2102.01547,2021.】和本发明基线系统Transfomrer错误率分别下降了15.1%和3.9%。TCN-Transfomrer-CTC相比Transformer-CTC也下降了6.68%,验证了利用TCN结构捕捉特征以及获取隐含位置信息的有效性。
表1不同声学模型在Aishell-1上的实验结果
为了更好的体现各模型之间的差异,本发明在训练集损失集中每隔1000步选取一个损失值,验证集中选取50epoch之后的损失曲线作为展示。其中各模型在训练集以及验证集上的损失曲线如图6中的(a)与图6中的(b)所示。
从图(6)中声学模型在AISHELL-1上训练集和验证集损失曲线可以看出,TCN-Transformer相比Transformer声学模型loss下降更快,更平稳。从验证集损失图可以看到,由于加入CTC联合训练的原因,Transformer-CTC loss比Transformer的最终loss大,基于Transformer-CTC改进的TCN-Transformer-CTC结合了CTC,attention,TCN三者的优点,在训练集上能学到更多的信息,从而泛化性更好,验证集上的loss相比Transformer-CTC的loss可以进一步降低,最终模型在测试集达到5.31%的错误率。因此可以看出融入TCN模块的声学模型识别效果更好。
3.4.2 aidatatang_200zh实验结果分析
本发明继续在aidatatang_200zh数据集上重新训练Transformer以及TCN-Transformer声学模型,训练完成后,分别在Transformer和TCN-Transformer引入CTC(权重为0.3)混合训练微调80epoch,来验证TCN-Transformer和TCN–Transformer-CTC声学模型的泛化能力。
由表2可以看出,TCN-Transformer-CTC相比本实验的基线系统Transformer在测试集上有着13.03%的提升,在测试集上的最终结果可以达到6.19%错误率,相比ESPnet上的实验结果也有着7.61%的提升,验证了本发明提出的声学模型有效性。
表2 aidatatang_200zh数据集的实验结果
结论及未来工作
本发明提出了TCN-Transformer以及TCN-Transformer-CTC两种端到端语音识别模型,前者将TCN结构引入到Transformer模型,来加强模型对特征的捕捉以及对隐含位置信息的学习;后者在此基础上进一步融合CTC的优势,使模型训练收敛更快,鲁棒性更好。通过大量的实验对比,验证了本发明提出的声学模型具有更低的错误率和更好的泛化性能。后续的研究中会探索更多的训练策略以及使用无监督学习来进一步提高识别率和模型的鲁棒性。

Claims (2)

1.基于TCN-Transformer-CTC的端到端中文语音识别方法,其特征在于,步骤如下:
步骤一、数据的预处理
对于语音数据进行预加重、分帧、加窗,进行快速傅里叶变换,计算谱线能量,进行Mel滤波,取对数得到80维Fbank特征;将预处理后的数据分为训练集和验证集;
步骤二、建立时间序列卷积网络-转换器-连接性时序分类网络模型,即TCN-Transformer-CTC模型
TCN-Transformer-CTC模型包括前置处理模块、编解码器模块和混合连接性时序分类/注意力损失模块;
所述的前置处理模块包括声学前置模块、文本前置模块;在声学前置模块中使用K个2-D卷积模块,每个2-D卷积模块包含2-D卷积层、批次归一化层和ReLU激活层;2-D卷积模块后连接线性层,最后使用位置编码获取包含绝对位置信息的声学特征;在文本前置模块中,先使用嵌入层将文本标签映射到隐藏空间,通过位置编码后,使用J个时间序列卷积模块TCN来学习隐式的位置关系以及加强文本元素之间的联系,每个时间序列卷积模块包括1-D卷积层、归一化层和ReLU激活层;
所述的编解码器模块包括编码器和解码器;二者分别由若干个相同的模块堆叠组成;其中,编码器每个模块包括多头注意力层、时间序列卷积模块TCN和位置前馈层,每个层后都使用残差连接和层归一化;在信息流入编码器的多头注意力层的同时并行输入到TCN模块中,用于更好的融合布局和全局信息,以及利用TCN来学习序列一直的位置关系,随后增加了拼接层将经过多头注意力层的输出信息和经过TCN的输出信息融合起来;解码器每个模块包括掩盖未来信息的多头注意力层、编码器解码器注意力层和位置前馈层,每个层后都使用残差连接和层归一化,在解码器掩盖未来信息的多头注意力层后增加了拼接层;
所述的混合连接性时序分类/注意力损失模块使用CTC目标函数作为辅助任务,CTC的前向后向算法在语音和标签序列之前强制进行单调对齐,混合CTC/注意力损失定义为CTC损失和注意力损失的加权和:
Tloss=λCTCloss+(1-λ)ATTloss
其中,参数λ∈[0,1],用来衡量CTC损失和注意力损失的重要程度;Tloss为混合CTC/注意力损失,CTCloss为CTC损失;ATTloss为注意力损失;
训练过程中使loss下降曲线收敛到平稳,结束训练,得到最终模型;
步骤三、利用训练接对TCN-Transformer-CTC模型进行训练,使用训练好的对TCN-Transformer-CTC模型对验证集进行验证,实现端到端中文语音识别。
2.根据权利要求1所述的基于TCN-Transformer-CTC的端到端中文语音识别方法,其特征在于,80维Fbank特征表示为(batch,max_len,feat_dim);其中,batch表示批次,max_len表示音频时域长度,feat_dim表示梅尔滤波器组数这里为80。
CN202111298827.1A 2021-11-04 2021-11-04 基于TCN-Transformer-CTC的端到端中文语音识别方法 Active CN114023316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111298827.1A CN114023316B (zh) 2021-11-04 2021-11-04 基于TCN-Transformer-CTC的端到端中文语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111298827.1A CN114023316B (zh) 2021-11-04 2021-11-04 基于TCN-Transformer-CTC的端到端中文语音识别方法

Publications (2)

Publication Number Publication Date
CN114023316A CN114023316A (zh) 2022-02-08
CN114023316B true CN114023316B (zh) 2023-07-21

Family

ID=80061285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111298827.1A Active CN114023316B (zh) 2021-11-04 2021-11-04 基于TCN-Transformer-CTC的端到端中文语音识别方法

Country Status (1)

Country Link
CN (1) CN114023316B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898741B (zh) * 2022-03-25 2024-07-16 西安交通大学 基于层重要度排序和rnn降维的轻量化语音识别方法及系统
CN114495114B (zh) * 2022-04-18 2022-08-05 华南理工大学 基于ctc解码器的文本序列识别模型校准方法
CN114626424B (zh) * 2022-05-16 2022-09-13 天津大学 一种基于数据增强的无声语音识别方法及装置
CN115019801A (zh) * 2022-06-01 2022-09-06 中国民用航空飞行学院 基于ResNet-GAU模型的PCVCs端到端语音识别方法
CN115019782B (zh) * 2022-06-02 2024-07-16 北京工业大学 一种基于ctc多层损失的语音识别方法
CN114944148B (zh) * 2022-07-09 2023-08-22 昆明理工大学 融合外部语言知识的流式越南语语音识别方法
CN116052725B (zh) * 2023-03-31 2023-06-23 四川大学华西医院 一种基于深度神经网络的细粒度肠鸣音识别方法及装置
CN116259308B (zh) * 2023-05-16 2023-07-21 四川大学 一种语境感知的空管语音识别方法及电子设备
CN116631379B (zh) * 2023-07-20 2023-09-26 中邮消费金融有限公司 语音识别方法、装置、设备及存储介质
CN117133275B (zh) * 2023-08-25 2024-03-22 长春理工大学 基于单元点积相似度特征的并行化语音识别模型建立方法
CN117198271A (zh) * 2023-10-10 2023-12-08 美的集团(上海)有限公司 语音解析方法及装置、智能设备、介质和计算机程序产品
CN117198290A (zh) * 2023-11-06 2023-12-08 深圳市金鼎胜照明有限公司 一种基于声控的多模式led智能控制的方法及装置
CN117238294A (zh) * 2023-11-13 2023-12-15 成都大成均图科技有限公司 一种基于人工智能的自动化本地消防语音识别方法及装置
CN118070155B (zh) * 2024-04-19 2024-08-09 华南师范大学 一种分布不平衡的机器人动作识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN112466297A (zh) * 2020-11-19 2021-03-09 重庆兆光科技股份有限公司 一种基于时域卷积编解码网络的语音识别方法
CN113113049A (zh) * 2021-03-18 2021-07-13 西北工业大学 一种联合语音增强的语音活动检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854536B2 (en) * 2019-09-06 2023-12-26 Hyperconnect Inc. Keyword spotting apparatus, method, and computer-readable recording medium thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN112466297A (zh) * 2020-11-19 2021-03-09 重庆兆光科技股份有限公司 一种基于时域卷积编解码网络的语音识别方法
CN113113049A (zh) * 2021-03-18 2021-07-13 西北工业大学 一种联合语音增强的语音活动检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Discriminative multi-modality speech recognition;Xu B;《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition》;全文 *
Efficient end-to-end sentence-level lipreading with temporal convolutional networks;Zhang T;《Applied Sciences》;全文 *
TCN-Transformer-CTC的端到端语音识别;谢旭康;《计算机应用研究》;全文 *
低内存低延迟的语音关键词检测算法研究;邹台;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 *

Also Published As

Publication number Publication date
CN114023316A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN114023316B (zh) 基于TCN-Transformer-CTC的端到端中文语音识别方法
Salazar et al. Self-attention networks for connectionist temporal classification in speech recognition
Audhkhasi et al. End-to-end ASR-free keyword search from speech
Prabhavalkar et al. End-to-end speech recognition: A survey
CN110321418B (zh) 一种基于深度学习的领域、意图识别和槽填充方法
Yu et al. Acoustic modeling based on deep learning for low-resource speech recognition: An overview
Wang et al. Exploring rnn-transducer for chinese speech recognition
CN116324972A (zh) 用于多语言语音识别框架的系统和方法
Jung et al. Additional shared decoder on Siamese multi-view encoders for learning acoustic word embeddings
KR20240089276A (ko) 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝
Yang et al. Keyword search using attention-based end-to-end ASR and frame-synchronous phoneme alignments
Mamatov et al. Speech recognition based on transformer neural networks
Peguda et al. Speech to sign language translation for Indian languages
Mehra et al. Deep fusion framework for speech command recognition using acoustic and linguistic features
Amari et al. Arabic speech recognition based on a CNN-BLSTM combination
Carofilis et al. Improvement of accent classification models through Grad-Transfer from Spectrograms and Gradient-weighted Class Activation Mapping
Wang et al. L2 mispronunciation verification based on acoustic phone embedding and Siamese networks
Audhkhasi et al. Recent progress in deep end-to-end models for spoken language processing
Huang et al. Exploring the Encoder Layers of Discriminative Autoencoders for LVCSR.
Deng et al. History utterance embedding transformer lm for speech recognition
Manjunath et al. Articulatory-feature-based methods for performance improvement of Multilingual Phone Recognition Systems using Indian languages
Qu et al. Combining articulatory features with end-to-end learning in speech recognition
Zhu et al. Joint CTC-attention end-to-end speech recognition with a triangle recurrent neural network encoder
Tabibian A survey on structured discriminative spoken keyword spotting
CN114121018A (zh) 语音文档分类方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 1603-12, No. 8, Financial Second Street, Wuxi Economic Development Zone, Jiangsu Province, 214000

Applicant after: Uniform entropy technology (Wuxi) Co.,Ltd.

Address before: E2-103-1113, China Sensor Network International Innovation Park, 200 Linghu Avenue, Xinwu District, Wuxi City, Jiangsu Province, 214112

Applicant before: Uniform entropy technology (Wuxi) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant