CN114999460A - 一种结合Transformer的轻量化中文语音识别方法 - Google Patents

一种结合Transformer的轻量化中文语音识别方法 Download PDF

Info

Publication number
CN114999460A
CN114999460A CN202210537631.1A CN202210537631A CN114999460A CN 114999460 A CN114999460 A CN 114999460A CN 202210537631 A CN202210537631 A CN 202210537631A CN 114999460 A CN114999460 A CN 114999460A
Authority
CN
China
Prior art keywords
module
model
attention
transformer
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210537631.1A
Other languages
English (en)
Inventor
孙俊
沈逸文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uni Entropy Intelligent Technology Wuxi Co ltd
Original Assignee
Uni Entropy Intelligent Technology Wuxi Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uni Entropy Intelligent Technology Wuxi Co ltd filed Critical Uni Entropy Intelligent Technology Wuxi Co ltd
Priority to CN202210537631.1A priority Critical patent/CN114999460A/zh
Publication of CN114999460A publication Critical patent/CN114999460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种结合Transformer的轻量化中文语音识别方法,属于语音识别领域。首先使用深度可分离卷积获得音频特征信息;其次构建了双半步剩余权重前馈神经网络层:Macaron‑Net结构,并引入低秩矩阵分解,实现了模型压缩。为了验证模型,在不使用任何语言模型的前提下,本发明在Aishell‑1和aidatatang_200zh数据集上进行了测试。实验结果显示,本发明模型与Open‑Transformer相比,本发明模型在字错误率上相对下降了19.8%,在实时率上相对下降了32.1%。

Description

一种结合Transformer的轻量化中文语音识别方法
技术领域
本发明属于语音识别领域,具体涉及一种结合Transformer的轻量化中文语音识别方法。
背景技术
语音识别(Automatic Speech Recognition)作为一个由计算机科学和计算机语言学(computational linguistics)组成的跨学科分支,搭建起人与机器沟通的桥梁。深度学习兴起之前,语音识别模型主要是基于高斯模型和隐马尔可夫模型的混合模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)。然而,GMM-HMM对频谱图的修改会导致原始语音信息的丢失;深度学习技术旨在减少此类信息损失,并从原始数据中搜索更有效的音频特征表示。因此,GMM也被深度神经网络(Deep Neural Network,DNN)替代,整体框架变为DNN-HMM。然而,以HMM为代表的传统模型有着处理流程复杂和训练时间长的缺陷,阻碍了语音识别技术的发展。随着计算机算力的提高,端到端的语音识别系统将声学模型与字典结合到一起,缩短了模型的训练时间;端到端的模型因此成为了热门研究对象。2017年,Vaswani等人提出了基于自注意力机制的模型Transformer【Vaswani A,ShazeerN,Parmar N,et al.Attention Is All You Need[C]//31st Conference on NeuralInfor-mation Processing Systems(NIPS 2017),Long Beach,CA,USA,December 4-9,2017.】,在机器翻译和文本生成等领域展现出了强大的识别能力。随后,Linhao Dong等人将Transformer应用到语音识别领域,提出了Speech-Transformer模型【Dong L,Shuang X,Bo X.Speech-Transformer:A No-Recurrence Sequence-to-Sequence Model for SpeechRecognition[C]//2018IEEE International Conference on Acoustics,Speech andSignal Processing(ICASSP 2018),Calgary,AB,Canada,April 15-20,2018.Piscataway:IEEE,2018:5884-5888.】;基于Transformer的端到端语音识别系统也成为了众多研究人员的研究热门对象。由于Transformer没有在其结构中显式地建模位置信息,因此使用了位置编码(Positional Encoding)来捕捉位置关系。然而绝对位置编码在过长文本中会丢失相对位置信息,于是Zihang Dai等人提出了相对位置编码(Relative PositionRepresentation),极大地提高了训练文本的长度【Dai Z,Yang Z,Yang Y,etal.Transformer-XL:Attentive Language Models beyond a Fixed-Length Context[C]//The 57th Annual Meeting of the Association forComputational Linguistics(ACL 2019),Florence,Italy,July 28–August 2,2019.】。Gulati等人发现Transformer的注意力机制善于捕捉全局信息,而卷积神经网络(Convolutional Neural Network,CNN)善于提取局部信息;并因此提出了将CNN与Transformer相结合的模型:Conformer【Gulati A,Qin J,Chiu C C,et al.Conformer:Convolution-augmented Transformer for SpeechRecognition[C]//21st Annual Conference of the International SpeechCommunication Association(Interspeech 2020),Shang-hai,China,October 25-29,2020.】。
然而,Transformer出色的识别能力和训练速度都依赖于大量的参数。例如,单个Transformer模型需要10G以上的乘加运算(Mult-Adds)才能翻译出一个只有30个单词的句子。这种极高的计算资源需求大大超出了物联网和智能手机等边缘设备的能力,限制了Transformer模型在该类设备上部署的可能性。因此,设计一种用于边缘设备的轻量、快速的语音识别Transformer架构有重要的意义。Felix等人提出了用动态卷积(DynamicConvolutions)来代替自注意力机制【Wu F,Fan A,Bae A,et al.Pay Less Attentionwith Lightweight and Dynamic Convolutions[C]//Interantion-al Conference onLearning Representations 2019(ICLR2019),New Orleans,Louisana,United States,May 6-9,2019.】。然而,动态卷积核会随各时刻的学习函数而变化,因此需要占用大量的GPU内存来计算。为了解决这个问题,模型中使用了轻量卷积来减少参数和运算量,使动态卷积有了可行性。Alex等人提出使用卷积神经网络代替位置编码来捕捉位置信息,并通过删除Speech-Transformer中影响性能较小的模块来精简模型,使其能够在边缘设备上应用。Winata等人提出了低秩Transformer模型(low-rank transformer,LRT),该模型将低秩矩阵分解(low-rank matrix factorization)应用到Transformer的特征矩阵中,由此减少模型的参数,并加快模型的训练速度和推理速度【Winata G I,Cahyawijaya S,Lin Z,etal.Lightweight and efficient end-to-end speech recognition using low-ranktransformer[C]//Proceedings of the 2020IEEE Internation-al Conference onAcoustics,Speech and Signal Processing,Barcelona,May 4-8,2020.Piscataway:IEEE,2020:6144-6148.Sainath T N,Kingsbury B,Sindhwani V,et al.Low-rank matrixfactorization for Deep Neural Network training with high-dimensional outputtargets[C]//2013IEEE International Conference on Acoustics,Speech and SignalProcessing,Vancouver,BC,Canada,May 26-31,2013.Piscataway:IEEE,2013:6655-6659.】。
由于在声学模型中均使用了深层网络,融合模型的参数量比基于Transformer的端到端模型大,不适于边缘设备的模型部署。LRT作为基于Transformer的模型,在VanillaTransformer的编码器、解码器上均引入了低秩矩阵分解,极大程度地压缩了模型体积。然而,在多头自注意力模块使用低秩分解,导致了该模块捕获信息的能力下降,使模型的识别能力偏低。以RNN为框架的Deep Speech2将语音识别模块和语音增强模块进行联合训练,并通过门控递归融合(Gated Recurrent Fusion,GRF)模块将原始的带噪语音信号和增强后的语音信号在音频特征层面进行融合;在获得原始语音的保真信息的同时,也能获取增强语音信号中的降噪信息。然而Deep Speech2需要获取原始和增强后的语音信号特征,大大增加了模型的推理时间,阻碍了流式语音识别在移动设备上的应用。
发明内容
本发明旨在解决现有技术存在的技术问题,提供一种结合Transformer的轻量化中文语音识别方法。
本发明的技术方案:
一种结合Transformer的轻量化中文语音识别方法,步骤如下:
步骤1.提取声学特征80Fbank作为输入特征,声学特征输入部分使用2个深度可分离卷积模块作为下采样,每个深度可分离卷积模块包括一个逐通道卷积DW-conv和一个逐点卷积PW-conv,每个深度可分离卷积模块使用ReLU激活函数,声学特征80Fbank依次经过DW-conv、PW-conv后进行层归一化处理;
步骤2.下采样后的声学特征经过线性层变为二维,然后利用相对位置编码提取声学特征位置信息;
步骤3.声学特征位置信息传入编码器模块Encoder中,Encoder由LM结构堆叠而成,LM结构依次包括半步剩余权重的LR-FFN模块、一个多头注意力(4head)和半步剩余权重的LR-FFN模块,每个半步剩余权重的LR-FFN模块与多头注意力之间均包括残差连接、层归一化操作;每个半步剩余权重的LR-FFN模块使用低秩矩阵分解(秩优选为64),将经多头注意力(4head)处理后的特征与之前经过步骤1-3处理的音频序列特征拼接起来,然后经过线性层还原大小提取权重更高的信息;
步骤4.将文本标签输入到文本标签处理前置层(character embedding),通过文本标签处理前置层将对应标签映射到更高维的特征;
步骤5.利用相对位置编码提取文本标签位置信息,并将文本标签位置信息传入Decoder编码器模块中;首先通过掩盖的多头自注意力模块(4head),掩盖未来文本信息,文本特征输出作为V,然后与步骤3经Encoder的输出的声学特征Q、K一起进入Decoder的多头注意力模块,通过线性层映射到输出;
步骤6.Attention Decoder使用softmax计算Attention Decoder出来的交叉熵损失值作为Attention loss,并增加标签平滑功能;
步骤7.推理阶段使用beamsearch(beam width=5)将Decoder的输出结果作为最终结果。
本发明的有益效果:提出了基于轻量Transformer的中文语音识别系统。首先在声学特征处理模块使用了深度可分离卷积(Depthwise Separable Convolution),将逐通道卷积(Depthwise Convolution)与逐点卷积(Pointwise Convolution)相结合;与常规卷积相比,降低了参数量与运算量。其次,本发明在Transformer的编码器部分使用了Macaron-Net结构,并在前馈神经网络(Feed-Forward Network,FFN)中应用了低秩矩阵分解,在保持模型识别准确率的同时,减少了模型的参数,提高了模型的推理速度。最后,本发明通过实际数据集Aishell-1和aidatatang_200zh对上述模型的进行了实验验证,模型的字错误率降低至9.66%,实时率降低至0.0201。
附图说明
图1缩放点积注意力。
图2多头注意力。
图3LM-Transformer模型结构。
图4深度可分离卷积。
图5低秩前馈神经网络。
图6当前主流语音识别模型参数。
具体实施方式
1注意力机制
Transformer的编码器和解码器都使用自注意力机制,自注意力是模仿人类大脑的注意力思想构造而成。注意力函数的作用可以描述为将一项查询值和一系列的键和值对映射输出。其中,查询值Q、键K、值V都是向量。
常见的注意力机制有加性注意力机制(additive attention)和点积注意力机制(dot-product attention)。其中乘性函数得益于已优化的矩阵乘法算法,具有计算速度更快的优势。点积注意力的输入由查询值、键的维度dk和值的维度dv组成,通过计算查询值与所有键的点积,除以dk,并应用softmax函数来获得值的权重。当dk较大时,点积的增长幅度较大,从而将softmax函数推向梯度极小的区域。为了抵消这种影响,Transformer将dk缩放成
Figure BDA0003648925460000041
并将其称为缩放点积注意力(Scaled Dot-Product Attention),如图1所示。缩放点积注意力的计算公式如式(1)所示:
Figure BDA0003648925460000042
多头注意力(Multi-Head Attention)如图2所示,由h个缩放点积注意力堆叠而成,能对输入信息并行处理。相比单头的注意力,多头注意力模型能够在不同的表示子空间获取不同位置的信息。多头注意力机制通过式(2)计算出h头缩放点积注意力,再将各子空间的输出结果进行拼接。具体计算公式如式(2)、式(3)所示:
MultiHead(Q,K,V)Concat(head1,…,headt)WO (2)
Figure BDA0003648925460000043
式中h表示注意力头的数量,
Figure BDA0003648925460000051
Figure BDA0003648925460000052
2轻量化语音识别系统
2.1模型架构
本发明提出的轻量化模型LM-Transformer(Low Rank Macaron-Transformer)主要由声学处理模块、编码器和解码器组成,具体模型结构如图3所示。与序列到序列(seq2seq)模型相似,本发明的编码器将语音特征序列(x1,…,xT)转换为隐藏表示hs=(h1,…,hT);在确定hs后,解码器每次生成一个单字符的输出序列(y1,…,yS),并将已生成输出序列作为附加输入。最终通过Softmax函数输出对应位置对应词汇的概率分布。
2.2声学处理模块
语音识别模型需要将语音特征序列转换为相应的字符序列。语音特征序列可以描述为具有时间和频率轴的二维频谱图,通常比字符序列长几倍。因此,本发明选择使用卷积神经网络来匹配频谱图的结构局部性,并通过跨越时间轴来减少长度的不适配性。
本发明在时间和频率两个维度上堆叠了两个卷积层,来提升模型获取时域信息的能力;并缩减时间维度与目标输出长度相近,缓解了特征序列和目标序列长度不适配的问题。
本发明使用深度可分离卷积来替代普通卷积网络,以达到减少参数和运算量的效果。如图4所示,深度可分离卷积由逐通道卷积和逐点卷积组成。逐通道卷积对输入层的每个通道进行独立卷积计算,然后重新进行堆叠。然而,逐通道卷积未能有效利用不同通道在相同空间位置上的特征信息,因此在逐通道卷积后引入了逐点卷积。逐点卷积的卷积核大小都是1×1,会将上一步的特征图在深度方向上进行加权组合,生成新的特征图。
假设输入特征图的大小为WI×HI×CI,输出特征图的大小为WO×HO×CO,卷积核大小为DK×DK,其中WI和WO分别为输入和输出特征图的宽度;HI和HO分别为输入和输出特征图的高度;CI和CO分别为输入和输出通道数。则标准卷积和深度可分离卷积的参数量如式(4)、式(5)所示:
Figure BDA0003648925460000053
Figure BDA0003648925460000054
式(5)中CI×CO值远小于
Figure BDA0003648925460000055
可忽略不计。因此,由式(4)和式(5)可得到两种卷积方法的参数量之差,如式(6)所示:
Figure BDA0003648925460000056
标准卷积和深度可分离卷积的计算量如式(7)、式(8)所示:
Figure BDA0003648925460000061
Figure BDA0003648925460000062
由式(7)和式(8)可得到两种卷积方法的计算量之差,如式(9)所示:
Figure BDA0003648925460000063
本发明模型在仅改变卷积网络的情况下,通过对比处理同一段长度约5秒的音频特征时的表现,发现两种卷积的处理效率有很大差距;表1为实验的结果,其中Mult-Adds为卷积网络完成的乘加运算次数,Flops为卷积网络完成的浮点运算次数。由表1所示,深度可分离卷积的参数量和计算量都远小于普通卷积。
表1不同卷积处理音频特征时对比
Figure BDA0003648925460000064
2.3编码器、解码器
本发明编码器和解码器的结构如图3所示,由M个相同的编码器和N个相同的解码器模块堆叠而成。与Transformer的编码器不同,本发明利用了Macaron-Net【Gulati A,QinJ,Chiu C C,et al.Conformer:Convolution-augmented Transformer for SpeechRecognition[C]//21st Annual Conference of the International SpeechCommunication Association(Interspeech 2020),Shang-hai,China,October 25-29,2020.】,将编码器模块中的原始前馈网络替换成两个半步剩余权重的前馈神经网络层。对于编码器模块i的输入xi,该模块的输出yi如式(10)所示:
Figure BDA0003648925460000065
xi″=Layernorm(xi′+MHSA(xi′))
Figure BDA0003648925460000066
其中,LR-FFN指低秩前馈神经网络模块,MHSA指多头自注意力模块;xi′、xi″分别为经过第一个LR-FFN模块、MHSA模块的输出。每个子层在使用残差连接后都进行了层归一化(Layer-Normalization),为深层神经网络的训练增加了稳定性。与单前馈神经网络层相比,该结构在识别能力上有一定的提升。
Transformer的编码器-解码器体系结构通过并行计算提高了模型的识别性能和训练速度;然而,该结构依赖深层的网络和大量的参数,这减慢了模型的推理速度,也增加了模型在边缘设备部署的难度。因此,本发明在Transformer的编码器结构引入了低秩矩阵分解算法,并将该结构命名为LM结构(Low-Rank Macaron-Net)。
LM结构使用低秩分解单元来替代原先的单一全连接层;由于自注意力模块负责处理信息,而低秩分解会导致部分信息的丢失,所以在自注意力模块应用低秩分解会导致抓取信息的能力下降,从而影响整个模型的识别能力。自注意力模块会直接评估句中词汇在不同位置的语义和相关性,并使用这些信息来捕捉句子的内部结构和表示;而前馈神经网络模块更新多头注意力中输出向量的状态信息,或逼近学习函数,并不直接参与上下文信息的获取。因此,本发明未在多头自注意力模块使用低秩分解,而是应用在前馈神经网络模块中,具体结构如图5所示。该结构可减轻低秩分解算法对模型识别能力的影响,同时压缩模型,降低参数量。
LM结构将全连接层的矩阵
Figure BDA0003648925460000071
近似成两个较小的矩阵
Figure BDA0003648925460000072
Figure BDA0003648925460000073
W≈X×Y
矩阵W需要m×n的参数和计算力(flops),而X和Y需要r×(m+n)的参数和计算力。当秩r远小于m和n时,X和Y的参数和计算力将比W小得多。本发明通过试验测试不同大小的r对推理速度、模型大小和识别准确率的影响。
本发明的解码器模块具有和编码器模块类似的结构,区别是在多头自注意力模块前增加了一个掩盖的多头自注意力模块(Masked Multi-Head Attention),其目的是遮掩未来信息。
本发明使用了LM结构压缩了模型,并通过深度可分离卷积进一步减少了参数。通过与当前部分主流语音识别模型进行对比,发现本发明模型参数量相对较少,如图6所示。
3实验结果与分析
3.1实验数据
本发明使用的数据集为北京希尔贝壳有限公司录制的中文普通话开源语音数据库Aishell-1,以及北京数据堂科技有限公司录制的中文普通话语料库aidatatang_200zh。Aishell-1录音时长178小时,录音文本设计智能家居、无人驾驶、工业生产等11个领域;由400名来自中国不同口音区域的发言人参与录制,经过专业语音人员转写标注,并通过严格质量检验,文本正确率在95%以上。aidatang_200zh由600名来自中国不同口音区域的发言人参与录制,录音时长200小时。
3.2实验环境
本发明实验均在Windows 10操作系统下搭建的Pytorch深度学习框架中实现,硬件环境使用了Intel Core(TM)i7-10870H CPU@2.20GHz(处理器),NVIDIA GeForce RTX2060@6GB(显卡)。语音处理库主要使用了Torchaudio、Kaldi和Scipy。
3.3实验步骤
实验先对数据集音频数据进行预处理,通过预加重、分帧(25ms每帧)、加窗(汉明窗)、短时傅里叶变换、mel滤波获得Fbank音频特征;然后使用全局倒谱均值方差归一化(global_cmvn)对特征进行处理,使输入的声学特征符合正态分布。Aishell-1的字典共有4233个字符,aidatatang_200zh的字典共有3944个字符;两个字典均包含<PAD>(空白符)、<S/E>(起始/结束符)和<UNK>(未知字符)共计三个特殊字符。本发明在模型训练时使用了频谱增强(Spec Augment),用于提升模型的鲁棒性。
本发明模型具体主要分为声学处理模块、编码器模块和解码器模块。声学处理模块由两个深度可分离卷积组成。单个深度可分离卷积中,逐通道卷积步长为2,卷积核大小为(3,3);逐点卷积步长为1,卷积核大小为(1,1)。编码器模块由6个相同的子模块组成。单个子模块中包含一个LM结构和一个多头自注意力模块,注意力头数为4,输出的特征维度为256,自注意力模块中使用了相对位置编码(Relative Position Embedding,RPE)。解码器模块由3个相同的子模块组成,每个子模块由一个掩盖的多头自注意力模块、一个多头自注意力模块和一个前馈神经网络模块组成,参数设置与编码器模块相同。
本发明训练轮数为80,累计梯度accum_steps为4,为了防止梯度爆炸,设置了梯度阈值clip_grad为5。训练时使用了动态调整学习率,具体如式(11)所示:
Figure BDA0003648925460000081
其中,ne为训练步数,缩放因子k为10,注意力模块矩阵维度dmodel为256,热身步数warmup_n为12000。
本发明使用的优化器为Adam,其超参数设置为β1=0.9,β2=0.98,ε=10-9。每个子模块中的Dropout为0.1。
3.4模型对比试验
为了检验本发明模型的性能,本发明通过实验与当前主流中文语音识别模型进行对比,测试内容为模型的参数量、准确率、推理速度。其中,准确率的评价标准为字错误率(WER,Word Error Rate),计算方式如式(12)所示:
Figure BDA0003648925460000082
其中S为被替换的字数,D为被删除的字数,I为新插入的字数,nse为句子字数。字错误率越低,模型的识别能力越高。
推理速度的评价标准为实时率(RTF,Real Time Factor),计算方式如式(13)所示:
Figure BDA0003648925460000091
其中,Ta为音频的时长,Wa为处理音频的时间。实时率越低,模型解码速度越快,推理速度越快。
为了验证提出的模型框架效果,本发明将LM-Transformer与对比的声学模型Open-Transformer在数据集Aishell-1进行基于字符为建模的模型实验,并与当前其他主流模型进行对比。实验结果如表2所示。
表2不同模型在Aishell-1的实验结果
Figure BDA0003648925460000092
[6]Dong L,Shuang X,Bo X.Speech-Transformer:A No-Recurrence Sequence-to-Sequence Model for Speech Recognition[C]//2018 IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP 2018),Calgary,AB,Canada,April 15-20,2018.Piscataway:IEEE,2018:5884-5888.
[11]Winata G I,Cahyawijaya S,Lin Z,et al.Lightweight and efficientend-to-end speech recognition using low-rank transformer[C]//Proceedings ofthe 2020 IEEE Internation-al Conference on Acoustics,Speech and SignalProcessing,Barcelona,May 4-8,2020.Piscataway:IEEE,2020:6144-6148.[22]
[23]Fan C,Yi J,Tao J,et al.Gated Recurrent Fusion With Joint TrainingFramework for Robust End-to-End Speech Recognition[J].IEEE/ACM Transactionson Audio,Speech,and Language Processing,2021,29:198-209.
[24]Tian Z,Yi J,Tao J,et al.Spike-Triggered Non-AutoregressiveTransformer for End-to-End Speech Recognition[J]//21st Annual Conference ofthe International Speech Communication Association(Interspeech 2020),Shang-hai,China,October 25-29,2020.
[25]Auvolat A,Mesnard T.Connectionist Temporal Classification:Labelling Unsegmented Sequences with Recurrent Neural Networks[C]//International Conference onMachine Learning,ICML 2006.Pittsburgh,PA:ACM,2006:369-376.
DFSMN-T将DFSMN作为声学模型、Transformer作为语言模型,通过联结时序分类算法(Connectionist Temporal Classification,CTC[25])进行联合训练;由于在声学模型中均使用了深层网络,该融合模型的参数量比基于Transformer的模型大,不适于边缘设备的模型部署。LRT在Vanilla Transformer的编码器、解码器上均引入了低秩矩阵分解,使模型参数量大幅减少。然而,在多头自注意力模块使用低秩分解,导致了该模块捕获信息的能力下降,使模型的识别能力偏低。Deep Speech2将语音识别模块和语音增强模块进行联合训练,并通过门控递归融合(Gated Recurrent Fusion,GRF)模块将原始的带噪语音信号和增强后的语音信号在音频特征层面进行融合;在获得原始语音的保真信息的同时,也能获取增强语音信号中的降噪信息。然而Deep Speech2需要获取原始和增强后的语音信号特征,大大增加了模型的推理时间,阻碍了流式语音识别在移动设备上的应用。Speech-Transformer和Open-Transformer均为基于Transformer的语音识别系统。Speech-Transformer通过2D-Attention结构对时域和频域的位置信息进行建模,增强了模型对时域和频域的不变性。Open-Transformer基于Speech-Transformer的模型结构,并通过CTC产生的尖峰个数预测目标语句的长度,从而实现非自回归的语音识别系统。本发明模型LM-Transformer改变LM结构中秩的大小,发现在秩为64时模型的识别效果最好,字错误率减少至9.66%;与Open-Transformer相比,有19.8%的相对幅度下降。
为了进一步验证模型的泛化性,本发明在不改变模型参数设置的情况下,在aidatatang_200zh数据集上重新训练LM-Transformer和Open-Transformer。如表3所示,与Aishell-1的实验结果类似,当LM结构中的秩为64时模型的字错误率最低,为10.51%。本发明模型LM-Transformer与Open-Transformer相比,字错误率有31%的相对下降幅度,验证了本发明模型具有一定的泛化能力。
表3不同模型在aidatang_200zh的实验结果
Figure BDA0003648925460000101
Figure BDA0003648925460000111
为了实现模型在边缘设备上的部署,除了降低模型的参数量,还需考虑模型的推理速度;过久的响应速度会影响设备的可使用性。因此,本发明在Aishell-1和aidatatang_200zh两个数据集上测试了本发明模型的实时率,具体结果如表4所示。
表4模型推理速度的实验结果
Figure BDA0003648925460000112
本发明模型在测试中发现,当LM结构中的秩为64和32时,实时率基本相同,因此最终选择秩为64时的模型。LM-Transformer在两个数据集上与Open-Transformer相比,实时率分别下降32.1%和38.2%。其主要原因是LM-Transformer使用了深度可分离卷积,相对常规卷积减少了计算量;引入低秩矩阵分解后模型进行了压缩,降低了内存占用,也减少了模型初始化时间。
4结论
本发明针对基于Transformer的语音识别系统模型过大,难以在边缘设备部署的问题,提出了轻量化模型LM-Transformer。本发明在模型的声学处理模块使用深度可分离卷积,降低了参数和计算量;在模型的编码器中使用Macaron-Net结构,并引入了低秩矩阵分解算法,实现了模型压缩、易于在边缘设备部署的目的。
本发明在两个数据集上进行实验,通过与当前主流语音识别模型对比,验证了本发明模型具有一定的泛化能力,并在保证识别精度的同时,压缩了模型,实现了模型轻量化的目标。在后续的研究中会继续探索更多的模型轻量化策略。

Claims (2)

1.一种结合Transformer的轻量化中文语音识别方法,其特征在于,步骤如下:
步骤1.提取声学特征80Fbank作为输入特征,声学特征输入部分使用2个深度可分离卷积模块作为下采样,每个深度可分离卷积模块包括一个逐通道卷积DW-conv和一个逐点卷积PW-conv,每个深度可分离卷积模块使用ReLU激活函数,声学特征80Fbank依次经过DW-conv、PW-conv后进行层归一化处理;
步骤2.下采样后的声学特征经过线性层变为二维,然后利用相对位置编码提取声学特征位置信息;
步骤3.声学特征位置信息传入编码器模块Encoder中,Encoder由LM结构堆叠而成,LM结构依次包括半步剩余权重的LR-FFN模块、一个多头注意力和半步剩余权重的LR-FFN模块,每个半步剩余权重的LR-FFN模块与多头注意力之间均包括残差连接、层归一化操作;每个半步剩余权重的LR-FFN模块使用低秩矩阵分解,将经多头注意力处理后的特征与之前经过步骤1-3处理的音频序列特征拼接起来,然后经过线性层还原大小提取权重更高的信息;
步骤4.将文本标签输入到文本标签处理前置层,通过文本标签处理前置层将对应标签映射到更高维的特征;
步骤5.利用相对位置编码提取文本标签位置信息,并将文本标签位置信息传入Decoder编码器模块中;首先通过掩盖的多头自注意力模块,掩盖未来文本信息,文本特征输出作为V,然后与步骤3经Encoder的输出的声学特征Q、K一起进入Decoder的多头注意力模块,通过线性层映射到输出;
步骤6.Attention Decoder使用softmax计算Attention Decoder出来的交叉熵损失值作为Attention loss,并增加标签平滑功能;
步骤7.推理阶段使用beamsearch将Decoder的输出结果作为最终结果。
2.根据权利要求1所述的一种结合Transformer的轻量化中文语音识别方法,其特征在于,所述步骤3中编码器模块i的输入xi,编码器模块的输出yi如下式所示:
Figure FDA0003648925450000011
xi″=Layernorm(xi′+MHSA(xi′))
Figure FDA0003648925450000021
其中,LR-FFN指低秩前馈神经网络模块,MHSA指多头自注意力模块;xi′、xi″分别为经过第一个LR-FFN模块、MHSA模块的输出。
CN202210537631.1A 2022-05-18 2022-05-18 一种结合Transformer的轻量化中文语音识别方法 Pending CN114999460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210537631.1A CN114999460A (zh) 2022-05-18 2022-05-18 一种结合Transformer的轻量化中文语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210537631.1A CN114999460A (zh) 2022-05-18 2022-05-18 一种结合Transformer的轻量化中文语音识别方法

Publications (1)

Publication Number Publication Date
CN114999460A true CN114999460A (zh) 2022-09-02

Family

ID=83026533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210537631.1A Pending CN114999460A (zh) 2022-05-18 2022-05-18 一种结合Transformer的轻量化中文语音识别方法

Country Status (1)

Country Link
CN (1) CN114999460A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012266A (zh) * 2023-03-29 2023-04-25 中国科学技术大学 图像去噪方法、系统、设备及存储介质
CN117059103A (zh) * 2023-10-12 2023-11-14 慧言科技(天津)有限公司 基于低秩矩阵近似的语音识别微调任务的加速方法
CN117059081A (zh) * 2023-08-30 2023-11-14 易方信息科技股份有限公司 一种轻量化语音识别方法、计算机设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012266A (zh) * 2023-03-29 2023-04-25 中国科学技术大学 图像去噪方法、系统、设备及存储介质
CN117059081A (zh) * 2023-08-30 2023-11-14 易方信息科技股份有限公司 一种轻量化语音识别方法、计算机设备及可读存储介质
CN117059103A (zh) * 2023-10-12 2023-11-14 慧言科技(天津)有限公司 基于低秩矩阵近似的语音识别微调任务的加速方法

Similar Documents

Publication Publication Date Title
Le et al. Deep shallow fusion for RNN-T personalization
Lin et al. A unified framework for multilingual speech recognition in air traffic control systems
CN110189749A (zh) 语音关键词自动识别方法
CN114999460A (zh) 一种结合Transformer的轻量化中文语音识别方法
Alsayadi et al. Arabic speech recognition using end‐to‐end deep learning
Tjandra et al. Deja-vu: Double feature presentation and iterated loss in deep transformer networks
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
Zhu et al. A noise-robust self-supervised pre-training model based speech representation learning for automatic speech recognition
CN114023316A (zh) 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN113205792A (zh) 一种基于Transformer和WaveNet的蒙古语语音合成方法
Gao et al. Self-supervised pre-training for attention-based encoder-decoder asr model
Zheng et al. An empirical study of language model integration for transducer based speech recognition
Liu et al. Learning phone recognition from unpaired audio and phone sequences based on generative adversarial network
Joshi et al. Attention based end to end speech recognition for voice search in hindi and english
Kim et al. EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning
Getman End-to-End Low-Resource Automatic Speech Recognition for Second Language Learners
Al-Rababah et al. Automatic detection technique for speech recognition based on neural networks inter-disciplinary
Nie et al. Hybrid CTC/attention architecture with self-attention and convolution hybrid encoder for speech recognition
Xiao et al. Automatic voice query service for multi-accented mandarin speech
Fan et al. Two-stage pre-training for sequence to sequence speech recognition
Luo et al. Multi-layer attention mechanism for speech keyword recognition
Yang et al. Simple data augmented transformer end-to-end Tibetan speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination