CN113889095A - 一种基于旋转位置编码的端到端语音识别方法 - Google Patents

一种基于旋转位置编码的端到端语音识别方法 Download PDF

Info

Publication number
CN113889095A
CN113889095A CN202111035297.1A CN202111035297A CN113889095A CN 113889095 A CN113889095 A CN 113889095A CN 202111035297 A CN202111035297 A CN 202111035297A CN 113889095 A CN113889095 A CN 113889095A
Authority
CN
China
Prior art keywords
self
attention
speech recognition
position coding
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111035297.1A
Other languages
English (en)
Inventor
张晓雷
李盛强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202111035297.1A priority Critical patent/CN113889095A/zh
Publication of CN113889095A publication Critical patent/CN113889095A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于旋转位置编码的端到端语音识别方法,并利用旋转位置编码增强卷积自注意力网络(Conformer)对声学特征的建模能力。首先通过旋转矩阵对输入序列中元素的绝对位置信息进行编码,然后在多头自注意力模块的输入向量的内积中加入相对位置信息,构建基于卷积自注意力网络的端到端语音识别模型,再通过语音识别模型将输入语音转换为文本信息。本发明在AISHELL‑1和LibriSpeech语料库上进行了实验,实验结果表明,用旋转位置编码增强的Conformer比原始Conformer在语音识别任务上表现更好。在AISHELL‑1数据集的测试集上实现了4.69%的字错误率,在LibriSpeech数据集的“test‑clean”和“test‑other”集上分别实现了2.1%和5.1%的词错误率。

Description

一种基于旋转位置编码的端到端语音识别方法
技术领域
本发明属于模式识别技术领域,具体涉及一种语音识别方法。
背景技术
输入序列的时序信息在许多序列学习任务中起着至关重要的作用,尤其是在语音识别中。基于循环神经网络的模型可以通过沿时间维度递归计算其隐藏状态来学习序列的时序信息。基于卷积神经网络的模型可以通过填充算子隐式地学习输入序列的位置信息。近年来,基于Transformer的模型已经在机器翻译、语言建模和语音识别等各种序列学习任务中表现出极大的优越性。基于Transformer的模型利用自注意力机制对输入序列中不同元素之间的依赖性进行建模,这提供了比循环神经网络更高效的并行计算,并且可以对元素之间的上下文依赖性建模比卷积神经网络更长。
基于Transformer的模型摒弃了递归的计算,仅利用自注意力机制就可以建模输入序列中元素之间的全局依赖,但是自注意力机制不能对序列的时序信息进行建模。因此,近年来涌现了一些将输入序列中元素的相对或绝对位置信息加入到基于Transformer的模型中的工作。
第一种做法是采用绝对位置编码,例如通过三角位置编码将绝对位置信息到输入序列中。具体而言,输入序列中每个元素的绝对位置被编码成一个向量,其维度等于输入序列的维度,通常将位置编码序列和输入序列相加;除了采用预先定义的函数来编码输入序列中元素的绝对位置信息,还可以采用一组可学习的向量来编码绝对元素的位置信息,这种可学习的位置编码可以取得与三角位置编码相当的性能。但是,它不能外推到比训练集中语料更长的长度。
第二种做法是采用相对位置编码,通常在计算注意力时加入相对位置信息。最初的相对位置编码方法是用输入序列中任意两个元素之间的距离来代替绝对位置信息,在两个机器翻译任务上取得了显著的提升。后来该方法推广到语言模型上,帮助语言模型建模段落之间的长时依赖。还有一些工作还在语音识别任务中将相对位置编码用于声学建模,使得自注意力模块更好地处理不同的输入长度。但是,相对位置编码增加了模型的参数量,且相对位置编码的矩阵运算实现起来较为繁琐。
发明内容
为了克服现有技术的不足,本发明提供了一种基于旋转位置编码(Rotaryposition embedding,RoPE)的端到端语音识别方法,并利用旋转位置编码增强卷积自注意力网络(Conformer)对声学特征的建模能力。首先通过旋转矩阵对输入序列中元素的绝对位置信息进行编码,然后在多头自注意力模块的输入向量的内积中加入相对位置信息,构建基于卷积自注意力网络的端到端语音识别模型,再通过语音识别模型将输入语音转换为文本信息。本发明在AISHELL-1和LibriSpeech语料库上进行了实验,实验结果表明,用旋转位置编码增强的Conformer比原始Conformer在语音识别任务上表现更好。在AISHELL-1数据集的测试集上实现了4.69%的字错误率,在LibriSpeech数据集的“test-clean”和“test-other”集上分别实现了2.1%和5.1%的词错误率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建基于卷积自注意力网络的端到端语音识别模型;
步骤1-1:去掉卷积自注意力网络在下采样层的位置编码,在每个编码器的多头自注意力模块之前加入旋转位置编码,具体如下:
在多头自注意力模块的输入序列的内积中加入相对位置信息:
qm=fq(xm,m)
kn=fk(xn,n)
<fq(xm,m),fk(xn,n)>=g(xm,xn,m-n) (1)
其中qm是给xm添加位置信息后得到的输出,kn是给xn添加位置信息后得到的输出,
Figure BDA0003246933730000021
是多头自注意力模块输入序列
Figure BDA0003246933730000022
的第m个和第n个元素,T是序列长度,d是维度;qm和kn的内积由函数g(·)表示,分别通过函数fq(·)、fk(·)加入第m个和第n个元素的位置信息,函数g(·)只取xm、xn及其相对位置m-n作为输入变量;函数fq(·)、fk(·)分别表示给xm和xn添加位置信息的函数;
步骤1-2:求解符合等式(1)的函数fq(·)和fk(·)完成旋转位置编码;
步骤1-2-1:当维度d=2时,解为:
fq(xm,m)=(xmWq)eimθ
fk(xm,m)=(xmWk)eimθ
g(xm,xn,m-n)=Re[(xmWq)(xnWk)*ei(m-n)θ] (2)其中
Figure BDA0003246933730000031
分别是多头自注意力模块查询向量和键向量的线性层的权重矩阵,dm是多头自注意力模块的隐层维度,Re[·]表示复数的实部,(xnWk)*表示(xnWk)的共轭复数,
Figure BDA0003246933730000032
是一个非零常数;
步骤1-2-2:根据内积的线性可加性,将式(2)的解推广到任意偶数维度d,将d维空间划分为d/2子空间,并进行组合:
Figure BDA0003246933730000033
Figure BDA0003246933730000034
其中
Figure BDA0003246933730000035
Θ={θi=10000-2(i-1)/d,i∈[1,2,...,d/2]} (5)
Figure BDA0003246933730000036
步骤1-3:通过步骤1-2-1和步骤1-2-2构造了基于卷积自注意力网络的端到端语音识别模型;
步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练基于卷积自注意力网络的端到端语音识别模型;
步骤3:将待识别语音输入训练完成的基于卷积自注意力网络的端到端语音识别模型,语音识别模型进行识别输出相应的文本。
优选地,所述语料库为普通话语料库AISHELL-1和英语语音语料库LibriSpeech。
优选地,所述使用Adam优化器进行训练时,学习率峰值为0.0005,并进行30000次步骤的预热。
本发明的有益效果如下:
本发明在AISHELL-1和LibriSpeech语料库上进行了实验,在‘test-clean’和‘test-other’语料库上的错误率分别比原始Conformer相对降低了8.70%和7.27%。此外,本发明相比于绝对位置编码和相对位置编码,参数量更少,性能更好,实现起来更简单,是一种简单却很有效的方法。
附图说明
图1为本发明方法的旋转位置编码计算过程示意图。
图2为Conformer的架构。
图3为Conformer的编码器模块的架构。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出了旋转位置编码,并采用旋转位置编码取代了原始Conformer中的位置编码,使得用旋转位置编码增强的Conformer比原始Conformer表现更好,在两个数据集上的错误率显著下降。
一种基于旋转位置编码增强卷积自注意力网络的语音识别方法,包括如下步骤:
步骤1:构建基于卷积自注意力网络的端到端语音识别模型;
步骤1-1:如图2所示,去掉卷积自注意力网络在下采样层的位置编码,在每个编码器的多头自注意力模块之前加入旋转位置编码,具体如下:
每个Conformer编码器块包含两个前馈(FFN)模块,中间夹有多头自注意模块(MHSA)和卷积(Conv)模块,如图3所示;
如图1所示,在多头自注意力模块的输入序列的内积中加入相对位置信息:
qm=fq(xm,m)
kn=fk(xn,n)
<fq(xm,m),fk(xn,n)>=g(xm,xn,m-n) (1)
其中
Figure BDA0003246933730000041
是多头自注意力模块输入序列
Figure BDA0003246933730000042
的第m个和第n个元素,T是序列长度,d是维度;qm和kn的内积由函数g(·)表示,分别通过函数fq(·)、fk(·)加入第m个和第n个元素的位置信息,函数g(·)只取xm、xm及其相对位置m-n作为输入变量;
步骤1-2:求解符合等式(1)的函数fq(·)和fk(·)完成旋转位置编码;
步骤1-2-1:当维度d=2时,解为:
fq(xm,m)=(xmWq)eimθ
fk(xm,m)=(xmWk)eimθ
g(xm,xn,m-n)=Re[(xmWq)(xnWk)*ei(m-n)θ] (2)其中
Figure BDA0003246933730000051
分别是多头自注意力模块查询向量和键向量的线性层的权重矩阵,dm是多头自注意力模块的隐层维度,Re[·]表示复数的实部,(xnWk)*表示(xnWk)的共轭复数,
Figure BDA0003246933730000052
是一个非零常数;
步骤1-2-2:根据内积的线性可加性,将式(2)的解推广到任意偶数维度d,将d维空间划分为d/2子空间,并进行组合:
Figure BDA0003246933730000053
Figure BDA0003246933730000054
其中
Figure BDA0003246933730000055
Θ={θi=10000-2(i-1)/d,i∈[1,2,...,d/2]} (5)
Figure BDA0003246933730000056
步骤1-3:通过步骤1-2-1和步骤1-2-2构造了基于卷积自注意力网络的端到端语音识别模型;
本发明为编码器添加位置编码的方式主要有两个方面:
编码器中采用了乘性位置编码方法,而不是加性位置编码。
此外,本发明没有编码器的开头添加位置编码,而是在每个自注意力层的查询向量和键向量中添加位置编码。
而在解码器中的位置编码是绝对位置编码,以加性位置编码的方式添加在解码器最前面;
步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练基于卷积自注意力网络的端到端语音识别模型;
步骤3:将待识别语音输入训练完成的基于卷积自注意力网络的端到端语音识别模型,语音识别模型进行识别输出相应的文本。
具体实施例:
1、数据准备:
在实验中,实验数据采用普通话语料库AISHELL-1和英语语音语料库LibriSpeech。前者有170小时的标记语音,而后者包括970小时的标记语料和额外的800M词标记纯文本语料库,用于构建语言模型。
2、数据处理:
提取80维的对数梅尔滤波器组特征,帧长为25ms,帧移为10ms,并且对特征进行归一化,使每个说话人的特征均值为0,方差为1。AISHELL-1的词典包含4231个标签,LibriSpeech的词典包含了用字节对编码算法产生5000个标签。此外,AISHELL-1和LibriSpeech的词汇表具有填充符号“PAD”、未知符号“UNK”和句尾符号“EOS”。
3、搭建网络:
本发明提出的模型包含12个编码器块和6个解码器块。自注意力层与编码器-解码器之间的注意力层均采用4个头。二维卷积的前端使用两个3×3卷积层,具有256个通道,激活函数为ReLU,步长为2,所有注意力层的隐层维度为256,前馈层的隐层维度和输出维度分别为256和2048。
对于模型训练,使用Adam优化器,学习率峰值为0.0005,并进行30000次步骤的预热。使用SpecAugment方法进行数据增强。对于与注意力模型的联合训练,将CTC权重设置为0.3。在测试阶段,将联合解码的CTC权重设置为0.6。使用基于Transformer的语言模型来优化结果。Speech-Transformer使用Transformer架构进行声学建模和语言建模。LDSA用局部密集合成器注意力模块替换了Transformer编码器中的自注意力模块。GSA-Transformer用基于高斯的注意力取代了自注意力模块。Conformer将Transformer架构与卷积结构相结合。
4、实验效果:
表1在LibriSpeech数据集上的比较结果
Figure BDA0003246933730000061
其中WER表示词错误率,CER表示字错误率。
从表1中可以看出,使用本发明所提出的旋转位置编码增强的Conformer在这些语音识别模型中取得了最好的性能。本发明模型在“test-clean”和“test-other”上分别取得了2.1%和5.5%的词错误率,与原始的Conformer相比,词错误率相对降低了8.70%和7.27%。
表2在AISHELL-1数据集上的比较结果
Figure BDA0003246933730000071
从表2中可以看出,本发明在开发集和测试集的字错误率分别为4.34%和4.69%,与原始Conformer相比,开发集和测试集的字错误率相对降低分别为4.00%和3.90%。因此,本发明所提出的模型明显优于其他比较方法。
表3在LibriSpeech数据集上的位置编码方法之间的比较结果
Figure BDA0003246933730000072
表4在AISHELL-1数据集上的位置编码方法之间的比较结果
Figure BDA0003246933730000073
本实施例还将旋转位置编码与Conformer中的其他位置编码进行了比较,例如绝对位置编码和相对位置编码。表3列出了LibriSpeech数据集上的结果,表4列出了AISHELL-1上的结果。APE表示绝对位置编码,RPE分别表示相对位置编码。从表3和表4可以看出,相对位置编码比绝对位置编码性能更好,本发明提出的旋转位置编码在LibriSpeech和AISHELL-1数据集上都取得了最好的性能。

Claims (3)

1.一种基于旋转位置编码的端到端语音识别方法,其特征在于,包括以下步骤:
步骤1:构建基于卷积自注意力网络的端到端语音识别模型;
步骤1-1:去掉卷积自注意力网络在下采样层的位置编码,在每个编码器的多头自注意力模块之前加入旋转位置编码,具体如下:
在多头自注意力模块的输入序列的内积中加入相对位置信息:
qm=fq(xm,m)
kn=fk(xn,n)
<fq(xm,m),fk(xn,n)>=g(xm,xn,m-n) (1)
其中qm是给xm添加位置信息后得到的输出,kn是给xn添加位置信息后得到的输出,
Figure FDA0003246933720000011
是多头自注意力模块输入序列
Figure FDA0003246933720000012
的第m个和第n个元素,T是序列长度,d是维度;qm和kn的内积由函数g(·)表示,分别通过函数fq(·)、fk(·)加入第m个和第n个元素的位置信息,函数g(·)只取xm、xn及其相对位置m-n作为输入变量;函数fq(·)、fk(·)分别表示给xm和xn添加位置信息的函数;
步骤1-2:求解符合等式(1)的函数fq(·)和fk(·)完成旋转位置编码;
步骤1-2-1:当维度d=2时,解为:
fq(xm,m)=(xmWq)eimθ
fk(xm,m)=(xmWk)eimθ
g(xm,xn,m-n)=Re[(xmWq)(xnWk)*ei(m-n)θ] (2)
其中
Figure FDA0003246933720000013
分别是多头自注意力模块查询向量和键向量的线性层的权重矩阵,dm是多头自注意力模块的隐层维度,Re[·]表示复数的实部,(xnWk)*表示(xnWk)的共轭复数,
Figure FDA0003246933720000014
是一个非零常数;
步骤1-2-2:根据内积的线性可加性,将式(2)的解推广到任意偶数维度d,将d维空间划分为d/2子空间,并进行组合:
Figure FDA0003246933720000015
Figure FDA0003246933720000016
其中
Figure FDA0003246933720000017
Θ={θi=10000-2(i-1)/d,i∈[1,2,...,d/2]} (5)
Figure FDA0003246933720000021
步骤1-3:通过步骤1-2-1和步骤1-2-2构造了基于卷积自注意力网络的端到端语音识别模型;
步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练基于卷积自注意力网络的端到端语音识别模型;
步骤3:将待识别语音输入训练完成的基于卷积自注意力网络的端到端语音识别模型,语音识别模型进行识别输出相应的文本。
2.根据权利要求1所述的一种基于旋转位置编码的端到端语音识别方法,其特征在于,所述语料库为普通话语料库AISHELL-1和英语语音语料库LibriSpeech。
3.根据权利要求1所述的一种基于旋转位置编码的端到端语音识别方法,其特征在于,所述使用Adam优化器进行训练时,学习率峰值为0.0005,并进行30000次步骤的预热。
CN202111035297.1A 2021-09-06 2021-09-06 一种基于旋转位置编码的端到端语音识别方法 Pending CN113889095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111035297.1A CN113889095A (zh) 2021-09-06 2021-09-06 一种基于旋转位置编码的端到端语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111035297.1A CN113889095A (zh) 2021-09-06 2021-09-06 一种基于旋转位置编码的端到端语音识别方法

Publications (1)

Publication Number Publication Date
CN113889095A true CN113889095A (zh) 2022-01-04

Family

ID=79008217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111035297.1A Pending CN113889095A (zh) 2021-09-06 2021-09-06 一种基于旋转位置编码的端到端语音识别方法

Country Status (1)

Country Link
CN (1) CN113889095A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861601A (zh) * 2022-04-29 2022-08-05 桂林电子科技大学 基于旋转式编码的事件联合抽取方法及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113140220A (zh) * 2021-04-12 2021-07-20 西北工业大学 基于卷积自注意力变换网络的轻量级端到端语音识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113140220A (zh) * 2021-04-12 2021-07-20 西北工业大学 基于卷积自注意力变换网络的轻量级端到端语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHENGQIANG LI ET AL: "Conformer-based End-to-end Speech Recognition With Rotary Position Embedding", 《ARXIV》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861601A (zh) * 2022-04-29 2022-08-05 桂林电子科技大学 基于旋转式编码的事件联合抽取方法及存储介质
CN114861601B (zh) * 2022-04-29 2024-04-12 桂林电子科技大学 基于旋转式编码的事件联合抽取方法及存储介质

Similar Documents

Publication Publication Date Title
CN111627418B (zh) 语音合成模型的训练方法、合成方法、系统、设备和介质
CN110603583B (zh) 语音识别系统和用于语音识别的方法
CN109657051A (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
CN114787914A (zh) 用异步解码器流式传输端到端语音识别的系统和方法
CN106776548B (zh) 一种文本的相似度计算的方法和装置
CN113140220B (zh) 基于卷积自注意力变换网络的轻量级端到端语音识别方法
CN109710953B (zh) 一种翻译方法及装置、计算设备、存储介质和芯片
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别系统
CN108419094A (zh) 视频处理方法、视频检索方法、装置、介质及服务器
EP0732685A2 (en) A system for recognizing continuous speech
WO2022141706A1 (zh) 语音识别方法、装置及存储介质
CN110569505A (zh) 一种文本输入方法及装置
CN113450761B (zh) 一种基于变分自编码器的并行语音合成方法和装置
CN114220496A (zh) 一种基于深度学习的逆合成预测方法、装置、介质及设备
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
Tjandra et al. Multi-scale alignment and contextual history for attention mechanism in sequence-to-sequence model
CN113889095A (zh) 一种基于旋转位置编码的端到端语音识别方法
CN116129902A (zh) 一种基于跨模态对齐的语音翻译方法及系统
CN112417138A (zh) 一种结合指针生成式与自注意力机制的短文本自动摘要方法
Zhao et al. M-adapter: Modality adaptation for end-to-end speech-to-text translation
CN115831105A (zh) 基于改进Transformer模型的语音识别方法及装置
CN116521857A (zh) 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
JP7216065B2 (ja) 音声認識方法及び装置、電子機器並びに記憶媒体
CN113870826A (zh) 基于时长预测模型的发音时长预测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220104