CN113140220A - 基于卷积自注意力变换网络的轻量级端到端语音识别方法 - Google Patents

基于卷积自注意力变换网络的轻量级端到端语音识别方法 Download PDF

Info

Publication number
CN113140220A
CN113140220A CN202110398481.6A CN202110398481A CN113140220A CN 113140220 A CN113140220 A CN 113140220A CN 202110398481 A CN202110398481 A CN 202110398481A CN 113140220 A CN113140220 A CN 113140220A
Authority
CN
China
Prior art keywords
attention
self
convolution
module
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110398481.6A
Other languages
English (en)
Other versions
CN113140220B (zh
Inventor
张晓雷
李盛强
陈星�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110398481.6A priority Critical patent/CN113140220B/zh
Publication of CN113140220A publication Critical patent/CN113140220A/zh
Application granted granted Critical
Publication of CN113140220B publication Critical patent/CN113140220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Error Detection And Correction (AREA)

Abstract

本发明公开了一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,首先构建基于卷积自注意力变换网络的轻量级端到端语音识别模型,该模型对卷积自注意力变换网络进行改进,构成高效卷积自注意力变换网络;将低秩分解用于卷积自注意力变换网络中的前馈层,形成低秩前馈模块;提出多头高效自注意力MHESA,并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力;最终经过训练得到语音识别模型对语音进行识别。本发明将编码器自注意力层的计算复杂度降为线性,并将整个模型的参数量减少了约50%,而性能基本不变。

Description

基于卷积自注意力变换网络的轻量级端到端语音识别方法
技术领域
本发明属于模式识别技术领域,具体涉及一种轻量级端到端语音识别方法。
背景技术
语音识别(ASR,Automatic Speech Recognition)旨在将语音信号转换为文本内容,它可以形象地比喻为“机器的听觉系统”,是人机通信和交互技术的重要研究领域,也是人工智能的关键技术之一。语音识别可以应用到包括语音助手、自动驾驶、智能家居、手持移动设备等许多方面。近年来发展出的端到端语音识别技术,相比传统方法有着众多优点,如训练数据的标注简单、对语言学知识的依赖小、不需要隐马尔可夫模型中基于马尔科夫链的状态转移概率的条件独立假设,同时模型的训练和解码过程也更简单。目前主要有三种流行的端到端的方法,即连接时序分类(CTC,Connectionist TemporalClassification)、递归神经网络变换器(RNN-T,Recurrent Neural Network-Transducer)和基于注意力机制的编码器-解码器(AED,Attention based Encoder-Decoder)。
其中AED模型主要有两种,第一种AED模型采用递归神经网络(RNN,RecurrentNeural Network)作为其编码器和解码器的基础模块。第二种AED模型采用Transformer作为其编码器和解码器的基础模块。由于Transformer比RNN准确率高,训练速度快,因此基于Transformer的AED模型逐渐成为主流。但Transformer也存在一些缺点,如点积自注意力的计算复杂度随输入特征序列长度呈二次方增长、模型参数量大等。
近年来涌现了一些降低点积自注意力计算复杂度的研究:①通过轻量级的动态卷积代替了自注意力层;②利用局部密集的合成器注意力,来限制注意力权重的长度,从而减少了存储和计算的复杂度;③使用正交正随机特征进行快速注意力计算,并获得了很好的效果。另一方面,有许多压缩模型,减小参数量的工作。比如:①QuartzNet模型使用一维可分离卷积,基于CTC损失训练,并在LibriSpeech数据集上实现了近乎最高的准确性;②Low-rank Transformer采用低秩矩阵分解来压缩模型大小,同时性能下降很少;③卷积自注意力变换网络将自注意力与相对位置编码、卷积相结合,从而以较小的模型尺寸实现了最新的结果;④ContextNet结合了全卷积编码器和RNN-T解码器,该编码器通过添加Squeeze和Excitation模块将全局上下文信息合并到卷积层中。
发明内容
为了克服现有技术的不足,本发明提供了一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,首先构建基于卷积自注意力变换网络的轻量级端到端语音识别模型,该模型对卷积自注意力变换网络进行改进,构成高效卷积自注意力变换网络;将低秩分解用于卷积自注意力变换网络中的前馈层,形成低秩前馈模块;提出多头高效自注意力MHESA,并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力;最终经过训练得到语音识别模型对语音进行识别。本发明将编码器自注意力层的计算复杂度降为线性,并将整个模型的参数量减少了约50%,而性能基本不变。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;
步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;
步骤1-2:高效卷积自注意力变换网络的编码器包括两个低秩前馈模块,以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块;
对于第i个高效卷积自注意力变换网络的输入Xi,输出Yi由公式(1)到(4)得到:
Figure BDA0003014963630000021
Figure BDA0003014963630000022
X″i=X′i+Conv(X′i) (3)
Figure BDA0003014963630000023
其中LFFN(.)表示低秩前馈模块,MHESA(.)表示多头高效自注意力模块,Conv(.)表示卷积模块,Layernorm(.)表示层归一化;
步骤1-3:低秩前馈模块;
将卷积自注意力变换网络编码器前馈模块的线性层权重矩阵分解为两个矩阵,用这两个矩阵替换原来的线性层权重矩阵,形成低秩前馈模块;对于低秩前馈模块的输入X,输出为:
LFFN(X)=Dropout(Dropout(Swish(XE1D1))E2D2) (5)其中,Dropout(.)表示线性层,Swish(.)表示Swish激活函数;
Figure BDA0003014963630000031
Figure BDA0003014963630000032
E1和D1为第一个线性层权重矩阵分解的两个矩阵,E2和D2为第二个线性层权重矩阵分解的两个矩阵;d和dff表示前馈模块的输出维度和隐层维度,dbn表示所添加的瓶颈层的维度;
步骤1-4:多头高效自注意力模块;
对于多头高效自注意力模块中的第h个头,输入特征
Figure BDA0003014963630000033
通过三个线性投影层形成查询
Figure BDA0003014963630000034
Figure BDA0003014963630000035
和值
Figure BDA0003014963630000036
多头高效自注意力模块的第h个头的输出为:
Figure BDA0003014963630000037
其中,σrow和σcol分别表示沿矩阵的行或列应用softmax函数,dk=dm/H表示每个头的输出维度,H表示注意力头的个数,dm表示多头自注意力层的隐层维度,T是输入特征的长度;
多头高效自注意力用公式(7)表示:
MultiHead(Q,K,V)=Concat(Z1,…,ZH)WO (7)
其中,
Figure BDA0003014963630000038
为输出投影层的参数矩阵,Uh则有如下表示:
Zh=E(Qh,Kh,Vh) (8)
步骤1-5:卷积模块;
卷积模块依次为逐点卷积层、门控线性单元、一维深度卷积层和批归一化;
步骤1-6:高效卷积自注意力变换网络包括N个编码器和M个解码器,N个编码器和M个解码器依次串行连接,构成语音识别模型;
步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练语音识别模型;
步骤3:将待识别语音输入训练完成的语音识别模型,语音识别模型进行识别输出相应的文本。
优选地,所述N=12,M=6。
本发明的有益效果如下:
1.本发明将多头高效自注意力引入卷积自注意力变换网络,成功将编码器自注意力层的计算复杂度降为线性。
2.本发明首次将低秩矩阵分解应用于卷积自注意力变换网络中的前馈模块,将参数量减少了约50%,而性能下降很小。
附图说明
图1为本发明方法的低秩前馈模块示意图。
图2本发明方法中高效卷积自注意力变换网络计算过程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出了多头高效自注意力(MHESA,Multi-Head Effcient Self-Attention),并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力,使得其中自注意力层的计算复杂度从输入序列长度的二次方降低为线性。MHESA比点积自注意力计算复杂度低,训练速度快,而且性能一样。此外,将低阶矩阵分解用于卷积自注意力变换网络中的前馈模块以降低模型参数量。
一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,包括以下步骤:
步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;
步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;
步骤1-2:高效卷积自注意力变换网络的编码器包括两个低秩前馈模块,以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块;
对于第i个高效卷积自注意力变换网络的输入Xi,输出Yi由公式(1)到(4)得到:
Figure BDA0003014963630000041
Figure BDA0003014963630000042
X″i=X′i+Conv(X′i) (3)
Figure BDA0003014963630000043
其中LFFN(.)表示低秩前馈模块,MHESA(.)表示多头高效自注意力模块,Conv(.)表示卷积模块,Layernorm(.)表示层归一化;
步骤1-3:低秩前馈模块;
在卷积自注意力变换网络的编码器和解码器中都包含前馈模块,每个前馈模块由两个线性层和Swish激活函数组成,如图1所示;则对于前馈模块的输入X,输出为:
FFN(X)=Dropout(Dropout(Siwsh(XW1))W2)
其中,
Figure BDA0003014963630000051
分别是两个线性层的权重矩阵,同时考虑到矩阵分解,用两个小矩阵去近似原始线性层的权重矩阵,进而得到:
LFFN(X)=Dropout(Dropout(Swish(XE1D1))E2D2) (5)
其中,
Figure BDA0003014963630000052
矩阵W1需要d×dff个参数和d×dff次浮点运算,而E1,D1只需dbn×(d+dff)个参数和dbn×(d+dff)次浮点运算。通常,由于瓶颈层的尺寸非常小,有dbn<<dff,d,所以E1,D1的参数量和浮点运算次数比W1要小得多。
步骤1-4:多头高效自注意力模块;
对于多头点积自注意力中的第h个头,输入特征
Figure BDA0003014963630000053
通过三个线性投影层以形成查询
Figure BDA0003014963630000054
Figure BDA0003014963630000055
和值
Figure BDA0003014963630000056
Figure BDA0003014963630000057
其中,T是输入特征的长度,H是注意力头的个数,dm是多头自注意力层的隐层维度,dk=dm/H是每个头的输出维度;第h个点积自注意力模块的输出为:
Figure BDA0003014963630000058
点积自注意力需要计算注意力权重矩阵
Figure BDA0003014963630000059
则每个头的计算复杂度为O(T2);
多头点积自注意力可以用下式表示:
MultiHead(Q,K,V)=Concat(U1,…,UH)WO
其中,
Figure BDA00030149636300000510
为输出投影层的参数矩阵,Uh则有如下表示:
Figure BDA00030149636300000511
为了将自注意力层的计算复杂度降低到线性,本发明提出了一种简单但有效的多头高效自注意力模块,该模块在效果上等效于点积注意力,但速度更快,具体如下:
对于多头高效自注意力模块中的第h个头,输入特征
Figure BDA00030149636300000512
通过三个线性投影层形成查询
Figure BDA00030149636300000513
Figure BDA00030149636300000514
和值
Figure BDA00030149636300000515
多头高效自注意力模块的第h个头的输出为:
Figure BDA0003014963630000061
其中,σrow和σcol分别表示沿矩阵的行或列应用softmax函数;
如图2所示,高效的自注意力将矩阵乘法的顺序从(QKT)V变换为Q(KTV),并且对效果没有影响,但是将每个头的计算复杂度从O(T2)降低为
Figure BDA0003014963630000062
多头高效自注意力用公式(7)表示:
MultiHead(Q,K,V)=Concat(Z1,…,ZH)WO (7)其中,
Figure BDA0003014963630000063
为输出投影层的参数矩阵,Zh则有如下表示:
Zh=E(Qh,Kh,Vh) (8)
步骤1-5:卷积模块;
卷积模块依次为逐点卷积层、门控线性单元、一维深度卷积层和批归一化,批归一化的作用是帮助训练模型;
步骤1-6:高效卷积自注意力变换网络包括12个编码器和6个解码器,N个编码器和M个解码器依次串行连接,构成语音识别模型;
步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练语音识别模型;
步骤3:将待识别语音输入训练完成的语音识别模型,语音识别模型进行识别输出相应的文本。
具体实施例:
1、数据准备:
在实施例中,实验数据采用公共语言普通话语料库AISHELL-1。训练集包含由340位说话人录制的大约150个小时(120,098条语句)的语音;开发集包含由40位说话人录制的大约20个小时(14,326条语句)的语音;测试集包含由20位说话人录制的大约10个小时(7,176条语句)的语音。
2、数据处理:
提取80维的对数梅尔滤波器组特征,帧长为25ms,帧移为10ms,并且对特征进行归一化,使每个说话人的特征均值为0,方差为1。此外,选择4233个字符(包括填充符号“<PAD>”,未知符号“<UNK>”和句子结尾符号“<EOS>”)作为建模单元。
3、搭建网络:
本发明提出的模型和基线模型均基于ESPnet工具包,基线模型采用此工具包中提供的卷积自注意力变换网络。本发明中的高效卷积自注意力变换网络模型由12个编码器块和6个解码器块组成,模型中所有的多头注意力均采用4个头。卷积前端采用两个2-D卷积层,卷积核大小为3*3,步长为2,通道数为256,激活函数为ReLU。多头注意力和前馈层的输出特征向量维度是256。编码器和解码器中低秩前馈模块的瓶颈层维度均为100。
对于模型训练,使用Adam优化器,学习率峰值为0.0005,并进行30k次步骤的预热。此外,使用SpecAugment进行数据增强。一共训练50个周期,将最后10个周期的模型参数进行平均作为最终的模型。在测试阶段,设置波束搜索的宽度为20,并且引入基于Transformer的语言模型进行浅层融合。
4、实验效果:
表1比较不同ASR模型的各项指标(T是输入特征长度)
Figure BDA0003014963630000071
表1在AISHELL-1数据集上,比较了本发明中的高效Conformer模型和一些最先进模型的字错误率,这些模型包括:Speech-Transformer,Low-rank Transformer,LDSA和Conformer。
本发明模型在开发集和测试集上的字错误率分别为4.71%和5.05%,只比卷积自注意力变换网络稍差一些。但本发明模型的主要优点是:与卷积自注意力变换网络相比,参数量减少了约50%,并提高了训练速度。从表中各项指标看,本发明的模型明显优于其他具有代表性的ASR模型。
表2高效Conformer在消融实验中的各项指标(T是输入特征长度)
Figure BDA0003014963630000072
Figure BDA0003014963630000081
从高效卷积自注意力变换网络开始,逐渐移除它的特征组块,来分析各项指标。a.将低秩前馈模块(LFFN)替换为普通前馈模块(FFN);b.用MHSA代替MHESA。
本发明的高效卷积自注意力变换网络与传统卷积自注意力变换网络主要有以下几点区别:多头高效自注意力、低秩前馈模块以及编码器-解码器注意力相邻层间的残差连接。表2显示了每次更改的效果:a.LFFN将参数数量减少了约50%,而性能下降很小;b.MHESA将编码器自注意力层的计算复杂度从O(T2)降低到O(T),而不会降低性能。

Claims (2)

1.一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,其特征在于,包括以下步骤:
步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;
步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;
步骤1-2:高效卷积自注意力变换网络的编码器包括两个低秩前馈模块,以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块;
对于第i个高效卷积自注意力变换网络的输入Xi,输出Yi由公式(1)到(4)得到:
Figure FDA0003014963620000011
Figure FDA0003014963620000012
X″i=X′i+Conv(X′i) (3)
Figure FDA0003014963620000013
其中LFFN(.)表示低秩前馈模块,MHESA(.)表示多头高效自注意力模块,Conv(.)表示卷积模块,Layernorm(.)表示层归一化;
步骤1-3:低秩前馈模块;
将卷积自注意力变换网络编码器前馈模块的线性层权重矩阵分解为两个矩阵,用这两个矩阵替换原来的线性层权重矩阵,形成低秩前馈模块;对于低秩前馈模块的输入X,输出为:
LFFN(X)=Dropout(Dropout(Swish(XE1D1))E2D2) (5)
其中,Dropout(.)表示线性层,Swish(.)表示Swish激活函数;
Figure FDA0003014963620000014
Figure FDA0003014963620000015
E1和D1为第一个线性层权重矩阵分解的两个矩阵,E2和D2为第二个线性层权重矩阵分解的两个矩阵;d和dff表示前馈模块的输出维度和隐层维度,dbn表示所添加的瓶颈层的维度;
步骤1-4:多头高效自注意力模块;
对于多头高效自注意力模块中的第h个头,输入特征
Figure FDA0003014963620000016
通过三个线性投影层形成查询
Figure FDA0003014963620000017
Figure FDA0003014963620000018
和值
Figure FDA0003014963620000019
多头高效自注意力模块的第h个头的输出为:
Figure FDA0003014963620000021
其中,σrow和σcol分别表示沿矩阵的行或列应用softmax函数,dk=dm/H表示每个头的输出维度,H表示注意力头的个数,dm表示多头自注意力层的隐层维度,T是输入特征的长度;
多头高效自注意力用公式(7)表示:
MultiHead(Q,K,V)=Concat(Z1,…,ZH)WO (7)
其中,
Figure FDA0003014963620000022
为输出投影层的参数矩阵,Uh则有如下表示:
Zh=E(Qh,Kh,Vh) (8)
步骤1-5:卷积模块;
卷积模块依次为逐点卷积层、门控线性单元、一维深度卷积层和批归一化;
步骤1-6:高效卷积自注意力变换网络包括N个编码器和M个解码器,N个编码器和M个解码器依次串行连接,构成语音识别模型;
步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练语音识别模型;
步骤3:将待识别语音输入训练完成的语音识别模型,语音识别模型进行识别输出相应的文本。
2.根据权利要求1所述的一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,其特征在于,所述N=12,M=6。
CN202110398481.6A 2021-04-12 2021-04-12 基于卷积自注意力变换网络的轻量级端到端语音识别方法 Active CN113140220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110398481.6A CN113140220B (zh) 2021-04-12 2021-04-12 基于卷积自注意力变换网络的轻量级端到端语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110398481.6A CN113140220B (zh) 2021-04-12 2021-04-12 基于卷积自注意力变换网络的轻量级端到端语音识别方法

Publications (2)

Publication Number Publication Date
CN113140220A true CN113140220A (zh) 2021-07-20
CN113140220B CN113140220B (zh) 2023-04-18

Family

ID=76812412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110398481.6A Active CN113140220B (zh) 2021-04-12 2021-04-12 基于卷积自注意力变换网络的轻量级端到端语音识别方法

Country Status (1)

Country Link
CN (1) CN113140220B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889095A (zh) * 2021-09-06 2022-01-04 西北工业大学 一种基于旋转位置编码的端到端语音识别方法
CN114783418A (zh) * 2022-06-20 2022-07-22 天津大学 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114822541A (zh) * 2022-04-25 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种基于回译的无声语音识别方法和系统
CN114913848A (zh) * 2022-04-26 2022-08-16 北京市商汤科技开发有限公司 语音识别方法、装置、计算机设备和存储介质
CN115545269A (zh) * 2022-08-09 2022-12-30 南京信息工程大学 一种基于卷积自注意力Transformer模型的电网参数辨识方法
CN114822541B (zh) * 2022-04-25 2024-06-04 中国人民解放军军事科学院国防科技创新研究院 一种基于回译的无声语音识别方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473529A (zh) * 2019-09-09 2019-11-19 极限元(杭州)智能科技股份有限公司 一种基于自注意力机制的流式语音转写系统
US20200043467A1 (en) * 2018-07-31 2020-02-06 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
CN111048097A (zh) * 2019-12-19 2020-04-21 中国人民解放军空军研究院通信与导航研究所 一种基于3d卷积的孪生网络声纹识别方法
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
WO2020207354A1 (zh) * 2019-04-11 2020-10-15 华为技术有限公司 任务处理方法、装置、终端以及计算机可读存储介质
CN112183084A (zh) * 2020-09-07 2021-01-05 北京达佳互联信息技术有限公司 一种音视频数据处理方法和装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200043467A1 (en) * 2018-07-31 2020-02-06 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
WO2020207354A1 (zh) * 2019-04-11 2020-10-15 华为技术有限公司 任务处理方法、装置、终端以及计算机可读存储介质
CN110473529A (zh) * 2019-09-09 2019-11-19 极限元(杭州)智能科技股份有限公司 一种基于自注意力机制的流式语音转写系统
CN111048097A (zh) * 2019-12-19 2020-04-21 中国人民解放军空军研究院通信与导航研究所 一种基于3d卷积的孪生网络声纹识别方法
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN112183084A (zh) * 2020-09-07 2021-01-05 北京达佳互联信息技术有限公司 一种音视频数据处理方法和装置及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANMOL GULATI ET AL: "Conformer: Convolution-augmented Transformer for Speech Recognition", 《ARXIV》 *
刘佳文等: "基于Transformer的越南语连续语音识别", 《信息工程大学学报》 *
杨鸿武等: "基于改进混合CTC/attention架构的端到端普通话语音识别", 《西北师范大学学报(自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889095A (zh) * 2021-09-06 2022-01-04 西北工业大学 一种基于旋转位置编码的端到端语音识别方法
CN114822541A (zh) * 2022-04-25 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种基于回译的无声语音识别方法和系统
CN114822541B (zh) * 2022-04-25 2024-06-04 中国人民解放军军事科学院国防科技创新研究院 一种基于回译的无声语音识别方法和系统
CN114913848A (zh) * 2022-04-26 2022-08-16 北京市商汤科技开发有限公司 语音识别方法、装置、计算机设备和存储介质
CN114783418A (zh) * 2022-06-20 2022-07-22 天津大学 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114783418B (zh) * 2022-06-20 2022-08-23 天津大学 基于稀疏自注意力机制的端到端语音识别方法及系统
CN115545269A (zh) * 2022-08-09 2022-12-30 南京信息工程大学 一种基于卷积自注意力Transformer模型的电网参数辨识方法

Also Published As

Publication number Publication date
CN113140220B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN113140220B (zh) 基于卷积自注意力变换网络的轻量级端到端语音识别方法
CN111783459A (zh) 一种基于改进Transformer+CRF的老挝语命名实体识别方法
CN111145728A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Zhu et al. Phone-to-audio alignment without text: A semi-supervised approach
CN111783477B (zh) 一种语音翻译方法及系统
Guzhov et al. Esresne (x) t-fbsp: Learning robust time-frequency transformation of audio
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
CN114187898A (zh) 一种基于融合神经网络结构的端到端语音识别方法
CN112184859A (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN114373451A (zh) 一种端到端中文语音识别方法
CN113505610A (zh) 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备
CN110704664B (zh) 一种哈希检索方法
Le Moine et al. Towards end-to-end F0 voice conversion based on Dual-GAN with convolutional wavelet kernels
CN111951778B (zh) 一种低资源下利用迁移学习进行情感语音合成的方法
Letaifa et al. Transformer model compression for end-to-end speech recognition on mobile devices
CN116092475B (zh) 一种基于上下文感知扩散模型的口吃语音编辑方法和系统
CN116882477A (zh) 一种基于深度交互适配网络模型的通用多模态学习方法
CN106653061A (zh) 一种基于字典分类的音频匹配追踪装置及其追踪方法
CN110491371A (zh) 一种可完善语义信息的空管指令翻译方法
Getman End-to-End Low-Resource Automatic Speech Recognition for Second Language Learners
CN113823322A (zh) 一种基于精简改进的Transformer模型的语音识别方法
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
Chang et al. MoEVC: A mixture of experts voice conversion system with sparse gating mechanism for online computation acceleration
CN116227503A (zh) 一种基于ctc的非自回归端到端语音翻译方法
CN115310461A (zh) 基于多模态数据优化的低资源语音翻译方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant