CN113140220A - 基于卷积自注意力变换网络的轻量级端到端语音识别方法 - Google Patents
基于卷积自注意力变换网络的轻量级端到端语音识别方法 Download PDFInfo
- Publication number
- CN113140220A CN113140220A CN202110398481.6A CN202110398481A CN113140220A CN 113140220 A CN113140220 A CN 113140220A CN 202110398481 A CN202110398481 A CN 202110398481A CN 113140220 A CN113140220 A CN 113140220A
- Authority
- CN
- China
- Prior art keywords
- attention
- self
- convolution
- module
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009466 transformation Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Error Detection And Correction (AREA)
Abstract
本发明公开了一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,首先构建基于卷积自注意力变换网络的轻量级端到端语音识别模型,该模型对卷积自注意力变换网络进行改进,构成高效卷积自注意力变换网络;将低秩分解用于卷积自注意力变换网络中的前馈层,形成低秩前馈模块;提出多头高效自注意力MHESA,并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力;最终经过训练得到语音识别模型对语音进行识别。本发明将编码器自注意力层的计算复杂度降为线性,并将整个模型的参数量减少了约50%,而性能基本不变。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种轻量级端到端语音识别方法。
背景技术
语音识别(ASR,Automatic Speech Recognition)旨在将语音信号转换为文本内容,它可以形象地比喻为“机器的听觉系统”,是人机通信和交互技术的重要研究领域,也是人工智能的关键技术之一。语音识别可以应用到包括语音助手、自动驾驶、智能家居、手持移动设备等许多方面。近年来发展出的端到端语音识别技术,相比传统方法有着众多优点,如训练数据的标注简单、对语言学知识的依赖小、不需要隐马尔可夫模型中基于马尔科夫链的状态转移概率的条件独立假设,同时模型的训练和解码过程也更简单。目前主要有三种流行的端到端的方法,即连接时序分类(CTC,Connectionist TemporalClassification)、递归神经网络变换器(RNN-T,Recurrent Neural Network-Transducer)和基于注意力机制的编码器-解码器(AED,Attention based Encoder-Decoder)。
其中AED模型主要有两种,第一种AED模型采用递归神经网络(RNN,RecurrentNeural Network)作为其编码器和解码器的基础模块。第二种AED模型采用Transformer作为其编码器和解码器的基础模块。由于Transformer比RNN准确率高,训练速度快,因此基于Transformer的AED模型逐渐成为主流。但Transformer也存在一些缺点,如点积自注意力的计算复杂度随输入特征序列长度呈二次方增长、模型参数量大等。
近年来涌现了一些降低点积自注意力计算复杂度的研究:①通过轻量级的动态卷积代替了自注意力层;②利用局部密集的合成器注意力,来限制注意力权重的长度,从而减少了存储和计算的复杂度;③使用正交正随机特征进行快速注意力计算,并获得了很好的效果。另一方面,有许多压缩模型,减小参数量的工作。比如:①QuartzNet模型使用一维可分离卷积,基于CTC损失训练,并在LibriSpeech数据集上实现了近乎最高的准确性;②Low-rank Transformer采用低秩矩阵分解来压缩模型大小,同时性能下降很少;③卷积自注意力变换网络将自注意力与相对位置编码、卷积相结合,从而以较小的模型尺寸实现了最新的结果;④ContextNet结合了全卷积编码器和RNN-T解码器,该编码器通过添加Squeeze和Excitation模块将全局上下文信息合并到卷积层中。
发明内容
为了克服现有技术的不足,本发明提供了一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,首先构建基于卷积自注意力变换网络的轻量级端到端语音识别模型,该模型对卷积自注意力变换网络进行改进,构成高效卷积自注意力变换网络;将低秩分解用于卷积自注意力变换网络中的前馈层,形成低秩前馈模块;提出多头高效自注意力MHESA,并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力;最终经过训练得到语音识别模型对语音进行识别。本发明将编码器自注意力层的计算复杂度降为线性,并将整个模型的参数量减少了约50%,而性能基本不变。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;
步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;
步骤1-2:高效卷积自注意力变换网络的编码器包括两个低秩前馈模块,以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块;
对于第i个高效卷积自注意力变换网络的输入Xi,输出Yi由公式(1)到(4)得到:
X″i=X′i+Conv(X′i) (3)
其中LFFN(.)表示低秩前馈模块,MHESA(.)表示多头高效自注意力模块,Conv(.)表示卷积模块,Layernorm(.)表示层归一化;
步骤1-3:低秩前馈模块;
将卷积自注意力变换网络编码器前馈模块的线性层权重矩阵分解为两个矩阵,用这两个矩阵替换原来的线性层权重矩阵,形成低秩前馈模块;对于低秩前馈模块的输入X,输出为:
LFFN(X)=Dropout(Dropout(Swish(XE1D1))E2D2) (5)其中,Dropout(.)表示线性层,Swish(.)表示Swish激活函数; E1和D1为第一个线性层权重矩阵分解的两个矩阵,E2和D2为第二个线性层权重矩阵分解的两个矩阵;d和dff表示前馈模块的输出维度和隐层维度,dbn表示所添加的瓶颈层的维度;
步骤1-4:多头高效自注意力模块;
其中,σrow和σcol分别表示沿矩阵的行或列应用softmax函数,dk=dm/H表示每个头的输出维度,H表示注意力头的个数,dm表示多头自注意力层的隐层维度,T是输入特征的长度;
多头高效自注意力用公式(7)表示:
MultiHead(Q,K,V)=Concat(Z1,…,ZH)WO (7)
Zh=E(Qh,Kh,Vh) (8)
步骤1-5:卷积模块;
卷积模块依次为逐点卷积层、门控线性单元、一维深度卷积层和批归一化;
步骤1-6:高效卷积自注意力变换网络包括N个编码器和M个解码器,N个编码器和M个解码器依次串行连接,构成语音识别模型;
步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练语音识别模型;
步骤3:将待识别语音输入训练完成的语音识别模型,语音识别模型进行识别输出相应的文本。
优选地,所述N=12,M=6。
本发明的有益效果如下:
1.本发明将多头高效自注意力引入卷积自注意力变换网络,成功将编码器自注意力层的计算复杂度降为线性。
2.本发明首次将低秩矩阵分解应用于卷积自注意力变换网络中的前馈模块,将参数量减少了约50%,而性能下降很小。
附图说明
图1为本发明方法的低秩前馈模块示意图。
图2本发明方法中高效卷积自注意力变换网络计算过程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出了多头高效自注意力(MHESA,Multi-Head Effcient Self-Attention),并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力,使得其中自注意力层的计算复杂度从输入序列长度的二次方降低为线性。MHESA比点积自注意力计算复杂度低,训练速度快,而且性能一样。此外,将低阶矩阵分解用于卷积自注意力变换网络中的前馈模块以降低模型参数量。
一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,包括以下步骤:
步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;
步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;
步骤1-2:高效卷积自注意力变换网络的编码器包括两个低秩前馈模块,以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块;
对于第i个高效卷积自注意力变换网络的输入Xi,输出Yi由公式(1)到(4)得到:
X″i=X′i+Conv(X′i) (3)
其中LFFN(.)表示低秩前馈模块,MHESA(.)表示多头高效自注意力模块,Conv(.)表示卷积模块,Layernorm(.)表示层归一化;
步骤1-3:低秩前馈模块;
在卷积自注意力变换网络的编码器和解码器中都包含前馈模块,每个前馈模块由两个线性层和Swish激活函数组成,如图1所示;则对于前馈模块的输入X,输出为:
FFN(X)=Dropout(Dropout(Siwsh(XW1))W2)
LFFN(X)=Dropout(Dropout(Swish(XE1D1))E2D2) (5)
其中,矩阵W1需要d×dff个参数和d×dff次浮点运算,而E1,D1只需dbn×(d+dff)个参数和dbn×(d+dff)次浮点运算。通常,由于瓶颈层的尺寸非常小,有dbn<<dff,d,所以E1,D1的参数量和浮点运算次数比W1要小得多。
步骤1-4:多头高效自注意力模块;
其中,T是输入特征的长度,H是注意力头的个数,dm是多头自注意力层的隐层维度,dk=dm/H是每个头的输出维度;第h个点积自注意力模块的输出为:
多头点积自注意力可以用下式表示:
MultiHead(Q,K,V)=Concat(U1,…,UH)WO
为了将自注意力层的计算复杂度降低到线性,本发明提出了一种简单但有效的多头高效自注意力模块,该模块在效果上等效于点积注意力,但速度更快,具体如下:
其中,σrow和σcol分别表示沿矩阵的行或列应用softmax函数;
多头高效自注意力用公式(7)表示:
Zh=E(Qh,Kh,Vh) (8)
步骤1-5:卷积模块;
卷积模块依次为逐点卷积层、门控线性单元、一维深度卷积层和批归一化,批归一化的作用是帮助训练模型;
步骤1-6:高效卷积自注意力变换网络包括12个编码器和6个解码器,N个编码器和M个解码器依次串行连接,构成语音识别模型;
步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练语音识别模型;
步骤3:将待识别语音输入训练完成的语音识别模型,语音识别模型进行识别输出相应的文本。
具体实施例:
1、数据准备:
在实施例中,实验数据采用公共语言普通话语料库AISHELL-1。训练集包含由340位说话人录制的大约150个小时(120,098条语句)的语音;开发集包含由40位说话人录制的大约20个小时(14,326条语句)的语音;测试集包含由20位说话人录制的大约10个小时(7,176条语句)的语音。
2、数据处理:
提取80维的对数梅尔滤波器组特征,帧长为25ms,帧移为10ms,并且对特征进行归一化,使每个说话人的特征均值为0,方差为1。此外,选择4233个字符(包括填充符号“<PAD>”,未知符号“<UNK>”和句子结尾符号“<EOS>”)作为建模单元。
3、搭建网络:
本发明提出的模型和基线模型均基于ESPnet工具包,基线模型采用此工具包中提供的卷积自注意力变换网络。本发明中的高效卷积自注意力变换网络模型由12个编码器块和6个解码器块组成,模型中所有的多头注意力均采用4个头。卷积前端采用两个2-D卷积层,卷积核大小为3*3,步长为2,通道数为256,激活函数为ReLU。多头注意力和前馈层的输出特征向量维度是256。编码器和解码器中低秩前馈模块的瓶颈层维度均为100。
对于模型训练,使用Adam优化器,学习率峰值为0.0005,并进行30k次步骤的预热。此外,使用SpecAugment进行数据增强。一共训练50个周期,将最后10个周期的模型参数进行平均作为最终的模型。在测试阶段,设置波束搜索的宽度为20,并且引入基于Transformer的语言模型进行浅层融合。
4、实验效果:
表1比较不同ASR模型的各项指标(T是输入特征长度)
表1在AISHELL-1数据集上,比较了本发明中的高效Conformer模型和一些最先进模型的字错误率,这些模型包括:Speech-Transformer,Low-rank Transformer,LDSA和Conformer。
本发明模型在开发集和测试集上的字错误率分别为4.71%和5.05%,只比卷积自注意力变换网络稍差一些。但本发明模型的主要优点是:与卷积自注意力变换网络相比,参数量减少了约50%,并提高了训练速度。从表中各项指标看,本发明的模型明显优于其他具有代表性的ASR模型。
表2高效Conformer在消融实验中的各项指标(T是输入特征长度)
从高效卷积自注意力变换网络开始,逐渐移除它的特征组块,来分析各项指标。a.将低秩前馈模块(LFFN)替换为普通前馈模块(FFN);b.用MHSA代替MHESA。
本发明的高效卷积自注意力变换网络与传统卷积自注意力变换网络主要有以下几点区别:多头高效自注意力、低秩前馈模块以及编码器-解码器注意力相邻层间的残差连接。表2显示了每次更改的效果:a.LFFN将参数数量减少了约50%,而性能下降很小;b.MHESA将编码器自注意力层的计算复杂度从O(T2)降低到O(T),而不会降低性能。
Claims (2)
1.一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,其特征在于,包括以下步骤:
步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;
步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;
步骤1-2:高效卷积自注意力变换网络的编码器包括两个低秩前馈模块,以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块;
对于第i个高效卷积自注意力变换网络的输入Xi,输出Yi由公式(1)到(4)得到:
X″i=X′i+Conv(X′i) (3)
其中LFFN(.)表示低秩前馈模块,MHESA(.)表示多头高效自注意力模块,Conv(.)表示卷积模块,Layernorm(.)表示层归一化;
步骤1-3:低秩前馈模块;
将卷积自注意力变换网络编码器前馈模块的线性层权重矩阵分解为两个矩阵,用这两个矩阵替换原来的线性层权重矩阵,形成低秩前馈模块;对于低秩前馈模块的输入X,输出为:
LFFN(X)=Dropout(Dropout(Swish(XE1D1))E2D2) (5)
其中,Dropout(.)表示线性层,Swish(.)表示Swish激活函数; E1和D1为第一个线性层权重矩阵分解的两个矩阵,E2和D2为第二个线性层权重矩阵分解的两个矩阵;d和dff表示前馈模块的输出维度和隐层维度,dbn表示所添加的瓶颈层的维度;
步骤1-4:多头高效自注意力模块;
其中,σrow和σcol分别表示沿矩阵的行或列应用softmax函数,dk=dm/H表示每个头的输出维度,H表示注意力头的个数,dm表示多头自注意力层的隐层维度,T是输入特征的长度;
多头高效自注意力用公式(7)表示:
MultiHead(Q,K,V)=Concat(Z1,…,ZH)WO (7)
Zh=E(Qh,Kh,Vh) (8)
步骤1-5:卷积模块;
卷积模块依次为逐点卷积层、门控线性单元、一维深度卷积层和批归一化;
步骤1-6:高效卷积自注意力变换网络包括N个编码器和M个解码器,N个编码器和M个解码器依次串行连接,构成语音识别模型;
步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练语音识别模型;
步骤3:将待识别语音输入训练完成的语音识别模型,语音识别模型进行识别输出相应的文本。
2.根据权利要求1所述的一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,其特征在于,所述N=12,M=6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110398481.6A CN113140220B (zh) | 2021-04-12 | 2021-04-12 | 基于卷积自注意力变换网络的轻量级端到端语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110398481.6A CN113140220B (zh) | 2021-04-12 | 2021-04-12 | 基于卷积自注意力变换网络的轻量级端到端语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113140220A true CN113140220A (zh) | 2021-07-20 |
CN113140220B CN113140220B (zh) | 2023-04-18 |
Family
ID=76812412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110398481.6A Active CN113140220B (zh) | 2021-04-12 | 2021-04-12 | 基于卷积自注意力变换网络的轻量级端到端语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113140220B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889095A (zh) * | 2021-09-06 | 2022-01-04 | 西北工业大学 | 一种基于旋转位置编码的端到端语音识别方法 |
CN114783418A (zh) * | 2022-06-20 | 2022-07-22 | 天津大学 | 基于稀疏自注意力机制的端到端语音识别方法及系统 |
CN114822541A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
CN114913848A (zh) * | 2022-04-26 | 2022-08-16 | 北京市商汤科技开发有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN115545269A (zh) * | 2022-08-09 | 2022-12-30 | 南京信息工程大学 | 一种基于卷积自注意力Transformer模型的电网参数辨识方法 |
CN114822541B (zh) * | 2022-04-25 | 2024-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473529A (zh) * | 2019-09-09 | 2019-11-19 | 极限元(杭州)智能科技股份有限公司 | 一种基于自注意力机制的流式语音转写系统 |
US20200043467A1 (en) * | 2018-07-31 | 2020-02-06 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
CN111048097A (zh) * | 2019-12-19 | 2020-04-21 | 中国人民解放军空军研究院通信与导航研究所 | 一种基于3d卷积的孪生网络声纹识别方法 |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
WO2020207354A1 (zh) * | 2019-04-11 | 2020-10-15 | 华为技术有限公司 | 任务处理方法、装置、终端以及计算机可读存储介质 |
CN112183084A (zh) * | 2020-09-07 | 2021-01-05 | 北京达佳互联信息技术有限公司 | 一种音视频数据处理方法和装置及设备 |
-
2021
- 2021-04-12 CN CN202110398481.6A patent/CN113140220B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200043467A1 (en) * | 2018-07-31 | 2020-02-06 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
WO2020207354A1 (zh) * | 2019-04-11 | 2020-10-15 | 华为技术有限公司 | 任务处理方法、装置、终端以及计算机可读存储介质 |
CN110473529A (zh) * | 2019-09-09 | 2019-11-19 | 极限元(杭州)智能科技股份有限公司 | 一种基于自注意力机制的流式语音转写系统 |
CN111048097A (zh) * | 2019-12-19 | 2020-04-21 | 中国人民解放军空军研究院通信与导航研究所 | 一种基于3d卷积的孪生网络声纹识别方法 |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN112183084A (zh) * | 2020-09-07 | 2021-01-05 | 北京达佳互联信息技术有限公司 | 一种音视频数据处理方法和装置及设备 |
Non-Patent Citations (3)
Title |
---|
ANMOL GULATI ET AL: "Conformer: Convolution-augmented Transformer for Speech Recognition", 《ARXIV》 * |
刘佳文等: "基于Transformer的越南语连续语音识别", 《信息工程大学学报》 * |
杨鸿武等: "基于改进混合CTC/attention架构的端到端普通话语音识别", 《西北师范大学学报(自然科学版)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889095A (zh) * | 2021-09-06 | 2022-01-04 | 西北工业大学 | 一种基于旋转位置编码的端到端语音识别方法 |
CN114822541A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
CN114822541B (zh) * | 2022-04-25 | 2024-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
CN114913848A (zh) * | 2022-04-26 | 2022-08-16 | 北京市商汤科技开发有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN114783418A (zh) * | 2022-06-20 | 2022-07-22 | 天津大学 | 基于稀疏自注意力机制的端到端语音识别方法及系统 |
CN114783418B (zh) * | 2022-06-20 | 2022-08-23 | 天津大学 | 基于稀疏自注意力机制的端到端语音识别方法及系统 |
CN115545269A (zh) * | 2022-08-09 | 2022-12-30 | 南京信息工程大学 | 一种基于卷积自注意力Transformer模型的电网参数辨识方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113140220B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113140220B (zh) | 基于卷积自注意力变换网络的轻量级端到端语音识别方法 | |
CN111783459A (zh) | 一种基于改进Transformer+CRF的老挝语命名实体识别方法 | |
CN111145728A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
Zhu et al. | Phone-to-audio alignment without text: A semi-supervised approach | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
Guzhov et al. | Esresne (x) t-fbsp: Learning robust time-frequency transformation of audio | |
CN111429893A (zh) | 基于Transitive STARGAN的多对多说话人转换方法 | |
CN114187898A (zh) | 一种基于融合神经网络结构的端到端语音识别方法 | |
CN112184859A (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN114373451A (zh) | 一种端到端中文语音识别方法 | |
CN113505610A (zh) | 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 | |
CN110704664B (zh) | 一种哈希检索方法 | |
Le Moine et al. | Towards end-to-end F0 voice conversion based on Dual-GAN with convolutional wavelet kernels | |
CN111951778B (zh) | 一种低资源下利用迁移学习进行情感语音合成的方法 | |
Letaifa et al. | Transformer model compression for end-to-end speech recognition on mobile devices | |
CN116092475B (zh) | 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 | |
CN116882477A (zh) | 一种基于深度交互适配网络模型的通用多模态学习方法 | |
CN106653061A (zh) | 一种基于字典分类的音频匹配追踪装置及其追踪方法 | |
CN110491371A (zh) | 一种可完善语义信息的空管指令翻译方法 | |
Getman | End-to-End Low-Resource Automatic Speech Recognition for Second Language Learners | |
CN113823322A (zh) | 一种基于精简改进的Transformer模型的语音识别方法 | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
Chang et al. | MoEVC: A mixture of experts voice conversion system with sparse gating mechanism for online computation acceleration | |
CN116227503A (zh) | 一种基于ctc的非自回归端到端语音翻译方法 | |
CN115310461A (zh) | 基于多模态数据优化的低资源语音翻译方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |