CN113380237A - 增强局部依赖关系无监督预训练语音识别模型及训练方法 - Google Patents

增强局部依赖关系无监督预训练语音识别模型及训练方法 Download PDF

Info

Publication number
CN113380237A
CN113380237A CN202110642843.1A CN202110642843A CN113380237A CN 113380237 A CN113380237 A CN 113380237A CN 202110642843 A CN202110642843 A CN 202110642843A CN 113380237 A CN113380237 A CN 113380237A
Authority
CN
China
Prior art keywords
module
speech recognition
recognition model
training
depth separable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110642843.1A
Other languages
English (en)
Inventor
朱秋实
戴礼荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110642843.1A priority Critical patent/CN113380237A/zh
Publication of CN113380237A publication Critical patent/CN113380237A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种增强局部依赖关系的无监督预训练语音识别模型,所述语音识别模型包括编码器模块和解码器模块;所述编码器模块包括特征提取模块和上下文模块,所述上下文模块采用包括深度可分离卷积模块的transformer编码器,所述transformer编码器包括自注意力模块;其中,所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下:所述自注意力模块后接所述深度可分离卷积模块,两者是串行关系;所述自注意力模块和所述深度可分离卷积模块并行;所述自注意力模块先和所述深度可分离卷积模块并行,然后再和所述深度可分离卷积模块串行;所述自注意力模块先和所述深度可分离卷积模块串行,然后再和所述深度可分离卷积模块并行。

Description

增强局部依赖关系无监督预训练语音识别模型及训练方法
技术领域
本发明涉及低资源语音识别领域,尤其涉及一种增强局部依赖关系的无监督预训练语音识别模型及训练方法。
背景技术
语音识别也称为自动语音识别(Automatic Speech Recognition,ASR)。其目标是将人类语音转换为计算机可读的文字或指令。低资源语音识别是语音识别的一个领域,目前利用无监督语音预训练方法来提升低资源语音识别性能是其中一种主流的方法。
无监督预训练方法采用大量无标签语音数据进行训练,能够充分利用极易获取的无标签语音数据,学习语音中的结构信息。一个具有代表性的语音无监督预训练模型是wav2vec 2.0模型。Wav2vec 2.0掩蔽语音帧信息,通过上下文预测被掩蔽的语音帧信息,然后构建对比损失函数来区分正负样本,学习语音中的结构信息。wav2vec 2.0模型是基于transformer模型结构,而transformer模型结构能够有效对长距离的上下文依赖关系进行建模,但是缺乏对细粒度局部信息的建模。由于声音事件经常发生在短时间范围内,所以长距离的上下文依赖关系和局部细粒度依赖关系都是有必要的。有研究者提出了端到端conformer模型,此模型结合深度可分离卷积模块和自注意力模块来同时建模语音中的长距离的上下文依赖关系和局部细粒度依赖关系,该模型减少了语音识别错误率。但是该conformer模型是用在端到端语音识别模型中。又有研究者提出了lite transformer模型,该模型包含两个分支,一个分支是卷积模块,另一个分支是自注意力模块,然后对两个分支的输出进行拼接。卷积模块能够捕获局部的依赖关系,而自注意力模块专注于捕获上下文依赖关系,它们各司其职,然后在机器翻译任务上取得了性能提升。这些类似的思想在不同领域均带来了性能的提升,但是在语音领域,如何在预训练模型中对局部和全局依赖性关系进行建模仍然是一个开放性的问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种增强局部依赖关系的无监督预训练语音识别模型,以期部分地解决上述技术问题中的至少之一。
为了实现上述目的,作为本发明的一方面,提供了一种增强局部依赖关系的无监督预训练语音识别模型,所述语音识别模型包括编码器模块和解码器模块;所述编码器模块包括特征提取模块和上下文模块,所述上下文模块采用包括深度可分离卷积模块的transformer编码器,所述transformer编码器包括自注意力模块;其中,
所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下:所述自注意力模块后接所述深度可分离卷积模块,两者是串行关系;所述自注意力模块和所述深度可分离卷积模块并行;所述自注意力模块先和所述深度可分离卷积模块并行,然后再和所述深度可分离卷积模块串行;所述自注意力模块先和所述深度可分离卷积模块串行,然后再和所述深度可分离卷积模块并行。
其中,所述特征提取模块采用多层卷积神经网络。
其中,所述特征提取模块包含7层卷积,卷积步长为(5,2,2,2,2,2,2)卷积核为(10,3,3,3,3,3,2,2),所述特征提取模块输出帧长25ms,帧移20ms。
其中,将原始语音采样点经过特征提取器提取浅层特征,所述浅层特征经过上下文模块获取上下文特征。
其中,所述解码器模块采用线性映射层或transformer decoder层。
其中,所述解码器模块的输入为上下文特征向量,输出为预测文本。
其中,所述语音识别模型还包括损失函数,所述语音识别模型在预训练阶段使用3个损失函数,在有标签数据上微调时使用1个损失函数。
其中,所述语音识别模型在预训练阶段使用3个损失函数,这3个损失函数包括对比损失函数、码本多样性损失函数和L2损失函数。
其中,在有标签数据上微调时使用1个损失函数,这个损失函数为CTC损失函数或者CE损失函数。
作为本发明的另一方面,还提供了一种如上所述的语音识别模型的训练方法,包括以下步骤:
采用如上所述的语音识别模型对语音数据进行预训练;
当语音识别模型预训练完成后,在上下文模块之后接入解码器模块,采用有标签数据用CTC损失函数或CE损失函数微调预训练模型;
利用无标签数据进行无监督预训练,在有标签数据上进行微调。
基于上述技术方案可知,本发明的增强局部依赖关系的无监督预训练语音识别模型相对于现有技术至少具有如下有益效果的一部分:
本发明提出的增强局部依赖关系的无监督预训练语音识别模型能弥补无监督预训练模型wav2vec 2.0建模局部依赖关系不足问题,能够更快地迁移到语音识别任务并且降低识别错误率。
附图说明
图1为本发明实施例提供的增强局部依赖关系的无监督预训练语音识别模型图;
图2为本发明实施例提供的transformer模块中自注意模块和深度可分离卷积模块位置关系;
图3为本发明实施例提供的960小时预训练模型在不同epoch微调WER结果。
具体实施方式
目前基于无监督预训练wav2vec 2.0方法进行低资源语音识别存在着局部信息建模不足、预训练模型训练时间长以及无监督预训练模型不能更快地迁移到低资源语音识别任务上等问题。因此本发明提出了一种增强建模局部依赖关系的无监督预训练语音识别模型,在增加少量参数的条件下,能够提高预训练效率、更快的迁移到低资源语音识别任务上以及提升低资源识别准确率。
本发明提出了一种增强局部依赖关系的无监督预训练语音识别模型。该模型的transformer编码器通过结合串并行深度可分离卷积模块来增强模型建模局部依赖关系的能力,同时使用共享参数的前馈神经网络。该发明提出的模型在保证增加少量参数的条件下,能够提升预训练效率,提高预训练模型在有标签数据上微调的速度,减少语音识别错误率。
本发明利用深度可分离卷积模块增强模型建模局部依赖关系的方法,针对transformer建模局部依赖关系能力不足的问题,在transformer结构中引入串并行深度可分离卷积模块,串并行深度可分离卷积模块能够建模局部依赖关系,transformer中的自注意力模块能够建模长距离的依赖关系。为了保证只增加少量参数,又能和conformer结构相对比,引入共享前馈神经网络层,每一个transformer层中的两层前馈神经网络层共享参数,每一个transformer层都是三明治结构(前馈神经网络-自注意力模块(卷积模块)-前馈神经网络)。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
如图1所示,为本发明提出的增强局部依赖关系的无监督预训练语音识别模型图,如图1左侧部分,在预训练阶段,模型输入16KHz语音采样点X=[x1,x2,…,xm…,xn],经过特征提取器模块获得浅层特征Z=[z1,z2,…,zt…,zT],然后浅层特征Z经过上下文模块获得上下文向量C=[c1,c2,…,ct…,cT]。其中,上下文模块可以选择如图2中所示的不同卷积模块增强的transformer模块。模型预训练完成后,会在上下文模块之后接入线性映射层或者decoder(如图1右侧部分所示),然后在有标签数据上进行微调。
该模型由编码器和解码器两部分构成,还包括损失函数。下边对其分别进行详细介绍。
(1)编码器模块
编码器模块包含特征提取模块和上下文模块。其中特征提取模块采用7层卷积神经网络,特征提取模块输入为16KHz语音采样点X=[x1,x2,…,xm…,xn],经过特征提取器模块获得浅层特征Z=[z1,z2,…,zt…,zT]。上下文模块采用深度可分离卷积网络增强的transformer编码器。上下文模块包含12层transformer编码器模块,上下文模块的输入为浅层特征Z=[z1,z2,…,zt…,zT],输出为上下文特征向量C=[c1,c2,…,ct…,cT]。其中卷积增强的上下文模块有多种组合方式,如图3所示。深度可分离卷积模块和自注意力模块的位置有多种组合方式,1)自注意力模块后接深度可分离卷积模块,两者是串行关系。2)自注意力模块和深度可分离卷积模块并行。3)自注意力模块先和深度可分离卷积模块并行,然后再和深度可分离卷积模块串行。4)自注意模块和深度可分离卷积模块串行,然后再和深度可分离卷积模块并行。
(2)解码器模块
解码器模块采用线性映射层或多层transformer decoder层作为解码器。解码器的输入为上下文特征向量C=[c1,c2,…,ct…,cT],输出为预测文本,预测文本和真实文本计算CTC损失函数或者CE损失函数。
(3)损失函数
在无监督预训练阶段,模型采用3种损失函数。1)对比损失函数。2)码本多样性损失函数。3)L2损失函数。无监督预训练的损失函数L=Lm+αLd+βLf,其中Lm为对比损失函数,Ld为码本多样性函数,Lf为L2正则函数,α和β为可调节超参数。
Figure BDA0003107723300000051
Figure BDA0003107723300000052
Figure BDA0003107723300000053
公式中sim表示余弦相似度,qt是经过量化之后的语音表示。pg,v表示选择第g组第v个码本的概率。通过对比损失函数使得模型学习到区分性表示信息,通过码本多样性损失函数使得模型尽可能多地利用学到的码本增强表示的鲁棒性,通过L2损失函数使得预训练过程更加稳定。无监督语音预训练完成后,在有标签数据上微调时,使用CTC(Connectionist Temporal Classification)损失函数或者CE(Cross Entropy)损失函数。
模型预训练完成后,会在上下文模块之后接入线性映射层或者decoder,然后在有标签数据上进行微调。此时采用的损失函数为CTC损失函数或者CE损失函数。然后不断优化模型,使得模型在验证集上的损失函数最小。
本发明还公开了一种如上所述的语音识别模型的训练方法,包括以下步骤:
采用如上所述的语音识别模型对语音数据进行预训练;
当语音识别模型预训练完成后,在上下文模块之后接入解码器模块,采用有标签数据用CTC损失函数或CE损失函数微调预训练模型;
利用无标签数据进行无监督预训练,在有标签数据上进行微调。
为了验证本发明所提出方法的有效性,设计了如下实验。
(1)实验设置
本文在预训练阶段使用的无标签数据是公开英语数据集librispeech,一共包含960小时的语音数据。有标签数据为librispeech的100小时子集。在预训练阶段,特征提取模块包含7层卷积,卷积步长为(5,2,2,2,2,2,2)卷积核为(10,3,3,3,3,3,2,2),特征提取模块输出Z帧长25ms,帧移20ms。上下文模块包含12层卷积增强的transformer模块,transformer模型维度为768,前馈神经网络维度为3072,深度可分离卷积核大小为32,深度可分离卷积维度为256。模型使用pytorch实现,Adam优化器对参数进行优化。
(2)实验结果
当模型预训练完成后,在上下文模块之后接入线性映射层,采用有标签数据用CTC损失函数微调预训练模型。首先先用100小时无监督数据进行无监督预训练,然后在10小时有监督数据进行CTC微调,结果如表1所示,从表1可知transformer encoder2字错误率WER(Word Error Rate)最低,也即自注意力模块先和深度可分离卷积模块并行,然后再和深度可分离卷积模块串行性能最好。
表1利用100小时无监督数据,在10小时有监督数据微调WER结果
Figure BDA0003107723300000061
Figure BDA0003107723300000071
然后利用960小时无监督数据进行无监督预训练,在100小时有监督数据进行CTC微调。根据图3结果所示,深度可分离卷积增强的模型在预训练阶段收敛速度更快,这表明增强局部依赖关系能够提高预训练模型的训练效率。960小时预训练模型分别在1小时、10小时和100h微调,实验结果如表2所示。当增强模型建模局部依赖关系之后,模型在有标签低资源数据上WER更低。
表2:利用960小时无监督数据,分别在1小时,10小时,100小时有监督数据微调WER结果
Figure BDA0003107723300000072
总的来说,本发明提出了一种增强局部依赖关系的无监督预训练模型。该方法的优点在于:第一,仅增加少量模型参数的条件下,该模型能够在预训练阶段提高模型预训练效率。第二,该模型在低资源有标签数据上微调时,能够将局部的上下文信息更好的微调到下游任务中,因此语音识别准确率更好。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种增强局部依赖关系的无监督预训练语音识别模型,其特征在于,所述语音识别模型包括编码器模块和解码器模块;所述编码器模块包括特征提取模块和上下文模块,所述上下文模块采用包括深度可分离卷积模块的transformer编码器,所述transformer编码器包括自注意力模块;其中,
所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下:所述自注意力模块后接所述深度可分离卷积模块,两者是串行关系;所述自注意力模块和所述深度可分离卷积模块并行;所述自注意力模块先和所述深度可分离卷积模块并行,然后再和所述深度可分离卷积模块串行;所述自注意力模块先和所述深度可分离卷积模块串行,然后再和所述深度可分离卷积模块并行。
2.根据权利要求1所述的语音识别模型,其特征在于,所述特征提取模块采用多层卷积神经网络。
3.根据权利要求1所述的语音识别模型,其特征在于,所述特征提取模块包含7层卷积,卷积步长为(5,2,2,2,2,2,2)卷积核为(10,3,3,3,3,3,2,2),所述特征提取模块输出帧长25ms,帧移20ms。
4.根据权利要求1所述的语音识别模型,其特征在于,将原始语音采样点经过特征提取器提取浅层特征,所述浅层特征经过上下文模块获取上下文特征。
5.根据权利要求1所述的语音识别模型,其特征在于,所述解码器模块采用线性映射层或transformer decoder层。
6.根据权利要求1所述的语音识别模型,其特征在于,所述解码器模块的输入为上下文特征向量,输出为预测文本。
7.根据权利要求1所述的语音识别模型,其特征在于,所述语音识别模型还包括损失函数,所述语音识别模型在预训练阶段使用3个损失函数,在有标签数据上微调时使用1个损失函数。
8.根据权利要求7所述的语音识别模型,其特征在于,所述语音识别模型在预训练阶段使用3个损失函数,这3个损失函数包括对比损失函数、码本多样性损失函数和L2损失函数。
9.根据权利要求7所述的语音识别模型,其特征在于,在有标签数据上微调时使用1个损失函数,这个损失函数为CTC损失函数或者CE损失函数。
10.一种如权利要求1-9任一项所述的语音识别模型的训练方法,其特征在于,包括以下步骤:
采用如权利要求1-9任一所述的语音识别模型对语音数据进行预训练;
当语音识别模型预训练完成后,在上下文模块之后接入解码器模块,采用有标签数据用CTC损失函数或CE损失函数微调预训练模型;
利用无标签数据进行无监督预训练,在有标签数据上进行微调。
CN202110642843.1A 2021-06-09 2021-06-09 增强局部依赖关系无监督预训练语音识别模型及训练方法 Pending CN113380237A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110642843.1A CN113380237A (zh) 2021-06-09 2021-06-09 增强局部依赖关系无监督预训练语音识别模型及训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110642843.1A CN113380237A (zh) 2021-06-09 2021-06-09 增强局部依赖关系无监督预训练语音识别模型及训练方法

Publications (1)

Publication Number Publication Date
CN113380237A true CN113380237A (zh) 2021-09-10

Family

ID=77573162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110642843.1A Pending CN113380237A (zh) 2021-06-09 2021-06-09 增强局部依赖关系无监督预训练语音识别模型及训练方法

Country Status (1)

Country Link
CN (1) CN113380237A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596312A (zh) * 2022-05-07 2022-06-07 中国科学院深圳先进技术研究院 一种视频处理方法和装置
CN114913848A (zh) * 2022-04-26 2022-08-16 北京市商汤科技开发有限公司 语音识别方法、装置、计算机设备和存储介质
CN115547334A (zh) * 2022-10-17 2022-12-30 上海城建职业学院 小学作文语音识别文本纠错系统及方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180018031A (ko) * 2016-08-12 2018-02-21 한국전자통신연구원 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법
US20190122103A1 (en) * 2017-10-24 2019-04-25 International Business Machines Corporation Attention based sequential image processing
CN109919205A (zh) * 2019-02-25 2019-06-21 华南理工大学 基于多头自注意力机制的卷积回声状态网络时序分类方法
CN110992942A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN111009237A (zh) * 2019-12-12 2020-04-14 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备及存储介质
US20200135174A1 (en) * 2018-10-24 2020-04-30 Tencent America LLC Multi-task training architecture and strategy for attention-based speech recognition system
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN111862953A (zh) * 2019-12-05 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置
CN112580649A (zh) * 2020-12-15 2021-03-30 重庆邮电大学 一种基于区域上下文关系模块的语义分割方法
CN112599122A (zh) * 2020-12-10 2021-04-02 平安科技(深圳)有限公司 基于自注意力机制和记忆网络的语音识别方法及装置
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备
KR20210043995A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 모델 학습 방법 및 장치, 및 시퀀스 인식 방법
CN112863489A (zh) * 2021-04-26 2021-05-28 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180018031A (ko) * 2016-08-12 2018-02-21 한국전자통신연구원 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법
US20190122103A1 (en) * 2017-10-24 2019-04-25 International Business Machines Corporation Attention based sequential image processing
US20200135174A1 (en) * 2018-10-24 2020-04-30 Tencent America LLC Multi-task training architecture and strategy for attention-based speech recognition system
CN109919205A (zh) * 2019-02-25 2019-06-21 华南理工大学 基于多头自注意力机制的卷积回声状态网络时序分类方法
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备
KR20210043995A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 모델 학습 방법 및 장치, 및 시퀀스 인식 방법
CN110992942A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN111862953A (zh) * 2019-12-05 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置
CN111009237A (zh) * 2019-12-12 2020-04-14 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备及存储介质
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN112599122A (zh) * 2020-12-10 2021-04-02 平安科技(深圳)有限公司 基于自注意力机制和记忆网络的语音识别方法及装置
CN112580649A (zh) * 2020-12-15 2021-03-30 重庆邮电大学 一种基于区域上下文关系模块的语义分割方法
CN112863489A (zh) * 2021-04-26 2021-05-28 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913848A (zh) * 2022-04-26 2022-08-16 北京市商汤科技开发有限公司 语音识别方法、装置、计算机设备和存储介质
CN114596312A (zh) * 2022-05-07 2022-06-07 中国科学院深圳先进技术研究院 一种视频处理方法和装置
CN115547334A (zh) * 2022-10-17 2022-12-30 上海城建职业学院 小学作文语音识别文本纠错系统及方法

Similar Documents

Publication Publication Date Title
CN113380237A (zh) 增强局部依赖关系无监督预训练语音识别模型及训练方法
Huang et al. Deep sentiment representation based on CNN and LSTM
CN110189749A (zh) 语音关键词自动识别方法
CN112509564A (zh) 基于连接时序分类和自注意力机制的端到端语音识别方法
Tam et al. Dynamic language model adaptation using variational Bayes inference.
CN113468877A (zh) 语言模型的微调方法、装置、计算设备和存储介质
US20220044671A1 (en) Spoken language understanding
CN111506728B (zh) 基于hd-mscnn的层次结构文本自动分类方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Wang et al. Gated convolutional LSTM for speech commands recognition
Alsayadi et al. Non-diacritized Arabic speech recognition based on CNN-LSTM and attention-based models
CN114783418A (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114565828A (zh) 一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法
Li et al. Voice activity detection using a local-global attention model
CN117131877A (zh) 一种基于对比学习的文本检测方法及系统
Bai et al. CLMAD: A chinese language model adaptation dataset
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN111210815A (zh) 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置
CN115310461A (zh) 基于多模态数据优化的低资源语音翻译方法及系统
CN113657119B (zh) 基于预训练语言模型的古今汉语自然语言处理方法
CN113408267B (zh) 一种基于预训练模型的词对齐性能提升方法
CN115600675A (zh) 一种基于轻量多出口网络的模型压缩与推断加速方法
CN114357166A (zh) 一种基于深度学习的文本分类方法
Nie et al. Hybrid CTC/attention architecture with self-attention and convolution hybrid encoder for speech recognition
Pan et al. A Multiple Utterances based Neural Network Model for Joint Intent Detection and Slot Filling.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination