CN113257240A - 一种基于对抗训练的端到端的语音识别方法 - Google Patents
一种基于对抗训练的端到端的语音识别方法 Download PDFInfo
- Publication number
- CN113257240A CN113257240A CN202011190877.3A CN202011190877A CN113257240A CN 113257240 A CN113257240 A CN 113257240A CN 202011190877 A CN202011190877 A CN 202011190877A CN 113257240 A CN113257240 A CN 113257240A
- Authority
- CN
- China
- Prior art keywords
- representing
- speech recognition
- audio data
- follows
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 title claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了基于对抗训练的端到端的语音识别方法,其语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和自注意力机制,所述解码层为自注意力机制。该语音识别模型使用卷积神经网络构建编码层,同时引入自注意力机制,以获取局部特征,提升识别准确度。在使用该语音识别模型的语音识别方法,在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。
Description
技术领域
本发明涉及计算机应用技术领域,特别是涉及基于对抗训练的端到端的语音识别方法。
背景技术
随着信息技术的发展,一些领域产生了大量的语音数据,例如客服语音记录。这些语音数据中包含着大量有用信息,分析这些信息关键的一步就是将语音转换为文字,也就是语音识别。语音识别质量的好坏会直接影响下游任务,因此语音识别逐渐成为一个热门的研究任务。语音识别旨在将音频数据转换为对应的文字。音频数据往往会有很多噪音,有些是录制音频时候的环境噪音,有些是存储音频时因为格式问题产生的噪音。这些噪音都会对语音识别造成干扰,影响语音识别的准确率。
传统的语音识别[1,2]系统使用大量的特征工程,包括专门的输入特征、声学模型等等。大量的精力被使用在了特征的选择和调优上。深度学习算法[3,4,5,6,7]的引入提高了语音识别系统的特征提取能力。虽然这一进步是明显的,但语音系统要想保证准确识别带有噪音的音频数据,仍然需要精心设计后面的声学字典等结构。
为了简化设计,近年来最新的研究工作主要关注于如何使用端到端[11,12,13,14]的框架实现语音识别系统。例如Graves[8]等人提出基于循环神经网络(RecurrentNeural Network,RNN)的端到端的语音识别方法,使用循环神经网络搭建端到端的语音识别模型。Bahdanau[9]等人提出基于注意力机制的端到端的语音识别方法,该方法使用注意力机制学习语音序列的局部特征,提升语音识别的准确率。Miao[10]等人提出基于Transformer的端到端的语音识别方法,使用Transformer结构实现了在线语音识别。但是目前这些端到端的方法鲁棒性不够强,对有噪音的音频数据识别准确率不够高。
发明内容
本发明的目的是针对现有语音识别技术中对有噪音的音频数据识别准确率不够高的技术缺陷,而提供基于对抗训练的端到端的语音识别方法,在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。
为实现本发明的目的所采用的技术方案是:
一种基于对抗训练的端到端的语音识别方法,包括按顺序执行的下列步骤:
步骤1:将待转换音频数据经短时傅里叶变换得频域表示;
步骤2:利用语音识别模型识别所述频域表示并解码输出解码文字;
步骤3:利用维特比算法在解码文字中搜索最优的文字序列,完成语音识别;
其中,步骤2中所述语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和编码自注意力机制,所述解码层为解码自注意力机制;
所述语音识别模型的训练方法包括按顺序执行的下列步骤:
步骤a:准备音频数据样本,将所述音频数据样本中的音频数据经短时傅里叶变换得到频域表示;
步骤b:利用所述语音识别模型提取步骤a所得频域表示中的特征,得到音频特征向量,并解码输出解码文字;
步骤c:利用CTC算法,将步骤b输出的解码文字与音频数据样本中的标签文本对齐;
步骤d:构建损失函数,将所述语音识别模型中的参数修改为损失函数最小值所对应的参数,对语音识别模型进行学习和优化;
步骤e:向步骤a所述音频数据中添加微小扰动生成对抗样本,将所述对抗样本输入步骤d学习优化后的语音识别模型中进行对抗训练,以提升所述语音识别模型的鲁棒性。
在上述技术方案中,步骤1中,将音频数据X={x1,x2,...,xT}中较长的时间信号分成相同长度且较短的信号段序列Xw={xw1,xw2,...,xwn},然后在每一所述信号段序列上进行傅里叶变换,得到频域表示Xe={xe1,xe2,...,xen};
所述傅里叶变换为离散时间傅里叶变换,计算公式如下:
x(n)代表音频数据,Xe代表频域表示,j表示复数。
在上述技术方案中,步骤2中,首先使用卷积神经网络对步骤1所得的频域表示Xe={xe1,xe2,...,xen}进行特征提取,得到特征向量Xc={xc1,xc2,...,xcn};然后利用编码自注意力机制进一步学习所述特征向量Xc={xc1,xc2,...,xcn}的局部特征得到音频特征向量Xa={xa1,xa2,...,xan};最后利用解码自注意力机制解码输出解码文字。
在上述技术方案中,使用卷积神经网络进行特征提取的计算公式如下:
Xc=CNN(Xe) (2)
其中,Xc代表特征向量,CNN代表卷积神经网络,Xe代表频域表示;
其中卷积神经网络共有两层,第一层卷积核大小为3*3,第二层卷积核大小为5*5,卷积核移动步长为2;
卷积神经网络中,使用Relu函数作为激活函数,选择mean pooling的方法来进行池化操作;其中,Relu函数的定义如下所示:
f(x)=max(0,x) (3)
式中x为输入信号,f为输出信号。
在上述技术方案中,利用编码自注意力机制进一步学习局部特征的计算公式如下:
Xa=MH_SA(Xc) (4)
其中,MHA_SA为多头注意力机制;所述多头注意力机制MHA_SA的计算方法是,首先做多次单头注意力计算,然后将每次单头注意力计算的结果合并;
所述单头注意力计算公式如下:
将每次单头注意力计算的结果合并的计算公式如下:
在上述技术方案中,利用解码自注意力机制解码的计算公式如下:
其中Y={y1,y2,...,yL}为标签序列,x1:an是音频特征向量。
在上述技术方案中,步骤3中,维特比算法公式如下:
在上述技术方案中,所述训练方法步骤c中,CTC算法解码的目标函数为Pctc(Y|Xa)。
在上述技术方案中,所述训练方法步骤d中,构建损失函数时使用多目标损失函数,具体计算过程如下:
在上述技术方案中,所述训练方法步骤e中,所述对抗样本是使用梯度上升算法计算所得,计算公式如下:
对抗训练的计算过程如下:
minθE(x,y)~[L(x+Δx,y;θ)] (11)
与现有技术相比,本发明的有益效果是:
1.本发明提供的语音识别模型,该语音势识别模型使用卷积神经网络构建编码层,同时引入自注意力机制,以获取局部特征,提升识别准确度。
2.本发明提供的语音识别模型,其训练方法中生成对抗样本,通过训练对抗样本提高模型的鲁棒性,使模型具有识别带噪音频数据的能力。
3.本发明提供的语音识别方法,在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。
附图说明
附图1是语音识别模型的整体系统结构示意图。
附图2是基于对抗训练的端到端的语音识别方法的示意图。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明主要采用深度学习技术对音频数据进行识别,为了保证系统的正常运行,在具体实施中,要求所使用的计算机平台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.66Hz、GPU环境、Linux操作系统,并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。
实施例1
一种语音识别模型,包括编码层和解码层,所述编码层包括卷积神经网络和编码自注意力机制,所述解码层为解码自注意力机制。
上述语音识别模型,使用卷积神经网络构建编码层,同时引入编码自注意力机制,以获取局部特征,提升识别准确度。在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。
所述语音识别模型的识别方法,包括以下步骤:
步骤a:使用卷积神经网络对音频数据转换所得的频域表示Xe={xe1,xe2,...,xen}进行特征提取,得到特征向量Xc={xc1,xc2,...,xcn};使用卷积神经网络进行特征提取的计算公式如下:
Xc=CNN(Xe) (2)
其中,Xc代表特征向量,CNN代表卷积神经网络,Xe代表频域表示;
为了提取不同层次的特征,其中卷积神经网络共有两层,第一层卷积核大小为3*3,第二层卷积核大小为5*5,卷积核移动步长为2;
卷积神经网络中,使用Relu函数作为激活函数,选择mean pooling的方法来进行池化操作;其中,Relu函数的定义如下所示:
f(x)=max(0,x) (3)
式中x为输入信号,f为输出信号;
步骤b:利用编码自注意力机制进一步学习所述特征向量Xc={xc1,xc2,...,xcn}的局部特征得到音频特征向量Xa={xa1,xa2,...,xan};
利用编码自注意力机制进一步学习局部特征的计算公式如下:
Xa=MH_SA(Xc) (4)
其中,MHA_SA为多头注意力机制;
所述多头注意力机制MHA_SA的计算方法是,首先做多次单头注意力计算,然后将每次单头注意力计算的结果合并;
所述单头注意力计算公式如下:
将每次单头注意力计算的结果合并的计算公式如下:
步骤c:使用解码自注意力机制对所得的音频特征向量Xa={xa1,xa2,...,xan}进行解码输出解码文字。利用自注意力机制解码的计算公式如下:
其中Y={y1,y2,...,yL}为标签序列,x1:an是音频特征向量。
实施例2
本实施例是介绍实施例1所述的语音识别模型的训练方法。
一种语音识别模型的训练方法,包括按顺序执行的下列步骤:
步骤1:数据表示,准备音频数据样本,将所述音频数据样本中的音频数据经短时傅里叶变换得到频域表示;
具体来说,将音频数据X={x1,x2,...,xT}中较长的时间信号分成相同长度且较短的信号段序列Xw={xw1,xw2,...,xwn},然后在每一所述信号段序列上进行傅里叶变换,得到频域表示Xe={xe1,xe2,...,xen};
例如,一段长10s的音频数据,将每段的时间设置为25ms,相邻段之间的滑动尺寸设置为10ms,此时相邻段之间的交叠大小为15ms,10s的音频数据可以得到999个长度为25ms的小段。
然后对每一段,进行512点快速傅里叶变换,得到对应的频域表示xe1={0.35,0.68,...,0.25},其长度为512,每个数字代表相应频率的振幅大小。
所述傅里叶变换为离散时间傅里叶变换,计算公式如下:
x(n)代表音频数据,Xe代表频域表示,j表示复数。
步骤2:利用实施例1所述的语音识别模型提取步骤1所得频域表示中的特征,得到音频特征向量,并解码输出解码文字;
步骤3:利用CTC算法,将步骤2输出的解码文字与音频数据样本中的标签文本对齐;
其中,CTC解码的目标函数为Pctc(Y|Xa)。
步骤4:构建损失函数,将实施例1所述的语音识别模型中的参数修改为损失函数最小值所对应的参数,对实施例1所述的语音识别模型进行学习和优化;
由于解码层分别使用注意力机制和CTC解码,构建损失函数时使用多目标损失函数,具体计算过程如下:
步骤5:向步骤2所述音频特征向量中添加微小扰动生成对抗样本,进行对抗训练以提升实施例1所述的语音识别模型的鲁棒性。
所述对抗样本是使用梯度上升算法计算所得,计算公式如下:
对抗训练的计算过程如下:
minθE(x,y)~[L(x+Δx,y;θ)] (11)
实施例3
本实施例是介绍一种利用实施例2所述的训练方法训练的语音识别模型进行语音识别的方法。
一种基于对抗训练的端到端的语音识别方法,包括按顺序执行的下列步骤:
步骤1:数据表示,将待转换音频数据经短时傅里叶变换得频域表示;
步骤2:利用实施例1所述的语音识别模型识别所述频域表示并解码输出解码文字;
步骤3:利用维特比算法在解码文字中搜索最优的文字序列,完成语音识别。
维特比算法公式如下:
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于对抗训练的端到端的语音识别方法,其特征在于:包括按顺序执行的下列步骤:
步骤1:将待转换音频数据经短时傅里叶变换得到频域表示;
步骤2:利用训练好的语音识别模型识别所述频域表示并解码输出解码文字;
步骤3:利用维特比算法在解码文字中搜索最优的文字序列,完成语音识别;
其中,步骤2中所述语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和编码自注意力机制,所述解码层为解码自注意力机制;
所述语音识别模型的训练方法包括按顺序执行的下列步骤:
步骤a:准备音频数据样本,将所述音频数据样本中的音频数据经短时傅里叶变换得到频域表示;
步骤b:利用所述语音识别模型提取步骤a所得频域表示中的特征,得到音频特征向量,并解码输出解码文字;
步骤c:利用CTC算法,将步骤b输出的解码文字与音频数据样本中的标签文本对齐;
步骤d:构建损失函数,将所述语音识别模型中的参数修改为损失函数最小值所对应的参数,对语音识别模型进行学习和优化;
步骤e:向步骤a所述音频数据中添加微小扰动生成对抗样本,将所述对抗样本输入步骤d学习优化后的语音识别模型中进行对抗训练,以提升所述语音识别模型的鲁棒性。
3.如权利要求1所述的语音识别方法,其特征在于,步骤2中,首先使用卷积神经网络对步骤1所得的频域表示Xe进行特征提取,得到特征向量Xc;然后利用编码自注意力机制进一步学习所述特征向量Xc的局部特征得到音频特征向量Xa最后利用解码自注意力机制解码输出解码文字。
4.如权利要求3所述的语音识别方法,其特征在于,使用卷积神经网络进行特征提取的计算公式如下:
Xc=CNN(Xe) (2)
其中,Xc代表特征向量,CNN代表卷积神经网络,Xe代表频域表示;
其中卷积神经网络共有两层,第一层卷积核大小为3*3,第二层卷积核大小为5*5,卷积核移动步长为2;
卷积神经网络中,使用Relu函数作为激活函数,选择mean pooling的方法来进行池化操作;其中,Relu函数的定义如下所示:
f(x)=max(0,x) (3)
式中x为输入信号,f为输出信号。
5.如权利要求4所述的语音识别方法,其特征在于,利用编码自注意力机制进一步学习局部特征的计算公式如下:
Xa=MH_SA(Xc) (4)
其中,MHA_SA为多头注意力机制,Xa代表音频特征向量,Xc代表特征向量;所述多头注意力机制MHA_SA的计算方法是,首先做多次单头注意力计算,然后将每次单头注意力计算的结果合并;
所述单头注意力计算公式如下:
将每次单头注意力计算的结果合并的计算公式如下:
8.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤c中,CTC算法解码的目标函数为Pctc(Y|Xa)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011190877.3A CN113257240A (zh) | 2020-10-30 | 2020-10-30 | 一种基于对抗训练的端到端的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011190877.3A CN113257240A (zh) | 2020-10-30 | 2020-10-30 | 一种基于对抗训练的端到端的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113257240A true CN113257240A (zh) | 2021-08-13 |
Family
ID=77180756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011190877.3A Pending CN113257240A (zh) | 2020-10-30 | 2020-10-30 | 一种基于对抗训练的端到端的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113257240A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294973A (zh) * | 2022-09-30 | 2022-11-04 | 云南师范大学 | 基于卷积神经网络和注意力机制的佤语孤立词汇识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190267023A1 (en) * | 2018-02-28 | 2019-08-29 | Microsoft Technology Licensing, Llc | Speech recognition using connectionist temporal classification |
CN110706690A (zh) * | 2019-09-16 | 2020-01-17 | 平安科技(深圳)有限公司 | 语音识别方法及其装置 |
CN110767218A (zh) * | 2019-10-31 | 2020-02-07 | 南京励智心理大数据产业研究院有限公司 | 端到端语音识别方法、系统、装置及其存储介质 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
KR20200063984A (ko) * | 2018-11-28 | 2020-06-05 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
CN111429894A (zh) * | 2020-03-12 | 2020-07-17 | 南京邮电大学 | 基于SE-ResNet STARGAN的多对多说话人转换方法 |
CN111667835A (zh) * | 2020-06-01 | 2020-09-15 | 马上消费金融股份有限公司 | 语音识别方法、活体检测方法、模型训练方法及装置 |
-
2020
- 2020-10-30 CN CN202011190877.3A patent/CN113257240A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190267023A1 (en) * | 2018-02-28 | 2019-08-29 | Microsoft Technology Licensing, Llc | Speech recognition using connectionist temporal classification |
KR20200063984A (ko) * | 2018-11-28 | 2020-06-05 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
CN110706690A (zh) * | 2019-09-16 | 2020-01-17 | 平安科技(深圳)有限公司 | 语音识别方法及其装置 |
CN110767218A (zh) * | 2019-10-31 | 2020-02-07 | 南京励智心理大数据产业研究院有限公司 | 端到端语音识别方法、系统、装置及其存储介质 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111429894A (zh) * | 2020-03-12 | 2020-07-17 | 南京邮电大学 | 基于SE-ResNet STARGAN的多对多说话人转换方法 |
CN111667835A (zh) * | 2020-06-01 | 2020-09-15 | 马上消费金融股份有限公司 | 语音识别方法、活体检测方法、模型训练方法及装置 |
Non-Patent Citations (4)
Title |
---|
HAORAN MIAO ET AL.: "《Transformer-Based Online CTC/Attention End-To-End Speech Recognition Architecture》", 《ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, 14 May 2020 (2020-05-14), pages 1 - 4 * |
刘娟宏: "《 端到端的深度卷积神经网络语音识别》", 《计算机应用与软件》, vol. 37, no. 4, 12 April 2020 (2020-04-12) * |
叶启松: "《攻击分类器的对抗样本生成技术的现状分析》", 《计算机工程与应用》, 17 February 2020 (2020-02-17) * |
方志军 等: "《计算机导论》", 30 June 2004, 中国铁道出版社, pages: 38 - 39 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294973A (zh) * | 2022-09-30 | 2022-11-04 | 云南师范大学 | 基于卷积神经网络和注意力机制的佤语孤立词汇识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111199727A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
CN113035231B (zh) | 关键词检测方法及装置 | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
CN111916064A (zh) | 一种端到端的神经网络语音识别模型的训练方法 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN112735482A (zh) | 基于联合深度神经网络的端点检测方法及系统 | |
CN112786003A (zh) | 语音合成模型训练方法、装置、终端设备及存储介质 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN113744727A (zh) | 模型训练方法、系统、终端设备及存储介质 | |
Mamatov et al. | Speech recognition based on transformer neural networks | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN110992943A (zh) | 基于词混淆网络的语义理解方法及系统 | |
Rybicka et al. | End-to-End Neural Speaker Diarization with an Iterative Refinement of Non-Autoregressive Attention-based Attractors. | |
CN113257240A (zh) | 一种基于对抗训练的端到端的语音识别方法 | |
Kim et al. | Enclap: Combining neural audio codec and audio-text joint embedding for automated audio captioning | |
Chen et al. | Attention-Based Encoder-Decoder End-to-End Neural Diarization With Embedding Enhancer | |
CN117634459A (zh) | 目标内容生成及模型训练方法、装置、系统、设备及介质 | |
CN116534700A (zh) | 爬楼机的控制系统及其方法 | |
CN117980915A (zh) | 用于端到端自监督预训练的对比学习和掩蔽建模 | |
CN115240702A (zh) | 基于声纹特征的语音分离方法 | |
CN112133294A (zh) | 语音识别方法、装置和系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210813 |