CN113257240A - 一种基于对抗训练的端到端的语音识别方法 - Google Patents

一种基于对抗训练的端到端的语音识别方法 Download PDF

Info

Publication number
CN113257240A
CN113257240A CN202011190877.3A CN202011190877A CN113257240A CN 113257240 A CN113257240 A CN 113257240A CN 202011190877 A CN202011190877 A CN 202011190877A CN 113257240 A CN113257240 A CN 113257240A
Authority
CN
China
Prior art keywords
representing
speech recognition
audio data
follows
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011190877.3A
Other languages
English (en)
Inventor
李妍
孟洁
何金
刘晨
王梓蒴
张旭
张倩宜
孙轶凡
吴凯
包磊
孟兆娜
赵迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011190877.3A priority Critical patent/CN113257240A/zh
Publication of CN113257240A publication Critical patent/CN113257240A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了基于对抗训练的端到端的语音识别方法,其语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和自注意力机制,所述解码层为自注意力机制。该语音识别模型使用卷积神经网络构建编码层,同时引入自注意力机制,以获取局部特征,提升识别准确度。在使用该语音识别模型的语音识别方法,在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。

Description

一种基于对抗训练的端到端的语音识别方法
技术领域
本发明涉及计算机应用技术领域,特别是涉及基于对抗训练的端到端的语音识别方法。
背景技术
随着信息技术的发展,一些领域产生了大量的语音数据,例如客服语音记录。这些语音数据中包含着大量有用信息,分析这些信息关键的一步就是将语音转换为文字,也就是语音识别。语音识别质量的好坏会直接影响下游任务,因此语音识别逐渐成为一个热门的研究任务。语音识别旨在将音频数据转换为对应的文字。音频数据往往会有很多噪音,有些是录制音频时候的环境噪音,有些是存储音频时因为格式问题产生的噪音。这些噪音都会对语音识别造成干扰,影响语音识别的准确率。
传统的语音识别[1,2]系统使用大量的特征工程,包括专门的输入特征、声学模型等等。大量的精力被使用在了特征的选择和调优上。深度学习算法[3,4,5,6,7]的引入提高了语音识别系统的特征提取能力。虽然这一进步是明显的,但语音系统要想保证准确识别带有噪音的音频数据,仍然需要精心设计后面的声学字典等结构。
为了简化设计,近年来最新的研究工作主要关注于如何使用端到端[11,12,13,14]的框架实现语音识别系统。例如Graves[8]等人提出基于循环神经网络(RecurrentNeural Network,RNN)的端到端的语音识别方法,使用循环神经网络搭建端到端的语音识别模型。Bahdanau[9]等人提出基于注意力机制的端到端的语音识别方法,该方法使用注意力机制学习语音序列的局部特征,提升语音识别的准确率。Miao[10]等人提出基于Transformer的端到端的语音识别方法,使用Transformer结构实现了在线语音识别。但是目前这些端到端的方法鲁棒性不够强,对有噪音的音频数据识别准确率不够高。
发明内容
本发明的目的是针对现有语音识别技术中对有噪音的音频数据识别准确率不够高的技术缺陷,而提供基于对抗训练的端到端的语音识别方法,在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。
为实现本发明的目的所采用的技术方案是:
一种基于对抗训练的端到端的语音识别方法,包括按顺序执行的下列步骤:
步骤1:将待转换音频数据经短时傅里叶变换得频域表示;
步骤2:利用语音识别模型识别所述频域表示并解码输出解码文字;
步骤3:利用维特比算法在解码文字中搜索最优的文字序列,完成语音识别;
其中,步骤2中所述语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和编码自注意力机制,所述解码层为解码自注意力机制;
所述语音识别模型的训练方法包括按顺序执行的下列步骤:
步骤a:准备音频数据样本,将所述音频数据样本中的音频数据经短时傅里叶变换得到频域表示;
步骤b:利用所述语音识别模型提取步骤a所得频域表示中的特征,得到音频特征向量,并解码输出解码文字;
步骤c:利用CTC算法,将步骤b输出的解码文字与音频数据样本中的标签文本对齐;
步骤d:构建损失函数,将所述语音识别模型中的参数修改为损失函数最小值所对应的参数,对语音识别模型进行学习和优化;
步骤e:向步骤a所述音频数据中添加微小扰动生成对抗样本,将所述对抗样本输入步骤d学习优化后的语音识别模型中进行对抗训练,以提升所述语音识别模型的鲁棒性。
在上述技术方案中,步骤1中,将音频数据X={x1,x2,...,xT}中较长的时间信号分成相同长度且较短的信号段序列Xw={xw1,xw2,...,xwn},然后在每一所述信号段序列上进行傅里叶变换,得到频域表示Xe={xe1,xe2,...,xen};
所述傅里叶变换为离散时间傅里叶变换,计算公式如下:
Figure BDA0002752735450000021
x(n)代表音频数据,Xe代表频域表示,j表示复数。
在上述技术方案中,步骤2中,首先使用卷积神经网络对步骤1所得的频域表示Xe={xe1,xe2,...,xen}进行特征提取,得到特征向量Xc={xc1,xc2,...,xcn};然后利用编码自注意力机制进一步学习所述特征向量Xc={xc1,xc2,...,xcn}的局部特征得到音频特征向量Xa={xa1,xa2,...,xan};最后利用解码自注意力机制解码输出解码文字。
在上述技术方案中,使用卷积神经网络进行特征提取的计算公式如下:
Xc=CNN(Xe) (2)
其中,Xc代表特征向量,CNN代表卷积神经网络,Xe代表频域表示;
其中卷积神经网络共有两层,第一层卷积核大小为3*3,第二层卷积核大小为5*5,卷积核移动步长为2;
卷积神经网络中,使用Relu函数作为激活函数,选择mean pooling的方法来进行池化操作;其中,Relu函数的定义如下所示:
f(x)=max(0,x) (3)
式中x为输入信号,f为输出信号。
在上述技术方案中,利用编码自注意力机制进一步学习局部特征的计算公式如下:
Xa=MH_SA(Xc) (4)
其中,MHA_SA为多头注意力机制;所述多头注意力机制MHA_SA的计算方法是,首先做多次单头注意力计算,然后将每次单头注意力计算的结果合并;
所述单头注意力计算公式如下:
Figure BDA0002752735450000031
其中
Figure BDA0002752735450000032
分别为索引、键、值,dq、dk、dv分别代表Q、K、V的数据维度,nq、nk、nv分别为Q、K、V的序列长度,其中dq=dk,nk=nv
将每次单头注意力计算的结果合并的计算公式如下:
Figure BDA0002752735450000033
Figure BDA0002752735450000034
其中,
Figure BDA0002752735450000035
是多头注意力机制的输入,Headi代表第i个单头注意力机制结果的输出;
Figure BDA0002752735450000036
WH是可训练的参数。
在上述技术方案中,利用解码自注意力机制解码的计算公式如下:
Figure BDA0002752735450000037
其中Y={y1,y2,...,yL}为标签序列,x1:an是音频特征向量。
在上述技术方案中,步骤3中,维特比算法公式如下:
Figure BDA0002752735450000038
其中,Y*代表最优输出,
Figure BDA0002752735450000039
代表所有可能的输出,x(n)代表音频数据。
在上述技术方案中,所述训练方法步骤c中,CTC算法解码的目标函数为Pctc(Y|Xa)。
在上述技术方案中,所述训练方法步骤d中,构建损失函数时使用多目标损失函数,具体计算过程如下:
Figure BDA0002752735450000041
其中
Figure BDA0002752735450000042
代表损失函数,超参数γ控制两个目标函数log pctc和logpa的权重。
在上述技术方案中,所述训练方法步骤e中,所述对抗样本是使用梯度上升算法计算所得,计算公式如下:
Figure BDA0002752735450000043
其中
Figure BDA0002752735450000044
代表梯度方向计算,
Figure BDA0002752735450000045
代表损失函数,
Figure BDA0002752735450000046
代表损失函数的梯度方向,θ为模型参数;
对抗训练的计算过程如下:
minθE(x,y)~[L(x+Δx,y;θ)] (11)
与现有技术相比,本发明的有益效果是:
1.本发明提供的语音识别模型,该语音势识别模型使用卷积神经网络构建编码层,同时引入自注意力机制,以获取局部特征,提升识别准确度。
2.本发明提供的语音识别模型,其训练方法中生成对抗样本,通过训练对抗样本提高模型的鲁棒性,使模型具有识别带噪音频数据的能力。
3.本发明提供的语音识别方法,在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。
附图说明
附图1是语音识别模型的整体系统结构示意图。
附图2是基于对抗训练的端到端的语音识别方法的示意图。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明主要采用深度学习技术对音频数据进行识别,为了保证系统的正常运行,在具体实施中,要求所使用的计算机平台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.66Hz、GPU环境、Linux操作系统,并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。
实施例1
一种语音识别模型,包括编码层和解码层,所述编码层包括卷积神经网络和编码自注意力机制,所述解码层为解码自注意力机制。
上述语音识别模型,使用卷积神经网络构建编码层,同时引入编码自注意力机制,以获取局部特征,提升识别准确度。在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。
所述语音识别模型的识别方法,包括以下步骤:
步骤a:使用卷积神经网络对音频数据转换所得的频域表示Xe={xe1,xe2,...,xen}进行特征提取,得到特征向量Xc={xc1,xc2,...,xcn};使用卷积神经网络进行特征提取的计算公式如下:
Xc=CNN(Xe) (2)
其中,Xc代表特征向量,CNN代表卷积神经网络,Xe代表频域表示;
为了提取不同层次的特征,其中卷积神经网络共有两层,第一层卷积核大小为3*3,第二层卷积核大小为5*5,卷积核移动步长为2;
卷积神经网络中,使用Relu函数作为激活函数,选择mean pooling的方法来进行池化操作;其中,Relu函数的定义如下所示:
f(x)=max(0,x) (3)
式中x为输入信号,f为输出信号;
步骤b:利用编码自注意力机制进一步学习所述特征向量Xc={xc1,xc2,...,xcn}的局部特征得到音频特征向量Xa={xa1,xa2,...,xan};
利用编码自注意力机制进一步学习局部特征的计算公式如下:
Xa=MH_SA(Xc) (4)
其中,MHA_SA为多头注意力机制;
所述多头注意力机制MHA_SA的计算方法是,首先做多次单头注意力计算,然后将每次单头注意力计算的结果合并;
所述单头注意力计算公式如下:
Figure BDA0002752735450000051
其中
Figure BDA0002752735450000061
分别为索引、键、值,dq、dk、dv分别代表Q、K、V的数据维度,nq、nk、nv分别为Q、K、V的序列长度,其中dq=dk,nk=nv
将每次单头注意力计算的结果合并的计算公式如下:
Figure BDA0002752735450000062
Figure BDA0002752735450000063
其中,
Figure BDA0002752735450000064
是多头注意力机制的输入,Headi代表第i个单头注意力机制结果的输出;
Figure BDA0002752735450000065
WH是可训练的参数。
步骤c:使用解码自注意力机制对所得的音频特征向量Xa={xa1,xa2,...,xan}进行解码输出解码文字。利用自注意力机制解码的计算公式如下:
Figure BDA0002752735450000066
其中Y={y1,y2,...,yL}为标签序列,x1:an是音频特征向量。
实施例2
本实施例是介绍实施例1所述的语音识别模型的训练方法。
一种语音识别模型的训练方法,包括按顺序执行的下列步骤:
步骤1:数据表示,准备音频数据样本,将所述音频数据样本中的音频数据经短时傅里叶变换得到频域表示;
具体来说,将音频数据X={x1,x2,...,xT}中较长的时间信号分成相同长度且较短的信号段序列Xw={xw1,xw2,...,xwn},然后在每一所述信号段序列上进行傅里叶变换,得到频域表示Xe={xe1,xe2,...,xen};
例如,一段长10s的音频数据,将每段的时间设置为25ms,相邻段之间的滑动尺寸设置为10ms,此时相邻段之间的交叠大小为15ms,10s的音频数据可以得到999个长度为25ms的小段。
然后对每一段,进行512点快速傅里叶变换,得到对应的频域表示xe1={0.35,0.68,...,0.25},其长度为512,每个数字代表相应频率的振幅大小。
所述傅里叶变换为离散时间傅里叶变换,计算公式如下:
Figure BDA0002752735450000067
x(n)代表音频数据,Xe代表频域表示,j表示复数。
步骤2:利用实施例1所述的语音识别模型提取步骤1所得频域表示中的特征,得到音频特征向量,并解码输出解码文字;
步骤3:利用CTC算法,将步骤2输出的解码文字与音频数据样本中的标签文本对齐;
其中,CTC解码的目标函数为Pctc(Y|Xa)。
步骤4:构建损失函数,将实施例1所述的语音识别模型中的参数修改为损失函数最小值所对应的参数,对实施例1所述的语音识别模型进行学习和优化;
由于解码层分别使用注意力机制和CTC解码,构建损失函数时使用多目标损失函数,具体计算过程如下:
Figure BDA0002752735450000078
其中
Figure BDA0002752735450000071
代表损失函数,超参数γ控制两个目标函数log pctc和logpa的权重。
步骤5:向步骤2所述音频特征向量中添加微小扰动生成对抗样本,进行对抗训练以提升实施例1所述的语音识别模型的鲁棒性。
所述对抗样本是使用梯度上升算法计算所得,计算公式如下:
Figure BDA0002752735450000072
其中
Figure BDA0002752735450000073
代表梯度方向计算,
Figure BDA0002752735450000074
代表损失函数,
Figure BDA0002752735450000075
代表损失函数的梯度方向,θ为模型参数;
对抗训练的计算过程如下:
minθE(x,y)~[L(x+Δx,y;θ)] (11)
实施例3
本实施例是介绍一种利用实施例2所述的训练方法训练的语音识别模型进行语音识别的方法。
一种基于对抗训练的端到端的语音识别方法,包括按顺序执行的下列步骤:
步骤1:数据表示,将待转换音频数据经短时傅里叶变换得频域表示;
步骤2:利用实施例1所述的语音识别模型识别所述频域表示并解码输出解码文字;
步骤3:利用维特比算法在解码文字中搜索最优的文字序列,完成语音识别。
维特比算法公式如下:
Figure BDA0002752735450000076
其中,Y*代表最优输出,
Figure BDA0002752735450000077
代表所有可能的输出,x(n)代表音频数据。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于对抗训练的端到端的语音识别方法,其特征在于:包括按顺序执行的下列步骤:
步骤1:将待转换音频数据经短时傅里叶变换得到频域表示;
步骤2:利用训练好的语音识别模型识别所述频域表示并解码输出解码文字;
步骤3:利用维特比算法在解码文字中搜索最优的文字序列,完成语音识别;
其中,步骤2中所述语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和编码自注意力机制,所述解码层为解码自注意力机制;
所述语音识别模型的训练方法包括按顺序执行的下列步骤:
步骤a:准备音频数据样本,将所述音频数据样本中的音频数据经短时傅里叶变换得到频域表示;
步骤b:利用所述语音识别模型提取步骤a所得频域表示中的特征,得到音频特征向量,并解码输出解码文字;
步骤c:利用CTC算法,将步骤b输出的解码文字与音频数据样本中的标签文本对齐;
步骤d:构建损失函数,将所述语音识别模型中的参数修改为损失函数最小值所对应的参数,对语音识别模型进行学习和优化;
步骤e:向步骤a所述音频数据中添加微小扰动生成对抗样本,将所述对抗样本输入步骤d学习优化后的语音识别模型中进行对抗训练,以提升所述语音识别模型的鲁棒性。
2.如权利要求1所述的语音识别方法,其特征在于,步骤1中,将音频数据x(n)中较长的时间信号分成相同长度且较短的信号段序列Xw,然后在每一所述信号段序列上进行傅里叶变换,得到频域表示Xe
所述傅里叶变换为离散时间傅里叶变换,计算公式如下:
Figure FDA0002752735440000011
x(n)代表音频数据,Xe代表频域表示,j表示复数。
3.如权利要求1所述的语音识别方法,其特征在于,步骤2中,首先使用卷积神经网络对步骤1所得的频域表示Xe进行特征提取,得到特征向量Xc;然后利用编码自注意力机制进一步学习所述特征向量Xc的局部特征得到音频特征向量Xa最后利用解码自注意力机制解码输出解码文字。
4.如权利要求3所述的语音识别方法,其特征在于,使用卷积神经网络进行特征提取的计算公式如下:
Xc=CNN(Xe) (2)
其中,Xc代表特征向量,CNN代表卷积神经网络,Xe代表频域表示;
其中卷积神经网络共有两层,第一层卷积核大小为3*3,第二层卷积核大小为5*5,卷积核移动步长为2;
卷积神经网络中,使用Relu函数作为激活函数,选择mean pooling的方法来进行池化操作;其中,Relu函数的定义如下所示:
f(x)=max(0,x) (3)
式中x为输入信号,f为输出信号。
5.如权利要求4所述的语音识别方法,其特征在于,利用编码自注意力机制进一步学习局部特征的计算公式如下:
Xa=MH_SA(Xc) (4)
其中,MHA_SA为多头注意力机制,Xa代表音频特征向量,Xc代表特征向量;所述多头注意力机制MHA_SA的计算方法是,首先做多次单头注意力计算,然后将每次单头注意力计算的结果合并;
所述单头注意力计算公式如下:
Figure FDA0002752735440000021
其中
Figure FDA0002752735440000022
分别为索引、键、值,dq、dk、dv分别代表Q、K、V的数据维度,nq、nk、nv分别为Q、K、V的序列长度,其中dq=dk,nk=nv
将每次单头注意力计算的结果合并的计算公式如下:
Figure FDA0002752735440000023
Figure FDA0002752735440000024
其中,
Figure FDA0002752735440000025
是多头注意力机制的输入,Headi代表第i个单头注意力机制结果的输出;
Figure FDA0002752735440000026
WH是可训练的参数。
6.如权利要求5所述的语音识别方法,其特征在于,利用解码自注意力机制解码的计算公式如下:
Figure FDA0002752735440000027
其中Y={y1,y2,...,yL}为标签序列,x1:an是音频特征向量。
7.如权利要求1所述的语音识别方法,其特征在于:步骤3中,维特比算法公式如下:
Figure FDA0002752735440000031
其中,Y*代表最优输出,
Figure FDA0002752735440000032
代表所有可能的输出,x(n)代表音频数据。
8.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤c中,CTC算法解码的目标函数为Pctc(Y|Xa)。
9.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤d中,构建损失函数时使用多目标损失函数,具体计算过程如下:
Figure FDA0002752735440000033
其中
Figure FDA00027527354400000310
代表损失函数,超参数γ控制两个目标函数log Pctc和logpa的权重。
10.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤e中,所述对抗样本是使用梯度上升算法计算所得,计算公式如下:
Figure FDA0002752735440000034
其中
Figure FDA0002752735440000035
代表梯度方向计算,
Figure FDA0002752735440000036
代表损失函数,
Figure FDA0002752735440000037
代表损失函数的梯度方向,θ为模型参数;
对抗训练的计算过程如下:
Figure FDA0002752735440000038
Figure FDA0002752735440000039
代表损失函数。
CN202011190877.3A 2020-10-30 2020-10-30 一种基于对抗训练的端到端的语音识别方法 Pending CN113257240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011190877.3A CN113257240A (zh) 2020-10-30 2020-10-30 一种基于对抗训练的端到端的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011190877.3A CN113257240A (zh) 2020-10-30 2020-10-30 一种基于对抗训练的端到端的语音识别方法

Publications (1)

Publication Number Publication Date
CN113257240A true CN113257240A (zh) 2021-08-13

Family

ID=77180756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011190877.3A Pending CN113257240A (zh) 2020-10-30 2020-10-30 一种基于对抗训练的端到端的语音识别方法

Country Status (1)

Country Link
CN (1) CN113257240A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294973A (zh) * 2022-09-30 2022-11-04 云南师范大学 基于卷积神经网络和注意力机制的佤语孤立词汇识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190267023A1 (en) * 2018-02-28 2019-08-29 Microsoft Technology Licensing, Llc Speech recognition using connectionist temporal classification
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN110767218A (zh) * 2019-10-31 2020-02-07 南京励智心理大数据产业研究院有限公司 端到端语音识别方法、系统、装置及其存储介质
CN111048082A (zh) * 2019-12-12 2020-04-21 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
KR20200063984A (ko) * 2018-11-28 2020-06-05 삼성전자주식회사 음성 인식 장치 및 방법
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111667835A (zh) * 2020-06-01 2020-09-15 马上消费金融股份有限公司 语音识别方法、活体检测方法、模型训练方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190267023A1 (en) * 2018-02-28 2019-08-29 Microsoft Technology Licensing, Llc Speech recognition using connectionist temporal classification
KR20200063984A (ko) * 2018-11-28 2020-06-05 삼성전자주식회사 음성 인식 장치 및 방법
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN110767218A (zh) * 2019-10-31 2020-02-07 南京励智心理大数据产业研究院有限公司 端到端语音识别方法、系统、装置及其存储介质
CN111048082A (zh) * 2019-12-12 2020-04-21 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111667835A (zh) * 2020-06-01 2020-09-15 马上消费金融股份有限公司 语音识别方法、活体检测方法、模型训练方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAORAN MIAO ET AL.: "《Transformer-Based Online CTC/Attention End-To-End Speech Recognition Architecture》", 《ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, 14 May 2020 (2020-05-14), pages 1 - 4 *
刘娟宏: "《 端到端的深度卷积神经网络语音识别》", 《计算机应用与软件》, vol. 37, no. 4, 12 April 2020 (2020-04-12) *
叶启松: "《攻击分类器的对抗样本生成技术的现状分析》", 《计算机工程与应用》, 17 February 2020 (2020-02-17) *
方志军 等: "《计算机导论》", 30 June 2004, 中国铁道出版社, pages: 38 - 39 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294973A (zh) * 2022-09-30 2022-11-04 云南师范大学 基于卷积神经网络和注意力机制的佤语孤立词汇识别方法

Similar Documents

Publication Publication Date Title
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111199727A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111783477B (zh) 一种语音翻译方法及系统
CN113035231B (zh) 关键词检测方法及装置
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN111916064A (zh) 一种端到端的神经网络语音识别模型的训练方法
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN112735482A (zh) 基于联合深度神经网络的端点检测方法及系统
CN112786003A (zh) 语音合成模型训练方法、装置、终端设备及存储介质
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN113744727A (zh) 模型训练方法、系统、终端设备及存储介质
Mamatov et al. Speech recognition based on transformer neural networks
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN110992943A (zh) 基于词混淆网络的语义理解方法及系统
Rybicka et al. End-to-End Neural Speaker Diarization with an Iterative Refinement of Non-Autoregressive Attention-based Attractors.
CN113257240A (zh) 一种基于对抗训练的端到端的语音识别方法
Kim et al. Enclap: Combining neural audio codec and audio-text joint embedding for automated audio captioning
Chen et al. Attention-Based Encoder-Decoder End-to-End Neural Diarization With Embedding Enhancer
CN117634459A (zh) 目标内容生成及模型训练方法、装置、系统、设备及介质
CN116534700A (zh) 爬楼机的控制系统及其方法
CN117980915A (zh) 用于端到端自监督预训练的对比学习和掩蔽建模
CN115240702A (zh) 基于声纹特征的语音分离方法
CN112133294A (zh) 语音识别方法、装置和系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813