CN111415667A - 一种流式端到端语音识别模型训练和解码方法 - Google Patents
一种流式端到端语音识别模型训练和解码方法 Download PDFInfo
- Publication number
- CN111415667A CN111415667A CN202010220477.6A CN202010220477A CN111415667A CN 111415667 A CN111415667 A CN 111415667A CN 202010220477 A CN202010220477 A CN 202010220477A CN 111415667 A CN111415667 A CN 111415667A
- Authority
- CN
- China
- Prior art keywords
- voice
- sequence
- speech recognition
- training
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明属于电子信号处理技术领域,公开一种流式端到端语音识别模型的训练方法和解码方法,第一阶段采用交叉熵损失函数进行优化,第二阶段模型参数保持不变,继续使用负对数损失函数进行优化,第二阶段输入的不是整段的语音而是固定长度的语音片段。解码过程从音频采集器中以流式的方式读取语音数据,每0.4秒就将存储的语音提交给处理器;对固定长度的语音提取特征,得到语音特征序列;将语音特征序列以及之前预测得到的文字序列输入到解码器中进行预测,直到预测得到一个空格;重复上述步骤直到输入语音结束并解码得到最后一个空格标记。本发明解决了端到端语音识别模型无法直接应用于具有很高实时性要求的流式语音识别任务的问题。
Description
技术领域
本发明涉及电子信号处理技术领域,特别是指一种流式端到端语音识别模型的训练和解码方法。
背景技术
语音识别作为人机交互的入口,是人工智能领域中一个重要的研究方向。不同于传统的基于高斯混合模型-隐马尔科夫模型的混合模型(GMM-HMM)的语音识别方法,端到端语音识别丢弃了发音词典、语言模型和解码网络,直接实现了音频特征序列到文字序列的转换。基于注意力机制的序列到序列的模型作为一种端到端模型,具有极强的序列建模能力。基于注意力机制的序列到序列模型在识别一段语音的内容时,要求输入整段语音进行输入。这一特点严重影响了基于注意力机制的序列到序列模型被应用于流式语音识别任务。流式语音识别任务的典型特点是要求语音识别具有很高的实时性,要求能做到边说话边识别。
发明内容
本发明提出一种流式端到端语音识别模型的训练和解码方法,解决了现有技术中端到端语音模型要求完整的语音输入,无法直接应用于流式语音识别任务的问题。
本发明的技术方案是这样实现的:
一种流式端到端语音识别模型的训练方法,包括以下步骤:
步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;
步骤S200,将降采样后的语音特征序列输入一个基于注意力机制的序列到序列模型的编码器中,输出声学编码状态序列;
步骤S300,将语音对应文本序列和声学编码状态序列输入到解码器中,并计算输出概率分布;
步骤S400,基于输出概率分布计算交叉熵损失;
步骤S500,循环执行步骤S200-S500,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成第一阶段的模型训练;
步骤S600,在第一阶段训练模型的基础上,将输入的语音分成N个固定长度的片段,然后依次输入编码器中,分别计算得到N个固定长度的片段上的声学编码状态序列;
步骤S700,依次每个声学状态序列和整个文本序列输入到解码器中,输入得到一个概率分布网络;
步骤S800,概率分布网络中存在多条对齐路径,依据前后向算法,计算得到所有可行路径的概率和,然后计算路径概率和的负对数损失,并计算参数对应的梯度,进行反向传播;
步骤S900,循环执行步骤S600-S800,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成全部的模型训练。
优选的,所述流式端到端语音识别模型基于自注意力变换网络构建,其包括基于自注意力机制或者基于长短时记忆网络或者卷积网络的声学编码器和基于自注意力机制或者基于长短时记忆网络或者卷积网络的解码器;所述基于自注意力机制的声学编码器其结构为6层自注意力编码模块;所述基于自注意力机制的解码器其结构为6层自注意力解码模块;所述自注意力编码模块包括多头自注意力层和前馈层;所述自注意力解码模块包括多头自注意力层、多头源注意力层和前馈层。
优选的,步骤S100中提取所述语音训练数据的特征具体指的是提取所述语音训练数据的梅尔频率倒谱系数或梅尔滤波器组系数。
优选的,步骤S200中降采样具体指的是采用两层2维卷积对输入的语音特征序列进行处理,或者对每帧语音特征进行拼接操作,对拼接后的特征降采样,将拼帧后的特征进行线性变换。
优选的,步骤S800中负对数损失值的计算方法为:
L=-ln p(y|x)
其中,L为负对数损失值,y为文本标注训练数据,x为语音特征,p(y|x)表示所有对齐路径的概率和。
一种流式端到端语音识别模型的解码方法,包括以下步骤:
步骤1,从音频采集器中以流式的方式读取语音数据,每隔设定时间就将存储的语音提交给处理器;
步骤2,对固定长度的语音提取特征,得到语音特征序列;
步骤3,将语音特征序列以及之前预测得到的文字序列输入到解码器中进行预测,直到预测得到一个空格;
步骤4,重复解码步骤1-3,直到输入语音结束并解码得到最后一个空格标记。
优选的,步骤1中每隔0.4秒就将存储的语音提交给处理器。
优选的,采用束搜索进行优化。
本发明的有益效果在于:使得端到端模型在参数以及模型结构不发生根本改变的情况下进行流式语音识别,并且保持极高的精度。在本发明中首先通过交叉熵预训练使得模型获得了很好的性能,同时简化了模型继续优化的难度。两阶段训练方法,加速了模型收敛,提高了模型的性能表现。在解码过程中,所述的解码方法大大提高了解码速度,同时保证了解码准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种实施例的流式端到端语音识别模型的自注意力声学编码器结构示意图;
图2为本发明一种实施例的流式端到端语音识别模型的自注意力解码器结构示意图;
图3为本发明一种实施例的流式端到端语音识别模型的第一阶段训练示例图;
图4为本发明一种实施例的流式端到端语音识别模型的第二阶段训练示例图;
图5为本发明一种实施例的流式端到端语音识别模型的第二阶段中所有可行路径的概率分布图;
图6为本发明一种实施例的流式端到端语音识别模型的解码示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1-图5所示,本发明提出了一种流式端到端语音识别模型的训练方法,包括以下步骤:
步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;
步骤S200,将降采样后的语音特征序列输入一个基于注意力机制的序列到序列模型的编码器中,输出声学编码状态序列;
步骤S300,将语音对应文本序列和声学编码状态序列输入到解码器中,并计算输出概率分布;
步骤S400,基于输出概率分布计算交叉熵损失;
步骤S500,循环执行步骤S200-S500,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成第一阶段的模型训练;
步骤S600,在第一阶段训练模型的基础上,将输入的语音分成N个固定长度的片段,然后依次输入编码器中,分别计算得到N个固定长度的片段上的声学编码状态序列;
步骤S700,依次每个声学状态序列和整个文本序列输入到解码器中,输入得到一个概率分布网络;
步骤S800,概率分布网络中存在多条对齐路径,依据前后向算法,计算得到所有可行路径的概率和,然后计算路径概率和的负对数损失,并计算参数对应的梯度,进行反向传播;
步骤S900,循环执行步骤S600-S800,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成全部的模型训练。
为了更清晰地对本发明流式端到端语音识别模型的训练方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列。
语音识别的目标是将连续语音信号转化为文字序列。在识别过程中,通过对时域下的波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,最后通过拼接每帧的特征向量得到语音特征序列。
在本实施例中,先获取流式端到端语音识别模型的训练数据,包括语音训练数据和对应的文本标注训练数据,提取所述语音训练数据的特征。语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)。
在一些优选的实施方式中,步骤S100和步骤S200之间还包括降采样处理步骤:
对语音特征序列中的语音特征进行降采样处理;降采样方法可以通过语音特征帧的拼接或者通过卷积神经网络进行(卷积的步长表示降采样率)。其中特征帧拼接的实现方法为获取所述语音特征序列中的第T帧语音特征的前三帧语音特征和后两帧语音特征,与其进行拼接,并降采样到40ms的帧率;若第T-3帧语音特征、第T-2帧语音特征、第T-1帧语音特征、第T+1帧、第2帧语音特征中任一帧语音特征不存在,则将其对应的位置填充为0。
步骤S200,将降采样后的语音特征序列输入一个基于注意力机制的序列到序列模型的编码器中,输出声学编码状态序列。
在本实施例中,降采样过程采用两层2维卷积对输入的语音特征序列进行处理,其中卷积核的大小均为3x3,第一层卷积的通道数与输入特征维度匹配,输出通道数等于模型维度320,第二次卷积的输入通道数与输出通道数均等于模型维度320。两层卷积的步长均为2。两层卷积近似将输入特征序列降采样了4倍。此外也可以通过对每帧语音特征进行拼接操作来实现同样的效果,左边拼三帧,右边拼两帧,共六帧。若当前帧语音特征为第一帧、第二帧、第三帧,即左边三帧不够的情况下,缺少的一帧填充为0。若当前帧语音特征为最后一帧,即右边不足两帧特征,则将右边缺少的特征帧也填充为0。然后对拼接后的特征降采样到40ms的帧率,然后将拼帧后的特征通过线性变换,以匹配模型维度320。如果再用基于自注意力机制的声学编码器,应该对转换后的特征加上正余弦位置编码。
其中正余弦位置编码为:
偶数位置编码PE(t,2i)=sin(t/100002i/d_model)
奇数位置编码PE(t,2i+1)=cos(t/100002i/d_model)
其中t表示处理后的语音特征的时间步,i表示处理后的语音特征的第i个位置。
在本实施例中,声学编码器采用的是基于自注意力机制的声学编码器,在其他实现中,编码器可以使用基于长短时记忆网络的编码器或者基于卷积神经网络的编码器来代替。基于自注意力机制的声学编码器,包含6层基于自注意力机制的编码模块构成,每个模块包含一个多头自注意力层和一个前馈网络层。其中多头自注意力层包含4个注意力头,注意力机制的输入和输出维度均为320;前馈网络层,包含两层线性链接,第一层线性层的输入维度为320,输出维度为1280,线性层的输出经过非线性激活函数,然后输入到第二线性层,前馈网络层的输出维度为320。
在本实施例中,多头注意力机制的实现为:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)Wo
其中MultiHeadAttention表示多头注意力机制,其将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中的Wi Q、Wi K、Wi V、WO都是权重矩阵。X是自注意力模块的输入,dk是向量K的维度(等于X的维度)。
前馈计算的实现为:
FFN(x)=max(0,xW1+b1)W2+b2
其中W1和W2都是权重矩阵,b1和b2是权重偏置向量
在本实施例中,自注意力机制的QKV均表示同一输出序列。
步骤S300,将语音对应文本序列和声学编码状态序列输入到解码器中,并计算输出概率分布。
在本实施例中,编码器采用的是基于自注意力机制的解码器,在其他实现中,编码器可以使用基于长短时记忆网络的编码器等来代替。基于自注意力机制的解码器,包含6层基于自注意力机制的编码模块构成,每个模块包含一个多头自注意力层,一个多头源注意力层和一个前馈网络层。其中多头自注意力层和源注意力层均包含4个注意力头,输入和输出维度均为320;前馈网络层,包含两层线性链接,第一层线性层的输入维度为320,输出维度为1280,线性层的输出经过非线性激活函数,然后输入到第二线性层,前馈网络层的输出维度为320。
在本实施例中,自注意力机制和前馈层的计算与编码器端完全一致,源注意力机制的计算与自注意力机制相同,不同之处在于其K和V表示声学编码序列,Q表示模型上一层的输出序列。
步骤S400,基于输出概率分布计算交叉熵损失,并计算参数对应的梯度,然后应用反向传播算法来更新模型参数。
步骤S500,循环执行步骤S200-S500,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成第一阶段的模型训练;
步骤S600,在第一阶段训练模型的基础上,将输入的语音分成N个固定长度的片段,然后依次输入编码器中,分别计算得到N个固定长度的片段上的声学编码状态序列。
在本实施例中,固定长度的语音片段选择长度为0.4秒,不同实现先长度可以变化。
步骤S700,依次每个声学状态序列和整个文本序列输入到解码器中,输入得到一个概率分布网络;
步骤S800,概率分布网络中存在多条可能的对齐路径,依据前后向算法,可以计算得到所有可行路径的概率和,然后计算路径概率和的负对数损失,并计算参数对应的梯度,进行反向传播;
其中,负对数损失函数,其计算如公式(1)所示:
L=-ln p(y|x)
L为负对数损失值,y为文本标注训练数据,x为语音特征,p(y|x)表示所有对齐路径的概率和。
负对数损失函数的计算使用前后向算法进行。前后向算法使用的是动态规划的思想,高效的实现了所有可行路径的求和问题。
如图4所示,横轴表示语音段的编号,用n表示,纵轴表示文本轴,用u表示,图中的每个圆圈都表示一个由联合网络预测得到的概率分布,箭头表示路径的转移,向右的箭头表示预测得到一个空标记,向上的箭头表示预测得到一个非空标记。任意一条从左下角起始到右上角结束的路径都是模型的一条可能的路径,计算语音模型损失就是利用前后向算法对所有的可能路径求概率和。
步骤S900,循环执行步骤S600-S800,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成全部的模型训练。
如图6所示,本发明还提出了一种流式端到端语音识别模型解码方法,包括以下步骤:
解码步骤1,从音频采集器中以流式的方式读取语音数据,每0.4秒就将存储的语音提交给处理器。
本实施例中所述的音频采集器包括手机、电脑、智能音箱等嵌入式设备的各种麦克风。
本实施例中的处理器包括手机、电脑、智能音箱等各种嵌入式设备的中央处理器芯片。
解码步骤2,对固定长度的语音提取特征,得到语音特征序列;
本实施例中的语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)。特征处理方法与训练过程保持一致。
解码步骤3,将语音特征序列以及之前预测得到的文字序列(包括起始符号,但不包括句中空格标记)输入到解码器中进行预测,直到预测得到一个空格;
本实施例中,起始标记也采用空格代替,也就是输入到解码器的句首包含一个空格,句中没有空格标记。
解码步骤4,重复解码步骤1-3,直到输入语音结束并解码得到最后一个空格标记。至此,解码过程全部结束。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的流式端到端语音识别模型的训练系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种流式端到端语音识别模型的训练方法,其特征在于,包括以下步骤:
步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;
步骤S200,将降采样后的语音特征序列输入一个基于注意力机制的序列到序列模型的编码器中,输出声学编码状态序列;
步骤S300,将语音对应文本序列和声学编码状态序列输入到解码器中,并计算输出概率分布;
步骤S400,基于输出概率分布计算交叉熵损失;
步骤S500,循环执行步骤S200-S500,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成第一阶段的模型训练;
步骤S600,在第一阶段训练模型的基础上,将输入的语音分成N个固定长度的片段,然后依次输入编码器中,分别计算得到N个固定长度的片段上的声学编码状态序列;
步骤S700,依次每个声学状态序列和整个文本序列输入到解码器中,输入得到一个概率分布网络;
步骤S800,概率分布网络中存在多条对齐路径,依据前后向算法,计算得到所有可行路径的概率和,然后计算路径概率和的负对数损失,并计算参数对应的梯度,进行反向传播;
步骤S900,循环执行步骤S600-S800,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成全部的模型训练。
2.根据权利要求1所述的流式端到端语音识别模型的训练方法,其特征在于,所述流式端到端语音识别模型基于自注意力变换网络构建,其包括基于自注意力机制或者基于长短时记忆网络或者卷积网络的声学编码器和基于自注意力机制或者基于长短时记忆网络或者卷积网络的解码器;所述基于自注意力机制的声学编码器其结构为6层自注意力编码模块;所述基于自注意力机制的解码器其结构为6层自注意力解码模块;所述自注意力编码模块包括多头自注意力层和前馈层;所述自注意力解码模块包括多头自注意力层、多头源注意力层和前馈层。
3.根据权利要求1所述的流式端到端语音识别模型的训练方法,其特征在于,步骤S100中提取所述语音训练数据的特征具体指的是提取所述语音训练数据的梅尔频率倒谱系数或梅尔滤波器组系数。
4.根据权利要求1所述的流式端到端语音识别模型的训练方法,其特征在于,步骤S200中降采样具体指的是采用两层2维卷积对输入的语音特征序列进行处理,或者对每帧语音特征进行拼接操作,对拼接后的特征降采样,将拼帧后的特征进行线性变换。
5.根据权利要求1所述的流式端到端语音识别模型的训练方法,其特征在于,步骤S800中负对数损失值的计算方法为:
L=-ln p(y|x)
其中,L为负对数损失值,y为文本标注训练数据,x为语音特征,p(y|x)表示所有对齐路径的概率和。
6.一种流式端到端语音识别模型的解码方法,其特征在于,
步骤1,从音频采集器中以流式的方式读取语音数据,每隔设定时间就将存储的语音提交给处理器;
步骤2,对固定长度的语音提取特征,得到语音特征序列;
步骤3,将语音特征序列以及之前预测得到的文字序列输入到解码器中进行预测,直到预测得到一个空格;
步骤4,重复解码步骤1-3,直到输入语音结束并解码得到最后一个空格标记。
7.根据权利要求6所述的流式端到端语音识别模型的解码方法,其特征在于,步骤1中每隔0.4秒就将存储的语音提交给处理器。
8.根据权利要求6或7所述的流式端到端语音识别模型的解码方法,其特征在于,采用束搜索进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010220477.6A CN111415667B (zh) | 2020-03-25 | 2020-03-25 | 一种流式端到端语音识别模型训练和解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010220477.6A CN111415667B (zh) | 2020-03-25 | 2020-03-25 | 一种流式端到端语音识别模型训练和解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111415667A true CN111415667A (zh) | 2020-07-14 |
CN111415667B CN111415667B (zh) | 2024-04-23 |
Family
ID=71493281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010220477.6A Active CN111415667B (zh) | 2020-03-25 | 2020-03-25 | 一种流式端到端语音识别模型训练和解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111415667B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916064A (zh) * | 2020-08-10 | 2020-11-10 | 北京睿科伦智能科技有限公司 | 一种端到端的神经网络语音识别模型的训练方法 |
CN112382278A (zh) * | 2020-11-18 | 2021-02-19 | 北京百度网讯科技有限公司 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
CN112815957A (zh) * | 2020-12-31 | 2021-05-18 | 出门问问(武汉)信息科技有限公司 | 一种语音识别路径规划方法、系统及平台 |
CN112951209A (zh) * | 2021-01-27 | 2021-06-11 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及计算机可读存储介质 |
CN112951213A (zh) * | 2021-02-09 | 2021-06-11 | 中国科学院自动化研究所 | 端到端的在线语音检测与识别方法、系统及设备 |
CN113129868A (zh) * | 2021-03-12 | 2021-07-16 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN113205800A (zh) * | 2021-04-22 | 2021-08-03 | 京东数字科技控股股份有限公司 | 音频识别方法、装置、计算机设备和存储介质 |
CN113241063A (zh) * | 2021-06-24 | 2021-08-10 | 中国平安人寿保险股份有限公司 | 语音识别系统中的算法参数更新方法、装置、终端及介质 |
CN113327603A (zh) * | 2021-06-08 | 2021-08-31 | 广州虎牙科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN113380239A (zh) * | 2021-07-20 | 2021-09-10 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
CN113409759A (zh) * | 2021-07-07 | 2021-09-17 | 浙江工业大学 | 一种端到端实时语音合成方法 |
CN113470620A (zh) * | 2021-07-06 | 2021-10-01 | 青岛洞听智能科技有限公司 | 一种语音识别方法 |
CN113488028A (zh) * | 2021-06-23 | 2021-10-08 | 中科极限元(杭州)智能科技股份有限公司 | 基于快速跳跃解码的语音转写识别训练解码方法及系统 |
CN113838468A (zh) * | 2021-09-24 | 2021-12-24 | 中移(杭州)信息技术有限公司 | 流式语音识别方法、终端设备及介质 |
CN114038465A (zh) * | 2021-04-28 | 2022-02-11 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
CN114944148A (zh) * | 2022-07-09 | 2022-08-26 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
CN116665656A (zh) * | 2023-07-24 | 2023-08-29 | 美智纵横科技有限责任公司 | 语音识别模型的生成方法、语音识别方法、装置及芯片 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170148431A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | End-to-end speech recognition |
US20180247643A1 (en) * | 2017-02-24 | 2018-08-30 | Baidu Usa Llc | Systems and methods for principled bias reduction in production speech models |
CN110473529A (zh) * | 2019-09-09 | 2019-11-19 | 极限元(杭州)智能科技股份有限公司 | 一种基于自注意力机制的流式语音转写系统 |
CN110648658A (zh) * | 2019-09-06 | 2020-01-03 | 北京达佳互联信息技术有限公司 | 一种语音识别模型的生成方法、装置及电子设备 |
CN110689879A (zh) * | 2019-10-10 | 2020-01-14 | 中国科学院自动化研究所 | 端到端语音转写模型的训练方法、系统、装置 |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
-
2020
- 2020-03-25 CN CN202010220477.6A patent/CN111415667B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170148431A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | End-to-end speech recognition |
US20180247643A1 (en) * | 2017-02-24 | 2018-08-30 | Baidu Usa Llc | Systems and methods for principled bias reduction in production speech models |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN110648658A (zh) * | 2019-09-06 | 2020-01-03 | 北京达佳互联信息技术有限公司 | 一种语音识别模型的生成方法、装置及电子设备 |
CN110473529A (zh) * | 2019-09-09 | 2019-11-19 | 极限元(杭州)智能科技股份有限公司 | 一种基于自注意力机制的流式语音转写系统 |
CN110689879A (zh) * | 2019-10-10 | 2020-01-14 | 中国科学院自动化研究所 | 端到端语音转写模型的训练方法、系统、装置 |
Non-Patent Citations (1)
Title |
---|
沈东风: "基于深度学习的连续语音识别研究" * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916064A (zh) * | 2020-08-10 | 2020-11-10 | 北京睿科伦智能科技有限公司 | 一种端到端的神经网络语音识别模型的训练方法 |
CN112382278A (zh) * | 2020-11-18 | 2021-02-19 | 北京百度网讯科技有限公司 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
CN112382278B (zh) * | 2020-11-18 | 2021-08-17 | 北京百度网讯科技有限公司 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
CN112815957A (zh) * | 2020-12-31 | 2021-05-18 | 出门问问(武汉)信息科技有限公司 | 一种语音识别路径规划方法、系统及平台 |
CN112951209A (zh) * | 2021-01-27 | 2021-06-11 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及计算机可读存储介质 |
CN112951209B (zh) * | 2021-01-27 | 2023-12-01 | 中国科学技术大学 | 一种语音识别方法、装置、设备及计算机可读存储介质 |
CN112951213A (zh) * | 2021-02-09 | 2021-06-11 | 中国科学院自动化研究所 | 端到端的在线语音检测与识别方法、系统及设备 |
CN112951213B (zh) * | 2021-02-09 | 2022-05-24 | 中国科学院自动化研究所 | 端到端的在线语音检测与识别方法、系统及设备 |
CN113129868A (zh) * | 2021-03-12 | 2021-07-16 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN113129868B (zh) * | 2021-03-12 | 2022-02-25 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN113205800A (zh) * | 2021-04-22 | 2021-08-03 | 京东数字科技控股股份有限公司 | 音频识别方法、装置、计算机设备和存储介质 |
CN113205800B (zh) * | 2021-04-22 | 2024-03-01 | 京东科技控股股份有限公司 | 音频识别方法、装置、计算机设备和存储介质 |
WO2022228067A1 (zh) * | 2021-04-28 | 2022-11-03 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
CN114038465A (zh) * | 2021-04-28 | 2022-02-11 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
CN114038465B (zh) * | 2021-04-28 | 2022-08-23 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
CN113327603A (zh) * | 2021-06-08 | 2021-08-31 | 广州虎牙科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN113327603B (zh) * | 2021-06-08 | 2024-05-17 | 广州虎牙科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN113488028B (zh) * | 2021-06-23 | 2024-02-27 | 中科极限元(杭州)智能科技股份有限公司 | 基于快速跳跃解码的语音转写识别训练解码方法及系统 |
CN113488028A (zh) * | 2021-06-23 | 2021-10-08 | 中科极限元(杭州)智能科技股份有限公司 | 基于快速跳跃解码的语音转写识别训练解码方法及系统 |
CN113241063A (zh) * | 2021-06-24 | 2021-08-10 | 中国平安人寿保险股份有限公司 | 语音识别系统中的算法参数更新方法、装置、终端及介质 |
CN113241063B (zh) * | 2021-06-24 | 2023-09-26 | 中国平安人寿保险股份有限公司 | 语音识别系统中的算法参数更新方法、装置、终端及介质 |
CN113470620A (zh) * | 2021-07-06 | 2021-10-01 | 青岛洞听智能科技有限公司 | 一种语音识别方法 |
CN113409759A (zh) * | 2021-07-07 | 2021-09-17 | 浙江工业大学 | 一种端到端实时语音合成方法 |
CN113380239B (zh) * | 2021-07-20 | 2022-09-09 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
CN113380239A (zh) * | 2021-07-20 | 2021-09-10 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
CN113838468A (zh) * | 2021-09-24 | 2021-12-24 | 中移(杭州)信息技术有限公司 | 流式语音识别方法、终端设备及介质 |
CN114944148A (zh) * | 2022-07-09 | 2022-08-26 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
CN114944148B (zh) * | 2022-07-09 | 2023-08-22 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
CN116665656A (zh) * | 2023-07-24 | 2023-08-29 | 美智纵横科技有限责任公司 | 语音识别模型的生成方法、语音识别方法、装置及芯片 |
CN116665656B (zh) * | 2023-07-24 | 2023-10-10 | 美智纵横科技有限责任公司 | 语音识别模型的生成方法、语音识别方法、装置及芯片 |
Also Published As
Publication number | Publication date |
---|---|
CN111415667B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111415667B (zh) | 一种流式端到端语音识别模型训练和解码方法 | |
CN111429889B (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
Arık et al. | Deep voice: Real-time neural text-to-speech | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN112037798B (zh) | 基于触发式非自回归模型的语音识别方法及系统 | |
Bridle et al. | Continuous connected word recognition using whole word templates | |
US20140365221A1 (en) | Method and apparatus for speech recognition | |
JPH10254483A (ja) | 音素シンボルの事後確率演算装置及び音声認識装置 | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
Zhang et al. | Improving end-to-end single-channel multi-talker speech recognition | |
CN112489629A (zh) | 语音转写模型、方法、介质及电子设备 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN111862952B (zh) | 一种去混响模型训练方法及装置 | |
CN113781995A (zh) | 语音合成方法、装置、电子设备及可读存储介质 | |
CN112420050B (zh) | 一种语音识别方法、装置和电子设备 | |
US20220157329A1 (en) | Method of converting voice feature of voice | |
US20140222431A1 (en) | Method and apparatus for speech recognition | |
Gavat et al. | Deep learning in acoustic modeling for automatic speech recognition and understanding-an overview | |
Kameoka et al. | FastS2S-VC: Streaming non-autoregressive sequence-to-sequence voice conversion | |
Bi et al. | Deep feed-forward sequential memory networks for speech synthesis | |
CN113470622B (zh) | 一种可将任意语音转换成多个语音的转换方法及装置 | |
CN113488028B (zh) | 基于快速跳跃解码的语音转写识别训练解码方法及系统 | |
Kim et al. | Accelerating rnn transducer inference via one-step constrained beam search | |
CN113488029A (zh) | 基于参数共享非自回归语音识别训练解码方法及系统 | |
CN116090474A (zh) | 对话情绪分析方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 310000 Room 1105, Floor 11, Building 4, No. 9, Jiuhuan Road, Shangcheng District, Hangzhou, Zhejiang Applicant after: Zhongke extreme element (Hangzhou) Intelligent Technology Co.,Ltd. Address before: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province Applicant before: Limit element (Hangzhou) intelligent Polytron Technologies Inc. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |