CN111128137B - 一种声学模型的训练方法、装置、计算机设备和存储介质 - Google Patents

一种声学模型的训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111128137B
CN111128137B CN201911400182.0A CN201911400182A CN111128137B CN 111128137 B CN111128137 B CN 111128137B CN 201911400182 A CN201911400182 A CN 201911400182A CN 111128137 B CN111128137 B CN 111128137B
Authority
CN
China
Prior art keywords
loss value
training
neural network
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911400182.0A
Other languages
English (en)
Other versions
CN111128137A (zh
Inventor
唐浩雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Singapore Pte Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201911400182.0A priority Critical patent/CN111128137B/zh
Publication of CN111128137A publication Critical patent/CN111128137A/zh
Application granted granted Critical
Publication of CN111128137B publication Critical patent/CN111128137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明实施例公开了一种声学模型的训练方法、装置、计算机设备和存储介质,该声学模型包括编码器、注意力模型、解码器与CTC模型,编码器包括第一卷积神经网络与循环神经网络,该方法包括:确定本次训练的样本语音信号,样本语音信号用于表示样本文字;计算第一卷积神经网络对样本语音信号进行编码的第一损失值;计算声学模型预测样本语音信号为样本文字的第二损失值;结合第一损失值与第二损失值计算总损失值;判断总损失值是否满足预设的条件;若是,则确定完成训练声学模型;若否,则在训练声学模型时,执行第一训练操作、第二训练操作。本实施例实现了半监督训练,可以避免损失值可能存在梯度消失,保证一定深度的神经网络可训练。

Description

一种声学模型的训练方法、装置、计算机设备和存储介质
技术领域
本发明实施例涉及声学技术,尤其涉及一种声学模型的训练方法、装置、计算机设备和存储介质。
背景技术
在直播等业务中,常常需要对海量的音视频内容进行监管,包括图像和声音,其中,声音为用户(如主播)说出的语音。
对于语音内容的监管,常用的一个方法就是对于语音进行识别,转换成文字,然后对文字进行甄别。
对于语音识别的过程中,目前多使用端到端的神经网络实现声学模型,对切分过的一小段一小段的语音进行建模,对语音进行编码,对编码后的语音进行结算,得到文字的概率矩阵,通过一定的搜索算法在文字的概率矩阵得到文字串。
在神经网络的训练过程中,使用标注的文字与文字的概率矩阵对比,得到损失值,从而使用该损失值反向传播一层一层训练整个神经网络。
但是,声学模型应用的神经网络的层数较多,反向传播的路径远,反向传播从浅层开始传播,从浅层到深层,神经网络训练所依赖的损失值可能存在梯度消失,导致一定的深度的神经网络不可训练。
此时,可能需要手动对声学模型中的模型参数进行优化,使得声学模型的精确度较低,导致语音识别的精确度较低,容易出现识别错误或无法识别的问题,在直播等场景中,可监督的效果较差。
发明内容
本发明实施例提供一种声学模型的训练方法、装置、计算机设备和存储介质,以解决声学模型应用神经网络时,损失值可能存在梯度消失,导致一定的深度的神经网络不可训练的问题。
第一方面,本发明实施例提供了一种声学模型的训练方法,所述声学模型包括编码器、注意力模型、解码器与CTC模型,所述编码器包括第一卷积神经网络与循环神经网络,所述方法包括:
确定本次训练的样本语音信号,所述样本语音信号用于表示样本文字;
计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值;
计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值;
结合所述第一损失值与所述第二损失值计算总损失值;
判断所述总损失值是否满足预设的条件;
若是,则确定完成训练所述声学模型;
若否,则在训练所述声学模型时,执行第一训练操作、第二训练操作,返回执行所述确定本次训练的样本语音信号,其中,所述第一训练操作用于对所述第一卷积神经网络进行训练,所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。
第二方面,本发明实施例还提供了一种声学模型的训练装置,所述声学模型包括编码器、注意力模型、解码器与CTC模型,所述编码器包括第一卷积神经网络与循环神经网络,所述装置包括:
样本语音信号确定模块,用于确定本次训练的样本语音信号,所述样本语音信号用于表示样本文字;
第一损失值计算模块,用于计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值;
第二损失值计算模块,用于计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值;
总损失值计算模块,用于结合所述第一损失值与所述第二损失值计算总损失值;
条件判断模块,用于判断所述总损失值是否满足预设的条件;若是,则调用完成确定模块,若否,则调用模型训练模块;
完成确定模块,用于确定完成训练所述声学模型;
模型训练模块,用于在训练所述声学模型时,执行第一训练操作、第二训练操作,返回调用所述样本语音信号确定模块,其中,所述第一训练操作用于对所述第一卷积神经网络进行训练,所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的声学模型的训练方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的声学模型的训练方法。
在本实施例中,确定本次训练的样本语音信号,样本语音信号标记样本文字,一方面,计算第一卷积神经网络对样本语音信号进行编码的第一损失值,另一方面,计算声学模型预测样本语音信号为样本文字的第二损失值,结合第一损失值与第二损失值计算总损失值,判断总损失值是否满足预设的条件;若是,则确定完成训练声学模型;若否,则在训练声学模型时,执行第一训练操作、第二训练操作,一方面,在无监督的情况下,在深层训练第一卷积神经网络,在样本文字作为标签的监督下,在浅层训练循环神经网络、注意力模型解码器与CTC模型进行训练,实现了半监督训练,通过独立训练深层的第一卷积神经网络,可以避免损失值可能存在梯度消失,保证一定深度的神经网络可训练,无需手动调整声学模型中的模型参数,在相同的时间内容,可以训练出精确度更高的声学模型,从而增加语音识别的精确度,准确识别在先识别错误或无法识别的语音信号,在直播等场景中,可增强监督的效果。
附图说明
图1为本发明实施例一提供的一种声学模型的训练方法的流程图;
图2为本发明实施例一提供的一种声学模型的结构示意图;
图3A是本发明实施例一提供的一种编码器的结构示意图;
图3B是本发明实施例一提供的一种第一卷积神经网络的训练示意图;
图4为本发明实施例二提供的一种声学模型的训练装置的结构示意图;
图5为本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种声学模型的训练方法的流程图,本实施例提出半监督的方法训练声学模型,可适用于使用有监督学习训练浅层,无监督学习训练深层的情况。
进一步而言,如图2所示,声学模型包括编码器Encoder、注意力模型Attention、解码器Decoder与CTC(Connectionist temporal classification,基于神经网络的时序类分类)模型。
其中,如图3A所示,编码器包括第一卷积神经网络(Convolutional neuralnetworks,CNN)与循环神经网络(Recurrent neural networks,RNN)。
进一步而言,第一卷积神经网络与循环神经网络的连接为detach连接,detach连接为允许正向传播、禁止反向传播,当反向传播时,到此停止。
解码器可选的有CNN、RNN、BiRNN、GRU(Gated Recurrent Unit,门控循环单元)、LSTM(Long Short-Term Memory,长短期记忆网络)等等。
该方法可以由声学模型的训练装置来执行,该声学模型的训练装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,个人电脑、服务器、工作站,等等,该方法具体包括如下步骤:
S101、确定本次训练的样本语音信号。
在具体实现中,声学模型通常经过多次迭代进行训练,在每次迭代训练中,可确定本次用于训练声学模型的训练样本,该训练样本包括多帧样本语音信号,该样本语音信号标注了label(标签,即样本文字),即样本语音信号用于表示样本文字。
S102、计算第一卷积神经网络对样本语音信号进行编码的第一损失值。
在训练声学模型时,第一卷积神经网络单独进行无监督的训练,则可以计算第一卷积神经网络对样本语音信号进行编码造成的误差,作为第一损失值。
在具体实现中,可以针对第一卷积神经网络添加第二卷积神经网络,该第二卷积神经网络用于辅助第一卷积神经网络的训练。
其中,第一卷积神经网络的结构与第二卷积神经网络的结构相反。
一般情况下,在声学模型的编码器中,第一卷积神经网络通常为深层次的卷积神经网络,如VGG(包括标准的VGG网络及其变形)、Resnet等,当然,第一卷积神经网络可以为一层或者两层等浅层次的卷积神经网络,本实施例对此不加以限制。
以VGG网络为例,第一卷积神经网络包括用于编码的VGG网络,则第二卷积神经网络包括用于解码的VGG网络,用于编码的VGG网络的结构与解码的VGG网络的结构相反。
VGG网络探索了卷积神经网络的深度与其性能之间的关系,构筑了16-19层深的卷积神经网络,证明了增加网络的深度能够在一定程度上影响网络的性能,使错误率大幅下降,同时拓展性又很强,迁移到其它图片数据上的泛化性也非常好。
此时,如图3B所示,在编码器Encoder中,第一卷积神经网络可作为编码器Encoder(即CNN-Encoder)、第二卷积神经网络可作为解码器Decoder(即CNN-Decoder),组成一个自编码器AutoEncoder。
在具体实现中,可确定第一卷积神经网络对样本语音信号On进行编码获得的编码信号,在预设的第二卷积神经网络中对编码信号进行解码,获得预估语音信号
Figure BDA0002347277330000071
基于样本语音信号On与预估语音信号/>
Figure BDA0002347277330000072
计算第一损失值。
在一个示例中,损失函数为平方损失函数(quadratic loss function),在此示例中,可计算每帧样本语音信号与每帧预估语音信号之间的信号差值,计算信号差值的平方,计算所有平方的和值,作为第一损失值,即第一损失值记为:
Figure BDA0002347277330000073
当然,上述损失函数只是作为示例,在实施本实施例时,可以根据实际情况设置其他损失函数,例如,log对数损失函数(逻辑回归)、指数损失函数(Adaboost)、Hinge损失函数(SVM)、等等,实施例对此不加以限制。另外,除了上述损失函数外,本领域技术人员还可以根据实际需要采用其它损失函数,本实施例对此也不加以限制。
S103、计算声学模型预测样本语音信号为样本文字的第二损失值。
在训练声学模型时,第一卷积神经网络与循环神经网络作为编码器,与注意力模型、解码器与CTC模型均为声学模型中的模块,因此,针对声学模型整体预测样本语音信号为样本文字的误差,作为第二损失值。
在具体实现中,如图2所示,在编码器(Encoder)中,确定第一卷积神经网络对样本语音信号On进行编码获得的编码信号,并将该编码信号传输至编码器中的循环神经网络,在循环神经网络中,对编码信号进行编码,获得隐含特征信号hn
进一步而言,循环神经网络的对序列信号具有优秀的建模能力,可应用于与时间相关的语音序列。标准的循环神经网络有着梯度消失或爆炸的问题,导致循环神经网络不能够很好的对较长的序列进行建模,循环神经网络中的Long short-term memory(LSTM)网络通过在时间轴引入门来解决这个问题,因此,可将LSTM网络应用于声学模型中的编码器。
需要说明的是,LSTM网络包括标准的LSTM网络及其变形,本领域技术人员可以根据实际情况设置循环神经网络的结构,例如,高速(highway-)LSTM和残差(Residual-)LSTM被用来解决层数非常多的LSTM还是很难训练的问题;二维LSTM(time-frequency LSTM和Grid LSTM)被用来对时间-频率的二维语音频谱进行建模;延时可控的双向LSTM同时享有双向处理带来的比单向LSTM高的正确率和可控延时带来的比双向LSTM低的延时,等等。
此后,该隐含特征信号分为两路进行传输:
一路隐含特征信号传输至CTC模型中,在CTC模型中,将隐含特征信号映射为第一目标文字yn,基于第一目标文字yn与样本文字计算第一子损失值。
CTC模型可以将语音序列直接映射到词或者字符,省去对发音字典的依赖。通过直接选取最大概率的单元,CTC模型可以省去对解码器的依赖。
进一步而言,声学模型的训练大多属于有监督学习,明确每一帧语音信号对应的label进行有效的训练,在训练的数据准备阶段对语音信号进行强制对齐。对于语音信号的一帧数据,很难给出一个label,但是几十帧数据就容易判断出语音信号对应的label。CTC模型的引入可以放宽了这种逐一对应的要求,一个输入序列和一个输出序列即可以训练。
在具体实现中,在标注符号集中加一个空白符号blank,然后利用RNN进行标注,最后把blank符号和预测出的重复符号消除。例如,有可能预测除了一个"--a-bb",就对应序列"ab",这样就让RNN可以对长度小于输入序列的标注序列进行预测了。RNN的训练需要用到前向后向算法(Forward-backward algorithm),即对于给定预测序列,比如“ab”,在各个字符间插入空白符号,建立起篱笆网络(Trellis),然后对将所有可能映射到给定预测的序列都穷举出来求和。
CTC模型中,损失函数可定义如下所示:
L(S)=-lnΠ(x,z∈S)p(z|x)=-∑(x,z∈S)lnp(z|x)
其中,p(z|x)代表给定输入x(如隐含特征信号),输出序列z(如样本文字)的概率,S为训练集。损失函数可以解释为:给定样本后输出正确label的概率的乘积,再取负对数就是损失函数了。取负号之后我们通过最小化损失函数,就可以使输出正确的label的概率达到最大了。
另一路隐含特征信号hn传输至注意力模型-解码器(Attention-Decoder)中,在注意力模型(图2中标记“H”的模块)中,计算一个注意力权重(attention weight)am,n,计算记为:
am,n=attention(h1-n,sm-1)
其中,sm-1为注意力模型-解码器中的一个状态量。
进一步而言,在Seq2Seq结构(即Encoder-Decoder)中,Encoder把所有的输入序列都编码成一个统一的语义向量context,然后再由Decoder进行解码。由于context包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈。
利用Encoder所有隐藏层状态可解决context长度限制问题,因此,在Encoder与Decoder支架添加Attention,Attention在产生输出的时候,还会产生一个“注意力范围”表示接下来输出的时候要重点关注输入序列中的哪些部分,然后根据关注的区域来产生下一个输出,如此往复,相当于在Seq2Seq结构上加了一层“包装”,内部通过函数计算注意力权重,从而给Decoder加入额外信息,以提高性能。
根据注意力权重am,n对隐含特征信号进行加权处理,获得加权隐含特征信号,记为:
Figure BDA0002347277330000101
/>
在解码器中,隐含特征信号结合注意力模型-解码器的状态量sn,将隐含特征信号映射为第二目标文字,同时更新状态量sn
yn=Generate(cn,sn-1)
sn=Recurrency(sn-1,cn,yn)
其中,Generate与Recurrency均为注意力模型-解码器中的一部分,当然,状态量sn-1也会更新注意力权重am,n
在预测出样本语音信号时,可基于第二目标文字与样本文字计算第二子损失值。
将两路处理进行汇总,结合第一子损失值与第二子损失值计算声学模型预测样本语音信号为样本文字的第二损失值。
在一个示例中,确定预设的第一超参数,在第一超参数与第一子损失值之间乘积的基础上,加上第二子损失值,获得第二损失值,即第二损失值记为:
lossctc+att=wctclossctc+lossatt
其中,lossctc+att为第二损失值,wctc为第一超参数,wctc∈(0,1),lossctc为第一子损失值,lossatt为第二子损失值。
S104、结合第一损失值与第二损失值计算总损失值。
结合第一损失值与第二损失值,则可以计算出用于在有监督的情况下训练CTC模型、解码器、注意力模型与编码器中的循环神经网络,以及,在无监督的情况下训练编码器中的第一卷积神经网络的总损失值。
在一个示例中,可确定预设的第二超参数,在第二超参数与第一损失值之间乘积的基础上,加上第二损失值,获得总损失值,即总损失值即为:
Loss=lossctc+att+wCNNlossCNN=wctclossctc+lossatt+wCNNlossCNN
其中,lossCNN为第一损失值,lossctc+att为第二损失值,wctc为第一超参数,wCNN为第二超参数,wCNN∈(0,1),lossctc为第一子损失值,lossatt为第二子损失值。
在另一个示例中,增加一个惩罚值作为正则项,该惩罚值可以用于平衡有监督的训练与无监督的训练。
在本示例中,可确定预设的第三超参数,在第三超参数与第一损失值之间乘积的基础上,加上第二损失值,获得第三损失值,基于声学模型中指定的模型参数的参数值生成惩罚值,计算第三损失值与惩罚值之间的和值,作为总损失值,即总损失值即为:
Loss=lossctc+att+wCNNlossCNN+g(w)=wctclossctc+lossatt+wCNNlossCNN+g(w)
其中,lossCNN为第一损失值,lossctc+att为第二损失值,g(w)为惩罚函数,wctc为第一超参数,wCNN为第三超参数,wCNN∈(0,1),lossctc为第一子损失值,lossatt为第二子损失值。
进一步地,g(w)可以表示为:
g(w)=(w-α)2
其中,w为声学模型中指定的模型参数,该模型参数独立于CTC模型、解码器、注意力模型与编码器中,随声学模型训练而更新数值,在声学模型训练完成时,丢弃该模型参数,α为调整值,该调整值属于常量,如根据wctc∈(0,1)的特点,α=0.5。
即,计算声学模型中指定的模型参数的参数值与预设的调整值之间的差值,取差值的平方,作为惩罚值。
当然,上述计算总损失值的方式只是作为示例,在实施本实施例时,可以根据实际情况设置其他计算总损失值的方式,本实施例对此不加以限制。另外,除了上述计算总损失值的方式外,本领域技术人员还可以根据实际需要采用其它计算总损失值的方式,本实施例对此也不加以限制。
S105、判断总损失值是否满足预设的条件;若是,则执行S106,若否,则执行S107。
在本实施例中,可预先针对总损失值设置条件,例如,总损失值大于第一阈值,和/或,本次的总损失值与上一次的损失值之间的差值小于第二阈值,等等。
在满足该条件时,停止迭代训练声学模型,在未满足该条件时,继续迭代训练声学模式时。
S106、确定完成训练声学模型。
在完成训练声学模型时,存储CTC模型、解码器、注意力模型与编码器,并记录CTC模型、解码器、注意力模型与编码器的模型参数的数值。
需要说明的是,若使用第二卷积神经网络辅助训练编码器中的第一卷积神经网络,则在完成训练声学模型时,滤除该第二卷积神经网络。
若使用指定的模型参数计算总损失值,则在训练声学模型时,滤除该模型参数。
S107、在训练声学模型时,根据总损失值执行第一训练操作、第二训练操作,返回执行S101。
如果把声学模型可以看作是一种函数映射,即声学模型的训练过程是一个函数优化求解的过程。优化求解的目标就是不断更新该声学模型所包含的模型参数的数值(又称权重),将已标注的样本文字作为输入的数据,经过声学模型的计算,输出的预测值和标注之间的损失值以及编码的损失值最小。
声学模型训练的过程就是模型参数更新的过程:计算目标函数在当前弄醒参数的梯度方向,然后通过优化方式更新学习速率,计算模型参数的更新幅度,在梯度相反方向更新模型参数的数值,即在总损失值上向着损失最小的点靠近而指引了声学模型调整的方向,把总损失值反向传给声学模型的每一层,让每一层都根据损失值反向调整模型参数的数值。
根据学习率的设定情况,目前的优化方式主要分为两大类:一类是以随机梯度下降(stochastic gradient descent,SGD)算法为代表的手动设定学习率的优化方式;另一类是以自适应矩估计(Adaptive Moment Estimation,Adam)为代表的自适应设定学习率的优化方式。
在本实施例中,声学模型的训练包括如下两种训练操作:
1、第一训练操作
具体而言,第一训练操作用于对第一卷积神经网络进行训练。
需要说明的是,在使用第二卷积神经网络辅助训练编码器中的第一卷积神经网络的情况下,第一卷积神经网络与第二卷积神经网络为正向传播,则可以依次对第一卷积神经网络与第二卷积神经网络进行第一反向传播。
2、第二训练操作
具体而言,第二训练操作用于对循环神经网络、注意力模型、解码器与CTC模型进行训练。
一方面,循环神经网络与CTC模型为正向传播,则对CTC模型进行第二反向传播。
另一方面,循环神经网络、注意力模型与解码器为正向传播,则依次对注意力模型、解码器进行第三反向传播。
在第二反向传播与第三反向传播之后,基于第二反向传播的结果与第三反向传播的结果共同对循环神经网络进行第四反向传播。
此时,由于循环神经网络与第一卷积神经网络之间为detach连接,第一训练操的反向传播在循环神经网络停止,并不会传递到第一卷积神经网络。
在本实施例中,确定本次训练的样本语音信号,样本语音信号标记样本文字,一方面,计算第一卷积神经网络对样本语音信号进行编码的第一损失值,另一方面,计算声学模型预测样本语音信号为样本文字的第二损失值,结合第一损失值与第二损失值计算总损失值,判断总损失值是否满足预设的条件;若是,则确定完成训练声学模型;若否,则在训练声学模型时,执行第一训练操作、第二训练操作,一方面,在无监督的情况下,在深层训练第一卷积神经网络,在样本文字作为标签的监督下,在浅层训练循环神经网络、注意力模型解码器与CTC模型进行训练,实现了半监督训练,通过独立训练深层的第一卷积神经网络,可以避免损失值可能存在梯度消失,保证一定深度的神经网络可训练,无需手动调整声学模型中的模型参数,在相同的时间内容,可以训练出精确度更高的声学模型,从而增加语音识别的精确度,准确识别在先识别错误或无法识别的语音信号,在直播等场景中,可增强监督的效果。
实施例二
图4为本发明实施例三提供的一种声学模型的训练装置的结构示意图,该声学模型包括编码器、注意力模型、解码器与CTC模型,编码器包括第一卷积神经网络与循环神经网络,该装置具体可以包括如下模块:
样本语音信号确定模块401,用于确定本次训练的样本语音信号,所述样本语音信号用于表示样本文字;
第一损失值计算模块402,用于计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值;
第二损失值计算模块403,用于计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值;
总损失值计算模块404,用于结合所述第一损失值与所述第二损失值计算总损失值;
条件判断模块405,用于判断所述总损失值是否满足预设的条件;若是,则调用完成确定模块406,若否,则调用模型训练模块407;
完成确定模块406,用于确定完成训练所述声学模型;
模型训练模块407,用于在训练所述声学模型时,执行第一训练操作、第二训练操作,返回调用所述样本语音信号确定模块401,其中,所述第一训练操作用于对所述第一卷积神经网络进行训练,所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。
在本发明的一个实施例中,所述第一损失值计算模块402包括:
编码信号确定子模块,用于确定所述第一卷积神经网络对所述样本语音信号进行编码获得的编码信号;
解码子模块,用于在预设的第二卷积神经网络中对所述编码信号进行解码,获得预估语音信号;
信号计算子模块,用于基于所述样本语音信号与所述预估语音信号计算第一损失值。
在本发明的一个实施例中,所述第一卷积神经网络的结构与所述第二卷积神经网络的结构相反。
在本发明的一个实施例中,所述信号计算子模块包括:
信号差值计算子模块,用于计算每帧所述样本语音信号与每帧所述预估语音信号之间的信号差值;
平方计算子模块,用于计算所述信号差值的平方;
平方和计算子模块,用于计算所有平方的和值,作为第一损失值。
在本发明的一个实施例中,所述模型训练模块407包括:
第一反向传播子模块,用于依次对所述第一卷积神经网络与所述第二卷积神经网络进行第一反向传播。
在本发明的一个实施例中,所述第二损失值计算模块403包括:
编码信号确定子模块,用于确定所述第一卷积神经网络对所述样本语音信号进行编码获得的编码信号;
隐含特征信号获得子模块,用于在所述循环神经网络中,对所述编码信号进行编码,获得隐含特征信号;
第一目标文字映射子模块,用于在所述CTC模型中,将所述隐含特征信号映射为第一目标文字;
第一子损失值计算子模块,用于基于所述第一目标文字与所述样本文字计算第一子损失值;
加权处理子模块,用于在所述注意力模型中,将所述隐含特征信号进行加权处理,获得加权隐含特征信号;
第二目标文字映射子模块,用于在所述解码器中,对所述加权隐含特征信号进行解码,以映射为第二目标文字;
第二子损失值计算子模块,用于基于所述第二目标文字与所述样本文字计算第二子损失值;
损失值结合子模块,用于结合所述第一子损失值与所述第二子损失值计算第二损失值。
在本发明的一个实施例中,所述损失值结合子模块包括:
第一超参数确定子模块,用于确定预设的第一超参数;
第一乘积和计算子模块,用于在所述第一超参数与所述第一子损失值之间乘积的基础上,加上所述第二子损失值,获得第二损失值。
在本发明的一个实施例中,所述模型训练模块407包括:
第二反向传播子模块,用于对所述CTC模型进行第二反向传播;
第三反向传播子模块,用于依次对所述注意力模型、所述解码器进行第三反向传播;
第四反向传播子模块,用于在所述第二反向传播与所述第三反向传播之后,对所述循环神经网络进行第四反向传播。
在本发明的一个实施例中,所述总损失值计算模块404包括:
第二超参数确定子模块,用于确定预设的第二超参数;
第二乘积和计算子模块,用于在所述第二超参数与所述第一损失值之间乘积的基础上,加上所述第二损失值,获得总损失值。
在本发明的另一个实施例中,所述总损失值计算模块404包括:
第三超参数确定子模块,用于确定预设的第三超参数;
第三损失值计算子模块,用于在所述第三超参数与所述第一损失值之间乘积的基础上,加上所述第二损失值,获得第三损失值;
惩罚值生成子模块,用于基于所述声学模型中指定的模型参数的参数值生成惩罚值;
求和子模块,用于计算所述第三损失值与所述惩罚值之间的和值,作为总损失值。
在本发明的一个实施例中,所述惩罚值生成子模块包括:
差值计算子模块,用于计算所述声学模型中指定的模型参数的参数值与预设的调整值之间的差值;
差值平方计算子模块,用于取所述差值的平方,作为惩罚值。
在本发明实施例的一个示例中,所述第一卷积神经网络包括VGG网络,所述循环神经网络包括LSTM网络。
本发明实施例所提供的声学模型的训练装置可执行本发明任意实施例所提供的声学模型的训练方法,具备执行方法相应的功能模块和有益效果。
实施例三
图5为本发明实施例三提供的一种计算机设备的结构示意图。如图5所示,该计算机设备包括处理器500、存储器501、通信模块502、输入装置503和输出装置504;计算机设备中处理器500的数量可以是一个或多个,图5中以一个处理器500为例;计算机设备中的处理器500、存储器501、通信模块502、输入装置503和输出装置504可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器501作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的声学模型的训练方法对应的模块(例如,如图4所示的声学模型的训练装置中的样本语音信号确定模块401、第一损失值计算模块402、第二损失值计算模块403、总损失值计算模块404、条件判断模块405、完成确定模块406和模型训练模块407)。处理器500通过运行存储在存储器501中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的声学模型的训练方法。
存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器501可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器501可进一步包括相对于处理器500远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块502,用于与显示屏建立连接,并实现与显示屏的数据交互。
输入装置503可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。
输出装置504可以包括扬声器等音频设备。
需要说明的是,输入装置503和输出装置504的具体组成可以根据实际情况设定。
处理器500通过运行存储在存储器501中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的电子白板的连接节点控制方法。
本实施例提供的计算机设备,可执行本发明任一实施例提供的声学模型的训练方法,具体相应的功能和有益效果。
实施例四
本发明实施例四还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种声学模型的训练方法,该声学模型包括编码器、注意力模型、解码器与CTC模型,该编码器包括第一卷积神经网络与循环神经网络,该方法包括:
确定本次训练的样本语音信号,所述样本语音信号用于表示样本文字;
计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值;
计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值;
结合所述第一损失值与所述第二损失值计算总损失值;
判断所述总损失值是否满足预设的条件;
若是,则确定完成训练所述声学模型;
若否,则在训练所述声学模型时,执行第一训练操作、第二训练操作,返回执行所述确定本次训练的样本语音信号,其中,所述第一训练操作用于对所述第一卷积神经网络进行训练,所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。
当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的声学模型的训练方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述声学模型的训练装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种声学模型的训练方法,其特征在于,所述声学模型包括编码器、注意力模型、解码器与CTC模型,所述编码器包括第一卷积神经网络与循环神经网络,所述方法包括:
确定本次训练的样本语音信号,所述样本语音信号用于表示样本文字;
计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值,所述第一损失值为所述第一卷积神经网络对所述样本语音信号进行编码造成的误差;
计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值,所述第二损失值为所述声学模型整体预测所述样本语音信号为样本文字的误差;
结合所述第一损失值与所述第二损失值计算总损失值;
判断所述总损失值是否满足预设的条件;
若是,则确定完成训练所述声学模型;
若否,则在训练所述声学模型时,执行第一训练操作、第二训练操作,返回执行所述确定本次训练的样本语音信号,其中,所述第一训练操作用于对所述第一卷积神经网络进行训练,所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值,包括:
确定所述第一卷积神经网络对所述样本语音信号进行编码获得的编码信号;
在预设的第二卷积神经网络中对所述编码信号进行解码,获得预估语音信号;
基于所述样本语音信号与所述预估语音信号计算第一损失值。
3.根据权利要求2所述的方法,其特征在于,所述第一卷积神经网络的结构与所述第二卷积神经网络的结构相反。
4.根据权利要求2所述的方法,其特征在于,所述基于所述样本语音信号与所述预估语音信号计算第一损失值,包括:
计算每帧所述样本语音信号与每帧所述预估语音信号之间的信号差值;
计算所述信号差值的平方;
计算所有平方的和值,作为第一损失值。
5.根据权利要求2所述的方法,其特征在于,所述执行第一训练操作、第二训练操作,包括:
依次对所述第一卷积神经网络与所述第二卷积神经网络进行第一反向传播。
6.根据权利要求1所述的方法,其特征在于,所述计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值,包括:
确定所述第一卷积神经网络对所述样本语音信号进行编码获得的编码信号;
在所述循环神经网络中,对所述编码信号进行编码,获得隐含特征信号;
在所述CTC模型中,将所述隐含特征信号映射为第一目标文字;
基于所述第一目标文字与所述样本文字计算第一子损失值;
在所述注意力模型中,将所述隐含特征信号进行加权处理,获得加权隐含特征信号;
在所述解码器中,对所述加权隐含特征信号进行解码,以映射为第二目标文字;
基于所述第二目标文字与所述样本文字计算第二子损失值;
结合所述第一子损失值与所述第二子损失值计算第二损失值。
7.根据权利要求6所述的方法,其特征在于,所述结合所述第一子损失值与所述第二子损失值计算第二损失值,包括:
确定预设的第一超参数;
在所述第一超参数与所述第一子损失值之间乘积的基础上,加上所述第二子损失值,获得第二损失值。
8.根据权利要求6所述的方法,其特征在于,所述执行第一训练操作、第二训练操作,包括:
对所述CTC模型进行第二反向传播;
依次对所述注意力模型、所述解码器进行第三反向传播;
在所述第二反向传播与所述第三反向传播之后,对所述循环神经网络进行第四反向传播。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述结合所述第一损失值与所述第二损失值计算总损失值,包括:
确定预设的第二超参数;
在所述第二超参数与所述第一损失值之间乘积的基础上,加上所述第二损失值,获得总损失值。
10.根据权利要求1-8任一项所述的方法,其特征在于,所述结合所述第一损失值与所述第二损失值计算总损失值,包括:
确定预设的第三超参数;
在所述第三超参数与所述第一损失值之间乘积的基础上,加上所述第二损失值,获得第三损失值;
基于所述声学模型中指定的模型参数的参数值生成惩罚值;
计算所述第三损失值与所述惩罚值之间的和值,作为总损失值。
11.根据权利要求10所述的方法,其特征在于,所述基于所述声学模型中指定的模型参数的参数值生成惩罚值,包括:
计算所述声学模型中指定的模型参数的参数值与预设的调整值之间的差值;
取所述差值的平方,作为惩罚值。
12.根据权利要求1-8任一项所述的方法,其特征在于,所述第一卷积神经网络包括VGG网络,所述循环神经网络包括LSTM网络。
13.一种声学模型的训练装置,其特征在于,所述声学模型包括编码器、注意力模型、解码器与CTC模型,所述编码器包括第一卷积神经网络与循环神经网络,所述装置包括:
样本语音信号确定模块,用于确定本次训练的样本语音信号,所述样本语音信号用于表示样本文字;
第一损失值计算模块,用于计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值,所述第一损失值为所述第一卷积神经网络对所述样本语音信号进行编码造成的误差;
第二损失值计算模块,用于计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值,所述第二损失值为所述声学模型整体预测所述样本语音信号为样本文字的误差;
总损失值计算模块,用于结合所述第一损失值与所述第二损失值计算总损失值;
条件判断模块,用于判断所述总损失值是否满足预设的条件;若是,则调用完成确定模块,若否,则调用模型训练模块;
完成确定模块,用于确定完成训练所述声学模型;
模型训练模块,用于在训练所述声学模型时,执行第一训练操作、第二训练操作,返回调用所述样本语音信号确定模块,其中,所述第一训练操作用于对所述第一卷积神经网络进行训练,所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。
14.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的声学模型的训练方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-12中任一所述的声学模型的训练方法。
CN201911400182.0A 2019-12-30 2019-12-30 一种声学模型的训练方法、装置、计算机设备和存储介质 Active CN111128137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911400182.0A CN111128137B (zh) 2019-12-30 2019-12-30 一种声学模型的训练方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911400182.0A CN111128137B (zh) 2019-12-30 2019-12-30 一种声学模型的训练方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111128137A CN111128137A (zh) 2020-05-08
CN111128137B true CN111128137B (zh) 2023-05-30

Family

ID=70505608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911400182.0A Active CN111128137B (zh) 2019-12-30 2019-12-30 一种声学模型的训练方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111128137B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768762B (zh) * 2020-06-05 2022-01-21 北京有竹居网络技术有限公司 语音识别方法、装置及电子设备
CN111813989B (zh) * 2020-07-02 2023-07-18 中国联合网络通信集团有限公司 信息处理方法、设备及存储介质
CN111681646A (zh) * 2020-07-17 2020-09-18 成都三零凯天通信实业有限公司 端到端架构的通用场景中文普通话语音识别方法
CN111916067A (zh) * 2020-07-27 2020-11-10 腾讯科技(深圳)有限公司 语音识别模型的训练方法、装置、电子设备及存储介质
CN111968622A (zh) * 2020-08-18 2020-11-20 广州市优普科技有限公司 一种基于注意力机制的语音识别方法、系统及装置
CN112037760B (zh) 2020-08-24 2022-01-07 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
CN112086087B (zh) * 2020-09-14 2024-03-12 广州市百果园信息技术有限公司 语音识别模型训练方法、语音识别方法及装置
CN112599128A (zh) * 2020-12-31 2021-04-02 百果园技术(新加坡)有限公司 一种语音识别方法、装置、设备和存储介质
CN112862096A (zh) * 2021-02-04 2021-05-28 百果园技术(新加坡)有限公司 一种模型训练和数据处理方法、装置、设备及介质
CN113096417A (zh) * 2021-04-06 2021-07-09 昭通亮风台信息科技有限公司 基于无人机的交通信号灯远程调控方法、系统及计算机可读存储介质
CN113037781A (zh) * 2021-04-29 2021-06-25 广东工业大学 基于rnn的语音信息加密方法及装置
CN113806540B (zh) * 2021-09-18 2023-08-08 平安银行股份有限公司 文本打标签方法、装置、电子设备及存储介质
CN113782029B (zh) * 2021-09-22 2023-10-27 广东电网有限责任公司 语音识别模型的训练方法、装置、设备以及存储介质
CN114596845A (zh) * 2022-04-13 2022-06-07 马上消费金融股份有限公司 语音识别模型的训练方法、语音识别方法及装置
CN115294973A (zh) * 2022-09-30 2022-11-04 云南师范大学 基于卷积神经网络和注意力机制的佤语孤立词汇识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
CN109215662B (zh) * 2018-09-18 2023-06-20 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN109359725B (zh) * 2018-10-24 2021-03-02 北京周同科技有限公司 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质
CN110264991B (zh) * 2019-05-20 2023-12-22 平安科技(深圳)有限公司 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111128137A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111128137B (zh) 一种声学模型的训练方法、装置、计算机设备和存储介质
US20230410796A1 (en) Encoder-decoder models for sequence to sequence mapping
US11373639B2 (en) System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
CN112435656B (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
CN108959388B (zh) 信息生成方法及装置
CN113362811B (zh) 语音识别模型的训练方法、语音识别方法和装置
CN111460800B (zh) 一种事件生成方法、装置、终端设备及存储介质
CN113539273B (zh) 一种语音识别方法、装置、计算机设备和存储介质
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
KR20200091797A (ko) 음성 인식 장치 및 방법
CN113470619A (zh) 语音识别方法、装置、介质及设备
US11532310B2 (en) System and method for recognizing user's speech
CN115376495A (zh) 语音识别模型训练方法、语音识别方法及装置
CN113327599A (zh) 语音识别方法、装置、介质及电子设备
CN116129902A (zh) 一种基于跨模态对齐的语音翻译方法及系统
WO2022227297A1 (zh) 一种信息分类方法及装置、信息分类模型训练方法及装置
CN113763973A (zh) 音频信号增强方法、装置、计算机设备和存储介质
CN111797220A (zh) 对话生成方法、装置、计算机设备和存储介质
US11941508B2 (en) Dialog system with adaptive recurrent hopping and dual context encoding
US20220262377A1 (en) Electronic device and control method thereof
KR102613030B1 (ko) 적대적 학습 기법을 이용한 음성 합성 방법 및 장치
CN112466282B (zh) 一种面向航天专业领域的语音识别系统和方法
CN115294974A (zh) 一种语音识别方法、装置、设备和存储介质
CN116074574A (zh) 一种视频处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231016

Address after: 31a, 15 / F, building 30, maple mall, bangrang Road, Brazil, Singapore

Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd.

Address before: 511400 floor 5-13, West Tower, building C, 274 Xingtai Road, Shiqiao street, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU BAIGUOYUAN INFORMATION TECHNOLOGY Co.,Ltd.