CN110930996B - 模型训练方法、语音识别方法、装置、存储介质及设备 - Google Patents
模型训练方法、语音识别方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN110930996B CN110930996B CN201911267662.4A CN201911267662A CN110930996B CN 110930996 B CN110930996 B CN 110930996B CN 201911267662 A CN201911267662 A CN 201911267662A CN 110930996 B CN110930996 B CN 110930996B
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- loss
- loss functions
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000006870 function Effects 0.000 claims abstract description 238
- 238000003062 neural network model Methods 0.000 claims abstract description 134
- 238000005070 sampling Methods 0.000 claims abstract description 58
- 230000008859 change Effects 0.000 claims abstract description 54
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 12
- 239000002609 medium Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000000644 propagated effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了模型训练方法、语音识别方法、装置、存储介质及设备。模型训练方法包括:将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到当前采样时刻对应的至少两个第一损失函数,分别确定至少两个第一损失函数相对于上一个采样时刻的变化程度信息,根据变化程度信息确定至少两个第一损失函数分别对应的权重,并基于第一损失函数与权重计算拟合损失函数,利用拟合损失函数对第一声学神经网络模型进行反向传播。本发明实施例提供的技术方案,可以动态地调节各损失函数对应的权重,使得训练后得到的模型更加准确,在进行语音识别时,能够更加准确地识别出语音信息中包含的语音内容,且能够提升语音内容的识别率。
Description
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及声学神经网络模型的训练方法、语音识别方法、装置、存储介质及设备。
背景技术
随着人工智能技术的快速发展,人工神经网络得到了广泛的应用。人工神经网络又称神经网络,是一种模拟大脑神经突触联接的结构进行信息处理的模型。在语音识别领域,利用神经网络技术可以构建用于语音识别的声学神经网络模型,相比于传统的混合高斯模型以及隐马尔科夫模型等,具有很多优势。目前,声学神经网络模型的训练方案仍不够完善,需要改进。
发明内容
本发明实施例提供了声学神经网络模型的训练方法、语音识别方法、装置、存储介质及设备,可以优化现有的声学神经网络模型的训练方案。
第一方面,本发明实施例提供了一种声学神经网络模型的训练方法,该方法包括:
将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到所述当前采样时刻对应的至少两个第一损失函数;
分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息;
根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,并基于所述至少两个第一损失函数与对应的权重计算拟合损失函数;
利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对所述第一声学神经网络模型的训练。
第二方面,本发明实施例提供了一种语音识别方法,该方法包括:
获取待识别的语音信息;
将所述语音信息输入至预设声学神经网络模型中,其中,所述预设声学神经网络模型采用本发明实施例提供的声学神经网络模型的训练方法训练得到;
根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。
第三方面,本发明实施例提供了一种声学神经网络模型的训练装置,该装置包括:
训练样本输入模块,用于将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到所述当前采样时刻对应的至少两个第一损失函数;
变化程度确定模块,用于分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息;
拟合损失函数计算模块,用于根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,并基于所述至少两个第一损失函数与对应的权重计算拟合损失函数;
模型训练模块,用于利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对所述第一声学神经网络模型的训练。
第四方面,本发明实施例提供了一种语音识别装置,该装置包括:
语音信息获取模块,用于获取待识别的语音信息;
语音信息输入模块,用于将所述语音信息输入至预设声学神经网络模型中,其中,所述预设声学神经网络模型采用本发明实施例提供的声学神经网络模型的训练方法训练得到;
语音内容识别模块,用于根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。
第五方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的方法。
第六方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的方法。
本发明实施例中提供的声学神经网络模型的训练方案,将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到当前采样时刻对应的至少两个第一损失函数,分别确定至少两个第一损失函数相对于上一个采样时刻的变化程度信息,根据变化程度信息确定至少两个第一损失函数分别对应的权重,并基于至少两个第一损失函数和对应的权重计算拟合损失函数,利用拟合损失函数对第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对第一声学神经网络模型的训练。通过采用上述技术方案,在对声学神经网络模型进行反向传播之前,可以动态地调节各损失函数对应的权重,使得训练后得到的模型更加准确,在采用所得到的模型进行语音识别时,能够更加准确地识别出语音信息中包含的语音内容,且能够提升语音内容的识别率。
附图说明
图1为本发明实施例提供的一种声学神经网络模型的训练方法的流程示意图;
图2为本发明实施例提供的一种声学神经网络模型的结构示意图;
图3为本发明实施例提供的又一种声学神经网络模型的训练方法的流程示意图;
图4为本发明实施例提供的一种语音识别方法的流程示意图;
图5为本发明实施例提供的一种声学神经网络模型的训练装置的结构框图;
图6为本发明实施例提供的一种语音识别装置的结构框图;
图7为本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1为本发明实施例提供的一种声学神经网络模型的训练方法的流程示意图,该方法可以由声学神经网络模型的训练装置执行,其中该装置可由软件和/或硬件实现,一般可集成在计算机设备中。如图1所示,该方法包括:
步骤101、将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到所述当前采样时刻对应的至少两个第一损失函数。
示例性的,声学神经网络模型一般为端到端的多任务深度神经网络模型,在模型训练的过程中,涉及到多个损失函数。
以较为常见的基于编码-注意力-解码结构(encoder-attention-decoder)构建的声学神经网络模型为例,一般包含连接时序分类(Connectionist TemporalClassification,CTC)损失函数(CTC-Loss)和注意力(attention,ATT)损失函数(ATT-Loss)。其中,CTC-Loss是encoder-attention-decoder结构中,encoder输出的预测数据与标注数据用Connectionist Temporal Classification比对得出的损失函数;ATT-Loss是encoder-attention-decoder结构中,decoder输出的预测数据与标注数据比对得出的损失函数。
下面以基于编码-注意力-解码结构构建的声学神经网络模型为例,对损失函数的计算过程进行示意性介绍,需要说明的是,本发明实施例也可以采用其他类型的声学神经网络模型。图2为本发明实施例提供的一种声学神经网络模型的结构示意图,如图2所示,其中On(图中此处举例的n的取值分别为1到8)为输入的语音信号,Encoder(编码)中的方块表征Encoder的深度神经网络,之后输出的为隐含特征hn(图中此处举例的n的取值分别为1到4),这个隐含特征可以作为CTC算法的输入,进行计算CTC损失函数和识别出来的文字yn(图中此处举例的n的取值分别为1到2)。隐含特征也可以作为Attention-decoder(注意力-解码)的输入,首先根据所有的隐含层输出hn通过attention神经网络(如图中H方框所示)计算出一个注意力权重(attention weight)am,n,具体可利用如下公式计算:
am,n=attention(h1-n,sm-1)
其中sm-1为attention-decoder中的一个状态量。
然后根据这个attention weight更新各个隐含特征hn到加权隐含特征cn(图中此处举例的n的取值分别为1到4),记为加权隐含特征结合decoder中的状态量sn(图中此处举例的n的取值分别为0到3)计算出需要的文字yn同时更新状态量sn:
yn=Generate(cn,sn-1)
sn=Recurrency(sn-1,cn,yn)
公式中的Generate和Recurrency都是attention-decoder神经网络的一部分。其中,Generate为产生文字的后验概率的函数,Recurrency为状态量更新函数。这个状态量sn-1也会去更新注意力权重am,n,如上文所示。最后decoder计算出来的文字yn也用来计算ATT损失函数。
根据这个计算结构的传输特点可以得到,一般具有两个损失函数:ATT损失函数(可记为lossatt)和CTC损失函数(可记为lossctc),在对声学神经网络模型进行反向传播时,需要使用一个损失函数,那么就需要对这两个损失函数进行拟合,然后基于拟合后的函数进行反向传播。相关技术中,使用设定好的参数进行静态加和,例如采用如下公式进行:
loss=ωlossatt+(1-ω)lossctc
其中,ω为一个范围在0到1之间的固定权重参数,调节这个权重,代表着损失函数不同的占比,这个参数需要在模型训练之前指定,这样需要花费大量的时间去调节这个参数达到最优效果,导致模型训练效率低下,并且,在整个训练模型的过程中,损失函数的加和权重不变,不够灵活,模型准确率低。
本发明实施例中,可以针对每个采样时刻动态地计算对应的拟合损失函数。在模型训练过程中,可以边采样边训练,也可以在采样结束后再进行训练,本发明实施例中的当前采样时刻对应于第一语音训练样本的采集时刻,并不限定于当前的时刻。第一声学神经网络模型可以理解为训练过程中的中间模型,可以由预设的初始声学神经网络模型训练得到,初始声学神经网络模型可以根据实际需求进行设置。第一语音训练样本的具体来源不做限定,例如可以来源于视频直播应用程序。
在将第一语音训练样本输入至第一声学神经网络模型中后,第一声学神经网络模型会计算得到至少两个损失函数,此处称为第一损失函数,与当前采样时刻相对应。以编码-注意力-解码结构为例,假设当前采样时刻为t,则可以得到至少两个第一损失函数为t时刻对应的CTC损失函数和注意力ATT损失函数,可分别记为losst,ctc和losst,att。
步骤102、分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息。
示例性的,上一个采样时刻对应的损失函数可记为第二损失函数,每个第一损失函数都存在一个对应的第二损失函数。变化程度信息可以包括减少量、下降率以及下降比例等等。一般情况下,上一个采样时刻对应的第二损失函数会小于第一损失函数。假设损失函数A,在当前采样时刻对应的第一损失函数记为A1,在上一个采样时刻对应的第二损失函数记为A2。减少量可以是第二损失函数与第一损失函数的差,可记为A2-A1;下降率可以是第一损失函数与第二损失函数的商,可记为A1/A2;下降比例可以是减少量与第二损失函数的商,可记为(A2-A1)/A2。仍以编码-注意力-解码结构为例,假设上一个采样时刻为t-1,t-1时刻对应的损失函数为第二损失函数,则至少两个第二损失函数可分别记为losst-1,ctc和losst-1,att。减少量可分别表示为losst-1,ctc-losst,ctc,以及losst-1,att-losst,att;下降率可分别表示为以及/>下降比例可分别表示为/>以及
步骤103、根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,并基于所述至少两个第一损失函数和对应的权重计算拟合损失函数。
示例性的,可预先设置变化程度信息与权重的对应关系,该对应关系可以是函数关系,也可以是一对一的映射关系,还可以是其他形式的对应关系,可根据具体情况设置,本发明实施例不做限定。对于一个损失函数来说,可以根据自身对应的变化程度信息单独确定自身对应的权重,也可以根据自身对应的变化程度信息以及其他损失函数对应的变化程度信息综合确定自身对应的权重。
在得到至少两个第一损失函数分别对应的权重后,可以基于至少两个第一损失函数和对应的权重计算拟合损失函数。具体的计算方式不做限定,例如可以根据所述至少两个第一损失函数对应的权重对所述至少两个第一损失函数进行加权求和,得到拟合损失函数。
步骤104、利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对所述第一声学神经网络模型的训练。
在神经网络模型的训练过程中,反向传播方法可以使网络权值(又称滤波器)不断更新调整,直至网络的输出与目标趋于一致,是一种有效计算梯度的方法。本发明实施例中,在动态地确定了当前采样时刻对应的拟合损失函数后,利用该拟合损失函数对第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,完成该阶段的网络权值调整过程。本发明实施例对具体的反向传播过程不做限定,可根据具体情况进行设置。
本发明实施例中提供的声学神经网络模型的训练方法,将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到当前采样时刻对应的至少两个第一损失函数,分别确定至少两个第一损失函数相对于上一个采样时刻的变化程度信息,根据变化程度信息确定至少两个第一损失函数分别对应的权重,并基于至少两个第一损失函数和对应的权重计算拟合损失函数,利用拟合损失函数对第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对第一声学神经网络模型的训练。通过采用上述技术方案,在对声学神经网络模型进行反向传播之前,可以动态地调节各损失函数对应的权重,使得训练后得到的模型更加准确,在采用所得到的模型进行语音识别时,能够更加准确地识别出语音信息中包含的语音内容,且能够提升语音内容的识别率。
在一些实施例中,可先构建初始声学神经网络模型,对于第一个采样时刻,将对应的初始语音训练样本输入至初始声学神经网络模型中,得到第一个采样时刻对应的至少两个初始损失函数,可基于设定权重来计算至少两个初始损失函数对应的拟合损失函数。设定权重例如可以是初始损失函数总数的倒数,例如,初始损失函数总数为2,则各初始损失函数对应的权重都为0.5。利用第一个采样时刻对应的拟合损失函数对初始声学神经网络模型进行反向传播,得到第二个采样时刻对应的第一声学神经网络模型,以实现对初始声学神经网络模型的训练。
示例性的,在上述实施例基础上,得到第二声学神经网络模型之后,可将下一个采样时刻作为新的当前采样时刻,将上述得到的第二声学神经网络模型作为新的第一声学神经网络模型,重新基于本发明实施例提供的声学神经网络模型的训练方法进行训练,直到得到满足预设条件的声学神经网络模型。其中,预设条件可以根据实际情况进行设置。
在一个实施例中,所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,包括:根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,以使得对于所述至少两个第一损失函数中的任意两个第一损失函数来说,变化程度较大的第一损失函数对应的第一权重小于变化程度较小的第一损失函数对应的第二权重。这样设置的好处在于,对于变化程度较大的损失函数,可以适当减小对应的权重,从而减小其在拟合损失函数中所占的比重,对于变化程度较小的损失函数,可以适当增大对应的权重,从而增大其在拟合损失函数中所占的比重,合理地确定拟合损失函数。
在一个实施例中,所述至少两个第一损失函数分别对应的权重的和为1。这样设置的好处在于,可以更加合理地确定拟合损失函数。
在一个实施例中,所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,包括:采用预设分类函数对至少两个变化程度信息进行多分类处理,得到所述至少两个第一损失函数分别对应的权重。这样设置的好处在于,可以快速准确地得出至少两个第一损失函数分别对应的权重。将至少两个变化程度信息作为一个分类问题,打包送入预设分类函数中进行分类化,进而得到至少两个第一损失函数分别对应的权重。可选的,在一个实施例中,所述预设分类函数为归一化指数函数,又称Softmax函数。该函数是逻辑函数的一种推广,它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。因此,利用softmax函数,可以快速得到至少两个第一损失函数分别对应的权重。
在一个实施例中,所述第一声学神经网络模型基于编码-注意力-解码结构构建。这样设置的好处在于,可以更加合理地构建并训练得到用于语音内容识别的神经网络模型。可选的,所述至少两个第一损失函数包括CTC损失函数和ATT损失函数。
在一个实施例中,所述变化程度信息包括:第一损失函数与上一个采样时刻对应的第二损失函数的比值。这样设置的好处在于,可以快速准确地计算得到变化程度信息,并便于对应的权重的计算。
图3为本发明实施例提供的又一种声学神经网络模型的训练方法的流程示意图,如图3所示,该方法包括:
步骤301、将当前采样时刻对应的第一语音训练样本输入至基于编码-注意力-解码结构构建的第一声学神经网络模型中,得到当前采样时刻对应的第一CTC损失函数和第一ATT损失函数。
示例性的,假设当前采样时刻为t时刻,第一CTC损失函数可记为losst,ctc,第一ATT损失函数可记为losst,att。
步骤302、计算第一CTC损失函数相对于上一个采样时刻的第二CTC损失函数的第一下降率,计算第一ATT损失函数相对于上一个采样时刻的第二ATT损失函数的第二下降率。
示例性的,第二CTC损失函数可记为losst-1,ctc,第二ATT损失函数可记为losst-1,att。下降率可记为α,那么第一下降率为第二下降率为
步骤303、将第一下降率和第二下降率输入至归一化指数函数中,得到第一CTC损失函数对应的第一权重,以及第一ATT损失函数对应的第二权重。
示例性的,同时将第一下降率和第二下降率作为一个分类问题,打包送入sofxmax函数进行分类化,ωi=softmax(αi)可以得到新的权重ωi,其中,i表示ctc和att,也即,得到第一权重ωctc和第二权重ωatt,第一权重和第二权重的值范围均在0-1之间,且总和为1,即ωctc+ωatt=1。
步骤304、根据第一权重和第二权重对第一CTC损失函数和第一ATT损失函数进行加权求和,得到当前采样时刻对应的拟合损失函数。
示例性的,拟合损失函数可以表示如下:
loss=ωctclossctc+ωattlossatt
步骤305、利用拟合损失函数对第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对第一声学神经网络模型的训练。
本发明实施例提供的声学神经网络模型的训练方法,将当前采样时刻对应的第一语音训练样本输入至基于编码-注意力-解码结构构建的第一声学神经网络模型中,得到当前采样时刻对应的第一CTC损失函数和第一ATT损失函数,分别计算相对于上一个采样时刻的下降率,再将下降率输入至sofxmax函数中,得到第一权重和第二权重,然后计算拟合损失函数,最后利用拟合损失函数对第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对第一声学神经网络模型的训练。通过采用上述技术方案,可以动态地调节各损失函数对应的权重,省去模型训练前对权重进行调优的时间,提高训练效率,且能够使得训练后得到的模型更加准确。在同样的训练时间、样本数据集以及模型的情况下,模型精度相比于现有方案可提高约0.2%。将利用本发明提供的声学神经网络模型训练方法得到的模型部署到在线直播等应用程序中时,可以得到更高的识别率,一些之前不能识别的语音或者识别错误的语音,也可以识别出来。例如,经过发明人的试验,对于“推开门走出去”这句话,现有方案的识别结果为“推开门走去”,未识别出“出”字,而采用本发明实施例提供的方案,能够完整地识别出“推开门走出去”这句话。
图4为本发明实施例提供的一种语音识别方法的流程示意图,该方法可以由语音识别装置执行,其中该装置可由软件和/或硬件实现,一般可集成在计算机设备中。如图4所示,该方法包括:
步骤401、获取待识别的语音信息。
示例性的,待识别的语音信息可以与本发明实施例中的语音训练样本的形式一致。示例性的,待识别的语音信息来源于视频直播应用程序。
步骤402、将所述语音信息输入至预设声学神经网络模型中。
其中,所述预设声学神经网络模型采用本发明实施例提供的任意一种声学神经网络模型的训练方法训练得到。
步骤403、根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。
示例性的,可以将语音信息中包含的语音内容转换成对应的文字,针对文字进行识别。
本发明实施例提供的语音识别方法,由于采用了本发明实施例提供的声学神经网络模型的训练方法得到神经网络模型,再基于该模型进行语音识别,能够准确地识别出待识别的语音信息中包含的语音内容。
可选的,所述语音信息来源于视频直播应用程序;在所述根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别之后,还包括:基于所识别出来的语音内容对所述语音信息进行监管。这样设置的好处在于,可以更加准确地识别出视频直播应用程序中待播放或已播放的语音信息中的语音内容,对语音信息进行更加及时有效的监督和管理,维护视频直播应用程序中的健康环境。
图5为本发明实施例提供的一种声学神经网络模型的训练装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过执行声学神经网络模型的训练方法来进行模型训练。如图5所示,该装置包括:
训练样本输入模块501,用于将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到所述当前采样时刻对应的至少两个第一损失函数;
变化程度确定模块502,用于分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息;
拟合损失函数计算模块503,用于根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,并基于所述至少两个第一损失函数与对应的权重计算拟合损失函数;
模型训练模块504,用于利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对所述第一声学神经网络模型的训练。
本发明实施例中提供的声学神经网络模型的训练装置,将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到当前采样时刻对应的至少两个第一损失函数,分别确定至少两个第一损失函数相对于上一个采样时刻的变化程度信息,根据变化程度信息确定至少两个第一损失函数分别对应的权重,并基于至少两个第一损失函数和对应的权重计算拟合损失函数,利用拟合损失函数对第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对第一声学神经网络模型的训练。通过采用上述技术方案,在对声学神经网络模型进行反向传播之前,可以动态地调节各损失函数对应的权重,使得训练后得到的模型更加准确,在采用所得到的模型进行语音识别时,能够更加准确地识别出语音信息中包含的语音内容,且能够提升语音内容的识别率。
可选的,所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,包括:
根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,以使得对于所述至少两个第一损失函数中的任意两个第一损失函数来说,变化程度较大的第一损失函数对应的第一权重小于变化程度较小的第一损失函数对应的第二权重。
可选的,所述至少两个第一损失函数分别对应的权重的和为1。
可选的,所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,包括:
采用预设分类函数对至少两个变化程度信息进行多分类处理,得到所述至少两个第一损失函数分别对应的权重。
可选的,所述预设分类函数为归一化指数函数。
可选的,所述第一声学神经网络模型基于编码-注意力-解码结构构建。
可选的,所述至少两个第一损失函数包括连接时序分类CTC损失函数和注意力ATT损失函数。
可选的,所述变化程度信息包括:第一损失函数与上一个采样时刻对应的第二损失函数的比值。
可选的,所述基于所述至少两个第一损失函数与对应的权重计算拟合损失函数,包括:
根据所述至少两个第一损失函数对应的权重对所述至少两个第一损失函数进行加权求和,得到拟合损失函数。
图6为本发明实施例提供的一种语音识别装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过执行语音识别方法来进行语音识别。如图6所示,该装置包括:
语音信息获取模块601,用于获取待识别的语音信息;
语音信息输入模块602,用于将所述语音信息输入至预设声学神经网络模型中,其中,所述预设声学神经网络模型采用本发明实施例提供的声学神经网络模型的训练方法训练得到;
语音内容识别模块603,用于根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。
本发明实施例提供的语音识别装置,由于采用了本发明实施例提供的声学神经网络模型的训练方法得到神经网络模型,再基于该模型进行语音识别,能够准确地识别出待识别的语音信息中包含的语音内容。
可选的,所述语音信息来源于视频直播应用程序。该装置还可包括:监管模块,用于在所述根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别之后,基于所识别出来的语音内容对所述语音信息进行监管。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的声学神经网络模型的训练方法和/或语音识别方法。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
本发明实施例提供了一种计算机设备,该计算机设备中可集成本发明实施例提供的声学神经网络模型的训练装置和/或语音识别装置。图7为本发明实施例提供的一种计算机设备的结构框图。计算机设备700包括存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序,所述处理器702执行所述计算机程序时实现本发明实施例提供的声学神经网络模型的训练方法和/或语音识别方法。
上述实施例中提供的声学神经网络模型的训练装置、语音识别装置、存储介质以及计算机设备可执行本发明相应实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明相应实施例所提供的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (14)
1.一种声学神经网络模型的训练方法,其特征在于,包括:
将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到所述当前采样时刻对应的至少两个第一损失函数;
分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息;
根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,并基于所述至少两个第一损失函数与对应的权重计算拟合损失函数;
利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对所述第一声学神经网络模型的训练;
所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,包括:
根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,以使得对于所述至少两个第一损失函数中的任意两个第一损失函数来说,变化程度较大的第一损失函数对应的第一权重小于变化程度较小的第一损失函数对应的第二权重。
2.根据权利要求1所述的方法,其特征在于,所述至少两个第一损失函数分别对应的权重的和为1。
3.根据权利要求2所述的方法,其特征在于,所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,包括:
采用预设分类函数对至少两个变化程度信息进行多分类处理,得到所述至少两个第一损失函数分别对应的权重。
4.根据权利要求3所述的方法,其特征在于,所述预设分类函数为归一化指数函数。
5.根据权利要求1所述的方法,其特征在于,所述第一声学神经网络模型基于编码-注意力-解码结构构建。
6.根据权利要求5所述的方法,其特征在于,所述至少两个第一损失函数包括连接时序分类CTC损失函数和注意力ATT损失函数。
7.根据权利要求1所述的方法,其特征在于,所述变化程度信息包括:第一损失函数与上一个采样时刻对应的第二损失函数的比值。
8.根据权利要求1所述的方法,其特征在于,所述基于所述至少两个第一损失函数与对应的权重计算拟合损失函数,包括:
根据所述至少两个第一损失函数对应的权重对所述至少两个第一损失函数进行加权求和,得到拟合损失函数。
9.一种语音识别方法,其特征在于,包括:
获取待识别的语音信息;
将所述语音信息输入至预设声学神经网络模型中,其中,所述预设声学神经网络模型采用如权利要求1-8任一所述的方法训练得到;
根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。
10.根据权利要求9所述的方法,其特征在于,所述语音信息来源于视频直播应用程序;在所述根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别之后,还包括:
基于所识别出来的语音内容对所述语音信息进行监管。
11.一种声学神经网络模型的训练装置,其特征在于,包括:
训练样本输入模块,用于将当前采样时刻对应的第一语音训练样本输入至第一声学神经网络模型中,得到所述当前采样时刻对应的至少两个第一损失函数;
变化程度确定模块,用于分别确定所述至少两个第一损失函数相对于上一个采样时刻的变化程度信息;
拟合损失函数计算模块,用于根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,并基于所述至少两个第一损失函数与对应的权重计算拟合损失函数;
模型训练模块,用于利用所述拟合损失函数对所述第一声学神经网络模型进行反向传播,得到第二声学神经网络模型,以实现对所述第一声学神经网络模型的训练;
所述根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,包括:
根据所述变化程度信息确定所述至少两个第一损失函数分别对应的权重,以使得对于所述至少两个第一损失函数中的任意两个第一损失函数来说,变化程度较大的第一损失函数对应的第一权重小于变化程度较小的第一损失函数对应的第二权重。
12.一种语音识别装置,其特征在于,包括:
语音信息获取模块,用于获取待识别的语音信息;
语音信息输入模块,用于将所述语音信息输入至预设声学神经网络模型中,其中,所述预设声学神经网络模型采用如权利要求1-8任一所述的方法训练得到;
语音内容识别模块,用于根据所述预设声学神经网络模型的输出结果对所述语音信息中的语音内容进行识别。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的方法。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911267662.4A CN110930996B (zh) | 2019-12-11 | 2019-12-11 | 模型训练方法、语音识别方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911267662.4A CN110930996B (zh) | 2019-12-11 | 2019-12-11 | 模型训练方法、语音识别方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110930996A CN110930996A (zh) | 2020-03-27 |
CN110930996B true CN110930996B (zh) | 2023-10-31 |
Family
ID=69860053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911267662.4A Active CN110930996B (zh) | 2019-12-11 | 2019-12-11 | 模型训练方法、语音识别方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110930996B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183674B (zh) * | 2020-11-06 | 2022-06-10 | 南昌航空大学 | 一种粪便宏观图像颜色和性状多任务识别方法及系统 |
CN112820313B (zh) * | 2020-12-31 | 2022-11-01 | 北京声智科技有限公司 | 模型训练方法、语音分离方法、装置及电子设备 |
CN112949774A (zh) * | 2021-04-13 | 2021-06-11 | Oppo广东移动通信有限公司 | 神经网络模型的训练方法、装置、计算机设备及存储介质 |
CN114596845A (zh) * | 2022-04-13 | 2022-06-07 | 马上消费金融股份有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN117494713B (zh) * | 2023-12-29 | 2024-03-01 | 苏州元脑智能科技有限公司 | 一种字符识别方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364634A (zh) * | 2018-03-05 | 2018-08-03 | 苏州声通信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
CN109841220A (zh) * | 2017-11-24 | 2019-06-04 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017210256A1 (en) * | 2016-06-01 | 2017-12-07 | Massachusetts Institute Of Technology | Low-power automatic speech recognition device |
-
2019
- 2019-12-11 CN CN201911267662.4A patent/CN110930996B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109841220A (zh) * | 2017-11-24 | 2019-06-04 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN110444214A (zh) * | 2017-11-24 | 2019-11-12 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN108364634A (zh) * | 2018-03-05 | 2018-08-03 | 苏州声通信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110930996A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110930996B (zh) | 模型训练方法、语音识别方法、装置、存储介质及设备 | |
CN110503192B (zh) | 资源有效的神经架构 | |
Zazo et al. | Age estimation in short speech utterances based on LSTM recurrent neural networks | |
CN110633745B (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
WO2022148272A1 (zh) | 脉冲神经网络训练方法、数据处理方法、电子设备和介质 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
WO2019146189A1 (ja) | ニューラルネットワークのランク最適化装置および最適化方法 | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
Ku et al. | A study of the Lamarckian evolution of recurrent neural networks | |
CN115511069A (zh) | 神经网络的训练方法、数据处理方法、设备及存储介质 | |
CN111967271A (zh) | 分析结果的生成方法、装置、设备及可读存储介质 | |
JP2016218513A (ja) | ニューラルネットワーク及びそのためのコンピュータプログラム | |
Lee et al. | NAS-TasNet: neural architecture search for time-domain speech separation | |
CN107798384B (zh) | 一种基于可进化脉冲神经网络的鸢尾花卉分类方法和装置 | |
CN113011532A (zh) | 分类模型训练方法、装置、计算设备及存储介质 | |
CN111090740B (zh) | 一种用于对话系统的知识图谱生成方法 | |
Zhou et al. | A dendritic neuron model for exchange rate prediction | |
CN114155388B (zh) | 一种图像识别方法、装置、计算机设备和存储介质 | |
CN113535911B (zh) | 奖励模型处理方法、电子设备、介质和计算机程序产品 | |
US20070223821A1 (en) | Pattern recognition method | |
KR20240034804A (ko) | 자동 회귀 언어 모델 신경망을 사용하여 출력 시퀀스 평가 | |
CN115273814A (zh) | 伪语音检测方法、装置、计算机设备和存储介质 | |
CN113345464A (zh) | 语音提取方法、系统、设备及存储介质 | |
TWI763975B (zh) | 降低類神經網路之運算複雜度的系統與方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |