CN110070855B - 一种基于迁移神经网络声学模型的语音识别系统及方法 - Google Patents
一种基于迁移神经网络声学模型的语音识别系统及方法 Download PDFInfo
- Publication number
- CN110070855B CN110070855B CN201810077556.9A CN201810077556A CN110070855B CN 110070855 B CN110070855 B CN 110070855B CN 201810077556 A CN201810077556 A CN 201810077556A CN 110070855 B CN110070855 B CN 110070855B
- Authority
- CN
- China
- Prior art keywords
- neural network
- acoustic model
- model
- robust
- directional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 224
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 65
- 230000005012 migration Effects 0.000 claims abstract description 47
- 238000013508 migration Methods 0.000 claims abstract description 47
- 238000003062 neural network model Methods 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000001617 migratory effect Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 3
- 239000011229 interlayer Substances 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 30
- 230000006872 improvement Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法,该系统包括:信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型;其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络;本系统通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。
Description
技术领域
本发明涉及语音识别领域,特别涉及一种基于迁移神经网络声学模型的语音识别系统及方法。
背景技术
目前自动语音识别技术已经非常成熟了,在有些语音识别机构的技术研究下,自动语音识别系统的识别精度已经可以达到94.5%,可以说已经可以达到人类的听觉感知能力了。但是这种性能优良的自动语音识别系统仅局限于几个使用广泛的语言,比如英语、法语等。世界上有超过五千种语言被世界各地的人们使用,然而在这五千种语言中只有十种语言被广泛的使用,它们分别是:汉语、英语、俄语、西班牙语、印度语、阿拉伯语、葡萄牙语、孟加拉语、德语和日语。其他的语言,由于使用人数较少,所以很难收集他们的语音数据,相应的语音数据标注工作也相当难实施,因此相应的语音识别任务不得不面对数据稀疏的问题。
自动语音识别任务通常受制于有限的语音数据的规模,因此使用跨语言数据来提高特定的语言的语音识别性能一直是近年来的热门研究领域。由于发音的相似性,不同的语言可能会有相同的声学特性,因此低资源的语言可以共享资源充分的数据集的数据特征或者模型参数。我们可以使用一个鲁棒的声学模型来初始化一个低资源语言的声学模型,来提升目标语言的声学模型性能以及收敛速度。
传统的知识迁移的方式是预训练加再优化的方法,这种方法直接在源语言鲁棒声学模型上用目标语言的输出层替换源语言的输出层,在此基础上用目标语言的数据对模型进行再优化操作。但是这种优化方式由于不可恢复地改变了原鲁棒声学模型的模型参数,所以对于原鲁棒声学模型的应用存在一定的性能损失。
因此,如何在不改变原鲁棒声学模型参数的情况下,对目标语言声学模型能很好的优化,是同行业人员亟待解决的问题。
发明内容
本发明的目的在于,克服现有技术中用目标语言的数据对模型进行再优化,不可恢复改变了原鲁棒声学模型的模型参数,且对原鲁棒声学模型的应用存在一定性能损失的问题,提出一种基于迁移神经网络声学模型的语音识别系统及方法。
为了解决上述技术问题,第一方面,本发明实施例提供一种基于迁移神经网络声学模型的语音识别系统,包括:
信号处理及特征提取模块,用于对待识别的音频信号进行增强,将所述待识别的音频信号从时域转化到频域,并提取声学特征;
声学模型,用于以提取的声学特征为输入,生成声学模型得分;所述声学模型为迁移神经网络声学模型,包括:前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型;所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型,使用大量源语言数据进行训练;
语言模型,用于估计通过重训练语料学习词之间的相互概率,输出语言模型得分;
解码器,用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分,将总体输出分数较高的词序列作为识别结果。
作为上述系统的一种改进,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
生成迁移神经网络声学模型。
作为上述系统的再一种改进,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:
将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;
将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:
作为上述系统的还一种改进,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0。L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
第二方面,本发明还提供一种基于迁移神经网络声学模型的语音识别方法,包括:
构建目标语言语言模型;
将待识别的目标语言数据输入迁移神经网络声学模型,输出语音特征的后验概率;
根据所述语言特征的后验概率,用于解码,并联合所述目标语言语言模型,得到识别出的语音。
作为上述方法的一种改进,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
生成迁移神经网络声学模型。
作为上述方法的再一种改进,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:
将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;
将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:
作为上述方法的还一种改进,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0。L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
本发明的优点在于,本发明的一种基于迁移神经网络声学模型的语音识别系统及方法,该系统的迁移神经网络声学模型,通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。克服现有技术中用目标语言的数据对模型进行再优化,不可恢复改变了原鲁棒声学模型的模型参数,且对原鲁棒声学模型的应用存在一定性能损失的问题。还解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例提供的基于迁移神经网络声学模型的语音识别系统的结构图;
图2为本发明实施例提供的迁移神经网络声学模型生成步骤流程图;
图3为本发明实施例提供的步骤S204的流程图;
图4为本发明实施例提供的迁移声学模型的示意图;
图5为本发明实施例提供的基于迁移神经网络声学模型的语音识别方法的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种基于迁移神经网络声学模型的语音识别系统,上述迁移神经网络是指,基于鲁棒神经网络声学模型做模型参数迁移,将其鲁棒模型参数和模型结构迁移到一个新任务对应的神经网络上,参照图1所示,包括:
信号处理及特征提取模块、发音词典、语言模型和解码器,还包括:声学模型;
其中:
信号处理及特征提取模块,用于对待识别的音频信号进行增强,将上述待识别的音频信号从时域转化到频域,并提取声学特征;
声学模型,用于以提取的声学特征为输入,生成声学模型得分;上述声学模型为迁移神经网络声学模型,包括:前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型;所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型,使用大量源语言数据进行训练;使得鲁棒声学模型的达到较优的性能;上述鲁棒神经网络声学模型和定向神经网络声学模型进行融合,一起作为目标语言神经网络声学模型,用于目标语言识别系统的构建。
语言模型,用于估计通过重训练语料学习词之间的相互概率,输出语言模型得分;
解码器,用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分,将总体输出分数较高的词序列作为识别结果。
发音词典,根据特定的语言,将该语言的词汇列表映射为相应音素以及音调组成的发音,用于辅助声学模型建模。
本发明的一种基于迁移神经网络声学模型的语音识别系统,该系统的迁移神经网络声学模型,包括鲁棒神经网络和定向神经网络两部分,通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。克服现有技术中用目标语言的数据对模型进行再优化,不可恢复改变了原鲁棒声学模型的模型参数,且对原鲁棒声学模型的应用存在一定性能损失的问题。还解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。
在一个实施例中,上述迁移神经网络声学模型由下述步骤训练生成,参照图2所示,包括:
S201、建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
S202、将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
S203、将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
S204、建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
S205、生成迁移神经网络声学模型。
上述步骤S203中还包括:鲁棒神经网络对应层的输出乘以权重系数与定向神经网络对应层的输出乘以权重系数进行相加作为输入送入定向神经网络的下一层进行前向计算,这种混合结构共同构成了迁移神经网络声学模型。具体公式为:
上述步骤S204参照图3所示,具体包括:
S2041、建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,基于目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
S2042、所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0。L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值。其中,上述交叉熵是用来衡量两个概率分布之间差异性的信息量。
要强调的是,lable表示与输入特征帧相对应的实际声学状态的标注,L表示声学模型训练准则中的交叉熵损失函数,两者是不同的概念。
S2043、所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,最终得到训练好的迁移神经网络声学模型。
参照图4所示为迁移声学模型的示意图,其中鲁棒神经网络是基于语料丰富的源语言数据训练得到的,在源语言测试集上具有较好的鲁棒性能,在鲁棒神经网络的基础上通过加权重横向连接融合一个特定于目标语言的定向神经网络,在此基础上用数据不充分的目标语言数据根据交叉熵准则,使用随机梯度下降的方法对现有网络模型进行再优化操作。
基于同一发明构思,本发明实施例还提供了基于迁移神经网络声学模型的语音识别方法,使用上述实施例提供的基于迁移神经网络声学模型的语音识别系统。
参照图5所示,包括:
S501、构建目标语言语言模型;
S502、将待识别的目标语言数据输入迁移神经网络声学模型,输出语音特征的后验概率;
S503、根据所述语言特征的后验概率,用于解码,并联合所述目标语言语言模型,得到识别出的语音。
作为上述方法的一种改进,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
生成迁移神经网络声学模型。
作为上述方法的再一种改进,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:
将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;
将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:
作为上述方法的还一种改进,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0。L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;其中,上述交叉熵是用来衡量两个概率分布之间差异性的信息量。
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
基于本发明的语音识别系统的合理性和有效性已经在实际系统上得到了验证,结果见表1。其中表1是利用280小时switchboard(SWBD)数据训练的鲁棒声学模型对10小时越南语模型进行模型参数迁移的测试结果,SWBD是一个英文标准的电话交谈语音识别任务;
表1
模型 | 训练集 | 测试集 | 词错误率 |
单语言方法 | 越南语10小时 | 越南语1小时 | 63.55 |
传统迁移方法 | 越南语10小时 | 越南语1小时 | 52.51 |
本发明迁移方法 | 越南语10小时 | 越南语1小时 | 50.6 |
基于传统迁移方法的越南语模型,通过对SWBD英语声学模型进行迁移,相比于只用10小时越南语数据训练得到的声学模型有了11百分点性能的提升,可以看出在此基础上基于本发明方法的越南语声学模型相比于传统的迁移方法在越南语测试集上的性能又有了2个百分点性能的提升,本发明的基于迁移神经网络声学模型的语音识别方法具有较好的知识迁移效果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于迁移神经网络声学模型的语音识别系统,其特征在于,包括:
信号处理及特征提取模块,用于对待识别的音频信号进行增强,将所述待识别的音频信号从时域转化到频域,并提取声学特征;
声学模型,用于以提取的声学特征为输入,生成声学模型得分;所述声学模型为迁移神经网络声学模型,包括:前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型;所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型,使用大量源语言数据进行训练;
语言模型,用于估计通过重训练语料学习词之间的相互概率,输出语言模型得分;
解码器,用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分,将总体输出分数较高的词序列作为识别结果。
2.如权利要求1所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述目标语言神经网络声学模型的定向神经网络模型参数;
生成迁移神经网络声学模型。
4.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述目标语言神经网络声学模型的定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0;L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
5.一种基于迁移神经网络声学模型的语音识别方法,其特征在于,包括:
构建目标语言语言模型;
将待识别的目标语言数据输入迁移神经网络声学模型,输出语音特征的后验概率;
根据所述语音特征的后验概率,用于解码,并联合所述目标语言语言模型,得到识别出的语音;
所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述目标语言神经网络声学模型的定向神经网络模型参数;
生成迁移神经网络声学模型。
7.如权利要求5所述的基于迁移神经网络声学模型的语音识别方法,其特征在于,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0;L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810077556.9A CN110070855B (zh) | 2018-01-23 | 2018-01-23 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810077556.9A CN110070855B (zh) | 2018-01-23 | 2018-01-23 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110070855A CN110070855A (zh) | 2019-07-30 |
CN110070855B true CN110070855B (zh) | 2021-07-23 |
Family
ID=67365573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810077556.9A Active CN110070855B (zh) | 2018-01-23 | 2018-01-23 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110070855B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600014B (zh) * | 2019-09-19 | 2022-09-02 | 深圳酷派技术有限公司 | 一种模型训练方法、装置、存储介质及电子设备 |
CN110634476B (zh) * | 2019-10-09 | 2022-06-14 | 深圳大学 | 一种快速搭建鲁棒性声学模型的方法及系统 |
CN112908317B (zh) * | 2019-12-04 | 2023-04-07 | 中国科学院深圳先进技术研究院 | 一种针对认知障碍的语音识别系统 |
CN112786026B (zh) * | 2019-12-31 | 2024-05-07 | 深圳市木愚科技有限公司 | 基于语音迁移学习的亲子故事个性化音频生成系统及方法 |
CN111261146B (zh) * | 2020-01-16 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN111179918B (zh) * | 2020-02-20 | 2022-10-14 | 中国科学院声学研究所 | 联结主义时间分类和截断式注意力联合在线语音识别技术 |
CN112967720B (zh) * | 2021-01-29 | 2022-12-30 | 南京迪港科技有限责任公司 | 少量重口音数据下的端到端语音转文本模型优化方法 |
CN113077786B (zh) * | 2021-03-23 | 2022-12-02 | 北京如布科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN113239967A (zh) * | 2021-04-14 | 2021-08-10 | 北京达佳互联信息技术有限公司 | 文字识别模型训练方法、识别方法、相关设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN104268627A (zh) * | 2014-09-10 | 2015-01-07 | 天津大学 | 一种基于深度神经网络迁移模型的短期风速预报方法 |
US9378735B1 (en) * | 2013-12-19 | 2016-06-28 | Amazon Technologies, Inc. | Estimating speaker-specific affine transforms for neural network based speech recognition systems |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
CN106548774A (zh) * | 2015-09-18 | 2017-03-29 | 三星电子株式会社 | 语音识别的设备和方法以及训练变换参数的设备和方法 |
CN106856092A (zh) * | 2015-12-09 | 2017-06-16 | 中国科学院声学研究所 | 基于前向神经网络语言模型的汉语语音关键词检索方法 |
CN107112005A (zh) * | 2015-04-17 | 2017-08-29 | 微软技术许可有限责任公司 | 深度神经支持向量机 |
CN107195299A (zh) * | 2016-03-14 | 2017-09-22 | 株式会社东芝 | 训练神经网络声学模型的方法和装置及语音识别方法和装置 |
WO2017196929A1 (en) * | 2016-05-10 | 2017-11-16 | Google Llc | Audio processing with neural networks |
CN107481717A (zh) * | 2017-08-01 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9344612B2 (en) * | 2006-02-15 | 2016-05-17 | Kenneth Ira Ritchey | Non-interference field-of-view support apparatus for a panoramic facial sensor |
-
2018
- 2018-01-23 CN CN201810077556.9A patent/CN110070855B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
US9378735B1 (en) * | 2013-12-19 | 2016-06-28 | Amazon Technologies, Inc. | Estimating speaker-specific affine transforms for neural network based speech recognition systems |
CN104268627A (zh) * | 2014-09-10 | 2015-01-07 | 天津大学 | 一种基于深度神经网络迁移模型的短期风速预报方法 |
CN107112005A (zh) * | 2015-04-17 | 2017-08-29 | 微软技术许可有限责任公司 | 深度神经支持向量机 |
CN106548774A (zh) * | 2015-09-18 | 2017-03-29 | 三星电子株式会社 | 语音识别的设备和方法以及训练变换参数的设备和方法 |
CN106856092A (zh) * | 2015-12-09 | 2017-06-16 | 中国科学院声学研究所 | 基于前向神经网络语言模型的汉语语音关键词检索方法 |
CN107195299A (zh) * | 2016-03-14 | 2017-09-22 | 株式会社东芝 | 训练神经网络声学模型的方法和装置及语音识别方法和装置 |
WO2017196929A1 (en) * | 2016-05-10 | 2017-11-16 | Google Llc | Audio processing with neural networks |
CN107481717A (zh) * | 2017-08-01 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法及系统 |
Non-Patent Citations (1)
Title |
---|
"How transferable are features in deep neural networks";Yosinski Jason;《NIPS 2014》;20141231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110070855A (zh) | 2019-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070855B (zh) | 一种基于迁移神经网络声学模型的语音识别系统及方法 | |
CN110895932B (zh) | 基于语言种类和语音内容协同分类的多语言语音识别方法 | |
US11151984B2 (en) | Multi-language mixed speech recognition method | |
US20160275075A1 (en) | Natural Expression Processing Method, Processing and Response Method, Device, and System | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN111199727A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN108415906B (zh) | 基于领域自动识别篇章机器翻译方法、机器翻译系统 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
Kaur et al. | Review of machine transliteration techniques | |
CN112199945A (zh) | 一种文本纠错的方法和装置 | |
CN111489746B (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN113657122B (zh) | 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法 | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
TWI659411B (zh) | 一種多語言混合語音識別方法 | |
CN112380882B (zh) | 一种具有误差修正功能的蒙汉神经机器翻译方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
Laperrière et al. | The Spoken Language Understanding MEDIA Benchmark Dataset in the Era of Deep Learning: data updates, training and evaluation tools | |
KR100784730B1 (ko) | 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 hmm 품사 태깅 장치 및 방법 | |
CN110955768B (zh) | 一种基于句法分析的问答系统答案生成方法 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |