CN110070855A - 一种基于迁移神经网络声学模型的语音识别系统及方法 - Google Patents

一种基于迁移神经网络声学模型的语音识别系统及方法 Download PDF

Info

Publication number
CN110070855A
CN110070855A CN201810077556.9A CN201810077556A CN110070855A CN 110070855 A CN110070855 A CN 110070855A CN 201810077556 A CN201810077556 A CN 201810077556A CN 110070855 A CN110070855 A CN 110070855A
Authority
CN
China
Prior art keywords
neural network
model
acoustic model
robust
orientation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810077556.9A
Other languages
English (en)
Other versions
CN110070855B (zh
Inventor
张鹏远
刘丹阳
徐及
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201810077556.9A priority Critical patent/CN110070855B/zh
Publication of CN110070855A publication Critical patent/CN110070855A/zh
Application granted granted Critical
Publication of CN110070855B publication Critical patent/CN110070855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法,该系统包括:信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型;其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络;本系统通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。

Description

一种基于迁移神经网络声学模型的语音识别系统及方法
技术领域
本发明涉及语音识别领域,特别涉及一种基于迁移神经网络声学模型的语音识别系统及方法。
背景技术
目前自动语音识别技术已经非常成熟了,在有些语音识别机构的技术研究下,自动语音识别系统的识别精度已经可以达到94.5%,可以说已经可以达到人类的听觉感知能力了。但是这种性能优良的自动语音识别系统仅局限于几个使用广泛的语言,比如英语、法语等。世界上有超过五千种语言被世界各地的人们使用,然而在这五千种语言中只有十种语言被广泛的使用,它们分别是:汉语、英语、俄语、西班牙语、印度语、阿拉伯语、葡萄牙语、孟加拉语、德语和日语。其他的语言,由于使用人数较少,所以很难收集他们的语音数据,相应的语音数据标注工作也相当难实施,因此相应的语音识别任务不得不面对数据稀疏的问题。
自动语音识别任务通常受制于有限的语音数据的规模,因此使用跨语言数据来提高特定的语言的语音识别性能一直是近年来的热门研究领域。由于发音的相似性,不同的语言可能会有相同的声学特性,因此低资源的语言可以共享资源充分的数据集的数据特征或者模型参数。我们可以使用一个鲁棒的声学模型来初始化一个低资源语言的声学模型,来提升目标语言的声学模型性能以及收敛速度。
传统的知识迁移的方式是预训练加再优化的方法,这种方法直接在源语言鲁棒声学模型上用目标语言的输出层替换源语言的输出层,在此基础上用目标语言的数据对模型进行再优化操作。但是这种优化方式由于不可恢复地改变了原鲁棒声学模型的模型参数,所以对于原鲁棒声学模型的应用存在一定的性能损失。
因此,如何在不改变原鲁棒声学模型参数的情况下,对目标语言声学模型能很好的优化,是同行业人员亟待解决的问题。
发明内容
本发明的目的在于,克服现有技术中用目标语言的数据对模型进行再优化,不可恢复改变了原鲁棒声学模型的模型参数,且对原鲁棒声学模型的应用存在一定性能损失的问题,提出一种基于迁移神经网络声学模型的语音识别系统及方法。
为了解决上述技术问题,第一方面,本发明实施例提供一种基于迁移神经网络声学模型的语音识别系统,包括:
信号处理及特征提取模块,用于对待识别的音频信号进行增强,将所述待识别的音频信号从时域转化到频域,并提取声学特征;
声学模型,用于以提取的声学特征为输入,生成声学模型得分;所述声学模型为迁移神经网络声学模型,包括:前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型;所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型,使用大量源语言数据进行训练;
语言模型,用于估计通过重训练语料学习词之间的相互概率,输出语言模型得分;
解码器,用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分,将总体输出分数较高的词序列作为识别结果。
作为上述系统的一种改进,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
生成迁移神经网络声学模型。
作为上述系统的再一种改进,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:
将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;
将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:
其中β为鲁棒神经网络的权重系数,分别为鲁棒神经网络和定向神经网络的第i-1层的输出,为定向神经网络第i层的输入,为定向神经网络第i-1层和第i层之间的连接权重,f为激活函数。
作为上述系统的还一种改进,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0。L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
第二方面,本发明还提供一种基于迁移神经网络声学模型的语音识别方法,包括:
构建目标语言语言模型;
将待识别的目标语言数据输入迁移神经网络声学模型,输出语音特征的后验概率;
根据所述语言特征的后验概率,用于解码,并联合所述目标语言语言模型,得到识别出的语音。
作为上述方法的一种改进,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
生成迁移神经网络声学模型。
作为上述方法的再一种改进,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:
将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;
将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:
其中β为鲁棒神经网络的权重系数,分别为鲁棒神经网络和定向神经网络的第i-1层的输出,为定向神经网络第i层的输入,为定向神经网络第i-1层和第i层之间的连接权重,f为激活函数。
作为上述方法的还一种改进,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0。L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
本发明的优点在于,本发明的一种基于迁移神经网络声学模型的语音识别系统及方法,该系统的迁移神经网络声学模型,通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。克服现有技术中用目标语言的数据对模型进行再优化,不可恢复改变了原鲁棒声学模型的模型参数,且对原鲁棒声学模型的应用存在一定性能损失的问题。还解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例提供的基于迁移神经网络声学模型的语音识别系统的结构图;
图2为本发明实施例提供的迁移神经网络声学模型生成步骤流程图;
图3为本发明实施例提供的步骤S204的流程图;
图4为本发明实施例提供的迁移声学模型的示意图;
图5为本发明实施例提供的基于迁移神经网络声学模型的语音识别方法的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种基于迁移神经网络声学模型的语音识别系统,上述迁移神经网络是指,基于鲁棒神经网络声学模型做模型参数迁移,将其鲁棒模型参数和模型结构迁移到一个新任务对应的神经网络上,参照图1所示,包括:
信号处理及特征提取模块、发音词典、语言模型和解码器,还包括:声学模型;
其中:
信号处理及特征提取模块,用于对待识别的音频信号进行增强,将上述待识别的音频信号从时域转化到频域,并提取声学特征;
声学模型,用于以提取的声学特征为输入,生成声学模型得分;上述声学模型为迁移神经网络声学模型,包括:前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型;所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型,使用大量源语言数据进行训练;使得鲁棒声学模型的达到较优的性能;上述鲁棒神经网络声学模型和定向神经网络声学模型进行融合,一起作为目标语言神经网络声学模型,用于目标语言识别系统的构建。
语言模型,用于估计通过重训练语料学习词之间的相互概率,输出语言模型得分;
解码器,用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分,将总体输出分数较高的词序列作为识别结果。
发音词典,根据特定的语言,将该语言的词汇列表映射为相应音素以及音调组成的发音,用于辅助声学模型建模。
本发明的一种基于迁移神经网络声学模型的语音识别系统,该系统的迁移神经网络声学模型,包括鲁棒神经网络和定向神经网络两部分,通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。克服现有技术中用目标语言的数据对模型进行再优化,不可恢复改变了原鲁棒声学模型的模型参数,且对原鲁棒声学模型的应用存在一定性能损失的问题。还解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。
在一个实施例中,上述迁移神经网络声学模型由下述步骤训练生成,参照图2所示,包括:
S201、建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
S202、将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
S203、将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
S204、建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
S205、生成迁移神经网络声学模型。
上述步骤S203中还包括:鲁棒神经网络对应层的输出乘以权重系数与定向神经网络对应层的输出乘以权重系数进行相加作为输入送入定向神经网络的下一层进行前向计算,这种混合结构共同构成了迁移神经网络声学模型。具体公式为:
其中β为鲁棒神经网络的权重系数,分别为鲁棒神经网络和定向神经网络的第i-1层的输出,为定向神经网络第i层的输入,为定向神经网络第i-1层和第i层之间的连接权重,f为激活函数。
上述步骤S204参照图3所示,具体包括:
S2041、建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,基于目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
S2042、所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0。L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值。其中,上述交叉熵是用来衡量两个概率分布之间差异性的信息量。
要强调的是,lable表示与输入特征帧相对应的实际声学状态的标注,L表示声学模型训练准则中的交叉熵损失函数,两者是不同的概念。
S2043、所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,最终得到训练好的迁移神经网络声学模型。
参照图4所示为迁移声学模型的示意图,其中鲁棒神经网络是基于语料丰富的源语言数据训练得到的,在源语言测试集上具有较好的鲁棒性能,在鲁棒神经网络的基础上通过加权重横向连接融合一个特定于目标语言的定向神经网络,在此基础上用数据不充分的目标语言数据根据交叉熵准则,使用随机梯度下降的方法对现有网络模型进行再优化操作。
基于同一发明构思,本发明实施例还提供了基于迁移神经网络声学模型的语音识别方法,使用上述实施例提供的基于迁移神经网络声学模型的语音识别系统。
参照图5所示,包括:
S501、构建目标语言语言模型;
S502、将待识别的目标语言数据输入迁移神经网络声学模型,输出语音特征的后验概率;
S503、根据所述语言特征的后验概率,用于解码,并联合所述目标语言语言模型,得到识别出的语音。
作为上述方法的一种改进,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
生成迁移神经网络声学模型。
作为上述方法的再一种改进,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:
将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;
将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:
其中β为鲁棒神经网络的权重系数,分别为鲁棒神经网络和定向神经网络的第i-1层的输出,为定向神经网络第i层的输入,为定向神经网络第i-1层和第i层之间的连接权重,f为激活函数。
作为上述方法的还一种改进,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0。L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;其中,上述交叉熵是用来衡量两个概率分布之间差异性的信息量。
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
基于本发明的语音识别系统的合理性和有效性已经在实际系统上得到了验证,结果见表1。其中表1是利用280小时switchboard(SWBD)数据训练的鲁棒声学模型对10小时越南语模型进行模型参数迁移的测试结果,SWBD是一个英文标准的电话交谈语音识别任务;
表1
模型 训练集 测试集 词错误率
单语言方法 越南语10小时 越南语1小时 63.55
传统迁移方法 越南语10小时 越南语1小时 52.51
本发明迁移方法 越南语10小时 越南语1小时 50.6
基于传统迁移方法的越南语模型,通过对SWBD英语声学模型进行迁移,相比于只用10小时越南语数据训练得到的声学模型有了11百分点性能的提升,可以看出在此基础上基于本发明方法的越南语声学模型相比于传统的迁移方法在越南语测试集上的性能又有了2个百分点性能的提升,本发明的基于迁移神经网络声学模型的语音识别方法具有较好的知识迁移效果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于迁移神经网络声学模型的语音识别系统,其特征在于,包括:
信号处理及特征提取模块,用于对待识别的音频信号进行增强,将所述待识别的音频信号从时域转化到频域,并提取声学特征;
声学模型,用于以提取的声学特征为输入,生成声学模型得分;所述声学模型为迁移神经网络声学模型,包括:前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型;所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型,使用大量源语言数据进行训练;
语言模型,用于估计通过重训练语料学习词之间的相互概率,输出语言模型得分;
解码器,用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分,将总体输出分数较高的词序列作为识别结果。
2.如权利要求1所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
生成迁移神经网络声学模型。
3.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:
将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;
将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:
其中β为鲁棒神经网络的权重系数,分别为鲁棒神经网络和定向神经网络的第i-1层的输出,为定向神经网络第i层的输入,Wi (2)为定向神经网络第i-1层和第i层之间的连接权重,f为激活函数。
4.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0;L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
5.一种基于迁移神经网络声学模型的语音识别方法,其特征在于,包括:
构建目标语言语言模型;
将待识别的目标语言数据输入迁移神经网络声学模型,输出语音特征的后验概率;
根据所述语言特征的后验概率,用于解码,并联合所述目标语言语言模型,得到识别出的语音。
6.如权利要求5所述的基于迁移神经网络声学模型的语音识别方法,其特征在于,所述迁移神经网络声学模型由下述步骤训练生成,包括:
建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;
将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;
将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;
建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;
生成迁移神经网络声学模型。
7.如权利要求6所述的基于迁移神经网络声学模型的语音识别方法,其特征在于,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:
将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;
将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:
其中β为鲁棒神经网络的权重系数,分别为鲁棒神经网络和定向神经网络的第i-1层的输出,为定向神经网络第i层的输入,Wi (2)为定向神经网络第i-1层和第i层之间的连接权重,f为激活函数。
8.如权利要求6所述的基于迁移神经网络声学模型的语音识别方法,其特征在于,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:
建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;
所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:
其中:
上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0;L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;
所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。
CN201810077556.9A 2018-01-23 2018-01-23 一种基于迁移神经网络声学模型的语音识别系统及方法 Active CN110070855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810077556.9A CN110070855B (zh) 2018-01-23 2018-01-23 一种基于迁移神经网络声学模型的语音识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810077556.9A CN110070855B (zh) 2018-01-23 2018-01-23 一种基于迁移神经网络声学模型的语音识别系统及方法

Publications (2)

Publication Number Publication Date
CN110070855A true CN110070855A (zh) 2019-07-30
CN110070855B CN110070855B (zh) 2021-07-23

Family

ID=67365573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810077556.9A Active CN110070855B (zh) 2018-01-23 2018-01-23 一种基于迁移神经网络声学模型的语音识别系统及方法

Country Status (1)

Country Link
CN (1) CN110070855B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600014A (zh) * 2019-09-19 2019-12-20 深圳酷派技术有限公司 一种模型训练方法、装置、存储介质及电子设备
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及系统
CN111179918A (zh) * 2020-02-20 2020-05-19 中国科学院声学研究所 联结主义时间分类和截断式注意力联合在线语音识别技术
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
WO2021109856A1 (zh) * 2019-12-04 2021-06-10 中国科学院深圳先进技术研究院 一种针对认知障碍的语音识别系统
CN112967720A (zh) * 2021-01-29 2021-06-15 南京迪港科技有限责任公司 少量重口音数据下的端到端语音转文本模型优化方法
CN113077786A (zh) * 2021-03-23 2021-07-06 北京儒博科技有限公司 一种语音识别方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统
CN104268627A (zh) * 2014-09-10 2015-01-07 天津大学 一种基于深度神经网络迁移模型的短期风速预报方法
US9378735B1 (en) * 2013-12-19 2016-06-28 Amazon Technologies, Inc. Estimating speaker-specific affine transforms for neural network based speech recognition systems
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
US20160255305A1 (en) * 2006-02-15 2016-09-01 Kurtis John Ritchey Non-Interference Field-of-view Support Apparatus for a Panoramic Sensor
CN106548774A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 语音识别的设备和方法以及训练变换参数的设备和方法
CN106856092A (zh) * 2015-12-09 2017-06-16 中国科学院声学研究所 基于前向神经网络语言模型的汉语语音关键词检索方法
CN107112005A (zh) * 2015-04-17 2017-08-29 微软技术许可有限责任公司 深度神经支持向量机
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
WO2017196929A1 (en) * 2016-05-10 2017-11-16 Google Llc Audio processing with neural networks
CN107481717A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种声学模型训练方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160255305A1 (en) * 2006-02-15 2016-09-01 Kurtis John Ritchey Non-Interference Field-of-view Support Apparatus for a Panoramic Sensor
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
US9378735B1 (en) * 2013-12-19 2016-06-28 Amazon Technologies, Inc. Estimating speaker-specific affine transforms for neural network based speech recognition systems
CN104268627A (zh) * 2014-09-10 2015-01-07 天津大学 一种基于深度神经网络迁移模型的短期风速预报方法
CN107112005A (zh) * 2015-04-17 2017-08-29 微软技术许可有限责任公司 深度神经支持向量机
CN106548774A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 语音识别的设备和方法以及训练变换参数的设备和方法
CN106856092A (zh) * 2015-12-09 2017-06-16 中国科学院声学研究所 基于前向神经网络语言模型的汉语语音关键词检索方法
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
WO2017196929A1 (en) * 2016-05-10 2017-11-16 Google Llc Audio processing with neural networks
CN107481717A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种声学模型训练方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOSINSKI JASON: ""How transferable are features in deep neural networks"", 《NIPS 2014》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600014A (zh) * 2019-09-19 2019-12-20 深圳酷派技术有限公司 一种模型训练方法、装置、存储介质及电子设备
CN110600014B (zh) * 2019-09-19 2022-09-02 深圳酷派技术有限公司 一种模型训练方法、装置、存储介质及电子设备
CN110634476B (zh) * 2019-10-09 2022-06-14 深圳大学 一种快速搭建鲁棒性声学模型的方法及系统
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及系统
WO2021109856A1 (zh) * 2019-12-04 2021-06-10 中国科学院深圳先进技术研究院 一种针对认知障碍的语音识别系统
CN112786026B (zh) * 2019-12-31 2024-05-07 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
WO2021143327A1 (zh) * 2020-01-16 2021-07-22 腾讯科技(深圳)有限公司 语音识别方法、装置和计算机可读存储介质
CN111179918A (zh) * 2020-02-20 2020-05-19 中国科学院声学研究所 联结主义时间分类和截断式注意力联合在线语音识别技术
CN112967720A (zh) * 2021-01-29 2021-06-15 南京迪港科技有限责任公司 少量重口音数据下的端到端语音转文本模型优化方法
CN113077786A (zh) * 2021-03-23 2021-07-06 北京儒博科技有限公司 一种语音识别方法、装置、设备及存储介质
CN113077786B (zh) * 2021-03-23 2022-12-02 北京如布科技有限公司 一种语音识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110070855B (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN110070855A (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
US10559299B1 (en) Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
EP4053835A1 (en) Speech recognition method and apparatus, and device and storage medium
CN105139864B (zh) 语音识别方法和装置
CN105427858B (zh) 实现语音自动分类的方法及系统
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN107329996B (zh) 一种基于模糊神经网络的聊天机器人系统与聊天方法
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN106251859A (zh) 语音识别处理方法和装置
CN104867489B (zh) 一种模拟真人朗读发音的方法及系统
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN109036467A (zh) 基于tf-lstm的cffd提取方法、语音情感识别方法及系统
Kadyan et al. Refinement of HMM model parameters for punjabi automatic speech recognition (PASR) system
CN106803422A (zh) 一种基于长短时记忆网络的语言模型重估方法
CN112365874B (zh) 语音合成模型的属性注册、装置、电子设备与介质
CN115206293B (zh) 一种基于预训练的多任务空管语音识别方法及装置
CN111460143A (zh) 一种多人对话系统的情绪识别模型
CN111128175B (zh) 口语对话管理方法及系统
CN114944150A (zh) 一种基于双任务的Conformer陆空通话声学模型构建方法
Jiang et al. RETRACTED ARTICLE: Intelligent online education system based on speech recognition with specialized analysis on quality of service
CN105988978A (zh) 确定文本焦点的方法及系统
CN111090726A (zh) 一种基于nlp的电力行业文字客服交互方法
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant