CN111243574B - 一种语音模型自适应训练方法、系统、装置及存储介质 - Google Patents
一种语音模型自适应训练方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN111243574B CN111243574B CN202010033373.4A CN202010033373A CN111243574B CN 111243574 B CN111243574 B CN 111243574B CN 202010033373 A CN202010033373 A CN 202010033373A CN 111243574 B CN111243574 B CN 111243574B
- Authority
- CN
- China
- Prior art keywords
- posterior probability
- acoustic
- training
- likelihood
- output branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 87
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims description 50
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
Abstract
一种语音模型自适应训练方法、系统、装置及存储介质。本发明涉及一种语音识别的训练方法,尤其是一种语音模型自适应训练方法,包括训练和解码;训练包括以下步骤:训练声学特征提取;生成音素状态对齐序列;计算训练后验概率分别输出第一后验概率和第二后验概率;自适应训练,将音素状态对齐序列与第二后验概率计算交叉熵准则;解码包括以下步骤:测试声学特征提取;计算测试后验概率分别输出第一后验概率和第二后验概率;似然度计算与融合,将第一后验概率和第二后验概率进行似然度融合;将经过融合的似然度送入解码器解码生成语音的文本。本发明通过对通用语音识别模型采用自适应训练和似然度融合在保证通用语音识别性能的同时,提升了新任务的语音识别的准确率。
Description
技术领域
本发明涉及一种语音识别的训练方法,尤其是一种语音模型自适应训练方法、系统、装置及存储介质。
背景技术
语音识别技术作为人工智能的关键技术之一,能够将输入的语音信号转变成文字信号,进而方便存储,检索和传播。近年来随着移动互联网的兴起和深度神经网络技术在语音识别技术中的快速发展,基于深度神经网络(DNN)的声学模型在搜索引擎,输入法,故事机等产品领域中被广泛使用。例如讯飞,谷歌,亚马逊等公司的基于神经网络的通用声学模型被广大开发者应用于会议记录系统,手机助手,游戏机等产品中。
目前主流公司提供的DNN声学模型是采用多个领域(如新闻、人机对话、搜索、数字串、带噪语音等)的语音数据进行学习后得到的。通常情况下,不同领域下的语音数据在统计特性上存在差别,直接将通用DNN声学模型应用于目标领域的测试音频中性能较差。而实际中即便是同一款产品也会涉及到多种领域的识别,语音公司在训练通用DNN声学模型时往往并不清楚这些模型会被开发者应用于什么样的领域,无法为每个产品单独训练一个DNN声学模型。而开发者在发现通用DNN声学模型在特定领域识别性能较差时,往往希望提升模型在该特定领域下识别性能的同时保持在其他领域下的识别性能。
自适应算法的核心在于使用少量目标领域数据对通用DNN声学模型的参数进行训练,降低语音模型与目标领域语音数据之间的统计特性失配。开发者可以自己录制少量目标领域的语音数据,并使用自适应算法对通用语音识别模型进行参数更新,进而提升语音模型在目标领域下的识别性能。然而目前的自适应训练方法虽然能够大幅度提升目标领域的识别性能,但是却不可避免的会大幅度降低在其他领域下的识别性能。
发明内容
为解决上述问题,本发明提供一种在提升目标领域识别性能的同时,保持了在非目标领域的识别性能的一种语音模型自适应训练方法,具体技术方案为:
一种语音模型自适应训练方法,包括训练和解码;
所述训练包括以下步骤:
S11、训练声学特征提取,对训练音频进行预加重,加窗分帧,提取训练声学特征,所述训练声学特征选择梅尔频谱特征;
S12、生成音素状态对齐序列,将训练声学特征通过深度神经网络通用声学模型生成音素对齐序列,然后利用决策树将所述音素对齐序列转换为音素状态对齐序列,使用音素状态对齐序列中的音素状态ID作为声学建模基本单元;
S13、计算训练后验概率,将S11中提取的训练声学特征送入预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型中,经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率,其中所述第一输出支路为深度神经网络通用声学模型原有的输出支路,所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路;
S14、自适应训练,将S12中得到的音素状态对齐序列与S13中得到的第二后验概率计算交叉熵准则,所述交叉熵准则的数学公式为:
式中:
st表示t时刻音素状态对齐序列中的音素状态ID;
p1(st|xt)表示t时刻第二输出支路在建模单元st输出的第二后验概率;
所述交叉熵准则为模型的目标函数,通过批量随机梯度下降算法对S13中第二输出支路的隐藏层和输出层的参数进行更新,所述第一输出支路及底层共享层的参数保持不变;
所述解码包括以下步骤:
S21、测试声学特征提取,对测试音频进行预加重,加窗分帧,提取测试声学特征,所述测试声学特征选择梅尔频谱特征;
S22、计算测试后验概率,将S21中提取的测试声学特征xt送入经过训练的所述深度神经网络声学模型中,经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率;
S23、似然度计算与融合,先进行似然度的计算,然后进行似然度的融合;
似然度的计算:
将S22中得到的第一后验概率和第二后验概率进行似然度计算,似然度计算公式如下:
式中:
p0(xt|k)表示测试声学特征xt,第一输出支路中建模单元k的似然度;
p1(xt|k)表示测试声学特征xt,第二输出支路中建模单元k的似然度;
p0(k|xt)表示测试声学特征xt,第一输出支路建模单元k输出的后验概率;
p1(k|xt)表示测试声学特征xt,第二输出支路建模单元k输出的后验概率;
p(k)为建模单元k的先验概率,所述先验概率从状态对齐序列中统计得到;
似然度的融合:
对第一输出支路中各声学建模单元的似然度和经过参数更新后的第二输出支路中各声学建模单元的似然度进行融合,融合公式为:
p(xt|k)=w0×p0(xt|k)+w1×p1(xt|k)
w0为第一输出支路输出的似然度的融合权重系数;
w1为第二输出支路输出的似然度的融合权重系数;
w0和w1满足w0+w1=1;
S23、生成语音的文本,将经过融合的似然度送入解码器解码生成语音的文本。
进一步的,所述S11和S21中帧长选择25ms,帧移10ms,梅尔滤波器阶数续选择为40,对得到的静态梅尔频谱特征进行均值归一化并计算其一阶差分和二阶差分。
进一步的,所述深度神经网络以音素状态序列中的音素状态ID作为声学建模基本单元。
一种语音模型自适应训练系统,包括声学特征提取系统,用于对训练音频或测试音频提取梅尔频谱特征;音素对齐系统,用于将训练声学特征生成音素对齐序列,然后将所述音素对齐序列转换为音素状态对齐序列;后验概率计算系统,所述后验概率计算系统包括预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型,所述第一输出支路为深度神经网络通用声学模型原有的输出支路,所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路,所述后验概率计算系统用于将声学特征经过前向运算后分别输出第一后验概率和第二后验概率;自适应训练系统,所述自适应训练系统在训练时用于将音素状态对齐序列与第二后验概率通过交叉熵准则对所述深度神经网络声学模型的第二输出支路的参数进行更新;似然度融合系统,用于将训练后的后验概率计算系统计算测试音频的声学特征得到的第一后验概率和第二后验概率,并进行似然度融合计算;解码器系统,用于将经过似然度融合系统得到的似然度送入解码器解码生成语音的文本。
一种语音模型自适应训练装置,所述装置包括处理器、存储器以及程序;所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行语音模型自适应训练方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行语音模型自适应训练方法的步骤。
与现有技术相比本发明具有以下有益效果:
本发明提供的一种语音模型自适应训练方法由于深度神经网络声学模型的原有输出支路没有参与训练,原输出支路在非目标领域上的识别性能与原始模型完全相同,而新建的输出支路由于使用目标领域语音数据进行了参数更新,因此在目标领域上的识别性能会优于原始模型;将两条支路的似然度融合能够充分利用两个输出支路各自在非目标领域与目标领域的建模能力,在提升目标领域识别性能的基础上也保持了原始模型在非目标领域下的识别性能。
附图说明
图1是本发明的训练流程图;
图2是本发明的解码流程图;
图3是深度神经网络声学模型结构示意图。
具体实施方式
现结合附图对本发明作进一步说明。
如图1和图2所示,一种语音模型自适应训练方法,包括训练和解码;
训练包括以下步骤:
S11、训练声学特征提取,对训练音频进行预加重,加窗分帧,提取训练声学特征,所述训练声学特征选择梅尔频谱特征;
S12、生成音素状态对齐序列,将训练声学特征通过深度神经网络通用声学模型生成音素对齐序列,然后利用决策树将所述音素对齐序列转换为音素状态对齐序列,使用音素状态对齐序列中的音素状态ID作为声学建模基本单元;
S13、计算训练后验概率,将S11中提取的训练声学特征送入预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型中,经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率,其中所述第一输出支路为深度神经网络通用声学模型原有的输出支路,所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路;
S14、自适应训练,将S12中得到的音素状态对齐序列与S13中得到的第二后验概率计算交叉熵准则,所述交叉熵准则的数学公式为:
式中:
st表示t时刻音素状态对齐序列中的音素状态ID;
p1(st|xt)表示t时刻第二输出支路在建模单元st输出的第二后验概率;
所述交叉熵准则为模型的目标函数,通过批量随机梯度下降算法对S13中第二输出支路的隐藏层输出层的参数进行更新,所述第一输出支路及底层共享层的参数保持不变;
解码包括以下步骤:
S21、测试声学特征提取,对测试音频进行预加重,加窗分帧,提取测试声学特征,所述测试声学特征选择梅尔频谱特征;
S22、计算测试后验概率,将S21中提取的测试声学特征xt送入经过训练的所述深度神经网络声学模型中,经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率;
S23、似然度计算与融合,先进行似然度的计算,然后进行似然度的融合;
似然度的计算:
将S22中得到的第一后验概率和第二后验概率进行似然度计算,似然度计算公式如下:
式中:
p0(xt|k)表示测试声学特征xt,第一输出支路中建模单元k的似然度;
p1(xt|k)表示测试声学特征xt,第二输出支路中建模单元k的似然度;
p0(k|xt)表示测试声学特征xt,第一输出支路建模单元k输出的后验概率;
p1(k|xt)表示测试声学特征xt,第二输出支路建模单元k输出的后验概率;
p(k)为建模单元k的先验概率,所述先验概率从状态对齐序列中统计得到;
似然度的融合:
对第一输出支路中各声学建模单元的似然度和经过参数更新后的第二输出支路中各声学建模单元的似然度进行融合,融合公式为:
p(xt|k)=w0×p0(xt|k)+w1×p1(xt|k)
w0为第一输出支路输出的似然度的融合权重系数;
w1为第二输出支路输出的似然度的融合权重系数;
w0和w1满足w0+w1=1;
S23、生成语音的文本,将经过融合的似然度送入解码器解码生成语音的文本。
步骤S11和S21中帧长选择25ms,帧移10ms,梅尔滤波器阶数续选择为40,对得到的静态梅尔频谱特征进行均值归一化并计算其一阶差分和二阶差分。
人耳对低频音调的感知较灵敏,而对高频音调的感知较迟钝,梅尔频谱模拟了人耳的这种特性,是基于人耳听觉提出的一种声学特征,被广泛应用于语音识别技术当中。梅尔滤波器阶数续选择为40,对得到的静态梅尔频谱特征进行均值归一化并计算其一阶,二阶差分。
深度神经网络以音素状态序列中的音素状态ID作为声学建模基本单元。音素状态对齐序列给出了每一帧数据对应的状态,作为声学特征的标注参与神经网络模型的自适应训练。深度神经网络声学模型以音素状态序列中的音素状态ID作为基本建模单元。
深度神经网络声学通用模型具有一个输入层,多个隐藏层和一个输出层,声学特征送入输入层,经过前向运算后输出层输出各声学建模单元的后验概率。现在对已有的深度神经网络声学通用模型的最后一层隐藏层和输出层进行复制,创建一个新的输出支路作为第二输出支路。此时的深度神经网络声学模型具有两条输出支路,当声学特征送入输入层后,经过前向运算,两个输出层均会输出各自的后验概率。该深度神经网络声学模型可以看成是两个参数共享的独立的深度神经网络声学模型;从图3中可以看到,除最后一个隐层和输出层外,两个深度神经网络声学模型共享了底层所有的参数。
使用反向传播算法对所述深度神经网络声学模型进行多次迭代训练得到目标声学模型。在模型迭代训练中新创建输出支路中的隐层和输出层逐渐学习到目标领域语音数据的统计特性,因而该输出支路能够大幅度提升目标领域下语音数据的识别性能。而模型原有输出支路由于没有参与训练因此在其他领域下语音识别性能将保持不变。
由于原有输出支路没有参与训练,即第一输出支路没有参与训练,第一输出支路在非目标领域上的识别性能与原始的深度神经网络声学通用模型完全相同,而新建支路由于使用目标领域语音数据进行了参数更新,因此在目标领域上的识别性能会优于原始的深度神经网络声学通用模型。将第一输出支路和第二输出支路的后验概率进行似然度融合能够充分利用两个输出支路各自在非目标领域与目标领域的建模能力,在提升目标领域识别性能的基础上也保持了原始的深度神经网络声学通用模型在非目标领域下的识别性能。
一种语音模型自适应训练系统,包括声学特征提取系统,用于对训练音频或测试音频提取梅尔频谱特征;音素对齐系统,用于将训练声学特征生成音素对齐序列,然后将所述音素对齐序列转换为音素状态对齐序列;后验概率计算系统,所述后验概率计算系统包括预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型,所述第一输出支路为深度神经网络通用声学模型原有的输出支路,所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路,所述后验概率计算系统用于将声学特征经过前向运算后分别输出第一后验概率和第二后验概率;自适应训练系统,所述自适应训练系统在训练时用于将音素状态对齐序列与第二后验概率通过交叉熵准则对所述深度神经网络声学模型的第二输出支路的参数进行更新;似然度融合系统,用于将训练后的后验概率计算系统计算测试音频的声学特征得到的第一后验概率和第二后验概率,并进行似然度融合计算;解码器系统,用于将经过似然度融合系统得到的似然度送入解码器解码生成语音的文本。
一种语音模型自适应训练装置,所述装置包括处理器、存储器以及程序;所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行语音模型自适应训练方法的步骤。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
一种计算机可读存储介质,所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行语音模型自适应训练方法的步骤。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。
Claims (5)
1.一种语音模型自适应训练方法,其特征在于,包括训练和解码;
所述训练包括以下步骤:
S11、训练声学特征提取,对训练音频进行预加重,加窗分帧,提取训练声学特征,所述训练声学特征选择梅尔频谱特征;
S12、生成音素状态对齐序列,将训练声学特征通过深度神经网络通用声学模型生成音素对齐序列,然后利用决策树将所述音素对齐序列转换为音素状态对齐序列,使用音素状态对齐序列中的音素状态ID作为声学建模基本单元;
S13、计算训练后验概率,将S11中提取的训练声学特征送入预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型中,经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率,其中所述第一输出支路为深度神经网络通用声学模型原有的输出支路,所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路;
S14、自适应训练,将S12中得到的音素状态对齐序列与S13中得到的第二后验概率计算交叉熵准则,所述交叉熵准则的数学公式为:
式中:
st表示t时刻音素状态对齐序列中的音素状态ID;
p1(st|xt)表示t时刻第二输出支路在建模单元st输出的第二后验概率;
所述交叉熵准则为模型的目标函数,通过批量随机梯度下降算法对S13中第二输出支路隐藏层和输出层的参数进行更新,所述第一输出支路及底层共享层的参数保持不变;
所述解码包括以下步骤:
S21、测试声学特征提取,对测试音频进行预加重,加窗分帧,提取测试声学特征,所述测试声学特征选择梅尔频谱特征;
S22、计算测试后验概率,将S21中提取的测试声学特征xt送入经过训练的所述深度神经网络声学模型中,经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率;
S23、似然度计算与融合,先进行似然度的计算,然后进行似然度的融合;
似然度的计算:
将S22中得到的第一后验概率和第二后验概率进行似然度计算,似然度计算公式如下:
式中:
p0(xt|k)表示测试声学特征xt,第一输出支路中建模单元k的似然度;
p1(xt|k)表示测试声学特征xt,第二输出支路中建模单元k的似然度;
p0(k|xt)表示测试声学特征xt,第一输出支路建模单元k输出的后验概率;
p1(k|xt)表示测试声学特征xt,第二输出支路建模单元k输出的后验概率;
p(k)为建模单元k的先验概率,所述先验概率从状态对齐序列中统计得到;
似然度的融合:
对第一输出支路中各声学建模单元的似然度和经过参数更新后的第二输出支路中各声学建模单元的似然度进行融合,融合公式为:
p(xt|k)=w0×p0(xt|k)+w1×p1(xt|k)
w0为第一输出支路输出的似然度的融合权重系数;
w1为第二输出支路输出的似然度的融合权重系数;
w0和w1满足w0+w1=1;
S23、生成语音的文本,将经过融合的似然度送入解码器解码生成语音的文本。
2.根据权利要求1所述的一种语音模型自适应训练方法,其特征在于,
所述S11和S21中帧长选择25ms,帧移10ms,梅尔滤波器阶数续选择为40,对得到的静态梅尔频谱特征进行均值归一化并计算其一阶差分和二阶差分。
3.一种语音模型自适应训练系统,其特征在于,包括
声学特征提取系统,用于对训练音频或测试音频提取梅尔频谱特征;
音素对齐系统,用于将训练声学特征生成音素对齐序列,然后将所述音素对齐序列转换为音素状态对齐序列;
后验概率计算系统,所述后验概率计算系统包括预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型,所述第一输出支路为深度神经网络通用声学模型原有的输出支路,所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路,所述后验概率计算系统用于将声学特征经过前向运算后分别输出第一后验概率和第二后验概率;
自适应训练系统,所述自适应训练系统在训练时用于将音素状态对齐序列与第二后验概率通过交叉熵准则对所述深度神经网络声学模型的第二输出支路的参数进行更新;
似然度融合系统,用于将训练后的后验概率计算系统计算测试音频的声学特征得到的第一后验概率和第二后验概率,并进行似然度融合计算;
解码器系统,用于将经过似然度融合系统得到的似然度送入解码器解码生成语音的文本。
4.一种语音模型自适应训练装置,其特征在于,所述装置包括
处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行权利要求1所述的语音模型自适应训练方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行权利要求1所述的语音模型自适应训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010033373.4A CN111243574B (zh) | 2020-01-13 | 2020-01-13 | 一种语音模型自适应训练方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010033373.4A CN111243574B (zh) | 2020-01-13 | 2020-01-13 | 一种语音模型自适应训练方法、系统、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243574A CN111243574A (zh) | 2020-06-05 |
CN111243574B true CN111243574B (zh) | 2023-01-03 |
Family
ID=70880814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010033373.4A Active CN111243574B (zh) | 2020-01-13 | 2020-01-13 | 一种语音模型自适应训练方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243574B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833852B (zh) * | 2020-06-30 | 2022-04-15 | 思必驰科技股份有限公司 | 一种声学模型的训练方法、装置以及计算机可读存储介质 |
CN111816171B (zh) * | 2020-08-31 | 2020-12-11 | 北京世纪好未来教育科技有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN112951276B (zh) * | 2021-04-23 | 2024-02-20 | 北京一起教育科技有限责任公司 | 一种综合评价语音的方法、装置及电子设备 |
CN112863486B (zh) * | 2021-04-23 | 2021-07-23 | 北京一起教育科技有限责任公司 | 一种基于音素的口语评测方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143486A (ja) * | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
US7216077B1 (en) * | 2000-09-26 | 2007-05-08 | International Business Machines Corporation | Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation |
WO2018054361A1 (zh) * | 2016-09-23 | 2018-03-29 | 合肥华凌股份有限公司 | 语音识别的环境自适应方法、语音识别装置和家用电器 |
CN108172218A (zh) * | 2016-12-05 | 2018-06-15 | 中国移动通信有限公司研究院 | 一种语音建模方法及装置 |
CN110349571A (zh) * | 2019-08-23 | 2019-10-18 | 北京声智科技有限公司 | 一种基于连接时序分类的训练方法及相关装置 |
CN110603583A (zh) * | 2017-05-11 | 2019-12-20 | 三菱电机株式会社 | 语音识别系统和用于语音识别的方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4964194B2 (ja) * | 2008-07-09 | 2012-06-27 | 日本電信電話株式会社 | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 |
JP2013064951A (ja) * | 2011-09-20 | 2013-04-11 | Toyota Motor Corp | 音響モデル適応装置、その適応方法及びプログラム |
JP5752060B2 (ja) * | 2012-01-19 | 2015-07-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、大語彙連続音声認識方法及びプログラム |
JP6027754B2 (ja) * | 2012-03-05 | 2016-11-16 | 日本放送協会 | 適応化装置、音声認識装置、およびそのプログラム |
CN104143327B (zh) * | 2013-07-10 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN107293291B (zh) * | 2016-03-30 | 2021-03-16 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN105976812B (zh) * | 2016-04-28 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
US10923110B2 (en) * | 2017-08-25 | 2021-02-16 | International Business Machines Corporation | Priors adaptation for conservative training of acoustic model |
CN108417207B (zh) * | 2018-01-19 | 2020-06-30 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
CN108735199B (zh) * | 2018-04-17 | 2021-05-28 | 北京声智科技有限公司 | 一种声学模型的自适应训练方法及系统 |
CN110634472B (zh) * | 2018-06-21 | 2024-06-04 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
CN110379415B (zh) * | 2019-07-24 | 2022-02-18 | 出门问问(苏州)信息科技有限公司 | 领域自适应声学模型的训练方法 |
-
2020
- 2020-01-13 CN CN202010033373.4A patent/CN111243574B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143486A (ja) * | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
US7216077B1 (en) * | 2000-09-26 | 2007-05-08 | International Business Machines Corporation | Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation |
WO2018054361A1 (zh) * | 2016-09-23 | 2018-03-29 | 合肥华凌股份有限公司 | 语音识别的环境自适应方法、语音识别装置和家用电器 |
CN108172218A (zh) * | 2016-12-05 | 2018-06-15 | 中国移动通信有限公司研究院 | 一种语音建模方法及装置 |
CN110603583A (zh) * | 2017-05-11 | 2019-12-20 | 三菱电机株式会社 | 语音识别系统和用于语音识别的方法 |
CN110349571A (zh) * | 2019-08-23 | 2019-10-18 | 北京声智科技有限公司 | 一种基于连接时序分类的训练方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
Context adaptive deep neural networks for fast acoustic model adaptation;Marc Delcroix et al;《2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20150806;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111243574A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243574B (zh) | 一种语音模型自适应训练方法、系统、装置及存储介质 | |
EP3926623B1 (en) | Speech recognition method and apparatus, and neural network training method and apparatus | |
CN112435656B (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
CN112289299B (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
EP3504703A1 (en) | A speech recognition method and apparatus | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN108364650B (zh) | 语音识别结果的调整装置及方法 | |
CN110648659B (zh) | 基于多任务模型的语音识别与关键词检测装置和方法 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN112949708A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN111916058A (zh) | 一种基于增量词图重打分的语音识别方法及系统 | |
CN109616093A (zh) | 端对端语音合成方法、装置、设备及存储介质 | |
CN112259089A (zh) | 语音识别方法及装置 | |
CN113241064A (zh) | 语音识别、模型训练方法、装置、电子设备和存储介质 | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
CN116956835A (zh) | 一种基于预训练语言模型的文书生成方法 | |
KR102655933B1 (ko) | 데이터 증강 방법 및 장치 | |
CN113077783B (zh) | 小语种语音语料扩增方法、装置及电子设备和存储介质 | |
US20200356850A1 (en) | Fusion of neural networks | |
CN111881293A (zh) | 一种风险内容识别方法及装置、服务器、存储介质 | |
JP2020129061A (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
CN115589446A (zh) | 一种基于预训练与提示的会议摘要生成方法及系统 | |
EP3989219B1 (en) | Method for detecting an audio adversarial attack with respect to a voice command processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN113689866A (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |