CN114842837B

CN114842837B - 一种快速声学模型训练方法

Info

Publication number: CN114842837B
Application number: CN202210777216.3A
Authority: CN
Inventors: 高君效
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-09-02
Anticipated expiration: 2042-07-04
Also published as: CN114842837A

Abstract

一种快速声学模型训练方法，包括如下步骤：步骤1.准备包括多个语音数据样本的样本集；将样本集平均分割成多个子集，每一批子集的子集数量与后续步骤中的进程数量n相同；步骤2.每次将一批子集送入使用n个不同进程进行训练；训练后对各个进程得到的模型参数结果进行合并；步骤3.利用合并后的模型参数向量对各个模型进行更新；步骤4.重复步骤2和3，每一次步骤2使用的子集批号不同；直到达到训练结束条件，训练完成。本发明优化了并行进程的训练方式，可以减少声学模型参数训练时间，同时保持了较高的识别精度。

Description

一种快速声学模型训练方法

技术领域

本发明属于语音识别技术领域，具体涉及一种快速声学模型训练方法。

背景技术

传统的声学建模方式基于隐马尔科夫框架，采用混合高斯模型( Gaussianmixture model，GMM)描述语音声学特征的概率分布，由于隐马尔科夫模型属于典型的浅层学习结构，仅含单个将原始输入信号转换到特定问题空间特征的简单结构，在海量数据下性能受到限制，将神经网络和隐马尔科夫模型配合使用，使用混合模型对输出概率分布进行建模，虽然能够大幅提升整体效果，但加剧了时间消耗，尤其是训练整体时长。

连续语音识别解码机制严重依赖于声学模型的训练，声学模型的训练决定了语音识别解码的整体性能，大数据量的语音语料投入训练以提高综合性能，但是训练周期很长，可达数月之久。大数据量声学模型训练的严重耗时是亟待解决的一个问题。

发明内容

为克服现有技术存在的技术缺陷，本发明公开了一种快速声学模型训练方法。

本发明公开了一种快速声学模型训练方法，包括如下步骤：

步骤1.准备包括多个语音数据样本的样本集；将样本集平均分割成多个子集批，每个子集批的子集数量为n；

步骤2.每次将同一子集批的n个子集送入使用n个不同进程进行训练，n大于1；其中对第一次训练，各个进程调用的初始模型相同；

训练后对各个进程得到的模型参数结果利用公式1进行合并，如下：

公式1

其中J_j为合并后的模型参数向量， h表示梯度计算符号，

为第i个进程第j次训练时得到的x轴方向参数向量，

为第i个进程第j次训练时得到的y轴方向参数向量，上标i表示不同的模型；下标j表示不同的训练次数；

步骤3.利用合并后的模型参数向量J_j求偏导得出x和y方向的参数向量并对各个模型进行更新；

公式2

Δ表示求偏导，其中求得的x（0）_j+1为用于对模型第（j+1）次训练开始前更新的x轴方向参数向量，y（0）_j+1为用于对模型第（j+1）次训练开始前更新的y轴方向参数向量；

步骤4.重复步骤2和3，每一次步骤2使用的子集批号不同；直到达到训练结束条件，训练完成。

优选的，所述步骤4中训练结束条件是样本集中的全部子集批使用完成，或者是被训练模型的损失函数达到设定阈值。

优选的，步骤3中以公式3替换公式2，对不同模型的参数进行分别调整：

公式3

其中Δ表示求偏导，J_j为步骤2求得的合并后的模型参数向量；

表示第i个进程下的模型第（j+1）次训练开始时的x轴方向参数向量；

表示第i个进程下的模型第（j+1）次训练开始时的y轴方向参数向量；

表示第i个进程下的第j次训练产生的修正参数；

公式4；h表示梯度计算符号,α表示学习率。

优选的，以公式5替换公式4计算

；

公式5，其中h表示梯度计算符号,α表示学习率，m为动量系数。

本发明优化了并行进程的训练方式，可以减少声学模型参数训练时间，同时保持了较高的识别精度。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明针对长语句和大词汇量的连续语音识别的训练阶段，提出一种快速声学模型训练方法。本发明所述快速声学模型训练方法，包括如下步骤：

步骤1. 准备包括多个语音数据样本的样本集；将样本集平均分割成多个子集批，每个子集批的子集数量为n；

步骤2.每次将一批子集送入使用相同初始模型的n个不同进程进行训练；n大于1；其中对第一次训练，各个进程调用的初始模型相同；而对后续训练，各个进程使用的模型可能相同，也可能不同。

本发明所述不同进程，可以是同一设备如同一CPU同时运行的多个进程，也可以是不同设备如多个CPU 同时运行的多个进程。

公式1

其中J_j为合并后的模型参数向量，包括x和y轴两个方向的向量，h表示梯度计算符号，

为第i个进程第j次训练时得到的x轴方向参数向量，

公式2

Δ表示求偏导，其中求得的x（0）_j+1为用于对模型第（j+1）次训练开始前更新的x轴方向参数向量，y（0）_j+1为用于对模型第（j+1）次训练开始前更新的y轴方向参数向量，使用公式2时，各个进程采用相同的更新参数更新模型。

训练结束条件是样本集中的全部子集批使用完成，或者是损失函数达到设定阈值。

现有技术中，在训练过程每轮迭代更新模型参数时使用多个批次数据同时训练的方法，使用两个模型同时训练数据样本集时，分别得到参数集J1.1和J1.2，在参数集J1.1和J1.2两个训练结果的基础上做参数平均得到平均化后的参数J1=（J1.1+J1.2）/2，利用平均化后的参数J1更新两个模型。如果提速的意愿更加强烈，使用较高分批数量并行训练，如分批数量n=4，8，16…等，n的取值根据系统CPU核数或GPU核心等配置。

上述训练过程存在以下风险：一个容易产生的问题是不同进程或不同设备之间的计算速度和计算精度两个方面存在差异，比如说某一个切分片段的计算速度方面在下降计算时间略长，这样会造成模型训练无法取平均，此时需要等待最慢的一个进程或设备完成计算。

采用本发明所述方法即公式1的更新方式，采用梯度下降计算方法，每次迭代使用一个样本来对参数进行更新，使得训练速度加快。多个进程在使用各自的分块数据训练后梯度数值合并更新模型，然后以本次迭代的相同平均初始模型参数继续下一轮迭代，更新后的参数对模型进行统一更新，这种方式在训练速度上和训练过程的稳定性方面做了折中考虑，并且对训练主机本地数据传输方面不会产生更多时间开销。

在步骤3中，一个优选实施方式为：对参数向量进行修正，具体为以公式3替换公式2中的统一调整方式，对不同模型的参数进行分别调整：

公式3

其中

表示第i个进程下的模型第（j+1）次训练开始时的x轴方向参数向量，

表示第i个进程下的第j次训练产生的修正参数；

其中修正参数

公式4；

h表示梯度计算符号,α表示设定的学习率；学习率根据经验、训练目标和样本的质量决定，例如样本数量越少，训练目标要求越精确，可调高学习率，而训练时间希望越短，可适当调低学习率；修正后，考虑了上一次学习训练过程中不同模型由于输入的子集不同对参数的影响，结合学习率对下一次训练前的不同模型参数进行适应性调整，可以改善后续模型的识别精度。

在进一步结合动量系数（momentum）m对公式4进行修正后得到公式5

公式5，

h表示梯度计算符号,α表示设定的学习率；修正后的公式5加入动量系数起到加速收敛和提高训练过程中参数迭代稳定性的作用，提高学习速率以快速达到收敛，缩短训练时间。动量系数m 的取值根据经验设定，主要是根据样本训练在模型更新过程中表现在0-1范围内取值，例如更新较为剧烈，可适当调低动量系数。

一个具体实施例中，选择四核服务器进行训练，每一个核单独运行一个进程，即n=4；将样本集划分为每个子集1000个1.5秒时长的中文汉字音频，准备不限量的子集，按批送入典型的隐马尔科夫模型按照本发明所述方法进行训练。对比实施例为将相同样本集按照相同顺使用传统方法即直接平均化参数更新进行训练，设置损失函数阈值0.01为阈值，即达到损失函数阈值停止训练。训练后利用训练后的模型进行安静环境下的人声语音识别。

经过训练发现，与对比实施例相比，本发明所述声学模型训练方法在保持识别性基本不变的同时缩短了训练时间，本发明训练得到的模型相对传统技术训练时间缩短了8%-14%，而训练完成的模型对相同样本的识别率几乎没有变化。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。