CN114842837B - 一种快速声学模型训练方法 - Google Patents

一种快速声学模型训练方法 Download PDF

Info

Publication number
CN114842837B
CN114842837B CN202210777216.3A CN202210777216A CN114842837B CN 114842837 B CN114842837 B CN 114842837B CN 202210777216 A CN202210777216 A CN 202210777216A CN 114842837 B CN114842837 B CN 114842837B
Authority
CN
China
Prior art keywords
training
model
parameter vector
axis direction
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210777216.3A
Other languages
English (en)
Other versions
CN114842837A (zh
Inventor
高君效
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202210777216.3A priority Critical patent/CN114842837B/zh
Publication of CN114842837A publication Critical patent/CN114842837A/zh
Application granted granted Critical
Publication of CN114842837B publication Critical patent/CN114842837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种快速声学模型训练方法,包括如下步骤:步骤1.准备包括多个语音数据样本的样本集;将样本集平均分割成多个子集,每一批子集的子集数量与后续步骤中的进程数量n相同;步骤2.每次将一批子集送入使用n个不同进程进行训练;训练后对各个进程得到的模型参数结果进行合并;步骤3.利用合并后的模型参数向量对各个模型进行更新;步骤4.重复步骤2和3,每一次步骤2使用的子集批号不同;直到达到训练结束条件,训练完成。本发明优化了并行进程的训练方式,可以减少声学模型参数训练时间,同时保持了较高的识别精度。

Description

一种快速声学模型训练方法
技术领域
本发明属于语音识别技术领域,具体涉及一种快速声学模型训练方法。
背景技术
传统的声学建模方式基于隐马尔科夫框架,采用混合高斯模型( Gaussianmixture model,GMM)描述语音声学特征的概率分布,由于隐马尔科夫模型属于典型的浅层学习结构,仅含单个将原始输入信号转换到特定问题空间特征的简单结构,在海量数据下性能受到限制,将神经网络和隐马尔科夫模型配合使用,使用混合模型对输出概率分布进行建模,虽然能够大幅提升整体效果,但加剧了时间消耗,尤其是训练整体时长。
连续语音识别解码机制严重依赖于声学模型的训练,声学模型的训练决定了语音识别解码的整体性能,大数据量的语音语料投入训练以提高综合性能,但是训练周期很长,可达数月之久。大数据量声学模型训练的严重耗时是亟待解决的一个问题。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种快速声学模型训练方法。
本发明公开了一种快速声学模型训练方法,包括如下步骤:
步骤1.准备包括多个语音数据样本的样本集;将样本集平均分割成多个子集批,每个子集批的子集数量为n;
步骤2.每次将同一子集批的n个子集送入使用n个不同进程进行训练,n大于1;其中对第一次训练,各个进程调用的初始模型相同;
训练后对各个进程得到的模型参数结果利用公式1进行合并,如下:
Figure 53845DEST_PATH_IMAGE001
公式1
其中Jj为合并后的模型参数向量, h表示梯度计算符号,
Figure 970985DEST_PATH_IMAGE002
为第i个进程第j次训练时得到的x轴方向参数向量,
Figure 750722DEST_PATH_IMAGE003
为第i个进程 第j次训练时得到的y轴方向参数向量 ,上标i表示不同的模型;下标j表示不同的训练次数;
步骤3.利用合并后的模型参数向量Jj求偏导得出x和y方向的参数向量并对各个模型进行更新;
Figure 208248DEST_PATH_IMAGE004
公式2
Δ表示求偏导,其中求得的x(0)j+1为用于对模型第(j+1)次训练开始前更新的x轴方向参数向量,y(0)j+1为用于对模型第(j+1)次训练开始前更新的y轴方向参数向量;
步骤4.重复步骤2和3,每一次步骤2使用的子集批号不同;直到达到训练结束条件,训练完成。
优选的,所述步骤4中训练结束条件是样本集中的全部子集批使用完成,或者是被训练模型的损失函数达到设定阈值。
优选的,步骤3中以公式3替换公式2,对不同模型的参数进行分别调整:
Figure 22621DEST_PATH_IMAGE005
公式3
其中Δ表示求偏导,Jj为步骤2求得的合并后的模型参数向量;
Figure 845083DEST_PATH_IMAGE006
表示第i个进程下的模型第(j+1)次训练开始时的x轴方向参数向量;
Figure 925166DEST_PATH_IMAGE007
表示第i个进程下的模型第(j+1)次训练开始时的y轴方向参数向量;
Figure 124066DEST_PATH_IMAGE008
表示第i个进程下的第j次训练产生的修正参数;
Figure 792945DEST_PATH_IMAGE009
公式4;h表示梯度计算符号,α表示学习率。
优选的,以公式5替换公式4计算
Figure 848625DEST_PATH_IMAGE008
Figure 602955DEST_PATH_IMAGE010
公式5,其中h表示梯度计算符号,α表示学习率,m为动量系数。
本发明优化了并行进程的训练方式,可以减少声学模型参数训练时间,同时保持了较高的识别精度。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明针对长语句和大词汇量的连续语音识别的训练阶段,提出一种快速声学模型训练方法。本发明所述快速声学模型训练方法,包括如下步骤:
步骤1. 准备包括多个语音数据样本的样本集;将样本集平均分割成多个子集批,每个子集批的子集数量为n;
步骤2.每次将一批子集送入使用相同初始模型的n个不同进程进行训练;n大于1;其中对第一次训练,各个进程调用的初始模型相同;而对后续训练,各个进程使用的模型可能相同,也可能不同。
本发明所述不同进程,可以是同一设备如同一CPU同时运行的多个进程,也可以是不同设备如多个CPU 同时运行的多个进程。
训练后对各个进程得到的模型参数结果利用公式1进行合并,如下:
Figure 339967DEST_PATH_IMAGE001
公式1
其中Jj为合并后的模型参数向量,包括x和y轴两个方向的向量,h表示梯度计算符号,
Figure 863352DEST_PATH_IMAGE002
为第i个进程第j次训练时得到的x轴方向参数向量,
Figure 106245DEST_PATH_IMAGE003
为第i个进程 第j次训练时得到的y轴方向参数向量 ,上标i表示不同的模型;下标j表示不同的训练次数;
步骤3.利用合并后的模型参数向量Jj求偏导得出x和y方向的参数向量并对各个模型进行更新;
Figure 347871DEST_PATH_IMAGE004
公式2
Δ表示求偏导,其中求得的x(0)j+1为用于对模型第(j+1)次训练开始前更新的x轴方向参数向量,y(0)j+1为用于对模型第(j+1)次训练开始前更新的y轴方向参数向量,使用公式2时,各个进程采用相同的更新参数更新模型。
步骤4.重复步骤2和3,每一次步骤2使用的子集批号不同;直到达到训练结束条件,训练完成。
训练结束条件是样本集中的全部子集批使用完成,或者是损失函数达到设定阈值。
现有技术中,在训练过程每轮迭代更新模型参数时使用多个批次数据同时训练的方法,使用两个模型同时训练数据样本集时,分别得到参数集J1.1和J1.2,在参数集J1.1和J1.2两个训练结果的基础上做参数平均得到平均化后的参数J1=(J1.1+J1.2)/2,利用平均化后的参数J1更新两个模型。如果提速的意愿更加强烈,使用较高分批数量并行训练,如分批数量n=4,8,16…等,n的取值根据系统CPU核数或GPU核心等配置。
上述训练过程存在以下风险:一个容易产生的问题是不同进程或不同设备之间的计算速度和计算精度两个方面存在差异,比如说某一个切分片段的计算速度方面在下降计算时间略长,这样会造成模型训练无法取平均,此时需要等待最慢的一个进程或设备完成计算。
采用本发明所述方法即公式1的更新方式,采用梯度下降计算方法,每次迭代使用一个样本来对参数进行更新,使得训练速度加快。多个进程在使用各自的分块数据训练后梯度数值合并更新模型,然后以本次迭代的相同平均初始模型参数继续下一轮迭代,更新后的参数对模型进行统一更新,这种方式在训练速度上和训练过程的稳定性方面做了折中考虑,并且对训练主机本地数据传输方面不会产生更多时间开销。
在步骤3中,一个优选实施方式为:对参数向量进行修正,具体为以公式3替换公式2中的统一调整方式,对不同模型的参数进行分别调整:
Figure 622994DEST_PATH_IMAGE005
公式3
其中
Figure 328782DEST_PATH_IMAGE006
表示第i个进程下的模型第(j+1)次训练开始时的x轴方向参数向量,
Figure 663949DEST_PATH_IMAGE007
表示第i个进程下的模型第(j+1)次训练开始时的y轴方向参数向量;
Figure 392870DEST_PATH_IMAGE008
表示第i个进程下的第j次训练产生的修正参数;
其中修正参数
Figure 471685DEST_PATH_IMAGE009
公式4;
h表示梯度计算符号,α表示设定的学习率;学习率根据经验、训练目标和样本的质量决定,例如样本数量越少,训练目标要求越精确,可调高学习率,而训练时间希望越短,可适当调低学习率;修正后,考虑了上一次学习训练过程中不同模型由于输入的子集不同对参数的影响,结合学习率对下一次训练前的不同模型参数进行适应性调整,可以改善后续模型的识别精度。
在进一步结合动量系数(momentum)m对公式4进行修正后得到公式5
Figure 803219DEST_PATH_IMAGE010
公式5,
h表示梯度计算符号,α表示设定的学习率;修正后的公式5加入动量系数起到加速收敛和提高训练过程中参数迭代稳定性的作用,提高学习速率以快速达到收敛,缩短训练时间。动量系数m 的取值根据经验设定,主要是根据样本训练在模型更新过程中表现在0-1范围内取值,例如更新较为剧烈,可适当调低动量系数。
一个具体实施例中,选择四核服务器进行训练,每一个核单独运行一个进程,即n=4;将样本集划分为每个子集1000个1.5秒时长的中文汉字音频,准备不限量的子集,按批送入典型的隐马尔科夫模型按照本发明所述方法进行训练。对比实施例为将相同样本集按照相同顺使用传统方法即直接平均化参数更新进行训练,设置损失函数阈值0.01为阈值,即达到损失函数阈值停止训练。训练后利用训练后的模型进行安静环境下的人声语音识别。
经过训练发现,与对比实施例相比,本发明所述声学模型训练方法在保持识别性基本不变的同时缩短了训练时间,本发明训练得到的模型相对传统技术训练时间缩短了8%-14%,而训练完成的模型对相同样本的识别率几乎没有变化。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (3)

1.一种快速声学模型训练方法,其特征在于,包括如下步骤:
步骤1.准备包括多个语音数据样本的样本集;将样本集平均分割成多个子集批,每个子集批的子集数量为n;
步骤2.每次将同一子集批的n个子集送入使用n个不同进程进行训练,n大于1;其中对第一次训练,各个进程调用的初始模型相同;
训练后对各个进程得到的模型参数结果利用公式1进行合并,如下:
Figure 583336DEST_PATH_IMAGE001
公式1
其中Jj为合并后的模型参数向量, h表示梯度计算符号,
Figure 159810DEST_PATH_IMAGE003
为第i个进程第j次训练时得到的x轴方向参数向量,
Figure 869534DEST_PATH_IMAGE005
为第i个进程 第j次训练时得到的y轴方向参数向量 ,上标i表示不同的模型;下标j表示不同的训练次数;
步骤3.利用合并后的模型参数向量Jj求偏导得出x和y方向的参数向量并对各个模型进行更新;
Figure 746223DEST_PATH_IMAGE006
公式3
其中Jj为步骤2求得的合并后的模型参数向量;
Figure 381735DEST_PATH_IMAGE008
表示第i个进程下的模型第(j+1)次训练开始时的x轴方向参数向量;
Figure DEST_PATH_IMAGE010
表示第i个进程下的模型第(j+1)次训练开始时的y轴方向参数向量;
Figure DEST_PATH_IMAGE012
表示第i个进程下的第j次训练产生的修正参数;
Figure DEST_PATH_IMAGE013
公式4;
h表示梯度计算符号,α表示学习率;Δ表示求偏导,其中求得的x(0)j+1为用于对模型第(j+1)次训练开始前更新的x轴方向参数向量,y(0)j+1为用于对模型第(j+1)次训练开始前更新的y轴方向参数向量;
步骤4.重复步骤2和3,每一次步骤2使用的子集批号不同;直到达到训练结束条件,训练完成。
2.如权利要求1所述快速声学模型训练方法,其特征在于,所述步骤4中训练结束条件是样本集中的全部子集批使用完成,或者是被训练模型的损失函数达到设定阈值。
3.如权利要求1所述快速声学模型训练方法,其特征在于,以公式5替换公式4计算
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
公式5,其中h表示梯度计算符号,α表示学习率,m为动量系数。
CN202210777216.3A 2022-07-04 2022-07-04 一种快速声学模型训练方法 Active CN114842837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210777216.3A CN114842837B (zh) 2022-07-04 2022-07-04 一种快速声学模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210777216.3A CN114842837B (zh) 2022-07-04 2022-07-04 一种快速声学模型训练方法

Publications (2)

Publication Number Publication Date
CN114842837A CN114842837A (zh) 2022-08-02
CN114842837B true CN114842837B (zh) 2022-09-02

Family

ID=82574520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210777216.3A Active CN114842837B (zh) 2022-07-04 2022-07-04 一种快速声学模型训练方法

Country Status (1)

Country Link
CN (1) CN114842837B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
CN107330516A (zh) * 2016-04-29 2017-11-07 腾讯科技(深圳)有限公司 模型参数训练方法、装置及系统
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
CN111382844A (zh) * 2020-03-11 2020-07-07 华南师范大学 一种深度学习模型的训练方法及装置
CN112052958A (zh) * 2020-09-04 2020-12-08 京东数字科技控股股份有限公司 模型训练的方法、装置、设备及计算机可读存储介质
CN113707135A (zh) * 2021-10-27 2021-11-26 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN114282665A (zh) * 2021-08-12 2022-04-05 腾讯科技(深圳)有限公司 神经网络模型的并行训练方法、装置以及电子设备
CN114548206A (zh) * 2021-12-16 2022-05-27 鹏城实验室 一种基于集群的模型训练方法、装置、设备及存储介质
CN114819046A (zh) * 2021-01-29 2022-07-29 华为云计算技术有限公司 神经网络的训练方法及其装置、计算机设备、存储介质
CN114818785A (zh) * 2022-04-01 2022-07-29 浙江大学 基于多模型融合的信号调制方式识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9630318B2 (en) * 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
CN108701452B (zh) * 2016-02-02 2023-09-26 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法
CN107330516A (zh) * 2016-04-29 2017-11-07 腾讯科技(深圳)有限公司 模型参数训练方法、装置及系统
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
CN111382844A (zh) * 2020-03-11 2020-07-07 华南师范大学 一种深度学习模型的训练方法及装置
CN112052958A (zh) * 2020-09-04 2020-12-08 京东数字科技控股股份有限公司 模型训练的方法、装置、设备及计算机可读存储介质
CN114819046A (zh) * 2021-01-29 2022-07-29 华为云计算技术有限公司 神经网络的训练方法及其装置、计算机设备、存储介质
CN114282665A (zh) * 2021-08-12 2022-04-05 腾讯科技(深圳)有限公司 神经网络模型的并行训练方法、装置以及电子设备
CN113707135A (zh) * 2021-10-27 2021-11-26 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN114548206A (zh) * 2021-12-16 2022-05-27 鹏城实验室 一种基于集群的模型训练方法、装置、设备及存储介质
CN114818785A (zh) * 2022-04-01 2022-07-29 浙江大学 基于多模型融合的信号调制方式识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
" Kernel machines that adapt to GPUs for effective large batch training";Ma S;《Proceedings of the 2nd SysML conference》;20191231;全文 *
"Train faster, generalize better: stability of stochastic gradient descent";Hardt M;《International Conference on Machine Learning》;20161231;全文 *

Also Published As

Publication number Publication date
CN114842837A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
Hadian et al. End-to-end Speech Recognition Using Lattice-free MMI.
Liu et al. Speaker embedding extraction with phonetic information
CN108763504B (zh) 一种基于强化双通道序列学习的对话回复生成方法及系统
Sudhakara et al. An Improved Goodness of Pronunciation (GoP) Measure for Pronunciation Evaluation with DNN-HMM System Considering HMM Transition Probabilities.
US20200402497A1 (en) Systems and Methods for Speech Generation
CN108701452B (zh) 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质
Liu et al. Two efficient lattice rescoring methods using recurrent neural network language models
Bao et al. Incoherent training of deep neural networks to de-correlate bottleneck features for speech recognition
CN109326277B (zh) 半监督的音素强制对齐模型建立方法及系统
Yamagishi et al. A training method of average voice model for HMM-based speech synthesis
WO2008137616A1 (en) Multi-class constrained maximum likelihood linear regression
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
CN110858480B (zh) 一种基于n元文法神经网络语言模型的语音识别方法
Jaitly et al. Autoregressive product of multi-frame predictions can improve the accuracy of hybrid models.
CN114842837B (zh) 一种快速声学模型训练方法
CN113707135B (zh) 一种高精度连续语音识别的声学模型训练方法
CN110895933B (zh) 一种基于空时残差神经网络的远场语音识别方法
Zhang et al. Rectified linear neural networks with tied-scalar regularization for LVCSR
CN104376850B (zh) 一种汉语耳语音的基频估计方法
Itaya et al. Deterministic annealing EM algorithm in acoustic modeling for speaker and speech recognition
Qin et al. Minimum generation error criterion considering global/local variance for HMM-based speech synthesis
Liu et al. Lattice based optimization of bottleneck feature extractor with linear transformation
Petrov et al. Learning structured models for phone recognition
Xu et al. An i-vector Based Approach to Acoustic Sniffing for Irrelevant Variability Normalization Based Acoustic Model Training and Speech Recognition.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant