CN109559734B

CN109559734B - 声学模型训练的加速方法和装置

Info

Publication number: CN109559734B
Application number: CN201811552516.1A
Authority: CN
Inventors: 李云峰; 郝庆畅; 盖于涛; 孙晨曦; 周志平
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2022-02-18
Anticipated expiration: 2038-12-18
Also published as: CN109559734A; US11302303B2; US20200193964A1

Abstract

本发明实施例提出一种声学模型训练的加速方法和装置。该方法包括：将声学模型训练过程按照步骤划分为多个任务；获取计算节点集群中各节点的资源占用情况；根据各节点的资源占用情况和任务复杂度，向各节点分发对应的任务。本发明实施例可以利用分布在多个节点的计算资源对声学模型训练任务进行分布式并行计算，提高训练效率，适用于大规模声学模型训练的复杂情况。

Description

声学模型训练的加速方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种分布式声学模型训练方法和装置。

背景技术

随着信息时代各项技术的发展，语音合成也逐渐进入大数据时代，语音数据的获取变得越来越容易。与小语料库相比，大语料库可给语音合成带来更多的好处：能够实现更全的模型上下文覆盖，能够提供更加丰富的训练样本，能够提供更加丰富的韵律现象。

目前大语料库的声学模型训练，采用单机部分任务多进程方式训练。由于大语料库的HMM模型(Hidden Markov Model隐式马尔可夫模型)数目急剧增加导致内存占有量过大，单机部分任务都只能开启少量进程并行或者单进程运行，训练时间很长，不能满足快速模型训练的需求。因此，需要一种声学训练模型的加速方法和装置。

发明内容

本发明实施例提供一种声学模型训练的加速方法和装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种声学模型训练的加速方法，包括：

将声学模型训练过程按照步骤划分为多个任务；

获取计算节点集群中各节点的资源占用情况；

根据各节点的资源占用情况和任务复杂度，向各节点分发对应的任务。

在一种实施方式中，所述声学模型训练过程包括语音参数提取部分，将声学模型训练过程按照步骤划分为多个任务，包括：

根据训练模型的任务复杂度和计算节点规模，将所述语音参数提取部分的每个步骤划分为至少一个任务。

在一种实施方式中，所述声学模型训练过程包括HTS训练部分，将声学模型训练过程按照步骤划分为多个任务，包括：

根据训练模型的任务复杂度和计算节点规模，将HTS训练部分的每个步骤划分为至少一个任务。

在一种实施方式中，将HTS训练部分的每个步骤划分为至少一个任务，包括：将HTS训练部分中的决策树聚类步骤按特征和状态进行分解，得到多个任务。

在一种实施方式中，根据各节点的资源占用情况和任务复杂度，向各节点分发对应的任务，包括：

根据各节点的资源占用情况，确定参与声学模型训练过程的每个任务的节点；

将声学模型训练过程的每个任务分发给对应的节点执行。

第二方面，本发明实施例提供了一种声学模型训练的加速装置，包括：

划分模块，用于将声学模型训练过程按照步骤划分为多个任务；

获取模块，用于获取计算节点集群中各节点的资源占用情况；

分发模块，用于根据各节点的资源占用情况和任务复杂度，向各节点分发对应的任务。

在一种实施方式中，所述声学模型训练过程包括语音参数提取部分，所述划分模块还用于根据训练模型的任务复杂度和计算节点规模，将所述语音参数提取部分的每个步骤划分为至少一个任务。

在一种实施方式中，所述声学模型训练过程包括HTS训练部分，所述划分模块还用于根据训练模型的任务复杂度和计算节点规模，将HTS训练部分的每个步骤划分为至少一个任务。

在一种实施方式中，所述划分模块还用于将HTS训练部分中的决策树聚类步骤按特征和状态进行分解，得到多个任务。

在一种实施方式中，所述分发模块还用于根据声学模型训练中每个步骤的任务复杂度及各节点的资源占用情况，确定参与每个步骤的节点；将声学模型训练任务的每个任务分发给对应的节点执行。

第三方面，本发明实施例提供了一种声学模型训练的加速装置，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述装置的结构中包括处理器和存储器，所述存储器用于存储支持所述装置执行上述声学模型训练加速方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储分布式训练装置所用的计算机软件指令，其包括用于执行上述声学模型训练加速方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：可以利用分布在多个设备上的节点对声学模型的训练任务进行批量测试，提高训练效率，适用于语料库的声学模型训练。

上述技术方案中的另一个技术方案具有如下优点或有益效果：能够对各节点所在的设备进行统一控制，进行任务调度、可靠性监测和负载均衡等处理，合理地控制训练过程。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的声学模型训练加速方法的流程图。

图2示出根据本发明实施例的声学模型训练加速方法的流程图。

图3示出根据本发明实施例的声学模型训练加速方法的流程图。

图4示出根据本发明实施例的决策树聚类步骤流程图。

图5示出根据本发明实施例的声学模型训练加速装置的结构框图。

图6示出根据本发明实施例的声学模型训练加速装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的声学模型训练加速方法的流程图。如图1所示，该声学模型训练加速方法包括：

步骤S11、将声学模型训练过程按照步骤划分为多个任务；

步骤S12、获取计算节点集群中各节点的资源占用情况；

步骤S13、根据各节点的资源占用情况和任务复杂度，向各节点分发对应的任务。

在基于大语料库进行声学模型训练的过程中，可以将训练过程划分多个步骤，每个步骤又可分解为多个任务，在多个节点上可以并行地执行多个任务。

在一种实施方式中，步骤S11包括：获取不同的声学模型训练步骤对应的训练任务复杂度，每个步骤对应一个或多个任务，所述任务复杂度包括任务的数量、任务的上下文相关信息中的至少一项。

任务复杂度可以包括任务的数量、上下文相关信息等各种影响执行效率的因素。其中，上下文相关信息可以包括训练语音的音速、音调、节奏、韵律等语音信息。在同一训练方法中，训练语料音速、音调、节奏、韵律等的不同，可以得到不同的训练任务。

本发明实施例可以利用分布在多个设备上的多个节点对声学模型的训练任务进行批量处理，提高训练效率，适用于语料资源较多的大语料库的声学模型训练。

在一种实施方式中，步骤S12包括：获取计算节点集群中各节点的CPU(CentralProcessing Unit，中央处理器)使用情况、内存使用情况中的至少一项。

在一种实施方式中，可以配置节点的数量、节点之间的连接关系等，组成不同的分布式训练网络。利用不同的节点的空闲资源，执行不同的训练步骤的任务。

例如，对根据训练任务的不同，增加或者减少参与计算的节点数量，从而充分利用各节点的利用效率。

再如，对节点之间的连接关系进行调整，可以形成不同拓扑结构的分布式网络，如星型、总线型等，从而提高指令及数据交互效率，增加并行化水平。

在确定训练步骤的数量后，可以根据每个训练步骤分解出的任务数量确定训练节点的数量。例如，可以为每个训练任务分配一个对应的节点。如果需要批量执行100个训练任务，则需要100个节点。再如，可以为多个训练任务分配一个对应的节点。如果需要批量执行100个训练任务，每个节点执行5个训练任务，则需要20个节点。

在本发明实施例中，可以预先对任务进行分配。在计算资源受限或执行效率低下时，根据需要配置增加节点的个数；在计算资源充裕或执行效率较高时，根据需要配置减少节点的个数。例如，目前有100个节点参与训练，如果监测到计算资源受限或执行效率低时，可以将节点数扩展至120个；如果计算资源充裕或执行效率较高时，可以将节点数减少至80个。相应地，节点的增加或减少可以设计为动态智能的，也可以手工方式进行。

在一种示例中，可以随机分配任务，以降低监控模块的通信及处理压力。进入随机分配状态后，同一任务被重复分配给同一节点的概率大为降低，从而能够比较均衡地调动各节点的计算资源。

在一种实施方式中，如图2所示，该方法还包括：

步骤S21、监测各节点所在的设备的运行状态。

步骤S22、根据各节点所在的设备的运行状态对任务调度、可靠性监测和负载均衡中的至少一种控制。

在一种示例中，可以根据设备的运行状态判断节点所在的设备是否可靠。例如是否经常死机、运行速度是否太慢、训练结果是否准确等。如果声学模型的训练结果总是特别差，可以考虑是否需要修改声学模型的算法。如果某个节点设备的运行速度特别慢，考虑设备硬件或软件是否出现问题。

在一种示例中，如果监测到各节点所在的设备A1、A2、A3、A4的负载率分别为10％、0、80％、60％，可以采用负载均衡策略，将新的训练任务分配给负载率为10％或0的设备A1或A2处理。

如图3所示，在一种应用示例中，声学模型训练可以划分为语音参数提取(S31)和HTS(HMM-based Speech Synthesis,基于隐式马尔可夫模型的语音合成)训练(S32)两个部分。其中，HTS训练部分又可以包括S321-S325。该声学模型训练的加速方法可以具体包括以下内容：

S31、语音参数提取。对语音库进行语音参数的提取。在一种示例中，在语音参数提取过程中，可以基于slurm(Simple Linux Utility for Resource Management，Linux平台简单实用资源管理工具)集群的规模和训练语料的音频数据量，将语音参数提取拆分成多个任务。通过slurm的srun工具分发到slurm集群的节点。srun工具可以为作业分配一个计算资源并启动一个任务，可以充分利用集群的CPU资源，加快提取语音参数：fo(fundamental frequency,基频)、谱参数mgc(Mel-Generalized Cepstral，广义梅尔倒谱系数)等。

S32、HTS训练。在一种示例中，可以将HTS训练过程分解为步骤S321-S325。分别为：单因子模型训练、上下文相关模型训练、模型分状态预绑定、基于决策树的模型聚类、聚类后的模型训练。基于slurm集群的规模、工作机器的CPU个数和内存情况、训练数据的规模等可以将每个步骤，再拆分成多个任务。通过slurm的srun工具向各节点分发到集群中的节点，充分利用集群的CPU资源，并降低了大语料库对训练机器内存的要求，加快了HTS训练整个过程。

S321、单音子模型训练。模型训练过程中，音子的数量与产生的HMM模型数量相等。在一种示例中，基于slurm集群的规模、工作机器的CPU个数和内存情况、训练数据的规模，将这些HMM模型拆分成多个任务，通过slurm的srun工具分发到集群中的多个节点进行并行训练。

S322、上下文相关的模型训练。每个音子在训练语料中所处的上下文不同，将得到多个上下文相关的HMM模型。因此，语料库越大，上下文信息越丰富，上下文相关的HMM模型数量越多。在一种示例中，基于slurm集群的规模、工作机器的CPU个数和内存情况、训练数据的规模，将上下文相关的模型训练拆分成多个任务，通过slurm的srun工具分发到集群中的多个节点进行并行训练。

S323、模型分状态预绑定。将步骤S322上下文相关模型训练得到的模型，按照状态进行预绑定。在一种示例中，可以基于slurm集群的规模、工作机器的CPU个数和内存情况、训练数据的规模，将模型分状态预绑定的步骤拆分成多个任务，通过slurm的srun工具分发到集群中的节点进行并行训练。

S324、基于决策树的模型聚类。决策树聚类的对象是上下文相关模型训练产生的HMM模型。决策树聚类过程中需要加载大量HMM模型，因此需要内存也很大。另外，聚类过程中，需要频繁计算决策树结点的对数似然值，计算量大，耗时很长。在一种示例中，可以根据语音参数模型的状态结构和语音参数特征，将决策树聚类过程分解为多个任务，并基于slurm集群的规模、工作机器的CPU个数和内存情况、训练数据的规模，将这些任务通过slurm的srun工具分发到集群中的节点进行聚类。

S325、聚类后的模型训练。在完成决策树聚类后，需要将聚类后的模型再进行训练,以提高模型的准确性。在一种示例中，这一过程可以基于slurm集群的规模、工作机器的CPU个数和内存情况、训练数据的规模，拆分为多个任务，通过slurm的srun工具分发到集群中的节点进行并行训练。

在一种应用示例中，如图4所示决策树聚类步骤流程图包含以下过程：

S41、进行数据准备，根据TB命令构造所有待聚类的数据信息，并载入至决策树聚类过程中；

S42、应用MDL(Minimun Description Length,最小描述长度)准则计算本次聚类所使用的MDL阈值。在一种示例中，对于一条TB命令，该阈值仅计算一次，在后续所有结点分裂判断时使用该同一阈值。

S43、产生决策树聚类的根结点。该步骤中可以计算出根结点的对数似然值。

S44、将产生的根结点推送至线程池模块。线程池模块存在于集群中每个机器中，主要包含任务队列、调度器和工作线程队列。任务队列用于接收外部推送至线程池模块的工作任务；调度器将工作队列头部的任务分配给线程队列；线程队列通过线程执行单元进行决策树聚类的结点分裂任务。

在一种示例中，HTS训练过程中包括HMM模型的7个状态结构。每个状态对应n个语音参数特征流。将决策树聚类过程分解为7*n个独立的决策树聚类任务。另外，加上时长模型的一个单状态单特征流的决策树聚类任务。因此，可以将整个决策树聚类过程划分为(7*n+1)个独立的决策树聚类任务。通过调度器将这(7*n+1)个任务分发给线程队列并行执行，从而提高执行效率。

S45、线程执行单元执行决策树聚类的结点分裂任务。取得一个待分裂结点后，线程首先计算该结点的对数似然值，然后判断其是否大于步骤S42得到的本次聚类使用的MDL阈值，如果小于该阈值，则将该结点放入叶子结点队列；如果大于该阈值，则再判断完其是否属于分裂问题后推送至线程池模块。

S46、结束任务。判断应结束任务后，捆绑每个叶子结点，并生成最终决策树聚类模型。

图5示出根据本发明实施例的声学模型训练加速装置的结构框图。如图5所示，该装置可以包括：

划分模块51，用于将声学模型训练过程按照步骤划分为多个任务；

获取模块52，用于获取计算节点集群中各节点的资源占用情况；

分发模块53，用于根据各节点的资源占用情况和任务复杂度，向各节点分发对应的任务。

在一种实施方式中，所述任务复杂度包括但不限于任务的数量、任务上下文相关信息中的至少一项。

在一种实施方式中，所述装置还包括监控模块，用于监测各所述节点所在的设备的运行状态,并根据各节点所在的设备的运行状态对各节点进行任务调度、可靠性监测和负载均衡中的至少一种控制。例如，监控模块可以获取各节点的CPU使用情况、内存使用情况等运行状态，根据监控到的运行状态，确定如何进行任务调度。

图6示出根据本发明实施例的声学模型训练加速装置的结构框图。如图6所示，该装置包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的事务提交方法。所述存储器910和处理器920的数量可以为一个或多个。

该装置还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种声学模型训练的加速方法，其特征在于，包括：

将声学模型训练过程按照步骤划分为多个任务，所述步骤为所述声学模型训练过程的训练步骤；

获取计算节点集群中各节点的资源占用情况；

2.根据权利要求1所述的方法，其特征在于，所述声学模型训练过程包括语音参数提取部分，将声学模型训练过程按照步骤划分为多个任务，包括：

3.根据权利要求1所述的方法，其特征在于，所述声学模型训练过程包括HTS训练部分，将声学模型训练过程按照步骤划分为多个任务，包括：

4.根据权利要求3所述的方法，其特征在于，将HTS训练部分的每个步骤划分为至少一个任务，包括：将HTS训练部分中的决策树聚类步骤按特征和状态进行分解，得到多个任务。

5.根据权利要求1所述的方法，其特征在于，根据各节点的资源占用情况和任务复杂度，向各节点分发对应的任务，包括：

将声学模型训练过程的每个任务分发给对应的节点执行。

6.一种声学模型训练的加速装置，其特征在于，包括：

获取模块，用于获取计算节点集群中各节点的资源占用情况，所述步骤为所述声学模型训练过程的训练步骤；

7.根据权利要求6所述的装置，其特征在于，所述声学模型训练过程包括语音参数提取部分，所述划分模块还用于根据训练模型的任务复杂度和计算节点规模，将所述语音参数提取部分的每个步骤划分为至少一个任务。

8.根据权利要求6所述的装置，其特征在于，所述声学模型训练过程包括HTS训练部分，所述划分模块还用于根据训练模型的任务复杂度和计算节点规模，将HTS训练部分的每个步骤划分为至少一个任务。

9.根据权利要求8所述的装置，其特征在于，所述划分模块还用于将HTS训练部分中的决策树聚类步骤按特征和状态进行分解，得到多个任务。

10.根据权利要求6所述的装置，其特征在于，所述分发模块还用于根据声学模型训练中每个步骤的任务复杂度及各节点的资源占用情况，确定参与每个步骤的节点；将声学模型训练任务的每个任务分发给对应的节点执行。

11.一种声学模型训练的加速装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。