CN111508481B

CN111508481B - 语音唤醒模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN111508481B
Application number: CN202010335105.8A
Authority: CN
Inventors: 戚萌; 张维城; 董斐; 潘思伟; 陈皓; 林福辉
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2022-11-08
Anticipated expiration: 2040-04-24
Also published as: CN111508481A

Abstract

本申请提供一种语音唤醒模型的训练方法、装置、电子设备及存储介质，该方法包括：确定唤醒词对应的待训练的关键词集，并对待训练的关键词集进行预处理，以生成待训练的关键词集的特征序列集合；通过特征序列集合对GMM‑HMM中的HMM进行初始化，并确定特征序列集合的初始分割方式；根据特征序列集合和初始分割方式对GMM‑HMM中的GMM进行参数估计，生成初始GMM‑HMM；根据特征序列集合、初始分割方式、Baum‑Welch算法和Viterbi算法对初始GMM‑HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型。实现了在训练集相对较小时，可以有效保证语音唤醒模型识别关键词的准确性。

Description

语音唤醒模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及语音唤醒技术领域，尤其涉及一种语音唤醒模型的训练方法、装置、电子设备及存储介质。

背景技术

语音技术(Speech Technology)是实现人机交互的方式之一。随着语音技术的发展和交互体验的提升，用户也越来越乐于通过语音与电子设备进行交互，例如通过语音控制电子设备完成指定工作。关键词识别技术是语音技术中的重要分支，用于对连续语音信号进行预定关键词的识别，即识别该连续语音信号中是否存在预定关键词，该技术在电子设备唤醒、对话交互界面初始化、音频索引和检索、以及语音密码验证等方面均有着广泛的应用。

现有技术中，对预定关键词的识别，通常采用基于高斯混合模型(GaussianMixture Model，GMM)-隐马尔可夫模型(Hidden Markov Model，HMM)的语音识别模型，现有技术中基于GMM-HMM的语音识别模型的训练方法，通常根据训练集语料的特征序列集合和初始分割对GMM-HMM模型进行训练，以得到语音识别模型。

然而，现有技术中语音识别模型的训练方法，需要足够大的训练集进行训练，若训练集相对较小，则语音识别模型的可靠性较低。

发明内容

本申请提供一种语音唤醒模型的训练方法、装置、电子设备及存储介质，以实现对语音唤醒模型的训练，并且在训练集相对较小时，保证了语音唤醒模型的可靠性，进而提高语音唤醒模型识别唤醒词的准确性。

第一方面，本申请实施例提供一种语音唤醒模型的训练方法，包括：

确定唤醒词对应的待训练的关键词集，并对待训练的关键词集进行预处理，以生成待训练的关键词集的特征序列集合。

通过特征序列集合对高斯混合模型GMM-隐马尔科夫模型HMM中的HMM进行初始化，并确定特征序列集合的初始分割方式。

根据特征序列集合和初始分割方式对GMM-HMM中的GMM进行参数估计，生成初始GMM-HMM。

根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型。

本申请实施例中，通过对GMM-HMM进行训练的过程中，考虑到采用Baum-Welch算法和Viterbi算法对GMM-HMM进行训练，其中，Viterbi算法可以得到特征序列集合中每个语料的最优分割方式，在通过根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练时，可以不断的更新初始分割方式，以提高对GMM-HMM进行训练的效率，相比于现有技术中，通过固定的初始分割方式和特征序列集合对GMM-HMM进行训练，本申请实施例在训练集相对较小时，可以有效保证语音唤醒模型的可靠性，进而提高语音唤醒模型识别关键词的准确性。

在一种可能的实施方式中，在语音唤醒模型训练次数为1次时，根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型，包括：

将第j个GMM-HMM和特征序列集合中的第i段语料输入Baum-Welch算法进行训练，生成第j+1个GMM-HMM，并将第j+1个GMM-HMM和第i段语料输入Viterbi算法中，得到第j+1分割方式，若判断第j+1分割方式与第j分割方式不同，则将j的值加1，并重复执行本步骤，直到判断第j+1分割方式与第j分割方式相同。

将i加1，并根据特征序列集合和更新后的初始分割方式对第j+1个GMM-HMM中的GMM进行参数估计，生成更新后的初始GMM-HMM，更新后的初始分割方式为第j+1分割方式，基于更新后的初始GMM-HMM和加1后的i，重复执行上述步骤，直到将特征序列集合中的全部语料训练完毕，以获取语音唤醒模型。

其中，j和i初始为1，且为正整数；在j＝1时，第1个GMM-HMM为初始GMM-HMM或更新后的初始GMM-HMM，且第1分割方式为初始分割方式或更新后的初始分割方式。

本申请实施例中，不仅对特征序列集合中的每个语料进行多次训练，而且在对每个语料进行训练时，更新初始分割方式为前一个语料训练结束时得到的分割方式；更新初始GMM-HMM为前一个语料训练结束时得到的GMM-HMM，进一步保证了语音唤醒模型的可靠性。

在一种可能的实施方式中，在语音唤醒模型训练次数为N次，且在进行第N次语音唤醒模型训练时，在根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型之前，方法还包括：

更新初始分割方式为第N-1次语音唤醒模型训练完毕后的最后一个GMM-HMM的分割方式；更新初始GMM-HMM为第N-1次语音唤醒模型训练完毕后的最后一个GMM-HMM；其中，N大于或等于2，且为正整数。

本申请实施例中，通过更新初始分割方式为第N-1次语音唤醒模型训练完毕后的最后一个GMM-HMM的分割方式，更新初始GMM-HMM为第N-1次语音唤醒模型训练完毕后的最后一个GMM-HMM，实现了对语音唤醒模型进行多次训练，进而提高语音唤醒模型的可靠性。

在一种可能的实施方式中，本申请实施例提供的语音唤醒模型的训练方法，还包括：

确定第N次语音唤醒模型训练对应的第N次训练集概率分布，和第N-1次语音唤醒模型训练对应的第N-1训练集概率分布；训练集概率分布为对应的语音唤醒模型训练过程中每个分割方式确定时对应获取的概率值的集合。

根据第N训练集概率分布和第N-1训练集概率分布，确定是否进行第N+1次语音唤醒模型训练。

本申请实施例中，通过根据第N训练集概率分布和第N-1训练集概率分布，确定是否进行第N+1次语音唤醒模型训练，实现了在保证语音唤醒模型的可靠性的基础上，减小训练GMM-HMM的运算量。

在一种可能的实施方式中，根据第N训练集概率分布和第N-1训练集概率分布，确定是否进行第N+1次语音唤醒模型训练，包括：

第N-1训练集概率分布中的最小概率值与第N训练概率分布中的最小概率值之间的相差数值大于第一预设阈值时，确定进行第N+1次语音唤醒模型训练。

和/或，第N-1训练集概率分布中的全部概率值之和，与第N训练集概率分布中的全部概率值之和的相差数值大于第二预设阈值时，确定进行第N+1次语音唤醒模型训练。

获取待识别的语音；根据训练后的语音唤醒模型对待识别的语音中的关键词进行识别，并在识别到关键词时，执行与关键词对应的处理操作。

本申请实施例中，通过根据训练后的语音唤醒模型对待识别的语音中的关键词进行识别，并且在待识别的语音中识别到关键词时，执行与关键词对应的处理操作，进而可以实现通过语音对设备的控制。

下面介绍本申请实施例提供的装置、电子设备、计算机可读存储介质以及计算机程序产品，其内容和效果可参考本申请实施例提供的语音唤醒模型的训练方法，不再赘述。

第二方面，本申请实施例提供一种语音唤醒模型的训练装置，包括：

处理模块，用于确定唤醒词对应的待训练的关键词集，并对待训练的关键词集进行预处理，以生成待训练的关键词集的特征序列集合。

确定模块，用于通过特征序列集合对高斯混合模型GMM-隐马尔科夫模型HMM中的HMM进行初始化，并确定特征序列集合的初始分割方式。

生成模块，用于根据特征序列集合和初始分割方式对GMM-HMM中的GMM进行参数估计，生成初始GMM-HMM。

训练模块，用于根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型。

在一种可能的实施方式中，在语音唤醒模型训练次数为1次时，训练模块，具体用于：

在一种可能的实施方式中，在语音唤醒模型训练次数为N次，且在进行第N次语音唤醒模型训练时，本申请实施例提供的语音唤醒模型的训练装置还可以包括更新模块，更新模块，用于：

在一种可能的实施方式中，确定模块，还用于：

在一种可能的实施方式中，确定模块，具体用于：

在一种可能的实施方式中，本申请实施例提供的语音唤醒模型的训练装置，还包括：

获取模块，用于获取待识别的语音。

识别模块，用于根据训练后的语音唤醒模型对待识别的语音中的关键词进行识别，并在识别到关键词时，执行与关键词对应的处理操作。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第一方面可实现方式提供的方法。

第四方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第一方面可实现方式提供的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括：可执行指令，可执行指令用于实现如第一方面或第一方面可选方式提供的方法。

本申请提供的语音唤醒模型的训练方法、装置、电子设备及存储介质，通过确定唤醒词对应的待训练的关键词集，并对待训练的关键词集进行预处理，以生成待训练的关键词集的特征序列集合，然后通过特征序列集合对GMM-HMM中的HMM进行初始化，并确定特征序列集合的初始分割方式，进而根据特征序列集合和初始分割方式对GMM-HMM中的GMM进行参数估计，生成初始GMM-HMM，最后根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型。本申请实施例中，由于在通过对GMM-HMM进行训练过程中，通过Viterbi算法可以得到特征序列集合中每个语料的最优分割方式，在通过根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练时，可以不断的更新初始分割方式，相比于现有技术中，通过固定的初始分割方式和特征序列集合对GMM-HMM进行训练，本申请实施例在训练集相对较小时，可以有效保证语音唤醒模型的可靠性，进而可以提高语音唤醒模型识别关键词的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一示例性应用场景图；

图2是本申请一实施例提供的语音唤醒模型的训练方法的流程示意图；

图3是本申请又一实施例提供的语音唤醒模型的训练方法的流程示意图；

图4是本申请又一实施例提供的语音唤醒模型的训练过程的示意图；

图5是本申请另一实施例提供的语音唤醒模型的训练方法的流程示意图；

图6是本申请再一实施例提供的语音唤醒模型的训练方法的流程示意图；

图7是本申请一实施例提供的语音唤醒模型的训练装置的结构示意图；

图8是本申请另一实施例提供的语音唤醒模型的训练装置的结构示意图；

图9是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着语音技术的发展和交互体验的提升，用户也越来越乐于通过语音与电子设备进行交互，例如通过语音控制电子设备完成指定工作。关键词识别技术是语音技术中的重要分支，用于对连续语音信号进行预定关键词的识别，即识别该连续语音信号中是否存在预定关键词，该技术在电子设备唤醒、对话交互界面初始化、音频索引和检索、以及语音密码验证等方面均有着广泛的应用。现有技术中，采用的基于GMM-HMM的语音识别模型的训练过程，通常需要足够大的训练集，若训练集相对较小，则语音识别模型的可靠性较低。

本申请实施例提供的语音唤醒模型的训练方法、装置、电子设备及存储介质的发明构思在于：通过对GMM-HMM进行训练过程中，考虑到Baum-Welch算法和Viterbi算法，其中，Viterbi算法可以得到特征序列集合中每个语料的最优分割方式，在通过根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练时，可以不断的更新初始分割方式，相比于现有技术中，通过固定的初始分割方式和特征序列集合对GMM-HMM进行训练，本申请实施例在训练集相对较小时，可以有效保证语音唤醒模型的可靠性，进而提高语音唤醒模型识别关键词的准确性。

以下，对本申请实施例的示例性应用场景进行介绍。

本申请实施例提供的语音唤醒模型的训练方法可以通过本申请实施例提供的语音唤醒模型的训练装置执行，本申请实施例提供的语音唤醒模型的训练装置可以是终端设备或服务器。示例性的，图1是本申请实施例提供的一示例性应用场景图，如图1所示，本申请实施例提供的语音唤醒模型的训练方法可以应用于终端设备11中，例如，可以通过终端设备中的处理器、应用程序或者网页实现，终端设备11与服务器12存在数据通信，本申请实施例对此不做限制。本申请实施例对终端设备的具体类型不做限制，例如，终端设备可以是智能手机、个人电脑、平板电脑、可穿戴设备、车载终端等。本申请实施例对服务器的类型和数量也不做限制，例如，服务器可以是单个独立的服务器，也可以是服务器集群，本申请实施例仅以此为例，并不限于此。

在对语音唤醒模型训练完毕之后，可以将语音唤醒模型应用于存在语音识别功能需求的终端设备中，例如，可以将语音唤醒模型应用在智能音箱、智能家居设备、智能手机、车载终端、可穿戴设备等终端设备中，本申请实施例对此不做限制。

图2是本申请一实施例提供的语音唤醒模型的训练方法的流程示意图，该方法可以由语音唤醒模型的训练装置执行，该装置可以通过软件和/或硬件的方式实现，下面以终端设备为执行主体对语音唤醒模型的训练方法进行说明，如图2所示，本申请实施例中提供的语音唤醒模型的训练方法可以包括：

步骤S101：确定唤醒词对应的待训练的关键词集，并对待训练的关键词集进行预处理，以生成待训练的关键词集的特征序列集合。

唤醒词可以是将终端设备从休眠状态激活至工作状态的中文词语、英文词、其他语种词语以及多种语言组合的词语等，本申请实施例对唤醒词的具体语言和词语含义不做限制。示例性的，终端设备在开机后自动加载完成资源，并处于休眠状态，当终端设备识别到特定的唤醒词时，可以由休眠状态激活至工作状态以等待接收用户下发的语音指令。或者，唤醒词可以是用于操控终端设备执行处理的关键词，例如，唤醒词为“音乐”和“播放”时，可以识别用户发出的语音中是否存在“音乐”和“播放”，并根据识别结果指示终端设备是否播放音乐。本申请实施例对唤醒词的功能、语种、内容、数量等均不做限制。

本申请实施例对确定唤醒词对应的待训练的关键词集的实现方式不做限制，例如可以在现有语料库中选取唤醒词对应的语料，以组成关键词集。在确定待训练的关键词集之后，对待训练的关键词集进行预处理，以生成待训练的关键词集的特征序列集合。本申请实施例对待训练的关键词集的预处理方式不做限制，例如，可以通过对待训练的关键词集进行提取特征，对待训练的关键词集提取声学特征，可以将待训练的关键词集的每一帧波形变成一个包含声音信息的多维向量，对训练音频数据提取梅尔倒谱系数(MFCC)作为声学特征。

步骤S102：通过特征序列集合对GMM-HMM中的HMM进行初始化，并确定特征序列集合的初始分割方式。

GMM-HMM中包括GMM和HMM两个模型，通过特征序列集合对HMM进行初始化，确定HMM的初始参数；确定特征序列集合的初始分割方式，本申请实施例对初始分割方式的具体分割方式不做限制，在一种可能的实施方式中，将特征序列集合按照状态数均分总帧数的方式进行分割，例如，某语料的特征序列有M帧，其中每帧的帧长可以为10毫秒(ms)至30ms之间，预设使用包含K个状态的HMM训练该语料，则初始分割方式可以为每一个状态对应M/K帧，并按照时间顺序排列，其中，K表示关键词的状态数，K为正整数，本申请实施例仅以此为例，并不限于此。

步骤S103：根据特征序列集合和初始分割方式对GMM-HMM中的GMM进行参数估计，生成初始GMM-HMM。

将特征序列集合和初始分割方式输入至GMM中进行训练，可以实现对GMM-HMM中的GMM进行参数估计，生成初始GMM-HMM，其中初始GMM-HMM包括参数估计后的GMM和初始化后的HMM。

步骤S104：根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型。

在确定初始分割方式以及初始GMM-HMM之后，根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，本申请实施例对根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练的具体实现方式不做限制。

在一种可能的实施方式中，可以通过将特征序列集合中的语料和初始GMM-HMM输入至Baum-Welch算法中生成训练后的GMM-HMM，然后将训练后的GMM-HMM和特征序列集合中的语料输入至Viterbi(维特比)算法中，确定该语料的最优分割方式，然后将初始分割方式更新为最优分割方式，并根据最优分割方式和特征序列集合对GMM重新进行参数估计，生成重新进行参数估计之后的GMM-HMM，分别对特征序列集合中的每个语料重复上述步骤，以获取训练后的基于唤醒词的语音唤醒模型。

在另一种可能的实施方式中，可以通过将特征序列集合中的语料和初始GMM-HMM输入至Baum-Welch算法中生成训练后的GMM-HMM，然后将训练后的GMM-HMM和特征序列集合中的语料输入至Viterbi算法中，确定该语料的第一分割方式，然后继续将训练后的GMM-HMM和该语料输入至Baum-Welch算法中生成更新的训练后的GMM-HMM，并将更新的训练后的GMM-HMM和特征序列集合中的语料输入至Viterbi算法中，确定该语料的第二分割方式，重复上述步骤，直到当前训练得到的分割方式与上次训练得到的分割方式之间的误差小于预设阈值，重复上述步骤，直到将特征序列集合中的所有语料训练完毕，然后将初始分割方式更新为最后一个语料确定的分割方式，并根据更新后的初始分割方式和特征序列集合对GMM重新进行参数估计，生成重新进行参数估计之后的GMM-HMM，分别对特征序列集合中的每个语料重复上述步骤，以获取训练后的基于唤醒词的语音唤醒模型。

上述实施例中介绍了可以通过特征序列集合中的全部语料对语音唤醒模型进行训练，在又一种可能的实施方式中，在上述可能的实施方式的基础上，还可以利用上述方式，对语音唤醒模型进行多次训练，即，多次采用特征序列集合中的全部语料对语音唤醒模型进行训练，以进一步提高语音唤醒模型的可靠性，本申请实施例对语音唤醒模型训练的次数不做限制。

本申请实施例中，通过对GMM-HMM进行训练过程中，考虑到Baum-Welch算法和Viterbi算法对GMM-HMM进行训练，其中，Viterbi算法可以得到特征序列集合中每个语料的最优分割方式，在通过根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练时，可以不断的更新初始分割方式，以提高对GMM-HMM的训练效率，相比于现有技术中，通过固定的初始分割方式和特征序列集合对GMM-HMM进行训练，本申请实施例在训练集相对较小时，可以有效保证语音唤醒模型的可靠性，进而提高语音唤醒模型识别关键词的准确性。

在一种可能的实施方式中，图3是本申请又一实施例提供的语音唤醒模型的训练方法的流程示意图，如图3所示，在语音唤醒模型训练次数为1次时，上述实施例中的步骤S104，即根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型，可以包括步骤S201和步骤S202。

步骤S201：将第j个GMM-HMM和特征序列集合中的第i段语料输入Baum-Welch算法进行训练，生成第j+1个GMM-HMM，并将第j+1个GMM-HMM和第i段语料输入Viterbi算法中，得到第j+1分割方式，若判断第j+1分割方式与第j分割方式不同，则将j的值加1，并重复执行本步骤，直到判断第j+1分割方式与第j分割方式相同。

为了便于介绍，图4是本申请又一实施例提供的语音唤醒模型的训练过程的示意图，以j初始为1，i初始为1为例，对语音唤醒模型的训练过程进行介绍，此时第1个GMM-HMM为初始GMM-HMM，第1分割方式为初始分割方式，对如图4所示，将第1个GMM-HMM和第1段语料输入Baum-Welch算法生成第2个GMM-HMM，然后将第2个GMM-HMM和第1段语料输入至Viterbi算法中，得到第2分割方式，并判断第2分割方式与第1分割方式是否相同。若判断第2分割方式与第1分割方式不同，则将j的值加1，此时，j为2。重复执行上述步骤，即，将第2个GMM-HMM和第1段语料输入至Baum-Welch算法生成第3个GMM-HMM，然后将第3个GMM-HMM和第1段语料输入至Viterbi算法中，得到第3分割方式，并判断第3分割方式与第2分割方式是否相同，若判断第3分割方式与第2分割方式不同，则将j的值加1，并重复执行上述步骤，直到判断第j+1分割方式与第j分割方式相同。若判断第j+1分割方式与第j分割方式相同，则执行步骤S202。

本申请实施例中通过执行步骤S201，实现了通过特征序列集合中的第i段语料对初始GMM-HMM或更新后的初始GMM-HMM的训练。

步骤S202：将i加1，并根据特征序列集合和更新后的初始分割方式对第j+1个GMM-HMM中的GMM进行参数估计，生成更新后的初始GMM-HMM，更新后的初始分割方式为第j+1分割方式，基于更新后的初始GMM-HMM和加1后的i，重复执行上述步骤，直到将特征序列集合中的全部语料训练完毕，以获取语音唤醒模型。

如图4所示，若判断第j+1分割方式与第j分割方式相同，则将i的值加1，依然以j初始为1，i初始为1为例，将i的值加1之后i的值为2，更新初始分割方式为在第j+1分割方式与第j分割方式相同时的分割方式，生成更新后的初始分割方式；并根据特征序列集合和更新后的初始分割方式对第j+1个GMM-HMM中的GMM进行参数估计，得到更新后的初始GMM-HMM。此时，第1个GMM-HMM为更新后的初始GMM-HMM，第1分割方式为更新后的初始分割方式。然后基于更新后的初始GMM-HMM和加1后的i，重复执行上述步骤，即，将第1个GMM-HMM和第2段语料输入Baum-Welch算法生成第2个GMM-HMM，然后将第2个GMM-HMM和第2段语料输入至Viterbi算法中，得到第2分割方式，并判断第2分割方式与第1分割方式是否相同。若判断第2分割方式与第1分割方式不同，则将j的值加1，此时，j为2，重复执行上述步骤S201，直到判断第j+1分割方式与第j分割方式相同，以实现根据第2段语料对GMM-HMM的训练。在根据第2段语料对GMM-HMM训练完成之后，将i加1，则i的值为3，并重复执行上述步骤，直到将特征序列集合中的全部语料训练完毕，以获取语音唤醒模型。

本申请实施例中，不仅对特征序列集合中的每个语料进行多次训练，而且在对每个语料进行训练时，更新初始分割方式为前一个语料训练结束时得到的分割方式；更新初始GMM-HMM为前一个语料训练结束时得到的GMM-HMM，保证了语音唤醒模型的可靠性。

为了保证语音唤醒模型的可靠性，可以采用特征序列集合对语音唤醒模型进行多次训练，在一种可能的实施方式中，在语音唤醒模型训练次数为N次，且在进行第N次语音唤醒模型训练时，在根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型之前，方法还包括：

为便于说明，以N为3为例，在进行第N次语音唤醒模型的训练时，将第2次语音唤醒模型训练完毕后的最后一个GMM-HMM作为第3次语音唤醒模型训练的初始GMM-HMM，将第2次语音唤醒模型训练完毕后的最后一个GMM-HMM的分割方式作为第3次语音唤醒模型训练的初始分割方式，以据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型。

本申请实施例对N的具体数值不做限制，例如，可以通过将N设置为预设数值，对语音唤醒模型进行预设数值次数的训练之后，生成训练后的语音唤醒模型。

在一种可能的实施方式中，在上述实施例的基础上，图5是本申请另一实施例提供的语音唤醒模型的训练方法的流程示意图，如图5所示，本申请实施例提供的语音唤醒模型的训练方法，还可以包括：

步骤S301：确定第N次语音唤醒模型训练对应的第N次训练集概率分布，和第N-1次语音唤醒模型训练对应的第N-1训练集概率分布。

其中，第N次训练集概率分布为第N次语音唤醒模型训练过程中每个分割方式确定时对应获取的概率值的集合。第N-1次训练集概率分布为第N-1次语音唤醒模型训练过程中每个分割方式确定时对应获取的概率值的集合。

确定第N次语音唤醒模型训练对应的第N次训练集概率分布，和确定第N-1次语音唤醒模型训练对应的第N-1训练集概率分布的方法类似。下面以确定第N次语音唤醒模型训练对应的第N次训练集概率分布为例，在一种可能的实施方式中，在第N次语音唤醒模型训练过程中，需要对每个语料进行训练，以j初始为1时第i段语料训练过程为例，即，将第j个GMM-HMM和特征序列集合中的第i段语料输入Baum-Welch算法进行训练，生成第j+1个GMM-HMM，并将第j+1个GMM-HMM和第i段语料输入Viterbi算法中，得到第j+1分割方式，若判断第j+1分割方式与第j分割方式不同，则将j的值加1，并重复执行本步骤，直到判断第j+1分割方式与第j分割方式相同。

其中，在将第j+1个GMM-HMM和第i段语料输入Viterbi算法中时，除了可以得到第j+1分割方式之外，还可以得到第i段语料为关键词的概率值，并在判断第j+1分割方式与第j分割方式相同时，即该语料对应的分割方式确定时，记录该语料为关键词的概率值。

通过上述方式，可以获取第N次语音唤醒模型训练过程中每个分割方式确定时对应获取的概率值的集合，即第N训练集概率分布。

步骤S302：根据第N训练集概率分布和第N-1训练集概率分布，确定是否进行第N+1次语音唤醒模型训练。

本申请实施例对根据第N训练集概率分布和第N-1训练集概率分布，确定是否进行第N+1次语音唤醒模型训练的具体实施方式不做限制，在一种可能的实施方式中，根据第N训练集概率分布和第N-1训练集概率分布，确定是否进行第N+1次语音唤醒模型训练，包括：

第N-1训练集概率分布中的最小概率值与第N训练概率分布中的最小概率值之间的相差数值大于第一预设阈值时，确定进行第N+1次语音唤醒模型训练。和/或，第N-1训练集概率分布中的全部概率值之和，与第N训练集概率分布中的全部概率值之和的相差数值大于第二预设阈值时，确定进行第N+1次语音唤醒模型训练。

需要说明的是，“和/或”可以表示三种不同的方案，例如，“方案A和/或方案B”可以表示“方案A”、或“方案B”或“方案A和方案B”三种可能的实施方式。

本申请实施例中既可以通过判断第N-1训练集概率分布中的最小概率值与第N训练概率分布中的最小概率值之间的相差数值是否大于第一预设阈值来确定是否进行第N+1次语音唤醒模型训练。也可以通过判断第N-1训练集概率分布中的全部概率值之和，与第N训练集概率分布中的全部概率值之和的相差数值是否大于第二预设阈值，来确定是否进行第N+1次语音唤醒模型训练。还可以通过判断第N-1训练集概率分布中的最小概率值与第N训练概率分布中的最小概率值之间的相差数值是否大于第一预设阈值，且第N-1训练集概率分布中的全部概率值之和，与第N训练集概率分布中的全部概率值之和的相差数值是否大于第二预设阈值的方式，来确定是否进行第N+1次语音唤醒模型训练。

本申请实施例对第一预设阈值和第二预设阈值的数值不做具体限制，具体可以根据用户需求进行设置。

本申请实施例中，通过根据第N训练集概率分布和第N-1训练集概率分布，确定是否进行第N+1次语音唤醒模型训练，实现了在保证语音唤醒模型的可靠性的基础上，有效减小训练GMM-HMM的运算量。

在一种可能的实施方式中，在上述任意实施例的基础上，图6是本申请再一实施例提供的语音唤醒模型的训练方法的流程示意图，如图6所示，本申请实施例提供的语音唤醒模型的训练方法，还可以包括：

步骤S401：获取待识别的语音。

本申请实施例对获取待识别的语音的内容、大小不做限制，对获取待识别的语音的方式也不做限制，例如，可以直接通过接收用户语音输入获取待识别的语音，也可以通过获取待识别的语音的文件的方式获取待识别的语音。

步骤S402：根据训练后的语音唤醒模型对待识别的语音中的关键词进行识别，并在识别到关键词时，执行与关键词对应的处理操作。

在根据训练后的语音唤醒模型对待识别的语音中的关键词进行识别的过程中，可以识别待识别的语音中是否存在关键词，关键词可以为一个也可以为多个。例如，关键词包括“齐天大圣”，且与关键词对应的处理操作为唤醒终端设备，当待识别语音为“齐天大圣早上好呀”时，通过训练后的语音唤醒模型可以识别到关键词“齐天大圣”，则唤醒终端设备。再例如，关键词包括“今天”、“天气”，则与关键词对应的处理操作为查询并播报今天的天气，当待识别的语音为“请问今天天气怎样”时，通过训练后的语音唤醒模型可以识别到关键词“今天”和“天气”，则终端设备执行查询并播报今天的天气的处理操作。本申请实施例对关键词的内容、数量以及与关键词对应的处理操作的不做限制，本申请实施例仅以此为例，并不限于此。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图7是本申请一实施例提供的语音唤醒模型的训练装置的结构示意图，该装置可以通过软件和/或硬件的方式实现，例如：该装置可以是客户端或终端设备，如图7所示，本申请实施例提供的语音唤醒模型的训练装置可以包括：处理模块71、确定模块72、生成模块73和训练模块74。

处理模块71，用于确定唤醒词对应的待训练的关键词集，并对待训练的关键词集进行预处理，以生成待训练的关键词集的特征序列集合。

确定模块72，用于通过特征序列集合对高斯混合模型GMM-隐马尔科夫模型HMM中的HMM进行初始化，并确定特征序列集合的初始分割方式。

生成模块73，用于根据特征序列集合和初始分割方式对GMM-HMM中的GMM进行参数估计，生成初始GMM-HMM。

训练模块74，用于根据特征序列集合、初始分割方式、Baum-Welch算法和Viterbi算法对初始GMM-HMM进行训练，以获取训练后的基于唤醒词的语音唤醒模型。

本实施例的语音唤醒模型的训练装置可以执行上述图2所示的方法实施例，其技术原理和技术效果与上述实施例相似，此处不再赘述。

在一种可能的实施方式中，在语音唤醒模型训练次数为1次时，训练模块74，具体用于：

在一种可能的实施方式中，在语音唤醒模型训练次数为N次，且在进行第N次语音唤醒模型训练时，装置还包括更新模块75，更新模块75，用于：

更新初始分割方式为第N-1次语音唤醒模型训练完毕后的最后一个GMM-HMM的分割方式。更新初始GMM-HMM为第N-1次语音唤醒模型训练完毕后的最后一个GMM-HMM；其中，N大于或等于2，且为正整数。

在一种可能的实施方式中，确定模块72，还用于：

确定第N次语音唤醒模型训练对应的第N次训练集概率分布，和第N-1次语音唤醒模型训练对应的第N-1训练集概率分布；训练集概率分布为对应的语音唤醒模型训练过程中每个分割方式确定时对应获取的概率值的集合。根据第N训练集概率分布和第N-1训练集概率分布，确定是否进行第N+1次语音唤醒模型训练。

在一种可能的实施方式中，确定模块72，具体用于：

在一种可能的实施方式中，图8是本申请另一实施例提供的语音唤醒模型的训练装置的结构示意图，在图7所示的实施例的基础上，本申请实施例提供的语音唤醒模型的训练装置，还可以包括获取模块81和识别模块82。

获取模块81，用于获取待识别的语音。

识别模块82，用于根据训练后的语音唤醒模型对待识别的语音中的关键词进行识别，并在识别到关键词时，执行与关键词对应的处理操作。

本申请所提供的装置实施例仅仅是示意性的，图7和图8中的模块划分仅仅是一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个模块可以结合或者可以集成到另一个系统。各个模块相互之间的耦合可以是通过一些接口实现，这些接口通常是电性通信接口，但是也不排除可能是机械接口或其它的形式接口。因此，作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方，也可以分布到同一个或不同设备的不同位置上。

图9是本申请实施例提供的电子设备的结构示意图，如图9所示，该电子设备包括：

处理器91、存储器92、收发器93以及计算机程序；其中，收发器93实现与其他设备之间的数据传输，计算机程序被存储在存储器92中，并且被配置为由处理器91执行，计算机程序包括用于执行上述语音唤醒模块的训练方法的指令，其内容及效果请参考方法实施例。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音唤醒模型的训练方法，其特征在于，包括：

确定唤醒词对应的待训练的关键词集，并对所述待训练的关键词集进行预处理，以生成所述待训练的关键词集的特征序列集合；

通过所述特征序列集合对高斯混合模型GMM-隐马尔科夫模型HMM中的HMM进行初始化，并确定所述特征序列集合的初始分割方式；

根据所述特征序列集合和所述初始分割方式对GMM-HMM中的GMM进行参数估计，生成初始GMM-HMM；

根据所述特征序列集合、所述初始分割方式、Baum-Welch算法和Viterbi算法对所述初始GMM-HMM进行训练，以获取训练后的基于所述唤醒词的所述语音唤醒模型；

在语音唤醒模型训练次数为1次时，根据所述特征序列集合、所述初始分割方式、Baum-Welch算法和Viterbi算法对所述初始GMM-HMM进行训练，以获取训练后的基于所述唤醒词的所述语音唤醒模型，包括：

将第j个GMM-HMM和所述特征序列集合中的第i段语料输入Baum-Welch算法进行训练，生成第j+1个GMM-HMM，并将所述第j+1个GMM-HMM和第i段语料输入所述Viterbi算法中，得到第j+1分割方式，若判断第j+1分割方式与第j分割方式不同，则将j的值加1，并重复执行本步骤，直到判断第j+1分割方式与第j分割方式相同；

将i加1，并根据所述特征序列集合和更新后的初始分割方式对第j+1个GMM-HMM中的GMM进行参数估计，生成更新后的初始GMM-HMM，更新后的初始分割方式为第j+1分割方式，基于更新后的初始GMM-HMM和所述加1后的i，重复执行上述步骤，直到将所述特征序列集合中的全部语料训练完毕，以获取所述语音唤醒模型；

其中，j和i初始为1，且为正整数；在j＝1时，第1个GMM-HMM为所述初始GMM-HMM或更新后的初始GMM-HMM，且第1分割方式为所述初始分割方式或更新后的初始分割方式。

2.根据权利要求1所述的方法，其特征在于，在语音唤醒模型训练次数为N次，且在进行第N次语音唤醒模型训练时，在所述根据所述特征序列集合、所述初始分割方式、Baum-Welch算法和Viterbi算法对所述初始GMM-HMM进行训练，以获取训练后的基于所述唤醒词的所述语音唤醒模型之前，所述方法还包括：

更新初始分割方式为第N-1次语音唤醒模型训练完毕后的最后一个GMM-HMM的分割方式；

更新初始GMM-HMM为第N-1次语音唤醒模型训练完毕后的最后一个GMM-HMM；

其中，N大于或等于2，且为正整数。

3.根据权利要求2所述的方法，其特征在于，还包括：

确定所述第N次语音唤醒模型训练对应的第N次训练集概率分布，和所述第N-1次语音唤醒模型训练对应的第N-1次训练集概率分布；所述训练集概率分布为对应的语音唤醒模型训练过程中每个分割方式确定时对应获取的概率值的集合；

根据所述第N次训练集概率分布和所述第N-1次训练集概率分布，确定是否进行第N+1次语音唤醒模型训练。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第N次训练集概率分布和所述第N-1次训练集概率分布，确定是否进行第N+1次语音唤醒模型训练，包括：

所述第N-1次训练集概率分布中的最小概率值与所述第N次训练概率分布中的最小概率值之间的相差数值大于第一预设阈值时，确定进行所述第N+1次语音唤醒模型训练；

和/或，

所述第N-1次训练集概率分布中的全部概率值之和，与所述第N次训练集概率分布中的全部概率值之和的相差数值大于第二预设阈值时，确定进行所述第N+1次语音唤醒模型训练。

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

获取待识别的语音；

根据训练后的语音唤醒模型对所述待识别的语音中的关键词进行识别，并在识别到所述关键词时，执行与所述关键词对应的处理操作。

6.一种语音唤醒模型的训练装置，其特征在于，包括：

处理模块，用于确定唤醒词对应的待训练的关键词集，并对所述待训练的关键词集进行预处理，以生成所述待训练的关键词集的特征序列集合；

确定模块，用于通过所述特征序列集合对高斯混合模型GMM-隐马尔科夫模型HMM中的HMM进行初始化，并确定所述特征序列集合的初始分割方式；

生成模块，用于根据所述特征序列集合和所述初始分割方式对GMM-HMM中的GMM进行参数估计，生成初始GMM-HMM；

训练模块，用于根据所述特征序列集合、所述初始分割方式、Baum-Welch算法和Viterbi算法对所述初始GMM-HMM进行训练，以获取训练后的基于所述唤醒词的所述语音唤醒模型；

在语音唤醒模型训练次数为1次时，所述训练模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，在语音唤醒模型训练次数为N次，且在进行第N次语音唤醒模型训练时，所述装置还包括更新模块，所述更新模块，用于：

其中，N大于或等于2，且为正整数。

8.根据权利要求7所述的装置，其特征在于，所述确定模块，还用于：

9.根据权利要求8所述的装置，其特征在于，所述确定模块，具体用于：

和/或，

10.根据权利要求6-9任一项所述的装置，其特征在于，还包括：

获取模块，用于获取待识别的语音；

识别模块，用于根据训练后的语音唤醒模型对所述待识别的语音中的关键词进行识别，并在识别到所述关键词时，执行与所述关键词对应的处理操作。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。