CN109741735A

CN109741735A - 一种建模方法、声学模型的获取方法和装置

Info

Publication number: CN109741735A
Application number: CN201711040303.6A
Authority: CN
Inventors: 姚海涛; 高杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2019-05-10
Anticipated expiration: 2037-10-30
Also published as: CN109741735B

Abstract

本申请提供一种建模方法、声学模型的获取方法和装置，应用于语音唤醒模型处理中；其中，声学模型的获取方法包括：获取基础模型，所述基础模型为对训练数据进行上下文无关CI建模和上下文相关CD建模得到的，其中，对聚合状态的训练数据中采用CD建模，对单音素的训练数据采用CI建模；对于给定的唤醒词，在基础模型的CD部分的输出层节点中，确定所述唤醒词对应的输出层节点；将所述唤醒词对应的输出层节点，与基础模型中的其余部分构建模型，得到所述唤醒词对应的声学模型。本申请能够快速小成本定制关键词，且可以避免训练数据不足。

Description

一种建模方法、声学模型的获取方法和装置

技术领域

本发明涉及语音识别领域，尤其涉及一种建模方法、声学模型的获取方法和装置。

背景技术

语音唤醒广泛应用于智能家居和物联网设备中，用户通过说预先定制的唤醒词来达到使设备启动的目的。

目前语音唤醒的方案有两种：

(1)仅采用标准的自动语音识别技术，唤醒词和其他语音词不加区分的进行建模，通常是上下文无关(context independent，CI)建模。

该种方案的好处在于，同一套模型能快速的适用于不同的唤醒词场景需求，在节省资源和快速商业化方面具有较大优势；但其缺点也是很明显的：该方案建模中未突出唤醒词，从而在识别过程中，唤醒词与其他词具有类似的得分情况，误识别情况相对较高，通常唤醒率和误触发率都达不到性能要求，因此仅在部分免费演示(demo)场景存在。

(2)在对语音进行声学建模时，通常将唤醒词区别于其他词进行建模。

目前该种方案中性能最好的方法为全词建模(whole word modeling)。全词建模是指在给定唤醒词后，在同一个神经网络中，对给定的唤醒词采用上下文相关(contextdependent，CD)建模，而对非唤醒词仍采用CI建模，并且按照一定比例进行数据的采样，保证数据均衡性。

方案(2)是目前基于用户定制的语音唤醒的主要建模方案，具有更高的唤醒率和更低的误唤醒率，能较好的满足用户的实际需求；但该种方案的缺点是：针对不同的用户自定义唤醒词或者不同的唤醒词场景(比如不同的系统或产品)所产生的新的唤醒词，建模过程和数据无法复用，每次都需要对新的唤醒词重新建模，因此该种方案的成本较高，所需的训练周期较长；并且该种方案需要大量的唤醒词样本作为训练数据，很可能存在训练数据不足的问题。

发明内容

本申请提供一种建模方法、声学模型的获取方法和装置，能够快速小成本定制关键词，且可以避免训练数据不足。

本申请采用如下技术方案。

一种声学模型的获取方法，应用于语音唤醒模型处理中，包括：

获取基础模型，所述基础模型为对训练数据进行上下文无关CI建模和上下文相关CD建模得到的，其中，对聚合状态的训练数据中采用CD建模，对单音素的训练数据采用CI建模；

对于给定的唤醒词，在基础模型的CD部分的输出层节点中，确定所述唤醒词对应的输出层节点；

将所述唤醒词对应的输出层节点，与基础模型中的其余部分构建模型，得到所述唤醒词对应的声学模型。

其中，所述唤醒词对应的输出层节点可以是指，所述唤醒词拆分出的聚类状态所对应的输出层节点。

其中，所述获取基础模型前还可以包括：

对训练用的语音数据进行清洗，并提取出声学特征；

对提取出的声学特征分别进行单音素的隐马尔科夫模型-混合高斯模型HMM-GMM建模，和聚合状态的HMM-GMM建模，分别得到第一声学模型和第二声学模型；

采用第一声学模型所提取的声学特征进行强制对齐，得到单音素的训练数据；采用第二声学模型所提取的声学特征进行强制对齐，得到聚合状态的训练数据。

其中，所述得到所述唤醒词对应的声学模型后还可以包括：

根据所述唤醒词得到CD的训练数据，根据非唤醒词得到CI的训练数据，对所述唤醒词对应的声学模型进行训练。

其中，所述唤醒词对应的声学模型中，样本属于CD部分任一个输出层节点的输出量的概率，可以根据该输出层节点的输入量，CD部分的权重，以及基础模型中CD部分各输出层节点的输入量得到；样本属于CI部分任一个输出层节点的输出量的概率，可以根据该输出层节点的输入量，CI部分的权重，以及各CI部分输出层节点的输入量得到。

其中，所述CD部分的权重和CI部分的权重之和可以为1，比值可以等于所述唤醒词对应的声学模型中，CD部分输出层节点的个数与CI部分输出层节点的个数之间的比值。

一种声学模型的获取装置，应用于语音唤醒模型处理中，包括：处理器和存储器；

所述存储器用于保存用于获取声学模型的程序；所述用于获取声学模型的程序在被所述处理器读取执行时，进行如下操作：

其中，所述用于获取声学模型的程序在被所述处理器读取执行时，还可以进行如下操作：

在选出所述唤醒词所对应的输出层节点，与所述基础模型的其余部分一起作为所述唤醒词对应的声学模型后，根据所述唤醒词得到CD的训练数据，根据非唤醒词得到CI的训练数据，对所述唤醒词对应的声学模型进行训练。

一种声学模型的获取装置，应用于语音唤醒模型处理中，包括：

获取模块，用于获取基础模型，所述基础模型为对训练数据进行上下文无关CI建模和上下文相关CD建模得到的，其中，对聚合状态的训练数据中采用CD建模，对单音素的训练数据采用CI建模；

裁剪模块，用于对于给定的唤醒词，在基础模型CD部分的输出层节点中，选出所述唤醒词所对应的输出层节点；；

构建模块，用于将所述唤醒词对应的输出层节点，与基础模型中的其余部分构建模型，得到所述唤醒词对应的声学模型。

其中，所述的获取装置还可以包括：

调整模块，用于在所述裁剪模块选出所述关键词所对应的输出层节点，与所述基础模型的其余部分一起作为所述关键词对应的声学模型后，根据所述关键词得到CD的训练数据，根据非关键词得到CI的训练数据，对所述关键词对应的声学模型进行训练。

一种建模方法，包括：

获取基础模型；所述基础模型通过在多任务深度神经网络中，对单音素的训练数据进行上下文无关CI建模，对聚合状态的训练数据进行上下文相关CD建模得到；

对于给定的关键词，在基础模型CD部分的输出层节点中，选出所述关键词所对应的输出层节点；

将选出的输出层节点，与所述基础模型的其余部分一起作为所述关键词对应的声学模型。

本申请至少一个实施例中，在需要使用新的关键词时，可以通过模型裁剪，实现针对新关键词的全词建模，不需要重复全词建模的全部过程，因此可以实现关键词的模型快速定制；另外，由于在训练时利用广泛的非关键词的语音数据对关键词进行辅助建模，因此能够克服训练数据稀疏的问题。

本申请至少一个实施例中，在需要使用新的唤醒词时，可以通过模型裁剪，得到针对新唤醒词进行全词建模的声学模型，可以实现唤醒词的模型快速定制；另外，由于在训练时利用广泛的非唤醒词的语音数据对唤醒词进行辅助建模，因此能够克服训练数据稀疏的问题。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

图1是实施例一声学模型的获取方法的流程图；

图2是实施例一的一种实现方式中的系统架构示意图；

图3是实施一的例子的流程图；

图4是实施例一的例子中，MT-DNN用于CD建模和CI建模的示意图；

图5(a)和(b)是实施例一的例子中模型裁剪的过程示意图；

图6是实施例三声学模型的获取装置的示意图。

具体实施方式

下面将结合附图及实施例对本申请的技术方案进行更详细的说明。

需要说明的是，如果不冲突，本申请实施例以及实现方式中的不同特征可以相互结合，均在本申请的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在一种配置中，进行建模或获取声学模型的设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存(memory)。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。内存可能包括一个或多个模块。

计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)，快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

实施例一、一种声学模型的获取方法，应用于语音唤醒模型处理中，如图1所示，包括步骤S110～S130：

S110、获取基础模型，所述基础模型为对训练数据进行上下文无关CI建模和上下文相关CD建模得到的，其中，对聚合状态的训练数据中采用CD建模，对单音素的训练数据采用CI建模；

S120、对于给定的唤醒词，在基础模型CD部分的输出层节点中，选出所述唤醒词所对应的输出层节点；

S130、将所述唤醒词对应的输出层节点，与基础模型中的其余部分构建模型，得到所述唤醒词对应的声学模型。

本实施例中，建模所得到的基础模型中，输出层节点至少包括两部分：CD部分和CI部分。

本实施例中，可以但不限于通过多任务深度神经网络(Multi-Task Deep NeuralNetwork,MT-DNN)构建基础模型；构建时多任务深度神经网络中运行至少两个任务，一个是CI建模，一个是CD建模。

本实施例中，步骤S120、S130可以看成是根据给定的唤醒词对基础模型进行裁剪来得到该唤醒词对应的声学模型，相当于在基础模型的CD部分的输出层节点里，删除了不和给定的唤醒词对应的输出层节点，其余内容(包括输入层、隐含层的节点、参数等，以及CI部分的输出层节点)和没删除的CD部分输出层节点(即：和给定的唤醒词对应输出层节点)可以保持不变；这样所得到的唤醒词对应的声学模型中既包括对唤醒词CD建模的部分，又包括对非唤醒词CI建模的部分，即：得到的相当于是该唤醒词的全词声学模型。

本实施例中，唤醒词所对应的全词声学模型可以通过对基础模型裁剪得到，并不需要重复全词建模的全部过程，即：生成一次基础模型后，后续对于不同的唤醒词，可以通过分别裁剪该基础模型得到不同唤醒词各自对应的全词声学模型，因此可以实现唤醒词的声学模型的快速定制；由于在训练时利用广泛的非唤醒词的语音数据对唤醒词进行辅助建模，因此能够克服训练数据稀疏的问题。

一种实现方式中，可以由要根据唤醒词执行特定操作的产品执行上述步骤S110～S130；该产品可以在出厂时就保存有所述基础模型，步骤S110的“获取”可以是指从存储器中读取出该基础模型；或者该产品也可以从网络或其它设备中取得所述基础模型。

一种实现方式中，可以由服务器执行上述步骤S110～S130；获取基础模型可以是指该服务器从本地读取所述基础模型，也可以是指该服务器从其它位置(比如专门用于生成或保存基础模型的设备中)取得基础模型；其中，服务器从本地读取基础模型的情况，可以是服务器自行生成基础模型，也可以是预先在服务器中保存有基础模型。

本实现方式中，应用本实施例方法的系统架构如图2所示，要唤醒的产品，比如为一个手机21，在当用户给定新的唤醒词后，可以将新的唤醒词发送给服务器22；服务器22可以执行上述步骤S110～S130后得到该唤醒词对应的声学模型，并反馈给所述手机21。

本实现方式中，一个服务器可以向多个或多种类型的产品提供服务，比如可以向多个手机提供为唤醒词定制声学模型的服务、可以向平板、家用电器、车载终端等多个类型的产品提供为唤醒词定制声学模型的服务。当有新的产品时，也会出现新的唤醒词，将新的唤醒词发送给服务器22；服务器22可以执行上述步骤S110～S130后得到该唤醒词对应的声学模型，并反馈给相应的产品；该产品即可在用户说出唤醒词时执行对应的预定操作。

本实现方式中，服务器的种类不限，可以是家用的服务器，比如智能家居的中控设备；也可以是远程的大型服务器，或者是云服务器等。

本实施例中，多任务深度神经网络所采用的结构可以是循环神经网络(RNN)或卷积神经网络(CNN)等。

本实施例中，单音素的训练数据、聚类状态的训练数据可以是对用于训练的语音数据进行拆分得到的。

其中，音素(phone)是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音、辅音两大类。如汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，cāi(猜)有三个音素。

其中，采用聚类状态的训练数据是因为需要考虑协同发音(Coarticulation)的情况；协同发音是指一个音素受前后相邻音素的影响而发生变化，从发声机理上看就是人的发声器官在从一个音素转向另一个音素时频谱只能渐变，从而使得后一个音素的频谱与其他条件下该音素的频谱产生差异。协同发音现象的存在使得音素的感知与标准不一样，所以需要根据上下文来辨别音素。

最常见的聚类状态是三音素(tri-phone)，也可称为三音子，也就是考虑左上文右下文各一个音素，加上中心音素形成三音素。例如，三音素ni-i_l+i_h表示i_l在ni之后、i_h之前发音的具体实现。

本实施例中，可以将每个单音素看成一个CI建模单元，一个聚类状态看成一个CD建模单元；一个CI建模单元可以延伸出多个CD建模单元，因此本实施例可以看成利用了两级单元(CD和CI)进行建模。

本实施例中，对单音素的训练数据进行CI建模，对聚合状态的训练数据进行CD建模，可以看成是将单音素的训练数据、和聚类状态的训练数据分别作为输入语音的标签进行MT-DNN的训练。

其中，在训练中可以但不限于采用交叉熵准则来更新模型。

一种实现方式中，唤醒词对应的输出层节点可以是指，将唤醒词拆分为聚类状态(即CD建模单元)后，这些聚类状态所对应的输出层节点。

本实现方式中，可以但不限于通过发音字典将唤醒词拆分为聚类状态。其中，发音字典包含从词到音素的映射关系，从而可以将唤醒词拆分为音素，进而得到唤醒词中包含的各聚类状态(比如三音素)。

本实现方式中，一个聚类状态所对应的输出层节点可以是指该聚类状态作为标签的输出层节点。

一种实现方式中，唤醒词可以由用户通过语音给定；比如在产品初始化的界面中，或设置界面中，提示用户说出对于特定操作希望采用的唤醒词，并根据用户说话的语音数据获得唤醒词。

一种实现方式中，用户可以通过文本方式输入的唤醒词，该实现方式中可以通过发音字典得到唤醒词对应的音素以及聚类状态，从而得知唤醒词对应的输出层节点。

其它实现方式中，所述唤醒词也可以和另外的预定操作对应；可以为不同的预定操作设置不同的唤醒词。

一种实现方式中，步骤S110前还可以包括：生成单音素的训练数据、聚类状态的训练数据；生成过程可以包括：

对训练用的语音数据进行清洗，并提取出声学特征；

对提取出的声学特征分别进行单音素的隐马尔科夫模型-混合高斯模型(HiddenMarkov Model–Gaussian Mixture Model，HMM-GMM)建模，和聚合状态的HMM-GMM建模，分别得到第一声学模型和第二声学模型；

一种实现方式中，步骤S130后还可以包括：

本实现方式中，可以对用户上传的唤醒词的语音数据、以及训练基础模型时用的语音数据进行清洗、声学特征提取、分类(分为唤醒词和非唤醒词)、HMM-GMM建模、强制对齐来得到CD和CI的训练数据。其中，在HMM-GMM建模时，可以对唤醒词的声学特征进行聚合状态的HMM-GMM建模，对非唤醒词的声学特征进行单音素的HMM-GMM建模。

本实现方式中，可以对针对唤醒词对应的声学模型进行调优，使定制的模型可以进行快速自适应。

其它实现方式中，也可以直接使用步骤S130中获得的声学模型，进行后续的语音唤醒操作。

一种实现方式中，唤醒词对应的声学模型中，样本属于CD部分任一个输出层节点的输出量的概率，可以根据该输出层节点的输入量，CD部分的权重，以及基础模型中CD部分各输出层节点的输入量得到；样本属于CI部分任一个输出层节点的输出量的概率，可以根据该输出层节点的输入量，CI部分的权重，以及各CI部分输出层节点的输入量得到。

本实现方式中，某个样本属于CD部分输出层节点n(输出层节点n可以是CD部分的任意一个输出层节点)的概率，可以等于常数e的h_n次方，乘以CD部分的权重w_CD，除以e的h_CD次方之和；其中，h_n是输出层节点n的输入量，h_CD分别是基础模型中CD部分各输出层节点的输入量；比如假设基础模型中有100个CD部分的输出层节点，输入量分别是h1～h100，则e的h_CD次方之和，就是e^h1+e^h2+......+e^h100。

类似地，某个样本属于CI部分输出层节点m(输出层节点m可以是CI部分的任意一个输出层节点)的概率，可以等于常数e的h_m次方，乘以CI部分的权重w_CI，除以e的h_CI次方之和；其中，h_m是输出层节点m的输入量，h_CI分别是基础模型中CI部分各输出层节点的输入量。

本实现方式中，相当于输出层采用softmax函数进行归一化和逻辑分类。其它实现方式中，也不排除采用其它函数。

本实现方式中，CD部分的权重和CI部分的权重之和可以为1，比值可以等于唤醒词对应的声学模型中，CD部分输出层节点的个数与CI部分输出层节点的个数之间的比值。

本实现方式中，在解码的过程中，可以将样本属于各输出层节点的概率送入解码器，供解码器计算搜索空间中各路径的得分时使用。

下面用一个例子说明上述实施例。

本例子用于语音唤醒的场景下，采用多任务深度神经网络进行全词声学建模，每当确定了新的唤醒词后不需要重复全部建模过程，可以在唤醒词和非唤醒词区分建模的同时实现唤醒词的快速定制，而且还能够克服训练数据稀疏的问题。

本例子中，建模的过程如图3所示，包括如下步骤301～307：

301、首先对训练用的语音数据进行处理，比如去掉杂音等，即清洗数据；然后进行声学特征的提取。

302、对声学特征进行单音素(mono-phone)的HMM-GMM训练，得到第一声学模型；采用第一声学模型对步骤301中提取的声学特征进行强制对齐，得到单音素的训练数据。

303、对声学特征进行聚类状态(tied state)的HMM-GMM训练，得到第二声学模型；采用第二声学模型对步骤301中提取的声学特征进行强制对齐，得到聚合状态的训练数据。

由于一般语音数据无法标注每个音素(或聚类状态)的起止时间，强制对齐就是利用GMM-HMM模型，将各帧对应到一个音素(或一个聚类状态)。

304、采用步骤302和303中得到的训练数据训练MT-DNN，得到全词声学模型。其中，单音素的训练数据用于进行CI建模，聚合状态的训练数据用于进行CD建模。

区别于传统识别建模仅采用聚类状态或者单音素的HMM-GMM进行强制对齐得到DNN的训练数据，本例子中生成两种强制对齐的训练数据，并使用这两种训练数据分别作为输入语音的标签进行MT-DNN的训练。

在步骤302～304建模过程中(HMM-GMM以及MT-DNN建模)，利用两个级别(单音素和聚合状态)的建模单元，分别进行CI建模和CD建模。

对于训练用的语音数据的聚类状态(tied state)扩展，以三音素(也可以称为三音子)状态下的“你好小云”为例：

音素集：共131个音素；

通过发音词典得到“你好小云”包含以下12个音素：ni、i_l、i_h、h、aa_l、o_l、xi、aa_l、o_l、yv、el_l、nn_h。

扩展得到的tri-phone如表一的第一列，其中sil表示静音：

表一、“你好小云”的全词模型映射表

总计有音素个数(即12)个tri-phone。第二列为tri-phone对应的tied state的状态转移编号，表征该tri-phone在HMM拓扑中的相关信息；第三列为这些tri-phone映射到MT-DNN建模中的新状态转移编号(0到464号是音素列表对应的CI状态)。

tied state跟单音素一起作为MT-DNN的输出层节点来进行训练，可能存在数据量上的差别，导致这些tied state相关的权重参数训练不充分。所以在准备训练数据时，可以按照一定的比例对单音素进行稀疏采样，使得两种训练数据的帧数大体在同一个数量级。

本例中所采用的MT-DNN的结构如图4所示。训练过程中，两个输出任务(任务Task1是CD建模，任务Task2是CI建模)可以按照公式(1)描述的交叉熵准则进行模型更新。

其中，T₁代表Task1，T₂代表Tast2，和分别代表两个任务的交叉熵统计量，和分别代表两个任务的交叉熵值对模型训练的影响程度和分别为两个任务输出的目标值，和分别代表两个输出任务的输出层节点数。

其中，分别是针对输入特征x，在训练集中的概率分布；是Task1，即CD建模的输出结果，i分别是从1到N^P的每个数；是Task2，即CI建模的输出结果，i分别是从1到N^a的每个数。

其中，和参数按照实际经验分别取0.7和0.3，也可根据实际情况加以调整。

步骤304中训练得到的MT-DNN作为基础模型，当唤醒词确定之后，进行步骤305。

305、根据所确定的唤醒词，进行基础模型的裁剪，得到针对该唤醒词的定制模型。该定制模型可以直接用于语音唤醒中。

当给定唤醒词后，本例子以步骤304得到的MT-DNN为基础，进行快速裁剪。其过程可以表示为图5(a)和(b)：

首先将所确定的唤醒词拆成多个CD建模单元(本例中即聚类状态)，确定这些聚类状态对应的输出层节点，本例中假设所找到的输出层节点是图5(a)中粗线方框中相邻的三个输出层节点；实际应用中，并不一定找到的输出层节点恰好是相邻的。

接着进行模型裁剪，在基础模型中，CD任务中只保留所找到的输出层节点，CI任务的输出层节点保持不变，得到裁剪后的模型，如图5(b)所示。

本例中，MT-DNN的输出层的激活函数可以采用softmax函数进行归一化和逻辑分类；唤醒词的CD节点和非唤醒词的CI节点在进行softmax逻辑分类时，可以采用模块化结构(block-softmax)，即唤醒词对应一个模块(block)，非唤醒词对应一个block。

按照公式(2)所示的加权softmax函数来计算概率和

其中，代表输入特征为矢量时，样本属于CD部分某个输出层节点的输出量的概率；代表输入特征为矢量时，样本属于CI部分某个输出层节点的输出量的概率。

其中，和分别代表输入特征为矢量时，唤醒词CD block和非唤醒词CIblock各个节点的softmax层(即输出节点层)的输出量，分别是图5(b)中的和和分别代表唤醒词CD block和非唤醒词CI block各个节点的softmax层的输入量，分别是图5(b)中的和和代表图5(b)中输出层保留的三个节点各自的输出量和输入量，对于和i、j可以分别是这三个节点对应的下标；对于和i、j可以分别是从1到N^a的每个数。

其中，exp为指数函数；N_CD是基础模型中CD任务的输出层节点的个数，比如图4中是N^P个；N_CI是基础模型中CI任务的输出层节点的个数，比如图4中就是N^a个。

该加权softmax函数的权重w_CD和w_CI满足公式(3)：

w_CD+w_CI＝1

其中，num_CD是所确定的唤醒词拆成的CD建模单元所对应的输出层节点的个数，比如图5(b)中是3个；num_CI是非唤醒词拆成CI建模单元所对应的输出层节点的个数，和N_CI相等，比如图5(b)中是N^a个。

在语音唤醒的解码过程中，将按照公式(2)计算出的概率送入解码器，供解码器计算搜索空间中各路径的得分时使用。

按照前述方法进行唤醒词的tied state节点和非唤醒词的mono-phone节点的提取和拼接(即模型裁剪)，能组建类似于直接对唤醒词进行全词建模(即对唤醒词进行CD建模，对非唤醒词进行CI建模)得到的DNN模型。而模型裁剪的过程可以完全不需要训练数据，能自动化做到对定制的唤醒词的全词建模，非常便于大范围推广和应用。

306、生成全词建模的数据；包括：

将确定唤醒词的用户上传的语音，以及数据库中原有的语音进行数据处理及特征提取，并分类成唤醒词和非唤醒词；

将唤醒词的声学特征进行三音素的HMM-GMM建模、强制对齐后得到CD的训练数据，将非唤醒词的声学特征进行单音素的HMM-GMM建模、强制对齐后得到CI的训练数据。

307、进行定制模型的调优，即：使用步骤306中得到的两部分训练数据对定制模型进行进一步训练，其中，CD和CI的训练数据可以分别用于进行CD建模和CI建模。

步骤306～307可以采用全词建模的数据对模型进行微调，从而使定制模型可以进行快速自适应。

其中，步骤306～307是可选的，直接使用步骤305得到的定制模型也可以进行语音唤醒。

本例采用基于MT-DNN的两级单元建模，利用广泛的非唤醒词的语音数据对唤醒词进行辅助建模，能有效缓解训练数据稀疏问题；区别于传统多任务网络最终只取单任务输出，本例将两个输出任务进行整合合并，实现全词建模的语音唤醒快速定制。

实施例二、一种声学模型的获取装置，应用于语音唤醒模型处理中，包括：处理器和存储器；

一种实现方式中，唤醒词对应的输出层节点可以是指，唤醒词拆分出的聚类状态所对应的输出层节点。

一种实现方式中，用于获取声学模型的程序在被所述处理器读取执行时，还可以进行如下操作：

在获取基础模型前，对训练用的语音数据进行清洗，并提取出声学特征；

本实现方式中，可以在得到单音素的训练数据和聚合状态的训练数据后，利用这两种训练数据对MT-DNN进行训练得到上述基础模型。

一种实现方式中，所述用于获取声学模型的程序在被所述处理器读取执行时，还可以进行如下操作：

本实施例中，用于获取声学模型的程序在被处理器读取执行时，所进行的操作可以对应于实施例一的步骤S110～S130，其它操作细节可参见实施例一。

实施例三、一种声学模型的获取装置，应用于语音唤醒模型处理中，如图6所示，包括：

获取模块61，用于获取基础模型，所述基础模型为对训练数据进行上下文无关CI建模和上下文相关CD建模得到的，其中，对聚合状态的训练数据中采用CD建模，对单音素的训练数据采用CI建模；

裁剪模块62，用于对于给定的唤醒词，在基础模型CD部分的输出层节点中，选出所述唤醒词所对应的输出层节点；

构建模块63，用于将所述唤醒词对应的输出层节点，与基础模型中的其余部分构建模型，得到所述唤醒词对应的声学模型。

一种实现方式中，本实施例的装置还可以包括：

处理模块，用于对训练用的语音数据进行清洗，并提取出声学特征；

HMM-GMM建模模块，用于对提取出的声学特征分别进行单音素的隐马尔科夫模型-混合高斯模型HMM-GMM建模，和聚合状态的HMM-GMM建模，分别得到第一声学模型和第二声学模型；

对齐模块，用于采用第一声学模型所提取的声学特征进行强制对齐，得到单音素的训练数据；采用第二声学模型所提取的声学特征进行强制对齐，得到聚合状态的训练数据。

本实现方式中，可以在得到单音素的训练数据和聚合状态的训练数据后，由获取模块、或其它用于生成基础模型的设备，利用这两种训练数据对MT-DNN进行训练得到上述基础模型。

一种实现方式中，本实施例的装置还可以包括：

调整模块，用于在裁剪模块选出所述唤醒词所对应的输出层节点，与所述基础模型的其余部分一起作为所述唤醒词对应的声学模型后，根据所述唤醒词得到CD的训练数据，根据非唤醒词得到CI的训练数据，对所述唤醒词对应的声学模型进行训练。

本实现方式中，CD部分的权重和CI部分的权重之和可以为1，比值可以等于所述唤醒词对应的声学模型中，CD部分输出层节点的个数与CI部分输出层节点的个数之间的比值。

本实施例中，获取模块、裁剪模块、构建模块所进行的操作可以分别对应于实施例一的步骤S110、S120、S130，其它实现细节可参见实施例一。

实施例四、一种建模方法，包括步骤S410～S430：

S410、获取基础模型，所述基础模型通过在多任务深度神经网络中，对单音素的训练数据进行上下文无关CI建模，对聚合状态的训练数据进行上下文相关CD建模得到；

S420、对于给定的关键词，在基础模型CD部分的输出层节点中，选出所述关键词所对应的输出层节点；

S430、将选出的输出层节点，与所述基础模型的其余部分一起作为所述关键词对应的声学模型。

本实施例中，得到关键词对应的声学模型后，可以从输入的语音数据中甄别出该关键词并执行与该关键词对应的预定操作；比如用于语音唤醒时，有两种做法：一种是解码器根据关键词对应的声学模型对收到的语音进行解码，可以得到音素序列，和关键词的音素序列如果匹配则唤醒设备；另一种是解码器根据关键词对应的声学模型、语言模型、发音词典对收到的语音进行解码，可以得到文字序列，和关键词如果匹配则唤醒设备。

本实施例中，当出现新的关键词时，比如有新用户需要自定义关键词、或者老用户改变原有关键词时，根据给定的关键词对基础模型进行裁剪，就可以快速得到针对该新的关键词定制的全词声学模型。

一种实现方式中，关键词对应的预定操作可以但不限于是唤醒，即关键词是用于进行语音唤醒的唤醒词；该实现方式的其它细节可参见实施例一。

其它实现方式中，关键词对应的预定操作也可以是其它操作，实现细节可以参考实施例一。

实施例五、一种建模装置，包括：存储器和处理器；

所述存储器用于保存用于进行建模的程序；所述用于进行建模的程序在被所述处理器读取执行时，进行如下操作：

获取基础模型，所述基础模型通过在多任务深度神经网络中，对单音素的训练数据进行上下文无关CI建模，对聚合状态的训练数据进行上下文相关CD建模得到；

本实施例中，用进行建模的程序在被处理器读取执行时，所进行的操作可以对应于实施例四的步骤S410～S430。本实施例与实施例二基本相同；区别在于，本实施例中是针对给定的关键词获取声学模型，而实施例二是针对给定的唤醒词获取声学模型；本实施例的其它实现细节可参见实施例二。

实施例六、一种建模装置，与实施例三基本相同；区别在于，本实施例中是针对给定的关键词获取声学模型，而实施例三是针对给定的唤醒词获取声学模型；本实施例的其它实现细节可参见实施例三。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

当然，本申请还可有其他多种实施例，在不背离本申请精神及其实质的情况下，熟悉本领域的技术人员当可根据本申请作出各种相应的改变和变形，但这些相应的改变和变形都应属于本申请的权利要求的保护范围。

Claims

1.一种声学模型的获取方法，应用于语音唤醒模型处理中，包括：

2.如权利要求1所述的获取方法，其特征在于：

所述唤醒词对应的输出层节点是指，所述唤醒词拆分出的聚类状态所对应的输出层节点。

3.如权利要求1所述的获取方法，其特征在于，所述获取基础模型前还包括：

对训练用的语音数据进行清洗，并提取出声学特征；

4.如权利要求1所述的获取方法，其特征在于，所述得到所述唤醒词对应的声学模型后还包括：

5.如权利要求1所述的获取方法，其特征在于：

所述唤醒词对应的声学模型中，样本属于CD部分任一个输出层节点的输出量的概率，根据该输出层节点的输入量，CD部分的权重，以及基础模型中CD部分各输出层节点的输入量得到；样本属于CI部分任一个输出层节点的输出量的概率，根据该输出层节点的输入量，CI部分的权重，以及各CI部分输出层节点的输入量得到。

6.如权利要求5所述的获取方法，其特征在于：

所述CD部分的权重和CI部分的权重之和为1，比值等于所述唤醒词对应的声学模型中，CD部分输出层节点的个数与CI部分输出层节点的个数之间的比值。

7.一种声学模型的获取装置，应用于语音唤醒模型处理中，包括：处理器和存储器；

其特征在于：

8.如权利要求7所述的获取装置，其特征在于，所述用于获取声学模型的程序在被所述处理器读取执行时，还进行如下操作：

9.如权利要求7所述的获取装置，其特征在于：

10.如权利要求9所述的获取装置，其特征在于：

11.一种声学模型的获取装置，应用于语音唤醒模型处理中，其特征在于，包括：

12.如权利要求11所述的获取装置，其特征在于，还包括：

13.如权利要求11所述的获取装置，其特征在于：

14.如权利要求13所述的获取装置，其特征在于：

15.一种建模方法，包括：