CN108417207B

CN108417207B - 一种深度混合生成网络自适应方法及系统

Info

Publication number: CN108417207B
Application number: CN201810054314.8A
Authority: CN
Inventors: 钱彦旻; 丁文; 谭天
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2020-06-30
Anticipated expiration: 2038-01-19
Also published as: CN108417207A

Abstract

本发明公开一种深度混合生成网络自适应方法及系统，所述方法包括：从训练数据集中获取的训练音频数据和相应于训练音频数据的训练文本数据分别作为输入和输出，来训练深度混合生成网络，以从高斯混合模型中获取全局音素均值；根据说话者的注册音频数据确定说话者的说话者音素均值；确定用于将全局音素均值向说话者音素均值转化的自适应转化矩阵；基于自适应转化矩阵调整高斯混合模型以实现深度混合生成网络的自适应。本发明中通过将深度神经网络与高斯混合模型的结合，使得进行自适应时只需要对高斯混合模型网络进行自适应调整即可，而不必对整个网络进行重新训练，所以简化了自适应过程，提升了自适应效率。

Description

一种深度混合生成网络自适应方法及系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种深度混合生成网络自适应方法及系统。

背景技术

近年来，随着深度学习的深入，语音识别系统的性能得到了显著的提高。现有被证明效果最好的语音识别系统中，声学模型大多是在成百上千小时数据集合上训练的基于DNN的深度网络模型。目前训练声学模型所用的声学特征是与说话人无关的滤波器组(filter-bank，fBank)特征，因此训练出来的声学模型实际上只是一个通用的深度网络模型，是与说话人无关的，由于该通用模型训练时缺少说话人相关的个性特征，而使得语音识别的准确率以及准确率较低，且语音识别的适应性较差。

为解决这一问题就需要对已经训练好的通用的深度网络模型进行自适应训练，而发明人在实现本发明的过程中发现，现有技术进行自适应的方法为采用待识别说话人的语音数据对整个深度网络模型进行训练，训练没有针对性，效率低下。

发明内容

本发明实施例提供一种深度混合生成网络自适应方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种深度混合生成网络自适应方法，所述深度混合生成网络由高斯混合模型替换深度神经网络的输出层构成，所述方法包括：

从训练数据集中获取的训练音频数据和相应于所述训练音频数据的训练文本数据分别作为输入和输出，来训练所述深度混合生成网络，以从所述高斯混合模型中获取全局音素均值；

根据说话者的注册音频数据确定所述说话者的说话者音素均值；

确定用于将所述全局音素均值向所述说话者音素均值转化的自适应转化矩阵；

基于所述自适应转化矩阵调整所述高斯混合模型以实现所述深度混合生成网络的自适应。

第二方面，本发明实施例提供一种深度混合生成网络自适应系统，所述深度混合生成网络由高斯混合模型替换深度神经网络的输出层构成，所述系统包括：

全局音素均值获取程序模块，用于从训练数据集中获取的训练音频数据和相应于所述训练音频数据的训练文本数据分别作为输入和输出，来训练所述深度混合生成网络，以从所述高斯混合模型中获取全局音素均值；

说话者音素均值获取程序模块，用于根据说话者的注册音频数据确定所述说话者的说话者音素均值；

自适应转化矩阵确定程序模块，用于确定将所述全局音素均值向所述说话者音素均值转化的自适应转化矩阵；

网络自适应调整程序模块，用于基于所述自适应转化矩阵调整所述高斯混合模型以实现所述深度混合生成网络的自适应。

第三方面，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项深度混合生成网络自适应方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项深度混合生成网络自适应方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项深度混合生成网络自适应方法。

本发明实施例的有益效果在于：本发明中通过将深度神经网络与高斯混合模型的结合，使得进行自适应时只需要对高斯混合模型网络进行自适应调整即可，而不必对整个网络进行重新训练，所以简化了自适应过程，提升了自适应效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明深度混合生成网络一实施例的结构示意图；

图2为本发明深度混合生成网络自适应方法一实施例的流程图；

图3为本发明深度混合生成网络自适应方法另一实施例的流程图；

图4为本发明中的DMGN的全局均值和自适应均值可视化对比图；

图5为本发明深度混合生成网络自适应系统一实施例的原理框图；

图6为本发明中自适应转化矩阵确定程序模块一实施例的原理框图；

图7为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然DNN(Deep Neural Network，深度神经网络)在多个领域表现良好，但是解释DNN的参数仍然是困难的，这使得DNN难以对特定声学条件进行自适应。DNN的传统自适应方法主要集中在引入附加特征或参数来建模声学条件。例如，在训练和测试期间，将说话者相关(speaker-dependent，SD)特征(如i-vector和说话者代码)提供说话者信息给网络。其它一些技术专注于某些DNN层的特征归一化。例如，线性输入网络(LIN)和线性输出网络(LON)对输入特征和输出层进行线性变换。学习隐层单位贡献(learning hidden unitcontributions，LHUC)，将特征转化进说话者相关(SD)空间。在一些相关技术中，将权重矩阵基与SD插值权重组合来估计讲话者特有的权重矩阵。然而，由于对DNN中神经元和参数的含义缺乏了解，以前的方法并不是最高效的自适应方法。

发明人为了得到能够进行快速自适应的神经网络，研究了结构化神经网络，对DNN拓扑结构进行了明确的修改，使神经网络中的一些参数能够对特定的功能建模，并提出了采用高斯混合模型(Gaussian mixture model，GMM)替代DNN的softmax层，得到深度混合生成网络(deep mixture generative network，DMGN)。在这个结构中，DNN的输出层使用GMM来估计似然性。虽然DNN的激活行为难以理解，但GMM的参数具有明确的意义和表征，这对于自适应调整应该有所帮助。

本发明的目的是快速和高效地自适应深度混合生成网络。采用一个高斯表示一个音素，高斯均值表示属于这个音素的所有样本的聚类中心。然而，这个均值是在所有说话者中估计的，来自不同说话者的样本应该形成不同的聚类中心。因此，首先提出自适应均值方法来做DMGN的自适应。SD(说话者相关)方法是在无监督的自适应模式下估计。此外，在缺乏自适应数据的情况下，提出了区分线性回归(discriminative linear regression，DLR)来估计更好的SD自适应方法。为了更好地解释这些参数，还提供了对输入特征和高斯均值，在二维平面中进行可视化，根据图像显示在应用DLR之后，均值确实从平均点转移到说话者特有的中心。在交换机语音识别任务(SWBD)的50小时子集上评估所提出的自适应技术。实验表明，提出的自适应方法优于说话人无关的基线，与学习隐层单位贡献(learning hiddenunit contributions，LHUC)相比，获得了略微的性能提升。

为了更好地建模多元音素，将高斯混合模型(GMM)引入到DNN的输出层，以形成深度混合生成网络(DMGN)。不是使用softmax层来预测后验概率p(y|x)，而是在输出层估计似然性p(x|y)。每个多元音素y都是由GMM建模的。公式定义如下：

其中，x是输入特征，y是多元音素，μ_y，i和Σ_y，i是多元音素y的第i个高斯的均值向量和协方差矩阵，w_y，i是多元音素y的第i个高斯的混合权重。

如图1所示，为深度混合生成网络的结构示意图。声学特征首先经过几个隐藏层，进行非线性变换；然后，经过线性瓶颈层来降低输入特征的维数，消除特征之间的相关性，使对角协方差矩阵假设成立。所以在本发明中使用的所有协方差矩阵都是对角矩阵。最后，将低维不相关向量输入GMM层，得到对数似然log p(x|y)。

对真实标注和多元音素后验概率之间的交叉熵(CE)Lce进行优化以训练深度混合生成网络。

后验概率计算公式如下：

其中，p(y)＝T_y/T是从训练集估计的先验概率。关键偏导数是关于均值、方差和混合权重的似然性的梯度。

其中，

并且，

是对于log p(x|y)的偏导数，是传播回GMM的误差。i是GMM成分的个数，j与维度有关，所以i＝1，...，g，j＝1，...，d。通过更新上述公式，可以对深度混合生成网络进行相应的训练。

如图2所示，为本发明所提供的一种深度混合生成网络自适应方法的一个实施例，包括：

S10、从训练数据集中获取的训练音频数据和相应于所述训练音频数据的训练文本数据分别作为输入和输出，来训练所述深度混合生成网络，以从所述高斯混合模型中获取全局音素均值。

其中，所述深度混合生成网络包括顺序连接的输入层、多个隐层、线性瓶颈层和高斯混合模型。

训练数据集中包括了大量说话者的音频数据用作训练音频数据，一般是把训练音频数据分成许多帧，对于每一帧，通过傅里叶变换等一系列操作，把它转换成一个特征向量。从训练音频数据中，我们可以提取出大量的特征向量，以及它们对应的音素；利用这些数据，就可以利用高斯混合模型(GMM)得到似然度，并结合音素特征向量的先验概率分布，得到从特征到音素的分类器，估计出每个音素的特征向量的分布，然后在识别阶段，计算每一帧的特征向量由相应音素产生的概率。

S20、根据说话者的注册音频数据确定所述说话者的说话者音素均值。

示例性地，将所述注册音频数据输入至训练后的深度混合生成网络，并从所述高斯混合模型中获取所述说话者的说话者音素均值。

S30、确定用于将所述全局音素均值向所述说话者音素均值转化的自适应转化矩阵；

S40、基于所述自适应转化矩阵调整所述高斯混合模型以实现所述深度混合生成网络的自适应。

本发明中通过将深度神经网络与高斯混合模型的结合，使得进行自适应时只需要对高斯混合模型网络进行自适应调整即可，而不必对整个网络进行重新训练，所以简化了自适应过程，提升了自适应效率。

如图3所示，在一些实施例中，所述确定用于将所述全局音素均值向所述说话者音素均值转化的自适应转化矩阵包括：

S31、为所述高斯混合模型中的全局音素均值配置初始自适应转化矩阵；

S32、将所述注册音频数据输入至训练后的深度混合生成网络，以获取相应于所述注册音频数据的似然度和识别出的文本数据；

S33、基于所述似然度确定相应于所述注册音频数据的后验概率；

S34、对所述识别出的文本数据进行强制对齐以得到标注信息；

S35、最小化所述后验概率和标注信息之间的交叉熵为标准来调整所述初始自适应转化矩阵以得到所述自适应转化矩阵。

发明人在实现本发明的过程中在不同方向进行了不同程度的创造性设想，并提出了三种对深度混合生成网络(DMGN)进行自适应的方案，分别是：学习隐层单元贡献法(LHUC)、自适应均值法和判别线性回归法。起初，发明人认为由于每个高斯的均值是给定状态的聚类中心，因此自适应均值法更有效率。以下对这三种自适应方法分别进行介绍：

1、LHUC

在LHUC是一种自适应DNN的典型方法，其中在每个说话者的隐藏层的激活之后应用说话者相关(SD)变换：

其中，h^l _s是l层的自适应隐藏输出，

是针对第l个隐藏层的说话者特定向量。这种方法可以直接应用于DMGN，因为DMGN的前几层的结构与DNN一致。

2、自适应均值

发明人意外的发现，尽管LHUC是自适应DNN的好方法，但对于DMGN来说这并不是最合适的，因为LHUC不考虑神经元的含义，每一层的激活也没有先验知识。基于这种考虑，发明人提出了自适应均值。使用无监督的自适应模式，首先使用说话者无关(speaker-independent)的深度混合生成网络(SI-DMGN)系统生成假设以获得状态级对准。然后，每个高斯的均值将被自适应于说话者特定的均值。自适应标准是最小化状态后验与假设生成的标签之间的交叉熵。之后，不同的说话者将有不同的均值。因此，每个高斯的均值将更接近给定说话者的真正聚类中心，而不是所有说话者的均值。

3、区分线性回归

进一步地发明人意外的发现，由于缺乏自适应数据，不可能为所有的多元音素估计正确的自适应均值。因此，提出了区分线性回归(DLR)来进行DMGN的鲁棒自适应。

DLR旨在用于从有限的数据中，来学习到高斯均值的特定变换。在DMGN的输出层，每个高斯的均值被直接变换：

其中，W_s是说话者s的变换矩阵，将所有不同多元音素的均值μ_y，i变换为说话者特定均值。不同的说话者使用不同的W_s。DMGN中的GMM在变换之后使用新的变换参数输出似然性：

变换矩阵也通过无监督自适应模式进行优化。只有变换矩阵W在自适应期间被更新，其他所有的参数被冻结保持不变。

训练标准是CE(交叉熵)，更新可以使用通用参数训练方案，例如，随机梯度下降(SGD)。由于在GMM输出层之前使用了瓶颈层(例如，50维的瓶颈层)，所以变换矩阵的大小是非常小的，使得深度混合生成网络的自适应更加高效和有效。

为证明本发明实施例的深度混合生成网络的自适方法即系统能够达到预期效果，发明人进行了以下实验：

1)、数据集描述

本发明实施例中使用交换机数据集的50小时子集进行评估。训练集中有810名说话者。我们使用了两个测试集，包括：Rich Transcription 2003评估的Fisher和Switchboard部分，在剩余的实验中被称为fsh和swbd。测试集包括144个说话者和8422个句子。

2)、实验设置

深度混合生成网络和所有提出的自适应方法都是使用CNTK(ComputationalNetwork Toolkit)实现的，并且包含2723个绑定的三音素状态的GMM-HMM(Hidden MarkovModel，隐马尔可夫模型)模型首先被训练以生成用于DNN训练的比对。Kaldi被用来训练GMM-HMM和解码。

提取36维对数梅尔频率滤波器组(FBANK)及其一阶导数和二阶导数作为特征，并应用每个说话者的CMN(cepstral mean normalization倒谱均值归一化)。使用11个连续的帧(左右5帧加一帧)作为输入，每帧的标注是由GMM-HMM系统产生的强制对齐。选择sigmoid作为激活函数，CE(交叉熵)作为训练标准。SGD(随机梯度下降，Stochastic GradientDescent)用于训练模型，初始学习率为1.0。如果交叉验证集合的CE在一轮训练之后没有降低，则学习率减半。一批训练数据大小设置为256。在交换机转录本上训练的三元语言模型被用于解码。自适应方案以无监督方式进行评估：使用说话者无关系统来生成假设和状态级对准，然后使用这些对准来估计SD参数，例如，每个说话者的均值或变换矩阵。

3)、基线

基线DNN包含5个隐藏层，每层有2048个节点，在softmax层之前有一个具有50个节点的线性瓶颈层。表1中的第一行显示了基线DNN的性能。然后使用具有瓶颈层的基线DNN来初始化DMGN系统。输出softmax层被移除并被GMM层所取代。为简单起见，Σ在我们的实验中被冻结为单位矩阵。所以GMM层中的参数是μ_y，i和混合权重w_y，i。使用DNN作为初始化是非常重要的，因为在我们的经验中，当从头开始随机初始化网络时，网络不能很好地训练。在初始化之后，GMM层中的参数被更新一轮。在表1中比较了不同数量的高斯进行混合的DMGN的性能，包括1、2和4的分量。与具有2个和4个高斯混合分量的情况相比，单个高斯表现得最好。对于单个高斯分量DMGN(Single-DMGN，简写SI-DMGN)，比具有瓶颈层的普通DNN稍好些，而DMGN在高斯混合分量数量增加的情况下效果不佳，这可能来自于我们作出的假设，协方差矩阵总是一个单位矩阵(当不做此假设时实际应该是高斯混合分量增加的情况下效果更佳)。在所有其余的实验中，只使用单个高斯。

表1-在DNN和不同数量的高斯分量进行混合的DMGN下错误率比较

4)、自适应性能评估

所有提出的DMGN自适应方法的性能如表2所示，包括LHUC、自适应均值和DLR。LHUC被应用到DMGN的第一层，因为在第一层获得了性能改善。结果显示LHUC应用于DMGN的结构并不太好。在表2的第三行中说明了自适应均值的结果。与SI-DMGN系统相比，该方法在swbd和fsh两者上产生更好的性能。通过将DLR与SI-DMGN系统进行比较，结果说明使用变换确实能够捕捉特定说话者的特征以获得更稳健的自适应均值，从而获得显著的性能改善，而且由于只有高斯的均值是自适应的，所以自适应过程是快速的。

表2-DMGN采用不同类型自适应方法时的错误率比较

图4说明了DLR如何用于DGMN中的说话者自适应。选用来自三个说话人的音素为n的帧，并将这些帧的瓶颈层输出使用t-SNE(t-distributed stochastic neighborembedding)投影到二维平面，t-SNE是用于降维的一种机器学习算法，并且是一种非线性降维算法，非常适用于高维数据降维到2维或者3维，进行可视化。如图4所示，不同形状的点集表示来自不同说话者的输出。据观察，来自不同说话者的隐藏输出具有它们自己的聚类中心。我们的SI-DMGN中的高斯均值(称为全局均值)和DLR之后的均值(称为自适应均值)也绘制在同一个图中。黑色五角星代表SI-DMGN中来自GMM的原始全局均值。三颗白色五角星代表分别对应于三个不同说话者的自适应均值。据观察，全局均值处于所有样本的中心，但是对于一个特定的说话者，全局均值和实际中心之间的距离相当远。在DLR训练之后，均值确实从平均点(即，全局均值点)说话者特定的中心发生了转移，这也说明了DMGN具有更好的可解释性。

本发明实施例提出了一个结构化和可解释的网络自适应方法，深度混合生成网络。首先提出自适应均值进行DMGN自适应调整，与DNN的典型自适应方法(如LHUC)相比更加有效。此外，当缺乏自适应数据时，提出了判别线性回归(DLR)来估计更好的说话者相关均值。实验表明，所有提出的方法都优于说话人无关的基线，使用DLR进行说话者自适应后，获得了显著的性能提升。全局均值和自适应均值的可视化表明，所提出的方法实际上有助于高斯均值从平均点移到特定说话人的中心。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图5所示，本发明的实施例还提供一种深度混合生成网络自适应系统500，所述深度混合生成网络由高斯混合模型替换深度神经网络的输出层构成，所述系统500包括：

全局音素均值获取程序模块510，用于从训练数据集中获取的训练音频数据和相应于所述训练音频数据的训练文本数据分别作为输入和输出，来训练所述深度混合生成网络，以从所述高斯混合模型中获取全局音素均值；

说话者音素均值获取程序模块520，用于根据说话者的注册音频数据确定所述说话者的说话者音素均值；

自适应转化矩阵确定程序模块530，用于确定将所述全局音素均值向所述说话者音素均值转化的自适应转化矩阵；

网络自适应调整程序模块540，用于基于所述自适应转化矩阵调整所述高斯混合模型以实现所述深度混合生成网络的自适应。

如图6所示，在一些实施例中，所述自适应转化矩阵确定程序模块530包括：

初始转换矩阵配置程序单元531，用于为所述高斯混合模型中的全局音素均值配置初始自适应转化矩阵；

音频数据输入程序单元532，用于将所述注册音频数据输入至训练后的深度混合生成网络，以获取相应于所述注册音频数据的似然度和识别出的文本数据；

后验概率确定程序单元533，用于基于所述似然度确定相应于所述注册音频数据的后验概率；

强制对齐程序单元534，用于对所述识别出的文本数据进行强制对齐以得到标注信息；

转化矩阵确定程序单元535，用于最小化所述后验概率和标注信息之间的交叉熵为标准来调整所述初始自适应转化矩阵以得到所述自适应转化矩阵。

在一些实施例中，所述深度混合生成网络包括设置与所述深度神经网络和所述高斯混合模型之间的线性瓶颈层。

在一些实施例中，所述根据说话者的注册音频数据确定所述说话者的说话者音素均值包括：

将所述注册音频数据输入至训练后的深度混合生成网络，并从所述高斯混合模型中获取所述说话者的说话者音素均值。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项深度混合生成网络自适应方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项深度混合生成网络自适应方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行深度混合生成网络自适应方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现深度混合生成网络自适应方法。

上述本发明实施例的实现深度混合生成网络自适应系统可用于执行本发明实施例的深度混合生成网络自适应方法，并相应的达到上述本发明实施例的深度混合生成网络自适应方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

图7是本申请另一实施例提供的执行深度混合生成网络自适应方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

执行深度混合生成网络自适应方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的深度混合生成网络自适应方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例深度混合生成网络自适应方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据深度混合生成网络自适应的装置和/或输入装置的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至深度混合生成网络自适应的装置和/或输入装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息，以及产生与深度混合生成网络自适应装置和/或输入装置的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的深度混合生成网络自适应方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种深度混合生成网络自适应方法，所述深度混合生成网络由高斯混合模型替换深度神经网络的输出层构成，所述方法包括：

从训练数据集中获取的训练音频数据和相应于所述训练音频数据的训练文本数据分别作为输入和输出，来训练所述深度混合生成网络，以从所述高斯混合模型中获取全局音素均值；其中，所述训练音频数据为输入，所述训练文本数据为输出；

将说话者的注册音频数据输入至训练后的深度混合生成网络，并从所述高斯混合模型中获取所述说话者的说话者音素均值；

为所述高斯混合模型中的全局音素均值配置初始自适应转化矩阵；

将所述注册音频数据输入至训练后的深度混合生成网络，以获取相应于所述注册音频数据的似然度和识别出的文本数据；

基于所述似然度确定相应于所述注册音频数据的后验概率；

对所述识别出的文本数据进行强制对齐以得到标注信息；

最小化所述后验概率和标注信息之间的交叉熵为标准来调整所述初始自适应转化矩阵以得到自适应转化矩阵；

2.根据权利要求1所述的方法，其中，所述深度混合生成网络包括设置与所述深度神经网络和所述高斯混合模型之间的线性瓶颈层。

3.一种深度混合生成网络自适应系统，所述深度混合生成网络由高斯混合模型替换深度神经网络的输出层构成，所述系统包括：

全局音素均值获取程序模块，用于从训练数据集中获取的训练音频数据和相应于所述训练音频数据的训练文本数据分别作为输入和输出，来训练所述深度混合生成网络，以从所述高斯混合模型中获取全局音素均值；其中，所述训练音频数据为输入，所述训练文本数据为输出；

说话者音素均值获取程序模块，用于将说话者的注册音频数据输入至训练后的深度混合生成网络，并从所述高斯混合模型中获取所述说话者的说话者音素均值；

初始转换矩阵配置程序单元，用于为所述高斯混合模型中的全局音素均值配置初始自适应转化矩阵；

音频数据输入程序单元，用于将所述注册音频数据输入至训练后的深度混合生成网络，以获取相应于所述注册音频数据的似然度和识别出的文本数据；

后验概率确定程序单元，用于基于所述似然度确定相应于所述注册音频数据的后验概率；

强制对齐程序单元，用于对所述识别出的文本数据进行强制对齐以得到标注信息；

转化矩阵确定程序单元，用于最小化所述后验概率和标注信息之间的交叉熵为标准来调整所述初始自适应转化矩阵以得到自适应转化矩阵；

4.根据权利要求3所述的系统，其中，所述深度混合生成网络包括设置与所述深度神经网络和所述高斯混合模型之间的线性瓶颈层。

5.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-2中任意一项所述方法的步骤。

6.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-2中任意一项所述方法的步骤。