CN106157953A

CN106157953A - 连续语音识别方法及系统

Info

Publication number: CN106157953A
Application number: CN201510181631.2A
Authority: CN
Inventors: 杜俊; 高天; 戴礼荣; 胡国平; 胡郁; 刘庆峰
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2015-04-16
Filing date: 2015-04-16
Publication date: 2016-11-23
Anticipated expiration: 2035-04-16
Also published as: CN106157953B

Abstract

本发明公开了一种连续语音识别方法及系统，该方法包括：预先训练语音去噪与声学分类相融合的神经网络；接收待识别的连续语音信号；提取所述语音信号的声学特征；根据所述声学特征和所述神经网络得到语音建模单元的后验概率；对所述语音信号连续语音段的所有帧语音的建模单元后验概率进行维特比解码，得到语音识别结果。利用本发明，可以提高连续语音识别结果的正确率。

Description

连续语音识别方法及系统

技术领域

本发明涉及语音信号处理领域，尤其涉及一种连续语音识别方法及系统。

背景技术

实现人机之间人性化、智能化的有效交互，构建高效自然的人机交流环境，已经成为当前信息技术应用和发展的迫切需求。语音作为人与外界交流最方便快捷的方式，其识别技术一直是相关领域研究人员研究的热点。

传统的语音识别系统中，对待识别的语音信号采用麦克风阵列、滤波器、谱减等降噪方法进行语音信号去噪，再提取去噪后的语音信号特征，基于预先训练好的声学模型进行后续的识别工作。传统语音识别系统中语音去噪效果不理想，因而在噪声环境下连续语音的识别率无法保证。

基于此，有研究人员提出了基于深度神经网络(Deep Neural Networks，DNN)去噪的最新研究成果，运用到语音识别中即根据去噪后的语音信号特征及预先训练好的声学模型进行后续的识别工作。采用该种方法进行语音识别，因基于深度神经网络的去噪效果较好，整个语音识别效果有了一定的提升，但因语音增强的目的是提升语音的整体质量，更关注于听感，而基于数据驱动的语音识别更关心声学特征的分布是否能够覆盖足够多的语音特征分布，所以两者之间存在着中间变换，不能够直接面对语音识别中的噪声鲁棒性问题，因而这种将语音增强器作为语音识别的前端，增强后的语音声学特征再送给识别器的语音识别系统识别率的提升空间较小。

发明内容

本发明实施例提供一种连续语音识别方法及系统，以解决现有的基于DNN去噪的语音识别中的噪声鲁棒性问题，提高连续语音识别的正确性。

为实现上述目的，本发明的技术方案是：

一种连续语音识别方法，包括：

预先训练语音去噪与声学分类相融合的神经网络；

接收待识别的连续语音信号；

提取所述语音信号的声学特征；

根据所述声学特征和所述神经网络得到语音建模单元的后验概率；

对所述语音信号连续语音段的所有帧语音的建模单元后验概率进行维特比解码，得到语音识别结果。

优选地，所述训练语音去噪与声学分类相融合的神经网络包括：

训练前端用于语音去噪的回归模型，所述回归模型的输入为带噪的声学特征，输出为去噪的声学特征；

训练后端用于声学分类的分类模型，所述分类模型的输入为去噪的声学特征，输出为每个语音建模单元的后验概率，并且所述分类模型的输入节点个数与所述回归模型的输出节点个数相同；

融合所述回归模型和分类模型；

对融合后的模型进行前后端联合训练，得到语音去噪与声学分类相融合的神经网络。

优选地，所述训练前端用于语音去噪的回归模型包括：

获取训练数据；

提取所述训练数据的声学特征；

确定模型拓扑结构；所述模型拓扑结构包括输入层、输出层及隐层；

确定模型初始参数；

基于所述训练数据的声学特征及所述模型初始参数，训练得到前端用于语音去噪的回归模型。

优选地，所述训练数据为带噪的语音数据；所述获取训练数据包括：

获取纯净的语音数据，然后对所述纯净的语音数据加入多类型的噪声，得到带噪的语音数据；或者

通过录音获取带噪的语音数据。

优选地，所述确定模型初始参数包括：

基于RBM的无监督预训练确定模型初始参数。

优选地，所述基于所述训练数据的声学特征及所述模型初始参数，训练得到前端用于语音去噪的回归模型包括：

基于误差后向扩展算法及提取的训练数据的声学特征更新模型的参数，完成模型训练。

优选地，所述对融合后的模型进行前后端联合训练，得到语音去噪与声学分类相融合的神经网络包括：

固定所述回归模型各层之间的权值，调整所述分类模型各层之间的权值；

固定调整后所述分类模型各层之间的权值，调整所述回归模型的权值；

对融合后的模型进行整体权值调整，得到语音去噪与声学分类相融合的神经网络。

优选地，所述对融合后的模型进行整体权值调整包括：

将融合后的模型作为一个分类模型，基于最小交叉熵准则进行模型整体权值调整；或者

对于融合后的模型中的回归模型部分采用MMSE准则、分类模型部分采用最小交叉熵准则，并且对这两部分设定不同的权值进行模型整体权值调整。

优选地，所述预先训练语音去噪与声学分类相融合的神经网络包括：

基于单一特性的声学特征训练语音去噪与声学分类相融合的神经网络；或者

基于多种特性的声学特征训练语音去噪与声学分类相融合的神经网络。

一种连续语音识别系统，包括：

训练模块，用于训练语音去噪与声学分类相融合的神经网络；

接收模块，用于接收待识别的连续语音信号；

特征提取模块，用于提取所述语音信号的声学特征；

识别模块，用于根据所述声学特征和所述神经网络得到语音建模单元的后验概率，并对所述语音信号连续语音段的所有帧语音的建模单元后验概率进行维特比解码，得到语音识别结果。

优选地，所述训练模块包括：

回归模型训练模块，用于训练前端用于语音去噪的回归模型，所述回归模型的输入为带噪的声学特征，输出为去噪的声学特征；

分类模型训练模块，用于训练后端用于声学分类的分类模型，所述分类模型的输入为去噪的声学特征，输出为每个语音建模型单元的后验概率，并且所述分类模型的输入节点个数与所述回归模型的输出节点个数相同；

融合模块，用于融合所述回归模型和分类模型；

联合训练模块，用于对融合后的模型进行前后端联合训练，得到语音去噪与声学分类相融合的神经网络。

优选地，所述回归模型训练模块包括：

训练数据获取单元，用于获取训练数据；

提取单元，用于提取所述训练数据的声学特征；

拓扑结构确定单元，用于确定模型拓扑结构；所述模型拓扑结构包括输入层、输出层及隐层；

初始参数确定单元，用于确定模型初始参数；

训练单元，用于基于所述训练数据的声学特征及所述模型初始参数，训练得到前端用于语音去噪的回归模型。

优选地，所述训练数据为带噪的语音数据；

所述训练数据获取单元，具体用于获取纯净的语音数据，然后对所述纯净的语音数据加入多类型的噪声，得到带噪的语音数据；或者通过录音获取带噪的语音数据。

优选地，所述初始参数确定单元，具体用于基于RBM的无监督预训练确定模型初始参数。

优选地，所述训练单元，具体用于基于误差后向扩展算法及提取的训练数据的声学特征更新模型的参数，完成模型训练。

优选地，所述联合训练模块包括：

第一调整单元，用于固定所述回归模型各层之间的权值，调整所述分类模型各层之间的权值；

第二调整单元，用于固定调整后所述分类模型各层之间的权值，调整所述回归模型的权值；

整体调整单元，用于对融合后的模型进行整体权值调整，得到语音去噪与声学分类相融合的神经网络。

优选地，所述整体调整单元，具体用于将融合后的模型作为一个分类模型，基于最小交叉熵准则进行模型整体权值调整；或者对于融合后的模型中的回归模型部分采用MMSE准则、分类模型部分采用最小交叉熵准则，并且对这两部分设定不同的权值进行模型整体权值调整。

优选地，所述训练模块，具体用于基于单一特性的声学特征训练语音去噪与声学分类相融合的神经网络；或者基于多种特性的声学特征训练语音去噪与声学分类相融合的神经网络。

本发明实施例提供的连续语音识别方法及系统，将前端用于语音去噪的回归模型与后端用于声学分类的分类模型进行拼接，融合成的新的模型，并对新的模型进行前后端联合训练，即直接在声学特征层面训练得到用于语音识别的神经网络。利用该语音去噪与声学分类相融合的神经网络对连续语音信号进行解码，避免了现有语音识别系统中语音增强与语音识别之间的变换，更直接地解决语音识别中的噪声鲁棒性问题，提高了连续语音识别的正确率。

附图说明

为了更清楚地说明本发明实施的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例中前端回归模型的训练流程图；

图2示出了本发明实施例中训练语音去噪与声学分类相融合的神经网络的流程图；

图3示出了是本发明实施例中融合后的模型示意图；

图4示出了本发明实施例中对融合后的模型进行整体权值调整的示意图；

图5示出了本发明实施例连续语音识别方法的流程图；

图6示出了本发明实施例连续语音识别系统的结构示意图；

图7示出了本发明实施例中训练模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的连续语音识别方法及系统，预先训练语音去噪与声学分类相融合的神经网络，然后基于该神经网络对连续语音信号进行解码，得到语音识别结果。

上述语音去噪与声学分类相融合的神经网络是由前端用于语音去噪的回归模型与后端用于声学分类的分类模型进行拼接融合得到的。具体地，分别训练前端用于语音去噪的回归模型及后端用于声学分类的分类模型，然后将所述回归模型与所述分类模型进行拼接，得到新的模型，并对新的模型进行前后端联合训练，即直接在声学特征层面训练得到用于语音识别的神经网络。

在具体应用中，上述前端回归模型及后端声纹模型采用同种类型的网络模型来构建，比如DNN、卷积神经网络(Convolutional Neural Network，CNN)、多层反馈神经网络(Recurrent neural Network，RNN等。其中，回归模型的输入为带噪的声学特征，输出为去噪的声学特征；分类模型的输入为去噪的声学特征，输出为语音建模型单元的后验概率，并且所述分类模型的输入节点个数与所述回归模型的输出节点个数相同。

如图1所示，是本发明实施例中前端回归模型的训练流程图，包括以下步骤：

步骤101，获取训练数据。

所述训练数据为带噪的语音数据。该带噪的语音数据可以通过录音获取。具体地，可以在录音室环境中，通过两个扩音器，一个放干净语音，另一个放噪声，再通过麦克风回录带噪语音，训练的时候，再将回录的带噪语音和对应的干净语音做帧同步即可。该带噪的语音数据也可以通过对纯净语音加入噪声获取平行语音数据，所谓平行语音数据，是指通过人工加噪得到的带噪语音和干净语音在帧级完全对应，其噪声的覆盖度以及数据量的大小可根据实际应用场景决定，如对于特定应用场景，需加入的噪声只是该应用场景下可能出现的较为少数的噪声类型；而对于普适应用，一般其涵盖的噪声类型越多、越全面，其效果越好，因此在噪声加入时，加入的噪声类型及信噪比覆盖面越全越好。

比如，噪声样本可以选自Aurora2数据库中的高斯白噪声、多人说话噪声、餐厅噪声和街道噪声等。信噪比可以为：20dB、15dB、10dB、5dB、0dB、-5dB等。将纯净语音与噪声相加，用来模拟真实场景中的语音和噪声音的相对能量大小，从而构成足够时长(比如约100小时)的多种环境类型的训练集，以保证模型的泛化能力。

步骤102，提取所述训练数据的声学特征。

所述声学特征可以是Mel频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)、线性预测分析(Linear Predictive Coding，PLP)等。比如，可以提取39维的MFCC。

步骤103，确定模型拓扑结构；所述模型拓扑结构包括输入层、输出层及隐层。

所述模型拓扑结构包括输入层、输出层及隐层；所述输入层的输入为带噪的多维声学特征，所述输出层的输出为多维去噪的声学特征。这些结构参数的确定可以根据实际应用需要来确定，比如：输入节点设为39×11个，隐层数设为3个，隐层节点设为2048个，输出节点设为429个。

步骤104，确定模型初始参数。

具体地，可以根据经验设定初始参数，然后直接根据训练数据的声学特征训练数据，其训练准则和训练算法可以有多种，不限定为哪种特定方法，例如：训练准则包括最小均方误差、最大后验概率等。训练算法可以是梯度下降法、动量梯度下降法、变学习率等算法等。

当然，也可以先基于受限波尔兹曼机(Restricted Boltzmann Machines，RBM)的无监督训练确定模型初始参数，然后再训练调整模型参数。

步骤105，基于所述训练数据的声学特征及所述模型初始参数，训练得到前端用于语音去噪的回归模型。

具体地，可以采用误差后向扩展算法(Back Propagation)进行模型参数的调优，具体如下：

目标函数如下：

{F^{1}}_{MMSE} = \frac{1}{N} Σ_{n = 1}^{N} {| | {\hat{y}}_{n - τ}^{n + τ} (x_{n - τ}^{n + τ}, W^{l}, b^{l}) - y_{n - τ}^{n + τ} | |}_{2}^{2} + κ {| | W^{l} | |}_{2}^{2} - - - (1)

其中，表示第n个样本的前后扩展τ帧的原始带噪语音的多维声学特征向量；表示第n个样本的前后扩展τ帧的目标输出的多维声学特征向量；表示第n个样本的前后扩展τ帧的实际输出的多维声学特征向量；W^l和b^l分别是隐层l的权重矩阵和偏差向量；κ是正则项，用于防止网络过拟合，一般可由经验或大量实验结果确定。

模型收敛可以通过下式判断：

|CV_i+1-CV_i|<th (2)

其中，i为网络迭代的次数，CV_i+1和CV_i表示对应迭代过程时得到的均方误差值(即式1中目标函数值)。th为判决门限，当前后两次迭代的正确率差值小于门限时停止迭代。

模型参数更新公式如下：

(W^{l}, b^{l}) &LeftArrow; (W^{l}, b^{l}) + η \frac{{&PartialD; F}^{1}_{MMSE}}{&PartialD; (W^{l}, b^{l})}, 0 < l < L - - - (3)

其中，L为神经网络的总层数，η为学习速率，一般可由经验和大量实验结果确定。

后端分类模型同样采用DNN拓扑结构，而且分类模型的输入为前端回归模型的输出。比如，分类模型的输入为429维的语音声学特征，隐层数为3～8层，隐层节点数为2048，输出层为音素级类别，如英文有41个单音素，那么输出层就可以是41个节点，如果输出以triphone形式，那么理论上输出节点数为41³，因其节点数过多，一般可以对音素的triphone类数进行聚类，比如聚成3296类，即分类模型的输出节点数可为3296个。

后端分类模型的训练过程与上述前端回归模型的训练过程类似，比如先进行无监督预训练得到较好的模型初始参数，然后采用误差后向扩展算法进行网络参数的进一步优化调整。

需要说明的是，在实际应用中，为了减少计算量，可以从现有的分类模型中挑选一个输入节点数与上述回归模型输出节点数相同的神经网络模型作为初始分类模型。

对上述训练得到的前端回归模型及后端分类模型进行融合及联合训练，得到语音去噪与声学分类相融合的神经网络。

如图2所示，是本发明实施例中训练语音去噪与声学分类相融合的神经网络的流程图，包括以下步骤：

步骤201，训练前端用于语音去噪的回归模型。

步骤202，训练后端用于声学分类的分类模型。

步骤203，融合所述回归模型和分类模型。

前面提到，后端分类模型的输入节点个数与前端回归模型的输出节点个数相同，因此，可以直接将前端回归模型和后端分类模型进行拼接，得到融合后的模型。

如图3所示，是本发明实施例中融合后的模型示意图。

步骤204，对融合后的模型进行前后端联合训练，得到语音去噪与声学分类相融合的神经网络。

对融合后的模型进行前后端联合训练的过程如下：

(1)固定所述回归模型各层之间的权值，调整所述分类模型各层之间的权值。

比如，可以基于最小交叉熵(Cross-Entropy)准则对后端分类模型各层之间的权值进行调整，具体如下：

后端分类模型的输出值或者称为输出分布按照softmax激活函数计算如下：

z_{rt} (s) = \frac{\exp {a_{rt} (s)}}{Σ_{s^{'}} \exp {a_{rt} (s^{'})}} - - - (4)

其中，a_rt(s)是输出层对应于句子r中时刻t时状态s对应节点的激活值。

交叉熵函数可以表示成如下形式：

F_{C - E} = - Σ_{r = 1}^{R} Σ_{t = 1}^{T_{r}} \log z_{rt} (s_{rt}) - - - (5)

其中，s_rt表示t时刻句子r中的音素标记。

目标函数最小需要对其计算偏导，公式如下：

e_{rt} (s) = \frac{{&PartialD; F}_{C - E}}{{&PartialD; a}_{rt} (s)} = - \frac{&PartialD; \log z_{rt} (s_{rt})}{a_{rt} (s)} = z_{rt} (s) - δ_{rt} (s) - - - (6)

其中，如果强制切分的状态标记s_rt等于s，那么δ_rt(s)＝1，否则δ_rt(s)＝0。

权值更新公式如下：

(W^{l}, a^{l}) &LeftArrow; (W^{l}, a^{l}) + η \frac{{&PartialD; e}_{rt} (s)}{&PartialD; (W^{l}, a^{l})}, 0 < l < L - - - (7)

训练过程中，每一步迭代之后都会计算交叉测试(Cross-test)部分的分类正确率。可以按照前述公式(2)判决条件停止迭代，防止网络过拟合。与采用MMSE准则训练时收敛判断有所区别的是：CV_i+1和CV_i表示对应迭代过程时得到的分类正确率。

(2)固定调整后所述分类模型各层之间的权值，调整所述回归模型的权值。

比如，可以采用最小均方误差(Minimum Mean Square Error，MMSE)准则调整前端回归模型，其调整过程与前端回归模型的调整过程类似，此处不再重复阐述。

(3)对融合后的模型进行整体权值调整，得到语音去噪与声学分类相融合的神经网络。

具体地，可以采用以下两种方式进行整体权值的调整：

方式1：将融合后的模型作为一个分类模型，基于最小交叉熵准则进行模型整体权值调整。具体调整方法与前面所述的后端分类模型权值调整过程相同，此处不再重复阐述。

方式2：既考虑整体的交叉熵准则最优又同时兼顾回归网络的最小均方误差准则对融合后的模型进行整体权值调整，如图4所示。

权值更新公式如下：

\frac{&PartialD; F}{{&PartialD; w}_{ji} (n)} = α * \frac{{&PartialD; F}_{C - E}}{{&PartialD; w}_{ji} (n)} + β * \frac{{&PartialD; F}_{MMSE}}{{&PartialD; w}_{ji} (n)} - - - (8)

其中，α与β为可调参数，用于控制两者间的比重，以提升整体系统表现，一般可由经验确定初始值，再通过大量实验调整，确定最终取值。

上述训练得到的语音去噪与声学分类相融合的神经网络，由于是直接在声学特征层面训练用于语音去噪与声学分类相融合的神经网络，利用该神经网络进行语音识别，可以避免现有语音识别系统中语音增强与语音识别之间的转换。

如图5所示，是本发明实施例连续语音识别方法的流程图，包括以下步骤：

步骤501，预先训练语音去噪与声学分类相融合的神经网络。

具体训练过程将在前面已有详细描述，在此不再赘述。

步骤502，接收待识别的连续语音信号。

步骤503，提取所述语音信号的声学特征。

具体地，可以首先对所述语音信号进行加窗分帧，再提取其声学特征，所述声学特征可以是Mel频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)、线性预测分析(Linear Predictive Coding，PLP)等。以MFCC特征为例，可以采用25ms的汉明窗函数，采用率为16KHZ，提取39维的MFCC特征。

步骤504，根据所述声学特征和所述神经网络得到语音建模单元的后验概率。

具体地，将所述声学特征输入所述神经网络，得到所述神经网络输出的每个语音建模型单元的后验概率。

所述语音建模单元可以是音素、音节等。

步骤505，对所述语音信号连续语音段的所有帧语音的建模单元后验概率进行维特比解码，得到语音识别结果。

比如，通过贝叶斯公式将所述后验概率转化为条件概率作为HMM的观察概率，再使用维特比解码，最终得到连续语音的识别结果。

需要说明的是，在实际应用中，所述语音去噪与声学分类相融合的神经网络可以基于单个声学特征进行训练，这样，在语音识别时，对于待识别的连续语音信号，可以提取语音信号的相应声学特征，基于训练得到的神经网络进行语音识别。当然，也可以针对多个不同特性的声学特征分别训练相应的神经网络，比如分别训练基于MFCC和PLP的语音去噪与声学分类相融合的神经网络，这样，在语音识别时，分别提取语音信号的MFCC和PLP，并基于相应的神经网络得到各音素类别的后验概率，然后再针对每个音素类别，对该音素类别的两个后概率做加权平均，作为该音素类别的后验概率，进一步提升连续语音识别效果。另外，在训练所述语音去噪与声学分类相融合的神经网络时，还可以基于多种声学特征来训练得到一个基于多特征的神经网络，这样，在语音识别时，对于待识别的连续语音信号，提取语音信号的相应声学特征，将这些不同特性的声学特征输入到该神经网络，得到各音素类别的后验概率，由于综合考虑了不同特性的声学特征，因而也可以进一步提升连续语音识别效果。

本发明实施例提供的连续语音识别方法，将前端用于语音去噪的回归模型与后端用于声学分类的分类模型进行拼接，融合成新的模型，并对新的模型进行前后端联合训练，即直接在声学特征层面训练得到用于语音识别的神经网络。利用该语音去噪与声学分类相融合的神经网络对连续语音信号进行解码，避免了现有语音识别系统中语音增强与语音识别之间的变换，更直接地解决语音识别中的噪声鲁棒性问题，提高了连续语音识别的正确率。而且，实现方式灵活，可以根据应用需要，基于单一特性的声学特征训练相应的神经网络，也可以基于多个不同特性的声学特征分别训练相应的神经网络，还可以训练基于多声学特征的神经网络。

相应地，本发明实施例还提供一种连续语音识别系统，如图6所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

训练模块601，用于训练语音去噪与声学分类相融合的神经网络；

接收模块602，用于接收待识别的连续语音信号；

特征提取模块603，用于提取所述语音信号的声学特征；

识别模块604，用于根据所述声学特征和所述神经网络得到语音建模单元的后验概率，并对所述语音信号连续语音段的所有帧语音的建模单元后验概率进行维特比解码，得到语音识别结果。

需要说明的是，在实际应用中，上述训练模块601可以基于单一特性的声学特征训练语音去噪与声学分类相融合的神经网络；或者基于多种特性的声学特征训练语音去噪与声学分类相融合的神经网络。而且，基于单一特性的声学特征训练所述神经网络时，可以仅训练一个神经网络或分别训练多个所述神经网络。相应地，识别模块604可以基于多个所述神经网络对所述语音信号进行识别，得到各音素类别的后验概率，然后再针对每个音素类别，对该音素类别的两个后概率做加权平均，作为该音素类别的后验概率，进一步提升连续语音识别效果。

另外，需要说明的是，不论是基于单一特性的声学特征还是基于多种特性的声学特征，训练模块601训练语音去噪与声学分类相融合的神经网络的过程是类似的。

如图7所示，示出了本发明实施例中训练模块的结构示意图。

该训练模块包括：

回归模型训练模块611，用于训练前端用于语音去噪的回归模型，所述回归模型的输入为带噪的声学特征，输出为去噪的声学特征；

分类模型训练模块612，用于训练后端用于声学分类的分类模型，所述分类模型的输入为去噪的声学特征，输出为每个语音建模型单元的后验概率，并且所述分类模型的输入节点个数与所述回归模型的输出节点个数相同；

融合模块613，用于融合所述回归模型和分类模型；

联合训练模块614，用于对融合后的模型进行前后端联合训练，得到语音去噪与声学分类相融合的神经网络。

在本发明实施例中，所述前端回归模型及后端分类模型基于同种类型的网络模型来构建，比如DNN、RNN、CNN等。其中，回归模型的输入为带噪的声学特征，输出为去噪的声学特征；分类模型的输入为去噪的声学特征，输出为每个语音建模型单元的后验概率，并且所述分类模型的输入节点个数与所述回归模型的输出节点个数相同。

下面以回归模型的训练为例，回归模型训练模块611的一种具体结构包括以下各单元：

训练数据获取单元，用于获取训练数据；

提取单元，用于提取所述训练数据的声学特征，比如MFCC、和/或PLP等；

初始参数确定单元，用于确定模型初始参数；

其中，所述训练数据为带噪的语音数据；相应地，所述训练数据获取单元可以先获取纯净的语音数据，然后对所述纯净的语音数据加入多类型的噪声，得到带噪的语音数据；或者通过录音直接获取带噪的语音数据。所述初始参数确定单元可以基于RBM的无监督预训练确定模型初始参数。所述训练单元可以基于误差后向扩展算法及提取的训练数据的声学特征更新模型的参数，完成模型训练。

上述联合训练模块614的一种具体结构可以包括以下各单元：

上述整体调整单元具体可以将融合后的模型作为一个分类模型，基于最小交叉熵准则进行模型整体权值调整；或者对于融合后的模型中的回归模型部分采用MMSE准则、分类模型部分采用最小交叉熵准则，并且对这两部分设定不同的权值进行模型整体权值调整。

上述各调整单元的具体对相应权值的调整方式及过程可参见前面本发明方法实施例中的描述，在此不再赘述。

本发明实施例提供的连续语音识别系统，将前端用于语音去噪的回归模型与后端用于声学分类的分类模型进行拼接，融合成新的模型，并对新的模型进行前后端联合训练，即直接在声学特征层面训练得到用于语音识别的神经网络。利用该语音去噪与声学分类相融合的神经网络对连续语音信号进行解码，避免了现有语音识别系统中语音增强与语音识别之间的变换，更直接地解决语音识别中的噪声鲁棒性问题，提高了连续语音识别的正确率。而且，实现方式灵活，可以根据应用需要，基于单一特性的声学特征训练相应的神经网络，也可以基于多个不同特性的声学特征分别训练相应的神经网络，还可以训练基于多声学特征的神经网络。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种连续语音识别方法，其特征在于，包括：

预先训练语音去噪与声学分类相融合的神经网络；

接收待识别的连续语音信号；

提取所述语音信号的声学特征；

2.根据权利要求1所述的方法，其特征在于，所述训练语音去噪与声学分类相融合的神经网络包括：

融合所述回归模型和分类模型；

3.根据权利要求2所述的方法，其特征在于，所述训练前端用于语音去噪的回归模型包括：

获取训练数据；

提取所述训练数据的声学特征；

确定模型初始参数；

4.根据权利要求3所述的方法，其特征在于，所述训练数据为带噪的语音数据；所述获取训练数据包括：

通过录音获取带噪的语音数据。

5.根据权利要求3所述的方法，其特征在于，所述确定模型初始参数包括：

基于RBM的无监督预训练确定模型初始参数。

6.根据权利要求3所述的方法，其特征在于，所述基于所述训练数据的声学特征及所述模型初始参数，训练得到前端用于语音去噪的回归模型包括：

7.根据权利要求2所述的方法，其特征在于，所述对融合后的模型进行前后端联合训练，得到语音去噪与声学分类相融合的神经网络包括：

8.根据权利要求7所述的方法，其特征在于，所述对融合后的模型进行整体权值调整包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述预先训练语音去噪与声学分类相融合的神经网络包括：

10.一种连续语音识别系统，其特征在于，包括：

接收模块，用于接收待识别的连续语音信号；

特征提取模块，用于提取所述语音信号的声学特征；

11.根据权利要求10所述的系统，其特征在于，所述训练模块包括：

融合模块，用于融合所述回归模型和分类模型；

12.根据权利要求11所述的系统，其特征在于，所述回归模型训练模块包括：

训练数据获取单元，用于获取训练数据；

提取单元，用于提取所述训练数据的声学特征；

初始参数确定单元，用于确定模型初始参数；

13.根据权利要求12所述的系统，其特征在于，所述训练数据为带噪的语音数据；

14.根据权利要求12所述的系统，其特征在于，所述初始参数确定单元，具体用于基于RBM的无监督预训练确定模型初始参数。

15.根据权利要求12所述的系统，其特征在于，所述训练单元，具体用于基于误差后向扩展算法及提取的训练数据的声学特征更新模型的参数，完成模型训练。

16.根据权利要求11所述的系统，其特征在于，所述联合训练模块包括：

17.根据权利要求16所述的系统，其特征在于，所述整体调整单元，具体用于将融合后的模型作为一个分类模型，基于最小交叉熵准则进行模型整体权值调整；或者对于融合后的模型中的回归模型部分采用MMSE准则、分类模型部分采用最小交叉熵准则，并且对这两部分设定不同的权值进行模型整体权值调整。

18.根据权利要求10至17任一项所述的系统，其特征在于，所述训练模块，具体用于基于单一特性的声学特征训练语音去噪与声学分类相融合的神经网络；或者基于多种特性的声学特征训练语音去噪与声学分类相融合的神经网络。