CN108615525B

CN108615525B - 一种语音识别方法及装置

Info

Publication number: CN108615525B
Application number: CN201611127924.3A
Authority: CN
Inventors: 高莹莹
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2020-10-09
Anticipated expiration: 2036-12-09
Also published as: CN108615525A

Abstract

本发明公开了一种语音识别方法及装置，所述方法包括：确定待识别语音；对所述待识别语音进行声学特征提取；将提取的声学特征输入解码器；通过解码器调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别，得到识别结果；其中，所述声学模型采用深度神经网络‑隐马尔可夫模型DNN‑HMM，且在训练所述DNN‑HMM的过程中，将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN‑HMM的输出层；通过解码器输出所述识别结果。

Description

一种语音识别方法及装置

技术领域

本发明涉及电子技术，尤其涉及一种语音识别方法及装置。

背景技术

语音识别技术，是将语音信号转换为计算机可识别的文字符号，解决让机器听懂人说话问题的技术。语音识别技术在电话、会议、客服等复杂环境中英语识别正确率在80％左右，离人类2％至4％的错误率还有很大距离。事实上，目前语音识别技术在以下多个方面具有缺陷：1)对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则。事实上，人类的语音浩如烟海，语义妙不可言，有些正常的人之间的交流都有2％至4％的错误率，更何况是设备。2)语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的，例如，一个说话人在随意说话和认真说话时的语音信息是不同的，另外，一个人的说话方式随着时间也会有变化。3)语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的，这一点在英语和汉语中较为常见，例如，当一个人说汉语拼音“feiji”，那么“feiji”可能是斐济、飞机和肥鸡等。4)单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。5)环境噪声和干扰对语音识别有严重影响，致使识别率低。6)音频处理技术有限，人耳能清晰分别的两个发音，其声学特征对语音识别引擎来说可能几乎是相同的。

由于目前的语音识别技术存在以上可以缺点，从而导致语音识别的准确率不高，无法满足用户对准确率的要求；虽然目前有些语音识别的准确率能够满足人们对准确率的要求，但是语音识别的参数、模型的复杂度都会大幅度提高，从而导致产品成本的提高，进而用户如果为了提高语音识别的准确性将需要额外支付很多的费用。

发明内容

有鉴于此，本发明实施例为解决现有技术中存在的至少一个问题而提供一种语音识别方法及装置，能够在简化声学模型复杂度的前提下而提高语音识别准确率，进而提高用户体验。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种语音识别方法，所述方法包括：

确定待识别语音；

对所述待识别语音进行声学特征提取；

将提取的声学特征输入解码器；

通过解码器调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别，得到识别结果；其中，所述声学模型采用深度神经网络-隐马尔可夫模型DNN-HMM，且在训练所述DNN-HMM的过程中，将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN-HMM的输出层。

通过解码器输出所述识别结果。

第二方面，本发明实施例提供一种语音识别装置，所述装置包括确定单元、提取单元、输入单元和解码器，其中：

所述确定单元，用于确定待识别语音；

所述提取单元，用于对所述待识别语音进行声学特征提取；

所述输入单元，用于将提取的声学特征输入解码器；

所述解码器，用于调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别，得到识别结果并输出所述识别结果；其中，所述声学模型采用深度神经网络-隐马尔可夫模型DNN-HMM，且在训练所述DNN-HMM的过程中，将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN-HMM的输出层。

本发明实施例提供一种语音识别方法及装置，其中，确定待识别语音；对所述待识别语音进行声学特征提取；将提取的声学特征输入解码器；通过解码器调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别，得到识别结果；其中，所述声学模型采用深度神经网络-隐马尔可夫模型DNN-HMM，且在训练所述DNN-HMM的过程中，将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN-HMM的输出层；通过解码器输出所述识别结果；如此，能够在简化声学模型复杂度的前提下而提高语音识别准确率，进而提高用户体验。

附图说明

图1为相关技术中的语音识别系统的组成结构示意图；

图2为相关技术中GMM-HMM声学模型的组成结构示意图；

图3为相关技术中DNN-HMM声学模型的组成结构示意图；

图4为相关技术中基于说话人编码向量的DNN自适应训练的流程示意图；

图5-1为本发明实施例语音识别方法的实现流程示意图；

图5-2为本发明实施例中说话人身份判别与音素状态判别同步学习的语音识别系统框架示意图；

图6为本发明实施例中说话人自适应DNN模型网络结构示意图；

图7为本发明实施例语音识别装置的组成结构示意图；

图8为本发明实施例计算设备的组成结构示意图。

具体实施方式

在介绍本发明实施例的技术方案之前，先介绍一下相关技术中的语音识别系统，图1为相关技术中的语音识别系统的组成结构示意图，如图1所示，该语音识别系统10主要包括声学特征提取模块11、声学模型训练模块12、语言模型训练模块13和解码器14四个模块。其中：

声学特征提取模块11用于对待识别语音进行声学特征提取，然后将提取的声学特征输入解码器14。

声学模型训练模块12是语音识别系统的核心部分，很大程度决定着系统的识别性能。声学模型负责对语音信号的声学特征与语音建模单元(音素或音素状态)的映射关系进行建模，常见的声学模型可分为传统的混合高斯-隐马尔可夫模型(GMM-HMM)和近年来流行的深度神经网络-隐马尔可夫模型(DNN-HMM)。GMM-HMM(如图2所示)采用连续高斯混合模型刻画产生观察状态的概率密度函数，HMM对不同状态间的跳转关系进行建模，以刻画语音信号的时序变化。DNN-HMM(如图3所示)用DNN代替GMM对音素分类建模，计算音素分类的后验概率；由于DNN强大的特征抽取能力，DNN-HMM已逐渐成为声学建模的主流技术。

声学模型的说话人自适应是用新目标说话人的语音数据来对说话人无关的声学模型进行自适应，以提高声学模型与该说话人语音特征的匹配度，从而得到更好的识别效果。传统GMM-HMM模型的说话人自适应主要包括特征域自适应和模型域自适应两大类，除少量特征域说话人自适应方法可以直接用于DNN-HMM模型，大多现有自适应方法无法被DNN-HMM使用，对于DNN-HMM框架进行说话人自适应目前仍属于较新的研究课题。

图4为相关技术中基于说话人编码向量的DNN自适应训练的流程示意图，如图4所示，在传统声学特征作为输入的同时，引入说话人编码向量S，并将其与DNN模型的任意一个或多个隐含层相连，B(包括B¹、B²、B³和B⁴)即为二者之间的连接权重，W(包括W¹、W²、W³和W⁴)为说话人无关的DNN的权重矩阵。训练时，首先训练说话人无关DNN，得到其参数W；之后固定W，随机初始化B和S，利用所有训练数据基于梯度下降法更新B，采用某个说话人的数据更新其相应的编码向量S；解码时，B与W均保持不变，先采用待识别数据更新S得到其编码向量，再进行后验概率计算，并结合语言模型进行解码。

从以上可以看出，图4所示的方案中的缺点在于：1)W与B的参数更新是分开进行的，W仍是说话人无关的模型参数，因此解码时还需先对目标说话人进行说话人编码向量的自适应，之后才能实施传统的解码，增加了解码时间复杂度。2)在说话人无关模型基础上引入新的连接矩阵B，大幅增加了网络参数的数目，从而增加了对于自适应数据的需求量。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

为了解决前述背景技术中的技术问题，本发明实施例提供一种语音识别方法，应用于电子设备，该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该电子设备至少包括处理器和存储介质。

图5-1为本发明实施例语音识别方法的实现流程示意图，如图5-1所示，该方法包括：

步骤S101，确定待识别语音；

这里，所述待识别语音可以为各种语音信号，例如通话双方的录音例如客服对话录音、教师的授课语音、会议讨论语音等；

步骤S102，对所述待识别语音进行声学特征提取；

在本发明的其他实施例中，所述方法还包括声学特征的选择，声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷积过程，目的是使模式划分器能更好地划分。

声学特征提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本、性能、响应时间、计算量等。

步骤S103，将提取的声学特征输入解码器；

步骤S104，解码器调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别，得到识别结果；其中，所述声学模型采用深度神经网络-隐马尔可夫模型DNN-HMM，且在训练所述DNN-HMM的过程中，将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN-HMM的输出层。

步骤S105，解码器输出所述识别结果。

在本发明的其他实施例中，所述方法还包括：在训练所述DNN-HMM的过程中，将学习的关于音素后验概率的参数作为说话人自适应的声学模型传递给解码器。

在本发明的其他实施例中，所述DNN-HMM的结构为：所述DNN-HMM的输入层采用声学特征；所述DNN-HMM的共享隐含层采用所述两个并行任务共享，所述共享隐含层为靠近所述输入层的一到多个隐含层且最后一层共享隐含层与所述DNN-HMM的独立隐含层连接；其中，所述DNN-HMM的独立隐含层靠近所述DNN-HMM的输出层；所述DNN-HMM的独立隐含层仅与所述两个并行任务各自的输出层相连接。

在本发明的其他实施例中，所述方法还包括：

采用反向误差传递算法对关于音素后验概率的参数和关于说话人身份确认的参数进行更新。其中，所述DNN-HMM的独立隐含层的参数仅与所述两个并行任务各自的任务的预测误差有关；所述DNN-HMM的共享隐含层的参数与所述两个并行任务的预测误差有关。

本实施例中，如图5-2的A图所示，在训练的时候，将训练语料输入到声学特征提取模块，然后将提取的声学特征输入到声学模型，将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN的输出层，说话人身份判别与音素或音素状态的后验概率预测同步学习，说话人身份的差异性造成的影响直接融于DNN参数的更新。在识别阶段，如图5-2的B图所示，将待识别语料(待识别语音)输入到声学特征提取模块，然后将提取的声学特征输入到声学模型，所学参数(解码时不包括说话人身份判别的参数)即可作为说话人自适应的声学模型传递给解码器，解码器结合提前训练的语言模型对待识别语音进行解码。

图6为本发明实施例中说话人自适应DNN模型网络结构示意图，如图6 所示，输入层X仅由声学特征参数构成(DNN的训练通常采用滤波器组特征fbank)。在靠近输入层的一到多个隐含层H1～H3(称为共享隐含层)为上述两个任务共享，靠近输出层的独立隐含层H4_1、H4_2仅与各自任务的输出层Y1、Y2相连。参数更新时，采用反向误差传递算法，独立隐含层的参数仅与各自任务的预测误差有关，即U1、U2由说话人身份的预测误差进行调整，S1、S2由音素或音素状态的后验概率预测误差进行调整；低层隐含层参数W1、W2和W3由两个任务的预测误差共同调整。共享隐含层与独立隐含层的层数不限于图5-2中所画层数，可根据训练数据多少自行进行调整。共享隐含层参数W1、W2、W3的训练综合考虑了音素类别差异与说话人身份差异的影响，属于说话人相关的网络参数，解码时，仅利用共享隐含层参数W1～W3和音素后验概率预测的独立隐含层参数S1、S2，即可得到音素的后验概率预测值，结合语言模型的概率分布实现解码。

客服对话录音中，说话人身份分为客服与用户两大类，客服语音相对更规范，普通话更标准；用户语音自由度更高，口语化更严重，有时还掺杂着地方口音，因此在对对话型录音进行识别时，有必要考虑说话人身份对模型的影响，对模型进行说话人自适应，有助于提升对于不同身份说话人的语音的识别效果。此外，在客服对话录音中，用户录音相对客服录音语料更少，自适应难度也更高，共享隐含层的引入有助于弥补自适应语料的不足，实现信息共享。

在下述实施例中，输入层可包含当前帧和前后各5帧的fbank特征，每帧fbank特征为40维，因此输入层由440维构成。共享隐含层可包含4～6层甚至更多隐含层，每层节点数可以相同，如1024维，也可以逐层递减等。独立隐含层通常只包含1层即可，节点数可设置为与共享层相等，或者比它少，如502维。隐含层为对其输入的非线性映射，通常选用sigmoid函数作为激活函数。输出层为softmax分类器，说话人身份预测包含客服和用户两个类别，音素判别任务输出层为三音子音素(Triphone)绑定状态，标注通常基于GMM-HMM系统进行强制对齐得到。参数更新通常采用随机梯度下降法(SGD)，学习准则为最小均方误差(MSE)准则或交叉熵(CE)准则。训练步骤为：

步骤S1，随机初始化DNN网络参数W、U和S，或利用受限玻尔兹曼机RBM进行无监督参数预训练；

步骤S2，通过Sigmoid函数从输入层开始逐层计算共享隐含层、独立隐含层以及两个独立输出层的值；

步骤S3，利用说话人身份Y1的预测误差依次更新参数U2和U1；同时利用音素状态绑定的预测误差依次更新S2和S1；

步骤S4，将上述两部分反向传递的误差求和，用其依次更新共享参数W3、W2和W1；

步骤S5，重复步骤S2-S4步直至满足停止条件或达到最大迭代次数。

从以上可以看出，本实施例中，1)将说话人身份判别与音素状态的后验概率预测作为两个并行任务添加到DNN的输出层，二者进行同步学习，说话人身份的差异性造成的影响直接融于DNN参数的更新，所学参数即可作为说话人自适应的声学模型；2)低层隐含层为不同子任务共享，独立隐含层仅与各自任务相连，即独立隐含层的参数仅与各自任务的预测误差相关，低层隐含层受所有任务的预测误差调整。

与现有技术相比，本实施例具有以下技术优点：1)说话人自适应与传统音素判别同步学习，二者共享部分隐含层，使说话人差异影响自动融合于共享参数，因此相对于原有声学模型没有引入更多参数，网络复杂度没有增加，同时避免了解码时需要先对目标说话人进行自适应编码的计算。2)参数共享策略的引入，可一定程度弥补自适应语料不足造成模型过拟合的情况，同时说话人区分性判别的学习使其能够刻画不同说话人的差异。

基于前述的实施例，本发明实施例再提供一种语音识别装置，该装置所包括的各单元或解码器，以及各单元所包括的各模块，都可以通过电子设备中的处理器来实现，当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图7为本发明实施例语音识别装置的组成结构示意图，如图7所示，该装置700包括确定单元701、提取单元702、输入单元703和解码器704，其中：

所述确定单元701，用于确定待识别语音；

所述提取单元702，用于对所述待识别语音进行声学特征提取；

所述输入单元703，用于将提取的声学特征输入解码器；

所述解码器704，用于调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别，得到识别结果并输出所述识别结果；其中，所述声学模型采用深度神经网络-隐马尔可夫模型DNN-HMM，且在训练所述DNN-HMM的过程中，将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN-HMM的输出层。

在本发明的其他实施例中，所述装置还包括训练单元，用于在训练所述DNN-HMM的过程中，将学习的关于音素后验概率的参数作为说话人自适应的声学模型传递给解码器。

在本发明的其他实施例中，所述DNN-HMM的结构为：

所述DNN-HMM的输入层采用声学特征；

所述DNN-HMM的共享隐含层采用所述两个并行任务共享，所述共享隐含层为靠近所述输入层的一到多个隐含层且最后一层共享隐含层与所述DNN-HMM的独立隐含层连接；其中，所述DNN-HMM的独立隐含层靠近所述DNN-HMM的输出层

所述DNN-HMM的独立隐含层仅与所述两个并行任务各自的输出层相连接。

在本发明的其他实施例中，所述装置还包括更新单元，用于采用反向误差传递算法对关于音素后验概率的参数和关于说话人身份确认的参数进行更新。

在本发明的其他实施例中，所述DNN-HMM的独立隐含层的参数仅与所述两个并行任务各自的任务的预测误差有关；所述DNN-HMM的共享隐含层的参数与所述两个并行任务的预测误差有关。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

需要说明的是，本发明实施例中，如果以软件功能模块的形式实现上述的语音识别方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，ReadOnly Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

相应地，本发明实施例再提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行本发明实施例中对语音识别方法。

相应地，本发明实施例提供一种计算设备，包括：用于存储可执行指令的存储介质和处理器，其中处理器配置为执行存储的可执行指令，所述可执行指令用于执行下面的步骤：

确定待识别语音；

对所述待识别语音进行声学特征提取；

将提取的声学特征输入解码器；

通过解码器输出所述识别结果。

这里需要指出的是：以上计算设备实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明计算设备实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解。

在实现的过程中，前述的电子设备在具体实施例的过程中可以为各种类型的具有信息处理能力的计算设备，例如所述电子设备可以包括平板电脑、台式机、个人计算机、集群式服务器等来实现。图8为本发明实施例计算设备的组成结构示意图，如图8所示，该计算设备800可以包括：至少一个处理器801、至少一个通信总线802、用户接口803、至少一个外部通信接口804和存储器805。其中，通信总线802用于实现这些组件之间的连接通信。其中，用户接口803可以包括显示屏和键盘。外部通信接口804可选的可以包括标准的有线接口和无线接口。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

确定待识别语音；

对所述待识别语音进行声学特征提取；

将提取的声学特征输入解码器；

通过解码器调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别，得到识别结果；其中，所述声学模型采用深度神经网络-隐马尔可夫模型DNN-HMM，且在训练所述DNN-HMM的过程中，将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN-HMM的输出层；所述DNN-HMM的输入层采用声学特征；所述DNN-HMM的共享隐含层采用所述两个并行任务共享；所述共享隐含层为靠近所述输入层的一到多个隐含层且最后一层共享隐含层与所述DNN-HMM的独立隐含层连接；其中，所述DNN-HMM的独立隐含层靠近所述DNN-HMM的输出层；所述DNN-HMM的独立隐含层仅与所述两个并行任务各自的输出层相连接；

通过解码器输出所述识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在训练所述DNN-HMM的过程中，将学习的关于音素后验概率的参数作为说话人自适应的声学模型传递给解码器。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用反向误差传递算法对关于音素后验概率的参数和关于说话人身份确认的参数进行更新。

4.根据权利要求3所述的方法，其特征在于，所述DNN-HMM的独立隐含层的参数仅与所述两个并行任务各自的任务的预测误差有关；

所述DNN-HMM的共享隐含层的参数与所述两个并行任务的预测误差有关。

5.一种语音识别装置，其特征在于，所述装置包括确定单元、提取单元、输入单元和解码器，其中：

所述确定单元，用于确定待识别语音；

所述提取单元，用于对所述待识别语音进行声学特征提取；

所述输入单元，用于将提取的声学特征输入解码器；

所述解码器，用于调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别，得到识别结果并输出所述识别结果；其中，所述声学模型采用深度神经网络-隐马尔可夫模型DNN-HMM，且在训练所述DNN-HMM的过程中，将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN-HMM的输出层；所述DNN-HMM的输入层采用声学特征；所述DNN-HMM的共享隐含层采用所述两个并行任务共享；所述共享隐含层为靠近所述输入层的一到多个隐含层且最后一层共享隐含层与所述DNN-HMM的独立隐含层连接；其中，所述DNN-HMM的独立隐含层靠近所述DNN-HMM的输出层；所述DNN-HMM的独立隐含层仅与所述两个并行任务各自的输出层相连接。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括训练单元，用于在训练所述DNN-HMM的过程中，将学习的关于音素后验概率的参数作为说话人自适应的声学模型传递给解码器。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括更新单元，用于采用反向误差传递算法对关于音素后验概率的参数和关于说话人身份确认的参数进行更新。

8.根据权利要求7所述的装置，其特征在于，所述DNN-HMM的独立隐含层的参数仅与所述两个并行任务各自的任务的预测误差有关；