CN106409289B

CN106409289B - 语音识别的环境自适应方法、语音识别装置和家用电器

Info

Publication number: CN106409289B
Application number: CN201610847088.XA
Authority: CN
Inventors: 杨世清; 戴江; 石周; 唐红强
Original assignee: Hefei Midea Intelligent Technologies Co Ltd
Current assignee: Hefei Midea Intelligent Technologies Co Ltd
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2019-06-28
Anticipated expiration: 2036-09-23
Also published as: WO2018054361A1; CN106409289A

Abstract

本发明公开了一种语音识别的环境自适应方法，该方法包括以下步骤：获取当前环境下的语音信息；提取语音信息的语音特征，并对语音特征进行环境自适应处理；根据声学模型和语言模型获得对应语音特征的最大概率的词序列。该环境自适应方法，可以降低环境噪声对语音识别的影响，提升语音识别的鲁棒性。本发明还公开一种语音识别装置和包括该装置的家用电器。

Description

语音识别的环境自适应方法、语音识别装置和家用电器

技术领域

本发明属于电器制造技术领域，尤其涉及语音识别的环境自适应方法，以及语音识别装置和包括该语音识别装置的家用电器。

背景技术

随着集成电路、人工智能、互联网技术的发展，传统的白家电业出现了新的定位，家电不仅仅具有传统的功能，也成为家庭智慧网络的一部分，可为家庭成员提供更多的智能化服务。但是，传统家电的控制方式已经不能满足更便捷的人机交互的需求，语音控制的应用成为一种未来的发展趋势。

目前，在实验室环境中，语音识别的识别率已经达到相当高的程度，但是，由于家电工作环境的复杂程度较高，环境噪声较大，所以识别率存在问题。如果将传统的语音识别算法直接应用于家电系统会收到环境噪音的影响，目前没有语音交互系统针对家电的工作环境给出特定优化的方案。因而，提升在类似使用环境下的语音识别系统的鲁棒性是其能够应用的关键。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明需要提出一种语音识别的环境自适应方法，该环境自适应方法，可以降低环境噪声对语音识别的影响，提升语音识别的鲁棒性。

本发明还提出一种语音识别装置和包括该语音识别装置的家用电器。

为了解决上述问题，本发明一方面提出的语音识别的环境自适应方法，包括以下步骤：获取当前环境下的语音信息；提取所述语音信息的语音特征，并对所述语音特征进行环境自适应处理；根据声学模型和语言模型获得对应所述语音特征的最大概率的词序列。

本发明实施例的语音识别的环境自适应方法，通过在特征域的环境自适应处理，可以在特征提取过程中去除环境噪声，降低实际应用环境下背景噪音对语音识别的影响，可以提升在实际应用环境下语音识别的鲁棒性。

在本发明的一些实施例中，所述根据声学模型和语言模型获得对应所述语音特征的最大概率的词序列，进一步包括：根据所述声学模型计算所述语音特征的声学概率，根据所述语言模型计算所述语音特征的语言概率；以及根据所述声学概率和所述语言概率进行搜索以获得对应所述语音特征的最大概率的词序列。

具体地，通过以下方法中的至少一种来对所述语音特征进行环境自适应处理：特征映射方法；声道长度归一化方法；倒谱均值归一化方法。

在本发明的一些实施例中，该环境自适应方法还包括：在所述声学模型的模型训练时，基于训练语音和环境语音进行模型域的环境自适应处理。模型域的环境自适应处理，可以在模型训练时减小环境噪声对语音识别的影响。

具体地，进行模型域的环境自适应处理，进一步包括：对于GMM-HMM(GaussianMixture Model-Hidden Markov Model,高斯混合模型-隐马尔科夫)模型，采用最大后验概率的方法或者基于变换的方法进行环境自适应处理；

对于DNN-HMM(Deep Neural Networks-Hidden Markov Model,深度神经网络-隐马尔科夫模型)模型，基于所述训练语音拟合DNN的网络权重，或者在DNN结构中增加变换层，或者采用基于ivector的方法进行环境自适应处理，或者采用基于编码的方法进行环境自适应处理。

具体地，所述训练语音通过以下方式中的一种进行采集：在实际环境中分别录制所述训练语音和所述环境语音；或者，在所述实际环境中录制所述环境语音，在实验室里录制纯净语音，并将所述环境语音与所述纯净语音进行叠加以获得所述训练语音。从而可以获得包含特定环境噪音的训练语言。

为了解决上述问题，本发明另一方面提出的语音识别装置，包括：获取模块，用于获取当前环境下的语音信息；提取模块，用于提取所述语音信息的语音特征；自适应模块，用于对所述语音特征进行环境自适应处理；模型模块，用于提供声学模型和语言模型；和识别模块，根据所述声学模型和所述语言模型获得对应所述语音特征的最大概率的词序列。

本发明实施例的语音识别装置，通过自适应模块在特征域的环境自适应处理，可以在特征提取过程中去除环境噪声，降低实际应用环境下背景噪音对语音识别的影响，可以提升在实际应用环境下语音识别的鲁棒性。

在本发明的一些实施例中，所述识别模块进一步用于，根据所述声学模型计算所述语音特征的声学概率，根据所述语言模型计算所述语音特征的语言概率，根据所述声学概率和所述语言概率进行搜索以获得对应所述语音特征的最大概率的词序列。

具体地，所述自适应模块，通过以下方法中的至少一种来对所述语音特征进行环境自适应处理：特征映射方法；声道长度归一化方法；倒谱均值归一化方法。

在本发明的一些实施例中，所述自适应模块还用于，在所述声学模型的模型训练时，基于训练语音和环境语音进行模型域的环境自适应处理。模型域的环境自适应处理，可以在模型训练时减小背景噪音对语音识别的影响。

具体地，所述自适应模块进一步用于，对于GMM-HMM模型，采用最大后验概率的方法或者基于变换的方法进行环境自适应处理，或者，对于DNN-HMM模型，基于所述训练语音拟合DNN的网络权重，或者在DNN结构中增加变换层，或者采用基于ivector的方法进行环境自适应处理，或者采用基于编码的方法进行环境自适应处理。

在本发明的一些实施例中，该语音识别装置还包括：采集模块，用于通过以下方式中的一种采集所述训练语言：在实际环境中分别录制所述训练语音和所述环境语音，或者，在所述实际环境中录制所述环境语音，在实验室里录制纯净语音，并将所述环境语音与所述纯净语音进行叠加以获得所述训练语音，从而可以获得包括特定环境下噪音的训练语音。

基于上述发明的语音识别装置，本发明再一方面的家用电器，包括：本体；和上述的语音识别装置。

该家用电器，通过采用上述的语音识别装置，可以降低背景噪声对语音识别的影响，提升工作环境下语音识别的鲁棒性。

附图说明

图1是根据本发明的一个实施例的语音识别的基本框架的示意图；

图2是根据本发明的GMM-HMM模型的结构示意图；

图3是根据本发明的DNN-HMM模型的结构示意图；

图4是根据本发明实施例的语音识别的环境自适应方法的流程图；

图5是根据本发明的一个具体实施例的DNN网络的示意图；

图6是根据本发明实施例的语音识别装置的框图；

图7是根据本发明的一个实施例的语音识别装置的框图；以及

图8是根据本发明实施例的家用电器的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

语音识别作为人类常用的交互方式，一直以来也是人机交互重要的研究方向。语音识别系统也从最初的自动语音识别系统(Automatic Speech Recognition，ASR)发展为大词汇量连续语音识别(large vocabulary continuous speech Recognition，LVCSR)。

首先，对语音识别的基本框架进行介绍。如图1所示，基于声学模型、语言模型和解码器，声学模型通过将训练语音进行特征提取和进行声学建模形成，语言模型通过将训练语料进行语言建模形成，输入语音在提取特征以获得语音特征之后，通过解码器根据语言模型和声学模型获得识别结果。

其中，语音特征主要包括基于听觉感知的MFCC(Mel Frequency CepstrumCoefficient，Mel频率倒谱系数)参数、感知线性预测系数(Perceptual LinearPredictive，PLP)参数等。

语言模型是对语言的描述，在基于统计学习的语音识别框架中，较常用的是N-gram的统计语言模型，其基本思想是，用马尔科夫链表示词序列的生成过程，即序列中第k个词的出现概率紧与之前的n-1个词相关。通过收集语料中各个词和相关词组合的频率，可以以此为基础估计出语言模型的模型参数。

解码器的作用是，结合通过声学模型计算语音特征的声学概率和由语言模型计算出的语言概率，通过相关搜索的方式得到最有可能的次序列。

声学模型是对声音特征的描述，是语音识别系统的核心部分。下面结合图2和图3对几个声学模型进行介绍。

在语音识别领域，传统的声学模型包括GMM-HMM模型，HMM模型可以用两个状态集合和三个转移概率来描述。其中，两个状态集合包括可观测状态0和隐含状态S，可观测状态0顾名思义为可以被观察到的状态；隐含状态S符合马尔科夫性质，即t时刻的状态只和t-1时刻相关，一般情况下无法被之间观察到。三个转移概率包括初始状态概率矩阵、状态转移矩阵和观测状态输出概率，初始状态概率矩阵表达初始状态各隐含状态的概率分布，状态转移矩阵表达了t到t+1时刻隐含状态之间的转移概率，观测状态输出概率表达了隐含状态为S的条件下，观测值为0的概率。HMM模型存在三个问题，其一为评估问题，给定观测序列和模型，求某一特定输出的概率。对于语音识别任务来说，就是根据语音序列和模型，确认该序列是某句话的可能性；其二为解码问题，给定观测序列和模型，寻找使观测高了最大的隐含状态序列，对于语音识别任务来说，就是根据语音序列和模型，识别出语音内容；其三为训练问题，给定观测序列，调整模型参数，使产生该观测序列的概率最大，对于语音识别任务来说就是根据大量的语音训练模型参数。

如图2所示，为根据本发明的一个具体实施例的GMM-HMM模型的结构示意图，其中，语音信号分帧之后提取特征，用GMM来描述其概率分布，HMM描述隐含状态的转移概率及其和GMM的各个观测值的关系。

随着深度神经网络技术的发展，语音识别系统逐渐采用DNN-HMM技术，如图3所示，为根据本发明的一个具体实施例的DNN-HMM模型的结构示意图，其中，DNN-HMM模型将描述特征发生概率的模型从GMM替换为深度神经网络DNN，即DNN来描述特征的观测概率分布，HMM描述隐含状态的转移概率及其和DNN的各个观测样本的关系。

针对相关技术中，语音识别由于受到环境噪声而影响识别率的问题，本发明实施例的语音识别的环境自适应方法，分别在特征域和模型域进行环境自适应处理，提升在使用环境下语音识别的鲁棒性。

下面参照附图4和5描述根据本发明实施例的语音识别的环境自适应方法。

图4是根据本发明的一个实施例的语音识别的环境自适应方法的流程图，如图4所示，该语音识别的环境自适应方法包括以下步骤：

S1，获取当前环境下的语音信息。例如，获取家电例如冰箱通常工作环境下的语音信息。

S2，提取语音信息的语音特征，并对语音特征进行环境自适应处理。

例如，提取语音信息的MFCC参数、PLP参数等，对提取的语音特征进行环境自适应处理，即进行特征域的环境自适应处理，在特征域降低环境噪声的影响，也就是在特征提取的过程中去除背景噪声，从而可以更好地识别实际应用环境下的语音。

在本发明的实施例中，可以通过以下方法中的至少一种来对语音特征进行环境自适应处理：特征映射方法；声道长度归一化方法；倒谱均值归一化方法，当然也可以采用其他可以实现特征域的环境自适应处理的方法，在此不一一列举。

以最常用的倒谱均值归一化方法为例，在没有噪声影响的环境下，语音的Mel倒谱系数服从高斯分布，特性是奇数阶矩(均值等)的期望为0，偶数阶矩(方差等)的期望为一特定常数。根据此结论，可以分别对倒谱的均值、方差进行归一化操作。具体操作如下：

X_CMN(n)＝X(n)-E[X(n)]

其中，X_CMN(n)表示奇数阶矩倒谱矢量，X(n)是特征参数(倒谱)矢量，n代表n维，X_CVN(n)表示偶数阶矩倒谱矢量，E表示数学期望，σ表示标准差。

此外，三四阶矩也可以类似进行归一化操作，使得其分布符合标准高斯分布，消除环境噪音导致的畸变。对于采用特征映射方法和声道长度归一化方法进行环境自适应处理的过程，可以参照相关技术中的说明。

S3，根据声学模型和语言模型获得对应该语音特征的最大概率的词序列。

具体地，根据声学模型计算语音特征的声学概率，根据语言模型计算语音特征的语言概率，根据声学概率和语言概率进行搜索以获得对应该语音特征的最大概率的词序列，如图1中基于声学模型和语言模型，通过解码器进行概率计算和通过相关搜索方式获得最优可能的词序列，从而实现语音识别，具体计算和搜索过程可以参见相关技术记载。

可以看出，本发明实施例的语音识别的环境自适应方法，通过在特征域的环境自适应处理，可以在特征提取过程中去除环境噪声，降低实际应用环境下背景噪音对语音识别的影响，可以提升在实际应用环境下语音识别的鲁棒性。

虽然，特征域的环境自适应方法处理比较简单，可以应用于使用此特征的任何模型，但是，并不能从统计意义上真正地消除噪音的影响。

本发明实施例的语音识别的环境自适应方法，还提出在模型域进行环境自适应操作，即在模型训练时去除环境的噪声影响。具体地，在声学模型的模型训练时，基于训练语音和环境语音进行模型域的环境自适应处理。其中，训练语音可以理解为包含所需要的语义的语音的集合，这部分语音需要进行标注处理。例如，可以采集使用环境下很多条“你好”这句话的语音，用来训练“你好”的语音模型。环境语音可以理解为在该使用环境下不同语音的集合，可以用来训练背景模型。可以理解的是，训练语音和环境语音都是带有环境噪声的语音，可以表达在该使用环境下语音的分布。

在智能家电的语音识别系统中，环境噪声会对识别率造成直接的影响，由于相同型号家电的麦克风的位置固定，信道增益接近，工作的环境噪声类型有限，因而可以被采集。模型域的环境自适应操作的关键问题是需要建立带有特定环境的语音数据库，即采集最接近工作环境的训练语音。通过采集工作环境的背景噪声对其进行自适应处理，可以降低噪声环境对声学模型的影响。

在本发明的实施例中，训练语音可以通过以下方式的一种进行采集：一种方式是，在实际环境中分别录制训练语音和环境语音，例如，直接使用家电在实际的使用环境中录制训练语音以及在该实际环境下的环境语音，以方便模型域的环境自适应操作。可以理解的是，该训练语音和环境语音均为带有该特定实际环境的语音数据。或者，在实际环境中录制环境语音，在实验室里录制纯净语音，并将环境语音与纯净语音进行叠加以获得训练语音，其中，纯净语音可以理解为没有背景噪声的人说话语音。通常情况下，更多时候训练语音的采集是在实验室环境下完成的，可以通过家电在实际工作环境下录制大量环境语音，在实验室内将该环境语音与纯净语音进行叠加，得到在实际工作环境下即带有特定环境噪声的训练语音和环境语音。

具体来说，模型域的环境自适应处理，可以针对不同的模型采用不同的方法。

在本发明的实施例中，对于GMM-HMM模型，可以采用最大后验概率的方法或者基于变换的方法进行环境自适应处理，当然，也可以采用其他可以实现的、合适的自适应方法。

其中，基于最大后验概率的环境自适应方法，其基于贝叶斯准则，通过先验概率，修改模型参数，达到对于观测数据的最大后验概率。具体来说，首先，通过不同环境下采集的环境语音训练出描述包含所有可能环境情况的模型，由于其涵盖了大量不同背景下的语音，可以认为该模型消除了特定背景的语音的分布；再基于训练语音重估背景模型参数，得到声学模型。可以理解的是，不同于相关技术中通过训练语音直接训练得到声学模型，在本申请中，训练出的背景模型是涵盖了所有训练环境的语音的分布，获得的声学模型不是基于纯净语音训练，而是包含了各种可能的噪声环境，重估出的声学模型也是同分布的，因而消除了训练语音的环境的影响。

基于变换的方法例如最大似然线形回归方法，是寻找一种变换关系，对模型参数进行变换，使得在训练数据集上，损失函数收敛。首先，训练环境无关的背景模型，估计目标语音与其之间的变换关系，使其适应环境无关的语音识别系统。在实际应用中，在训练语音的数据充分时，基于最大后验概率的方法的性能较好，在训练语音的数据不充分时，基于变换的方法可以取得比基于最大后验概率的方法更好的效果。

在模型域的环境自适应处理，对于DNN-HMM模型，可以基于训练语音拟合DNN的网络权重，或者在DNN结构中增加变换层，或者采用基于ivector的方法进行环境自适应处理，或者采用基于编码的方法进行环境自适应处理。当然，对于DNN-HMM模型也可以采用其他可以使用的自适应方法。

具体来说，由于DNN的结构与GMM的结构不同，所以，上述的基于最大后验概率的方法和基于变换的方法，对于DNN-HMM模型不能适用。一种方式，可以调节DNN网络的权重，最直观的方法是利用目标环境(实际应用环境)下的语音数据直接拟合网络权重，但是，非常容易出现过拟合的现象。一种方式，在DNN结构中增加一个变换层，利用目标环境下的训练语音重估变换层，如图5所示为根据本发明的一个实施例的DNN结构的示意图，首先，训练好一个DNN网络，之后，针对输入层插入线形变换层，针对不同环境下的训练语音，重估DNN的网络参数。与此类似，可以在输出层之前插入线形变换层。

综上，本发明实施例的语音识别的环境自适应方法，针对家电的语音识别系统，揭示了在特定工作环境下消除背景噪声影响的自适应方案，包括特征域的环境自适应处理和模型域的环境自适应处理，以及训练语音的数据采集方式。

下面参照附图对本发明实施例的语音识别装置进行说明。

图6是根据本发明的一个实施例的语音识别装置的框图，如图6所示，该语音识别装置100包括获取模块10、提取模块20、自适应模块30、模型模块40和识别模块50。

其中，获取模块10用于获取当前环境下的语音信息；提取模块20用于提取语音信息的语音特征，例如，提取语音信息的MFCC参数、PLP参数等。

自适应模块30用于对语音特征进行环境自适应处理，即进行特征域的环境自适应处理，在特征域降低环境噪声的影响，也就是在特征提取的过程中去除背景噪声，从而可以更好地识别实际应用环境下的语音。在本发明的实施例中，自适应模块30可以通过以下方法中的至少一种来对语音特征进行环境自适应处理：特征映射方法；声道长度归一化方法；倒谱均值归一化方法，当然也可以采用其他可以实现特征域的环境自适应处理的方法，在此不一一列举。

模型模块40用于提供声学模型和语言模型。声学模型是对声音特征的描述，是语音识别系统的核心部分，如图2和3中为典型的声学模型的示意图；语言模型是对语言的描述，在基于统计学习的语音识别框架中，较常用的是N-gram的统计语言模型。

识别模块50根据声学模型和语言模型获得对应语音特征的最大概率的词序列。具体地，识别模块50根据声学模型计算语音特征的声学概率，根据语言模型计算语音特征的语言概率，根据声学概率和语言概率进行搜索以获得对应语音特征的最大概率的词序列，从而实现语音识别，具体计算和搜索过程可以参见相关技术记载。

虽然，特征域的环境自适应方法处理比较简单，可以应用于使用此特征的任何模型，但是，并不能从统计意义上真正地消除噪音的影响。自适应模块30还用于，在声学模型的模型训练时，基于训练语音和环境语音进行模型域的环境自适应处理。

进一步地，如图7所示，该语音识别装置100还包括采集模块60，采集模块60用于通过以下方式中的一种采集训练语言：一种方式是，在实际环境中分别录制训练语音和环境语音；或者，在实际环境中录制环境语音，在实验室里录制纯净语音，并将环境语音与纯净语音进行叠加以获得训练语音，其中，纯净语音可以理解为没有背景噪声的人说话语音。

具体来说，模型域的环境自适应处理，可以针对不同的模型采用不同的方法。对于GMM-HMM模型，自适应模块30可以采用最大后验概率的方法或者基于变换的方法进行环境自适应处理。其中，基于最大后验概率的环境自适应方法，首先，通过不同环境下采集的环境语音训练出描述包含所有可能环境情况的模型，由于其涵盖了大量不同背景下的语音，可以认为该模型消除了特定背景的语音的分布；再基于训练语音重估背景模型参数，得到声学模型。基于变换的方法例如最大似然线形回归方法，首先，训练环境无关的背景模型，估计目标语音与其之间的变换关系，使其适应环境无关的语音识别系统。在实际应用中，在训练语音的数据充分时，基于最大后验概率的方法的性能较好，在训练语音的数据不充分时，基于变换的方法可以取得比基于最大后验概率的方法更好的效果。

或者，对于DNN-HMM模型，自适应模块30可以基于训练语音拟合DNN的网络权重，或者，在DNN结构中增加变换层，参照图5所示，或者，采用基于ivector的方法进行环境自适应处理，或者采用基于编码的方法进行环境自适应处理。当然，对于DNN-HMM模型也可以采用其他可以使用的自适应方法。

总之，本发明实施例的语音识别装置100，采用环境自适应方法去除环境噪声对语音识别的影响，包括特征域的自适应操作和模型域的自适应操作，将两种自适应技术同时应用于语音识别中，并给出包含环境噪声的说话人语音采集方式。

基于上述方面实施例的语音识别装置，下面参照附图8描述根据本发明实施例提出的家用电器。

如图8所示，本发明实施例的家用电器1000，例如冰箱，包括本体200和上述方面提出的语音识别装置100。

该家用电器1000，通过采用上述的语音识别装置100，可以降低背景噪声对语音识别的影响，提升工作环境下语音识别的鲁棒性。

需要说明的是，在本说明书的描述中，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别的环境自适应方法，其特征在于，包括以下步骤：

获取当前环境下的语音信息；

提取所述语音信息的语音特征，并对所述语音特征进行环境自适应处理；以及

根据声学模型和语言模型获得对应所述语音特征的最大概率的词序列；

所述根据声学模型和语言模型获得对应所述语音特征的最大概率的词序列，进一步包括：

根据所述声学模型计算所述语音特征的声学概率，根据所述语言模型计算所述语音特征的语言概率；以及

根据所述声学概率和所述语言概率进行搜索以获得对应所述语音特征的最大概率的词序列。

2.如权利要求1所述的语音识别的环境自适应方法，其特征在于，通过以下方法中的至少一种来对所述语音特征进行环境自适应处理：

特征映射方法；

声道长度归一化方法；

倒谱均值归一化方法。

3.如权利要求1所述的语音识别的环境自适应方法，其特征在于，还包括：

在所述声学模型的模型训练时，基于训练语音和环境语音进行模型域的环境自适应处理。

4.如权利要求3所述的语音识别的环境自适应方法，其特征在于，进行模型域的环境自适应处理，进一步包括：

对于GMM-HMM模型，采用最大后验概率的方法或者基于变换的方法进行环境自适应处理；

对于DNN-HMM模型，基于所述训练语音拟合DNN的网络权重，或者在DNN结构中增加变换层，或者采用基于ivector的方法进行环境自适应处理，或者采用基于编码的方法进行环境自适应处理。

5.如权利要求3或4所述的语音识别的环境自适应方法，其特征在于，所述训练语音通过以下方式中的一种进行采集：

在实际环境中分别录制所述训练语音和所述环境语音；或者

在所述实际环境中录制所述环境语音，在实验室里录制纯净语音，并将所述环境语音与所述纯净语音进行叠加以获得所述训练语音。

6.一种语音识别装置，其特征在于，包括：

获取模块，用于获取当前环境下的语音信息；

提取模块，用于提取所述语音信息的语音特征；

自适应模块，用于对所述语音特征进行环境自适应处理；

模型模块，用于提供声学模型和语言模型；和

识别模块，根据所述声学模型和所述语言模型获得对应所述语音特征的最大概率的词序列；

所述识别模块进一步用于，根据所述声学模型计算所述语音特征的声学概率，根据所述语言模型计算所述语音特征的语言概率，根据所述声学概率和所述语言概率进行搜索以获得对应所述语音特征的最大概率的词序列。

7.如权利要求6所述的语音识别装置，其特征在于，所述自适应模块，通过以下方法中的至少一种来对所述语音特征进行环境自适应处理：

特征映射方法；

声道长度归一化方法；

倒谱均值归一化方法。

8.如权利要求6所述的语音识别装置，其特征在于，所述自适应模块还用于，在所述声学模型的模型训练时，基于训练语音和环境语音进行模型域的环境自适应处理。

9.如权利要求8所述的语音识别装置，其特征在于，所述自适应模块进一步用于，对于GMM-HMM模型，采用最大后验概率的方法或者基于变换的方法进行环境自适应处理，或者，对于DNN-HMM模型，基于所述训练语音拟合DNN的网络权重，或者在DNN结构中增加变换层，或者采用基于ivector的方法进行环境自适应处理，或者采用基于编码的方法进行环境自适应处理。

10.如权利要求8或9所述的语音识别装置，其特征在于，还包括：

采集模块，用于通过以下方式中的一种采集所述训练语言：在实际环境中分别录制所述训练语音和所述环境语音，或者，在所述实际环境中录制所述环境语音，在实验室里录制纯净语音，并将所述环境语音与所述纯净语音进行叠加以获得所述训练语音。

11.一种家用电器，其特征在于，包括：

本体；和

如权利要求6-10任一项所述的语音识别装置。