CN103065631B

CN103065631B - 一种语音识别的方法、装置

Info

Publication number: CN103065631B
Application number: CN201310027326.9A
Authority: CN
Inventors: 蒋洪睿; 王细勇; 梁俊斌; 郑伟军; 周均扬
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd
Priority date: 2013-01-24
Filing date: 2013-01-24
Publication date: 2015-07-29
Anticipated expiration: 2033-01-24
Also published as: CN103065631A; US9607619B2; JP6099556B2; JP2014142627A; WO2014114049A1; EP2760018B1; US20140207460A1; EP2760018A1

Abstract

本发明实施例提供一种语音识别的方法，包括：获取语音数据；根据所述语音数据，获取第一置信度值；根据所述语音数据，获取噪声场景；根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。以及一种装置。这种根据噪声场景，灵活调整置信度值的方法和装置，大大提升了噪声环境下的语音识别率。

Description

一种语音识别的方法、装置

技术领域

本发明实施例涉及语音处理技术领域，尤其涉及一种语音识别的方法及装置。

背景技术

用户在手机等终端设备上一般使用语音助手软件用来进行语音识别。用语音助手等软件进行语音识别的过程为，用户开启语音助手软件，获取语音数据；语音数据送到降噪模块进行降噪处理；降噪处理后的语音数据送给语音识别引擎；语音识别引擎返回识别结果给语音助手；语音助手为减少误判，根据置信度阈值判断识别结果的正确性，然后呈现。

目前，语音助手类软件通常是在办公室等安静环境下使用效果相对较好，但在噪声环境下（如：车载环境下）的使用效果不佳；业界普遍采用软件降噪的方法来提升语音识别率，但提升效果并不明显，有时甚至会降低识别率。

发明内容

本技术方案提供一种语音识别的方法和装置，用以提升语音识别率，同时提升用户感受。

第一方面，提供一种语音识别的方法：所述方法包括：获取语音数据；根据所述语音数据，获取第一置信度值；根据所述语音数据，获取噪声场景；根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

结合第一方面，在第一方面的第一种可能的实现方式中，所述噪声场景具体包括：噪声类型；噪声大小。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述噪声场景包括噪声类型，所述根据语音数据获取噪声场景，具体包括：根据所述语音数据，获取所述语音数据中的噪声的频率倒谱系数；根据所述噪声的频率倒谱系数和预先建立的噪声类型模型，获取所述语音数据的噪声类型。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述噪声类型模型的建立方法具体包括：获取噪声数据；根据所述噪声数据，获取所述噪声数据的频率倒谱系数；根据EM算法处理所述频率倒谱系数，建立所述噪声类型模型。

结合第一方面的第三种可能的实现方式或者第一方面的第二种可能的实现方式，在第一方面的第四种可能的实现方式中，所述噪声类型模型是，高斯混合模型。

结合第一方面的第一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述噪声场景包括噪声大小，所述根据语音数据获取噪声场景，具体包括：根据所述语音数据，获取所述语音数据的特征参数；根据所述特征参数，进行语音激活检测；根据所述语音激活检测的结果，获取所述噪声大小。

结合第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式或者第一方面的第五种可能的实现方式或者，在第一方面的第六种可能的实现方式中，所述噪声大小具体包括：信噪比；述噪声能量水平。

结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式或者第一方面的第五种可能的实现方式或者第一方面的第六种可能的实现方式或者，在第一方面的第七种可能的实现方式中，所述根据第一置信度值，获取与所述噪声场景对应的第二置信度值，具体包括：根据所述噪声场景和预先存储的置信度值调整值的经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；其中，所述调整包括：调大、调小、保持不变。

结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式或者第一方面的第五种可能的实现方式或者第一方面的第六种可能的实现方式或者第一方面的第七种可能的实现方式或者，在第一方面的第八种可能的实现方式中，如果所述第二置信度值小于所述置信度阈值，则提示用户。

第二方面，提供一种语音识别装置，其特征在于，所述装置包括：获取单元，用于获取语音数据；并根据所述语音数据获取第一置信度值第一置信度值单元，用于接收所述获取单元获取的所述语音数据，并根据所述语音数据获取第一置信度值；噪声场景单元，用于接收所述获取单元获取的所述语音数据，并根据所述语音数据获取噪声场景；第二置信度值单元，用于接收所述噪声场景单元的所述噪声场景和所述第一置信度值单元的所述第一置信度值，并根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；处理单元，用于接收所述第二置信度值单元获取的所述第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。第二置信度值单元如果所述第二置信度值大于或者等于预先存储的置信度阈值

结合第二方面，在第二方面的第一种可能的实现方式中，所述装置还包括：建模单元，用于获取噪声数据，根据所述噪声数据，获取所述噪声数据的频率倒谱系数，根据EM算法处理所述频率倒谱系数，建立噪声类型模型。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述噪声场景单元具体包括：噪声类型单元，用于根据所述获取单元的所述语音数据，获取所述语音数据中的噪声的频率倒谱系数，根据所述噪声的频率倒谱系数和所述建模单元的所述噪声类型模型，获取所述语音数据的噪声类型。

结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述噪声场景单元还包括：噪声大小单元，用于根据所述获取单元的语音数据，获取所述语音数据的特征参数，根据所述特征参数，进行语音激活检测；根据所述语音激活检测的结果，获取所述噪声大小。

结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式或者第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述装置还包括：存储单元，用于存储的置信度阈值和置信度值调整值的经验数据。。

结合者第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述第二置信度值单元，具体用于，

根据所述噪声场景和所述经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；

根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；

其中，所述调整包括：调大、调小、保持不变。

置信度值调整值的经验数据根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值第三方面，提供移动终端，包括处理器、麦克风，其特征在于，所述麦克风，用于获取语音数据；所述处理器，用于根据所述语音数据，获取第一置信度值，根据所述语音数据，获取噪声场景，根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

结合第三方面，在第二方面的第一种可能的实现方式中所述移动终端还包括：存储器，用于存储置信度值调整值的经验数据和所述置信度阈值。

结合第三方面的第一种可能的实现方式，在第三方面的第二种可能的实现方式中，所述处理器具体用于，根据所述语音数据，获取第一置信度值；根据所述语音数据，获取噪声场景；根据所述噪声场景和所述经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；如果所述第二置信度值大于或者等于所述置信度阈值，则处理所述语音数据。

本发明技术方案提供了一种语音识别的方法以及装置，该方法和装置，通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的方法和装置，大大提升了噪声环境下的语音识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。

图1为本发明实施例1提供的一种语音识别的方法流程图；

图2为本发明实施例1提供的一种语音识别的方法的另一种实现方式的流程图；

图3为本发明实施例2提供的一种语音识别的方法的另一种实现方式的流程图；

图4为本发明实施例2提供的一种语音识别的方法的另一种实现方式的流程图；

图5为本发明实施例4提供的一种语音识别装置的结构示意图；

图6为本发明实施例4提供的一种语音识别装置的另一种可能的结构示意图；

图7为本发明实施例4提供的一种语音识别装置的另一种可能的结构示意图；

图8为本发明实施例4提供的一种语音识别装置的另一种可能的结构示意图；

图9为本发明实施例5提供的一种移动终端的结构示意图；

图10为本发明实施例5提供的一种移动终端的另一种可能的结构示意图；

图11为本发明实施例提供的手机的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明实施例保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。进一步应当理解，本文中采用的术语“包括”规定了所述的特征、整体、步骤、操作、元件和/或部件的存在，而不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或它们的组的存在或附加。

在本发明实施例中，装置包括但不限于手机、个人数字助理（PersonalDigital Assistant，PDA）、平板电脑、便携设备（例如，便携式计算机）车载设备，ATM机（Automatic Teller Machine，自动柜员机）等设备，本发明实施例并不限定。

实施例1

图1为本发明实施例1提供的一种语音识别的方法流程图。

如图1所示，本发明实施例1提供一种语音识别的方法具体可以包括：

S100，获取语音数据；

用户开启装置上的语音助手等语音识别类软件，通过麦克风获取用户输入的语音数据。应当理解的是，所述语音数据也可以不是用户输入的，也可以是机器输入的，包括任何包含信息的数据。

S101,根据所述语音数据，获取第一置信度值。该第一置信度值是指特定个体对待特定命题真实性相信的程度。在本发明实施例中，是装置等对该语音数据识别结果的真实性相信的程度。即，该第一置信度值用来表示语音识别结果的可信程度的数值。举例来说，用户输入的语音数据为“给张三打电话”，则在该语音数据识别过程中，返回的第一置信度值包含：句置信度N1（“给张三打电话”的总体置信度），前置命令词置信度N2（“给”为前置命令词，即“给”的置信度值为N2），人名置信度N3（“张三”为人名，即“张三”的置信度值为N3），后置命令词置信度N4(“打电话”为后置命令词，即“打电话”的置信度为N4)。通常，句置信度N1是由N2、N3、N4综合得到的。在某次实验中，经测试得到，用户输入“给张三打电话”该语音数据的第一置信度值分别为N1=62，N2=50，N3=48，N4=80。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述各种置信度值，但这些置信度值不应限于这些术语。这些术语仅用来将置信度值彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一置信度值也可以被称为第二置信度值，类似地，第二置信度值也可以被称为第一置信度值。并且该第一置信度值和第二置信度值都是置信度值。

S102，根据所述语音数据，获取噪声场景；

根据用户输入的语音数据，获取噪声场景。所述噪声场景是用户输入语音数据时所处的噪声状态。即可以理解为，用户是在马路上的噪声环境，还是在办公室的噪声环境或者是在车载的噪声环境中输入该语音数据，以及用户所处的相应环境中噪声是大还是小。

应当理解的是，所述步骤S102可以在步骤S101之前，所述步骤S102也可以在步骤S101之后，或者所述步骤S102可以和步骤S101同时执行，本发明实施例对此不做限制

S103，根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值。

该第二置信度值是根据所述获取的第一置信度值获取的。该第二置信度值不是根据用户输入的语音数据直接得到的，而是根据该第一置信度值获得的。在获取该语音数据所处的噪声场景之后，可以根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值。

S104，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据；

该预先存储的置信度阈值作为第二置信度值是否可接受的评价指标，如第二置信度值大于此置信度阈值，则认为识别结果正确，如果第二置信度值小于此置信度阈值，则认为识别结果错误，结果是不可相信的。

如果所述第二置信度值大于或者等于预先存储的置信度阈值，则认为该语音数据识别的结果是正确的，即处理相应的语音数据。举例来说，如步骤S103中获取的第二置信度值N3=48，步骤S104中预先存储的置信度阈值步骤S104中预先存储的置信度阈值=40，则所述第二置信度值大于所述置信度阈值，该语音数据识别结果是正确的。进一步举例说明，当该语音数据是“打电话给张三”“发短信给张三”“打开应用程序”等包含命令词的语音数据时，该语音识别属于命令词识别，则所述装置执行相应命令，如打电话、发短信、打开应用程序等操作。如果该语音数据识别属于文本听写识别，则显示识别结果文本。即如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

本发明技术方案提供了一种语音识别的方法,该方法通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的方法，大大提升了噪声环境下的语音识别率。

可选的，

图2为本发明实施例1提供的一种语音识别的方法的另一种实现方式的流程图。

如图2所示，所述方法还包括：

S1041，如果所述第二置信度值小于所述置信度阈值，则提示用户。

如果所述第二置信度值小于所述置信度阈值，则认为该语音数据识别结果是错误的，则提示用户。举例来说，如步骤S103中获取的第二置信度值N3=48，步骤S104中预先存储的置信度阈值=50，则所述第二置信度值小于所述置信度阈值，所述语音数据识别结果是错误的。进一步举例说明，当该语音数据是“给张三打电话”时，则装置判断该语音数据的识别结果错误，系统提示用户重新说一遍和/或者告知用户错误。即，如果所述第二置信度值小于所述置信度阈值，则提示用户重新输入或者纠正错误等。

实施例2

图3为本发明实施例2提供的一种语音识别的方法的另一种实现方式的流程图。

本发明实施例2是在本发明实施例1的基础之上进行描述的。如图3所示，在实施例1中的步骤S102中，所述噪声场景具体包括：噪声类型；噪声大小。

该噪声类型是指用户输入语音数据时所处的噪声环境，即可以理解为用户是在马路上的噪声环境，还是在办公室的噪声环境或者是在车载的噪声环境。

该噪声大小表示用户输入语音数据该时所处噪声环境中噪声的大小。可选的，该噪声大小包括：信噪比和噪声能量水平。该信噪比是语音数据与噪声数据功率的比值，常常用分贝数表示，一般信噪比越高表明噪声数据功率越小，否则则相反。该噪声能量水平是用来反应用户语音数据中噪声数据能量的大小。信噪比和噪声能量水平结合起来，表示该噪声大小。

所述噪声场景包括噪声类型，在实施例1中的步骤S102，所述根据语音数据获取噪声场景，具体包括：

S1021，根据所述语音数据，获取所述语音数据中的噪声的频率倒谱系数；

根据用户输入的语音数据，通过语音激活检测（Voice activity detection，VAD）判断语音数据帧和噪声数据帧，在获取噪声数据帧之后，获取该噪声数据帧的频率倒谱系数。Mel（美尔）是主观音高的单位，而Hz（赫兹）则是客观音高的单位，Mel频率是基于人耳听觉特性提出的，它与Hz频率成非线性对应关系。频率倒谱系数（Mel Frequency Cepstrum Coefficient，MFCC）是Mel频率上的倒谱系数，具有良好的识别性能，被广泛应用于语音识别、声纹识别、语种识别等领域。

S1022，根据所述噪声的频率倒谱系数和预先建立的噪声类型模型，获取所述语音数据的噪声类型。

将该频率倒谱系数分别代入预先建立的每一个噪声类型模型中进行计算，如果某一噪声类型模型的计算结果值最大，则认为用户输入该语音数据时处于该噪声类型的环境中，即获取该语音数据的噪声类型。

在步骤S1022中的该预先建立的噪声类型模型是高斯混合模型。

高斯密度函数估计是一种参数化模型，有单高斯模型（SingleGaussianModel,SGM）和高斯混合模型（Gaussian mixture model，GMM）两类。高斯模型是一种有效的聚类模型，它根据高斯概率密度函数参数的不同，每一个已经建立的高斯模型可以看作一种类别，输入一个样本x，即可通过高斯概率密度函数计算其值，然后通过一个阈值来判断该样本是否属于已经建立的该高斯模型。由于GMM具有多个模型，划分更为精细，适用于复杂对象的划分，广泛应用于复杂对象建模，例如语音识别中利用GMM对不同噪声类型的分类和建模。

在本发明实施例中，某一噪声类型的GMM建立的过程可以是，输入多组同一类型噪声数据，根据所述噪声数据反复训练GMM模型，并最终获得该噪声类型的GMM。

高斯混合模型可用下式表达：

p (x) = Σ_{i = 1}^{N} α_{i} N (x; μ_{i}, Σ_{i}),

其中，

Σ_{i = 1}^{N} α_{i} = 1

其中，高斯模型N(x；μ，∑)可用下式表达：

N (x; μ, Σ) = \frac{1}{\sqrt{2 π | Σ |}} \exp [- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ)]

其中，N为GMM模型的混合度，即由N个高斯模型组合而成，α_i为第i个高斯模型的权值，μ为均值，∑为协方差矩阵。理论上，空间中的任意形状都可以使用一个GMM模型来建模。由于高斯模型的输出是1个0~1之间的小数，为了便于计算，一般会对结果进行取自然对数(ln)，从而变成小于0的浮点数。

在步骤S1022中的该预先建立的噪声类型模型的建立方法包括：

获取噪声数据。获取多组同一类型噪声，如，车载噪声，街道噪声，办公室噪声等，的噪声数据。用于建立该种类型噪声数据的GMM，即该种噪声数据的噪声类型模型。应当理解的是，本发明还可以获得其他种类的噪声数据，并针对每一种类型噪声数据建立相应的噪声类型模型，本发明实施例对此不做限制。

根据所述噪声数据，获取所述噪声数据的频率倒谱系数。从该噪声数据中，提取该噪声的频率倒谱系数。Mel（美尔）是主观音高的单位，而Hz（赫兹）则是客观音高的单位，Mel频率是基于人耳听觉特性提出的，它与Hz频率成非线性对应关系。频率倒谱系数（Mel Frequency Cepstrum Coefficient，MFCC）是Mel频率上的倒谱系数，具有良好的识别性能，被广泛应用于语音识别、声纹识别、语种识别等领域。

根据EM算法处理所述频率倒谱系数，建立所述噪声类型模型。EM算法（Expectation-maximization algorithm，最大期望算法）在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。在统计计算中，最大期望（EM）算法是在GMM中寻找参数最大似然估计或者最大后验估计的算法，其中GMM依赖于无法观测的隐藏变量（Latent Variable）。

EM算法经过两个步骤交替进行计算：第一步是计算期望（E），估计未知参数的期望值，给出当前的参数估计。；第二步是最大化（M），重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。总体来说，EM的算法流程如下：1，初始化分布参数；2，重复直到收敛。简单说来EM算法就是，假设我们估计知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。EM算法可以从非完整数据集中对参数进行最大可能性估计，是一种非常简单实用的学习算法。通过交替使用E和M这两个个步骤，EM算法逐步改进模型的参数，使参数和训练样本的似然概率逐渐增大，最后终止于一个极大点。直观地理解EM算法，它也可被看作为一个逐次逼近算法：事先并不知道模型的参数，可以随机的选择一套参数或者事先粗略地给定某个初始参数，确定出对应于这组参数的最可能的状态，计算每个训练样本的可能结果的概率，在当前的状态下再由样本对参数修正，重新估计参数，并在新的参数下重新确定模型的状态，这样，通过多次的迭代，循环直至某个收敛条件满足为止，就可以使得模型的参数逐渐逼近真实参数。

将获取的频率倒谱系数代入EM算法进行训练，通过训练过程，获取高斯混合模型中的N、α_i、μ、∑等参数，根据这些参数和其中建立高斯混合模型，即建立该种噪声类型相应的噪声类型模型。同时，是频率倒谱系数。

举例来说，在实施例1中的步骤S102，所述根据语音数据获取噪声场景，具体为：

根据语音数据获取该语音数据噪声帧的频率倒谱系数，该频率倒谱系数即为高斯混合模型中的x。假设，有两个噪声类型模型，一个是由车载噪声训练得到的车载噪声的噪声类型模型，另一个是由非车载类噪声(可以包含办公室噪声、街道噪声、超市噪声等)训练得到的非车载噪声的噪声类型模型。假设当前用户输入的语音数据有10帧噪声帧，将每个噪声帧的频率倒谱系数，即x分别代入两个噪声类型模型中（其中，N、α_i、μ、∑等参数为已知），获取计算结果，将计算结果取对数，并进行累加平均，最后结果如下表一所示：

表一

最终的结果显示，车载噪声的噪声类型模型的计算结果值大于非车载噪声的噪声类型模型的计算结果值（即，-41.9>-46.8），所以当前语音数据的噪声类型为车载噪声。

本发明技术方案提供了一种噪声环境下提升语音识别率的方法,该方法通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的方法，大大提升了噪声环境下的语音识别率。

可选的，

如图3所示，所述噪声场景包括包括噪声大小，在实施例1中的步骤S102，所述根据语音数据获取噪声场景，具体包括：

S1023，根据所述语音数据，获取所述语音数据的特征参数；

根据该语音数据，提取该语音数据的特征参数，所述特征参数包括：子带能量、基音、周期性因子。

子带能量，根据语音数据不同频带中有用成分的不同，将0~8K频带分

基音及周期性因子，反映了语音中的周期性成分。在语音中，静音段及轻声段周期性成分很差，在浊音段，周期性很好，基于此点可进行语音帧检测。

S1024，根据所述特征参数，进行语音激活检测；

根据用户输入的语音数据，通过语音激活检测（Voice activity detection，VAD）判断语音数据帧和噪声数据帧，将基音及周期性因子与子带能量相结合，进行语音帧、静音帧的判决。

VAD判断主要基于以下两个因素进行语音帧、噪声帧的判决：

1)语音帧的能量高于噪声帧的能量；

2)周期性强的一般是语音帧。

S1025，根据所述语音激活检测的结果，获取所述噪声大小。

根据VAD判断结果，对语音帧、噪声帧分别求平均能量，得到语音能量水平(speechLev)、噪声能量水平(noiseLev)，然后计算得到信噪比(SNR)，其公式为：

\begin{matrix} noiseLev = 10 * \log 10 (1 + \frac{1}{Ln} Σ_{i = 1}^{Ln} ener [N_{i}]) \\ speechLev = 10 * \log 10 (1 + \frac{1}{Ls} Σ_{j = 1}^{Ls} ener [S_{j}]) \end{matrix}

SNR＝speechLev-noiseLev

其中，Ln、Ls分别表示噪声帧、语音帧总帧数，ener[Ni]表示第i个噪声帧的能量，ener[Sj]表示第j个语音帧的能量。

实施例3,

图4为本发明实施例3提供的一种语音识别的方法的另一种实现方式的流程图。

本实施例是在实施例1的基础上描述的，如图4所示，实施例1的步骤S103方法具体包括：

S1031，根据所述噪声场景和预先存储的置信度值调整值的经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；

根据噪声场景中的噪声类型，噪声大小以及经大量仿真测量得到的置信度值调整值的经验数据，获取该噪声场景对应的置信度值调整值。该噪声类型表明用户进行语音识别时所处的环境类型，该噪声大小表明用户所处的环境类型的噪声大小。其中，结合噪声类型，当噪声偏大时，将置信度值相应的调大；结合噪声类型，噪声偏小时，将置信度值相应的调小。具体的置信度值调整值的经验数据通过仿真测量统计得到。

举例说明：

在噪声类型为车载环境，噪声偏大时(即，噪声水平小于-30dB,信噪比小于10dB),通过仿真测量统计得到此种噪声场景中，置信度值调整值为+15~+5。因此，该噪声场景中，获取置信度值调整值为调大15至5中的某一值。

在噪声类型为车载环境，噪声偏小时(噪声水平大于-30小于-40dB，信噪比大于10dB小于20dB)，通过仿真测量统计得到此种噪声场景中，置信度值调整值为+10~+3。因此，该噪声场景中，获取置信度值调整值为调大10至3中的某一值。

在噪声类型为办公室环境，噪声偏小时(噪声水平大于-40dB，信噪比大于20dB)，通过仿真测量统计得到此种噪声场景中，置信度值调整值为+5~0。因此，该噪声场景中，获取置信度值调整值为调大5至0中的某一值。

S1032，根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；其中，所述调整包括：调大、调小、保持不变。

根据该置信度值调整值，调整在步骤S101中获取的第一置信度值。根据置信度调整值，调整该第一置信度值获取第二置信度值，该第一置信度值可能被调大调小或者保持不变。

实施例4

图5为本发明实施例4提供的一种语音识别装置的结构示意图。

如图5所示，所述装置包括：

获取单元300，用于获取语音数据；

第一置信度值单元301，用于接收所述获取单元300获取的所述语音数据，并根据所述语音数据获取第一置信度值；

噪声场景单元302，用于接收所述获取单元300的获取的所述语音数据，并根据所述语音数据获取噪声场景；

第二置信度值单元303，用于接收所述噪声场景单元302的所述噪声场景和所述第一置信度值单元301的所述第一置信度值，并根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；

处理单元304，用于接收第二置信度值单元303获取的所述第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

该获取单元300获取语音数据；第一置信度值单元301接收所述获取单元300获取的所述语音数据，并根据所述语音数据获取第一置信度值；噪声场景单元302接收所述获取单元300的获取的所述语音数据，并根据所述语音数据获取噪声场景，所述噪声场景包括，噪声类型、噪声大小；第二置信度值单元303接收所述噪声场景单元302的所述噪声场景和所述第一置信度值单元301的所述第一置信度值，并根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；；处理单元304接收所述所述第二置信度值单元303获取的所述第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

其中，获取单元300、第一置信度值单元301、噪声场景单元302、第二置信度值单元303、处理单元304，可以用于执行实施例1中步骤S100、S101、S102、S103、S104所述的方法，具体描述详见实施例1对所述方法的描述，在此不再赘述。

本发明技术方案提供了一种语音识别装置,该装置通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的装置，大大提升了噪声环境下的语音识别率。

可选的，

图6为本发明实施例4提供的一种语音识别装置的另一种可能的结构示意图。

如图6所示，所述装置还包括：

建模单元305，用于获取噪声数据，根据所述噪声数据，获取所述噪声数据的频率倒谱系数，根据EM算法处理所述频率倒谱系数，建立噪声类型模型。

其中，建模单元305，可以用于执行实施例2中在步骤S1022中的预先建立的噪声类型模型的方法，具体描述详见实施例2对所述方法的描述，在此不再赘述。

可选的，

图7为本发明实施例4提供的一种语音识别装置的另一种可能的结构示意图。

如图7所示，噪声场景单元具体包括：

噪声类型单元3021，用于根据所述获取单元的所述语音数据，获取所述语音数据中的噪声的频率倒谱系数，根据所述噪声的频率倒谱系数和所述建模单元的所述噪声类型模型，获取所述语音数据的噪声类型。

其中，噪声类型单元3021，可以用于执行实施例2中在步骤S1021、S1022中所述的方法，具体描述详见实施例2对所述方法的描述，在此不再赘述。

噪声大小单元3022，用于根据所述获取单元的语音数据，获取所述语音数据的特征参数，根据所述特征参数，进行语音激活检测；根据所述语音激活检测的结果，获取所述噪声大小。

其中，噪声大小单元3022，可以用于执行实施例2中在步骤S1023、S1024、S1025中所述的方法，具体描述详见实施例2对所述方法的描述，在此不再赘述。

可选的，

图8为本发明实施例4提供的一种语音识别装置的另一种可能的结构示意图。

如图8所示，所述装置还包括：

存储单元306，用于存储的置信度阈值和置信度值调整值的经验数据。。

所述第二置信度值单元303，具体用于，根据所述存储单元306预先存储的所述经验数据和所述噪声场景的对应关系，获取与所述噪声场景对应的置信度值调整值；根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；其中，所述调整包括：调大、调小、保持不变。

其中，第二置信度值单元303，可以用于执行实施例3中在步骤S1031、S1032中所述的方法，具体描述详见实施例3对所述方法的描述，在此不再赘述。

实施例5

图9为本发明实施例5提供的一种移动终端的结构示意图。

如图9所示，该移动终端，包括处理器、麦克风，其特征在于，

所述麦克风501，用于获取语音数据；

所述处理器502，用于根据所述语音数据，获取第一置信度值，根据所述语音数据，获取噪声场景，根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

其中，所述麦克风501、所述处理器502，可以用于执行实施例1中步骤S100、S101、S102、S103、S104所述的方法，具体描述详见实施例1对所述方法的描述，在此不再赘述。

本发明技术方案提供了一种移动终端,该移动终端通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的移动终端，大大提升了噪声环境下的语音识别率。

可选的，

如图10所示，所述所述移动终端还包括：存储器503，用于存储置信度值调整值的经验数据和所述置信度阈值。

所述处理器502具体用于，根据所述语音数据，获取噪声场景；根据所述噪声场景和所述经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；如果所述第二置信度值大于或者等于所述置信度阈值，则处理所述语音数据。

上述结构可用于执行实施例1、实施例2、实施例3中的方法，具体方法详见实施例1、实施例2、实施例3中所述的方法，在此不再赘述。

本发明技术方案提供了一种移动终端,该装置通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的移动终端，大大提升了噪声环境下的语音识别率。

实施例6

如图11所示，本实施例以手机为例对本发明实施例进行具体说明。应该理解的是，图示手机仅仅是手机的一个范例，并且手机可以具有比图中所示出的更过的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

图11为本发明实施例提供的手机的结构示意图。如图11所示手机包括：触控屏41，存储器42，CPU43，电源管理芯片44，RF电路45，外设接口46，音频电路47，麦克风48，I/O子系统49。

所述触控屏41是手机与用户之间的输入接口和输出接口，除具有获取用户触摸信息和控制指令的功能外，还将可视输出呈现给用户，可视输出可以包括图形、文本、图标、视频等。

所述存储器42，可以用于存储置信度值调整值的经验数据和所述置信度阈值，以供CPU43处理时使用。存储器42可以被CPU43、外设接口46等访问，所述存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述CPU43，可用于处理音频电路47和麦克风48获取的语音数据，并根据该语音数据获取噪声场景和第一置信度值；根据所述噪声场景和存储器42预先存储的置信度值调整值的经验数据，调整第一置信度值，获取第二置信度阈值。CPU43是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器42内的软件程序和/或模块，以及调用存储在存储器42内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，CPU43可包括一个或多个处理单元；优选的，CPU43可集成应用处理器和调制解调处理器，可选的，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到CPU43中。还应当理解，上述功能只是CPU43能够执行功能中的一种，对于其他功能本发明实施例不做限制。

所述电源管理芯片44，可用于为CPU43、I/O子系统49及外设接口46所连接的硬件进行供电及电源管理。

所述RF电路45，主要用于建立手机与无线网络（即网络侧）的通信，实现手机与无线网络的数据获取和发送。例如收发短信息、电子邮件等。具体地，RF电路45获取并发送RF信号，RF信号也称为电磁信号，RF电路45将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路45可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC芯片组、用户标识模块(Subscriber Identity Module,SIM)等等。

所述外设接口46，所述外设接口可以将设备的输入和输出外设连接到CPU 43和存储器42。

所述音频电路47，主要可用于从外设接口46获取音频数据，将该音频数据转换为电信号。

所述麦克风48，可用于获取语音数据.

所述I/O子系统49：所述I/O子系统49可以控制设备上的输入输出外设，I/O子系统49可以包括显示控制器491和用于控制其他输入/控制设备的一个或多个输入控制器492。可选的，一个或多个输入控制器492从其他输入/控制设备获取电信号或者向其他输入/控制设备发送电信号，其他输入/控制设备可以包括物理按钮（按压按钮、摇臂按钮等）、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器492可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。所述I/O子系统49中的显示控制器491从触控屏41获取电信号或者向触控屏41发送电信号。触控屏41获取触控屏上的接触，显示控制器491将获取到的接触转换为与呈现在触控屏41上的用户界面对象的交互，即实现人机交互，呈现在触控屏41上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标、筛选模式等。值得说明的是，设备还可以包括光鼠，光鼠是不呈现可视输出的触摸敏感表面，或者是由触控屏形成的触摸敏感表面的延伸。

麦克风48获取大屏设备的获取语音数据，通过所述外设接口46和所述音频电路47将所述语音数据送入CUP43，CPU43可用于处理所述语音数据，并根据该语音数据获取噪声场景和第一置信度值；根据所述噪声场景和存储器42预先存储的置信度值调整值的经验数据，调整第一置信度值，获取第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

本发明技术方案提供了一种语音识别的手机,该手机通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的手机，大大提升了噪声环境下的语音识别率。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明实施例可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在装置可读介质中或作为装置可读介质上的一个或多个指令或代码进行传输。装置可读介质包括装置存储介质和通信介质，可选的通信介质包括便于从一个地方向另一个地方传送装置程序的任何介质。存储介质可以是装置能够存取的任何可用介质。以此为例但不限于：装置可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由装置存取的任何其他介质。此外。任何连接可以适当的成为装置可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线（DSL）或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明实施例所使用的，盘（Disk）和碟（disc）包括压缩光碟（CD）、激光碟、光碟、数字通用光碟（DVD）、软盘和蓝光光碟，可选的盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在装置可读介质的保护范围之内。

总之，以上所述仅为本发明技术方案的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取语音数据；

根据所述语音数据，获取第一置信度值；

根据所述语音数据，获取噪声场景；

根据置信度调整值，调整所述第一置信度值，获取与所述噪声场景对应的第二置信度值；

如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

2.根据权利要求1所述的方法，其特征在于，所述噪声场景具体包括：

噪声类型；

噪声大小。

3.根据权利要求2所述的方法，其特征在于，所述噪声场景包括噪声类型，所述根据语音数据获取噪声场景，具体包括：

根据所述语音数据，获取所述语音数据中的噪声的频率倒谱系数；

根据所述噪声的频率倒谱系数和预先建立的噪声类型模型，获取所述语音数据的噪声类型。

4.根据权利要求3所述的方法，其特征在于，所述噪声类型模型的建立方法具体包括：

获取噪声数据；

根据所述噪声数据，获取所述噪声数据的频率倒谱系数；

根据EM算法处理所述频率倒谱系数，建立所述噪声类型模型。

5.根据权利要求4所述的方法，其特征在于，所述噪声类型模型是，

高斯混合模型。

6.根据权利要求2所述的方法，其特征在于，所述噪声场景包括噪声大小，所述根据语音数据获取噪声场景，具体包括：

根据所述语音数据，获取所述语音数据的特征参数；

根据所述特征参数，进行语音激活检测；

根据所述语音激活检测的结果，获取所述噪声大小。

7.根据权利要求2所述的方法，其特征在于，所述噪声大小具体包括：

信噪比；

噪声能量水平。

8.根据权利要求6所述的方法，其特征在于，所述噪声大小具体包括：

信噪比；

噪声能量水平。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述根据置信度调整值，调整第一置信度值，获取与所述噪声场景对应的第二置信度值，具体包括：

根据所述噪声场景和预先存储的置信度值调整值的经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；

其中，所述调整包括：调大、调小、保持不变。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

如果所述第二置信度值小于所述置信度阈值，则提示用户。

11.一种语音识别装置，其特征在于，所述装置包括：

获取单元，用于获取语音数据；

第一置信度值单元，用于接收所述获取单元获取的所述语音数据，并根据所述语音数据获取第一置信度值；

噪声场景单元，用于接收所述获取单元获取的所述语音数据，并根据所述语音数据获取噪声场景；

第二置信度值单元，用于接收所述噪声场景单元的所述噪声场景和所述第一置信度值单元的所述第一置信度值，并根据置信度调整值，调整所述第一置信度值，获取与所述噪声场景对应的第二置信度值；

处理单元，用于接收所述第二置信度值单元获取的所述第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

建模单元，用于获取噪声数据，根据所述噪声数据，获取所述噪声数据的频率倒谱系数，根据EM算法处理所述频率倒谱系数，建立噪声类型模型。

13.根据权利要求12所述的装置，其特征在于，所述噪声场景单元具体包括：

噪声类型单元，用于根据所述获取单元的所述语音数据，获取所述语音数据中的噪声的频率倒谱系数，根据所述噪声的频率倒谱系数和所述建模单元的所述噪声类型模型，获取所述语音数据的噪声类型。

14.根据权利要求11至13任一项所述的装置，其特征在于，所述噪声场景单元还包括：

噪声大小单元，用于根据所述获取单元的语音数据，获取所述语音数据的特征参数，根据所述特征参数，进行语音激活检测，根据所述语音激活检测的结果，获取所述噪声大小。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

存储单元，用于存储的置信度阈值和置信度值调整值的经验数据。

16.根据权利要求15所述的装置，其特征在于，所述第二置信度值单元具体用于，

其中，所述调整包括：调大、调小、保持不变。

17.一种移动终端，包括处理器、麦克风，其特征在于，

所述麦克风，用于获取语音数据；

所述处理器，用于根据所述语音数据，获取第一置信度值，根据所述语音数据，获取噪声场景，根据置信度调整值，调整所述第一置信度值，获取与所述噪声场景对应的第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

18.根据权利要求17所述的移动终端，其特征在于，所述移动终端还包括：

存储器，用于存储置信度值调整值的经验数据和所述置信度阈值。

19.根据权利要求18所述的移动终端，其特征在于，所述处理器具体用于，

根据所述语音数据，获取第一置信度值；

根据所述语音数据，获取噪声场景；

如果所述第二置信度值大于或者等于所述置信度阈值，则处理所述语音数据。