CN103632666A

CN103632666A - 语音识别方法、语音识别设备和电子设备

Info

Publication number: CN103632666A
Application number: CN201310573521.1A
Authority: CN
Inventors: 周均扬
Original assignee: Huawei Technologies Co Ltd
Current assignee: Beijing Superred Technology Co Ltd
Priority date: 2013-11-14
Filing date: 2013-11-14
Publication date: 2014-03-12
Anticipated expiration: 2033-11-14
Also published as: KR20160079105A; WO2015070645A1; EP2894449A1; CN103632666B; KR101852892B1; US9870771B2; US20160253995A1; EP2894449A4; JP2016537679A; BR112016010947A2; JP6265450B2

Abstract

本发明公开了一种语音识别方法、语音识别设备和电子设备。该方法首先，通过利用检测语音对应的样本环境，以及与前一次的环境类型一起进行判断向语音引擎输出相应地语音修正指令，然后，将待识别语音同时输入语音引擎和噪声类型检测引擎中，语音引擎利用该语音修正指令对待识别语音进行修正，使原始语音的质量不会因为对噪声的处理而受到损伤，并输出对应的初始识别结果；噪声类型检测引擎则利用待识别语音与不同环境下的语音训练样本判断当前环境类型；最后，利用当前环境类型对初始识别结果中的置信度进行调整，以便于保证最终输出的语音识别结果的识别效果能够在当前环境下提供给用户良好的用户体验。

Description

语音识别方法、语音识别设备和电子设备

技术领域

本发明涉及语音识别技术领域，更具体的说，是涉及一种语音识别方法、语音识别设备和电子设备。

背景技术

目前，市面上的各类电子产品大多可以通过语音识别的方式实现对自身的控制和操作，但是，在进行语音识别的过程中，针对不同的环境类型，尤其是在强噪声的环境类型下，普通的语音识别引擎容易受环境噪声的干扰，语音识别率将会比安静环境下大大降低。

在现有技术中主要采用降噪处理或提升语音水平的方式提高输入语音的SNR值（Signal to Noise Ratio，信噪比），进而提高语音识别的识别率。

其中，降噪处理的过程为利用降噪模块，通过以削减语音波形的降噪算法压低环境的噪声，提高输入语音的SNR值，从而提高语音引擎的语音识别率和识别效果。此外在利用降噪算法增强语音的时候，现有技术中也存在利用进行语音识别前的设置参数，决定语音识别引擎是否开启降噪模块的方式；提升语音水平的过程则是通过提升语音水平的方式提高SNR值。

上述现有技术中所采用的两种方法，虽然在强噪声环境下能够提高一些语音识别率，但是在环境噪声比较小或者说安静的情况下，降噪处理是以削减语音波形的方法压低环境噪声，此种方法会损伤原始语音，导致语音识别率下降；而采用提升语音水平的方式同样也会破坏原始语音的质量，采用其提升语音识别率的效果低于对原始语音质量的破坏。

由此可知，当前迫切需要一种能够在各种环境下提升语音的识别效果，以及保证语音识别在各种环境中获得稳定且良好用户体验的语音识别方式。

发明内容

有鉴于此，本发明实施例的目的在于提供了一种语音识别方法、语音识别设备和电子设备，以克服现有技术中的语音识别方式无法满足在各种环境下保证语音识别能够稳定且具有良好用户体验的问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面提供的一种语音识别的方法，包括：对输入的语音进行划分，获取检测语音和待识别语音；其中，所述检测语音所包含的语音数据的长度小于所述待识别语音所包含的语音数据的长度；

噪声类型检测引擎将获取到的所述检测语音与不同样本环境下的语音训练样本进行比对后，选择与所述检测语音差值最小的语音训练样本对应的样本环境为检测环境类型，其中，所述样本环境包括安静环境和噪声环境；

检测存储区，当所述存储区中存在可识别的前一次的环境类型时，依据所述检测环境类型与所述前一次的环境类型的比较结果输出语音修正指令，其中所述环境类型包括安静环境或噪声环境；

语音引擎按照所述语音修正指令控制对所述待识别语音进行修正，并输出初始识别结果；

所述噪声类型检测引擎将接收到的所述待识别语音分别与不同样本环境下的语音训练样本进行比对，选择与所述待识别语音差值最小的所述语音训练样本所对应的样本环境为当前环境类型；

存储所述当前环境类型至所述存储区内并在预设时长后抛弃所述当前环境类型；

依据所述当前环境类型调整所述初始识别结果的置信度值后，输出最终识别结果。

本发明实施例第二方面提供的一种语音识别设备，包括：

处理器，用于对输入的语音进行采样，获取检测语音和待识别语音同时输入噪声类型检测引擎和语音引擎；及用于检测存储区，当所述存储区中存在可识别的前一次的环境类型时，依据所述噪声类型检测引擎输出的检测环境类型与所述前一次的环境类型的比较结果输出语音修正指令；及用于依据所述噪声类型检测引擎输出的所述当前环境类型调整所述语音引擎输出的所述初始识别结果的置信度值后，输出最终识别结果；其中，所述检测语音所包含的语音数据的长度小于所述待识别语音所包含的语音数据的长度，所述环境类型包括安静环境或噪声环境；

所述噪声类型检测引擎，用于将所述处理器输出的所述检测语音和待识别语音与不同样本环境下的语音训练样本进行比对，选择与所述检测语音差值最小的所述语音训练样本对应的样本环境为检测环境类型，选择与所述待识别语音差值最小的所述语音训练样本所对应的样本环境为当前环境类型，存储所述当前环境类型至所述存储区内并在预设时长后抛弃所述当前环境类型；

语音引擎，用于按照所述处理器输出的所述语音修正指令控制对接收到的所述待识别语音进行修正，并输出初始识别结果。

本发明实施例第三方面提供的一种电子设备，其特征在于，包括上述本发明实施例第二方面提供的语音识别设备，与所述语音识别设备相连的录音设备，与所述录音设备连接的麦克风。

经由上述的技术方案可知，与现有技术相比，本发明实施例公开了一种语音识别方法、语音识别设备和电子设备。该方法先对输入的语音进行划分，进而利用划分得到的检测语音进行当前检测环境的判定，并在存在前一次记录的环境类型的情况下与前一次的环境类型进行比较，并将按照比较结果获得的语音修正指令发送至语音引擎；语音引擎利用该语音修正指令对待识别语音进行修正，使原始语音的质量不会因为对噪声的处理而受到损伤，并输出对应的初始识别结果；将划分得到的待识别语音同时被输入至语音引擎和噪声类型检测引擎中，噪声类型检测引擎则利用待识别语音与不同环境下的语音训练样本判断当前环境类型；最后，利用当前环境类型对初始识别结果中的置信度进行调整，以便于保证最终输出的语音识别结果的识别效果能够在当前环境下提供给用户良好的用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一中公开的一种语音识别方法的流程图；

图2为本发明实施例二中公开的一种语音识别方法的流程图；

图3为本发明实施例二中公开的基于初始环境类型判断语音修正指令的流程图；

图4为本发明实施例三中公开的确定采样环境类型的流程图；

图5为本发明实施例三中公开的获取语音修正指令的流程图；

图6为本发明实施例三中公开的时间差t，有效影响时长T与权重n之间的曲线关系图；

图7为本发明实施例三中公开的确定当前环境类型的流程图；

图8为本发明实施例四中公开的一种语音识别设备的结构示意图；

图9为本发明实施例四中公开的一种电子设备的结构示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词的说明、简写或缩写总结如下：

SNR：Signal to Noise Ratio，信噪比；

SSE：Speech Signal Enhancement，语音信号增强；

NTD：Noise Type Detect，噪声类型检测；

dB：Decibel，分贝。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由背景技术可知，现有技术中采用降噪和提升语音水平的方式在相对安静的环境下都会对原始语音造成损伤。也就是说，现有技术中在提高语音识别率，或者提高语音识别效果方面所使用的方法，并非能够在各种环境中获取相同效果，而仅仅是在噪声比较大的时候，才能够为用户提供良好的语音识别的体验，若处于越安静的环境下，用户所能够感受到的语音识别体验就越差。

因此，本发明实施例提供了一种语音识别方法，通过对当前输入的语音的环境与前一次语音输入时的环境的判断，获取是否对当前输入的语音进行相关处理的指令，从而实现对该当前输入的语音按照判断的结果进行处理，以便于在各种环境中都能够实现，既不对当前输入的语音的原始语音造成损伤，又能够保证识别该当前输入的语音的高识别率和识别效果，从而保证能够在各种环境中自适应调整对语音识别，使用户能够获得良好的语音应用的体验。

实施例一

如图1所示，为本发明实施例一公开的一种语音识别方法的流程图，主要包括以下步骤：

步骤S101，对输入的语音进行划分，获取检测语音和待识别语音；

在步骤S101中，由处理器对当前输入的语音进行划分，将当前输入的语音划分为两部分，一部分作为检测语音，另一部分作为待识别语音。其中需要说明的是，作为检测语音，其仅为当前输入的语音中的一少部分音频数据，检测语音的长度小于待识别语音的长度，即该检测语音所包含的语音数据的长度小于待识别语音所包含的语音数据的长度。

例如，若当前输入的语音长度为100帧，取前面长度为5帧的语音数据即可作为检测语音，而剩余的长度为95的语音则作为待识别语音。当然也可以根据需要取语音中的10～15帧数据作为检测语音，其所占百分比可以根据需要进行设定，所设定的前提为作为检测语音的长度，不会影响后续对整个输入语音的识别。

另外，在截取检测语音时，最方便快捷的方式是从全部语音的最前面直接截取所预设的长度的语音作为检测语音，但是本发明该实施例并不仅限于此，也可以采用从最后截取等方式获取属于当前输入的语音中的一少部分音频数据作为检测语音。

步骤S102，NTD将获取到的所述检测语音与不同样本环境下的语音训练样本进行比对后，选择与所述检测语音差值最小的所述语音训练样本对应的样本环境为采样环境类型；

在步骤S102中，NTD在获取到检测语音之后，将其与不同样本环境下的语音训练样本进行比对。该不同样本环境下的语音训练样本是指：在各种环境下现场录制的语音文件训练之后获得的结果。其训练的过程如，在安静环境下，NTD计算所录制的语音样本文件在该安静环境下的噪声类型检测的结果，以及该安静环境对识别该语音样本文件的有效影响时长；在噪声环境下，NID计算所录制的语音样本文件在该噪声环境下的噪声类型检测的结果，以及该噪声环境对识别语音样本文件的有效影响时长。

也是就说，将不同样本环境下的语音训练样本的结果作为判断当前采样环境的基本，通过比对，NTD对获取到的检测语音进行计算后的结果越接近那个样本环境下的语音训练样本的结果，可以认为输入该检测语音时的环境与该样本环境相同。基于此，在本发明实施例中采用检测语音对应的结果与语音训练样本的结果的差值进行比较，选择差值最小的语音样本对应的环境类型为检测语音输入时的环境，即作为检测环境类型以便于后续使用。

但是，本发明实施例中并不限于仅采用差值比较的方式，选择结果最接近的环境类型，也可以通过其他的方式进行选择，只要保证无限接近检测语音的计算结果的语音训练样本的结果，其所对应的样本环境为检测语音输入时的环境即可。

其中，该样本环境包括：安静环境和噪声环境；噪声环境包括：车载小噪声环境，车载大噪声环境，普通道路路边环境，繁忙道路路边环境和嘈杂环境。

步骤S103，检测存储区，当所述存储区中存在可识别的前一次的环境类型时，依据所述检测环境类型与所述前一次的环境类型的比较结果输出语音修正指令；

在步骤S103中，该环境类型包括安静环境或噪声环境，其具体类型与前一次所进行的语音识别有关，处理器通过检测NTD获取可识别的前一次的环境类型，也就是说前一次进行语音识别时所存储的环境类型存在。处理器将从NTD处获取到的检测环境类型和前一次的环境类型进行比较，根据其比较前一次的环境类型对当前检测环境的影响的大小，分别生成不同的语音修正指令，以备后续语音引擎利用该语音修正指令为待识别语音进行相应的修正。

其中，该语音修正指令主要包括：使语音引擎开启语音增强的指令和关闭降噪处理的指令。

步骤S104，语音引擎按照所述语音修正指令控制对所述待识别语音的修正，并输出初始识别结果；

在步骤S104中，语音引擎接收处理器发送的待识别语音和语音修正指令，并利用语音修正指令对待识别语音的修正进行控制，以便于输出进行初步处理的初始识别结果。

需要说明的是，该待识别语音的长度满足对原输入语音进行识别的要求；语音引擎接收待识别语音和语音修正指令的时间由处理器发送的时间决定。

通过执行步骤S104依据步骤S103通过检测环境类型与前一次的环境类型进行判断后输出的语音修正指令，对待识别语音进行处理，在同时考虑前一次的环境类型和检测环境类型对待识别语音的影响的角度出发，其处理的过程降低了现有技术中不考虑环境而直接对输入语音进行处理时，所带来的对原始语音的损伤。

也就是说，执行本发明实施例所公开的步骤S103和步骤S104后，可在不同环境下实现语音识别率的提升，且不损伤原始语音的质量。其中，识别率是评估识别结果效果的度量数值，通过不损伤原始语音质量的方式提升识别率，能够保证后续对初始识别结果进行处理时，能够保证最终语音识别的有效性。

步骤S105，所述NTD将接收到的所述待识别语音分别与不同样本环境下的语音训练样本进行比对，选择与所述待识别语音差值最小的所述语音训练样本所对应的样本环境为当前环境类型，存储所述当前环境类型至所述存储区内并在预设时长后抛弃所述当前环境类型；在步骤S105中，NTD将接收到的待识别语音分别与不同样本环境下的语音训练样本进行比对的原理和过程，与执行步骤S103中NTD将检测语音与不同样本环境下的语音训练样本进行比对的原理和过程相同，可参见步骤S103，这里不再进行赘述。

在比对的过程中，确定了语音训练样本所对应的环境类型为当前环境类型，此时将该当前环境类型及该当前环境类型对待识别语音的有效影响时长等各类信息进行存储。在存储的过程中，如果当前存储区内存储有前一次的环境类型及其相关信息等旧的信息，则用当前确定的当前环境类型及其相关信息替换掉上述旧的信息；在存储的过程中，如果当前存储区内为空，不存在任何信息，则直接存储当前确定的当前环境类型及其相关信息，并在存储预设时长后抛弃当前所存储的信息。

该存储预设时长可根据不同的需要进行设定，通常其设定需要考虑其对下一次输入的语音识别是否会产生影响。如，当前所存储的环境类型将作为下一次输入语音识别的前一次的环境类型使用，参考步骤S103。其较为优选的方式则是针对不同的环境类型的对待识别语音的有效影响时长进行设定，其具体时长的长度可以与当前存储的环境类型对待识别语音的有效影响时长相同，也可以大于该时长，通常情况下不会小于该时长。当所述当前环境类型为安静环境时，所述存储预设时长长于当所述当前环境类型为噪声环境时的时长。

需要说明的是，上述步骤S104和步骤S105中接收到的待识别语音为处理器同时输入至NTD和语音引擎中的，利用步骤S104和步骤S105仅为在后续说明本发明实施例技术方案的过程中提供清楚的引证，并不对其先后执行顺序进行限定。两者的执行过程没有先后顺序之分，可同时，也可以不同时。

步骤S106，依据所述当前环境类型调整所述初始识别结果的置信度指后，输出最终识别结果。

在步骤S106中，处理器根据NTD中存储的当前环境类型对语音引擎输出的初始识别结果的置信度值，该置信度值是评估识别结果可靠性的度量数值。在执行步骤S104提高语音识别率后输出了具有有效性的初始识别结果，进一步的再执行步骤S106提高该初始识别结果的置信度值后，输出最终的语音识别结果。

通过本发明实施例一中公开的语音识别方法，在当前输入的语音的检测环境类型和可识别的前一次的环境类型的共同作用下，给出用于指导语音引擎对待识别语音是否进行修正的语音修正指令，从而保证在高识别率下输出的初始识别结果的有效性；然后再根据NTD的计算结果获取到的当前环境类型对该初始识别结果的置信度进行调整，获取对当前输入的语音具有高识别率和识别效果的最终识别结果，从而保证能够在各种环境中自适应调整对语音识别，使用户能够获得良好的语音应用的体验。

实施例二

如图2所示，为本发明实施例二公开的一种语音识别方法的流程图，主要包括以下步骤：

步骤S101，对输入的语音进行采样，获取检测语音及待识别语音；

步骤S102，NTD将获取到的所述检测语音与不同样本环境下的语音训练样本进行比对后，选择与所述检测语音差值最小的所述语音训练样本对应的样本环境为检测环境类型；

步骤S107，检测NTD中是否存在可识别的前一次的环境类型，如果存在则执行步骤S103，如果不存在，则执行步骤S108。

在步骤S107中，处理器检测NTD中是否存在可识别的前一次的环境类型，当长时间未识别出存在前一次的环境类型时，说明前一次的环境类型对本次的语音识别将不起作用，当有新的语音输入时，执行步骤S108将会采用初始环境类型作为备用判断的条件。

步骤S103，当存在可识别的前一次的环境类型时，依据所述检测环境类型与所述前一次的环境类型进行判断，输出语音修正指令；

步骤S108，当未识别出前一次的环境类型时，获取初始环境类型，依据所述初始环境类型与所述检测环境类型进行判断，输出语音修正指令；

步骤S105，所述NTD将接收到的所述待识别语音分别与不同样本环境下的语音训练样本进行比对，选择与所述待识别语音差值最小的所述语音训练样本所对应的样本环境为当前环境类型，存储所述当前环境类型至所述存储区内并在预设时长后抛弃所述当前环境类型；

上述附图2中示出的步骤S101～步骤S106与附图1中示出的步骤S101～步骤S106执行原理及执行过程相同，这里不再进行赘述。需要说明的是，在步骤S104中的语音修正指令也有可能是执行步骤S108所输出的，但是其与执行步骤S103输出的语音修正指令含义相同，主要包括使语音引擎开启语音增强的指令和关闭降噪处理的指令，其生成的过程则是在检测环境类型和初始环境类型的工作作用下生成的。

在步骤S108中所提到的初始环境类型为预先设置的，该初始环境类型作为备用，当不存在前一次的环境类型时则调用该初始环境类型，通常情况下该初始环境类型为噪声环境，更具体为嘈杂环境，当然本发明实施例对初始环境类型并不仅限于此限定，因此，该初始环境类型也可以设置为安静环境。

该依据所述初始环境类型与所述检测环境类型进行判断，输出语音修正指令的过程如图3所示，主要包括：

步骤S301，判断所述初始环境类型与所述检测环境类型是否相同，若相同，则执行步骤S302；若不相同，则执行步骤S303。

步骤S302，当初始环境类型与检测环境类型均为噪声环境时，输出用于语音增强的语音修正指令；当初始环境类型与检测环境类型均为安静环境时，输出用于关闭降噪处理的语音修正指令；

在步骤S302中，根据不同的环境输出具有不同控制功能的语音修正指令。

步骤S303，当所述初始环境类型为噪声环境时，则输出用于语音增强的语音修正指令；当所述初始环境类型为安静环境时，输出用于关闭降噪处理的语音修正指令。

在步骤S303中，在初始环境类型与检测环境类型不同的情况下，则按照默认的初始环境类型来判断所输出的语音修正指令的类型。

结合附图2说明，执行步骤S302或步骤S303之后输出用于语音增强，或者用于关闭降噪处理的语音修正指令。该用于语音增强的语音修正指令发送给语音引擎后，执行步骤S104，由语音引擎基于该语音修正指令，先对待识别语音进行语音增强处理，之后再进行降噪处理；该用于关闭降噪处理的语音修正指令发送给语音引擎后，执行步骤S104，由语音引擎基于该语音修正指令，关闭其对待识别语音进行降噪处理的过程。

在本发明实施例中，能够保证在首次识别，或者当前一次的噪声类型所存储的时间超过存储预设时长被抛弃的情况下，基于初始环境类型和检测环境类型的共同作用输出用于语音增强的语音修正指令，或者用于关闭降噪处理的语音修正指令，使语音引擎依据该语音修正指令对待识别语音进行相应的处理，从而保证在不损伤原始语音的情况下获取高的识别率，并由NTD对语音引擎输出的初始识别结果的置信度值，依据当前环境类型进行适应性的调整，保证最终输出的语音识别结果的具有高的可靠性，从而实现在各种环境下都能够适应性调整语音识别的目的，确保用户能够在各种环境中获取良好的用户体验。

实施例三

在上述实施例一和/或实施例二的基础上，针对上述附图1和附图2中示出的步骤S102，NTD将获取到的所述检测语音与不同样本环境下的语音训练样本进行比对后，选择与所述检测语音差值最小的所述语音训练样本对应的样本环境为检测环境类型；其具体执行过程如图4所示，主要包括：

步骤S1021，NTD对接收到的检测语音按照能量水平区分为检测语音帧部分和检测噪声帧部分；

步骤S1022，分别计算该检测语音帧的能量水平和检测噪声帧部分的能量水平，获取对应的检测语音水平和检测噪声水平；

步骤S1023，依据检测语音水平和检测噪声水平获取该检测语音对应的检测SNR，其中，检测SNR=检测语音水平-检测噪声水平；

步骤S1024，将上述的检测语音水平，检测噪声水平和检测SNR分别与不同样本环境下的语音训练样本的语音训练水平，噪声训练水平及训练SNR进行比对；

步骤S1025，确定与该检测语音水平差值最小的语音训练水平，与该检测噪声水平差值最小的噪声训练水平，与该检测SNR差值最小的训练SNR所对应的样本环境为检测环境类型。

在步骤S1024中，在各种环境下现场录制的语音文件训练之后，获得各个经训练后的语音训练样本在各种环境下基于NTD计算获取到的语音训练水平，噪声训练水平和训练SNR。然后，将上述检测语音水平，检测噪声水平和检测SNR分别与不同样本环境下的语音训练样本的语音训练水平，噪声训练水平及训练SNR进行比对。

需要说明的是，在不同样本环境下对语音训练样本进行训练时，所获取到的训练值，还有不同样本环境对语音训练样本的有效影响时长T。

基于步骤S1024中的比对，执行步骤S1025，确定与该检测语音水平差值最小的语音训练水平，与该检测噪声水平差值最小的噪声训练水平，与该检测SNR差值最小的训练SNR所对应的样本环境为检测环境类型。也就是说，通过比对确定当前的环境与训练时不同的样本环境中的哪一个最接近，选择最接近的一个为样本环境为检测环境类型。这里举例说明：

当有两个样本环境，安静环境和嘈杂环境；其中，安静环境的样本SNR为15dB，噪声样本水平为-25dB,语音样本水平为10dB；嘈杂环境的样本SNR为10dB，噪声样本水平为-16dB，语音样本水平为10dB；利用NTD对检测语音进行计算后，获得其检测SNR为14dB，检测噪声水平为-23dB，检测语音水平为9dB，经过与上述安静环境和嘈杂环境下的同类训练值的比对可知，最接近的为15dB的样本SNR，-25dB的噪声样本水平，10dB的语音样本水平，因此，判断它们所对应的安静环境为检测环境类型。

通过上述检测语音的计算结果与训练结果进行比对的过程，可准确的获取当前输入语音时的环境类型。

同样，在上述实施例一和/或实施例二的基础上，针对上述附图1和附图2中示出的步骤S103，当存在可识别的前一次的环境类型时，依据所述检测环境类型与所述前一次的环境类型进行判断，输出语音修正指令；其具体执行过程如图5所示，主要包括：

步骤S1031，获取所述前一次的环境类型，所述前一次的环境类型对输入语音的有效影响时长T；

在步骤S1031中，该有效影响时长T与上述附图4中示出的步骤S1023中的有效影响时长T意义相同，都是其对应的环境类型对输入语音能够产生影响的时间长度。

该有效影响时长T从理论上讲是每个环境类型的时间衰减的范围，例如安静环境的范围是20秒，嘈杂环境为10秒，马路边环境（普通道路路边环境）为15秒。在本发明实施例中对上述范围并不进行限定，上述数值可以是根据实际使用时录制的语音文件分析得到的统计数值。

步骤S1032，计算所述检测语音输入时与前一次语音输入之间的时间差t，及所述前一次的环境类型对所述检测环境类型的影响值w(t)；

在步骤S1032中，当前检测语音输入的时间可以看作当前输入语音的时间，计算当前输入语音与前一次语音输入之间时间间隔，即时间差t。其中给出的前一次的环境类型对检测环境类型的影响值w(t)为一个随时间t衰减的截断函数，所述w(t)的取值根据不同样本环境下的语音训练样本中的样本数据进行训练得到，t和T的取值为正整数

利用该w(t)可知，如果两次输入语音的时间间隔短，则认为两次输入语音处于同一个环境中的概率很大，则前一次的环境类型的判断对当前环境类型的判断影响大；如果时间间隔长，则前一次的环境类型的判断对当前环境类型的判断影响小，或者没有影响。

步骤S1033，判断所述前一次的环境类型与所述检测环境类型之间的平衡关系；步骤S1034，当所述前一次的环境类型和所述检测环境类型均为噪声环境时，则输出用于语音增强的语音修正指令；

步骤S1035，当所述前一次的环境类型和所述检测环境类型均为安静环境时，则输出用于关闭降噪处理的语音修正指令；

步骤S1036，当所述前一次的环境类型为噪声环境，所述检测环境类型为安静环境，所述w(t)>=0.5，则时，输出用于语音增强的语音修正指令；

步骤S1037，当所述前一次的环境类型为噪声环境，所述检测环境类型为安静环境，所述w(t)<0.5时，则输出用于关闭降噪处理的语音修正指令；

步骤S1038，当所述w(t)>T时，所述检测环境类型为安静环境则输出用于关闭降噪处理的语音修正指令；所述检测环境类型为噪声环境则输出用于语音增强的语音修正指令。

基于步骤S1032，在步骤S1033中判断前一次的环境类型与检测环境类型之间的平衡关系，由上述步骤S1034～步骤S1038中的判断结果可知，当前一次的环境类型和检测环境类型相同时，则说明当前进行语音输入的环境没有改变，仍处于前一次的环境类型中，当为噪声环境时，则依然需要执行降噪处理，则输出用于语音增强的语音修正指令；当为安静环境是，为了避免降噪处理对语音识别的影响，则输出用于关闭降噪处理的语音修正指令。

当前一次的环境类型和检测环境类型不同时，则需要结合前一次的环境类型对所述检测环境类型的影响值w(t)对前一次的环境类型和检测环境类型之间的平衡进行判断。

w(t)为一个随时间t衰减的截断函数，所述w(t)的取值根据不同样本环境下的语音训练样本中的样本数据进行训练得到，其具体可以为：

w(t)=exp(-t*lamda),当t>T时，w(t)=0；exp(*)为以e为底的指数函数，lamda为匿名函数；w(t)随时间t衰减，表示前一次的环境类型只作用在某一个时间范围内。

由图6可知，前后两次语音输入的时间差t与w(t)是一个下降趋势的曲线，时间差t越小，w(t)越大，前一次的环境类型对当前输入的语音的影响就越大；时间差t越大，w(t)越小，前一次的环境类型对当前输入的语音的影响就越小；如图6所示，假设匿名函数lamda=0.1，当t=0时，w(0)=1；以此类推，w(1)=exp(-0.1)～0.905；w(2)=0.819；w(3)=0.741；w(4)=0.670；w(5)=0.607；w(6)=0.549；如果T=20，当t>20,w(t)=0。

当时间差t>T时，也就是超出了有效影响时长，此时即便存在前一次的环境类型也不会对当前输入的语音产生任何的影响。通常情况下按照前一次的环境类型的存储时长，前一次存储的环境类型极有可能已被抛弃。

需要说明的是，上述给出的衰减函数w(t)=exp(-t*lamda)还可以拓展为：W(t)=exp(-(t/det)^2)，该衰减函数的衰减速度得更快。在实际应用的过程中，在不同的场合可以选择使用不同的衰减函数。

在本发明实施例中给出了步骤S1034～步骤S10385种结果，仅为将前一次的环境类型作为噪声环境时的优选内容，本发明实施例对于次并不进行限定。当前一次的环境类型为安静类型时，也可依据上述内容进行推论，由前一次的环境类型和检测环境类型共同确定所要输出的语音修正指令的类型。

根据上述本发明实施例给出的输出语音修正指令的过程，利用量化的公式进行描述，可具体为：当安静环境的量化值为0，噪声环境的量化值为1，前一次的环境类型和检测环境类型之间的平衡关系为：

balance=噪声环境*w(t)+安静环境；

如果balance>0.5，则认为平衡关系更靠近1，也就是噪声环境，故判断为当前输入语音的环境为噪声环境，输出用于语音增强的语音修正指令；

如果balance<0.5，则认为平衡关系更靠近0，也就是安静环境，故判断为当前输入语音的环境为安静环境，输出用于关闭降噪处理的语音修正指令；

如果balance=0.5，按照惯性逻辑处理，如果上一次是什么环境，则判断为什么环境，即上一次是噪声环境，则本次也是噪声环境，输出用于语音增强的语音修正指令；若上一次是安静环境，则本次也是安静环境，输出用于关闭降噪处理的修正指令。

针对上述步骤S1034～步骤S1038中的判断过程可参考附图6中示出的衰减函数，以及上述给出的量化公式的描述进行举例说明：

假设安静环境的有效影响时长是20秒，嘈杂环境的有效影响时长是10秒。

当时间差t为5秒时，若前一次的环境类型为嘈杂环境，T为10秒，w(t)为0.8，w(t)大于0.5，则说明前一次的嘈杂环境对当前输入的语音所产生的影响高，判断当前的环境类型属于嘈杂环境，此时输出用于语音增强的语音修正指令。

当时间差t为10秒时，若前一次的环境类型为嘈杂环境，T为10秒，w(t)为0.5，w(t)等于0.5，按照惯性设置，判断当前的环境类型属于嘈杂环境，此时输出用于语音增强的语音修正指令；

当时间差t为20秒时，若前一次的环境类型为嘈杂环境，T为10秒，此时t>T，w(t)为0，因此，前一次的环境类型不会对本次的语音识别产生影响，因此，应采用本发明实施例二中的示出的采用初始环境类型和检测环境类型进行判断，具体可参见本发明实施例二中记载的内容。

若前一次的环境类型为安静环境，T为20秒，w(t)为0.5，则按照惯性设置，判断当前的环境类型属于安静环境，此时输出用于关闭降噪处理的语音修正指令。

在上述实施例一和/或实施例二的基础上，针对上述附图1和附图2中示出的步骤S105，所述NTD将接收到的所述待识别语音分别与不同样本环境下的语音训练样本进行比对，选择与所述待识别语音差值最小的所述语音训练样本所对应的环境类型为当前环境类型，并将所述当前环境类型在存储预设时长后抛弃：其具体执行过程如图7所示，主要包括：

步骤S1051，所述NTD对接收到的所述待识别语音的语音帧部分和噪声帧部分进行分析，获取所述待识别语音的噪声水平，语音水平及信噪比SNR；

在步骤S1051中，NTD通过对获取到的待识别语音按照能量水平区分获得语音帧部分和噪声帧部分，分析的过程为：分别计算该语音帧的能量水平和噪声帧部分的能量水平，获取对应的语音水平和噪声水平，并基于SNR等于语音水平与噪声水平的差值，确定SNR。

步骤S1052，将所述待识别语音的噪声水平，语音水平及信噪比SNR分别与不同样本环境下的语音训练样本的噪声训练水平，语音训练水平及训练SNR进行比对；

步骤S1053，确定与所述噪声水平差值最小的噪声训练水平，与所述语音水平差值最小的语音训练水平，以及与所述SNR差值最小的训练SNR所对应的样本环境类型为当前环境类型；

上述步骤S1051～步骤S1053的执行过程的原理与上述步骤S1021～步骤S1025的原理相同，不同的地方仅在于一个是基于对检测语音的处理，一个是基于待识别语音的处理，因此，具体执行过程可参见上述步骤S1021～步骤S1025。

步骤S1054，对所述当前环境类型进行存储，若存储区内存在前一次的环境类型，则用所述当前环境类型进行替换，若不存在，则在所述存储预设时长后抛弃所述当前环境类型。

在步骤S1054中，在存储的过程中，如果当前存储区内存储有前一次的环境类型及其相关信息等旧的信息，则用当前确定的当前环境类型及其相关信息替换掉上述旧的信息；在存储的过程中，如果当前存储区内为空，不存在任何信息，则直接存储当前确定的当前环境类型及其相关信息，并在存储预设时长后抛弃当前所存储的信息。

该存储预设时长可根据不同的需要进行设定，通常其设定需要考虑其对下一次输入的语音识别是否会产生影响。如，当前所存储的环境类型将作为下一次输入语音识别的前一次的环境类型使用，其较为优选的方式则是针对不同的环境类型的对待识别语音的有效影响时长进行设定，其具体时长的长度可以与当前存储的环境类型对待识别语音的有效影响时长相同，也可以大于该时长，通常情况下不会小于该时长。

通过本发明实施例三中所公开的，在采样检测类型和前一次的环境类型的共同作用下，输入用于语音增强的语音修正指令，或者用于关闭降噪处理的语音修正指令，使语音引擎依据该语音修正指令对待识别语音进行相应的处理，从而保证在不损伤原始语音的情况下获取高的识别率，并由NTD利用待识别语音计算确定的当前环境类型对语音引擎输出的初始识别结果的置信度值，进行适应性的调整，保证最终输出的语音识别结果的具有高的可靠性，从而实现在各种环境下都能够适应性调整语音识别的目的，确保用户能够在各种环境中获取良好的用户体验。

针对上述本发明实施例公开且详细描述的语音识别方法，本发明实施例还公开了对应执行上述方法的语音识别设备和具有该语音识别设备的电子设备，下面给出具体的实施例进行详细说明。

实施例四

如图8所示，为本发明实施例四公开的一种语音识别设备的结构示意图，主要包括：处理器101，NTD102和语音引擎103。

处理器101，用于对输入的语音进行采样，获取检测语音和待识别语音同时输入NTD102和语音引擎103；及用于检测存储区，当所述存储区中存在可识别的前一次的环境类型时，依据所述NTD102输出的检测环境类型与所述前一次的环境类型的比较结果输出语音修正指令；及用于依据所述NTD102输出的所述当前环境类型调整所述语音引擎103输出的所述初始识别结果的置信度值后，输出最终识别结果；

其中，所述检测语音所包含的语音数据的长度小于所述待识别语音所包含的语音数据的长度，所述环境类型为安静环境或噪声环境中的一种；NTD102，用于将所述处理器101输出的所述检测语音和待识别语音分别与不同样本环境下的语音训练样本进行比对，选择与所述检测语音差值最小的所述语音训练样本对应的环境类型为检测环境类型，选择与所述待识别语音差值最小的所述语音训练样本所对应的环境类型为当前环境类型，存储所述当前环境类型至所述存储区内并在预设时长后抛弃所述当前环境类型；

语音引擎103，用于按照所述处理器101输出的所述语音修正指令控制对接收到的所述待识别语音进行修正，并输出初始识别结果。

需要说明的是，上述处理器101，在执行当存储区中存在可识别的前一次的环境类型时，依据所述NTD102输出的检测环境类型与所述前一次的环境类型进行判断，输出语音修正指令时，其具体执行过程为：

获取所述前一次的环境类型，及所述前一次的环境类型对语音训练样本的有效影响时长T；

计算所述检测语音输入时与前一次语音输入之间的时间差t，及所述前一次的环境类型对所述检测环境类型的影响值w(t)；

判断所述前一次的环境类型与所述检测环境类型之间的平衡关系；

当所述前一次的环境类型和所述检测环境类型均为噪声环境时，则输出用于语音增强的语音修正指令；

当所述前一次的环境类型和所述检测环境类型均为安静环境时，则输出用于关闭降噪处理的语音修正指令；

当所述前一次的环境类型为噪声环境，所述检测环境类型为安静环境，所述w(t)>=0.5时，则输出用于语音增强的语音修正指令；

当所述前一次的环境类型为噪声环境，所述检测环境类型为安静环境，所述w(t)<0.5时，则输出用于关闭降噪处理的语音修正指令；

当所述w(t)>T时，所述检测环境类型为安静环境则输出用于关闭降噪处理的语音修正指令；所述检测环境类型为噪声环境则输出用于语音增强的语音修正指令；

其中，w(t)为一个随时间t衰减的截断函数，所述w(t)的取值根据不同样本环境下的语音训练样本中的样本数据进行训练得到，t和T的取值为正整数。

上述NTD102在执行将所述处理器101输出的所述待识别语音与不同样本环境下的语音训练样本进行比对，选择与所述待识别语音差值最小的所述语音训练样本所对应的环境类型为当前环境类型，其具体执行过程为：

对获取到的所述待识别语音的语音帧部分和噪声帧部分进行分析，获取所述待识别语音的噪声水平，语音水平及信噪比SNR，并将所述待识别语音的噪声水平，语音水平及信噪比SNR分别与不同样本环境下的语音训练样本的噪声训练水平，语音训练水平及训练SNR进行比对，确定与所述噪声水平差值最小的噪声训练水平，与所述语音水平差值最小的语音训练水平，以及与所述SNR差值最小的训练SNR所对应的环境类型为当前环境类型，

在上述存储所述当前环境类型至所述存储区内并在预设时长后抛弃所述当前环境类型的过程中，如果当前存储区内存储有前一次的环境类型及其相关信息等旧的信息，则用当前确定的当前环境类型及其相关信息替换掉上述旧的信息；在存储的过程中，如果当前存储区内为空，不存在任何信息，则直接存储当前确定的当前环境类型及其相关信息，并在存储预设时长后抛弃当前所存储的信息。

上述本发明实施例四中公开的一种语音识别设备其所执行的方法，为上述本发明实施例一至本发明实施例三中公开的方法，因此，上述处理器101，NTD102和语音引擎103的具体执行过程可参见上述对应的方法，这里不再进行赘述。

另外，本发明实施例四还公开了一种具有上述语音识别设备的电子设备，如图9所示，该电子设备中至少包括与所述语音识别设备1相连的录音设备2，与所述录音设备2连接的麦克风3。

具体的，由录音设备2通过麦克风3对当前输入的语音进行收集并录音，并将所录的语音输入至语音识别设备1中的处理器内进行相关的处理。

需要说明的是，本发明实施例四所公开的具有语音识别设备的电子设备，可以为手机，PAD等移动终端，也可以为具有麦克风和录音设备的固定终端。

综上所述：

本发明实施例所公开的语音识别方法、语音识别设备和电子设备，首先，在当前输入的语音的检测环境类型和可识别的前一次的环境类型的共同作用下，给出用于指导语音引擎对待识别语音是否进行修正的语音修正指令，从而保证在高识别率下输出的初始识别结果的有效性；然后，再根据NTD的计算结果获取到的当前环境类型对该初始识别结果的置信度进行调整；最终，获取对当前输入的语音具有高识别率和识别效果的最终识别结果，从而保证能够在各种环境中自适应调整对语音识别，使用户能够获得良好的语音应用的体验。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别的方法，其特征在于，包括：

对输入的语音进行划分，获取检测语音和待识别语音；其中，所述检测语音所包含的语音数据的长度小于所述待识别语音所包含的语音数据的长度；

检测存储区，当所述存储区中存在可识别的前一次的环境类型时，依据所述检测环境类型与所述前一次的环境类型的比较结果输出语音修正指令，其中所述环境类型为安静环境或噪声环境中的一种；

2.根据权利要求1所述的方法，其特征在于，所述检测存储区，当所述存储区中未识别出前一次的环境类型时，包括：

获取预存储的初始环境类型，所述初始环境类型包括安静环境或噪声环境；

依据所述初始环境类型与所述检测环境类型进行判断，输出语音修正指令。

3.根据权利要求2所述的方法，其特征在于，所述依据所述初始环境类型与所述检测环境类型进行判断，输出语音修正指令，包括：

判断所述初始环境类型与所述检测环境类型是否相同；

若相同，当所述初始环境类型与所述检测环境类型均为噪声环境时，输出用于语音增强的语音修正指令；当所述初始环境类型与所述检测环境类型均为安静环境时，输出用于关闭降噪处理的语音修正指令；

若不相同时，当所述初始环境类型为噪声环境时，则输出用于语音增强的语音修正指令，当所述初始环境类型为安静环境时，输出用于关闭降噪处理的语音修正指令。

4.根据权利要求1所述的方法，其特征在于，当所述存储区中存在可识别的前一次的环境类型时，依据所述检测环境类型与所述前一次的环境类型的比较结果输出语音修正指令，包括：

获取所述前一次的环境类型，所述前一次的环境类型对输入语音的有效影响时长T；

计算所述检测语音输入时与前一次语音输入之间的时间差t，及所述前一次的环境类型对所述检测环境类型的影响值w(t)，其中，w(t)为一个随时间t衰减的截断函数，所述w(t)的取值根据不同样本环境下的语音训练样本中的样本数据进行训练得到，t和T的取值为正整数；

当所述前一次的环境类型为噪声环境，所述检测环境类型为安静环境，所述w(t)>=0.5，则输出用于语音增强的语音修正指令；

当所述w(t)>T时，所述检测环境类型为安静环境则输出用于关闭降噪处理的语音修正指令；所述检测环境类型为噪声环境则输出用于语音增强的语音修正指令。

5.根据权利要求1所述的方法，其特征在于，所述噪声类型检测引擎将接收到的所述待识别语音分别与不同样本环境下的语音训练样本进行比对，选择与所述待识别语音差值最小的所述语音训练样本所对应的样本环境为当前环境类型，包括：

所述噪声类型检测引擎对接收到的所述待识别语音的语音帧部分和噪声帧部分进行分析，获取所述待识别语音的噪声水平，语音水平及信噪比SNR；

将所述待识别语音的噪声水平，语音水平及信噪比SNR分别与不同样本环境下的语音训练样本的噪声训练水平，语音训练水平及训练SNR进行比对；

确定与所述噪声水平差值最小的噪声训练水平，与所述语音水平差值最小的语音训练水平，以及与所述SNR差值最小的训练SNR所对应的样本环境为当前环境类型。

6.根据权利要求1～5中任意一项所述的方法，其特征在于，包括：

当所述当前环境类型为安静环境时，所述存储预设时长长于当所述当前环境类型为噪声环境时的时长。

7.根据权利要求6所述的方法，其特征在于，所述噪声环境包括：车载小噪声环境，车载大噪声环境，普通道路路边环境，繁忙道路路边环境和嘈杂环境。

8.一种语音识别设备，其特征在于，包括：

处理器，用于对输入的语音进行采样，获取检测语音和待识别语音同时输入噪声类型检测引擎和语音引擎；及用于检测存储区，当所述存储区中存在可识别的前一次的环境类型时，依据所述噪声类型检测引擎输出的检测环境类型与所述前一次的环境类型的比较结果输出语音修正指令；及用于依据所述噪声类型检测引擎输出的所述当前环境类型调整所述语音引擎输出的所述初始识别结果的置信度值后，输出最终识别结果；其中，所述检测语音所包含的语音数据的长度小于所述待识别语音所包含的语音数据的长度，所述环境类型为安静环境或噪声环境中的一种；

所述噪声类型检测引擎，用于将所述处理器输出的所述检测语音和待识别语音分别与不同样本环境下的语音训练样本进行比对，选择与所述检测语音差值最小的所述语音训练样本对应的样本环境为检测环境类型，选择与所述待识别语音差值最小的所述语音训练样本所对应的样本环境为当前环境类型，存储所述当前环境类型至所述存储区内并在预设时长后抛弃所述当前环境类型；

9.根据权利要求8所述的设备，其特征在于，所述处理器，用于检测存储区，当所述存储区中存在可识别的前一次的环境类型时，依据所述噪声类型检测引擎输出的检测环境类型与所述前一次的环境类型进行比较输出语音修正指令，包括：

所述处理器，用于获取所述前一次的环境类型，及所述前一次的环境类型对输入语音的有效影响时长T；计算所述检测语音输入时与前一次语音输入之间的时间差t，及所述前一次的环境类型对所述检测环境类型的影响值w(t)；判断所述前一次的环境类型与所述检测环境类型之间的平衡关系；当所述前一次的环境类型和所述检测环境类型均为噪声环境时，则输出用于语音增强的语音修正指令；当所述前一次的环境类型和所述检测环境类型均为安静环境时，则输出用于关闭降噪处理的语音修正指令；当所述前一次的环境类型为噪声环境，所述检测环境类型为安静环境，所述w(t)>=0.5时，则输出用于语音增强的语音修正指令；当所述前一次的环境类型为噪声环境，所述检测环境类型为安静环境，所述w(t)<0.5时，则输出用于关闭降噪处理的语音修正指令；当所述w(t)>T时，所述检测环境类型为安静环境则输出用于关闭降噪处理的语音修正指令；所述检测环境类型为噪声环境则输出用于语音增强的语音修正指令；

10.根据权利要求8所述的设备，其特征在于，所述噪声类型检测引擎，用于将所述处理器输出的所述待识别语音与不同样本环境下的语音训练样本进行比对，选择与所述待识别语音差值最小的所述语音训练样本所对应的环境类型为当前环境类型，包括：

所述噪声类型检测引擎，用于对接收到的所述待识别语音的语音帧部分和噪声帧部分进行分析，获取所述待识别语音的噪声水平，语音水平及信噪比SNR，并将所述待识别语音的噪声水平，语音水平及信噪比SNR分别与不同样本环境下的语音训练样本的噪声训练水平，语音训练水平及训练SNR进行比对，确定与所述噪声水平差值最小的噪声训练水平，与所述语音水平差值最小的语音训练水平，以及与所述SNR差值最小的训练SNR所对应的样本环境为当前环境类型。

11.一种电子设备，其特征在于，包括权利要求8～10中任意一项所述的语音识别设备，与所述语音识别设备相连的录音设备，与所述录音设备连接的麦克风。