CN106875935A

CN106875935A - 语音智能识别清洗方法

Info

Publication number: CN106875935A
Application number: CN201710054317.7A
Authority: CN
Inventors: 刘春明
Original assignee: Shanghai Cloud Letter To Mdt Infotech Ltd
Current assignee: Shanghai Cloud Letter To Mdt Infotech Ltd
Priority date: 2017-01-22
Filing date: 2017-01-22
Publication date: 2017-06-20

Abstract

本发明公开的语音智能识别清洗方法，包括步骤：获取用户输入的原始语音信息；利用第一语音处理方法对原始语音信息进行语音增强和滤波，得到处理后的语音信息；利用第二语音处理方法对处理后的语音信息中的声学特征进行识别提取；根据提取的声学特征，识别出第一语音识别结果；通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果；将第二语音识别结果作为语音识别结果进行输出。本发明提高了计算机对语音识别各阶段数据的清洗纠错能力，使对语音识别的处理结果更加准确。

Description

语音智能识别清洗方法

技术领域

本发明涉及语音识别技术领域，特别涉及语音智能识别清洗方法。

背景技术

在近年来，语音识别技术取得显著进步，已经从实验室走向市场。在实际应用中，例如智能助理Siri，通过识别用户的语音输入信息，自动完成和用户的交互。

目前，进行语音识别时，环境噪声对语音识别的识别率影响很大，同时，对原始语音信息的处理方法也会对识别结果有一定的影响，除此之外，不同的人还有发音习惯上的差别，使用单一声学特征进行识别会是语音识别的识别率受到明显影响。

由于语音识别的识别率不够高，导致使用语音进行大数据分析面临较大的困难。

发明内容

为解决以上问题，本发明提供一种语音智能识别清洗方法，用以解决语音识别的识别率不高的问题，包括步骤：

获取用户输入的原始语音信息；利用第一语音处理方法对原始语音信息进行语音增强和滤波，得到处理后的语音信息；利用第二语音处理方法对处理后的语音信息中的声学特征进行识别提取；根据提取的声学特征，识别出第一语音识别结果；通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果；将第二语音识别结果作为语音识别结果进行输出。

优选的，所述第一语音处理方法，包括对原始语音信息进行语音增强，所用增强方法为减谱法，所用减谱公式为：

P_S(ω)＝max{0,P_y(ω)-[αP_n1(ω)+(1-α)P_n2(ω)]}

其中，P_S(ω)为输出语音信息的功率谱，P_y(ω)为原始语音信息的功率谱，P_n1(ω)为发声前的“寂静段”的功率谱，P_n2(ω)为发声结束后的“寂静段”的功率谱，α为值在0到1之间的权重系数，t₁为发声前的“寂静段”结束时的时间点，t₂为发声结束后的“寂静段”开始时的时间点，t为当前所要处理的语音信息的时间点。

优选的，所述第一语音处理方法，包括对语音增强后的原始语音信息进行滤波，所用滤波方法为通过带通滤波器进行滤波。

优选的，所述声学特征包括：Mel频段倒谱系数(MFCC)和过零峰值幅度(ZCPA)。

优选的，所述利用第二语音处理方法对处理后的语音信息中的声学特征进行识别提取，包括，对处理后的语音信息进行预加重、分帧和加窗，加窗所用的窗函数为：

其中，w(n)为窗函数的值，N为帧长，n为采样点。

优选的，所述根据提取的声学特征，识别出第一语音识别结果，所用方法为通过HMM-GMM模型或RNN-GMM模型进行识别。

优选的，所述通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果，包括：结合语义模型对第一语音识别结果进行清洗纠错。

本发明的一些有益效果可以包括：

通过本发明的方法，可以显著降低环境噪声对语音识别的识别率的影响，本发明对通过优化对原始语音信息的处理和使用多种声学特征，使语音识别的识别率有较大提高，再结合语言模型的使用，大大提高了语音识别的识别率。本发明提高了计算机对语音识别各阶段数据的清洗纠错能力，使对语音识别的处理结果更加准确。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种语音智能识别清洗方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明实施例中一种语音智能识别清洗方法的流程图，如图1所示，包括步骤：

步骤S101、获取用户输入的原始语音信息；

步骤S102、利用第一语音处理方法对原始语音信息进行语音增强和滤波，得到处理后的语音信息；

步骤S103、利用第二语音处理方法对处理后的语音信息中的声学特征进行识别提取；

步骤S104、根据提取的声学特征，识别出第一语音识别结果；

步骤S105、通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果；

步骤S106、将第二语音识别结果作为语音识别结果进行输出。

在一个实施例中，第一语音处理方法，包括对原始语音信息进行语音增强，所用增强方法为减谱法，所用减谱公式为：

P_S(ω)＝max{0,P_y(ω)-[αP_n1(ω)+(1-α)P_n2(ω)]}

其中，P_S(ω)为输出语音信息的功率谱，P_y(ω)为原始语音信息的功率谱，P_n1(ω)为发声前的“寂静段”的功率谱，“寂静段”为原始语音信息当中被识别为没有发音的时间段，可通过现有技术对其识别，P_n2(ω)为发声结束后的“寂静段”的功率谱，α为值在0到1之间的权重系数，t₁为发声前的“寂静段”结束时的时间点，t₂为发声结束后的“寂静段”开始时的时间点，t为当前所要处理的语音信息的时间点(其值为当前所要处理的语音信息的开始的时间点和结束的时间点的算术平均值)。在另一个实施例中，减谱公式还可以表示为：

其中，α_i为值在0到1之间的权重系数，且∑_iα_i＝1，P_ni(ω)为某一“寂静段”的功率谱。通过考虑2个或更多的“寂静段”的功率谱，同时考虑各“寂静段”与当前所要处理的语音信息的时间点的靠近关系，可以更准确的估计当前所要处理的语音信息中包含的环境噪声。

在一个实施例中，第一语音处理方法，包括对语音增强后的原始语音信息进行滤波，所用滤波方法为通过带通滤波器进行滤波。该带通滤波器的上、下截至频率分别是4500Hz和60Hz，采样频率是10kHz。通过这种滤波器滤波，即可以防止混叠干扰，又能抑制50Hz的电源工频干扰，使后续处理的效果更准确。

在一个实施例中，所述声学特征包括：Mel频段倒谱系数(MFCC)和过零峰值幅度(ZCPA)。

在一个实施例中，采用的声学特征LPCC、MFCC和ZCPA，在对某一音素进行识别时，分别使用LPCC、MFCC和ZCPA作为声学特征进行识别，并根据预设给LPCC、MFCC和ZCPA的权重系数，对某一音素的识别结果进行加权判断，得到该音素的识别结果。通过使用多个声学特征，可以使得进行语音识别的时候，抗环境噪声能力更好，有修正使用单一声学特征进行识别时造成的识别错误的能力，能够提高语音识别的精度。

在一个实施例中，利用第二语音处理方法对处理后的语音信息中的声学特征进行识别提取，包括，对处理后的语音信息进行预加重、分帧和加窗，加窗所用的窗函数为：

其中，w(n)为窗函数的值，N为帧长，n为采样点。该窗函数与标准MF CC提取过程中使用的汉明(Hamming)窗相比，能够在保持窗函数主瓣宽度基本不变的情况下，更有效的抑制旁瓣，可以有效的减小对原始语音信息处理过程中引入的误差，使对MFCC等声学特征的提取更加准确。

在一个实施例中，根据提取的声学特征，识别出第一语音识别结果，所用方法为通过HMM-GMM模型或RNN-GMM模型进行识别。

在一个实施例中，通过HMM-GMM模型对提取的声学特征进行识别，所用方法为：

其中，为所识别出的语句；W为表示一个语句；P(W)表示语句W出现的概率；λ_i为预先设置的不同音素识别方法的权重系数，其值大于0；P_i(X|W)为使用音素识别方法i时，由语句W识别为语音X的概率。不同的音素识别方法，可以是使用单一声学特征进行识别，也可以是使用多个声学特征的组合进行识别。使用多个声学特征的组合进行识别的一个例子是，使用MFCC和Z CPA作为声学特征进行识别，两种声学特征的权重分别为0.4和0.6。

通过HMM-GMM模型或RNN-GMM模型进行识别，可以方便的组合多种音素识别方法，使语音识别结果的可靠性更高。

在一个实施例中，通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果，包括：结合语义模型对第一语音识别结果进行清洗纠错。在得到第一识别结果后，通过预设的语义模型对识别出的结果进行检查，当第一语音识别结果满足预设的语义模型时，将第一语音识别结果确认为第二语音识别结果；当第一语音识别结果不满足预设的语义模型时，根据预设的纠错模板对第一语音识别结果进行纠错，并将纠错过的结果确定为第二语音识别结果。通过语义模型对(识别出的)文本信息进行纠错可通过现有技术实现。通过使用语义模型对语音识别的结果进行纠错，可以使语音识别结果的可靠性进一步提高，使对语音识别的处理结果更加准确。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音智能识别清洗方法，其特征在于，包括如下步骤：

获取用户输入的原始语音信息；

利用第一语音处理方法对原始语音信息进行语音增强和滤波，得到处理后的语音信息；

利用第二语音处理方法对处理后的语音信息中的声学特征进行识别提取；

根据提取的声学特征，识别出第一语音识别结果；

通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果；

将第二语音识别结果作为语音识别结果进行输出。

2.根据权利要求1所述的方法，其特征在于，包括：

所述第一语音处理方法，包括对原始语音信息进行语音增强，所用增强方法为减谱法，所用减谱公式为：

P_S(ω)＝max{0,P_y(ω)-[αP_n1(ω)+(1-α)P_n2(ω)]}

α = \frac{t_{2} - t}{t_{2} - t_{1}}

其中，P_S(ω)为输出语音信息的功率谱，P_y(ω)为原始语音信息的功率谱，P_n1(ω)为发声前的寂静段的功率谱，P_n2(ω)为发声结束后的寂静段的功率谱，α为值在0到1之间的权重系数，t₁为发声前的寂静段结束时的时间点，t₂为发声结束后的寂静段开始时的时间点，t为当前所要处理的语音信息的时间点。

3.根据权利要求1所述的方法，其特征在于，包括：

所述第一语音处理方法，包括对语音增强后的原始语音信息进行滤波，所用滤波方法为通过带通滤波器进行滤波。

4.根据权利要求1所述的方法，其特征在于，包括：

所述声学特征包括：

Mel频段倒谱系数和过零峰值幅度。

5.根据权利要求1所述的方法，其特征在于，包括：

所述利用第二语音处理方法对处理后的语音信息中的声学特征进行识别提取，包括，对处理后的语音信息进行预加重、分帧和加窗，加窗所用的窗函数为：

w (n) = \{\begin{matrix} 0.41 - 0.37 c o s [\frac{2 π (n - 1)}{N - 1}] + 0.22 s i n [\frac{π (n - 1)}{N - 1}], & 1 \leq n \leq \frac{N}{2} \\ 0.55 - 0.45 c o s [\frac{2 π (n - 1)}{N - 1}], & \frac{N + 1}{2} \leq n \leq N \\ 0 & n = e l s e \end{matrix}

其中，w(n)为窗函数的值，N为帧长，n为采样点。

6.根据权利要求1所述的方法，其特征在于，包括：

所述根据提取的声学特征，识别出第一语音识别结果，所用方法为通过HMM-GMM模型或RNN-GMM模型进行识别。

7.根据权利要求1所述的方法，其特征在于，包括：

所述通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果，包括：结合语义模型对第一语音识别结果进行清洗纠错。