CN106875943A

CN106875943A - 一种用于大数据分析的语音识别系统

Info

Publication number: CN106875943A
Application number: CN201710054305.4A
Authority: CN
Inventors: 刘春明
Original assignee: Shanghai Cloud Letter To Mdt Infotech Ltd
Current assignee: Shanghai Cloud Letter To Mdt Infotech Ltd
Priority date: 2017-01-22
Filing date: 2017-01-22
Publication date: 2017-06-20

Abstract

针对大数据分析中语音识别的识别率不高的问题，本发明公开的一种用于大数据分析的语音识别系统，包括：语音信息分类模块，原始语音处理模块，声学特征识别提取模块，基础元数据集，声学特征匹配模块，识别纠错模块，结果输出模块。本发明提高了计算机对语音识别各阶段数据的清洗纠错能力，使对语音识别的处理结果更加准确。

Description

一种用于大数据分析的语音识别系统

技术领域

本发明涉及语音识别技术领域，特别涉及一种用于大数据分析的语音识别系统。

背景技术

在近年来，语音识别技术取得显著进步，已经从实验室走向市场。在实际应用中，例如智能助理Siri，通过识别用户的语音输入信息，自动完成和用户的交互。

目前，进行语音识别时，环境噪声对语音识别的识别率影响很大，同时，对原始语音信息的处理方法也会对识别结果有一定的影响，除此之外，不同的人还有发音习惯上的差别，使用单一声学特征进行识别会是语音识别的识别率受到明显影响。

同时，不同的方言有相似的发音特征和发音习惯，发音者的情绪也会影响语速和语句长短，这都会影响声学特征的识别精度。

由于语音识别的识别率不够高，导致使用语音进行大数据分析面临较大的困难。

发明内容

为解决以上问题，本发明提供一种用于大数据分析的语音识别系统，用以解决语音识别的识别率不高的问题，包括：

语音信息分类模块，用于对原始语音信息进行分类，得到分类后的原始语音信息；原始语音处理模块，用于对分类后的原始语音信息进行语音增强和滤波，得到处理后的语音信息；声学特征识别提取模块，用于对处理后的语音信息中的声学特征进行识别提取；基础元数据集，用于存储针对不同语音信息分类的声学特征及与其对应的文本信息；声学特征匹配模块，用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配，识别出第一语音识别结果；识别纠错模块，用于对识别出的第一语音识别结果进行清洗纠错，得到第二语音识别结果；结果输出模块，用于将第二语音识别结果作为语音识别结果进行输出。

优选的，所述语音信息分类模块，用于根据语音特征对对原始语音信息进行分类，所述语音特征包括：语音的时长、语音包含的音素数量。

优选的，所述原始语音处理模块，包括用于对分类后的原始语音信息进行语音增强，得到语音增强后的原始语音信息，所用增强方法为减谱法，所用减谱公式为：

其中，P_S(ω)为输出语音信息的功率谱，P_y(ω)为原始语音信息的功率谱，P_n1(ω)为发声前的寂静段的功率谱，P_n2(ω)为发声结束后的寂静段的功率谱，t₁为发声前的寂静段结束时的时间点，t₂为发声结束后的寂静段开始时的时间点，t为当前所要处理的语音信息的时间点。

优选的，所述原始语音处理模块，包括用于对语音增强后的原始语音信息进行滤波，所用滤波方法为通过带通滤波器进行滤波。

优选的，所述声学特征包括：

Mel频段倒谱系数和过零峰值幅度。

优选的，所述声学特征识别提取模块，用于对处理后的语音信息中的声学特征进行识别提取，包括，对处理后的语音信息进行预加重、分帧和加窗，加窗所用的窗函数为：

其中，w(n)为窗函数的值，N为帧长，n为采样点；

对声学特征进行识别提取使用基于Levenberg-Marquardt算法的神经网络进行识别提取。

优选的，所述基础元数据集，所用存储方法为，先存储一类语音信息分类的声学特征及与其对应的文本信息，作为参考数据，对于其他语音信息分类的声学特征，根据声学特征出现的概率使用不同的存储方式，出现概率高的声学特征进行完整存储，出现概率低的声学特征仅存储其与参考数据的不同部分。

优选的，所述声学特征匹配模块，用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配，识别出第一语音识别结果，所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。

优选的，所述识别纠错模块，用于通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果，包括：结合语义模型对第一语音识别结果进行清洗纠错。

本发明的一些有益效果可以包括：

本发明的提供的系统，可以显著降低环境噪声对语音识别的识别率的影响，通过对语音的分类还能改善方言和语速对语音识别的识别率的影响，本发明通过优化对原始语音信息的处理和使用多种声学特征，使语音识别的识别率有较大提高，再结合语言模型的使用，大大提高了语音识别的识别率。本发明提高了计算机对语音识别的识别能力，尤其适用于语音类型较丰富的大数据分析，使对语音识别的处理结果更加准确。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种用于大数据分析的语音识别系统的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明实施例中一种用于大数据分析的语音识别系统的示意图，如图1所示，包括：

在一个实施例中，语音信息分类模块，用于根据语音特征对对原始语音信息进行分类，其中语音特征包括：语音的时长、语音包含的音素数量。通过语音包含的音素数量与语音的时长之比判断语速，进而通过语速进行分类。在另一个实施例中，语音信息分类模块所用的语音特征包括基频包络和共振峰模式，通过对基频包络和共振峰模式的识别将语音分入普通话类或不同的方言分类。通过语音信息分类模块的处理，能够通过对语音的分类来改善方言和语速对语音识别的识别率的影响。

在一个实施例中，原始语音处理模块，包括用于对分类后的原始语音信息进行语音增强，得到语音增强后的原始语音信息，所用增强方法为减谱法，所用减谱公式为：

其中，P_S(ω)为输出语音信息的功率谱，P_y(ω)为原始语音信息的功率谱，P_n1(ω)为发声前的“寂静段”的功率谱，“寂静段”为原始语音信息当中被识别为没有发音的时间段，可通过现有技术对其识别，P_n2(ω)为发声结束后的“寂静段”的功率谱，t₁为发声前的“寂静段”结束时的时间点，t₂为发声结束后的“寂静段”开始时的时间点，t为当前所要处理的语音信息的时间点(其值为当前所要处理的语音信息的开始的时间点和结束的时间点的算术平均值)。在另一个实施例中，减谱公式还可以表示为：

其中，α_i为值在0到1之间的权重系数，且∑_iα_i＝1，P_ni(ω)为某一“寂静段”的功率谱。通过考虑2个或更多的“寂静段”的功率谱，同时考虑各“寂静段”与当前所要处理的语音信息的时间点的靠近关系，可以更准确的估计当前所要处理的语音信息中包含的环境噪声。

在一个实施例中，原始语音处理模块，包括用于对语音增强后的原始语音信息进行滤波，所用滤波方法为通过带通滤波器进行滤波。包括对语音增强后的原始语音信息进行滤波，所用滤波方法为通过带通滤波器进行滤波。该带通滤波器的上、下截至频率分别是4500Hz和60Hz，采样频率是10kHz。通过这种滤波器滤波，即可以防止混叠干扰，又能抑制50Hz的电源工频干扰，使后续处理的效果更准确。

在一个实施例中，所述声学特征包括：Mel频段倒谱系数(MFCC)和过零峰值幅度(ZCPA)，对于每个语音信息分类都存有对应的声学特征。

在一个实施例中，采用的声学特征LPCC、DPSCC、MFCC和ZCPA，在对某一音素进行识别时，首先将语音分配到一个语音信息分类中，然后分别使用与该语音信息分类相匹配的LPCC、DPSCC、MFCC和ZCPA作为声学特征进行识别，并根据预设给LPCC、DPSCC、MFCC和ZCPA的权重系数，对某一音素的识别结果进行加权判断，得到该音素的识别结果。通过将语音进行分类，并使用与相应语音信息分类对应的多个声学特征，可以使得进行语音识别的时候，既可以减少方言对识别率的影响，又有较好的抗环境噪声能力，还有修正使用单一声学特征进行识别时造成的识别错误的能力，能够提高语音识别的精度。

在一个实施例中，声学特征识别提取模块，用于对处理后的语音信息中的声学特征进行识别提取，包括，对处理后的语音信息进行预加重、分帧和加窗，加窗所用的窗函数为：

其中，w(n)为窗函数的值，N为帧长，n为采样点。

对声学特征进行识别提取使用基于Levenberg-Marquardt算法的神经网络进行识别提取。在使用基于Levenberg-Marquardt算法的神经网络时，根据输入声学特征和输出文本的形式确定输入层和输出层的节点数，再用黄金分割优选法确定隐含层的节点数，再使用标记的数据集对该神经网络进行训练和优化。

该窗函数与标准MFCC提取过程中使用的汉明(Hamming)窗相比，能够在保持窗函数主瓣宽度基本不变的情况下，更有效的抑制旁瓣，可以有效的减小对原始语音信息处理过程中引入的误差，使对MFCC等声学特征的提取更加准确。使用基于Levenberg-Marquardt算法的神经网络较常用的BP网络收敛更快，且稳定性足够。

在一个实施例中，基础元数据集，所用存储方法为，先存储普通话分类的声学特征及与其对应的文本信息，作为参考数据，对于其他方言分类的声学特征，根据声学特征出现的概率使用不同的存储方式，出现概率高于预置阈值1/5000的声学特征进行完整存储，出现概率不高于1/5000的声学特征仅存储其与普通话的数据中的不同部分。通过这种存储方法，既可以减少所需要的存储空间，还可以减少音速与声学特征匹配的时间，提高语音识别的速度。

在一个实施例中，基础元数据集，由神经网络对标记的训练集进行增强学习获取。使用通过这种方式获取的基础元数据集中的声学特征进行语音识别有较好的抗干扰能力。

在一个实施例中，声学特征匹配模块，用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配，识别出第一语音识别结果，所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。在一个实施例中，通过HMM-GMM模型对提取的声学特征进行识别，所用方法为：

其中，为所识别出的语句；W为表示一个语句；P(W)表示语句W出现的概率；λ_i为预先设置的不同音素识别方法的权重系数，其值大于0；P_i(X|W)为使用音素识别方法i时，由语句W识别为语音X的概率。不同的音素识别方法，可以是使用单一声学特征进行识别，也可以是使用多个声学特征的组合进行识别。使用多个声学特征的组合进行识别的一个例子是，使用MFCC和ZCPA作为声学特征进行识别，两种声学特征的权重分别为0.4和0.6。通过HMM-GMM模型或RNN-GMM模型进行识别，可以方便的组合多种音素识别方法，使语音识别结果的可靠性更高。

在一个实施例中，识别纠错模块，用于通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果，包括：结合语义模型对第一语音识别结果进行清洗纠错。在得到第一识别结果后，通过预设的语义模型对识别出的结果进行检查，当第一语音识别结果满足预设的语义模型时，将第一语音识别结果确认为第二语音识别结果；当第一语音识别结果不满足预设的语义模型时，根据预设的纠错模板对第一语音识别结果进行纠错，并将纠错过的结果确定为第二语音识别结果。通过语义模型对(识别出的)文本信息进行纠错可通过现有技术实现。通过使用语义模型对语音识别的结果进行纠错，可以使语音识别结果的可靠性进一步提高，使对语音识别的处理结果更加准确。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于大数据分析的语音识别系统，其特征在于，包括：

语音信息分类模块，用于对原始语音信息进行分类，得到分类后的原始语音信息；

原始语音处理模块，用于对分类后的原始语音信息进行语音增强和滤波，得到处理后的语音信息；

声学特征识别提取模块，用于对处理后的语音信息中的声学特征进行识别提取；

基础元数据集，用于存储针对不同语音信息分类的声学特征及与其对应的文本信息；

声学特征匹配模块，用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配，识别出第一语音识别结果；

识别纠错模块，用于对识别出的第一语音识别结果进行清洗纠错，得到第二语音识别结果；

结果输出模块，用于将第二语音识别结果作为语音识别结果进行输出。

2.根据权利要求1所述的系统，其特征在于，包括：

所述语音信息分类模块，用于根据语音特征对对原始语音信息进行分类，所述语音特征包括：语音的时长、语音包含的音素数量。

3.根据权利要求2所述的系统，其特征在于，包括：

所述原始语音处理模块，包括用于对分类后的原始语音信息进行语音增强，得到语音增强后的原始语音信息，所用增强方法为减谱法，所用减谱公式为：

P_{S} (ω) = m a x {0, P_{y} (ω) - \sqrt{\frac{t_{2} - t}{t_{2} - t_{1}} {(P_{n 1} (ω))}^{2} + \frac{t - t_{1}}{t_{2} - t_{1}} {(P_{n 2} (ω))}^{2}}}

4.根据权利要求3所述的系统，其特征在于，包括：

所述原始语音处理模块，包括用于对语音增强后的原始语音信息进行滤波，所用滤波方法为通过带通滤波器进行滤波。

5.根据权利要求1所述的系统，其特征在于，包括：

所述声学特征包括：

Mel频段倒谱系数和过零峰值幅度。

6.根据权利要求1所述的系统，其特征在于，包括：

所述声学特征识别提取模块，用于对处理后的语音信息中的声学特征进行识别提取，包括，对处理后的语音信息进行预加重、分帧和加窗，加窗所用的窗函数为：

w (n) = \{\begin{matrix} 0.47 - 0.42 c o s (\frac{2 π (n - 1)}{N - 1}) + 0.11 s i n (\frac{π (n - 1)}{N - 1}), & 1 \leq n \leq N \\ 0 & n = e l s e \end{matrix}

其中，w(n)为窗函数的值，N为帧长，n为采样点；

7.根据权利要求1所述的系统，其特征在于，包括：

所述基础元数据集，所用存储方法为，先存储一类语音信息分类的声学特征及与其对应的文本信息，作为参考数据，对于其他语音信息分类的声学特征，根据声学特征出现的概率使用不同的存储方式，出现概率高的声学特征进行完整存储，出现概率低的声学特征仅存储其与参考数据的不同部分。

8.根据权利要求1所述的系统，其特征在于，包括：

所述声学特征匹配模块，用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配，识别出第一语音识别结果，所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。

9.根据权利要求1所述的系统，其特征在于，包括：

所述识别纠错模块，用于通过语言模型对第一语音识别结果进行清洗纠错，得到第二语音识别结果，包括：结合语义模型对第一语音识别结果进行清洗纠错。