CN107093422A

CN107093422A - 一种语音识别方法和语音识别系统

Info

Publication number: CN107093422A
Application number: CN201710015475.1A
Authority: CN
Inventors: 陈桂林
Original assignee: Shanghai Excellent Technology Co Ltd
Current assignee: Shanghai Excellent Technology Co Ltd
Priority date: 2017-01-10
Filing date: 2017-01-10
Publication date: 2017-08-25
Anticipated expiration: 2037-01-10
Also published as: CN107093422B

Abstract

本发明提供了一种语音识别方法和语音识别系统，其中，所述语音识别方法包括一下步骤：对获取的语音信号进行预处理；从所述语音信号中提取特征参数；采用语言模型和基于长短时记忆模型结构建立得到的声学模型对所述语音信号进行自动识别；对自动识别得到的语音信号进行后处理。根据本发明，采用长短时记忆模型结构可以表征更长时间内的基音曲线，提高建模精度以及语音识别精度。

Description

一种语音识别方法和语音识别系统

技术领域

本发明涉及语音识别领域，尤其涉及一种语音识别方法和语音识别系统。

背景技术

语音识别，也称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类语音转换为计算机可读的文字或指令,是模式识别的一个重要分支。一个完整的语音识别系统一般包括语音信号预处理、特征提取、模型训练、声学模型、语言模型以及自然语言后处理等几大模块。

其中,声学模型的主要作用是用来辨识用户发什么样的音。对于一门具体的语言来说，需要采集该门语言数量众多的发音人的数据来进行训练，而且这些数据需要将对应的文字标记出来。近30年来，语音识别的声学模型建模方法有隐马尔科夫模型(HiddenMarkov Model,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)以及目前占主流地位的深度神经网络模型(DNN/CNN/RNN)等。

目前语音识别技术路线为语言相关、说话人无关的统计模式识别技术，不同语言之间由于音系、音段和韵律表现方面的差异，声学模型的建模方法可以略有差异。西方语言(如英语、法语和德语等等) 绝大多数都是不带调的语言，建立声学模型时，可忽略基音信息，对最终系统的识别精度几无影响。而中文普通话是一种带调的语言，普通话一般可分为5个声调：第一声(阴平)、第二声(阳平)、第三声(上声)、第四声(去声)、第五声(轻声)，这对于普通话的辨音识义非常重要。普通话里边存在大量的拼音相同但音调不同的词汇，如“睡觉”和“水饺”等等。这就需要我们在设计和实现普通话语音识别系统时，有必要显式考虑音调的因素。在模型训练阶段，将基音信息充分考虑进去。并在识别解码阶段，正确运用相关模型辅助判决。

在语音信号分析过程中，语音信号中往往有清音(unvoiced)段和浊音(voiced)段。一般认为清音段没有基音(或者说基音)，浊音段有基音(或者说基音)。这种特性对基音建模有直接影响。

基音信息在普通话的声调辨识中起着重要作用。

其中,在声学模型的各种模型中，比如：将基音信息作为一维特征与谱参数的多维特征组成联合特征，进行模型训练。在HMM/GMM 中，以一个流(stream)进行处理。这种方法的问题是：由于清音段没有基音，只能通过插值来补全，与实际情况偏差很大，而且逐帧求出的基音值很难准确，最终的效果并不理想。

考虑到清音段无基音和浊音段有基音这种特点，利用 MSD(Multi-SpaceDistribution)模型对基音进行建模。这种方法对处理清音和浊音的二元特性比较有效，但仍不能充分反映相邻帧之间基音上的相关性。

再比如：利用深度神经网络(Deep Neural Network)将基音和谱参数一起建模,但特征不具有归一化，谱参数和基音在解码时不分离，易引入额外的误差，导致识别精度降低。

为此，亟待提供一种识别精度高的建模方式。

发明内容

本发明的目的是提供一种在声学模型中建模精度高、识别精度高的语音识别方法和语音识别系统。

根据本发明的一个方面，提供一种语音识别方法，其中，所述语音识别方法包括以下步骤：

对获取的语音信号进行预处理；

从所述语音信号中提取特征参数；

采用语言模型和基于长短时记忆模型结构建立得到的声学模型对所述语音信号进行自动识别；

对自动识别得到的语音信号进行后处理。

其中，声学模型的建立包括特征选取步骤，所述特征选取步骤包括：

将连续若干帧的基音组合形成一特征向量；

对所述特征向量进行归整化处理；

将归整化处理后的特征向量作为长短时记忆模型结构的输入参数。实现特征的归一化，提高识别精度。

其中，在对所述特征向量进行归整化处理的过程中，所述归整化处理在音节层面进行，具体过程包括：

根据同一个音节内部的基音曲线，算其平均值，

各帧基音对平均值取预定比值。以建立更为普适的精准基音模型。

其中，所述预定比值采用公式：

其中，F_k表示第k帧的基音，F_mean表示音节的平均基音，其中，表示第k帧基音相对于平均基音的比值，k为自然数。

其中，声学模型的建立包括：基于长短时记忆模型结构分别建立相互独立的谱参数声学模型和基音声学模型。

在声学模型的建立过程中，谱参数声学模型和基音声学模型相互独立建模，识别的过程中，谱参数声学模型和基音声学模型独立计算似然度和进行搜索，不会影响谱参数模型识别过程。相比采用谱参数和基音参数混在一起计算似然度的方案更灵活，并能避免音调不准导致识别率降低的问题。

其中，在解码识别过程中，先利用谱参数声学模型进行解码识别，再利用基音声学模型进行解码识别。以提高识别精准度。

其中，在基音声学模型解码识别过程中，对拼音相同、但调型不同的词序列进行重新打分以选取更为精准的词序列。以提高识别精准度。

其中，在利用谱参数声学模型进行解码识别中，判断谱参数声学模型的识别结果中是否包括相同的拼音，若不包含相同的拼音，则解码识别过程结束。

其中，在利用谱参数声学模型进行解码识别中，判断谱参数声学模型的识别结果中是否包括相同的拼音，若包含相同的拼音，则利用基音声学模型进行解码识别。以提高识别精准度。

根据本发明的另一个方面，本发明还提供了一种语音识别系统，所述语音识别系统包括：

预处理单元，用于对语音信号进行预处理；

提取单元，用于从所述语音信号中提取特征参数；

识别器，用于采用语言模型和基于长短时记忆模型结构建立得到的声学模型对所述语音信号进行自动识别；

后处理单元，用于对自动识别得到的结果进行后处理。

与现有技术相比，本发明具有以下优点：采用长短时记忆模型结构可以表征更长时间内的基音曲线，提高建模精度以及语音识别精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一个实施例的语音识别方法的流程示意图；

图2为本发明一个实施例的语音识别系统的框图；

图3为本发明一个实施例的声学模型的总体模型结构示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算 (Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和 /或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

应当理解的是，当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。与此相对，当一个单元被称为“直接连接”或“直接耦合”到另一单元时，则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”，“与...邻近”相比于“与...直接邻近”等等)。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

下面结合附图对本发明作进一步详细描述。

图1为本发明一个实施例的语音识别方法的流程示意图。图2为本发明一个实施例的语音识别系统的示意框图。所述语音识别方法包括由图2中的语音识别系统执行的步骤S101、步骤S102、步骤S103 和步骤S104。

其中，本实施例的语音识别方法主要通过网络设备和用户设备来实现；所述用户设备包括但不限于PC机、平板电脑、智能手机、PDA 等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。而本实施例的用户设备依手机为例进行说明，以及网络设备依服务器为例进行说明。

需要说明的是，所述用户设备采用手机仅为举例，其他现有的或今后可能出现的网络设备和用户设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

根据本实施例的语音识别方法包括步骤S101、步骤S102、步骤 S103和步骤S104。

在步骤S101中，对获取的语音信号进行预处理。具体的，可对语音信息进行降噪、增强以处理原始语音信号，部分消除噪声和不同说话人带来的影响，使处理后的语音信号更能反映语音的本质特征。

在步骤S102中，从所述语音信号中提取特征参数。具体的，特征参数提取是从语音信号中提取出有关的特征参数，如梅尔频率倒谱系数(Mel-Frequency CepstralCoefficient,MFCC)或滤波器组系数 (Filterbank Coefficient)等等。

在步骤S103中，采用语言模型和基于长短时记忆模型结构建立得到的声学模型对所述语音信号进行自动识别。具体的，可以采用识别器进行搜索，在搜索空间中确定跟用户语音吻合度最高的词序列。比如：采用搜索算法为时间同步的Viterbi搜索。

本发明实施例采用长短时记忆模型结构可以表征更长时间内的基音曲线，提高建模精度。

其中，语言模型的作用是帮助辨识用户发出的音对应于什么文字，对于普通话同音字的辨识起着重要作用，比如普通话中同音字比比皆是(工/供/功/公/宫)、甚至还有些同音词(公式/工事/公示/公事/攻势)。语言模型利用前后词汇的搭配信息来选取更为准确的词汇序列。本发明实施例的语言模型的类型包括但并不限于规则模型和统计模型。其中，统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其简单有效。

其中，声学模型是基于长短时记忆(Long Short-Term Memory, LSTM)结构模型进行构建的。现有的声学模型中，比如：基于前向深度神经网络的建模方法，只能逐层传播，在表征长距离相关性(长时记忆)方面能力较弱，对于滑动窗之外的输入特征，没有显式或者隐式的考量。而本发明实施例基于长短时记忆(Long Short-Term Memory,LSTM)结构模型建立的声学模型在重要事件相隔很远情况下，依然可以进行分类、处理和预测。

具体的，LSTM结构模型包括有记忆组块(memory block)，记忆组块可以被看作为是存储芯片在数字计算上的微分版本，LSTM结构模型中的乘法器允许LSTM单元保存和使用过去很长时间的信息，从而可以有效避免梯度消失问题。更具体的，每一个记忆组块包含一个或更多的自连接存储单元，以及三个乘法器单元：输入门、输出门、遗忘门(input gates,output gates,forget gates)。比如：当输入门保持关闭状态，LSTM单元的所有动作将不会受当前输入的影响。

本发明实施例声学模型的总体模型结构如图3所示；

其中，声学模型的建立包括：基于长短时记忆模型结构分别建立相互独立的谱参数声学模型和基音声学模型，也就是说基于长短时记忆模型结构独立建立谱参数声学模型；以及基于短时记忆模型结构独立建立基音声学模型。

其中，在基于短时记忆模型结构建立声学模型中，包括特征选取步骤，所述特征选取步骤包括：将连续若干帧的基音组合形成一特征向量；

对所述特征向量进行归整化处理，以实现归一化，将谱参数和基音在解码时分离，提高识别精度；

将归整化处理后的特征向量作为长短时记忆模型结构的输入参数。

其中，在对所述特征向量进行归整化处理的过程中，所述归整化处理在音节层面进行，以建立更为普适的精准基音模型。具体过程包括：

根据同一个音节内部的基音曲线，算其平均值，

各帧基音对平均值取预定比值，所述预定比值采用公式：

在解码识别过程中，先利用谱参数声学模型进行解码识别，再利用基音声学模型进行解码识别。

其中，在基音声学模型解码识别过程中，对拼音相同、但调型不同的词序列进行重新打分以选取更为精准的词序列。

具体的，在利用谱参数声学模型进行解码识别中，判断谱参数声学模型的识别结果中是否包括相同的拼音，若不包含相同的拼音，则解码识别过程结束。而若包含相同的拼音，则利用基音声学模型进行解码识别。

更具体的，在语音识别过程中，识别过程分两步进行(two-pass)，第一步是不带基音的识别，利用谱参数作为特征搜索最优的词序列；第二步是利用基音声学模型，利用第一步识别过程中形成的音素对齐 (Alignment)结果，对拼音相同但音调不同的词序列重新进行打分 (rescoring)，选出基音声学模型得分更高的词序列，这样可进一步提升识别精度。有效解决“水饺”和“睡觉”之类的问题。

而当谱参数声学模型的识别结果中不包含相同的拼音，则基音声学模型可以不使用。

本发明实施例由于采用两阶段解码，第一步解码完成后，再在句子层面提取基音曲线，这比边提取基音、边解码的方式更为准确。

在步骤S104中，对自动识别得到的结果进行后处理。具体的，自然语言后处理阶段是利用语言知识库或模型进一步提升语音识别的精度。对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则，根据上下文的约束对识别结果进行纠正和修改。

如图2所示，图2为本发明一个实施例的语音识别系统的示意框图，所述语音识别系统100包括预处理单元101、提取单元102、识别器103和后处理单元104。

其中，预处理单元101对获取的语音信号进行预处理。具体的，预处理单元101可对语音信息进行降噪、增强以处理原始语音信号，部分消除噪声和不同说话人带来的影响，使处理后的语音信号更能反映语音的本质特征。

其中，提取单元102从所述语音信号中提取特征参数。提取单元 102从语音信号中提取出有关的特征参数，如梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficient,MFCC)或滤波器组系数(Filterbank Coefficient)等等。

其中，识别器103采用语言模型和基于长短时记忆模型结构建立得到的声学模型对所述语音信号进行自动识别。具体的，识别器在搜索空间中确定跟用户语音吻合度最高的词序列，比如：采用搜索算法为时间同步的Viterbi搜索。

本发明实施例的识别器中采用长短时记忆模型结构可以表征更长时间内的基音曲线，提高建模精度。

其中，识别器中语言模型的作用是帮助辨识用户发出的音对应于什么文字，对于普通话同音字的辨识起着重要作用，比如普通话中同音字比比皆是(工/供/功/公/宫)、甚至还有些同音词(公式/工事/公示/公事/攻势)。语言模型利用前后词汇的搭配信息来选取更为准确的词汇序列。本发明实施例的语言模型的类型包括但并不限于规则模型和统计模型。其中，统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其简单有效。

其中，识别器中声学模型是基于长短时记忆(Long Short-Term Memory,LSTM)结构模型进行构建的。现有的声学模型中，比如：基于前向深度神经网络的建模方法，只能逐层传播，在表征长距离相关性(长时记忆)方面能力较弱，对于滑动窗之外的输入特征，没有显式或者隐式的考量。而本发明实施例基于长短时记忆(Long Short-Term Memory,LSTM)结构模型建立的声学模型在重要事件相隔很远情况下，依然可以进行分类、处理和预测。

本发明实施例声学模型的总体模型结构如图3所示

其中，在基于短时记忆模型结构建立声学模型中，识别器对特征进行选取，具体的是：将连续若干帧的基音组合形成一特征向量，对所述特征向量进行归整化处理，以实现归一化，将谱参数和基音在解码时分离，提高识别精度；以及将归整化处理后的特征向量作为长短时记忆模型结构的输入参数。

根据同一个音节内部的基音曲线，算其平均值，

各帧基音对平均值取预定比值，所述预定比值采用公式：

在识别器解码识别过程中，先利用谱参数声学模型进行解码识别，再利用基音声学模型进行解码识别。

更具体的，在识别器进行语音识别过程中，识别过程分两步进行(two-pass)，第一步是不带基音的识别，利用谱参数作为特征搜索最优的词序列；第二步是利用基音声学模型，利用第一步识别过程中形成的音素对齐(Alignment)结果，对拼音相同但音调不同的词序列重新进行打分(rescoring)，选出基音声学模型得分更高的词序列，这样可进一步提升识别精度。有效解决“水饺”和“睡觉”之类的问题。

后处理单元104对自动识别得到的结果进行后处理。具体的，自然语言后处理阶段是利用语言知识库或模型进一步提升语音识别的精度。后处理单元104对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则，根据上下文的约束对识别结果进行纠正和修改。

虽然前面特别示出并且描述了示例性实施例，但是本领域技术人员将会理解的是，在不背离权利要求书的精神和范围的情况下，在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括以下步骤：

对获取的语音信号进行预处理；

从所述语音信号中提取特征参数；

对自动识别得到的结果进行后处理。

2.如权利要求1所述的一种语音识别方法，其特征在于，声学模型的建立包括特征选取步骤，所述特征选取步骤包括：

将连续若干帧的基音组合形成一特征向量；

对所述特征向量进行归整化处理；

3.如权利要求2所述的一种语音识别方法，其特征在于，在对所述特征向量进行归整化处理的过程中，所述归整化处理在音节层面进行，具体过程包括：

根据同一个音节内部的基音曲线，算其平均值，

各帧基音对平均值取预定比值。

4.如权利要求3所述的一种语音识别方法，其特征在于，所述预定比值采用公式：

5.如权利要求1所述的一种语音识别方法，其特征在于，声学模型的建立包括以下步骤：

基于长短时记忆模型结构分别建立相互独立的谱参数声学模型和基音声学模型。

6.如权利要求5所述的一种语音识别方法，其特征在于，在解码识别过程中，先利用谱参数声学模型进行解码识别，再利用基音声学模型进行解码识别。

7.如权利要求6所述的一种语音识别方法，其特征在于，在基音声学模型解码识别过程中，对拼音相同、但调型不同的词序列进行重新打分以选取更为精准的词序列。

8.如权利要求5所述的一种语音识别方法，其特征在于，在利用谱参数声学模型进行解码识别中，判断谱参数声学模型的识别结果中是否包括相同的拼音，若不包含相同的拼音，则解码识别过程结束。

9.如权利要求5所述的一种语音识别方法，其特征在于，在利用谱参数声学模型进行解码识别中，判断谱参数声学模型的识别结果中是否包括相同的拼音，若包含相同的拼音，则利用基音声学模型进行解码识别。

10.一种语音识别系统，其特征在于，所述语音识别系统包括：

预处理单元，用于对语音信号进行预处理；

提取单元，用于从所述语音信号中提取特征参数；

后处理单元，用于对自动识别得到的结果进行后处理。