CN107680597A

CN107680597A - 语音识别方法、装置、设备以及计算机可读存储介质

Info

Publication number: CN107680597A
Application number: CN201710994268.5A
Authority: CN
Inventors: 梁浩; 程宁; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-02-09
Anticipated expiration: 2037-10-23
Also published as: CN107680597B; WO2019080248A1; US11081103B2; SG11202001627XA; US20210074264A1

Abstract

本发明实施例公开了一种语音识别方法、装置、设备以及计算机可读存储介质，其中所述方法包括根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列；将所述帧级语音特征序列依次分为n个信息块；将所有信息块并行输入预设的双向长短时递归神经网络模型中；获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果，以得到所述待测语音信息的语音识别结果。本发明可以极大地提高语音识别的效果，有效缩短了语音解码的时延。

Description

语音识别方法、装置、设备以及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别方法、装置、设备以及计算机可读存储介质。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition,ASR)，其目标是让机器通过识别和理解，把语音信号变成文字，是现代人工智能发展的重要分支。语音识别技术的实现是自然语言处理的前提，并能有效推动声控交互相关领域的发展并极大方便人们的生活，如智能家居、语音输入，使得一些不适宜使用手和眼睛的人群如中老年人，和环境如开车、路上等场景进行命令操作成为现实。语音识别的准确度直接决定了技术应用的有效性。近年来，随着深度学习技术的发展，语音识别准确度得到了极大的提升。

长短时递归神经网络(Long Short-term Memory Recurrent Neural Network，LSTM-RNN)被认为是一种高效并且应用广泛的语音识别领域的深度学习框架。LSTM通过在传统递归神经网络RNN基础上引入长短时记忆模块，有效解决了传统简单RNN训练梯度消失等问题，此外RNN的网络结构使得语音时序序列中时间维度的信息得到利用，因而较之传统深度学习框架如，实用性和准确度上有了很大提升。而双向长短时递归神经网络(Bidirectional Long Short-term Memory，BLSTM)在对当前语音帧进行判断时，不仅可以有效利用“历史”的语音信息，还可以利用“未来”的语音信息，这使得原始输入的语音特征能够得到更有效的挖掘，从而进行更加准确的决策。尽管在研究领域已经取得极大的准确率提升，BLSTM在实用性上却存在先天不足，因为不像单向LSTM，BLSTM的解码器需要等到整条语句都读入后才能进行双向的处理计算，亦即神经网络中的前向传播在反向处理时存在极大的时延，想象输入的语音越长时延越大，这让实时语音识别变得不再可能。

发明内容

本发明实施例提供一种语音识别方法、装置、设备以及计算机可读存储介质，能够极大地提高语音识别的效果，有效缩短了语音解码的时延，使得基于双向长短时递归神经网络的语音实时识别的应用成为可能。

一方面，本发明实施例提供了一种语音识别方法，该方法包括：

根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列；

将所述帧级语音特征序列依次分为n个信息块，其中n为大于等于2的整数，每个信息块包括一主信息块，每一主信息块拼接有一从信息块，每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息，所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻；

将所有信息块并行输入预设的双向长短时递归神经网络模型中，以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果，以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果；

获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果，以得到所述待测语音信息的语音识别结果；

其中，所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。

进一步地，所述根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列包括：

对待测语音信息进行分帧以得到多个语音帧；

对每个语音帧进行特征提取，以得到每个语音帧对应的梅尔频率倒谱系数特征序列；

将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。

进一步地，所述将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列包括：

将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息；

将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息；

将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列；

其中所述单音素模型、上下文三音素模型以及基于线性判别分析及最大似然线性特征转换的三音素模型均为不同的预设的隐马尔可夫及混合高斯模型。

进一步地，所述预设的双向长短时递归神经网络模型的构建包括：

对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列，

利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型，以实现帧级语音样本特征序列与文本内容的对齐，其中所述隐马尔可夫模型与所述语音样本数据是一一对应的，所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布；

将对齐后的语音样本特征序列依次分为n个样本信息块，其中n为大于等于2的整数，每个样本信息块包括一主样本信息块，每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块，每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息，且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻；

将所有样本信息块并行输入一双向长短时递归神经网络中，分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练，以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。

进一步地，所述方法还包括：

对待测语音信息进行预处理；

其中，根据预设规则对进行预处理后的待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。

另一方面，本发明实施例还提供了一种语音识别装置，该装置包括：

第一处理单元，用于根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列；

第二处理单元，用于将所述帧级语音特征序列依次分为n个信息块，其中n为大于等于2的整数，每个信息块包括一主信息块，每一主信息块拼接有一从信息块，每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息，所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻；

识别单元，用于将所有信息块并行输入预设的双向长短时递归神经网络模型中，以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果，以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果；

输出单元，用于获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果，以得到所述待测语音信息的语音识别结果；

进一步地，所述第一处理单元，包括：

分帧单元，用于对待测语音信息进行分帧以得到多个语音帧；

特征提取单元，用于对每个语音帧进行特征提取，以得到每个语音帧对应的梅尔频率倒谱系数特征序列；

调整单元，用于将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。

进一步地，所述装置还包括：

第三处理单元，用于对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列，

第一训练单元，用于利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型，以实现帧级语音样本特征序列与文本内容的对齐，其中所述隐马尔可夫模型与所述语音样本数据是一一对应的，所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布；

第四处理单元，用于将对齐后的语音样本特征序列依次分为n个样本信息块，其中n为大于等于2的整数，每个样本信息块包括一主样本信息块，每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块，每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息，且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻；

第二训练单元，用于将所有样本信息块并行输入一双向长短时递归神经网络中，分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练，以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。

又一方面，本发明实施例还提供了一种语音识别设备，包括：

存储器，用于存储实现语音识别的程序；以及

处理器，用于运行所述存储器中存储的实现语音识别的程序，以执行如上所述方法。

再一方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行，以实现如上所述方法。

本发明实施例通过引入了时延控制方法使得双向长短时递归神经网络中的“过去”和“未来”的语音信息能够同时得到有效利用，极大提高了识别效果，同时因为预设的双向长短时递归神经网络模型可以在整条语句刚读入时就开始进行处理，有效缩短了解码时延，使得基于双向长短时递归神经网络实时语音识别的应用成为可能。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音识别方法的示意流程图。

图1a是本发明实施例中待测语音信息的分块示意图。

图1b是本发明实施例中待测语音信息的识别方向示意图。

图2是本发明实施例提供的一种语音识别方法的另一示意流程图。

图3是本发明实施例提供的一种语音识别方法的另一示意流程图。

图4是本发明实施例提供的一种语音识别方法的另一示意流程图。

图5是本发明另一实施例提供的一种语音识别方法的示意流程图。

图6是本发明实施例提供的一种语音识别装置的示意性框图。

图7是本发明实施例提供的一种语音识别装置的另一示意性框图。

图8是本发明实施例提供的一种语音识别装置的另一示意性框图。

图9是本发明实施例提供的一种语音识别装置的另一示意性框图。

图10是本发明另一实施例提供的一种语音识别装置的示意性框图。

图11是本发明实施例提供的一种语音识别设备结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

请参阅图1，图1是本发明实施例提供的一种语音识别方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。如图1所示，该方法的步骤包括S101～S104。

S101，根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。

在本发明实施例中，需要根据预设的规则对待测语音信息进行相应的处理从而得到可识别的语音特征，也即得到帧级语音特征序列。对待测语音信息进行分帧后，还需要进行声学特征提取，从而得到一个帧级语音特征序列。

进一步地，如图2所示，所述步骤S101包括S201～S203。

S201，对待测语音信息进行分帧以得到多个语音帧。

在本发明实施例中，一段待测语音信息是根据时间顺序排列构成的，对所述待测语音信息进行分帧后可以得到若干语音帧，其中每一语音帧的时长可以为10ms～30ms。在一些实施例中，每一语音帧的时长可以为25ms，帧移为10ms。

S202，对每个语音帧进行特征提取，以得到每个语音帧对应的梅尔频率倒谱系数特征序列。

在本发明实施例中，对分帧处理后的每个语音帧中具有辨识性的成分提取出来，得到每个语音帧对应的梅尔频率倒谱系数特征序列。具体的，可以对输入的所有语音帧进行快速傅里叶变换，即将时域对应的语音信号转换为频域的能量谱进行分析，然后将能量谱通过一组梅尔尺度的三角滤波器组，突出语音的共振峰特征。之后计算每个滤波器组输出的对数能量，滤波器组输出的特征又称为FilterBank(FBANK)特征。对对数能量进行计算后，经离散余弦变换就可得到梅尔频率倒谱系数(mel frequency cepstrum coefficient，MFCC)，亦即MFCC声学特征，同时输出梅尔频率倒谱系数特征序列。一般情况下，梅尔频率倒谱系数特征序列为“MFCC的维度×分帧数”的特征序列，例如，梅尔频率倒谱系数特征序列具有13维的特征，其中MFCC的维度即为13维，而分帧数即为待测语音信息进行分帧后得到的帧数。

S203，将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。

在本发明实施例中，为了提高语音识别的准确度，可以将所述梅尔频率倒谱系数特征序列输入预设的音素模型中，从而得到一个相应的帧级语音特征序列，此时，这里的音素模型可以为隐马尔可夫及混合高斯模型，该隐马尔可夫及混合高斯模型可以为通过现有的语音样本数据进行训练后的解码网络模型，所述梅尔频率倒谱系数特征序列通过上述解码网络模型后得到的解码结果即为帧级语音特征序列。

进一步地，如图3所示，其中所述单音素模型、上下文三音素模型以及基于线性判别分析及最大似然线性特征转换的三音素模型均为不同的预设的隐马尔可夫及混合高斯模型。所述步骤S203可以包括S301～S303。

S301，将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息。

在本发明实施例中，将梅尔频率倒谱系数特征序列输入预设的单音素模型，可以得到一个第一特征信息，此时得到的第一特征信息更为精准。

S302，将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息。

在本发明实施例中，将第一特征信息输入预设的上下文三音素模型中后，可以得到一个第二特征信息，此时得到的第二特征信息相对而言会更为精准。

S303，将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列。

在本发明实施例中，将第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中后，可以得到最终的帧级语音特征序列，该帧级语音特征序列为更为精准的待测语音信息中包含的声学特征，更方便后续的识别，提高后续语音识别的准确度。

S102，将所述帧级语音特征序列依次分为n个信息块，其中n为大于等于2的整数，每个信息块包括一主信息块，每一主信息块拼接有一从信息块，每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息，所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻。

在本发明实施例中，如图1a所示，可以根据时间顺序将所述帧级语音特征序列依次分为n个信息块，每个信息块均包括一主信息块A_i和一对应的从信息块B_i，i的取值范围为1≤i≤n，其中，从主信息块A₁到主信息块A_n是根据时间的先后进行划分的，每个主信息块A_i和对应的从信息块B_i均包括若干帧语音特征信息。一般情况，每个语音帧都相应的有一帧语音特征信息，而每个语音帧都对应一个一定的时长，故每帧语音特征信息也相应地对应有一个一定的时长。例如，第一个信息块包括主信息块A₁以及从信息块B₁，第二个信息块包括主信息块A₂以及从信息块B₂，……，第n个信息块包括主信息块A_n以及从信息块B_n。

S103，将所有信息块并行输入预设的双向长短时递归神经网络模型中，以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果，以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果。

在本发明实施例中，可以将所有信息块并行输入预设的双向长短时递归神经网络模型中。如图1b所示，对于预设的双向长短时递归神经网络模型而言，因待测语音信息跟时间有关，且帧级语音特征序列中的每一帧语音特征信息也均对应一个相应的时间t，故当进行前向识别的时候，可以从时间T对应的语音特征信息到时间T+1对应的语音特征信息进行前向识别，识别完成后立马从T+1对应的语音特征信息到时间T对应的语音特征信息进行后向识别，从而提高了语音信息识别的准确度，同时也极大地缩短了双向长短时递归神经网络模型进行语音识别的时延时间。

将所有信息块并行输入预设的双向长短时递归神经网络模型中是指，将所有的信息块按时间的顺序输入预设的双向长短时递归神经网络模型的输入层的神经元结点中，其中每个信息块对应一个输入层的神经元结点，每个信息块的主信息块经过输入层的神经元结点后再在预设的双向长短时递归神经网络模型的隐藏层的神经元结点中做前向识别，完成前向识别后，即可以让每个信息块经过输入层的神经元结点后再在预设的双向长短时递归神经网络模型的隐藏层的神经元结点中做后向识别，且做后向识别的第一帧语音特征信息即为从信息块中的最后一帧语音特征信息。

例如，当第一个信息块中的主信息块A₁进入经预设的双向长短时递归神经网络模型后，具体经预设的双向长短时递归神经网络模型的隐藏层的神经元结点中做前向识别并得到前向识别结果后，此时，需要从从信息块B₁中的最后一帧语音特征信息开始将整个第一个信息块中的语音特征信息反向输入预设的双向长短时递归神经网络模型的隐藏层的神经元结点中做后向识别并得到后向识别结果。同理，可知并行输入预设的双向长短时递归神经网络模型的其他信息块也进行相应的前向识别和后向识别，以便于实现语音的实时识别，减少时延的发生，同时也提高了语音识别的准确度。

进一步地，如图4所示，所述预设的双向长短时递归神经网络模型的构建包括步骤S401～S404。

S401，对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列。

其中，对选取的语音样本数据进行分帧后，对每个语音帧进行快速傅里叶变换，将时域的语音信号转换为频域的能量谱进行分析。然后将能量谱通过一组梅尔尺度的三角滤波器组，突出语音的共振峰特征。之后计算每个滤波器组输出的对数能量，滤波器组输出的特征又称为FilterBank(FBANK)特征。对对数能量计算后，经离散余弦变换就可得到梅尔频率倒谱系数特征序列。

S402，利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型，以实现帧级语音样本特征序列与文本内容的对齐，其中所述隐马尔可夫模型与所述语音样本数据是一一对应的，所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布。

具体的，其中，文本内容即与选取的语音样本数据像对应的文本文件中含有的内容。实现帧级语音样本特征序列与文本内容的对齐则指实现状态和音素级别的对齐。

首先可以对输入的梅尔频率倒谱系数特征序列进行归一化，默认对方差进行归一化；然后进行快速启动，即利用少量特征数据快速得到一个初始化的隐马尔可夫及混合高斯模型和决策树；之后再构造训练用的网络，对每个句子构造一个音素级别的FST网络用于解码，在训练的过程中通过不断对齐特征序列，反复训练得到中间统计量，其中隐马尔可夫模型的统计量是两个音素在FST网络中互联的边中出现的次数，高斯模型的统计量是每个概率密度函数pdf-id对应的特征累计值和特征平方累计值，统计量跟高斯模型的方差、均值的更新相关，通过不断的更新模型完成解码网络的训练，即实现一个单音素模型的训练；最后再做一次强制对齐，用于解码输出结果或者进行下一阶段的模型训练。

在一些实施例中，在通过单音素模型训练后，通常一个完整的隐马尔可夫及混合高斯模型的语音识别过程还会进行几轮三音素模型训练，三音素模型训练考虑了当前音素的前后相关音素影响，能够得到更加准确的对齐效果，也就能产生更好的识别结果。根据特征和作用的不同，三音素模型一般采用基于上下文相关(delta+delta-delta，Δ+ΔΔ)特征、线性判别分析及最大似然线性特征转换(linear discriminant analysis+maximumlikelihood linear transform,LDA+MLLT)以及说话人自适应及特征空间最大似然概率的线性回归(speaker adaptive training+feature space maximum likelihood linearregression,SAT+fMLLR)三音素特征模型进行训练。

基于delta+delta-delta特征的三音素模型是对原始的梅尔频率倒谱系数特征添加了delta特征(delta即对梅尔频率倒谱系数特征进行求导，同理delta-delta就是求二阶导)进行的模型训练。例如，若输入的原始的梅尔频率倒谱系数特征是13维，添加delta+delta-delta特征后输入的特征即变成39维。

基于线性判别分析及最大似然线性特征转换的三音素模型是对改进后的delta+delta-delta特征数据先进行帧叠加，增加特征维度，然后通过线性判别式分析(LDA)降维进行的特征变化(通常降到40维)，之后进行三音素的模型训练。

基于SAT+fMLLR特征的三音素特征模型需要原始的训练数据样本不能受说话人的语音语调以及环境等因素的影响，故对语音输入时相同说话人在不同环境的情况下帮助甚微，实际应用也较少。

在一些实施例中，主要依次采用单音素训练、基于delta+delta-delta特征的三音素训练(参数：决策树分枝数＝2500，高斯总数＝20000)、基于delta+delta-delta特征的三音素训练2(参数：决策树分枝数＝3500，高斯总数＝100000)和基于线性判别分析+最大似然线性特征转换(参数：决策树分枝数＝3500，高斯总数＝100000)，来进行自动语音识别中的隐马尔可夫及混合高斯模型训练与对齐。

训练双向长短时递归神经网络模型的一般框架是先训练隐马尔可夫及混合高斯模型来做强制对齐，可以一个也可以多个，然后将强制对齐的结果结合原始语音样本的输入特征作为双向长短时递归神经网络的训练样本进行训练。双向长短时递归神经网络模型与隐马尔可夫及混合高斯模型的相同之处在于作用都是模拟提取的原始语音特征，其中隐马尔可夫及混合高斯模型使用混合高斯模型模拟，双向长短时递归神经网络模型使用深度神经网络模型模拟，作为描述特征发生概率的模型，然后把相应统计量如高斯模型的均值和方差输入到隐马尔可夫模型中作为隐马尔可夫模型的结构和转移概率的依据。双向长短时递归神经网络模型与隐马尔可夫及混合高斯模型的不同之处在于深度神经网络模型的输入是多帧特征，而不是混合高斯模型中的一帧。故在语音识别的过程中，原始的输入语音经过特征提取，根据隐马尔可夫模型中状态的发生概率，即跟不同发音比较相似度，在解码网络中选择发生概率最大的路径作为最终输出结果。研究表明，训练得到的双向长短时递归神经网络模型能够在隐马尔可夫及混合高斯模型基础上，使得系语音识别的错误率下降，例如，错误率可以下降20％-30％。

S403，将对齐后的语音样本特征序列依次分为n个样本信息块，其中n为大于等于2的整数，每个样本信息块包括一主样本信息块，每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块，每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息，且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻。

在本发明实施例中，如图1a所示，在神经网络模型的前后向计算中均采用块(chunk)处理的方式读取帧级语音特征序列的。首先根据按帧长固定将读入帧级语音特征序列无重叠的等间隔的切分为多个主信息块(边读边切)，在反向计算中则拼接固定帧长的语音特征信息到每个主信息块的后面，此处拼接固定帧长的语音特征信息即组成相应的从信息块，每个主信息块以及相应的从信息块构成一信息块。

在训练双向长短时递归神经网络的过程中控制使得这些后来拼接的语音特征信息对应地并不产生输出，因而针对本来的主信息块的计算不会产生额外误差，这使得训练速度相对与需读入整条语音的传统双向长短时递归神经网络训练在测试环境下提高了10倍以上。

同时，在解码过程中，T时刻前向的记忆单元初始状态可以直接由T-1时刻的主信息块计算来得到，T时刻后向的记忆单元初始状态则由主信息块后拼接的固定帧长的从信息块产生，因而解码应用的时延只由从信息块中的语音特征信息决定，从而使得语音识别的总耗费时间却得到了缩减。故无须等到读入整条待测语音信息才能开始后向计算，而只需等待从信息块占用的时长，使得实时双向长短时递归神经网络应用的语音识别成为可能；同时也可以采用很多条语音组成小批(mini-batch)的方式进行并行训练，减少了计算内存消耗；另外，也可以有效提高语音识别的准确率，有实用意义并且可拓展性好。

S404，将所有样本信息块并行输入一双向长短时递归神经网络中，分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练，以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。

在本发明实施例中，双向长短时递归神经网络的前向训练过程与单向长短时递归神经网络的处理过程一样，都覆盖了所有输入帧相关的“历史”信息。而在后向训练过程中，双向长短时递归神经网络需要对输入的语音特征信息进行反向处理，为了减少反向读取整条语句信息时产生的时延影响因素，需要采用上述步骤中拼接带有“将来”信息的语音帧的方式。

例如，可以首先训练了一个3-5层长短时递归神经网络模型，从而实现对该模型的输出做强制对齐，将强制对其的结果送入双向长短时递归神经网络中，最后得到解码输出，同时得到双向长短时递归神经网络模型。

具体的，分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练，即是对双向长短时递归神经网络中各层的神经元结点进行前向训练。每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型，即对双向长短时递归神经网络中各层的神经元结点进行后向训练，各个信息块是并行输入双向长短时递归神经网络进行训练的，同时反向训练时造成的时延只是每个从信息块训练时所耗的时间，所以整个训练过程所耗的时间大大地减少了。

例如，基于时延控制的双向长短时递归神经网络模型的结构可以如下：该模型的每个隐含层有1024个神经元结点，其中前向识别的为512个，后向识别的为512个，隐含层后为带有含有300个神经元结点的投影层，最后的输出层采用Softmax层。所有神经元结点均采用[-0.05～0.05]区间的均匀随机权重初始化，偏置初始为0。神经网络的训练采用交叉熵(corss-entropy,CE)评判准则，以及沿时间截断反向传播(truncatedback-propagation-through-time,BPTT)的优化训练方法。其中该模型可识别的每个信息块可以包含20帧语音信息，每个minibatch包含40条发音语句。此外，在动量因子的选择上，第一个迭代(epoch)采用0，之后的迭代采用0.9。在学习率更新上，如果本次迭代没有增加，则将上个迭代的学习率减半作为下个迭代训练的学习率。

S104，获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果，以得到所述待测语音信息的语音识别结果。其中，所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。

在本发明实施例中，根据每个信息块对应的前向识别结果以及后向识别结果，在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的进行输出，即得到一个输出结果，该输出结果即为语音识别的结果。

综上，本发明实施例通过引入了时延控制方法使得双向长短时递归神经网络中的“过去”和“未来”的语音信息能够同时得到有效利用，极大提高了识别效果，同时因为预设的双向长短时递归神经网络模型可以在整条语句刚读入时就开始进行处理，有效缩短了解码时延，使得基于双向长短时递归神经网络实时语音识别的应用成为可能。

请参阅图5，图5是本发明另一实施例提供的一种语音识别方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。如图5所示，该方法的步骤包括S501a～S504。

S501a，对待测语音信息进行预处理；

在本发明实施例中，首先对待测语音信息做预加重，提升待测语音信息中的高频部分，使得频谱更平滑。然后进行分帧加窗，将非平稳的语音信号转变为短时平稳信号分析处理。接着通过端点检测，区分语音与噪声，并提取出有效的语音部分，从而提高对待测语音信息识别的精确度。

S501，根据预设规则对进行预处理后的待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。

S502，将所述帧级语音特征序列依次分为n个信息块，其中n为大于等于2的整数，每个信息块包括一主信息块，每一主信息块拼接有一从信息块，每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息，所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻。

S503，将所有信息块并行输入预设的双向长短时递归神经网络模型中，以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果，以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果。

S504，获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果，以得到所述待测语音信息的语音识别结果。

本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

请参阅图6，对应上述一种语音识别方法，本发明实施例还提出一种语音识别装置，该装置100包括：第一处理单元101、第二处理单元102、识别单元103、输出单元104。

第一处理单元101，用于根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。

进一步地，如图7所示，所述第一处理单元101包括：分帧单元201，特征提取单元202，调整单元203。

其中，所述分帧单元201，用于对待测语音信息进行分帧以得到多个语音帧。

特征提取单元202，用于对每个语音帧进行特征提取，以得到每个语音帧对应的梅尔频率倒谱系数特征序列。

调整单元203，用于将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列。

进一步地，如图8所示，所述调整单元203包括第一输入单元301、第二输入单元302以及第三输入单元303。

第一输入单元301，用于将所述梅尔频率倒谱系数特征序列输入预设的单音素模型中以得到对齐的第一特征信息。

第二输入单元302，用于将所述第一特征信息输入预设的上下文三音素模型中以得到对齐的第二特征信息。

第三输入单元303，用于将所述第二特征信息输入预设的基于线性判别分析及最大似然线性特征转换的三音素模型中以得到对齐的帧级语音特征序列。

第二处理单元102，用于将所述帧级语音特征序列依次分为n个信息块，其中n为大于等于2的整数，每个信息块包括一主信息块，每一主信息块拼接有一从信息块，每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息，所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻。

识别单元103，用于将所有信息块并行输入预设的双向长短时递归神经网络模型中，以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果，以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果。

输出单元104，用于获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果，以得到所述待测语音信息的语音识别结果；

综上，本发明实施例通过引入了时延控制方法使得双向长短时递归神经网络中的“过去”和“未来”的语音信息能够同时得到有效利用，极大提高了识别效果，同时因为预设的双向长短时递归神经网络模型可以在整条语句刚读入时就开始进行处理，有效缩短了解码时延，使得基于双向长短时递归神经网络实时语音识别的应用成为可能。本发明实施例中的装置，均与上述实施例中的方法相对应，故具体的分析和原理在此不再赘述。

进一步地，如图9所示，所述装置100还包括第三处理单元401、第一训练单元402、第四处理单元403以及第二训练单元404，以用于实现对预设的双向长短时递归神经网络模型的构建。

其中，所述第三处理单元401，用于对选取的语音样本数据进行分帧和声学特征提取以得到梅尔频率倒谱系数特征序列。

所述第一训练单元402，用于利用梅尔频率倒谱系数特征序列训练一隐马尔可夫及混合高斯模型，以实现帧级语音样本特征序列与文本内容的对齐，其中所述隐马尔可夫模型与所述语音样本数据是一一对应的，所述混合高斯模型用来描述所述隐马尔可夫模型状态的输出概率分布。

所述第四处理单元403，用于将对齐后的语音样本特征序列依次分为n个样本信息块，其中n为大于等于2的整数，每个样本信息块包括一主样本信息块，每个主样本信息块的最末一帧语音特征信息后均拼接有一相应的从样本信息块，每个主样本信息块以及与其相应的从样本信息块均包括若干帧语音特征信息，且每个主样本信息块的最末一帧语音特征信息跟相应的从样本信息块的第一帧语音特征信息相邻。

所述第二训练单元404，用于将所有样本信息块并行输入一双向长短时递归神经网络中，分别通过每个样本信息块中的主样本信息块对所述双向长短时递归神经网络进行前向训练，以及每个样本信息块对所述双向长短时递归神经网络进行后向训练以得到预设的双向长短时递归神经网络模型。

请参阅图10，对应上述一种语音识别方法，本发明另一实施例还提出一种语音识别装置，该装置500包括：预处理单元501a、第一处理单元501、第二处理单元502、识别单元503以及输出单元504。

预处理单元501a，对待测语音信息进行预处理。

第一处理单元501，用于根据预设规则对进行预处理后的待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列。

第二处理单元502，用于将所述帧级语音特征序列依次分为n个信息块，其中n为大于等于2的整数，每个信息块包括一主信息块，每一主信息块拼接有一从信息块，每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息，所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻。

识别单元503，用于将所有信息块并行输入预设的双向长短时递归神经网络模型中，以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果，以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果。

输出单元504，用于获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果，以得到所述待测语音信息的语音识别结果。

由以上可见，在硬件实现上，以上第一处理单元101、第二处理单元102、识别单元103、输出单元104等可以以硬件形式内嵌于或独立于语音识别的装置中，也可以以软件形式存储于语音识别装置的存储器中，以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。

上述语音识别装置可以实现为一种计算机程序的形式，计算机程序可以在如图11所示的计算机设备上运行。

图11为本发明一种语音识别设备的结构组成示意图。该设备可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。参照图11，该计算机设备600包括通过系统总线601连接的处理器602、非易失性存储介质603、内存储器604和网络接口605。其中，该计算机设备600的非易失性存储介质603可存储操作系统6031和计算机程序6032，该计算机程序6032被执行时，可使得处理器602执行一种语音识别方法。该计算机设备600的处理器602用于提供计算和控制能力，支撑整个计算机设备600的运行。该内存储器604为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器602执行一种语音识别方法。计算机设备600的网络接口605用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器602执行如下操作：

对待测语音信息进行分帧以得到多个语音帧；

进一步地，所述处理器602为实现对所述预设的双向长短时递归神经网络模型的构建还用于执行以下操作：

进一步地，所述处理器602还执行如下操作：

对待测语音信息进行预处理。

本领域技术人员可以理解，图11中示出的语音识别设备的实施例并不构成对语音识别设备具体构成的限定，在其他实施例中，语音识别设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，语音识别设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行，以实现以下步骤：

对待测语音信息进行分帧以得到多个语音帧；

进一步地，所述步骤还包括：

对待测语音信息进行预处理。

本发明前述的存储介质包括：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等各种可以存储程序代码的介质。

本发明所有实施例中的单元可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

本发明实施例语音识别方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例语音识别终端中的单元可以根据实际需要进行合并、划分和删减。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列包括：

对待测语音信息进行分帧以得到多个语音帧；

3.如权利要求2所述的方法，其特征在于，所述将所述梅尔频率倒谱系数特征序列输入预设的音素模型中以得到对齐的帧级语音特征序列包括：

4.如权利要求2所述的方法，其特征在于，所述预设的双向长短时递归神经网络模型的构建包括：

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

对待测语音信息进行预处理；

6.一种语音识别装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述第一处理单元，包括：

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种语音识别设备，其特征在于，包括：

存储器，用于存储实现语音识别的程序；以及

处理器，用于运行所述存储器中存储的实现语音识别的程序，以执行如权利要求1-5任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行，以实现如权利要求1-5任一项所述的方法。