CN110992942B

CN110992942B - 一种语音识别方法、装置和用于语音识别的装置

Info

Publication number: CN110992942B
Application number: CN201911207697.9A
Authority: CN
Inventors: 王智超; 王佳文; 刘忠亮
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-07-08
Anticipated expiration: 2039-11-29
Also published as: CN110992942A

Abstract

本发明实施例提供了一种语音识别方法、装置和用于语音识别的装置。其中的方法具体包括：确定待识别语音的语音特征；利用声学模型，确定所述语音特征对应的语音识别结果；所述声学模型包括：神经网络模型和隐马尔可夫模型；所述神经网络模型包括：输入层、隐层和输出层；所述隐层包括：前馈神经网络层和自注意力神经网络层；输出所述语音识别结果。本发明实施例可以提高语音识别效率。

Description

一种语音识别方法、装置和用于语音识别的装置

技术领域

本发明实施例涉及语音处理技术领域，尤其涉及一种语音识别方法、装置和用于语音识别的装置。

背景技术

语音识别技术是一种将语音转换为文本的技术。随着计算机技术的发展，语音识别的应用场景也逐渐增多，例如语音输入场景、智能聊天场景、语音翻译场景等。

目前的语音识别技术，基于深度神经网络(DNN，Deep Neural Networks)以及隐马尔科夫模型(HMM，Hidden Markov Model)进行声学模型的建立。声学模型采用深度神经网络模型对声学发音和基本声学单元之间的映射关系进行建模。由于语言是上下文相关的，目前的深度神经网络通常采用带有记忆单元的递归神经网络结构，如长短期记忆网络(LSTM，Long Short-Term Memory)、双向LSTM、门控循环单元(GRU，gated recurrentneural network)等神经网络结构，以提高语音识别的准确率。

在实际应用中，由于递归神经网络结构对应的不同帧之间存在依赖性，因此，递归神经网络结构的运算是串行的，串行的运算导致语音识别的效率较低。

发明内容

本发明实施例提供一种语音识别方法、装置和用于语音识别的装置，可以提高语音识别效率。

为了解决上述问题，本发明实施例公开了一种语音识别方法，包括：

确定待识别语音的语音特征；

利用声学模型，确定所述语音特征对应的语音识别结果；所述声学模型包括：神经网络模型和隐马尔可夫模型；所述神经网络模型包括：输入层、隐层和输出层；所述隐层包括：前馈神经网络层和自注意力神经网络层；

输出所述语音识别结果。

另一方面，本发明实施例公开了一种语音识别装置，包括：

语音特征确定模块，用于确定待识别语音的语音特征；

语音识别结果确定模块，用于利用声学模型，确定所述语音特征对应的语音识别结果；所述声学模型包括：神经网络模型和隐马尔可夫模型；所述神经网络模型包括：输入层、隐层和输出层；所述隐层包括：前馈神经网络层和自注意力神经网络层；以及

语音识别结果输出模块，用于输出所述语音识别结果。

再一方面，本发明实施例公开了一种用于语音识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定待识别语音的语音特征；

输出所述语音识别结果。

为了解决上述问题，本发明实施例公开了一种神经网络模型的训练方法，所述神经网络模型应用于语音识别，所述语音识别的声学模型包括：所述神经网络模型与隐马尔可夫模型；所述方法包括：

对训练数据进行对齐，以得到对齐信息；

依据所述对齐信息，将所述训练数据切分为预设长度的数据块；

依据所述训练数据对应的数据块，对所述神经网络模型进行训练；所述神经网络模型包括：输入层、隐层和输出层；所述隐层包括：前馈神经网络层和自注意力神经网络层。

本发明实施例公开了一种神经网络模型的训练装置，所述神经网络模型应用于语音识别，所述语音识别的声学模型包括：所述神经网络模型与隐马尔可夫模型；所述装置包括：

对齐模块，用于对训练数据进行对齐，以得到对齐信息；

切分模块，用于依据所述对齐信息，将所述训练数据切分为预设长度的数据块；以及

训练模块，用于依据所述训练数据对应的数据块，对所述神经网络模型进行训练；所述神经网络模型包括：输入层、隐层和输出层；所述隐层包括：前馈神经网络层和自注意力神经网络层。

本发明实施例公开了一种用于训练神经网络模型的装置，其特征在于，所述神经网络模型应用于语音识别，所述语音识别的声学模型包括：所述神经网络模型与隐马尔可夫模型；所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对训练数据进行对齐，以得到对齐信息；

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音识别方法。

本发明实施例包括以下优点：

本发明实施例对声学模型中的神经网络模型进行了改进，改进后的神经网络模型中的隐层可以包括如下两种神经网络结构：前馈神经网络层和自注意力神经网络层。

其中，自注意力神经网络层采用语音特征自身对自身的注意力；在声学建模的过程中，给予与声学建模单元相关的语音特征更高的关注度，且减少对非相关语音特征的关注度，能够提升输出的准确度。并且，自注意力神经网络层可以不依赖不同时刻之间的关系，故自注意力神经网络层可以采用并行运输，因此能够提高神经网络模型的运算效率，进而可以提高语音识别效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种语音识别方法的流程的示意；

图2是本发明实施例的一种神经网络模型的结构示意图；

图3是本发明实施例的一种神经网络模型的结构示意图；

图4是本发明的一种语音识别方法实施例的步骤流程图；

图5是本发明的一种语音识别方法实施例的步骤流程图；

图6是本发明的一种语音识别装置实施例的结构框图；

图7是本发明的一种神经网络模型的训练装置实施例的结构框图；

图8是本发明的一种用于语音识别的装置800的框图；及

图9是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例可以适用于语音识别场景。语音识别场景用于将语音转换为文本，语音识别场景可以包括：语音输入场景、智能聊天场景、语音翻译场景等。

声学模型采用深度神经网络模型对声学发音和基本声学单元(通常是音素)之间的映射关系进行建模；音素是根据语音的自然属性划分出来的最小语音单位。声学模型可以接收输入的语音特征，并输出语音特征对应的音素序列。

参照图1，示出了本发明实施例的一种语音识别方法的流程的示意，语音识别方法用到的模型可以包括：声学模型、语言模型和解码器。

其中，声学模型的确定过程可以包括：针对语音数据库中的语音语料进行特征提取，依据提取得到的特征进行声学模型的训练。

语言模型的确定过程可以包括：依据文本数据库中的文本语料进行，进行语言模型的训练。

解码器用于在给定音素序列的情况下，找到最可能对应的词组，进而可以得到语音识别结果。

图1所示的语音识别过程可以包括：针对输入的语音进行特征提取，以得到语音特征，语音特征输入解码器。解码器首先利用声学模型，确定语音特征对应的音素序列；然后，依据语言模型对声音模型进行语音解码，以得到语音识别结果，并将语音识别结果对应的文本进行输出。

声学模型可以包括：神经网络模型和隐马尔可夫模型，其中，神经网络模型可以向隐马尔可夫模型提供声学建模单元，声学建模单元的粒度可以包括：字、音节、音素、或者状态等；而隐马尔可夫模型可以依据神经网络模型提供的声学建模单元，确定音素序列。一个状态在数学上表征一个马尔科夫过程的状态。

传统的声学模型中的神经网络模型，通常采用带有记忆单元的递归神经网络结构。由于递归神经网络结构对应的不同帧之间存在依赖性，因此，递归神经网络结构的运算是串行的，串行的运算导致语音识别的效率较低。

针对语音识别的效率较低的技术问题，本发明实施例提供了一种语音识别方法，该方法可以包括：确定待识别语音的语音特征；利用声学模型，确定上述语音特征对应的语音识别结果；上述声学模型可以包括：神经网络模型和隐马尔可夫模型；上述神经网络模型可以包括：输入层、隐层和输出层；上述隐层可以包括：前馈神经网络层和自注意力神经网络层；输出上述语音识别结果。

本发明实施例中，可选的是，一个上述前馈神经网络层和一个上述自注意力神经网络层组成隐层对，上述隐层可以包括至少一个隐层对。

本领域技术人员可以根据实际应用需求，确定前馈神经网络层。例如，上述前馈神经网络层可以包括：延时神经网络(TDNN，Time Delay Neural Network)层、或者卷积神经网络(CNN，Convolutional Neural Network)层。

延时神经网络层可以考虑连续的多个时刻的输入信息，故可以将上下文信息应用于运算，因此能够提高输出的准确度。

可以理解，本发明实施例对于具体的前馈神经网络层不加以限制。

参照图2，示出了本发明实施例的一种神经网络模型的结构示意图，该神经网络模型具体可以包括：输入层201、隐层202和输出层203。

其中，隐层202可以包括至少一个隐层对221。一个隐层对221可以包括：一个前馈神经网络层和一个自注意力神经网络层。

本领域技术人员可以根据实际应用需求，确定隐层对221的数量。多个隐层对221，可以提高前馈神经网络层和自注意力神经网络层之间的融合度，进而可以提高输出的准确度。

在本发明的一可选实施例，上述输出层可以包括：第一输出层和第二输出层；上述第一输出层设置于最后一个隐层对之后，上述第二输出层设置于中间的隐层对之后；上述第一输出层与隐马尔可夫模型连接，其处理结果被输出至上述隐马尔可夫模型。

在神经网络模型的训练过程中，会按照反向计算神经网络模型的误差信息，误差信息在回传过程中通常越来越小，导致出现梯度消失的问题。本发明实施例在中间的隐层对之后设置第二输出层，能够起到梯度中继器也即增加误差的梯度的作用，因此能够在一定程度上缓解梯度消失的问题，进而可以提高模型参数的准确度。

参照图3，示出了本发明实施例的一种神经网络模型的结构示意图，该神经网络模型与图2相比，将图2的输出层置为第一输出层203，在此基础上，增加了第二输出层204。

第二输出层204设置于中间的隐层对之后。中间的隐层对可以位于第一个隐层对与最后一个隐层对之间。可选地，隐层对的数量为N，则第一个隐层对到中间的隐层对之间的数量可以为N/2对应的自然数，可以理解，本发明实施例对于中间的隐层对不加以限制。

方法实施例一

参照图4，示出了本发明实施例的一种神经网络模型的训练方法实施例的步骤流程图，该神经网络模型应用于语音识别，上述语音识别的声学模型具体包括：上述神经网络模型与隐马尔可夫模型；该方法具体包括如下步骤：

步骤401、对训练数据进行对齐，以得到对齐信息；

步骤402、依据上述对齐信息，将上述训练数据切分为预设长度的数据块；

步骤403、依据上述训练数据对应的数据块，对上述神经网络模型进行训练；上述神经网络模型可以包括：输入层、隐层和输出层；上述隐层可以包括：前馈神经网络层和自注意力神经网络层。

图4所述方法实施例可用于对神经网络模型进行训练，以确定神经网络模型的模型参数。

步骤401中，对训练数据进行对齐，可用于确定对齐信息，对齐信息可以包括：声学建模单元的信息，如状态的起始时间和终止时间等。通常语音语料的标注信息仅仅包括音素信息，而不包括声学建模单元的信息。因此本发明实施例通过训练数据的对齐，确定声学建模单元的信息等对齐信息。

可选地，可以利用混合高斯模型(GMM，Mixture of Gaussian)，对训练数据进行对齐。可以理解，本发明实施例对于对训练数据进行对齐的具体过程不加以限制。

步骤402中，可以依据对齐信息，将训练数据及其对应的标注信息切分为预设长度的数据块。例如，预设长度为150帧或5秒等，一帧的长度可以为25毫秒等，可以理解，本发明实施例对于具体的预设长度不加以限制。

本发明实施例将训练数据切分成预设长度的数据块，用于训练，能够提高数据块与语音语料或文本语料之间的匹配度，进而可以提升声学模型对于对任意数据长度的泛化能力，提高声学模型的稳定性。

步骤403中，可以配置神经网络模型的结构，采用前馈神经网络结构和自注意力神经网络结构交叠的方式构建神经网络模型，以实现两种神经网络结构的充分融合。

本发明实施例中，可选的是，所述前馈神经网络层可以包括：延时神经网络层、或者卷积神经网络层。

本发明实施例中，可选的是，一个所述前馈神经网络层和一个所述自注意力神经网络层组成隐层对，所述隐层可以包括：至少一个隐层对。

本发明实施例中，可选的是，所述输出层可以包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对的之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

本发明实施例中，可选的是，所述对所述神经网络模型进行训练，具体可以包括：利用无词图的最大互信息准则(LFMMI，Lattice-Free Maximum Mutual Information)，分别确定所述第一输出层对应的第一损失信息、以及所述第二输出层对应的第二损失信息；依据所述第一损失信息和所述第二损失信息，对所述神经网络模型的参数进行更新。第一损失信息或第二损失信息的可以包括：误差信息或梯度信息。

可以理解，LFMMI只是作为训练准则的示例，实际上，本领域技术人员可以根据实际应用需求，采用其他训练规则，如交叉熵(CE，Cross Entropy)、连接时序分类(CTC、Connectionist Temporal Classification)规则等。

本发明实施例中，可选的是，在完成神经网络模型的训练后，可以利用测试集对模型的测试性能进行测试，测试性能可以包括：字错误率和识别实时率等。若测试性能不符合要求，则可以继续进行神经网络模型的训练；若测试性能符合要求，则可以将神经网络模型应用于语音识别过程。

综上，本发明实施例的训练方法，对声学模型中的神经网络模型进行了改进，改进后的神经网络模型中的隐层可以包括如下两种神经网络结构：前馈神经网络层和自注意力神经网络层。

方法实施例二

参照图5，示出了本发明实施例的一种语音识别方法实施例的步骤流程图，该方法具体包括如下步骤：

步骤501、确定待识别语音的语音特征；

步骤502、利用声学模型，确定上述语音特征对应的语音识别结果；上述声学模型可以包括：神经网络模型和隐马尔可夫模型；上述神经网络模型可以包括：输入层、隐层和输出层；上述隐层可以包括：前馈神经网络层和自注意力神经网络层；

步骤503、输出上述语音识别结果。

本发明实施例可以将图4得到的神经网络模型用于语音识别过程中。

步骤501中，待识别语音可以为任意语音场景中的语音，如语音输入场景、智能聊天场景等。

上述语音特征可以指语音维度的特征，如梅尔频率倒谱系数(MFCC，MelFrequency Cepstrum Coefficient)特征等，可以理解，本发明实施例对于具体的语音特征不加以限制。

步骤502中，可以按照图1上述的流程，确定上述语音特征对应的语音识别结果。例如，可以依据声学模型中的神经网络模型，确定语音特征对应的声学建模单元；声学模型中的隐马尔可夫模型可以从神经网络模型接收声学建模单元，并依据该声学建模单元，确定语音特征对应的音素序列；解码器可以在给定音素序列的情况下，依据语言模型和词典找到最可能对应的词组，进而可以得到语音识别结果。

本发明实施例中，可选的是，上述前馈神经网络层可以包括：延时神经网络层、或者卷积神经网络层。

本发明实施例中，可选的是，一个上述前馈神经网络层和一个上述自注意力神经网络层组成隐层对，上述隐层可以包括：至少一个隐层对。

本发明实施例中，可选的是，上述输出层可以包括：第一输出层和第二输出层；上述第一输出层设置于最后一个隐层对之后，上述第二输出层设置于中间的隐层对的之后；上述第一输出层的处理结果被输出至上述隐马尔可夫模型。

本发明实施例中，可选的是，上述确定上述语音特征对应的语音识别结果，具体可以包括：将上述语音特征切分为预设长度的数据块；将上述数据块输入上述声学模型中，以得到上述声学模型输出的音素序列；依据上述音素序列，确定上述数据块对应的语音识别结果。

本发明实施例以数据块为单位进行处理，具体地，声学模型以数据块为单位确定数据块对应的音素序列，解码器以数据块为单位进行语音解码。能够提高数据块与语音语料或文本语料之间的匹配度，进而可以提升声学模型对于对任意数据长度的泛化能力，提高声学模型的稳定性。

本发明实施例中，可选的是，上述隐马尔可夫模型的训练准则可以包括：无词图的最大互信息准则。

综上，本发明实施例的语音识别方法，对声学模型中的神经网络模型进行了改进，改进后的神经网络模型中的隐层可以包括如下两种神经网络结构：前馈神经网络层和自注意力神经网络层。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图6，示出了本发明的一种语音识别装置实施例的结构框图，具体可以包括：语音特征确定模块601、语音识别结果确定模块602和语音识别结果输出模块603。

其中，语音特征确定模块601，用于确定待识别语音的语音特征。

语音识别结果确定模块602，用于利用声学模型，确定所述语音特征对应的语音识别结果；所述声学模型可以包括：神经网络模型和隐马尔可夫模型；所述神经网络模型可以包括：输入层、隐层和输出层；所述隐层可以包括：前馈神经网络层和自注意力神经网络层。

语音识别结果输出模块603，用于输出上述语音识别结果。

可选地，上述前馈神经网络层可以包括：延时神经网络层、或者卷积神经网络层。

可选地，一个上述前馈神经网络层和一个上述自注意力神经网络层组成隐层对，上述隐层可以包括：至少一个隐层对。

可选地，上述输出层可以包括：第一输出层和第二输出层；上述第一输出层设置于最后一个隐层对之后，上述第二输出层设置于中间的隐层对的之后；上述第一输出层的处理结果被输出至上述隐马尔可夫模型。

可选地，上述语音识别结果确定模块可以包括：

切分模块，用于将上述语音特征切分为预设长度的数据块；

声学模型处理模块，用于将上述数据块输入上述声学模型中，以得到上述声学模型输出的音素序列；

结果确定模块，用于依据上述音素序列，确定上述数据块对应的语音识别结果。

可选地，上述隐马尔可夫模型的训练准则可以包括：无词图的最大互信息准则。

参照图7，示出了本发明的一种神经网络模型的训练装置实施例的结构框图，上述神经网络模型应用于语音识别，上述语音识别的声学模型包括：上述神经网络模型与隐马尔可夫模型；上述装置具体可以包括：对齐模块701、切分模块702、以及训练模块703。

其中，对齐模块701，用于对训练数据进行对齐，以得到对齐信息。

切分模块702，用于依据上述对齐信息，将上述训练数据切分为预设长度的数据块。

训练模块703，用于依据上述训练数据对应的数据块，对上述神经网络模型进行训练；上述神经网络模型可以包括：输入层、隐层和输出层；上述隐层可以包括：前馈神经网络层和自注意力神经网络层。

可选地，上述训练模块可以包括：

损失确定模块，用于利用无词图的最大互信息准则，分别确定上述第一输出层对应的第一损失信息、以及上述第二输出层对应的第二损失信息；

参数更新模块，用于依据上述第一损失信息和上述第二损失信息，对上述神经网络模型的参数进行更新。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于语音识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：确定待识别语音的语音特征；利用声学模型，确定所述语音特征对应的语音识别结果；所述声学模型包括：神经网络模型和隐马尔可夫模型；所述神经网络模型包括：输入层、隐层和输出层；所述隐层包括：前馈神经网络层和自注意力神经网络层；输出所述语音识别结果。

图8是根据一示例性实施例示出的一种用于语音识别的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频语音识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图9是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图2所示的语音识别方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语音识别方法，所述方法包括：确定待识别语音的语音特征；利用声学模型，确定所述语音特征对应的语音识别结果；所述声学模型包括：神经网络模型和隐马尔可夫模型；所述神经网络模型包括：输入层、隐层和输出层；所述隐层包括：前馈神经网络层和自注意力神经网络层；输出所述语音识别结果。

本发明实施例公开了A1、一种语音识别方法，所述方法包括：

确定待识别语音的语音特征；

输出所述语音识别结果。

A2、根据A1所述的方法，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

A3、根据A1所述的方法，一个所述前馈神经网络层和一个所述自注意力神经网络层组成隐层对，所述隐层包括：至少一个隐层对。

A4、根据A3所述的方法，所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对的之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

A5、根据A1至A4中任一所述的方法，所述确定所述语音特征对应的语音识别结果，包括：

将所述语音特征切分为预设长度的数据块；

将所述数据块输入所述声学模型中，以得到所述声学模型输出的音素序列；

依据所述音素序列，确定所述数据块对应的语音识别结果。

A6、根据A1至A4中任一所述的方法，所述隐马尔可夫模型的训练准则包括：无词图的最大互信息准则。

本发明实施例公开了B7、一种神经网络模型的训练方法，所述神经网络模型应用于语音识别，所述语音识别的声学模型包括：所述神经网络模型与隐马尔可夫模型；所述方法包括：

对训练数据进行对齐，以得到对齐信息；

B8、根据B7所述的方法，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

B9、根据B7所述的方法，一个所述前馈神经网络层和一个所述自注意力神经网络层组成隐层对，所述隐层包括：至少一个隐层对。

B10、根据B9所述的方法，所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对的之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

B11、根据B10所述的方法，所述对所述神经网络模型进行训练，包括：

利用无词图的最大互信息准则，分别确定所述第一输出层对应的第一损失信息、以及所述第二输出层对应的第二损失信息；

依据所述第一损失信息和所述第二损失信息，对所述神经网络模型的参数进行更新。

本发明实施例公开了C12、一种语音识别装置，包括：

语音特征确定模块，用于确定待识别语音的语音特征；

语音识别结果输出模块，用于输出所述语音识别结果。

C13、根据C12所述的装置，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

C14、根据C12所述的装置，一个所述前馈神经网络层和一个所述自注意力神经网络层组成隐层对，所述隐层包括：至少一个隐层对。

C15、根据C14所述的装置，所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对的之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

C16、根据C12至C15中任一所述的装置，所述语音识别结果确定模块包括：

切分模块，用于将所述语音特征切分为预设长度的数据块；

声学模型处理模块，用于将所述数据块输入所述声学模型中，以得到所述声学模型输出的音素序列；

结果确定模块，用于依据所述音素序列，确定所述数据块对应的语音识别结果。

C17、根据C12至C15中任一所述的装置，所述隐马尔可夫模型的训练准则包括：无词图的最大互信息准则。

本发明实施例公开了D18、一种神经网络模型的训练装置，所述神经网络模型应用于语音识别，所述语音识别的声学模型包括：所述神经网络模型与隐马尔可夫模型；所述装置包括：

对齐模块，用于对训练数据进行对齐，以得到对齐信息；

D19、根据D18所述的装置，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

D20、根据D18所述的装置，一个所述前馈神经网络层和一个所述自注意力神经网络层组成隐层对，所述隐层包括：至少一个隐层对。

D21、根据D20所述的装置，所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对的之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

D22、根据D21所述的装置，所述训练模块包括：

损失确定模块，用于利用无词图的最大互信息准则，分别确定所述第一输出层对应的第一损失信息、以及所述第二输出层对应的第二损失信息；

参数更新模块，用于依据所述第一损失信息和所述第二损失信息，对所述神经网络模型的参数进行更新。

本发明实施例公开了E23、一种用于语音识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定待识别语音的语音特征；

输出所述语音识别结果。

E24、根据E23所述的装置，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

E25、根据E23所述的装置，一个所述前馈神经网络层和一个所述自注意力神经网络层组成隐层对，所述隐层包括：至少一个隐层对。

E26、根据E25所述的装置，所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对的之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

E27、根据E23至E26中任一所述的装置，所述确定所述语音特征对应的语音识别结果，包括：

将所述语音特征切分为预设长度的数据块；

依据所述音素序列，确定所述数据块对应的语音识别结果。

E28、根据E23至E26中任一所述的装置，所述隐马尔可夫模型的训练准则包括：无词图的最大互信息准则。

本发明实施例公开了F29、一种用于训练神经网络模型的装置，所述神经网络模型应用于语音识别，所述语音识别的声学模型包括：所述神经网络模型与隐马尔可夫模型；所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对训练数据进行对齐，以得到对齐信息；

F30、根据F29所述的装置，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

F31、根据F29所述的装置，一个所述前馈神经网络层和一个所述自注意力神经网络层组成隐层对，所述隐层包括：至少一个隐层对。

F32、根据F31所述的装置，所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对的之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

F33、根据F32所述的装置，所述对所述神经网络模型进行训练，包括：

本发明实施例公开了G34、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A6中一个或多个所述的语音识别方法。

本发明实施例公开了H35、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如B7至B11中一个或多个所述的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音识别方法、一种语音识别装置和一种用于语音识别的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

确定待识别语音的语音特征；

输出所述语音识别结果；

一个所述前馈神经网络层和一个所述自注意力神经网络层组成隐层对，所述隐层包括：至少一个隐层对。

2.根据权利要求1所述的方法，其特征在于，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

3.根据权利要求2所述的方法，其特征在于，所述隐层包括：至少三个隐层对；所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

4.根据权利要求1至3中任一所述的方法，其特征在于，所述确定所述语音特征对应的语音识别结果，包括：

将所述语音特征切分为预设长度的数据块；

依据所述音素序列，确定所述数据块对应的语音识别结果。

5.根据权利要求1至3中任一所述的方法，其特征在于，所述隐马尔可夫模型的训练准则包括：无词图的最大互信息准则。

6.一种神经网络模型的训练方法，其特征在于，所述神经网络模型应用于语音识别，所述语音识别的声学模型包括：所述神经网络模型与隐马尔可夫模型；所述方法包括：

对训练数据进行对齐，以得到对齐信息；

依据所述训练数据对应的数据块，对所述神经网络模型进行训练；所述神经网络模型包括：输入层、隐层和输出层；所述隐层包括：前馈神经网络层和自注意力神经网络层；

7.根据权利要求6所述的方法，其特征在于，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

8.根据权利要求7所述的方法，其特征在于，所述隐层包括：至少三个隐层对；所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

9.根据权利要求8所述的方法，其特征在于，所述对所述神经网络模型进行训练，包括：

10.一种语音识别装置，其特征在于，包括：

语音特征确定模块，用于确定待识别语音的语音特征；

语音识别结果输出模块，用于输出所述语音识别结果；

11.根据权利要求10所述的装置，其特征在于，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

12.根据权利要求10所述的装置，其特征在于，所述隐层包括：至少三个隐层对；所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

13.根据权利要求10至12中任一所述的装置，其特征在于，所述语音识别结果确定模块包括：

切分模块，用于将所述语音特征切分为预设长度的数据块；

14.根据权利要求10至12中任一所述的装置，其特征在于，所述隐马尔可夫模型的训练准则包括：无词图的最大互信息准则。

15.一种神经网络模型的训练装置，其特征在于，所述神经网络模型应用于语音识别，所述语音识别的声学模型包括：所述神经网络模型与隐马尔可夫模型；所述装置包括：

对齐模块，用于对训练数据进行对齐，以得到对齐信息；

训练模块，用于依据所述训练数据对应的数据块，对所述神经网络模型进行训练；所述神经网络模型包括：输入层、隐层和输出层；所述隐层包括：前馈神经网络层和自注意力神经网络层；

16.根据权利要求15所述的装置，其特征在于，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

17.根据权利要求15所述的装置，其特征在于，所述隐层包括：至少三个隐层对；所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

18.根据权利要求17所述的装置，其特征在于，所述训练模块包括：

19.一种用于语音识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定待识别语音的语音特征；

输出所述语音识别结果；

20.根据权利要求19所述的装置，其特征在于，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

21.根据权利要求19所述的装置，其特征在于，所述隐层包括：至少三个隐层对；所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

22.根据权利要求19至21中任一所述的装置，其特征在于，所述确定所述语音特征对应的语音识别结果，包括：

将所述语音特征切分为预设长度的数据块；

依据所述音素序列，确定所述数据块对应的语音识别结果。

23.根据权利要求19至21中任一所述的装置，其特征在于，所述隐马尔可夫模型的训练准则包括：无词图的最大互信息准则。

24.一种用于训练神经网络模型的装置，其特征在于，其特征在于，所述神经网络模型应用于语音识别，所述语音识别的声学模型包括：所述神经网络模型与隐马尔可夫模型；所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对训练数据进行对齐，以得到对齐信息；

25.根据权利要求24所述的装置，其特征在于，所述前馈神经网络层包括：延时神经网络层、或者卷积神经网络层。

26.根据权利要求24所述的装置，其特征在于，所述隐层包括：至少三个隐层对；所述输出层包括：第一输出层和第二输出层；所述第一输出层设置于最后一个隐层对之后，所述第二输出层设置于中间的隐层对之后；所述第一输出层的处理结果被输出至所述隐马尔可夫模型。

27.根据权利要求26所述的装置，其特征在于，所述对所述神经网络模型进行训练，包括：

28.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至5中一个或多个所述的语音识别方法。

29.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求6至9中一个或多个所述的方法。