CN112133285B

CN112133285B - 语音识别方法、装置、存储介质和电子设备

Info

Publication number: CN112133285B
Application number: CN202010901119.1A
Authority: CN
Inventors: 黄辰; 丁科; 万广鲁
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2024-03-01
Anticipated expiration: 2040-08-31
Also published as: CN112133285A

Abstract

本公开涉及一种语音识别方法、装置、存储介质和电子设备，该方法包括：获取待处理语音对应的声学特征序列，根据多个声学特征，从解码网络包括的多个路径中确定最优路径，路径中的相邻两个状态节点通过转移边相连接，区分转移边对应的输入单元为区分符，根据最优路径包括的多个目标词语以及最优路径中的每个区分符对应的目标时间，确定每个目标词语对应的词持续时间，将每个目标词语和每个目标词语对应的词持续时间，作为待处理语音对应的语音识别结果。本公开通过设置有区分符的解码网络，对待处理语音进行解码，只需要通过每个区分符对应的目标时间，就能够高效地获取每个目标词语对应的词持续时间，使解码消耗的内存小，提高了解码的效率。

Description

语音识别方法、装置、存储介质和电子设备

技术领域

本公开涉及语音识别技术领域，具体地，涉及一种语音识别方法、装置、存储介质和电子设备。

背景技术

近年来，随着人工智能技术的兴起，作为人工智能技术的重要研究方向之一的语音识别(英文：Automatic Speech Recognition，缩写：ASR)技术，被广泛应用于工业、通信、汽车电子、医疗、智能服务等多个领域之中。通过语音识别技术能够从给定的一段待处理语音的语音波形中，识别出该待处理语音对应的文字内容，并生成相应的词序列。在语音识别的某些特定应用场景下(例如，识别用户发出的语音与用户的口型是否匹配的场景)，语音识别技术在获取词序列的同时，还需要获取词序列中每个词语对应的词持续时间，进而更准确的分辨待处理语音中的每个词语。

发明内容

为了解决相关技术中存在的问题，本公开提供了一种语音识别方法、装置、存储介质和电子设备。

为了实现上述目的，根据本公开实施例的第一方面，本公开提供一种语音识别方法，所述方法包括：

获取待处理语音对应的声学特征序列，所述声学特征序列包括多个声学特征；

根据所述多个声学特征，从预先构建的解码网络包括的多个路径中确定最优路径；

其中，所述路径包括按顺序排列的多个词语中的每个词语对应的多个状态节点，所述路径中的相邻两个状态节点通过转移边相连接，每个所述转移边对应有转移标识，所述转移标识包括输入单元、输出单元和权重，所述转移边为区分转移边或建模转移边，所述区分转移边对应的输入单元为区分符，所述区分转移边对应的输出单元为空，所述区分符用于分隔所述多个词语，所述多个状态节点中的最后一个状态节点与所述最后一个状态节点在所述路径中的下一个状态节点之间的转移边为所述区分转移边；

根据所述最优路径包括的多个目标词语以及所述最优路径中的每个所述区分符对应的目标时间，确定每个所述目标词语对应的词持续时间；

将每个所述目标词语和每个所述目标词语对应的所述词持续时间，作为所述待处理语音对应的语音识别结果。

可选地，所述建模转移边对应的输入单元为声学建模单元，所述解码网络通过以下方式构建：

针对于预先构建的发音状态转换器包括的每个第一路径，在所述第一路径中的最后两个状态节点之间插入第一区分状态节点，所述第一区分状态节点与所述第一路径中的最后一个状态节点之间的第一转移边为所述区分转移边，所述发音状态转换器为有限状态转换器；

针对于预先构建的声学状态转换器包括的每个第二路径，在所述第二路径中的首个状态节点上添加第二转移边，所述第二转移边为自循环的所述区分转移边，所述声学状态转换器为加权有限状态转换器；

对所述发音状态转换器和预先构建的语言状态转换器进行合成处理，以获取第一状态转换器，所述语言状态转换器为加权有限状态转换器；

根据所述第一状态转换器确定第二状态转换器；

对所述声学状态转换器和所述第二状态转换器进行合成处理，以获取所述解码网络。

可选地，所述根据所述第一状态转换器确定第二状态转换器，包括：

获取所述第一状态转换器包括的多个第三路径中的多个区分转移边；

获取所述多个区分转移边中的每个区分转移边对应的第一目标状态节点和第二目标状态节点，所述第一目标状态节点为所述每个区分转移边所连接的两个状态节点中的前一个状态节点，所述第二目标状态节点为所述每个区分转移边所连接的两个状态节点中的后一个状态节点；

根据每个所述第三路径中的目标建模转移边，所述目标建模转移边的前一个建模转移边，所述目标建模转移边的后一个建模转移边，以及所述第一目标状态节点，对所述第三路径进行更新，以获取多个第四路径；

在每个所述第四路径中的所述第二目标状态节点的后一个状态节点与所述第二目标状态节点之间插入第二区分状态节点，以获取所述第二状态转换器，所述第二区分状态节点与所述第二目标状态节点之间通过所述区分转移边连接。

可选地，所述根据每个所述第三路径中的目标建模转移边，所述目标建模转移边的前一个建模转移边，所述目标建模转移边的后一个建模转移边，以及所述第一目标状态节点，对所述第三路径进行更新，以获取多个第四路径，包括：

根据每个所述第三路径中的目标建模转移边的前一个建模转移边对应的输入单元以及所述目标建模转移边的后一个建模转移边对应的输入单元，确定所述目标建模转移边对应的目标输入单元；

将所述目标建模转移边对应的输入单元更新为所述目标输入单元；

在所述第三路径中的第一目标状态节点的前一个状态节点与所述第一目标状态节点之间插入第三区分状态节点，以获取所述多个第四路径，所述第三区分状态节点与所述第一目标状态节点之间通过第三转移边连接，所述第三转移边对应的输入单元和输出单元均为空。

可选地，所述获取待处理语音对应的声学特征序列，包括：

对所述待处理语音进行分帧处理，以获取所述待处理语音对应的语音帧序列，所述语音帧序列包括所述待处理语音中的多个语音帧；

对每个所述语音帧进行特征提取，以获取每个所述语音帧对应的声学特征；

根据所述语音帧序列和所述每个所述语音帧对应的声学特征，确定所述声学特征序列。

可选地，所述根据所述多个声学特征，从预先构建的解码网络包括的多个路径中确定最优路径，包括：

在将所述多个声学特征输入所述解码网络后，确定第一状态节点对应的多个第二状态节点，所述第二状态节点位于所述第一状态节点之后，且所述第一状态节点与每个所述第二状态节点之间存在转移边，所述第一状态节点为所述解码网络的初始状态节点；

根据每个所述第二状态节点和目标声学特征，确定从所述初始状态节点到每个所述第二状态节点的目标路径，所述目标声学特征为所述多个声学特征中的首个声学特征；

将所述目标路径中的第二状态节点作为所述第一状态节点，并将所述目标声学特征的下一个声学特征作为所述目标声学特征，重复执行从所述确定第一状态节点对应的多个第二状态节点到所述根据每个所述第二状态节点和目标声学特征，确定从所述初始状态节点到每个所述第二状态节点的目标路径的步骤，直至确定从所述初始状态节点到所述解码网络的终止状态节点的目标路径，以将所述目标路径作为所述最优路径。

可选地，所述根据每个所述第二状态节点和目标声学特征，确定从所述初始状态节点到每个所述第二状态节点的目标路径，包括：

根据第四转移边对应的输入单元和所述目标声学特征的相似度，确定每个所述第二状态节点对应的声学得分，所述第四转移边为所述第一状态节点与所述第二状态节点之间的转移边；

获取所述初始状态节点到每个所述第二状态节点之间的多个待选路径；

根据每个所述待选路径中的每个转移边对应的权重，以及每个所述待选路径中的每个状态节点对应的声学得分，确定每个所述待选路径对应的路径得分；

将所述多个待选路径中具备最高路径得分的待选路径作为所述目标路径。

可选地，所述根据所述目标时间，确定每个所述目标词语对应的词持续时间，包括：

针对每个所述目标词语，获取该目标词语对应的区分转移边对应的第一区分符，以及该目标词语的前一个词语对应的区分转移边对应的第二区分符；

将所述第一区分符对应的第一时间点和所述第二区分符对应的第二时间点的差值，作为该目标词语的词持续时间。

根据本公开实施例的第二方面，提供一种语音识别装置，所述装置包括：

获取模块，被配置成用于获取待处理语音对应的声学特征序列，所述声学特征序列包括多个声学特征；

确定模块，被配置成用于根据所述多个声学特征，从预先构建的解码网络包括的多个路径中确定最优路径；

所述确定模块，还被配置成用于根据所述最优路径包括的多个目标词语以及所述最优路径中的每个所述区分符对应的目标时间，确定每个所述目标词语对应的词持续时间；

识别模块，被配置成用于将每个所述目标词语和每个所述目标词语对应的所述词持续时间，作为所述待处理语音对应的语音识别结果。

根据所述第一状态转换器确定第二状态转换器；

可选地，所述获取模块包括：

处理子模块，被配置成用于对所述待处理语音进行分帧处理，以获取所述待处理语音对应的语音帧序列，所述语音帧序列包括所述待处理语音中的多个语音帧；

特征提取子模块，被配置成用于对每个所述语音帧进行特征提取，以获取每个所述语音帧对应的声学特征；

第一确定子模块，被配置成用于根据所述语音帧序列和所述每个所述语音帧对应的声学特征，确定所述声学特征序列。

可选地，所述确定模块包括：

第二确定子模块，被配置成用于在将所述多个声学特征输入所述解码网络后，确定第一状态节点对应的多个第二状态节点，所述第二状态节点位于所述第一状态节点之后，且所述第一状态节点与每个所述第二状态节点之间存在转移边，所述第一状态节点为所述解码网络的初始状态节点；

第三确定子模块，被配置成用于根据每个所述第二状态节点和目标声学特征，确定从所述初始状态节点到每个所述第二状态节点的目标路径，所述目标声学特征为所述多个声学特征中的首个声学特征；

可选地，所述第三确定子模块被配置成用于：

可选地，所述确定模块包括：

获取子模块，被配置成用于针对每个所述目标词语，获取该目标词语对应的区分转移边对应的第一区分符，以及该目标词语的前一个词语对应的区分转移边对应的第二区分符；

第四确定子模块，被配置成用于将所述第一区分符对应的第一时间点和所述第二区分符对应的第二时间点的差值，作为该目标词语的词持续时间。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以上第一方面所述方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现以上第一方面所述方法的步骤。

通过上述技术方案，本公开首先通过获取待处理语音对应的包括多个声学特征的声学特征序列，并根据多个声学特征，从解码网络包括的多个路径中确定最优路径，其中，路径包括按顺序排列的多个词语中的每个词语对应的多个状态节点，路径中的相邻两个状态节点通过转移边相连接，每个转移边对应有转移标识，转移标识包括输入单元、输出单元和权重，转移边为区分转移边或建模转移边，区分转移边对应的输入单元为区分符，区分转移边对应的输出单元为空，区分符用于分隔多个词语，多个状态节点中的最后一个状态节点与最后一个状态节点在路径中的下一个状态节点之间的转移边为区分转移边，最后根据最优路径包括的多个目标词语以及最优路径中的每个区分符对应的目标时间，确定每个目标词语对应的词持续时间，并将每个目标词语和每个目标词语对应的词持续时间，作为待处理语音对应的语音识别结果。本公开通过设置有区分符的解码网络，对待处理语音进行解码，不需要建立大量的标签来记录每个转移边对应的时间点，只需要通过每个区分符对应的目标时间，就能够高效地获取每个目标词语对应的词持续时间，使解码消耗的内存小，提高了解码的效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种语音识别方法的流程图；

图2是根据一示例性实施例示出的一种构建解码网络的流程图；

图3a是根据一示例性实施例示出的一种发音状态转换器的示意图；

图3b是根据一示例性实施例示出的另一种发音状态转换器的示意图；

图4是根据一示例性实施例示出的一种声学状态转换器的示意图；

图5是根据一示例性实施例示出的一种第一状态转换器的示意图；

图6是根据一示例性实施例示出的一种解码网络的示意图；

图7a是根据一示例性实施例示出的一种第三路径的示意图；

图7b是根据一示例性实施例示出的一种第四路径的示意图；

图7c是根据一示例性实施例示出的一种第二状态转换器包括的路径的示意图；

图8是根据图1所示实施例示出的一种步骤101的流程图；

图9是根据图1所示实施例示出的一种步骤102的流程图；

图10是根据一示例性实施例示出的另一种解码网络的示意图；

图11是根据一示例性实施例示出的一种语音识别装置的框图；

图12是根据图11所示实施例示出的一种获取模块的框图；

图13是根据图11所示实施例示出的一种确定模块的框图；

图14是根据图11所示实施例示出的另一种确定模块的框图；

图15是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

在介绍本公开提供的语音识别方法、装置、存储介质和电子设备之前，首先对本公开各个实施例所涉及应用场景进行介绍，该应用场景可以是通过语音识别系统进行语音识别的场景，语音识别系统可以包括解码器，该解码器可以为静态解码器。在该场景下，当获取到待处理语音时，可以通过解码器对待处理语音进行解码，以获取待处理语音对应的语音识别结果。其中，解码器的构建过程以及待处理语音的解码过程可以是在终端上完成的，也可以是在服务器上完成的。该终端例如可以是是智能手机、平板电脑、智能手表、智能手环、PDA(英文：Personal Digital Assistant，中文：个人数字助理)等移动终端，也可以是台式计算机等固定终端。该服务器可以包括但不限于：实体服务器，服务器集群或云端服务器等。

相关技术中，为了获取词序列中每个词语对应的词持续时间，主要是通过预先构建包括多个路径的解码网络，并在多个路径包括的每个转移边上建立相应的标签来记录该转移边对应的时间点。之后由解码器对待处理语音进行解码，以在解码网络包括的多个路径中，寻找到最优路径，并通过回溯路径，来获取每个词语对应的词持续时间。然而，在每个转移边上建立标签来记录该转移边对应的时间点，需要建立大量的标签，使解码消耗的内存增大，并降低解码的效率，导致获取词序列中每个词语对应的词持续时间的效率较低。

图1是根据一示例性实施例示出的一种语音识别方法的流程图。如图1所示，该方法包括以下步骤：

步骤101，获取待处理语音对应的声学特征序列。

其中，声学特征序列包括多个声学特征。

举例来说，在对待处理语音进行语音识别时，首先需要对待处理语音进行预处理，以将待处理语音转换为解码器所需要的声学特征。例如，可以在语音识别系统中设置有用于对待处理语音进行预处理的信号处理模块，语音识别系统在接收到待处理语音时，可以通过信号处理模块根据人耳的听觉感知特点，抽取待处理语音中每帧待处理语音对应的声学特征，以获取待处理语音对应的包括多个声学特征的声学特征序列。

步骤102，根据多个声学特征，从预先构建的解码网络包括的多个路径中确定最优路径。

其中，路径包括按顺序排列的多个词语中的每个词语对应的多个状态节点，路径中的相邻两个状态节点通过转移边相连接，上述每个转移边对应有转移标识，转移标识包括输入单元、输出单元和权重，转移边为区分转移边或建模转移边，区分转移边对应的输入单元为区分符，区分转移边对应的输出单元为空，区分符用于分隔多个词语，多个状态节点中的最后一个状态节点与最后一个状态节点在路径中的下一个状态节点之间的转移边为区分转移边。

示例地，解码器可以是基于预先训练好的声学模型、语言模型以及发音词典构建的一个包含所有词序列的静态解码网络，解码网络可以包括多个路径，每个路径对应一个词序列，每个词序列包括按顺序排列的多个词语，每个路径由该路径对应的词序列中的每个词语对应的多个状态节点，通过转移边依次连接组成。每个路径中包括的转移边分为区分转移边和建模转移边，区分转移边对应的输入单元为区分符，区分转移边对应的输出单元为空，建模转移边对应的输入单元为声学建模单元，建模转移边对应的输出单元可以为词语，也可以为空。路径中的任一状态节点可以通过转移边对应的输入单元进行转移，以从该状态节点切换到该状态节点的下一个状态节点，并在转移的过程中输出输出单元。其中，声学建模单元例如可以为HMM(英文：Hidden Markov Model，中文：隐马尔可夫模型)状态、音素和字中的任一种。解码网络可以为WFST(英文：Weighted Finite State Transducer，中文：加权有限状态转换器)，该解码网络中存储有语言模型对应的语言模型得分，语言模型得分可以理解为由多个词语组成的文本序列发生的概率，语言模型得分可以用转移边对应的权重来表示，也就是说，在对待处理语音进行解码时，可以直接从解码网络中获取语言模型得分。

声学模型用于对语音的发音规律进行建模，以获取声学建模单元，通过声学模型可以得到待处理语音为一种发音的概率，可以采用HMM模型作为声学模型进行建模。语言模型用于确定某一文本序列发生的概率，语言模型可以为N-Gram(中文：汉语语言模型)模型。发音词典可以将语言模型和声学模型关联起来，通过发音词典可以得到每个词语对应的发音，例如，当发音词典用于表征音素与词语之间的映射关系时，可以将音素“ee”和“ei1”所组成的音素序列映射为词语“A”。声学模型和语言模型是利用大量的语料进行统计分析，进而建模得到的，发音词典则是由语言专家制定并人工制作的，声学模型、语言模型和发音词典的具体构建方式可以参考相关技术中描述的方式，此处不再详细赘述。

在获取到声学特征序列后，可以将声学特征序列包括的多个声学特征，输入到解码网络中，并从解码网络包括的多个路径中，搜索路径得分最高的路径作为最优路径。其中，每个路径对应的路径得分(即待处理语音为该路径对应的词序列的概率)包括语言模型得分和声学模型的声学得分(即待处理语音为该路径对应的词序列的发音的概率)，最优路径即为语言模型得分和声学模型得分的和值或乘积值最高的路径。

步骤103，根据最优路径包括的多个目标词语以及最优路径中的每个区分符对应的目标时间，确定每个目标词语对应的词持续时间。

在本步骤中，为了避免建立大量的标签(标签例如可以用trace来表示)来记录每个转移边对应的时间点，可以只在区分转移边和输出单元为词语的建模转移边上建立trace来记录转移边对应的时间点，以降低解码消耗的内存，并提高解码的效率。在确定最优路径之后，可以根据最优路径包括的多个目标词语以及最优路径中的每个区分符对应的目标时间，确定每个目标词语对应的词持续时间。确定每个目标词语对应的词持续时间的方式可以是：首先针对每个目标词语，获取该目标词语对应的区分转移边对应的第一区分符，以及该目标词语的前一个词语对应的区分转移边对应的第二区分符，之后将第一区分符对应的第一时间点和第二区分符对应的第二时间点的差值，作为该目标词语的词持续时间。例如，在最优路径包括的多个目标词语为“我”、“想”、“去”“北”、“京”的情况下，当确定“想”对应的词持续时间时，可以获取“想”对应的第一时间点为0.5s，以及“我”对应的第二时间点为0.2s，则“想”对应的词持续时间为0.3s。

步骤104，将每个目标词语和每个目标词语对应的词持续时间，作为待处理语音对应的语音识别结果。

具体的，在确定每个目标词语对应的词持续时间之后，可以将每个目标词语和每个目标词语对应的词持续时间，作为待处理语音对应的语音识别结果。例如，若多个目标词语“我”、“想”、“去”“北”、“京”对应的词持续时间分别为0.15s、0.2s、0.15s、0.15s、0.2s，可以“我，0.15s”、“想，0.2s”、“去，0.15s”“北，0.15s”、“京，0.2s”作为语音识别结果。

综上所述，本公开首先通过获取待处理语音对应的包括多个声学特征的声学特征序列，并根据多个声学特征，从解码网络包括的多个路径中确定最优路径，其中，路径包括按顺序排列的多个词语中的每个词语对应的多个状态节点，路径中的相邻两个状态节点通过转移边相连接，每个转移边对应有转移标识，转移标识包括输入单元、输出单元和权重，转移边为区分转移边或建模转移边，区分转移边对应的输入单元为区分符，区分转移边对应的输出单元为空，区分符用于分隔多个词语，多个状态节点中的最后一个状态节点与最后一个状态节点在路径中的下一个状态节点之间的转移边为区分转移边，最后根据最优路径包括的多个目标词语以及最优路径中的每个区分符对应的目标时间，确定每个目标词语对应的词持续时间，并将每个目标词语和每个目标词语对应的词持续时间，作为待处理语音对应的语音识别结果。本公开通过设置有区分符的解码网络，对待处理语音进行解码，不需要建立大量的标签来记录每个转移边对应的时间点，只需要通过每个区分符对应的目标时间，就能够高效地获取每个目标词语对应的词持续时间，使解码消耗的内存小，提高了解码的效率。

图2是根据一示例性实施例示出的一种构建解码网络的流程图。如图2所示，建模转移边对应的输入单元为声学建模单元，解码网络可以通过以下方式构建：

步骤201，针对于预先构建的发音状态转换器包括的每个第一路径，在第一路径中的最后两个状态节点之间插入第一区分状态节点。

其中，第一区分状态节点与第一路径中的最后一个状态节点之间的第一转移边为区分转移边，发音状态转换器为有限状态转换器。

举例来说，在构建解码网络的过程中，首先需要根据发音词典构建发音状态转换器(例如可以用L.fast表示发音状态转换器)，发音状态转换器可以包括多个第一路径，每个第一路径对应一个词语，每个第一路径由该第一路径对应的词语所对应的多个状态节点通过转移边依次连接组成，第一路径中的转移边对应的权重为空，即第一路径中的转移边对应的转移标识不包括权重。

示例地，图3a是根据一示例性实施例示出的一种发音状态转换器的示意图，如图3a所示，图3a中包含数字的圆圈表示状态节点，箭头表示转移边，箭头上的符号“：”前的为输入单元，符号“：”后的为输出单元。图3a所示的发音状态转换器采用音素作为各转移边对应的输入单元，该发音状态转换器包括3条第一路径，分别为：状态节点0、1、4以及状态节点0、1、4之间的转移边构成的第一路径h1，状态节点0、2、4以及状态节点0、2、4之间的转移边构成的第一路径h2，状态节点0、3、4以及状态节点0、3、4之间的转移边构成的第一路径h3。第一路径h1对应的词语为A，第一路径h2对应的词语为B，第一路径h3对应的词语为C。第一路径h1中连接状态节点0、1的箭头为转移边，该转移边上的“ee”为输入单元(“ee”为音素)，“A”为输出单元，第一路径h1中连接状态节点1、4的箭头为转移边，该转移边上的“ei1”为输入单元(“ei1”为音素)，“0”为输出单元(“0”表示输出单元为0输出)。第一路径h2、第一路径h3与第一路径h1的构成方式相同，此处不再详细说明。

然后，可以针对于每个第一路径，在第一路径中的最后两个状态节点之间插入第一区分状态节点，并通过插入第一区分状态节点之前第一路径中的最后两个状态节点之间的转移边，来连接第一路径中的倒数第二个状态节点与第一区分状态节点，同时通过区分转移边连接第一区分状态节点与第一路径中的最后一个状态节点，即第一区分状态节点与第一路径中的最后一个状态节点之间的第一转移边为区分转移边。

示例地，图3b是根据一示例性实施例示出的另一种发音状态转换器的示意图，如图3b所示，图3b所示的发音状态转换器是在图3a包括的每个第一路径中的最后两个状态节点之间插入第一区分状态节点后得到的，图3b中的符号“#0”为区分符，图3b中的其他符号所代表的具体含义与图3a相同，此处不再详细说明。图3b所示的发音状态转换器包括3条第一路径，分别为：状态节点0、1、4、7以及状态节点0、1、4、7之间的转移边构成的第一路径h4，状态节点0、2、5、7以及状态节点0、2、5、7之间的转移边构成的第一路径h5，状态节点0、3、6、7以及状态节点0、3、6、7之间的转移边构成的第一路径h6。图3b中的状态节点4、5、6为插入的第一区分状态节点，第一路径h4对应的词语为A，第一路径h5对应的词语为B，第一路径h6对应的词语为C，第一路径h4中状态节点4、7之间的转移边为区分转移边，第一路径h5中状态节点5、7之间的转移边为区分转移边，第一路径h6中状态节点6、7之间的转移边为区分转移边。

步骤202，针对于预先构建的声学状态转换器包括的每个第二路径，在第二路径中的首个状态节点上添加第二转移边。

其中，第二转移边为自循环的区分转移边，声学状态转换器为加权有限状态转换器。

具体的，在构建解码网络的过程中，还需要根据声学模型构建声学状态转换器(例如可以用Ha.fast表示声学状态转换器)，声学状态转换器可以包括多个第二路径，每个第二路径由该第二路径对应的每个声学建模单元对应的状态节点，通过转移边依次连接组成。之后可以针对于每个第二路径，在第二路径中的首个状态节点上添加第二转移边。

示例地，图4是根据一示例性实施例示出的一种声学状态转换器的示意图，如图4所示，图4为以HMM模型作为声学模型构建的声学状态转换器，图4所示的声学状态转换器采用HMM状态作为各转移边对应的输入单元，图4中包含数字的圆圈表示状态节点，箭头表示转移边，箭头上的符号“：”前的为输入单元，符号“：”后的为输出单元，符号“/”后的为权重，“state n”表示HMM状态(n为大于0，且小于或等于18的整数)，“sil”表示静音单元(即无语音输入)。该声学状态转换器包括6条第二路径，分别为：由状态节点0出发，经过状态节点1、7、13再到状态节点0构成的第二路径S1，由状态节点0出发，经过状态节点2、8、24再到状态节点0构成的第二路径S2，由状态节点0出发，经过状态节点3、9、15再到状态节点0构成的第二路径S3，由状态节点0出发，经过状态节点4、10、16再到状态节点0构成的第二路径S4，由状态节点0出发，经过状态节点5、11、17再到状态节点0构成的第二路径S5，由状态节点0出发，经过状态节点6、12、18再到状态节点0构成的第二路径S6。第二路径S1中连接状态节点0、1的箭头为转移边，该转移边上的“state 1”为输入单元(“state 1”为HMM状态)，“sil-ee+ei1”为输出单元(“-”和“+”用于表示连接)，“0.1”为权重，第二路径S1中连接状态节点1、7的箭头为转移边，该转移边上的“state 4”为输入单元(“state 4”为HMM状态)，“0”为输出单元(“0”表示输出单元为0输出)，第二路径S1中连接状态节点7、13的箭头为转移边，该转移边上的“state 7”为输入单元(“state 7”为HMM状态)，“0”为输出单元，通过第二路径S1可以将“sil-ee+ei1”映射为“state 1”、“state 4”和“state 7”的组合。第二路径S2、第二路径S3、第二路径S4、第二路径S5、第二路径S6与第二路径S1的构成方式相同，此处不再详细说明。

步骤203，对发音状态转换器和预先构建的语言状态转换器进行合成处理，以获取第一状态转换器。

其中，语言状态转换器为加权有限状态转换器。

举例来说，在构建解码网络的过程中，还需要根据语言模型构建语言状态转换器(例如可以用G.fast表示语言状态转换器)，语言状态转换器可以包括多个语言路径，每个语言路径对应至少一个词语，每个语言路径由该语言路径对应的至少一个词语中每个词语对应的状态节点，通过转移边依次连接组成。例如，在语言模型为1-Gram模型的情况下，词语“A”对应的语言路径可以包括两个状态节点0、1，状态节点0、1之间由转移边连接，该转移边对应的转移标识为“A：A/0.1”，其中，符号“：”前的“A”为输入单元，符号“：”后的“A”为输出单元，符号“/”后的“0.1”为权重。在获取到发音状态转换器和语言状态转换器之后，可以对发音状态转换器和语言状态转换器进行合成处理，将发音状态转换器中第一待拼接转移边与语言状态转换器中第二待拼接转移边进行拼接，以将第一待拼接转移边对应的输出单元用第二待拼接转移边对应的输出单元和权重替代，从而获取第一状态转换器(例如可以用LG.fast表示第一状态转换器)，其中，第一待拼接转移边对应的输出单元与第二待拼接转移边对应的输入单元相同。

示例地，图5是根据一示例性实施例示出的一种第一状态转换器的示意图，如图5所示，图5所示的第一状态转换器是对图3b所示的发音状态转换器与语言状态转换器进行合成处理后得到的，图5中符号“/”后的为权重，图5中的其他符号所代表的具体含义与图3b相同，此处不再详细说明。图5所示的第一状态转换器包括3条第三路径，分别为：状态节点0、1、4、7以及状态节点0、1、4、7之间的转移边构成的第三路径L1，状态节点0、2、5、7以及状态节点0、2、5、7之间的转移边构成的第三路径L2，状态节点0、3、6、7以及状态节点0、3、6、7之间的转移边构成的第三路径L3。第三路径L1是将图3b包括的第一路径h4中状态节点0、1之间的转移边与语言状态转换器包括的对应的转移标识为“A：A/0.1”的转移边进行拼接得到的，第三路径L2是将图3b包括的第一路径h5中状态节点0、2之间的转移边与语言状态转换器包括的对应的转移标识为“B：B/0.1”的转移边进行拼接得到的，第三路径L3是将图3b包括的第一路径h6中状态节点0、3之间的转移边与语言状态转换器包括的对应的转移标识为“C：C/0.1”的转移边进行拼接得到的。

步骤204，根据第一状态转换器确定第二状态转换器。

进一步的，在声学建模单元为音素、音节或HMM状态时，为了确保语音识别的准确度，可以利用预设的算法，将第一状态转换器由上下文无关的搜索结构转化为上下文相关的搜索结构，来对第一状态转换器的进一步扩充，以获得第二状态转换器，例如可以用CLG.fast表示第二状态转换器。

步骤205，对声学状态转换器和第二状态转换器进行合成处理，以获取解码网络。

举例来说，在获取到声学状态转换器和第二状态转换器后，可以对声学状态转换器和第二状态转换器进行合成处理，将声学状态转换器中第三待拼接转移边与第二状态转换器中第四待拼接转移边进行拼接，以将第三待拼接转移边对应的输出单元用第四待拼接转移边对应的输出单元和权重替代，从而获取解码网络(例如可以用HCLG.fast表示第二状态转换器)，其中，第三待拼接转移边对应的输出单元与第四待拼接转移边对应的输入单元相同。

示例地，图6是根据一示例性实施例示出的一种解码网络的示意图，如图6所示，图6所示的解码网络是对图4所示的声学状态转换器与第二状态转换器进行合成处理后得到的，图6中的符号所代表的具体含义与图4相同，此处不再详细说明。图6所示的解码网络包括3条路径，分别为：状态节点0、1、4、7、10、13、16、19以及状态节点0、1、4、7、10、13、16、19之间的转移边构成的路径m1，状态节点0、2、5、8、11、14、17、19以及状态节点0、2、5、8、11、14、17、19之间的转移边构成的路径m2，状态节点0、3、6、9、12、15、18、19以及状态节点0、3、6、9、12、15、18、19之间的转移边构成的路径m3。路径m1是将图4包括的第二路径S1中状态节点0、1之间的转移边与第二状态转换器包括的对应的转移标识为“sil-ee+ei1：A/0.1”的转移边进行拼接，并将图4包括的第二路径S4中状态节点0、4之间的转移边与第二状态转换器包括的对应的转移标识为“ee-ei1+sil：0”的转移边进行拼接得到的，得到路径m2、路径m3的方式与得到路径m1的方式相同，此处不再详细说明。

可选地，步骤204可以包括以下步骤：

步骤(A)，获取第一状态转换器包括的多个第三路径中的多个区分转移边。

步骤(B)，获取多个区分转移边中的每个区分转移边对应的第一目标状态节点和第二目标状态节点。

其中，第一目标状态节点为每个区分转移边所连接的两个状态节点中的前一个状态节点，第二目标状态节点为每个区分转移边所连接的两个状态节点中的后一个状态节点。

具体的，在对第一状态转换器进行扩充来获得第二状态转换器的过程中，需要避免由于区分符发生前移，导致的解码网络中的区分符无法有效地对多个词语进行区分的问题。为了避免区分符发生前移，首先可以获取第一状态转换器包括的多个第三路径中的多个区分转移边，并将多个区分转移边中的每个区分转移边所连接的两个状态节点中的前一个状态节点作为第一目标状态节点，同时将多个区分转移边中每个区分转移边所连接的两个状态节点中的后一个状态节点作为第二状态节点。

示例地，图7a是根据一示例性实施例示出的一种第三路径的示意图，如图7a所示，图7a中包含数字的圆圈表示状态节点，箭头表示转移边，箭头上的符号“：”前的为输入单元，符号“：”后的为输出单元，符号“#0”为区分符。图7a所示的第三路径采用音素作为各转移边对应的输入单元，该第三路径由状态节点0、1、2、3、4、5、6、7、8、9以及状态节点0、1、2、3、4、5、6、7、8、9之间的转移边构成。第三路径中连接状态节点0、1的箭头为转移边，该转移边上的“ee”为输入单元(“ee”为音素)，“A”为输出单元，第三路径中其他转移边与状态节点0、1之间的转移边的构成方式相同，此处不再详细说明。图7a所示的第三路径中的多个区分转移边分别为：状态节点2、3之间的转移边、状态节点5、6之间的转移边、状态节点8、9之间的转移边，第一目标状态节点为状态节点2、5、8，第二目标状态节点为状态节点3、6、9。

步骤(C)，根据每个第三路径中的目标建模转移边，目标建模转移边的前一个建模转移边，目标建模转移边的后一个建模转移边，以及第一目标状态节点，对第三路径进行更新，以获取多个第四路径。

举例来说，在获取到第一目标状态节点和第二目标状态节点后，可以进一步获取每个第三路径中的目标建模转移边，目标建模转移边可以为该第三路径中的任一建模转移边。然后，可以根据每个第三路径中的目标建模转移边的前一个建模转移边对应的输入单元以及目标建模转移边的后一个建模转移边对应的输入单元，确定目标建模转移边对应的目标输入单元，例如，可以采用三音素模型来确定目标输入单元。当目标建模转移边为第三路径中的第一个建模转移边时，目标建模转移边的前一个建模转移边对应的输入单元为静音单元(即无语音输入)，例如可以用“sil”来表示，当目标建模转移边为第三路径中的最后一个建模转移边时，目标建模转移边的后一个建模转移边对应的输入单元也为静音单元。之后可以将目标建模转移边对应的输入单元更新为目标输入单元，以将第一状态转换器转化为上下文相关的搜索结构。最后在第三路径中的第一目标状态节点的前一个状态节点与第一目标状态节点之间插入第三区分状态节点，以获取多个第四路径。其中，第三区分状态节点与第一目标状态节点之间通过第三转移边连接，第三转移边对应的输入单元和输出单元均为空。

示例地，图7b是根据一示例性实施例示出的一种第四路径的示意图，如图7b所示，图7b所示的第四路径是对图7a所示的第三路径中进行更新后得到的，图7b中的“-”和“+”用于表示连接，图7b中的其他符号所代表的具体含义与图7a相同，此处不再详细说明。图7b所示的第四路径的获取方式为：(1)首先确定图7a所示的第三路径包括的多个建模转移边分别为：状态节点0、1之间的建模转移边n1，状态节点1、2之间的建模转移边n2，状态节点3、4之间的建模转移边n3，状态节点4、5之间的建模转移边n4，状态节点6、7之间的建模转移边n5，状态节点7、8之间的建模转移边n6。(2)根据建模转移边n1对应的输入单元“ee”，建模转移边n1前一个建模转移边对应的输入单元“sil”，和建模转移边n1后一个建模转移边(即建模转移边n2)对应的输入单元“ei1”，采用三音素模型进行拼接，以得到建模转移边n1对应的目标输入单元“sil-ee+ei1”，并将建模转移边n1对应的输入单元由“ee”更新为目标输入单元“sil-ee+ei1”，以得到图7b所示的第四路径中状态节点0、1之间的转移边，再针对建模转移边n2、n3、n4、n5、n6采用与建模转移边n1相同的方式，来更新建模转移边n2、n3、n4、n5、n6的输入单元，以得到图7b所示的第四路径中状态节点2、3之间的转移边，状态节点3、4之间的转移边，状态节点5、6之间的转移边，状态节点6、7之间的转移边，状态节点8、9之间的转移边。(3)在图7a所示的第三路径中的状态节点2之前插入第三区分状态节点(即图7b所示的第四路径中的状态节点1)，并通过第三转移边进行连接(即图7b所示的第四路径中的状态节点1、2之间的转移边)，再针对第三路径中的状态节点5、8采用与状态节点2同样的方式插入第三区分状态节点，以获取图7b所示的第四路径。

步骤(D)，在每个第四路径中的第二目标状态节点的后一个状态节点与第二目标状态节点之间插入第二区分状态节点，以获取第二状态转换器，第二区分状态节点与第二目标状态节点之间通过区分转移边连接。

在本步骤中，在获取到多个第四路径后，可以在每个第四路径中的第二目标状态节点的后一个状态节点与第二目标状态节点之间插入第二区分状态节点，并通过区分转移边连接第二区分状态节点与第二目标状态节点，同时通过插入第二区分状态节点之前第四路径中的第二目标状态节点的后一个状态节点与第二目标状态节点之间的转移边，来连接第四路径中的第二目标状态节点的后一个状态节点与第二区分状态节点，以获取第二状态转换器。

示例地，图7c是根据一示例性实施例示出的一种第二状态转换器包括的路径的示意图，如图7c所示，图7c所示的路径是对图7b所示的第四路径插入第二区分状态节点后得到的，图7c中的其他符号所代表的具体含义与图7b相同，此处不再详细说明。图7c所示的路径的获取方式为：在图7b所示的第四路径中的状态节点3之后插入第二区分状态节点(即图7c所示的第四路径中的状态节点10)，并通过区分转移边进行连接(即图7c所示的第四路径中的状态节点3、10之间的转移边)，再针对第四路径中的状态节点6、9采用与状态节点3同样的方式插入第二区分状态节点，以获取图7c所示的路径。

图8是根据图1所示实施例示出的一种步骤101的流程图。如图8所示，步骤101可以包括以下步骤：

步骤1011，对待处理语音进行分帧处理，以获取待处理语音对应的语音帧序列。

其中，语音帧序列包括待处理语音中的多个语音帧。

举例来说，在对待处理语音进行预处理的过程中，首先可以通过信号处理模块，利用语音信号的短时平稳性，对待处理语音进行分帧处理，以获取语音帧序列，语音帧序列包括按时间先后顺序排列的多个语音帧。进一步的，为了提高所获取的语音帧的质量，还可以通过消除噪音、信道失真等处理对各语音帧进行优化。

步骤1012，对每个语音帧进行特征提取，以获取每个语音帧对应的声学特征。

在本步骤中，可以对获取到的每个语音帧进行特征提取，以获取每个语音帧对应的声学特征。其中，声学特征可以为MFCC(英文：Mel-frequency Cepstrum Coefficients，中文：梅尔频率倒谱系数)，FBank(英文：Mel-scale Filter Bank，中文：梅尔标度滤波器组)和LPC(英文：Linear Predictive Coding，中文：线性预测编码)等。

步骤1013，根据语音帧序列和每个语音帧对应的声学特征，确定声学特征序列。

示例地，在获取到每个语音帧对应的声学特征之后，可以将每个语音帧对应的声学特征，按照语音帧序列中多个语音帧的先后顺序组成声学特征序列。其中，声学特征序列可以用OT＝o1，o2，…，on来表示，OT为声学特征序列，o1，o2，…，on分别表示每帧语音对应的声学特征。

图9是根据图1所示实施例示出的一种步骤102的流程图。如图9所示，步骤102可以包括以下步骤：

步骤1021，在将多个声学特征输入解码网络后，确定第一状态节点对应的多个第二状态节点。

其中，第二状态节点位于第一状态节点之后，且第一状态节点与每个第二状态节点之间存在转移边，第一状态节点为解码网络的初始状态节点。

举例来说，解码网络中的每个路径都是以解码网络的初始状态节点为起点，以解码网络的终止状态节点为终点的。在将多个声学特征输入到解码网络后，需要根据多个声学特征，确定最优路径。例如，可以在将多个声学特征输入所述解码网络后，确定位于第一状态节点之后，且第一状态节点与每个第二状态节点之间存在转移边的多个第二状态节点。如图10所示，状态节点1为解码网络的初始状态节点，状态节点8为解码网络的终止状态节点，当第一状态节点为初始状态节点时，第二状态节点为状态节点2和状态节点3。

步骤1022，根据每个第二状态节点和目标声学特征，确定从初始状态节点到每个第二状态节点的目标路径。

其中，目标声学特征为多个声学特征中的首个声学特征。

在本步骤中，首先可以根据第四转移边对应的输入单元和目标声学特征的相似度，确定每个第二状态节点对应的声学得分，其中，第四转移边为第一状态节点与第二状态节点之间的转移边。之后可以获取初始状态节点到每个第二状态节点之间的多个待选路径，并根据每个待选路径中的每个转移边对应的权重，以及每个待选路径中的每个状态节点对应的声学得分，确定每个待选路径对应的路径得分。确定每个待选路径对应的路径得分的方式可以是：将每个待选路径中每个转移边对应的权重以及每个待选路径中的每个状态节点对应的声学得分的和值或乘积值，作为该待选路径对应的路径得分。最后将多个待选路径中具备最高路径得分的待选路径作为目标路径。

步骤1023，将目标路径中的第二状态节点作为第一状态节点，并将目标声学特征的下一个声学特征作为目标声学特征，重复执行从步骤1021到步骤1022，直至确定从初始状态节点到解码网络的终止状态节点的目标路径，以将目标路径作为最优路径。

示例地，在确定从初始状态节点到每个第二状态节点的目标路径后，可以将多个待选路径中除目标路径外的其他待选路径丢弃，以缩小路径搜索的范围，从而提高解码效率。之后可以将目标路径中的第二状态节点作为新的第一状态节点，并将目标声学特征的下一个声学特征作为新的目标声学特征。然后重复执行从步骤1021到步骤1022，直至确定从初始状态节点到终止状态节点的目标路径，并将目标路径作为最优路径。

以图10所示的解码网络为例对确定最优路径进行进一步说明，图10所示的解码网络包括8个状态节点(状态节点1-8)以及12个转移边(转移边1-12)。在将多个声学特征输入解码网络后，首先可以将状态节点1(即初始状态节点)作为第一状态节点，并确定此时的第二状态节点(即状态节点2、3)。由于状态节点1到状态节点2的待选路径只有1个(即只包括转移边1的待选路径)，那么从初始状态节点到状态节点2的目标路径为只包括转移边1的待选路径，状态节点1到状态节点3的待选路径也只有1个(即只包括转移边2的待选路径)，那么从初始状态节点到状态节点3的目标路径为只包括转移边2的待选路径。

其次，将只包括转移边1的待选路径中的第二状态节点(即状态节点2)作为新的第一状态节点，并将只包括转移边2的待选路径的第二状态节点(即状态节点3)作为新的第一状态节点。再确定此时的第二状态节点(即状态节点4、5)，状态节点1到状态节点4的待选路径只有2个(即包括转移边1、转移边3的待选路径和包括转移边2、转移边5的待选路径)，状态节点1到状态节点5的待选路径也只有2个(即包括转移边1、转移边4的待选路径和包括转移边2、转移边6的待选路径)。若包括转移边1、转移边3的待选路径对应的路径得分，大于包括转移边2、转移边5的待选路径对应的路径得分，那么可以确定从初始状态节点到状态节点4的目标路径为包括转移边1、转移边3的待选路径。若包括转移边2、转移边6的待选路径对应的路径得分，大于包括转移边1、转移边4的待选路径对应的路径得分，那么可以确定从初始状态节点到状态节点5的目标路径为包括转移边2、转移边6的待选路径。

然后，将包括转移边1、转移边3的待选路径中的第二状态节点(即状态节点4)作为新的第一状态节点，并将包括转移边2、转移边6的待选路径的第二状态节点(即状态节点5)作为新的第一状态节点，此时的第二状态节点为状态节点6、7。再继续采用上述方式确定从初始状态节点到状态节点6的目标路径为包括转移边1、转移边3、转移边7的待选路径，确定从从初始状态节点到状态节点7的目标路径为包括转移边2、转移边6、转移边10的待选路径。

最后，将包括转移边1、转移边3、转移边7的待选路径的第二状态节点(即状态节点6)作为新的第一状态节点，并将包括转移边2、转移边6、转移边10的待选路径的第二状态节点(即状态节点7)新的第一状态节点，此时的第二状态节点为状态节点8(即终止状态节点)。再继续采用上述方式确定从初始状态节点到状态节点8的目标路径为包括转移边1、转移边3、转移边7、转移边11的待选路径，并将包括转移边1、转移边3、转移边7、转移边11的待选路径作为最优路径。

图11是根据一示例性实施例示出的一种语音识别装置的框图。如图11所示，该装置300包括：

获取模块301，被配置成用于获取待处理语音对应的声学特征序列，声学特征序列包括多个声学特征。

确定模块302，被配置成用于根据多个声学特征，从预先构建的解码网络包括的多个路径中确定最优路径。

其中，路径包括按顺序排列的多个词语中的每个词语对应的多个状态节点，路径中的相邻两个状态节点通过转移边相连接，每个转移边对应有转移标识，转移标识包括输入单元、输出单元和权重，转移边为区分转移边或建模转移边，区分转移边对应的输入单元为区分符，区分转移边对应的输出单元为空，区分符用于分隔多个词语，多个状态节点中的最后一个状态节点与最后一个状态节点在路径中的下一个状态节点之间的转移边为区分转移边。

确定模块302，还被配置成用于根据最优路径包括的多个目标词语以及最优路径中的每个区分符对应的目标时间，确定每个目标词语对应的词持续时间。

识别模块303，被配置成用于将每个目标词语和每个目标词语对应的词持续时间，作为待处理语音对应的语音识别结果。

可选地，建模转移边对应的输入单元为声学建模单元，解码网络通过以下方式构建：

针对于预先构建的发音状态转换器包括的每个第一路径，在第一路径中的最后两个状态节点之间插入第一区分状态节点，第一区分状态节点与第一路径中的最后一个状态节点之间的第一转移边为区分转移边，发音状态转换器为有限状态转换器。

针对于预先构建的声学状态转换器包括的每个第二路径，在第二路径中的首个状态节点上添加第二转移边，第二转移边为自循环的区分转移边，声学状态转换器为加权有限状态转换器。

对发音状态转换器和预先构建的语言状态转换器进行合成处理，以获取第一状态转换器，语言状态转换器为加权有限状态转换器。

根据第一状态转换器确定第二状态转换器。

对声学状态转换器和第二状态转换器进行合成处理，以获取解码网络。

可选地，根据第一状态转换器确定第二状态转换器，包括：

获取第一状态转换器包括的多个第三路径中的多个区分转移边。

获取多个区分转移边中的每个区分转移边对应的第一目标状态节点和第二目标状态节点，第一目标状态节点为每个区分转移边所连接的两个状态节点中的前一个状态节点，第二目标状态节点为每个区分转移边所连接的两个状态节点中的后一个状态节点。

根据每个第三路径中的目标建模转移边，目标建模转移边的前一个建模转移边，目标建模转移边的后一个建模转移边，以及第一目标状态节点，对第三路径进行更新，以获取多个第四路径。

在每个第四路径中的第二目标状态节点的后一个状态节点与第二目标状态节点之间插入第二区分状态节点，以获取第二状态转换器，第二区分状态节点与第二目标状态节点之间通过区分转移边连接。

可选地，根据每个第三路径中的目标建模转移边，目标建模转移边的前一个建模转移边，目标建模转移边的后一个建模转移边，以及第一目标状态节点，对第三路径进行更新，以获取多个第四路径，包括：

根据每个第三路径中的目标建模转移边的前一个建模转移边对应的输入单元以及目标建模转移边的后一个建模转移边对应的输入单元，确定目标建模转移边对应的目标输入单元。

将目标建模转移边对应的输入单元更新为目标输入单元。

在第三路径中的第一目标状态节点的前一个状态节点与第一目标状态节点之间插入第三区分状态节点，以获取多个第四路径，第三区分状态节点与第一目标状态节点之间通过第三转移边连接，第三转移边对应的输入单元和输出单元均为空。

图12是根据图11所示实施例示出的一种获取模块的框图。如图12所示，获取模块301包括：

处理子模块3011，被配置成用于对待处理语音进行分帧处理，以获取待处理语音对应的语音帧序列，语音帧序列包括待处理语音中的多个语音帧。

特征提取子模块3012，被配置成用于对每个语音帧进行特征提取，以获取每个语音帧对应的声学特征。

第一确定子模块3013，被配置成用于根据语音帧序列和每个语音帧对应的声学特征，确定声学特征序列。

图13是根据图11所示实施例示出的一种确定模块的框图。如图13所示，确定模块302包括：

第二确定子模块3021，被配置成用于在将多个声学特征输入解码网络后，确定第一状态节点对应的多个第二状态节点，第二状态节点位于第一状态节点之后，且第一状态节点与每个第二状态节点之间存在转移边，第一状态节点为解码网络的初始状态节点。

第三确定子模块3022，被配置成用于根据每个第二状态节点和目标声学特征，确定从初始状态节点到每个第二状态节点的目标路径，目标声学特征为多个声学特征中的首个声学特征。

将目标路径中的第二状态节点作为第一状态节点，并将目标声学特征的下一个声学特征作为目标声学特征，重复执行从确定第一状态节点对应的多个第二状态节点到根据每个第二状态节点和目标声学特征，确定从初始状态节点到每个第二状态节点的目标路径的步骤，直至确定从初始状态节点到解码网络的终止状态节点的目标路径，以将目标路径作为最优路径。

可选地，第三确定子模块3022被配置成用于：

根据第四转移边对应的输入单元和目标声学特征的相似度，确定每个第二状态节点对应的声学得分，第四转移边为第一状态节点与第二状态节点之间的转移边。

获取初始状态节点到每个第二状态节点之间的多个待选路径。

根据每个待选路径中的每个转移边对应的权重，以及每个待选路径中的每个状态节点对应的声学得分，确定每个待选路径对应的路径得分。

将多个待选路径中具备最高路径得分的待选路径作为目标路径。

图14是根据图11所示实施例示出的另一种确定模块的框图。如图14所示，确定模块302包括：

获取子模块3023，被配置成用于针对每个目标词语，获取该目标词语对应的区分转移边对应的第一区分符，以及该目标词语的前一个词语对应的区分转移边对应的第二区分符。

第四确定子模块3024，被配置成用于将第一区分符对应的第一时间点和第二区分符对应的第二时间点的差值，作为该目标词语的词持续时间。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图15是根据一示例性实施例示出的一种电子设备700的框图。如图15所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的语音识别方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的语音识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的语音识别方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

其中，所述路径包括按顺序排列的多个词语中的每个词语对应的多个状态节点，所述路径中的相邻两个状态节点通过转移边相连接，每个所述转移边对应有转移标识，所述转移标识包括输入单元、输出单元和权重，所述转移边为区分转移边或建模转移边，所述区分转移边对应的输入单元为区分符，所述区分转移边对应的输出单元为空，所述区分符用于分隔所述多个词语，所述多个状态节点中的最后一个状态节点与所述最后一个状态节点在所述路径中的上一个状态节点之间的转移边为所述区分转移边，所述建模转移边对应的输入单元为声学建模单元，所述建模转移边对应的输出单元为词语或空；

2.根据权利要求1所述的方法，其特征在于，所述解码网络通过以下方式构建：

根据所述第一状态转换器确定第二状态转换器；

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一状态转换器确定第二状态转换器，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据每个所述第三路径中的目标建模转移边，所述目标建模转移边的前一个建模转移边，所述目标建模转移边的后一个建模转移边，以及所述第一目标状态节点，对所述第三路径进行更新，以获取多个第四路径，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待处理语音对应的声学特征序列，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述多个声学特征，从预先构建的解码网络包括的多个路径中确定最优路径，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据每个所述第二状态节点和目标声学特征，确定从所述初始状态节点到每个所述第二状态节点的目标路径，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标时间，确定每个所述目标词语对应的词持续时间，包括：

9.一种语音识别装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

11.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-8中任一项所述方法的步骤。