CN113096648A

CN113096648A - 用于语音识别的实时解码方法和装置

Info

Publication number: CN113096648A
Application number: CN202110299121.0A
Authority: CN
Inventors: 杨西同
Original assignee: Hangzhou Zhicun Intelligent Technology Co ltd
Current assignee: Hangzhou Zhicun Intelligent Technology Co ltd
Priority date: 2021-03-20
Filing date: 2021-03-20
Publication date: 2021-07-09

Abstract

本发明实施例提供一种用于语音识别的实时解码方法和装置，该方法包括：实时获取在解码网络内进行帧同步搜索过程中转移id跳转时跳转前节点与跳转后节点之间的弧输出的音素以及对应的两节点的标识；根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列；将当前路径所对应的音素序列与关键词信息进行匹配以实现语音识别，其中，解码网络内进行帧同步搜索过程中会把关键词的音素信息输出来，解码过程中保存路径上的输出的音素序列，并根据关键词进行实时匹配，不需要在录音结束时再对已缓存的路径历史信息进行回溯才能给出解码结果，提高了解码的实时性。

Description

用于语音识别的实时解码方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用于语音识别的实时解码方法和装置。

背景技术

基于HMM-DNN的语音识别技术已被广泛应用，在HMM-DNN中，DNN作为声学模型，输出各个HMM状态的概率，结合基于WFST(即加权有限状态转换机)的解码器，通过Viterbi解码，得到在WFST上最优的路径得分，从而得到识别结果。

现有WFST解码方案需要在一段确定长度的语音上进行解码，当用于连续语音解码时，需要对连续语音进行切分。以对“小美小美”的识别为例，“小美小美”的音素序列为：x,iao_3,m,ei_3,x,iao_3,m,ei_3,其语言模型的WFST如图1所示，解码时从节点0出发，当语音段结束时，WFST上会到达节点8(实际的WFST整合了HMM模型、三音素模型等，会包含更多的信息，是一个有向有环图，本例为简述解码原理，对WFST进行了简化)，此时，对已缓存的路径历史信息进行回溯，回溯从节点8开始，当有多条路径时，根据Viterbi算法，对缓存的路径信息进行最优路径搜索，仅当回溯到节点0时，弧上输出“小美小美”的关键词，而在其他节点上时，输出空信号<eps>。

现有方案的优点是提高了解码的可靠性，可以在一段长度确定的录音上，搜索到最佳路径。但由于必须在这段录音结束时，再对已缓存的路径历史信息进行回溯，进而才能给出解码结果，影响了解码的实时性，同时，由于需要保存大量的历史路径信息，且这些信息和解码计算量会随着语音长度的增长而增长，需要的存储资源较高。

发明内容

针对现有技术中的问题，本发明提供一种用于语音识别的实时解码方法和装置、电子设备以及计算机可读存储介质，能够至少部分地解决现有技术中存在的问题。

为了实现上述目的，本发明采用如下技术方案：

第一方面，提供一种用于语音识别的实时解码方法，包括：

实时获取在解码网络内进行帧同步搜索过程中转移id跳转时跳转前节点与跳转后节点之间的弧输出的音素以及对应的两节点的标识；

根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列；

将当前路径所对应的音素序列与关键词信息进行匹配以实现语音识别。

进一步地，所述根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列，包括：

根据所述音素对应的两节点的标识、历史音素数据进行反演得到当前路径，所述历史音素数据包括：本次帧同步搜索过程中历史输出的音素以及对应的两节点的标识；

根据当前路径所经过的所有弧的输出音素合成该路径对应的音素序列。

进一步地，所述音素序列包括：音素序列本体以及最后一个音素对应的跳转后节点标识，

所述根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列，包括：

根据所述音素对应的跳转前节点的标识获取对应的历史音素序列，所述历史音素序列的最后一个音素对应的跳转后节点标识与所述音素对应的跳转前节点的标识相同；

根据所述音素以及对应的跳转后节点的标识更新所述历史音素序列的音素序列本体以及最后一个音素对应的跳转后节点标识得到当前路径所对应的音素序列。

进一步地，转移id跳转时同一跳转前节点对应多个跳转后节点，则对应的跳转前节点相同、跳转后节点不同的音素有多个；

所述根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列，还包括：

将对应多个跳转后节点的跳转前节点所对应的历史音素序列复制为多个。

进一步地，还包括：

实时获取所述音素对应的两节点之间的权重；

根据所述权重获取当前路径的权重累计值；

根据当前路径的权重累计值控制音素序列与关键词信息的匹配。

进一步地，所述关键词的数量为多个，所述将当前路径所对应的音素序列与关键词信息进行匹配，包括：

判断所述转移id是否前进到终止节点；

若是，将各路径所对应的音素序列与关键词信息进行匹配，根据匹配结果得到语音识别结果；

若否，将各路径所对应的音素序列与关键词信息进行匹配，根据匹配结果筛选关键词。

进一步地，所述根据匹配结果得到语音识别结果，包括：

将最优路径对应的匹配度最好的关键词作为语音识别结果。

进一步地，所述解码网络为WFST，所述WFST在转移id前进跳转过程中输出跳转前节点与跳转后节点之间的弧输出的音素、对应的两节点的标识以及权重。

第二方面，提供一种用于语音识别的实时解码装置，包括：

音素实时获取模块，实时获取在解码网络内进行帧同步搜索时转移id前进过程中节点之间的弧输出的音素；

音素序列获取模块，根据所述音素得到各路径所对应的音素序列；

关键词匹配模块，将各路径所对应的音素序列与关键词信息进行匹配以实现语音识别。

第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的用于语音识别的实时解码方法的步骤。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的用于语音识别的实时解码方法的步骤。

本发明实施例提供的用于语音识别的实时解码方法和装置，该方法包括：实时获取在解码网络内进行帧同步搜索过程中转移id跳转时跳转前节点与跳转后节点之间的弧输出的音素以及对应的两节点的标识；根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列；将当前路径所对应的音素序列与关键词信息进行匹配以实现语音识别，其中，解码网络内进行帧同步搜索过程中会把关键词的音素信息输出来，解码过程中保存路径上的输出的音素序列，并根据关键词进行实时匹配，不需要在录音结束时再对已缓存的路径历史信息进行回溯才能给出解码结果，提高了解码的实时性。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了一种简化的解码网络；

图2是本发明实施例中的用于语音识别的实时解码方法的流程示意图一；

图3示出了一种WFST解码网络；

图4示出了一种利用WFST解码网络进行解码的原理；

图5为本发明实施例中步骤S200的具体步骤；

图6示出了本发明实施例中步骤S200的另一种具体步骤；

图7示出了本发明实施例中步骤S200的再一种具体步骤；

图8是本发明实施例中的用于语音识别的实时解码方法的流程示意图二；

图9示出了本发明实施例中步骤S300的一种具体步骤；

图10是本发明实施例中的用于语音识别的实时解码装置的结构框图；

图11为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

现有语音识别技术当用于连续语音时，需要对连续语音进行切分，以得到长度确定的录音段，增加了语音解码的复杂度和系统资源消耗。另外，移动便携设备越来越普及，移动设备的计算、存储、电源等资源有限，对解码方案所需要的计算量和存储资源要求也更加严格，对解码方案的实时性也有更高的要求。然而，现有的解码方案，在语音识别过程中，需要消耗大量的存储和计算资源，实时性较差。

为至少部分解决现有技术中的上述技术问题，本发明实施例提供了一种用于语音识别的实时解码方法，解码网络内进行帧同步搜索过程中会把关键词的音素信息输出来，解码过程中保存路径上的输出的音素序列，并根据关键词进行实时匹配，不需要在录音结束时再对已缓存的路径历史信息进行回溯才能给出解码结果，提高了解码的实时性。

图2是本发明实施例中的用于语音识别的实时解码方法的流程示意图一；如图2所示，该用于语音识别的实时解码方法，其特征在于，包括：

步骤S100：实时获取在解码网络内进行帧同步搜索过程中转移id跳转时跳转前节点与跳转后节点之间的弧输出的音素以及对应的两节点的标识；

具体地，该解码网络可以是WFST(加权有限状态转换器)。其中，本发明实施例提供的WFST通过改进，在转移id前进跳转过程中输出跳转前节点与跳转后节点之间的弧输出的音素、对应的两节点的标识以及权重等信息。

WFST是一种有向无环图，定义了HMM状态的跳转概率。当对路径进行搜索时，会在WFST图上寻找最佳路径。参见图3，所有的带数字的圈表示一个节点(State)，节点间的箭头称为弧(Arc)。0表示起始节点(粗黑线)，也是终止节点(双圆)，节点和弧分别对应状态与状态的转移。

每个弧上都有一个输入输出符号以及权重。比如“d:对/1.6602”，输入是d，输出是“对”权重为1.6602。

图3中总共有三条路径，分别是：

0->1->3->5->8->10->0,对应的输入序列:d ui b u q，输出为对不起；

0->2->4->6->9->10->0，输入：w o a i n，输出为我爱你；

0->2->4->7->9->10->0，输入：w o h en n，输出为我恨你；

WFST的解码过程原理如下，参见图4：

首先，解码器初始化，WFST第一个节点为0。

当接收到第一帧的语音特征信号后，WFST从0开始，下一跳可能为1或者2。权重分别为1.6602和1.7949(为了简单，我们这里只考虑了WFST的权重，实际上还要加上HMM状态的权重，即DNN输出中的d和w所对应的概率)。

第二帧则继续往下跳到3或者4，此时只有两条路径:0->1->3，0->2->4,权重分别为1.6602，1.7949。

第三帧时，会产生三条路径：0->1->3->5，0->2->4->6，0->2->4->7，权重分别为1.6602，1.7949，2.33006。

到第四帧时，已经可以得到结果：0->2->4->7->9这条路径权重最大，对应的输入序列为:w o h en n，输出序列为我恨你。

在利用本发明实施例提供的语音识别技术的系统中，WFST可以HCLG.fst文件的形式存在。HCLG.fst由四个独立的fst文件通过fstcompose合并而成。这4个文件分别是：

H.Fst:音素HMM模型相关的fst文件；

C.Fst：C是context的简写，此处称上下文，即三音素相关的FST；

L.Fst:字典lexcion相关的fst，输入是音素序列，输出是对应的单词；

G.Fst：语言模型相关的FST。

在连续大词汇量语音识别系统中，HCLG.fst占用的内存以G单位。

基于WFST的语音识别解码的主要思路是将声学模型、语言模型和发音字典三个不同层次的模型分别用有限状态转换器的形式表示，并运用WFST特性及合并、优化等算法将三个不同层次的有限状态转换器整合成一个单一的加权有限状态转换器，构成解码网络/搜索网络。

值得说明的是，在语音识别中，把语音拆分为最基本的单元来进行识别，这一基本单元称为音素，其实类似汉语拼音，有时可直接用汉语拼音作为音素。比如：对不起，它的音素序列为:d4 ui4 b4 u4 q3 i3，拼音后面的数字表示音调。当然，为了减少音素的数量，可去掉音调，具体根据实际应用场景设置即可。

值得说明的是，转移id跳转时可以是跳转一步(即从当前节点跳转至相邻节点)就输出音素，也可以是跳转多步再输出跳转前节点至跳转后节点之间的多个弧对应的音素，本发明实施例对此不作限制，可以根据实际应用场合、硬件设备等选取。

步骤S200：根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列；

具体地，将当前路径所经过的所有弧的输出音素合成音素序列，可以是直接组合，也可以是将输出音素进行一定处理后合并得到，本发明实施例对此不作限制。

步骤S300：将当前路径所对应的音素序列与关键词信息进行匹配以实现语音识别。

具体地，可以根据实际应用需求，预先获取多个关键词的信息，该关键词的信息是指该关键词对应的音素序列，将预先获取的关键词信息作为模板，与当前路径所对应的音素序列进行匹配，根据匹配度，实现语音识别。

在本发明中，改进了WFST的输出信息。这里以对“小美小美”的识别为例，“小美小美”的音素序列为：x,iao_3,m,ei_3,x,iao_3,m,ei_3,其语言模型参见图1。当解码时，初始状态下WFST的节点0出发，随着语音帧的不断到来，解码程序会沿着WFST的路径不断前进。在前进过程中，WFST的弧会输出音素，解码程序会记录路径上所经过的弧的输出音素，保存为一个音素序列，同时，会根据事先保存的关键词信息，去匹配当前的音素序列，当匹配关键词成功时，会计算这条路径的得分，进而判断关键词是否真正检测出来。

当路径从节点7跳跃到节点8时，输出音素为ei_3，这样历史路径上的音素序列为x,iao_3,m,ei_3,x,iao_3,m,ei_3，匹配“小美小美”成功，如果路径得分具有显著优势，那么“小美小美”检测成功。采用这种做法，由于当“mei_3”输出后，就能立即检测出命令词，极大的提高了识别的实时性。

当然，以上只是举例一个简单的例子用于说明本申请，但是，根据应用场合、解码网络复杂度的不同，转移id跳转一步可能是从当前节点跳转至一个或多个下一节点，因此，转移id跳转时输出的音素可能是一个，也可能是多个，当前路径可能是一个，也可能是多个，对应的音素序列可能是一个，也可能是多个，预获取的关键词信息也可能是多个，因此，需要将各路径对应的音素序列分别与各关键词信息进行比对。

本领域技术人员可以理解的是，帧同步搜索与音素序列匹配可以在同一个线程中执行，也可以采用不同的线程分别执行，本发明实施例对此不作限制。

在一个可选的实施例中，当有多个关键词时，在解码时，会有多条路径同时存在，本发明实施例可以根据Viterbi算法简化路径搜索过程。解码程序会记录每条路径的累积得分、路径长度、已输出的音素序列等信息，当路径变长时，只需更新这些信息，这些信息所占用的存储空间，不会随着路径长度的变长而显著增长，只和路径数量有关，这样可以节省大量的存储空间，极大的提高关键词检测的速度，同时由于保存每条FST路径的历史信息极少，占用的存储空间较低，适合在系统资源有限的嵌入式环境下使用。

Viterbi算法利用动态规划思想寻找最优状态序列(动态规划技术将一个全局最优问题转化为许多局部最优化问题，一步一步地进行决策)，在状态空间内进行全范围搜索。

在一个可选的实施例中，该用于语音识别的实时解码方法还包括：根据实时获取的语音帧的语音特征信号在解码网络内进行帧同步搜索的步骤。

其中，帧同步搜索可采用维特比算法实现。

在一个可选的实施例中，该用于语音识别的实时解码方法还包括：根据H(HMM)、C(上下文)，L(发音字典)，G(语言模型)构建WFST解码网络，在解码阶段在该解码网络中搜索可能的路径。

在一个可选的实施例中，参见图5，该步骤S200可以包括以下内容：

步骤S210：根据所述音素对应的两节点的标识、历史音素数据进行反演得到当前路径，所述历史音素数据包括：本次帧同步搜索过程中历史输出的音素以及对应的两节点的标识。

其中，转移id跳转前进过程中输出的每个音素及其对应的两节点的标识都作为一个独立的个体存储，作为历史音素数据，而后，根据当前输出的音素对应的两节点的标识、历史音素数据进行反演得到当前路径。

举例来说，参见图3，假设当前的音素是i，对应的跳转前节点标识为6，跳转后节点标识为9，历史音素输出包括：a,对应的跳转前节点标识为4，跳转后节点标识为6；o,对应的跳转前节点标识为2，跳转后节点标识为4；w，对应的跳转前节点标识为0，跳转后节点标识为2，基于此，根据当前输出音素对应的两节点标识，结合历史数据，就能够反演出路径为：0→2→4→6→9。

步骤S220：根据当前路径所经过的所有弧的输出音素合成该路径对应的音素序列。

结合上例，根据路径0→2→4→6→9，将所经过的所有弧的输出音素合成该路径对应的音素序列，w,o,a,i。

当然，本发明实施例中，路径可以是多条，原理参见上述，在此不再赘述。

在另外一个可选的实施例中，参见图6，音素序列包括：音素序列本体以及最后一个音素对应的跳转后节点标识，该步骤S200可以包括以下内容：

步骤S210’：根据所述音素对应的跳转前节点的标识获取对应的历史音素序列，所述历史音素序列的最后一个音素对应的跳转后节点标识与所述音素对应的跳转前节点的标识相同；

具体地，在帧同步搜索开始时，就建立音素序列，而后，根据输出音素，更新音素序列，以此减少路径反演的时间，提高速度。

参见上例，每个音素序列中都会记载音素序列本体(w,o,a,i)以及最后一个音素对应的跳转后节点标识(即9)，那么在接收到新的音素后，由于同时接收音素对应两节点标识，因此，可根据新的音素对应的跳转前节点标识，找到对应的音素序列，而后，将新的音素组合进找到的音素序列本体中，将音素序列对应的最后一个音素对应的跳转后节点标识更改为新的音素对应的跳转后节点标识。通过采用上述技术方案，在路径数量多的情况话，不会造成各路径对应的音素序列更新混淆的问题。

步骤S220’：根据所述音素以及对应的跳转后节点的标识更新所述历史音素序列的音素序列本体以及最后一个音素对应的跳转后节点标识得到当前路径所对应的音素序列。

通过采用上述技术方案，能够实现高效快速解码。

当然，本领域技术人员可以理解的是，该音素序列也可以是包括：音素序列本体以及对应的路径，那么，路径的最后一个节点就对应上述的最后一个音素对应的跳转后节点标识，这种方案的实现方式参见上述，在此不再赘述，与上述方案相比，音素序列的存储空间会增加。

在一个可选的实施例中，参见图6，该步骤S200还可以包括：

步骤S230’：将对应多个跳转后节点的跳转前节点所对应的历史音素序列复制为多个。

具体地，有时，转移id跳转时同一跳转前节点对应多个跳转后节点，则对应的跳转前节点相同、跳转后节点不同的音素有多个，参见图3和图4，在接收到第一帧时，可能建立了两个音素序列，分别对应0→1和0→2两个路径，在接收到第二帧时，分别更新着两个路径对应的音素序列就可以了，但是，当接收到第三帧时，节点4存在分叉，输出的音素可能是2个，即a和h，但是，此时，对应的音素序列只有一个，则需要复制路径1→2→4对应的音素序列，a更新到其中一个音素序列，h更新到另一个音素序列中。

由此，能够实现高效复杂的解码。

在一个可选的实施例中，参见图8，该用于语音识别的实时解码方法还可以包括：

步骤S400：实时获取所述音素对应的两节点之间的权重；

步骤S500：根据所述权重获取当前路径的权重累计值；

其中，各音素序列对应的路径的获取方式可以参见上述，在此不再赘述。

步骤S600：判断当前路径的权重累计值是否大于预设阈值；

若是，执行步骤S300；若否，返回步骤S500，等待下次转移id跳转。

即：根据当前路径的权重累计值控制是否进行音素序列与关键词信息的匹配。

其中，若当前路径的权重累计值高于预设阈值时，该路径为较优路径，则控制对应的音素序列与关键词信息进行匹配；若当前路径的权重累计值低于预设阈值时，该路径不是最优路径的备选路径，则可以不进行匹配，以此，节约计算资源，提高识别速度。

在一个可选的实施例中，参见图9，该步骤S300可以包括以下内容：

步骤S310：判断所述转移id是否前进到终止节点；

若是，执行步骤S320；若否，执行步骤S330。

步骤S320：将各路径所对应的音素序列与关键词信息进行匹配，根据匹配结果得到语音识别结果；

其中，将最优路径对应的匹配度最好的关键词作为语音识别结果。

步骤S330：将各路径所对应的音素序列与关键词信息进行匹配，根据匹配结果筛选关键词。

其中，若转移id跳转前进到了终止节点，则匹配过程结束，根据最后一次的匹配结果，输出各路径中权重累计值最高的路径(即最优路径)对应的匹配度最好的关键词作为识别结果；若转移id跳转未前进到了终止节点，则说明帧同步搜索过程尚未结束，目前还不知道哪条路径是最优路径，因此，不能终止关键词匹配过程，此时，根据匹配结果，进行关键词筛选，选择匹配度大于预设阈值的关键词进行下一次转移id跳转对应的匹配，与路径匹配度小于预设阈值的关键词则在下一次(也可称为下一周期)的转移id跳转匹配过程中则无需考虑，由此，能否实现根据匹配度对关键词的筛选，直至转移id跳转前进到了终止节点，则解码完成，或者，所有关键词与路径的匹配度均小于预设阈值，则解码结束，解码失败。

值得说明的是，在本发明实施例中，转移id跳转，只需要记录音素序列和匹配度得分等，权重累计值小于预设阈值的路径以及关键词匹配得分等不需要保存。

另外，根据输入语音的不同，有可能一个语音帧识别出一个音素，也可能是多个语音帧识别出一个音素。

综上所述，本发明实施例提供的解码技术，通过对WFST解码进行特别设计，使其在进行帧同步搜索过程中转移id跳转时输出跳转前节点与跳转后节点之间的弧输出的音素以及对应的两节点的标识以及权重等信息，使其能在连续语音中，更快的检索到关键词，同时系统资源消耗更少，更适合嵌入式环境下的应用。

语言模型的WFST把关键词的音素信息输出来，解码过程中，会保存路径上的输出的音素序列，并根据关键词进行匹配。每条路径只需保存一份路径长度，累积得分，已输出的音素序列信息，而无需在每个路径节点都保存一份这些信息。

值得说明的是，本发明实施例提供的语音识别中的解码技术，可以适用于各种语音识别芯片、语音识别系统以及具有语音识别功能的设备，比如：智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备、玩具、智能家居控制设备、流水线设备控制器等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

基于同一发明构思，本申请实施例还提供了一种用于语音识别的实时解码装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由用于语音识别的实时解码装置解决问题的原理与上述方法相似，因此用于语音识别的实时解码装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图10是本发明实施例中的用于语音识别的实时解码装置的结构框图。如图10所示，该用于语音识别的实时解码装置具体包括：音素实时获取模块10、音素序列获取模块20以及关键词匹配模块30。

音素实时获取模块10，实时获取在解码网络内进行帧同步搜索时转移id前进过程中节点之间的弧输出的音素；

音素序列获取模块20，根据所述音素得到各路径所对应的音素序列；

关键词匹配模块30，将各路径所对应的音素序列与关键词信息进行匹配以实现语音识别。

通过采用上述技术方案，解码网络内进行帧同步搜索过程中会把关键词的音素信息输出来，解码过程中保存路径上的输出的音素序列，并根据关键词进行实时匹配，不需要在录音结束时再对已缓存的路径历史信息进行回溯才能给出解码结果，提高了解码的实时性。

上述实施例阐明的装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备，具体的，电子设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的用于语音识别的实时解码方法的步骤。

下面参考图11，其示出了适于用来实现本申请实施例的电子设备600的结构示意图。

如图11所示，电子设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡，调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装如存储部分608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的用于语音识别的实时解码方法的步骤。

在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于语音识别的实时解码方法，其特征在于，包括：

2.根据权利要求1所述的用于语音识别的实时解码方法，其特征在于，所述根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列，包括：

3.根据权利要求1所述的用于语音识别的实时解码方法，其特征在于，所述音素序列包括：音素序列本体以及最后一个音素对应的跳转后节点标识，

4.根据权利要求3所述的用于语音识别的实时解码方法，其特征在于，转移id跳转时同一跳转前节点对应多个跳转后节点，则对应的跳转前节点相同、跳转后节点不同的音素有多个；

5.根据权利要求1所述的用于语音识别的实时解码方法，其特征在于，还包括：

实时获取所述音素对应的两节点之间的权重；

根据所述权重获取当前路径的权重累计值；

6.根据权利要求1所述的用于语音识别的实时解码方法，其特征在于，所述关键词的数量为多个，所述将当前路径所对应的音素序列与关键词信息进行匹配，包括：

判断所述转移id是否前进到终止节点；

7.根据权利要求6所述的用于语音识别的实时解码方法，其特征在于，所述根据匹配结果得到语音识别结果，包括：

将最优路径对应的匹配度最好的关键词作为语音识别结果。

8.根据权利要求1所述的用于语音识别的实时解码方法，其特征在于，所述解码网络为WFST，所述WFST在转移id前进跳转过程中输出跳转前节点与跳转后节点之间的弧输出的音素、对应的两节点的标识以及权重。

9.一种用于语音识别的实时解码装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述的用于语音识别的实时解码方法的步骤。