CN114220444B

CN114220444B - 语音解码方法、装置、电子设备和存储介质

Info

Publication number: CN114220444B
Application number: CN202111255706.9A
Authority: CN
Inventors: 李威; 方昕; 李永超
Original assignee: Anhui Xunfei Huanyu Technology Co ltd
Current assignee: Anhui Xunfei Huanyu Technology Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-09-06
Anticipated expiration: 2041-10-27
Also published as: CN114220444A

Abstract

本发明提供一种语音解码方法、装置、电子设备和存储介质，其中方法包括：确定待解码语音；基于待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，语音解码模型包括多个解码网络；基于待解码语音中的当前语音帧，在当前解码路径所处解码网络中，对当前解码路径进行扩展，得到当前语音帧的候选解码路径，并将当前语音帧的下一语音帧更新为当前语音帧，直至当前语音帧为待解码语音的尾帧，利用上一语音帧的候选解码路径所处解码网络的解码情况选取路径，降低了最优解码路径被错误筛除的可能性，提高了解码的速度和精度，解决了传统的语音解码方案对内存的占用较多的问题，减少了非必要的内存占用。

Description

语音解码方法、装置、电子设备和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音解码方法、装置、电子设备和存储介质。

背景技术

在语音识别领域，主要的解码方案是通过加权有限状态转换器(Weighted FiniteState Transducer，WFST)解码网络进行解码，但是这一方案局限于特定的场景。

而为了克服WFST解码网络定制化场景的缺陷，通常在WFST解码网络的解码结果的基础上，加入了有限状态接收器(Finite State Acceptor，FSA)解码网络，由WFST解码网络和FSA解码网络分开解码，每一解码网络均输出一个解码结果，两者的解码结果进行博弈，确定分数高的解码结果，并将其作为最终的解码结果，但是该方案占用的内存较多，特别是针对本地的应用场景，例如车载语音识别系统，其对于内存的占用能够达到20MB-50MB，对本地识别来说，过多占用内存直接限制了语音解码方案的应用。

发明内容

本发明提供一种语音解码方法、装置、电子设备和存储介质，用以解决现有技术中语音解码方案对于内存占用较多的缺陷。

本发明提供一种语音解码方法，包括：

确定待解码语音；

基于所述待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，所述语音解码模型包括多个解码网络；

基于所述待解码语音中的当前语音帧，在所述当前解码路径所处解码网络中，对所述当前解码路径进行扩展，得到所述当前语音帧的候选解码路径，并将所述当前语音帧的下一语音帧更新为当前语音帧，直至所述当前语音帧为所述待解码语音的尾帧。

根据本发明提供的一种语音解码方法，所述基于所述待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，包括：

基于所述上一语音帧的候选解码路径所处解码网络的解码情况，确定所述语音解码模型中各解码网络的当前路径数量阈值；

基于各解码网络的当前路径数量阈值，从各解码网络针对上一语音帧解码得到的第一路径中选取当前解码路径，所述候选解码路径基于所述第一路径确定。

根据本发明提供的一种语音解码方法，所述基于所述上一语音帧的候选解码路径所处解码网络的解码情况，确定所述语音解码模型中各解码网络的当前路径数量阈值，包括：

基于所述上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量和/或解码质量，确定所述语音解码模型中各解码网络的当前路径数量阈值。

根据本发明提供的一种语音解码方法，所述基于所述上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量，确定所述语音解码模型中各解码网络的当前路径数量阈值，包括：

若所述上一语音帧在任一解码网络中得到的候选解码路径的数量小于预设数量阈值，则将所述任一解码网络的当前路径数量阈值置零。

根据本发明提供的一种语音解码方法，所述基于所述上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量和解码质量，确定所述语音解码模型中各解码网络的当前路径数量阈值，包括：

若所述上一语音帧在任一解码网络中得到的候选解码路径的解码质量不满足预设质量条件，则减小所述任一解码网络的候选解码路径的数量，并增大解码网络之外的其他解码网络的候选解码路径的数量，并基于各解码网络分别得到的候选解码路径的数量，确定所述语音解码模型中各解码网络的当前路径数量阈值。

根据本发明提供的一种语音解码方法，所述语音解码模型包括三音素解码网络，所述三音素解码网络基于如下步骤更新：

确定待插入词，以及所述待插入词在所述三音素解码网络中的目标插入位置；

在所述待插入词的音素之后加入静音弧，得到待插入路径；

将所述待插入路径插入所述目标插入位置。

根据本发明提供的一种语音解码方法，所述在所述待插入词的音素之后加入静音弧，得到待插入路径，包括：

在所述待插入词的右槽边界音素，以及所述目标插入位置的右槽边界音素之间插入静音弧，得到槽间路径；

在所述待插入词的三音素路径之后连接所述槽间路径，得到待插入路径。

本发明还提供一种语音解码装置，包括：

待解码语音确定单元，用于确定待解码语音；

当前解码路径确定单元，用于基于所述待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，所述语音解码模型包括多个解码网络；

候选解码路径确定单元，用于基于所述待解码语音中的当前语音帧，在所述当前解码路径所处解码网络中，对所述当前解码路径进行扩展，得到所述当前语音帧的候选解码路径，并将所述当前语音帧的下一语音帧更新为当前语音帧，直至所述当前语音帧为所述待解码语音的尾帧。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的语音解码方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的语音解码方法的步骤。

本发明提供的语音解码方法、装置、电子设备和存储介质，根据待解码语音中上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，充分考虑了上一语音帧的候选解码路径所处解码网络的解码情况，并利用此解码情况在解码过程中进行路径选取，从而更有效地筛除不合理的解码路径，降低了最优解码路径被错误筛除的可能性，从而提高了语音解码的速度和精度，并且通过集合了多个解码网络的语音解码模型进行解码，解决了传统的语音解码方案对于内存的占用较多的问题，减少了非必要的内存占用。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音解码方法的流程示意图；

图2是本发明提供的语音解码方法中步骤120的流程示意图；

图3是本发明提供的一体化解码网络的结构示意图；

图4是本发明提供的三音素解码网络更新方法的流程示意图；

图5是本发明提供的三音素解码网络更新过程的结构示意图；

图6是本发明提供的三音素解码网络更新方法中步骤420的流程示意图；

图7是本发明提供的句式网络的示意图；

图8是本发明提供的phone网络的示意图；

图9是本发明提供的triphone网络的示意图；

图10是本发明提供的语音解码方法的总体框架图；

图11是本发明提供的语音解码装置的结构示意图；

图12是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在目前的语音识别领域，为了解决流行词语识别问题，通常会采用WFST二遍语言模型、个性化热词或者FSA解码网络去辅助解码，从而达到提升识别效果的目的。

但是，上述采用WFST二遍语言模型辅助解码的方案，需要使用额外的训练资源包，增加了对内存的占用，并且采用个性化热词辅助解码的方案存在误触发情况较为严重的问题。

而采用FSA解码网络辅助解码的方案虽然能够解决流行词语识别的问题，对流行词语有较好的识别效果，但是，目前的语音解码方案是由WFST解码网络和FSA解码网络分开解码，每一解码网络均输出一个解码结果，两者的解码结果进行博弈，确定分数高的解码结果，并将其作为最终的解码结果，此方案对于本地识别来说，占用的内存较多，约为20-50MB。

针对上述情况，本发明提供一种语音解码方法，图1是本发明提供的语音解码方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待解码语音。

具体地，在进行语音解码之前，需要确定待解码的语音，即待解码语音，此处的待解码语音可以是从实时录制的待解码的语音数据流中截取的一段语音数据，例如，可以预先设定语音数据的时长，在录制的过程中，每隔预设时长对语音数据流进行一次截取，从而得到最新录制的一段预设时长的语音数据，并将此语音数据作为待解码语音；也可以是从已经录制完成的语音数据中截取的一段语音数据，或者是已经录制完成的整段语音数据，此处的录制可以是语音录制，也可以是视频录制，本发明实施例对此不做具体限定。

步骤120，基于待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，语音解码模型包括多个解码网络。

具体地，语音解码的过程，可以理解为逐帧解码的过程。在步骤110中确定待解码语音之后，对待解码语音中的当前语音帧进行解码之前，还需确定待解码语音中上一语音帧的候选解码路径，此候选解码路径可以从语音解码模型针对上一语音帧解码得到的解码路径中选取得到。

此处，语音解码模型中包括多个不同类型的解码网络，例如，WFST解码网络、FSA解码网络等，多个不同类型的解码网络可以针对待解码语音进行联合解码，此处，上一语音帧的候选解码路径，可以是多条，语音解码模型可以针对上一语音帧，调用其中的全部解码网络或者部分解码网络进行解码，从而得到解码路径，上一语音帧的候选解码路径，即从语音解码模型中全部解码网络或者部分解码网络解码所得的解码路径中选取得到的。

在确定上一语音帧的各候选解码路径后，可进一步确定各候选解码路径在语音解码模型中所处解码网络的解码情况，例如对应解码网络针对上一语音帧解码得到的候选解码路径的数量，又例如对应解码网络针对上一语音帧解码得到的候选解码路径的声学得分，此处的解码情况表征语音解码模型中对应解码网络对于上一语音帧进行解码的解码质量，能够反映上一语音帧是否适合应用此候选解码路径所处解码网络进行解码，从而可以从各候选解码路径所处的解码网络中选取解码情况较好、较适合用于对待解码语音进行解码的解码网络，确定该解码网络对应的候选解码路径，并将其作为当前解码路径。此处，当前解码路径即用于对当前语音帧进行解码扩展的路径，基于此确定的当前解码路径既保证了所处解码网络的解码质量，还为提升语音解码的效果提供了助力。同时，在语音解码的过程中，及时弃用不适合对当前的待解码语音进行解码的解码网络，还可以避免该解码网络无效解码占用本地内存的情况。

步骤130，基于待解码语音中的当前语音帧，在当前解码路径所处解码网络中，对当前解码路径进行扩展，得到当前语音帧的候选解码路径，并将当前语音帧的下一语音帧更新为当前语音帧，直至当前语音帧为待解码语音的尾帧。

具体地，在步骤120中已经得到当前解码路径的基础上，可在当前解码路径所处解码网络中，对当前解码路径进行扩展，以得到当前语音帧的候选解码路径，这一过程中，语音解码模型仅需调用当前解码路径所处的解码网络，其他解码网络无需参与当前语音帧的解码，有效避免了不适用于待解码语音的解码网络无效解码占用本地内存的情况，有助于提高解码效率。

此后，还可以确定待解码语音中当前语音帧的下一语音帧，并将当前语音帧更新为上一语音帧，将下一语音帧更新为当前语音帧，然后，重复上述步骤120和步骤130，以得到当前语音帧的候选解码路径，直至当前语音帧为待解码语音的最后一帧，至此，待解码语音的解码完成，得到了待解码语音中最后一帧的候选解码路径。

需要说明的是，当当前语音帧为初始语音帧时，即不存在上一语音帧时，无需执行步骤120，直接在语音解码模型的各解码网络中对当前语音帧进行解码，确定当前语音帧在语音解码模型中各解码网络的解码情况，并根据当前语音帧在各解码网络的解码情况，确定当前语音帧的候选解码路径，此后即可将当前语音帧更新为上一语音帧，并将当前语音帧的下一语音帧更新为当前语音帧，直至当前语音帧为待解码语音的最后一帧。

本发明提供的语音解码方法，根据待解码语音中上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，充分考虑了上一语音帧的候选解码路径所处解码网络的解码情况，并利用此解码情况在解码过程中进行路径选取，从而更有效地筛除不合理的解码路径，降低了最优解码路径被错误筛除的可能性，从而提高了语音解码的速度和精度，并且通过集合了多个解码网络的语音解码模型进行解码，解决了传统的语音解码方案对于内存的占用较多的问题，减少了非必要的内存占用。

基于上述实施例，图2是本发明提供的语音解码方法中步骤120的流程示意图，如图2所示，步骤120包括：

步骤121，基于上一语音帧的候选解码路径所处解码网络的解码情况，确定语音解码模型中各解码网络的当前路径数量阈值；

步骤122，基于各解码网络的当前路径数量阈值，从各解码网络针对上一语音帧解码得到的第一路径中选取当前解码路径，候选解码路径基于所述第一路径确定。

具体地，在确定待解码语音后，步骤120中，根据上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径的过程具体包括如下步骤：

首先，执行步骤121，确定待解码语音帧中上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，并根据上一语音帧的候选解码路径所处解码网络的解码情况，确定语音解码模型中各解码网络的当前路径数量阈值，当前路径数量阈值表示需要从对应解码网络解码得到的第一路径中选取的当前解码路径的数量，此处，当前路径数量阈值为0至候选解码路径总数之间的整数，并且，所有解码网络的当前路径数量阈值的总和小于等于需要选取的当前解码路径的总数。

针对解码情况优于其他解码网络的一个解码网络，可以增加该解码网络的当前路径数量阈值，针对解码情况逊于其他解码网络的一个解码网络，可以减小该解码网络的当前路径数量阈值。进一步地，如果存在一个解码情况明显不适合待解码语音的解码网络，可以将该解码网络的当前路径数量阈值设置为0。

随即，执行步骤122，确定语音解码模型中各解码网络针对上一语音帧解码得到的所有解码路径，即第一路径，并根据语音解码模型中各解码网络的当前路径数量阈值，从语音解码模型中各解码网络针对上一语音帧解码得到的第一路径中选取当前解码路径，即从每一解码网络针对上一语音帧解码得到的第一路径中选取该解码网络的当前路径数量阈值个解码路径，并将选取出的解码路径作为当前解码路径，以便根据待解码语音中的当前语音帧以及当前解码路径，确定当前语音帧的候选解码路径。

需要说明的是，上一语音帧的候选解码路径同样是从语音解码模型中各解码网络针对上一语音帧解码得到的第一路径中确定的。

基于上述实施例，步骤121包括：

基于上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量和/或解码质量，确定语音解码模型中各解码网络的当前路径数量阈值。

具体地，解码情况可以包括解码网络得到的候选解码路径的数量和/或解码质量。

考虑到各解码网络的解码能力不仅影响着解码的速率，还决定了最终的语音解码结果的精度，而各解码网络的解码能力可从各解码网络对于语音帧的解码质量中得到体现，因此，本发明实施例中，在执行步骤121，根据上一语音帧的候选解码路径所处解码网络的解码情况，确定语音解码模型中各解码网络的当前路径数量阈值时，可以进一步根据上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的解码质量，确定语音解码模型中各解码网络的当前路径数量阈值。

当前路径数量阈值的确定过程可以是，若上一语音帧在任一解码网络得到的候选解码路径的解码质量明显逊于在该解码网络之外的其他解码网络得到的候选解码路径的解码质量，则减小该解码网络的当前路径数量阈值，与此同时增加其他解码网络的当前路径数量阈值；进一步地，若上一语音帧在任一解码网络得到的候选解码路径的解码质量低于预先设置的质量条件，表明该解码网络明显不适合待解码语音的解码，则可以将该解码网络的当前路径数量阈值设置为0；由此即可实现根据上一语音帧在各解码网络分别得到的候选解码路径的解码质量，确定对应解码网络的当前路径数量阈值。

另外，由于语音解码的核心其实是从各种可能的解码路径中找出候选解码路径，因而，候选解码路径的数量也可以反映出解码网络的解码能力，候选解码路径的数量越多，表明对应解码网络对于待解码语音帧的解码路径的选择性越高，即在该解码网络中可通过多种不同的解码路径进行解码，从侧面应证了该解码网络的解码能力。因此，在根据上一语音帧的候选解码路径所处解码网络的解码情况，确定语音解码模型中各解码网络的当前路径数量阈值时，还可以根据上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量，确定语音解码模型中各解码网络的当前路径数量阈值。

此处，可以是直接将上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量，作为对应解码网络的当前路径数量阈值，还可以是根据上一语音帧在语音解码模型中各解码网络得到的候选解码路径的解码情况，对上一语音帧在各解码网络中分别得到的候选解码路径的数量进行调整，并将调整后的候选解码路径的数量作为对应解码网络的当前路径数量阈值。

例如，若语音解码模型中包括WFST解码网络和FSA解码网络，且上一语音帧在WFST解码网络中得到3条候选解码路径，在FSA解码网络中得到7条候选解码路径，则可以直接确定WFST解码网络的当前路径数量阈值为3，FSA解码网络的当前路径数量阈值为7；也可以根据上一语音帧在WFST解码网络和FSA解码网络中解码得到的候选解码路径的解码质量，对“3”和“7”进行适当的减小或增大，从而确定WFST解码网络和FSA解码网络的当前路径数量阈值。

此外，在执行步骤121时，还可以结合上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量和解码质量，确定语音解码模型中各解码网络的当前路径数量阈值，通过多重的筛选条件进行筛选，有效地筛除不合理的解码路径，降低了候选解码路径被错误筛除的可能性，从而为语音解码的速度和精度的提升提供了助力。

基于上述实施例，步骤121中，基于上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量，确定语音解码模型中各解码网络的当前路径数量阈值，包括：

若上一语音帧在任一解码网络中得到的候选解码路径的数量小于预设数量阈值，则将该解码网络的当前路径数量阈值置零。

具体地，由于包含的候选解码路径的数量较低的解码网络的解码能力较差，因此，在根据上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量，确定语音解码模型中各解码网络的当前路径数量阈值时，可以根据实际需求预先设置一个预设数量阈值，此预设数量阈值表示上一语音帧在各解码网络中得到的可容忍的候选解码路径的数量的最低值，可基于此预设数量阈值，对上一语音帧在各解码网络中分别得到的候选解码路径的数量进行调整，从而确定对应解码网络的当前路径数量阈值。

各解码网络的当前路径数量阈值的确定过程可以是，将上一语音帧在各解码网络中得到的候选解码路径的数量和预设数量阈值进行逐一比较，判断上一语音帧在各解码网络中分别得到的候选解码路径的数量是否小于预设数量阈值；若上一语音帧在任一解码网络中得到的候选解码路径的数量小于预设数量阈值，表明上一语音帧在该解码网络中得到的候选解码路径的数量小于可容忍的候选解码路径的数量的最低值，则将该解码网络的当前路径数量阈值置零，即舍弃该解码路径中的候选解码路径，从而得到语音解码模型中各解码网络的当前路径数量阈值。

基于上述实施例，步骤121中，基于上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量和解码质量，确定语音解码模型中各解码网络的当前路径数量阈值，包括：

若上一语音帧在任一解码网络中得到的候选解码路径的解码质量不满足预设质量条件，则减小该解码网络的候选解码路径的数量，并增大该解码网络之外的其他解码网络的候选解码路径的数量，并基于各解码网络分别得到的候选解码路径的数量，确定语音解码模型中各解码网络的当前路径数量阈值。

具体地，在根据上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量和解码质量，确定语音解码模型中各解码网络的当前路径数量阈值时，可以根据实际需求预先设置一个预设质量条件，此预设质量条件表示上一语音帧在各解码网络中得到的可接受的候选解码路径的解码质量的最低要求，可基于此预设质量条件，对上一语音帧在各解码网络中分别得到的候选解码路径的数量进行调整，从而确定对应解码网络的当前路径数量阈值。

当前路径数量阈值的确定过程可以是：对比上一语音帧在各解码网络中得到的候选解码路径的解码质量和预设质量条件，判断上一语音帧在各解码路径中分别得到的候选解码路径的解码质量是否满足预设质量条件；若上一语音帧在任一解码网络中得到的候选解码路径的解码质量不满足预设质量条件，表明上一语音帧在该解码网络中得到的候选解码路径的解码质量无法达到可接受的候选解码路径的解码质量的最低要求，则减小该解码网络的候选解码路径的数量，与此同时，增大语音解码模型中除该解码网络之外的其他解码网络的候选解码路径的数量；此后，可根据各解码网络分别得到的候选解码路径的数量，确定语音解码模型中各解码网络的当前路径数量阈值。

需要说明的是，在根据各解码网络分别得到的候选解码路径的数量，确定语音解码模型中各解码网络的当前路径数量阈值时，可以是将各解码网络分别得到的候选解码路径的数量直接作为对应解码网络的当前路径数量阈值，也可以对各解码网络分别得到的候选解码路径的数量进行进一步调整，从而确定各解码网络的当前路径数量阈值。

例如，可根据实际需求设置一个预设数量阈值，此预设数量阈值表示上一语音帧在各解码网络中得到的可容忍的候选解码路径的数量的最低值，然后，将各解码网络分别得到的候选解码路径的数量和预设数量阈值进行逐一比较，从中确定候选解码路径的数量小于预设数量阈值的解码网络，并将该解码网络的当前路径数量阈值置零，即舍弃该解码路径中候选解码路径，从而确定语音解码模型中各解码网络的当前路径数量阈值。

本发明实施例提供的方法，在确定各解码网络的当前路径数量阈值的过程中，通过预设质量条件和/或预设数量阈值对上一语音帧在各解码网络分别得到的候选解码路径的数量进行调整，有效地筛除了不合理的解码路径，从而得到较为可靠的当前路径数量阈值，大大减少了非必要的内存占用。

基于上述实施例，下面以语音解码模型中包含WFST解码网络和FSA解码网络为例，对待解码语音的解码过程进行说明：

考虑到鲁棒性强的WFST解码网络对语言材料的要求极高，基于此解码网络进行解码时，不仅对提供的语言材料的范围有着较为广泛的要求，还对提供的语言材料的数量有要求，要求语言材料的数量尽可能的庞大，故此种解码方式所需的成本太大，可行性不高。因此，本发明实施例中将FSA解码网络嵌入WFST解码网络中，由FSA解码网络和WFST解码网络构成一个一体化解码网络，通过一体化解码网络进行解码，如此即能减少各解码网络输出的中间结果所占用的内存。

图3是本发明提供的一体化解码网络的结构示意图，如图3所示，在解码过程中，由FSA解码网络和WFST解码方式构成的一体化解码网络中，FSA解码网络和WFST解码方式的解码方式略微不同，FSA解码网络的解码过程不涉及语言分，而是使用惩罚分来代替语言分，惩罚分的尺度是0-5。因此，需通过动态切换裁剪的方式来实现基于语音解码模型的一体化解码过程。

动态切换裁剪的过程具体包括：

通过维特比算法获取上一语音帧的N个候选解码路径，若待解码语音的当前解码节点的标号为M+T，M+T>M，参见图3可知，该节点对应的解码网络为FSA解码网络，即基于FSA解码网络的解码逻辑进行解码，解码过程中拥有惩罚分。

在确定对应的解码网络为FSA解码网络之后，还需根据偏移量在FSA解码网络中确定对应的FSA子解码网络，例如，若当前解码节点的编号大于M+T1且小于M+T1+T2，则表示当前解码节点位于FSA解码网络中的FSA2子解码网络。

相应地，若当前解码节点的编号小于M，则表示待解码语音的当前解码节点位于WFST解码网络中，即基于WFST解码网络的解码逻辑进行解码，由此可实现解码过程中的动态切换。

基于上述实施例，一体化解码网络的构建过程包括如下步骤：

首先，语音识别引擎以静态资源的方式加载WFST资源，WFST资源包括词典、发音词典、triphone列表以及phone列表；

随即，保留WFST解码网络中的解码节点总数。对于本地而言，FSA解码网络可能包含多个子网络，例如FSA1子解码网络、FSA2子解码网络、FSAn子解码网络等，各解码网络均对应一个场景，即FSA解码网络中涵盖了多种应用场景，例如通讯录、音视频等。

在FSA解码网络中，各子解码网络相互独立，若要将各个独立的子解码网络进行合并，则需通过外力进行辅助。由于FSA解码网络的triphone网络是由一个有向图构成，有向图D是指一个有序三元组(V(D)，A(D)，ψD)，其中ψD为关联函数，用于使A(D)中的每一个元素(称为有向边或弧)对应于V(D)中的一个有序元素(称为顶点或点)对。有向图中只包含节点和弧，因而在对各子解码网络进行合并时，可以通过一个公共节点M+1将FSA解码网络中的各个子解码网络进行并联连接，对各个子解码网络进行合并实际是由各个子解码网络构成一个整体FSA解码网络。

对于一体化解码网络，每个解码网络中的各个解码节点均对应于一个虚拟的节点编号，并且FSA解码网络中的各个子解码网络均对应于一个偏移量。FSA解码网络中的第一个子解码网络(FSA1)的偏移量为WFST解码网络中解码节点的数量。

随后，同样可以使用上述方式连接WFST解码网络和FSA解码网络，形成一体化解码网络。图3中示出的是WFST解码网络中编号为0的解码节点与FSA解码网络中的公共节点进行连接。

需要说明的是，一体化解码网络中各解码网络的最后一个解码节点相同。

基于上述实施例，以语音解码模型中包括WFST解码网络和FSA解码网络为例，对语音解码模型中各解码网络的当前路径数量阈值的确定过程进行说明：

确定上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径对应的解码网络，若对应的解码网络仅包含WFST解码网络，则将上一语音帧在语音解码模型中WFST解码网络得到的候选解码路径的数量作为WFST解码网络的当前路径数量阈值。

相应地，若上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径对应的解码网络不仅包含WFST解码网络，还包含FSA解码网络，则判断上一语音帧在各解码网络中得到的候选解码路径的解码质量是否满足预设质量条件。

若上一语音帧在WFST解码网络中得到的候选解码路径的解码质量不满足预设质量条件，则将WFST解码网络的候选解码路径的数量减少R个，与此同时，将FSA解码网络的候选解码路径的数量增加R个。

随后，判断各解码网络分别得到的候选解码路径的数量是否小于预设数量阈值，此处的预设数量阈值可以根据实际需求预先设置，作为优选，本发明实施例中将预设数量阈值确定为上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量之和N的四分之一，即N/4；若WFST解码网络中得到的候选解码路径的数量小于N/4，则将WFST解码网络的当前路径数量阈值设置为0，即舍弃WFST解码网络中的候选解码路径，从而确定WFST解码网络和FSA解码网络的当前路径数量阈值。

考虑到本地的语音识别定制化网络主要是采用插词的方式去动态构建解码网络，这一方法在资源受限的情况下能够在一定程度上节省构建解码网络所需的时间。但是，该方法对于存在较多单双音素构成的词的语音的识别效果不佳，原因在于插词过程中会在不同的槽间添加静音弧sil，当前添加静音弧sil的方式会使得解码网络中出现一条漏词的解码路径，会对识别效果产生一定程度的影响。

例如，在本地的FSA解码网络的构建中，插词更新功能可以在线上使用的时候避免句式网络的重复构建，在资源有限的情况下可以影响用户的使用体验；并且，在将更新的网络连接到原始的句式网络的过程中，为了吸收说话人的静音，会在槽间执行一个插入静音弧sil的操作。由于FSA解码网络的插词更新功能在当前中(方言)英和小语种的解码中均会使用到，因此以中文“拨打谁的电话”、“听谁唱的歌”为例进行说明，“的”只包含“d”和“e”两个音素，在FSA解码网络上传“的”前面的“谁”时，构建的FSA解码网络中会出现一条漏词的异常路径，因而，此时得到的解码结果中通常漏掉了“的”字，或者是因为漏词导致整句话无法被识别，即按照中英文语法规则，一旦在插词更新槽后出现单双音素构成的词，则会给中英文或者小语种的识别效果带来影响。

针对上述情况，本发明提供一种解码网络更新方法，基于上述实施例，语音解码模型包括三音素解码网络，图4是本发明提供的三音素解码网络更新方法的流程示意图，如图4所示，该方法包括：

步骤410，确定待插入词，以及待插入词在三音素解码网络中的目标插入位置；

步骤420，在待插入词的音素之后加入静音弧，得到待插入路径；

步骤430，将待插入路径插入目标插入位置。

具体地，语音解码模型包括三音素解码网络，在对语音解码模型中的三音素解码网络进行更新之前，首先需要执行步骤410，确定待更新词，以及待更新词在语音解码模型中三音素解码网络中的位置，待更新词即待插入词，确定待更新词的位置即确定待插入词在语音解码模型中三音素解码网络中的目标插入位置。

待插入词由待插入词的音素构成，例如，待插入词“我”由音素“w”和“o”构成，在确定待插入词以及待插入词在三音素解码网络中的目标插入位置后，可在三音素解码网络中待插入词的音素之后，添加静音弧sil，从而形成待插入路径。

图5是本发明提供的三音素解码网络更新过程的结构示意图，如图5所示，将“我的家”更新为“他的家”，待插入词为“他”，“他”的音素为“t”和“a”。在待插入词“他”的音素“a”之后，添加静音弧sil，静音弧sil与待插入词的音素连接，共同构成待插入路径。

此后，即可将得到的待插入路径插入待插入词在三音素解码网络中的目标插入位置，在三音素解码网络中形成新的解码路径，至此，三音素解码网络的更新完成，得到新的三音素解码网络。

基于上述实施例，图6是本发明提供的三音素解码网络更新方法中步骤420的流程示意图，如图6所示，步骤420包括：

步骤421，在待插入词的右槽边界音素，以及目标插入位置的右槽边界音素之间插入静音弧，得到槽间路径；

步骤422，在待插入词的三音素路径之后连接槽间路径，得到待插入路径。

具体地，步骤420中，在待插入词的音素之后加入静音弧，得到待插入路径的过程具体可以包括如下步骤：

步骤421，首先，确定待插入词的右槽边界音素，以及目标插入位置的右槽边界音素；随即，在待插入词的右槽边界音素和目标插入位置的右槽边界音素之间插入静音弧，从而得到槽间路径。

如图5所示，待插入词为“他”，待插入词的右槽边界的两个音素为“t”和“a”，目标插入位置的左槽边界的两个音素为“sil”和“sil”，右槽边界的两个音素为“d”和“e”，在待插入词“他”的右槽边界音素“a”和目标插入位置的右槽边界音素“d”之间添加静音弧sil，静音弧sil与待插入词的音素按照“t-a+sil、a-sil+d、sil-d+e”的顺序进行连接，形成槽间路径。

此后，即可执行步骤422，在待插入词的三音素路径之后，连接步骤421中得到的槽间路径，由待插入词的三音素路径和槽间路径共同构成待插入路径，以实现在将待插入路径插入目标插入位置之后，可避免三音素解码网络的漏词现象，从而达到提升识别效果、优化用户体验以及拓宽应用场景的目的。

较之全插入静音弧sil的方法，本发明实施例中加入了待插入词的音素以及弧信息的方案具有明显的优势，能够克服目前的方案中添加静音弧sil后会出现漏词路径的缺陷，使得三音素解码网络对于带有大量单双音素构成的词的语音的识别效果具有明显的提升。

基于上述实施例，以FSA解码网络的插词更新功能为例，对FSA解码网络的更新过程进行详细说明：

本地FSA解码网络的构建过程包括两个步骤，其一是句式的网络构建，图7是本发明提供的句式网络的示意图，如图7所示，在原始的句式网络“我的家”中有三个槽，每一个槽中都存在一个词，并且这一句式网络仅能识别“我的家”这一句话。

其二是用户更新资源的网络构建，根据句式网络可以构建phone网络，图8是本发明提供的phone网络的示意图，如图8所示，phone网络中的slot1槽对用户开放，用户可上传更新的资源，如通讯录、音视频名等，根据用户上传的更新资源确定待插入词“他”，并根据待插入词构建槽网络、词网络、phone网络以及triphone网络，在这一过程中还可以通过合并弧精简构建的triphone网络。图9是本发明提供的triphone网络的示意图，如图9所示，triphone网络可以是在phone网络的基础上进行扩展后得到的。

各网络构建完毕后会将构建的各网络插入至原始的句式网络当中，即将根据更新资源构建的网络和句式网络进行连接，在连接的过程中，会保存槽边的两个音素，考虑到传统方案中在插入静音弧sil的过程中，并未利用左槽和右槽的边界音素，因而插入纯静音弧sil会影响解码网络对于单双音素构成的词的识别效果，因而，在此连接的过程中，可利用槽边界音素以及弧信息来提升解码网络对于单双音素构成的词的识别效果，这一过程包括如下步骤：

首先，确定待插入词“他”在句式网络和triphone网络中的位置，即确定待插入词在FSA解码网络中的目标插入位置；

随即，确定目标插入位置的边界音素以及待插入词的边界音素，其中，目标插入位置的左槽边界的两个音素为“sil”和“sil”，右槽边界的两个音素为“d”和“e”，待插入词的右槽边界的两个音素为“t”和“a”；

随后，在triphone网络中添加静音弧sil，添加的sil按照“t-a+sil、a-sil+d、sil-d+e”的顺序进行扩展，与此同时，将phone网络对应音素的弧信息作为triphone网络的弧信息。

由此即可得到图5示出的插词更新后的FSA解码网络，较之全插入静音弧sil的方法，本发明实施例中加入了待插入词的音素和弧信息进行优化后得到的FSA解码网络，在识别效果上具有明显的提升。

基于上述实施例，图10是本发明提供的语音解码方法的总体框架图，如图10所示，该方法包括两个部分，第一部分是对语音解码模型中的三音素解码网络进行更新，三音素解码网络的更新过程上文已详细说明，此处不再赘述；第二部分是将WFST解码网络嵌入更新后的三音素解码网络，形成一体化解码网络，通过一体化解码网络对待解码语音进行解码，待解码语音的解码的过程上文同样已详细记载，此处不再赘述。

本发明实施例提供的方法，充分考虑了上一语音帧的候选解码路径所处解码网络的解码情况，并利用此解码情况在解码过程中进行路径选取，从而更有效地筛除不合理的解码路径，降低了最优解码路径被错误筛除的可能性，从而提高了语音解码的速度和精度，并且通过集合了多个解码网络的语音解码模型进行解码，解决了传统的语音解码方案对于内存的占用较多的问题，减少了非必要的内存占用。

下面对本发明提供的语音解码装置进行描述，下文描述的语音解码装置与上文描述的语音解码方法可相互对应参照。

图11是本发明提供的语音解码装置的结构示意图，如图11所示，该装置包括：

待解码语音确定单元1110，用于确定待解码语音；

当前解码路径确定单元1120，用于基于所述待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，所述语音解码模型包括多个解码网络；

候选解码路径确定单元1130，用于基于所述待解码语音中的当前语音帧，在所述当前解码路径所处解码网络中，对所述当前解码路径进行扩展，得到所述当前语音帧的候选解码路径，并将所述当前语音帧的下一语音帧更新为当前语音帧，直至所述当前语音帧为所述待解码语音的尾帧。

本发明提供的语音解码装置，根据待解码语音中上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，充分考虑了上一语音帧的候选解码路径所处解码网络的解码情况，并利用此解码情况在解码过程中进行路径选取，从而更有效地筛除不合理的解码路径，降低了最优解码路径被错误筛除的可能性，从而提高了语音解码的速度和精度，并且通过集合了多个解码网络的语音解码模型进行解码，解决了传统的语音解码方案对于内存的占用较多的问题，减少了非必要的内存占用。

基于上述实施例，当前解码路径确定单元1120用于：

若所述上一语音帧在任一解码网络中得到的候选解码路径的数量小于预设数量阈值，则将该解码网络的当前路径数量阈值置零。

基于上述实施例，当前解码路径确定单元1120用于：

若所述上一语音帧在任一解码网络中得到的候选解码路径的解码质量不满足预设质量条件，则减小该解码网络的候选解码路径的数量，并增大该解码网络之外的其他解码网络的候选解码路径的数量，并基于各解码网络分别得到的候选解码路径的数量，确定所述语音解码模型中各解码网络的当前路径数量阈值。

基于上述实施例，所述装置还包括三音素解码网络更新单元，用于：

在所述待插入词的音素之后加入静音弧，得到待插入路径；

将所述待插入路径插入所述目标插入位置。

基于上述实施例，三音素解码网络更新单元用于：

图12示例了一种电子设备的实体结构示意图，如图12所示，该电子设备可以包括：处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240，其中，处理器1210，通信接口1220，存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令，以执行语音解码方法，该方法包括：确定待解码语音；基于所述待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，所述语音解码模型包括多个解码网络；基于所述待解码语音中的当前语音帧，在所述当前解码路径所处解码网络中，对所述当前解码路径进行扩展，得到所述当前语音帧的候选解码路径，并将所述当前语音帧的下一语音帧更新为当前语音帧，直至所述当前语音帧为所述待解码语音的尾帧。

此外，上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音解码方法，该方法包括：确定待解码语音；基于所述待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，所述语音解码模型包括多个解码网络；基于所述待解码语音中的当前语音帧，在所述当前解码路径所处解码网络中，对所述当前解码路径进行扩展，得到所述当前语音帧的候选解码路径，并将所述当前语音帧的下一语音帧更新为当前语音帧，直至所述当前语音帧为所述待解码语音的尾帧。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的语音解码方法，该方法包括：确定待解码语音；基于所述待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，所述语音解码模型包括多个解码网络；基于所述待解码语音中的当前语音帧，在所述当前解码路径所处解码网络中，对所述当前解码路径进行扩展，得到所述当前语音帧的候选解码路径，并将所述当前语音帧的下一语音帧更新为当前语音帧，直至所述当前语音帧为所述待解码语音的尾帧。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音解码方法，其特征在于，包括：

确定待解码语音；

基于所述待解码语音中的当前语音帧，在所述当前解码路径所处解码网络中，对所述当前解码路径进行扩展，得到所述当前语音帧的候选解码路径，并将所述当前语音帧的下一语音帧更新为当前语音帧，直至所述当前语音帧为所述待解码语音的尾帧；

所述基于所述待解码语音中，上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况，确定当前解码路径，包括：

基于各解码网络的当前路径数量阈值，从各解码网络针对上一语音帧解码得到的第一路径中选取当前解码路径，所述候选解码路径基于所述第一路径确定；

所述当前路径数量阈值表示需从对应解码网络解码得到的第一路径中选取的当前解码路径的数量，所述第一路径为所述各解码网络针对上一语音帧解码得到的所有解码路径；

所述基于所述上一语音帧的候选解码路径所处解码网络的解码情况，确定所述语音解码模型中各解码网络的当前路径数量阈值，包括：

2.根据权利要求1所述的语音解码方法，其特征在于，所述基于所述上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量，确定所述语音解码模型中各解码网络的当前路径数量阈值，包括：

3.根据权利要求1或2所述的语音解码方法，其特征在于，所述基于所述上一语音帧在语音解码模型中各解码网络分别得到的候选解码路径的数量和解码质量，确定所述语音解码模型中各解码网络的当前路径数量阈值，包括：

若所述上一语音帧在任一解码网络中得到的候选解码路径的解码质量不满足预设质量条件，则减小所述任一解码网络的候选解码路径的数量，并增大所述任一解码网络之外的其他解码网络的候选解码路径的数量，并基于各解码网络分别得到的候选解码路径的数量，确定所述语音解码模型中各解码网络的当前路径数量阈值。

4.根据权利要求1所述的语音解码方法，其特征在于，所述语音解码模型包括三音素解码网络，所述三音素解码网络基于如下步骤更新：

在所述待插入词的音素之后加入静音弧，得到待插入路径；

将所述待插入路径插入所述目标插入位置。

5.根据权利要求4所述的语音解码方法，其特征在于，所述在所述待插入词的音素之后加入静音弧，得到待插入路径，包括：

6.一种语音解码装置，其特征在于，包括：

待解码语音确定单元，用于确定待解码语音；

候选解码路径确定单元，用于基于所述待解码语音中的当前语音帧，在所述当前解码路径所处解码网络中，对所述当前解码路径进行扩展，得到所述当前语音帧的候选解码路径，并将所述当前语音帧的下一语音帧更新为当前语音帧，直至所述当前语音帧为所述待解码语音的尾帧；

所述当前解码路径确定单元具体用于：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的语音解码方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的语音解码方法的步骤。