CN112820277A

CN112820277A - 语音识别服务定制方法、介质、装置和计算设备

Info

Publication number: CN112820277A
Application number: CN202110013771.4A
Authority: CN
Inventors: 韩其琛; 刘�东; 李响; 杨震; 张神权
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-18
Anticipated expiration: 2041-01-06
Also published as: CN112820277B

Abstract

本发明的实施方式提供了一种语音识别服务定制方法、介质、装置和计算设备。该方法包括：获取用于语音识别的通用模型以及针对特定用户的用户模型，其中，通用模型和用户模型中均包括用于指示模型路径跳转的连接状态；分别从通用模型的初始状态和用户模型的初始状态出发并行开始进行多次单步解码；在任一模型的每次单步解码过程中，当上一步的状态队列中存在连接状态时，将与任一模型并行的另一模型的连接状态加入本次单步解码的状态队列；直至多次单步解码结束时，根据最终的状态队列确定对音频内容的语音识别结果。本发明实施例能够改善语音识别的效果。

Description

语音识别服务定制方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及语音识别技术领域，更具体地，本发明的实施方式涉及语音识别服务定制方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在目前的语音识别服务中，针对大量有定制需求的用户难以做到低成本高效率的语音识别服务快速定制。语音识别的领域自适应能力主要由语言模型提供，传统的定制做法是先收集领域相关语料，利用收集的语料和通用语料共同构建语言模型，最后生成专门用于该领域的解码网络。这种方式得到的模型识别效果往往是最好的，但是如果针对每个领域的用户都设置专门的语言模型，成本将非常大。

为了解决这一问题，目前提出了采用通用模型和针对特定用户的用户模型融合的方式，首先利用通用模型识别出多种候选，随后利用针对特定用户的用户模型对多种候选重新打分排序。这种方法虽然可以快速定制，但是会增加识别过程中的复杂度和所需时间，并且通用模型有可能将正确的结果提前过滤掉，导致识别效果不佳。

发明内容

本发明期望提供一种语音识别服务定制方法、介质、装置和计算设备。

在本发明实施方式的第一方面中，提供了一种语音识别服务定制方法，包括：

获取用于语音识别的通用模型以及针对特定用户的用户模型，其中，通用模型和用户模型中均包括用于指示模型路径跳转的连接状态；

分别从通用模型的初始状态和用户模型的初始状态出发并行开始进行多次单步解码；在任一模型的每次单步解码过程中，当上一步的状态队列中存在连接状态时，将与任一模型并行的另一模型的连接状态加入本次单步解码的状态队列；

直至多次单步解码结束时，根据最终的状态队列确定对音频内容的语音识别结果。

在本发明的一个实施例中，用户模型和通用模型为加权有限状态转换器WFST形式的用于识别解码的模型。

在本发明的一个实施例中，当上一步的状态队列中存在连接状态时，将与任一模型并行的另一模型的连接状态加入本次单步解码的状态队列，包括：

当上一步的状态队列中存在通用模型的连接状态时，将用户模型的连接状态加入本次单步解码的状态队列，并根据通用模型的连接状态的分数及跳入代价确定用户模型的连接状态的分数；其中，跳入代价为从通用模型的连接状态跳转到用户模型的连接状态的边权重；或者，

当上一步的状态队列中存在用户模型的连接状态时，将通用模型的连接状态加入本次单步解码的状态队列，并根据用户模型的连接状态的分数及跳出代价确定通用模型的连接状态的分数；其中，跳出代价为从用户模型的连接状态跳转到通用模型的连接状态的边权重。

在本发明的一个实施例中，根据最终的状态队列确定对音频内容的语音识别结果，包括：

根据最终的状态队列确定至少一个候选状态队列序列；

在至少一个候选状态队列序列中，去除最后一次跳转是连接状态之间跳转的候选状态队列序列；

从剩余的候选状态队列序列中，选择分数最低的候选状态队列序列，作为对用户的音频内容的语音识别结果。

在本发明的一个实施例中，根据最终的状态队列确定至少一个候选状态队列序列，包括：

针对最终的状态队列中的各个最终状态，确定从通用模型的初始状态或用户模型的初始状态跳转至最终状态的路径，将路径经过的多个状态组成最终状态对应的候选状态队列序列，并将最终状态的分数作为候选状态队列序列的分数；其中，当前状态的分数由前一个状态的分数及从前一个状态跳转到当前状态的边权重确定。

在本发明的一个实施例中，获取用于语音识别的通用模型以及针对特定用户的用户模型之前，还包括：

接收针对特定用户的训练语料；

利用训练语料生成针对特定用户的用户模型；

分别在用户模型和通用模型中确定零阶回退状态；

标记用户模型和通用模型中的零阶回退状态，将零阶回退状态作为用于指示模型路径跳转的连接状态。

在本发明的一个实施例中，确定零阶回退状态，包括：

从初始状态出发，遍历初始状态的出发边，将输入标签为silence，输出标签为epsilon的出发边所对应的目标状态加入第一候选队列；

遍历第一候选队列，针对第一候选队列中的各个目标状态，遍历目标状态的出发边，将输入标签为epsilon，输出标签为epsilon的出发边所对应的目标状态加入第一结果集合；

在第一结果集合中的目标状态数量为1时，将第一结果集合中的目标状态确定为零阶回退状态；在第一结果集合中的目标状态数量为0时，遍历第一候选队列，将第一候选队列中出发边数量最多的目标状态确定为零阶回退状态。

在本发明的一个实施例中，还包括：

确定用户模型的跳入代价和跳出代价；其中，

跳入代价为从通用模型的零阶回退状态跳转到用户模型的零阶回退状态的边权重；

跳出代价为从用户模型的零阶回退状态跳转到通用模型的零阶回退状态的边权重。

在本发明的一个实施例中，确定用户模型的跳入代价和跳出代价，包括：

利用特定用户的测试集，采用网格搜索法确定跳入代价和跳出代价。

在本发明实施方式的第二方面中，提供了一种语音识别服务定制装置，包括：

获取模块，用于获取用于语音识别的通用模型以及针对特定用户的用户模型，其中，通用模型和用户模型中均包括用于指示模型路径跳转的连接状态；

解码模块，用于分别从通用模型的初始状态和用户模型的初始状态出发并行开始进行多次单步解码；在任一模型的每次单步解码过程中，当上一步的状态队列中存在连接状态时，将与任一模型并行的另一模型的连接状态加入本次单步解码的状态队列；

确定模块，用于直至多次单步解码结束时，根据最终的状态队列确定对音频内容的语音识别结果。

在本发明的一个实施例中，解码模块用于：

在本发明的一个实施例中，确定模块包括：

候选队列确定子模块，用于根据最终的状态队列确定至少一个候选状态队列序列；

过滤子模块，用于在至少一个候选状态队列序列中，去除最后一次跳转是连接状态之间跳转的候选状态队列序列；

语音识别结果确定子模块，用于从剩余的候选状态队列序列中，选择分数最低的候选状态队列序列，作为对用户的音频内容的语音识别结果。

在本发明的一个实施例中，候选队列确定子模块用于：

在本发明的一个实施例中，上述装置还包括：

模型训练模块，用于接收针对特定用户的训练语料，利用训练语料生成针对特定用户的用户模型；

连接状态确定模块，用于分别在用户模型和通用模型中确定零阶回退状态；标记用户模型和通用模型中的零阶回退状态，将零阶回退状态作为用于指示模型路径跳转的连接状态。

在本发明的一个实施例中，上述连接状态确定模块用于：

在本发明的一个实施例中，上述装置还包括：

参数确定模块，用于确定用户模型的跳入代价和跳出代价；其中，跳入代价为从通用模型的零阶回退状态跳转到用户模型的零阶回退状态的边权重；跳出代价为从用户模型的零阶回退状态跳转到通用模型的零阶回退状态的边权重。

在本发明的一个实施例中，上述参数确定模块，用于利用特定用户的测试集，采用网格搜索法确定跳入代价和跳出代价。

在本发明实施方式的第三方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现上述语音识别服务定制方法的步骤。

在本发明实施方式的第四方面中，提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现语音识别服务定制方法的步骤。

根据本发明实施方式的语音识别服务定制方法和装置，可以从用于语音识别的通用模型和针对特定用户的用户模型同步开始进行解码，在解码过程中，如果到达任一模型中的连接状态，则将与该模型并行的另一模型的连接状态加入到状态队列中，从而实现通用模型和特定用户的动态并联解码。由于本申请实施方式既利用通用模型中日常的用语，又利用用户模型中用户定制的特殊用语，并且不会出现通用模型将正确的结果提前过滤掉的情况，因此能够改善语音识别的效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明一实施方式的语音识别服务定制方法实现流程图；

图2示意性地示出了根据本发明一实施方式的语音识别服务定制方法的整体流程示意图；

图3示意性地示出了根据本发明一实施方式的语音识别服务定制方法中，确定零阶回退状态的实现流程图；

图4A示意性地示出了本发明一实施方式的WFST形式的用户模型示意图；

图4B示意性地示出了本发明一实施方式的WFST形式的通用模型示意图；

图4C示意性地示出了本发明一实施方式的WFST形式的通用模型和WFST形式的用户模型的静态融合网络效果图；

图5示意性地示出了根据本发明一实施方式的语音识别服务定制方法中，实时动态并联解码过程的实现方式示意图；

图6示意性地示出了根据本发明一实施方式的语音识别服务定制方法中，异常候选过滤及确定语音识别结果的实现流程图；

图7示意性地示出了根据本发明一实施方式的用于语音识别服务定制方法的介质示意图；

图8示意性地示出了根据本发明一实施方式的语音识别服务定制装置的结构示意图；

图9示意性地示出了根据本发明一实施方式的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种语音识别服务定制方法、介质、装置和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有语音服务用户定制技术中，无法较好地平衡内存占用、识别效率和识别效果等因素，无法较好地实现语音识别服务定制。

有鉴于此，本发明提供一种语音识别服务定制方法和装置，设置用于语音识别的通用模型和针对特定用户的用户模型，在进行语音识别时在两个模型之间跳转，既利用通用模型中日常的用语，又利用用户模型中用户定制的特殊用语，从而提高语音识别的能力，改善语音识别的效果。并且，本发明并非简单的将用户模型与通用模型在初始节点就开始并联，而根据每一步的语音识别结果动态并联用户模型和通用模型，因此能够减少对内存的占用。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本发明示例性实施方式的语音识别服务定制方法。

图1示意性地示出了根据本发明一实施方式的语音识别服务定制方法实现流程图。如图1所示，本发明实施例的语音识别服务定制方法包括以下步骤：

S11：获取用于语音识别的通用模型以及针对特定用户的用户模型，其中，通用模型和用户模型中均包括用于指示模型路径跳转的连接状态；

S12：分别从通用模型的初始状态和用户模型的初始状态出发并行开始进行多次单步解码；在任一模型的每次单步解码过程中，当上一步的状态队列中存在连接状态时，将与任一模型并行的另一模型的连接状态加入本次单步解码的状态队列；

S13：直至多次单步解码结束时，根据最终的状态队列确定对音频内容的语音识别结果。

在一种可能的实施方式中，上述用户模型和通用模型为加权有限状态转换器(WFST，Weighted Finite-State Transducer)形式的用于语音识别的解码模型。

通过上述过程，本发明实施例实现了模型之间的跳转。在用于语音识别的通用模型和针对特定用户的用户模型中均设置连接状态，通过该连接状态可以实现通用模型和用户模型之间的跳转，这样既可以利用到通用模型当中日常的用语，又可以利用用户模型当中用户定制的特殊用语，从而增强定制识别的能力。并且，本发明实施例并非简单的将用户模型与通用模型在初始节点就开始并联，而根据每一步的语音识别结果动态并联用户模型和通用模型，这样能够减少对内存的占用。

图2示意性地示出了根据本发明一实施方式的语音识别服务定制方法的整体流程示意图。如图2所示，在一种可能的实施方式中，本方案可以划分为以下两部分，其中，第一部分包括模型生成过程，第二部分包括基于动态实时并联的模型解码过程。用户上传相关训练文本，采用该训练文本得到用于并联解码的用户模型；在模型部署完成之后，用户就可以通过实时动态并联的方式进行解码，得到通过用户模型优化后的结果。多用户之间的模型生成和解码均可以同时进行，相互之间不受影响。以下分别详述。

第一部分，模型生成过程：

在一种实施方式中，在上述步骤S11之前还包括：

接收针对特定用户的训练语料；

利用该训练语料生成针对特定用户的用户模型；

分别在用户模型和通用模型中确定零阶回退状态；

标记用户模型和通用模型中的零阶回退状态，将该零阶回退状态作为用于指示模型路径跳转的连接状态。

具体地，在接收针对特定用户的训练语料之后，可以首先对该训练语料进行预处理操作，例如冗余符号的处理、过长单句的分句、分词以及文本正则化等操作。

之后，利用语言模型工具，并采用处理后的训练语料进行训练，得到训练语料对应的语言模块，如n-gram语言模型。该模型训练过程可以采用srilm，kenlm等开源工具实现。随后，将训练得到的语言模型拼接发音词典和声学模型，生成一个WFST形式的针对特定用户的用户模型。本申请还可以根据技术形式的不同，选择业内常见的HCLG或CLG模型等多种形式。

如上所述，本申请实施例可以将用户模型和通用模型中的零阶回退状态作为用于指示模型路径跳转的连接状态。为确定零阶回退状态，可以从初始状态出发，通过静音标签(silence标签)和空标签(epsilon标签)就可以找到零阶回退节点，这条路径有且仅有一条。在极少数情况下，直接通过silence标签就可以到达零阶回退节点。silence标签和epsilon标签是本领域内常见标签，在此不再赘述。

并且，本发明实施例在各个模型中仅设置一个连接状态，用于两个模型之间的连接，这种简单的连接方式能够保证识别效率上不受损失。可见，本发明实施例能够很好地平衡内存占用、识别效率和识别效果等因素，提供对大规模用户的语音识别定制服务。

图3示意性地示出了根据本发明一实施方式的语音识别服务定制方法中，确定零阶回退状态的实现流程图，包括以下步骤：

S31：从初始状态出发，遍历初始状态的出发边，将输入标签为silence，输出标签为epsilon的出发边所对应的目标状态加入第一候选队列；

S32：遍历第一候选队列，针对第一候选队列中的各个目标状态，遍历目标状态的出发边，将输入标签为epsilon，输出标签为epsilon的出发边所对应的目标状态加入第一结果集合；

S33：在第一结果集合中的目标状态数量为1时，将第一结果集合中的目标状态确定为零阶回退状态；在第一结果集合中的目标状态数量为0时，遍历第一候选队列，将第一候选队列中出发边数量最多的目标状态确定为零阶回退状态。

图4A示意性地示出了本发明一实施方式的WFST形式的用户模型示意图，该模型通过训练语料“用户模型”训练得到。如图4A所示，该WFST形式的用户模型的初始状态为状态0，遍历初始0的出发边，将输入标签为silence(图中简写为sil)，输出标签为epsilon(图中简写为eps)的出发边所对应的目标状态，即状态1加入第一候选队列。之后，遍历第一候选队列，针对第一候选队列中的各个目标状态的出发边，即状态1的出发边，将输入标签为epsilon、输出标签为epsilon的出发边所对应的目标状态，即状态2加入第一结果集合。最终第一结果集合中的目标状态数量为1，则将该目标状态，即目标状态2确定为零阶回退状态。

采用同样的方式，可以确定WFST形式的通用模型中的零阶回退状态，并利用各自的零阶回退状态将通用模型和用户模型进行连接。

图4B示意性地示出了本发明一实施方式的WFST形式的通用模型示意图，该模型通过通用语料“通用模型”训练得到。在图4B中，该WFST形式的通用模型的零阶回退状态为状态2。

图4C示意性地示出了本发明一实施方式的WFST形式的通用模型和WFST形式的用户模型的静态融合网络效果图。在图4C中，将图4A和图4B的两个网络静态融合，并确定用户模型的跳入代价和跳出代价；其中，

如图4C，上述跳入代价对应图4C中的W1，跳出代价对应图4C中的W2。

可以看出，跳入代价表示从通用模型跳转到用户模型的边权重。主要管理当前解码状态在通用模型时的行为模式。权重越大，更趋向于采纳原来通用模型的结果；权重越小，更趋向于采纳用户模型的结果。

跳出代价表示从用户模型跳转到通用模型的边权重。主要管理当前解码状态在用户模型时的行为模式。权重越大，更趋向于采纳原来用户模型的结果；权重越小，更趋向于采纳通用模型的结果。

这两个参数针对不同情况最优取值是不同的。因此，允许用户上传音频及其文本标注进行调节。在一些实施方式中，可以利用特定用户的测试集，采用网格搜索法确定跳入代价和跳出代价。如果用户不选择上传测试集，则可以将跳入代价和跳出代价确定为默认值，如0.01。

需要强调的是，图4C仅是一个简化后的静态融合网络效果图。在实际的语音识别的解码过程中，并非简单的将用户模型与通用模型在初始节点就开始并联，而根据每一步的语音识别结果动态并联用户模型和通用模型。这样每个用户只需要维护较小的资源(如大约几百兆)，为大规模用户定制提供了基础，解决了内存占用量大的问题。在模型部署过程中，本申请实施例可以将用户模型读入对应集群的内存中，由于用户模型比较小，同一台机器可以存储上百个用户模型。在用户提供的训练语料为100M以内的情况下，可以在半小时内完成从预处理到最终部署的全部操作。

以下介绍通用模型和用户模型的实时动态并联解码过程，即上述图2所示的第二部分。

图5示意性地示出了根据本发明一实施方式的语音识别服务定制方法中，实时动态并联解码过程的实现方式示意图。如图5所示，在解码过程中，首先进行模型提取和准备。之后进行多次WFST单步解码(简称单步解码)；在多次单步解码过程中，每一步解码结束后进行状态检查和跳转，检查这次单步解码得到的状态队列中是否存在通用模型或用户模型中的连接状态(如上述零阶回退状态)；如果存在，则进行模型间的跳转，将参与并联的另一个模型的连接状态加入到状态队列中；之后重新进行下一次的单步解码，直至音频处理完毕时，单步解码过程结束。解码结束之后，本申请实施例可以对最终的状态队列进行异常候选过滤，确定语音识别结果。以下详述上述各个步骤。

(1)模型提取和准备过程：

本申请实施例可以根据用户访问的ID查询用户模型。在找到用户模型之后，将WFST形式的用户模型和WFST形式的通用模型的初始状态均加入到解码的出发状态中，从两个状态同时出发进行解码。以图4C的静态融合图为例，将状态0和状态6添加到解码的出发状态之中。

(2)WFST单步解码及状态检查和跳转过程：

本步骤主要是随着音频的读取和声学模型识别，进行WFST的逐步解码工作。简化来说，单步解码就是从上一步的状态队列出发，根据一段音频处理结果，在WFST模型中进行跳转，返回跳转后的状态队列。这一队列作为下一次单步解码的出发状态，依次循环，直到整个音频处理完毕。状态队列中每个状态都会维护一个分数，用来描述这个状态和音频的匹配程度。由于本申请实施例采用动态并联的用户模型和通用模型进行解码，因此在进行跳转时，不仅会在单个WFST模型内部跳转，还会在两个WFST模型之间跳转。

可选地，在跳转过程中，当上一步的状态队列中存在连接状态时，将与任一模型并行的另一模型的连接状态加入本次单步解码的状态队列，包括：

具体地，当上述连接状态具体为零阶回退状态时，遍历上一步单步解码得到的状态队列，检查状态中是否存在零阶回退节点：若不存在，则跳过；若存在，则将参与并联的另一个模型的零阶回退状态加入到状态队列中，将其分数确定为零阶回退节点的分数加上跳入代价或跳出代价。例如，如果从通用模型跳转到用户模型，则将用户模型的零阶回退节点的分数确定为通用模型的零阶回退节点的分数与跳入代价之和；如果从用户模型跳转到通用模型，则将通用模型的零阶回退节点的分数确定为用户模型的零阶回退节点的分数与跳出代价之和。

以图4C所示的静态融合图举例，就是逐个检查上一步跳转得到的状态队列中的状态是否包括状态2或状态8：若没包括，则进行常规的状态跳转，将当前状态队列中所含状态的下一状态加入新的状态队列中；如果包括状态2，则将状态8加入状态队列，并将状态8的分数确定为状态2的分数与W1之和；如果包括状态8，则将状态2加入状态队列，并将状态2的分数确定为状态8的分数与W2之和。通过前述过程实现了在用户模型和通用模型之间的状态跳转。可见，相比预先直接添加完整路径，这种动态添加的方式更为灵活，并非简单的将用户模型与通用模型在初始节点就开始并联，而根据每一步的语音识别结果动态并联用户模型和通用模型，解决了内存占用的问题。

(3)异常候选过滤及确定语音识别结果的过程：

经过上述第(2)步骤的单步解码，得到一个最终的状态队列。本步骤利用该最终的状态队列，确定对音频内容的语音识别结果。图6示意性地示出了根据本发明一实施方式的语音识别服务定制方法中，异常候选过滤及确定语音识别结果的实现流程图，包括以下步骤：

S61：根据最终的状态队列确定至少一个候选状态队列序列；

S62：在该至少一个候选状态队列序列中，去除最后一次跳转是连接状态之间跳转的候选状态队列序列；

S63：从剩余的候选状态队列序列中，选择分数最低的候选状态队列序列，作为对用户的音频内容的语音识别结果。

以图4C为例，上述连接状态之间跳转包括：状态2至状态8的跳转，或者状态8至状态2的跳转。如果某个候选状态队列序列中的最后一次跳转是前述的两种跳转之一，则可以认为该候选状态队列序列为异常候选，将该异常候选剔除，从剩余的候选状态队列序列中确定语音识别结果。

其中，上述步骤S61中的实现方式可以包括：针对最终的状态队列中的各个最终状态，确定从通用模型的初始状态或用户模型的初始状态跳转至该最终状态的路径，将该路径经过的多个状态组成该最终状态对应的候选状态队列序列，并将该最终状态的分数作为对应的候选状态队列序列的分数；其中，当前状态的分数由前一个状态的分数及从前一个状态跳转到当前状态的边权重确定。

以图4C为例，如果最终的状态队列中包括4个最终状态，即状态8、状态4、状态12和状态5。首先分别确定这4个最终状态对应的候选状态队列序列，如状态8对应的候选状态队列序列为状态0->状态1->状态2->状态8，状态4对应的候选状态队列序列为状态0->状态1->状态2->状态4，状态12对应的候选状态队列序列为状态6->状态7->状态8->状态12，状态5对应的候选状态队列序列为状态0->状态3->状态5。为描述简便，前述内容中采用“->”表示跳转过程。

在上例中，状态8对应的候选状态队列序列中的最后一次跳转(状态2->状态8)是两个连接状态之间的跳转，因此将该候选状态队列序列剔除掉，从剩余的3个候选状态队列序列中确定对用户的音频内容的语音识别结果。

为了适配大规模用户定制的场景，本申请提出的解码过程可以对多个用户同时进行，即同时支持多个用户利用通用模型和自己定制的用户模型进行个性化识别。

综上可见，本申请实施例提出了针对大规模用户定制场景的方法通过对用户提交的训练文本进行模型训练和部署，借助模型的实时并联技术，可以快速完成海量用户的个性化定制需求，且解码的时间和成本没有上升。实践中，用户提交小于10M文本可以在五分钟内完成部署；提交100M以内的文本，可以在半小时内部署到服务器上，部署即生效。本申请实施例提出的方式极大地便利了用户利用自己领域的数据来打造更加适用于自己使用场景的语音识别服务，该服务支持从短语音到长语音，从离线到在线等所有形式的语音服务。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的介质进行说明。图7示意性地示出了根据本发明一实施方式的用于语音识别服务定制方法的介质示意图。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的语音识别服务定制方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：获取用于语音识别的通用模型以及针对特定用户的用户模型，其中，通用模型和用户模型中均包括用于指示模型路径跳转的连接状态；分别从通用模型的初始状态和用户模型的初始状态出发并行开始进行多次单步解码；在任一模型的每次单步解码过程中，当上一步的状态队列中存在连接状态时，将与任一模型并行的另一模型的连接状态加入本次单步解码的状态队列；直至多次单步解码结束时，根据最终的状态队列确定对音频内容的语音识别结果。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图7所示，描述了根据本发明的实施方式的介质70，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本发明不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图8对本发明示例性实施方式的装置进行说明。

如图8所示，本发明实施例的语音识别服务定制装置可以包括：

获取模块810，用于获取用于语音识别的通用模型以及针对特定用户的用户模型，其中，通用模型和用户模型中均包括用于指示模型路径跳转的连接状态；

解码模块820，用于分别从通用模型的初始状态和用户模型的初始状态出发并行开始进行多次单步解码；在任一模型的每次单步解码过程中，当上一步的状态队列中存在连接状态时，将与任一模型并行的另一模型的连接状态加入本次单步解码的状态队列；

确定模块830，用于直至多次单步解码结束时，根据最终的状态队列确定对音频内容的语音识别结果。

在一种可能的实施方式中，上述用户模型和通用模型为WFST形式的用于识别解码的模型。

在一种可能的实施方式中，上述解码模块820用于：

如图8所示，在一种可能的实施方式中，上述确定模块830包括：

候选队列确定子模块831，用于根据最终的状态队列确定至少一个候选状态队列序列；

过滤子模块832，用于在至少一个候选状态队列序列中，去除最后一次跳转是连接状态之间跳转的候选状态队列序列；

语音识别结果确定子模块833，用于从剩余的候选状态队列序列中，选择分数最低的候选状态队列序列，作为对用户的音频内容的语音识别结果。

在一种可能的实施方式中，上述候选队列确定子模块831用于：

如图8所示，在一种可能的实施方式中，上述装置还包括：

模型训练模块840，用于接收针对特定用户的训练语料，利用训练语料生成针对特定用户的用户模型；

连接状态确定模块850，用于分别在用户模型和通用模型中确定零阶回退状态；标记用户模型和通用模型中的零阶回退状态，将零阶回退状态作为用于指示模型路径跳转的连接状态。

在一种可能的实施方式中，上述连接状态确定模块850用于：

如图8所示，在一种可能的实施方式中，上述装置还包括：

参数确定模块860，用于确定用户模型的跳入代价和跳出代价；其中，跳入代价为从通用模型的零阶回退状态跳转到用户模型的零阶回退状态的边权重；跳出代价为从用户模型的零阶回退状态跳转到通用模型的零阶回退状态的边权重。

在一种可能的实施方式中，上述参数确定模块860，用于利用特定用户的测试集，采用网格搜索法确定跳入代价和跳出代价。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图9对本发明示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，存储单元存储有程序代码，当程序代码被处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明的各种示例性实施方式的语音识别服务定制方法中的步骤。

下面参照图9来描述根据本发明的这种实施方式的计算设备90。图9显示的计算设备90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算设备90以通用计算设备的形式表现。计算设备90的组件可以包括但不限于：上述至少一个处理单元901、上述至少一个存储单元902，连接不同系统组件(包括处理单元901和存储单元902)的总线903。

总线903包括数据总线、控制总线和地址总线。

存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)9021和/或高速缓存存储器9022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)9023。

存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025，这样的程序模块9024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备90也可以与一个或多个外部设备904(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器906通过总线903与计算设备90的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了语音识别服务定制装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音识别服务定制方法，其特征在于，包括：

获取用于语音识别的通用模型以及针对特定用户的用户模型，其中，所述通用模型和所述用户模型中均包括用于指示模型路径跳转的连接状态；

分别从所述通用模型的初始状态和所述用户模型的初始状态出发并行开始进行多次单步解码；在任一模型的每次单步解码过程中，当上一步的状态队列中存在所述连接状态时，将与所述任一模型并行的另一模型的连接状态加入本次单步解码的状态队列；

直至所述多次单步解码结束时，根据最终的状态队列确定对音频内容的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述用户模型和所述通用模型为加权有限状态转换器WFST形式的用于识别解码的模型。

3.根据权利要求1或2所述的方法，其特征在于，所述当上一步的状态队列中存在所述连接状态时，将与所述任一模型并行的另一模型的连接状态加入本次单步解码的状态队列，包括：

当上一步的状态队列中存在所述通用模型的连接状态时，将所述用户模型的连接状态加入本次单步解码的状态队列，并根据所述通用模型的连接状态的分数及跳入代价确定所述用户模型的连接状态的分数；其中，所述跳入代价为从所述通用模型的连接状态跳转到所述用户模型的连接状态的边权重；或者，

当上一步的状态队列中存在所述用户模型的连接状态时，将所述通用模型的连接状态加入本次单步解码的状态队列，并根据所述用户模型的连接状态的分数及跳出代价确定所述通用模型的连接状态的分数；其中，所述跳出代价为从所述用户模型的连接状态跳转到所述通用模型的连接状态的边权重。

4.根据权利要求1或2所述的方法，其特征在于，所述根据最终的状态队列确定对音频内容的语音识别结果，包括：

根据所述最终的状态队列确定至少一个候选状态队列序列；

在所述至少一个候选状态队列序列中，去除最后一次跳转是连接状态之间跳转的候选状态队列序列；

从剩余的候选状态队列序列中，选择分数最低的候选状态队列序列，作为对所述用户的音频内容的语音识别结果。

5.根据权利要求4所述的方法，其特征在于，所述根据所述最终的状态队列确定至少一个候选状态队列序列，包括：

针对所述最终的状态队列中的各个最终状态，确定从所述通用模型的初始状态或所述用户模型的初始状态跳转至所述最终状态的路径，将所述路径经过的多个状态组成所述最终状态对应的候选状态队列序列，并将所述最终状态的分数作为所述候选状态队列序列的分数；其中，当前状态的分数由前一个状态的分数及从所述前一个状态跳转到所述当前状态的边权重确定。

6.根据权利要求3所述的方法，其特征在于，所述获取用于语音识别的通用模型以及针对特定用户的用户模型之前，还包括：

接收针对特定用户的训练语料；

利用所述训练语料生成所述针对特定用户的用户模型；

分别在所述用户模型和所述通用模型中确定零阶回退状态；

标记所述用户模型和所述通用模型中的零阶回退状态，将所述零阶回退状态作为所述用于指示模型路径跳转的连接状态。

7.根据权利要求6所述的方法，其特征在于，所述确定零阶回退状态，包括：

从初始状态出发，遍历所述初始状态的出发边，将输入标签为silence，输出标签为epsilon的出发边所对应的目标状态加入第一候选队列；

遍历所述第一候选队列，针对所述第一候选队列中的各个目标状态，遍历所述目标状态的出发边，将输入标签为epsilon，输出标签为epsilon的出发边所对应的目标状态加入第一结果集合；

在所述第一结果集合中的目标状态数量为1时，将所述第一结果集合中的目标状态确定为零阶回退状态；在所述第一结果集合中的目标状态数量为0时，遍历所述第一候选队列，将所述第一候选队列中出发边数量最多的目标状态确定为零阶回退状态。

8.一种语音识别服务定制装置，其特征在于，包括：

获取模块，用于获取用于语音识别的通用模型以及针对特定用户的用户模型，其中，所述通用模型和所述用户模型中均包括用于指示模型路径跳转的连接状态；

解码模块，用于分别从所述通用模型的初始状态和所述用户模型的初始状态出发并行开始进行多次单步解码；在任一模型的每次单步解码过程中，当上一步的状态队列中存在所述连接状态时，将与所述任一模型并行的另一模型的连接状态加入本次单步解码的状态队列；

确定模块，用于直至所述多次单步解码结束时，根据最终的状态队列确定对音频内容的语音识别结果。

9.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

10.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。