CN114023309A

CN114023309A - 语音识别系统、相关方法、装置及设备

Info

Publication number: CN114023309A
Application number: CN202010701047.6A
Authority: CN
Inventors: 高志付; 张仕良
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2022-02-08

Abstract

本申请公开了语音识别系统、相关方法、装置及设备。其中，所述系统通过多个客户端采集不同应用的语音数据，将语音数据发送至服务端；服务端从训练样本集中学习得到模型参数动态可变的语音识别模型，并确定各个应用使用该模型的模型参数；针对客户端发送的语音数据，确定目标应用的模型参数；将目标应用的模型参数作为语音识别模型的模型参数，通过基于目标应用的模型参数的语音识别模型，将语音数据转换为文本序列。采用这种处理方式，使得通过一个通用模型即可满足不同应用对计算量与时延的不同需求；因此，可以有效节省系统资源，降低模型维护成本，提升模型在应用场景上的可扩展性，提升新应用场景下的模型部署效率。

Description

语音识别系统、相关方法、装置及设备

技术领域

本申请涉及数据处理技术领域，具体涉及语音识别系统、方法和装置，语音识别服务升级方法和装置，语音识别服务测试方法和装置，智能音箱，智能电视，点餐设备，智能移动设备，车载语音助手设备，庭审设备，以及电子设备。

背景技术

在语音识别系统的不同的应用场景中，对计算量与时延有不同的需求。例如，在智能音箱场景中，语音识别系统通常部署在云端，由于云端设备性能较好，因此为了提升语音识别性能，可采用运算单元较多、且计算时延较高的语音识别模型；而在点餐机、智能电视、法院庭审等场景中，语音识别系统通常在端上部署，由于端设备性能有限，同时为了满足用户交互的实时性需求，通常需采用运算单元较少、且时延要求更高的语音识别模型；而在即时通讯场景(如钉钉)中，对语音识别系统的时延要求并不高，可采用计算量较大的模型。

目前，语音识别系统主要是通过同时维护多个语音识别模型，来满足不同应用对计算量与时延的不同需求，也即每个模型具有固定的模型大小和时延，不同应用根据其对计算量与时延的不同需求，使用不同的语音识别模型，不同的语音识别模型需要单独训练和维护。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：1)由于要同时维护多个模型来满足不同应用对计算量与时延的不同需求，因此会消耗较多的计算资源和存储资源，且模型训练与维护成本均较高；2)在面对新应用场景的语音识别需求时，需要重新训练一个适用于该场景对计算量与时延需求的语音识别模型，因此语音识别系统的可扩展性较低。综上所述，如何提供一个模型参数可控的统一的语音识别模型,来满足不同应用场景对计算量与时延的不同需求，以节省设备资源，提升应用场景的可扩展性，降低模型维护成本，成为本领域技术人员急需解决的问题。

发明内容

本申请提供语音识别系统，以解决现有技术存在的无法通过一个通用的语音识别模型来满足不同应用对计算量与时延的不同需求的问题。本申请另外提供语音识别方法和装置，语音识别服务升级方法和装置，语音识别服务测试方法和装置，智能音箱，智能电视，点餐设备，智能移动设备，车载语音助手设备，庭审设备，以及电子设备。

本申请提供一种语音识别系统，包括：

客户端，用于采集目标应用的语音数据，将所述语音数据发送至服务端；

服务端，用于从训练样本集中学习得到模型参数动态可变的语音识别模型；针对终端设备发送的所述语音数据，确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

本申请还提供一种语音识别方法，包括：

从训练样本集中学习得到模型参数动态可变的语音识别模型；

确定与目标应用对应的目标模型参数；

通过基于所述目标模型参数的所述语音识别模型，将目标应用的语音数据转换为文本序列。

可选的，所述模型参数包括：模型大小；

所述模型大小包括：神经网络的层数和/或神经元数量；

所述从训练样本集中学习得到模型参数动态可变的语音识别模型，包括：

根据动态确定的模型大小，对所述模型执行迭代训练。

可选的，所述动态确定的模型大小，采用如下方式确定：

从多个预设模型大小中，任意选取模型大小。

可选的，所述模型包括：流式端到端语音识别模型；

所述模型包括：音频编码器，解码器；

所述模型大小包括：音频编码器的大小。

可选的，所述模型参数包括：时延值；

根据动态确定的时延值，对所述模型执行迭代训练。

可选的，所述动态确定的时延值，采用如下方式确定：

从多个预设时延值中，任意选取时延值；

所述目标应用的时延值包括：所述预设时延值以外的时延值。

可选的，所述模型包括：流式端到端语音识别模型；

所述模型包括：音频编码器，特征数据确定模块，解码器；

所述通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列，包括：

通过音频编码器，确定所述语音数据的音频特征数据，并根据目标应用的时延值，将所述音频特征数据存入分块内存；

通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据；

通过解码器，根据字的特征数据，确定所述语音数据中的字，形成所述文本序列。

可选的，所述通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的音频特征数据，包括：

确定字与块内存间的对应关系；

根据所述对应关系，确定与字对应的特征数据。

可选的，所述特征数据确定模块包括：预测器；

所述通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据，还包括：

通过所述预测器，确定各个块包括的文本长度；

根据所述文本长度，确定字与块间的对应关系。

可选的，所述确定与所述目标应用对应的目标模型参数，包括：

确定目标应用的语音识别性能需求信息；

根据所述性能需求信息，确定所述目标模型参数。

可选的，若与目标应用相关的第一用户将与所述目标模型参数对应的资源对象发送至与所述模型相关的第二用户，则通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

本申请还提供一种语音识别方法，包括：

采集目标应用的语音数据，将所述语音数据发送至服务端，以使得服务端从训练样本集中学习得到模型参数动态可变的语音识别模型；针对所述语音数据，确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

本申请还提供一种语音识别方法，包括：

确定与目标应用对应的目标模型参数；

将基于所述目标模型参数的所述语音识别模型发送至运行目标应用的目标设备，以使得所述目标应用通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

确定目标应用的语音识别性能需求信息；

根据所述性能需求信息，确定所述目标模型参数。

可选的，还包括：

根据所述性能需求信息，确定所述目标设备的设备性能需求信息；

将所述设备性能需求信息发送至与所述目标应用相关的管理设备，以使得管理设备显示所述设备性能需求信息；

将基于所述目标模型参数的所述语音识别模型发送至满足所述设备性能需求信息的目标设备。

确定运行目标应用的设备性能信息；

根据所述设备性能信息，确定所述目标模型参数。

可选的，所述设备性能信息包括：计算资源信息和存储资源信息；

所述根据所述设备性能信息，确定所述目标模型参数，包括：

根据所述计算资源信息，确定模型大小；

根据所述存储资源信息，确定时延值。

可选的，还包括：

确定与所述目标模型参数对应的资源信息；

向与目标应用相关的第一用户发送所述资源信息；

若第一用户将资源对象发送至与所述模型相关的第二用户，则将基于所述目标模型参数的所述语音识别模型发送至所述目标设备。

可选的，还包括：

根据所述目标模型参数，确定语音识别性能信息；

将所述性能信息发送至与所述目标应用相关的管理设备，以使得管理设备显示所述性能信息。

可选的，所述目标模型参数包括：时延值；

相应的，所述性能信息包括：语音识别实时度。

可选的，所述目标模型参数包括：模型大小；

相应的，所述性能信息包括：语音识别准确度。

本申请还提供一种语音识别方法，包括：

向服务端发送针对目标应用的语音识别模型获取请求；

接收服务端回送的基于与目标应用对应的目标模型参数的模型参数动态可变的语音识别模型；

通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

可选的，还包括：

确定目标应用的语音识别性能需求信息；

所述请求包括所述性能需求信息，以使得服务端根据所述性能需求信息，确定所述目标模型参数。

可选的，还包括：

接收服务端发送的根据所述性能需求信息确定的运行所述目标应用的设备性能需求信息；

显示所述设备性能需求信息，以便于确定满足所述设备性能需求信息的目标设备，以使得服务端将基于所述目标模型参数的所述语音识别模型发送至所述目标设备。

可选的，还包括：

确定运行目标应用的设备性能信息；

所述请求包括所述设备性能信息，以便于服务端根据所述设备性能信息，确定所述目标模型参数。

可选的，还包括：

接收服务端发送的与所述目标模型参数对应的资源信息；

将资源对象发送至与所述模型相关的第二用户，以使得服务端发送基于所述目标模型参数的所述语音识别模型。

可选的，还包括：

接收服务端发送的与所述目标模型参数对应的语音识别性能信息；

显示所述语音识别性能信息。

可选的，还包括：

接收服务端发送的基于多组模型参数的语音识别模型的测试系统；

分别通过基于各组模型参数的语音识别模型，将语音数据转换为文本序列，以便于确定各组模型参数的语音识别性能；

确定目标模型参数，将目标模型参数发送至服务端。

本申请还提供一种语音识别服务升级方法，包括：

确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；

根据所述使用状况信息，确定所述语音识别模型的第二模型参数；

将运行目标应用的设备上的所述语音识别模型的模型参数配置为第二模型参数，以使得所述设备通过基于第二模型参数的所述语音识别模型，将语音数据转换为文本序列。

可选的，所述根据所述使用状况信息，确定所述语音识别模型的第二模型参数，包括：

根据所述使用状况信息，确定所述语音识别模型的多组模型参数；

将基于多组模型参数的语音识别模型的测试系统发送至所述设备，以使得所述目标应用通过基于各组模型参数的语音识别模型，将语音数据转换为文本序列，以便于确定各组模型参数的语音识别性能，并根据语音识别性能确定第二模型参数。

根据所述使用状况信息，确定所述目标应用的语音识别性能需求信息；

根据所述性能需求信息，确定所述语音识别模型的第二模型参数。

本申请还提供一种语音识别服务升级方法，包括：

存储所述目标应用与第二模型参数间的对应关系，以使得针对目标应用的待处理语音数据，根据所述对应关系，通过基于所述第二模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

本申请还提供一种语音识别服务测试方法，包括：

接收针对目标应用的语音识别服务测试请求；

针对多组模型参数，通过基于各组模型参数的模型参数动态可变的语音识别模型，将目标应用的语音数据转换为文本序列；

向请求方回送与各组模型参数对应的文本序列，以便于请求方确定各组模型参数的语音识别性能，并根据所述性能，确定与目标应用对应的目标模型参数。

本申请还提供一种语音识别模型构建方法，包括：

确定训练数据集，所述训练数据包括：语音数据和文本序列标注信息；

构建所述模型的网络结构；

根据动态确定的模型参数，对所述模型执行迭代训练，得到模型参数动态可变的语音识别模型。

可选的，所述模型包括：流式端到端语音识别模型；

所述模型包括：音频编码器，解码器；

所述模型参数包括模型大小，所述模型大小包括音频编码器的大小。

可选的，所述模型包括：流式端到端语音识别模型；

所述模型包括：音频编码器，特征数据确定模块，解码器；

所述模型参数包括：时延值；

所述音频编码器，用于确定所述语音数据的音频特征数据，并根据目标应用的时延值，将所述音频特征数据存入分块内存；

所述特征数据确定模块，用于根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据；

所述解码器，用于根据字的特征数据，确定所述语音数据中的字，形成所述文本序列。

可选的，所述特征数据确定模块，具体用于确定字与块间的对应关系；根据所述对应关系，确定与字对应的特征数据。

可选的，所述训练数据还包括：各个块的文字长度标注信息；

所述数据确定模块包括：预测器；

所述预测器，用于确定各个分块包括的文本长度；

所述特征数据确定模块，用于根据所述文本长度，确定字与块间的对应关系。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将目标应用的语音数据转换为文本序列。

本申请还提供一种智能音箱，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集目标应用的语音数据，将所述语音数据发送至服务端，以使得服务端从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

本申请还提供一种点餐设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集语音点餐数据，通过基于与点餐应用对应的目标模型参数的模型参数动态可变的语音识别模型，将所述语音点餐数据转换为点餐文本；根据所述点餐文本，执行点餐处理。

本申请还提供一种智能电视，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集电视控制语音数据，通过基于与电视应用对应的目标模型参数的模型参数动态可变的语音识别模型，将所述语音数据转换为电视控制文本；根据所述电视控制文本，执行电视控制处理。

本申请还提供一种智能移动设备，包括：

处理器；以及

存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集语音数据，通过基于与所述设备对应的目标模型参数的模型参数动态可变的语音识别模型，将所述语音数据转换为文本序列；根据所述文本序列，执行语音交互处理。

本申请还提供一种车载语音助手设备，包括：

处理器；以及

本申请还提供一种庭审设备，包括：

处理器；以及

存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集语音数据，通过基于与所述设备对应的目标模型参数的模型参数动态可变的语音识别模型，将所述语音数据转换为文本序列。

本申请还提供一种语音识别装置，包括：

模型构建单元，用于从训练样本集中学习得到模型参数动态可变的语音识别模型；

模型参数确定单元，用于确定与目标应用对应的目标模型参数；

模型预测单元，用于通过基于所述目标模型参数的所述语音识别模型，将目标应用的语音数据转换为文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

本申请还提供一种语音识别装置，包括：

模型发送单元，用于将基于所述目标模型参数的所述语音识别模型发送至运行目标应用的目标设备，以使得所述目标应用通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与目标应用对应的目标模型参数；将基于所述目标模型参数的所述语音识别模型发送至运行目标应用的目标设备，以使得所述目标应用通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

本申请还提供一种语音识别装置，包括：

请求发送单元，用于向服务端发送针对目标应用的语音识别模型获取请求；

模型接收单元，用于接收服务端回送的基于与目标应用对应的目标模型参数的模型参数动态可变的语音识别模型；

语音识别单元，用于通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：向服务端发送针对目标应用的语音识别模型获取请求；接收服务端回送的基于与目标应用对应的目标模型参数的模型参数动态可变的语音识别模型；通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

本申请还提供一种语音识别服务升级装置，包括：

应用使用状况确定单元，用于确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；

模型参数确定单元，用于根据所述使用状况信息，确定所述语音识别模型的第二模型参数；

模型参数更新单元，用于将运行目标应用的设备上的所述语音识别模型的模型参数配置为第二模型参数，以使得所述设备通过基于第二模型参数的所述语音识别模型，将语音数据转换为文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音识别服务升级方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；根据所述使用状况信息，确定所述语音识别模型的第二模型参数；将运行目标应用的设备上的所述语音识别模型的模型参数配置为第二模型参数，以使得所述设备通过基于第二模型参数的所述语音识别模型，将语音数据转换为文本序列。

本申请还提供一种语音识别服务升级装置，包括：

应用使用状况确定单元，用于确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息。

模型参数确定单元，用于根据所述使用状况信息，确定所述语音识别模型的第二模型参数。

模型参数更新单元，用于存储所述目标应用与第二模型参数间的对应关系，以使得针对目标应用的待处理语音数据，根据所述对应关系，通过基于所述第二模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音识别服务升级方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；根据所述使用状况信息，确定所述语音识别模型的第二模型参数；存储所述目标应用与第二模型参数间的对应关系，以使得针对目标应用的待处理语音数据，根据所述对应关系，通过基于所述第二模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

本申请还提供一种语音识别服务测试装置，包括：

测试请求接收单元，用于接收针对目标应用的语音识别服务测试请求；

语音识别测试单元，用于针对多组模型参数，通过基于各组模型参数的模型参数动态可变的语音识别模型，将目标应用的语音数据转换为文本序列；

文本序列回送单元，用于向请求方回送与各组模型参数对应的文本序列，以便于请求方确定各组模型参数的语音识别性能，并根据所述性能，确定与目标应用对应的目标模型参数。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音识别服务测试方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收针对目标应用的语音识别服务测试请求；语音识别单元，用于针对多组模型参数，通过基于各组模型参数的模型参数动态可变的语音识别模型，将目标应用的语音数据转换为文本序列；文本序列回送单元，用于向请求方回送与各组模型参数对应的文本序列，以便于请求方确定各组模型参数的语音识别性能，并根据所述性能，确定与目标应用对应的目标模型参数。

本申请还提供一种语音识别模型构建装置，包括：

训练数据确定单元，用于确定训练数据集，所述训练数据包括：语音数据和文本序列标注信息；

网络构建单元，用于构建所述模型的网络结构；

网络训练单元，用于根据动态确定的模型参数，对所述模型执行迭代训练，得到模型参数动态可变的语音识别模型。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音识别模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定训练数据集，所述训练数据包括：语音数据和文本序列标注信息；构建所述模型的网络结构；根据动态确定的模型参数，对所述模型执行迭代训练，得到模型参数动态可变的语音识别模型。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的语音识别系统，通过多个客户端采集不同应用的语音数据，将语音数据发送至服务端；服务端从训练样本集中学习得到模型参数动态可变的语音识别模型，并确定各个应用使用所述模型的模型参数；针对客户端发送的所述语音数据，确定目标应用的模型参数；将所述目标应用的模型参数作为所述语音识别模型的模型参数，通过基于所述目标应用的模型参数的所述语音识别模型，将所述语音数据转换为文本序列；采用这种处理方式，使得实现模型参数(如影响计算量的模型大小，影响识别反应速度的时延latency)可控的流式语音识别系统，在语音识别时，依据实际应用场景需求，配置相应的模型参数，由此实现通过一个通用模型即可满足不同应用对计算量与时延的不同需求；因此，可以有效节省系统资源，降低模型维护成本，提升模型在应用场景上的可扩展性，提升新应用场景下的模型部署效率。此外，这种动态训练的模型的性能优于固定模型参数单独训练的模型，如果采用基于SCAMA的流式端到端语音识别，则可达到基于整句话注意力机制的离线语音识别的性能，因此可以有效提升语音识别性能。

附图说明

图1本申请提供的一种语音识别系统的实施例的结构示意图；

图2本申请提供的一种语音识别系统的实施例的场景示意图；

图3本申请提供的一种语音识别系统的实施例的设备交互示意图；

图4本申请提供的一种语音识别系统的实施例的模型示意图；

图5本申请提供的一种语音识别系统的实施例的又一模型示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了语音识别系统、方法和装置，语音识别模型构建方法和装置，智能音箱，智能电视，点餐设备，智能移动设备，车载语音助手设备，庭审设备，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的语音识别系统的实施例的示意图。本实施例提供的语音识别系统包括：服务端1和客户端2。

服务端1，可以是部署在云端服务器上的服务端，也可以是专用于实现语音识别系统的服务器，可部署在数据中心。

客户端2，包括但不限于智能音箱、智能电视、点餐设备、庭审设备、车载语音助理设备、个人电脑、平板电脑、智能手机等终端设备，也可以是企业局域网内的服务器等。

请参考图2，其为本申请的语音识别系统的场景示意图。服务端1和客户端2间可通过网络连接，如终端设备可通过WIFI等方式联网，等等。用户与终端设备之间可通过语音方式进行交互。以智能音箱为例，用户向智能音箱下达语音指令(如今天天气怎么样，打电话给某某等)，智能音箱将用户语音数据发送至服务端；服务端通过模型参数动态可变的语音识别模型确定该语音数据的文本序列；根据识别出的文本序列，执行语音交互处理。在本实施例中，服务端可通过一个通用的语音识别模型为多个应用提供语音识别服务，通过为不同应用配置模型参数，该模型可满足不同应用对计算量与时延的不同需求。

请参考图3，其为本申请的语音识别系统的设备示意图。在本实施例中，客户端用于采集目标应用的语音数据，将所述语音数据发送至服务端；服务端用于从训练样本集中学习得到模型参数动态可变的语音识别模型，并确定各个应用使用所述模型的模型参数；针对客户端发送的所述语音数据，确定所述目标应用的模型参数；将所述目标应用的模型参数作为所述语音识别模型的模型参数，通过基于所述目标应用的模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

所述语音识别模型，是模型参数动态可变的语音识别模型，其模型参数可随应用需求变化。该模型可以是一个可为多个应用提供在线语音识别服务的通用语音识别模型，可满足不同应用对计算量与时延的不同需求。所述应用可以是智能音箱相关的应用，也可以是点餐应用，还可以是电视节目点播应用，等等。

所述语音识别模型的结构，可以是非端到端的语音识别模型，也可以是端到端(End2End)的语音识别模型。所述非端到端的语音识别模型，包括独立的声学模型和语言模型，可先通过声学模型识别出发音序列，然后通过语言模型确定文本序列。所述端到端的语音识别模型，可采用将声学模型和语言模型合二为一的语音识别框架，这样就不存在模块间的误差传播效应，可以显著提升语音识别性能，此外还可以极大的减少系统训练复杂度。

所述模型参数，可以是影响模型计算复杂度的参数，包括模型大小，如端到端语音识别模型中音频编码器的大小。语音识别模型中的模块(如音频编码器、解码器等)可以采用神经网络结构，所述模型大小可以是模块神经网络的层数，也可以是某一层中神经元的数量，还可以同时包括神经网络的层数和神经元数量。

在一个示例中，所述语音识别模型采用流式端到端的语音识别模型，该模型包括：音频编码器和解码器。其中，音频编码器采用神经网络结构，该网络的大小可变，也即可配置，因此又可称为动态编码器。该语音识别模型可配置的模型大小可以是动态编码器的神经网络层数，也可以是某一层的神经元数量，还可以同时包括神经网络的层数和神经元数量。在这种情况下，服务端要从训练样本集中学习得到模型参数动态可变的语音识别模型，可采用如下方式实现：根据动态确定的模型大小，对所述模型执行迭代训练。其中，一个训练样本可包括语音数据和文本标注信息，该文本标注信息可由人工进行标注。

具体实施时，所述动态确定的模型大小，可采用如下方式确定：从多个预设模型大小中，任意选取模型大小。表1示出了本实施例中的模型大小参数表。

模型参数名	模型参数候选值	模型参数类型
			神经网络层数	3，5，10	模型大小
神经元数量	128，256，512，1024	模型大小

表1、模型大小参数表

由表1可见，模型大小可包括神经网络层数和神经元数量两种参数，每种参数可设置多个候选值，用于在模型迭代训练时，从中任意选择每次迭代的参数值。例如，在模型训练过程中的每次迭代(如每次100个样本)训练时，可从模型大小候选表(包括：128，256，512，1024等模型大小值)中，随机选择一个模型大小作为当前迭代的模型大小，每次迭代训练，模型大小参数动态变化，最终训练得到一个模型大小动态可变的语音识别模型。

在训练完成模型参数动态可变的语音识别模型后，可依据实际应用场景需求，为各个应用配置相应的模型参数。表2示出了模型参数配置表。

应用名	模型参数
		智能音箱应用	神经网络层数:10，神经元数量:1024
点餐应用	神经网络层数:3，神经元数量:256
		庭审应用	神经网络层数:5，神经元数量:512
车载语音助手	神经网络层数:3，神经元数量:128
		智能电视应用	神经网络层数:5，神经元数量:512
智能手机应用	神经网络层数:3，神经元数量:512
		…

表2、模型参数配置表

由表2可见，可为不同应用设置不同的模型大小值,如设置应用1和应用2的模型大小为128，应用3的模型大小为512，等等。这样，在服务端接收到客户端的待识别语音数据后，就可以先确定该语音数据对应的应用的模型参数，然后通过基于该模型参数的语音识别模型，将该语音数据转换为文本序列。

所述模型参数，还可以是影响语音识别反应速度的时延值(latency)，如在线进行语音识别时，语音识别时延值设为150毫秒，则每150毫秒就进行一次语音识别，这样对用户而言，可感知到语音识别反应速度只比实际说话晚150毫秒，而非等待整句话说完再进行语音识别。

在一个示例中，所述语音识别模型包括：固定模型大小的音频编码器、特征数据确定模块和解码器。其中，音频编码器用于确定所述语音数据的音频特征数据，并根据目标应用的时延值，将所述音频特征数据存入分块内存(Chunk Memory，分块记忆)；特征数据确定模块用于根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据；解码器用于根据字的特征数据，确定所述语音数据中的字，形成所述文本序列。

该语音识别模型可配置的模型参数包括时延值，对于使用该模型的不同应用，该模型根据应用的时延值，确定每个块的大小，块大小与时延值有关。例如，音频帧的帧时长为60ms，如果应用A的时延值为300ms，则一个分块记忆的音频帧数量为5帧；如果应用B的时延值为600ms，则一个分块记忆的音频帧数量为10帧。

在一段语音数据(如600ms的语音数据)中，可能包括多个字的声音，也可能不包括字的声音，而是包括噪音或背景音乐等声音。所述解码器可依次识别出语音数据中的每个字，在识别一个字时，可根据相关的特征数据，确定这个字。本实施例为了描述方便，将用于确定字的特征数据(解码器的输入数据)称为字的特征数据。

一段语音数据中的每个字可具有不同的特征数据，字的特征数据可包括与字的发音有关的声学信息，还可包括字的上下文语义信息，一个字的上下文语义信息可对该字的识别产生影响，如“高兴”和“有幸”中的第二个字的发音相同均为“xing”，但这两个字的上下文语义并不相同，由此将相同发音的字识别为两个不同的字，这样可提升字的识别准确度。在一段语音数据中的每个字均被识别出来后，就获得了这段语音数据的文本序列。

在时延值可调的情况下，服务端要从训练样本集中学习得到模型参数动态可变的语音识别模型，可采用如下方式实现：根据动态确定的时延值，对所述模型执行迭代训练。具体实施时，所述动态确定的时延值，可采用如下方式确定：从多个预设时延值中，任意选取时延值。表3示出了本实施例中的时延值参数表。

模型参数名	模型参数候选值
		时延值	150ms，300ms，600ms，900ms，1200ms…

表3、时延值参数表

由表3可见，可为时延值参数设置多个候选值，用于在模型迭代训练时，从中任意选择每次迭代的时延值。例如，在模型训练过程中的每次迭代(如每次100个样本)时，可从时延值候选表(包括：300ms，600ms，900ms，1200ms等)中，随机选取一个时延值作为当前迭代的时延，每次迭代训练，时延参数动态变化，最终训练得到一个时延值动态可变的语音识别模型。

在训练完成时延参数动态可变的语音识别模型后，可依据实际应用场景需求，为各个应用配置相应的时延参数。表2示出了时延参数配置表。

表4、时延参数配置表

由表4可见，可为不同应用设置不同的时延值,如设置应用1和应用2的时延为150ms，应用3的时延为900ms，等等。这样，在服务端接收到客户端的待识别语音数据后，就可以先确定该语音数据对应的应用的时延值，然后通过基于该时延值的语音识别模型，将该语音数据转换为文本序列。

在时延值可调的情况下，本实施例中服务端将所述音频编码器输出的所述音频特征数据存入分块内存，分块的大小可与时延值有关。通过所述特征数据确定模块，可确定与待识别字有关的目标分块，至少根据目标分块的音频特征数据，确定字的特征数据。

具体实施时，所述特征数据确定模块可采用如下处理方式：确定字与块内存间的对应关系，即确定哪个字在哪个块中；根据所述对应关系，确定与待识别字相关的目标块，如要识别第12个字，该字在第3块，则与该字相关的块可包括第1块、第2块和第3块；根据所述目标块的音频特征数据，确定与待识别字对应的特征数据，这样识别到的字不受上下文语义信息的影响；或者，根据所述目标块的音频特征数据和待识别字的上下文信息，确定与待识别字对应的特征数据，这样识别到的字会受到上下文语义信息的影响，因此字的识别准确度更高。

在本实施例中，所述特征数据确定模块可包括：预测器，用于确定各个块包括的文本长度，这样就可以根据所述文本长度，更为准确地确定所述字与块内存间的对应关系。例如，在模型使用阶段，应用A的时延值为300ms，对于待识别的语音数据(300ms)，可以是通过所述音频编码器，确定所述语音数据的音频特征数据(又可称为音频特征编码数据)，并存入分块内存；将分块记忆的时长为300ms的5个音频帧的音频特征数据输入至所述预测器，通过预测器确定这段语音数据包括多少个字。

具体实施时，也可以采用其它方式确定字与块之间的对应关系，如通过识别终结符等方式确定该对应关系。经过实验表明，通过预测器的方式可以更加准确的确定字与块之间的对应关系。

在本实施例中，通过注意力模块,根据各个分块的文本长度和分块内存中的音频特征数据，确定字的特征数据。例如，先通过注意力模块,根据各个分块的文本长度，确定字与块间的对应关系；然后，根据与待识别字y_l+1相关的目标块，确定键值对(key-value)，其中键可以是语义信息，值可以是音频编码特征信息；对于y_l+1，先计算y_l(上下文语义信息)与各个key的相似度，从而确定各个key的权重，这样就可以确定哪些信息重要，哪些信息不重要，然后对value进行加权求和运算，确定出与y_l+1对应的特征数据；最后，通过解码器，根据与y_l+1对应的特征数据，确定y_l+1。其中，加权求和后的特征数据可包括y_l+1前的c₁到c_m(c_m表示y_l+1所在的分块)的声学信息、和yl的语义信息，该加权求和后的特征数据就是特征数据确定模块输出的数据，也就是解码器的输入数据。

所述预测器可在训练所述语音识别模型的同时一并训练。所述语音识别模型的训练数据可包括语音数据和文本标注信息，该文本标注信息可由人工进行标注。在这种情况下，为了训练预测器，训练数据还要包括每个块对应的文本长度标注信息。整个模型在训练过程中要计算两个损失值，一个是模型输出数据的损失值，一个是预测器输出的文本长度的损失值。

在模型训练过程中，训练数据中的语音数据通常要远远长于候选的时延值。例如，假设时延值为600ms，一帧语音为60ms，因此一个块的大小是10帧；在模型训练阶段，输入到模型的特征是长语音，属于伪流式解码的情况，如输入语音长度为15秒，也就是250帧(15s*1000/60ms＝250帧)，共250/10＝25个块。此时，每个块内部可计算语义信息，25个块各自的文本长度可一次计算得到，这时候预测器输出每个块内部含有的输出文字个数，来知道注意力模块，在解码当前文字(第几个字)，需要去注意哪个块的记忆，同时也可将历史文字作为输入，来预测当前的文字，如预测器输出块1包括15个字，块2包括18个字，块3包括20个字，…，块10包括13个字，要解码第51个字时，注意力模块需要注意块1、块2、块3的音频特征数据。

然而，由于人工通常是对一段意思较为完整的语音数据(如一句话的语音数据)进行标注，因此训练数据中的语音数据通常要远远长于候选的时延值，这样就无法通过人工方式标注每个块的文本长度。例如，训练样本的一段长语音包括25个块，人工无法将长语音的文本序列分割为每个块分别对应的子文本，进而再确定每个块的文本长度。为了解决这个问题，本实施例通过传统CDC方式自动确定各个块的文本长度的标注数据。

在模型使用阶段，输入特征是一个块，如600ms一个块；第一个600ms，计算得到第一个记忆块，第二个600ms，得到第二个记忆块，以此类推；同时预测器对每个记忆块，预测里面的文字个数，如果有文字，可用注意力模块去注意这个记忆块(可以是多个，包含历史记忆块)来预测当前的文字，如果没有文字，就等待下一个记忆块的到来，再看这个记忆块是否有文字，重复上面的过程。

在图4中，c₁表示第一个分块(chunk)，c₂表示第二个分块；n₁、n₂分别表示第一个分块和第二个分块中包括的文字个数；y_l+1∈c_m表示第l+1个输出文字在第m个分块中，由此可确定要处理的字在哪一个分块中，然后可以用上下文y_l和计算到的第m个分块共同去计算y_l+1的输出文字。经实验表明，由于预测器可以更加准确地确定每个块内的文本长度，因此这种时延值动态训练的模型的性能优于固定时延值单独训练的模型。

需要说明的是，在模型使用阶段，目标应用的时延值可以设置为与训练阶段的时延值不同的时延值，如训练时时延值为150ms、300ms、600ms等，则使用阶段的时延值只要大于训练阶段的最短时延值150ms即可，具体可以是200ms、320ms等。经实验表明，即使使用阶段的时延值于训练阶段的时延值不同，也可以获得相同的语音识别性能，因此可以有效降低不同时延值的语音识别模型数量。

如图5所示，在又一个示例中，所述模型为流式端到端语音识别模型，可以各个应用提升在线语音识别服务；所述模型包括：动态编码器，分块内存，注意力网络，解码器。其中，注意力网络可实现上述特征数据确定模块的功能，即数据确定模块的结构为注意力网络。在该模型中，动态可调整的参数(可配置参数)既包括模型大小，又包括时延值。在模型训练过程中的每次迭代时，可从模型大小候选表中，随机选择一个模型大小作为当前迭代的模型大小；从时延值候选表中，随机选取一个时延值作为当前迭代的时延；每次迭代训练，模型参数动态变化；在模型使用时，依据实际应用场景需求，配置相应的模型参数(模型大小和时延值)，这样就可以采用一个通用的语音识别模型，在实际场景中，依据应用需求来配置模型参数，不仅可以提升模型在应用场景上的可扩展性，及新应用场景下的模型部署效率，还可以降低模型数量、训练成本和维护成本，以及节省系统资源。

采用如图5所示的模型，服务端要通过基于所述目标模型参数的所述语音识别模型进行语音识别，可具体采用如下处理过程。首先，通过所述音频编码器，确定所述语音数据的音频特征数据，并存入分块内存；然后，可通过注意力网络，根据所述目标应用的时延值，确定与字相关的目标分块；最后，可通过所述解码器，根据所述目标分块的音频特征数据、和历史文本，确定所述文本序列。

如图5所示，在本实施例中，所述语音识别模型包括四个模块：1)动态编码器(Dynamic Encoder)；2)分块记忆(Chunk Memory)；3)注意力块(Attention Block)；4)解码器(Decoder)。下面结合图5对这些模块的结构及工作方式进行详细说明。

1)动态编码器(Dynamic Encoder)：可以是一个多层的神经网络，神经网络的选择有多种，比如DFSMN，CNN，BLSTM，Transformer等等，其中每层大小可从上述表1所示的模型大小候选表中随机选择。在图4中，以其中一层为例，神经元数量的候选值可以为[128,256,512，1024]，在训练中，每次迭代的时候，随机选择其中一个数字作为当前迭代的模型大小，下次迭代重复上面过程；解码时，依据实际应用场景需求，配置相应的模型大小。

2)分块记忆(Chunk Memory)，对于输入的T帧声学特征(X₁，X₂,…，X_T)，经过动态编码器后，产生分块记忆，分块的大小表示为时延值(latency size)，如图中虚线矩形框所示，该latency训练过程中，每次迭代动态变化；解码时，依据实际应用场景需求，配置相应的latency大小。

3)注意力块(Attention Block)，包括预测器(Predictor)和注意力模块(Attention module)。预测器的功能是预测每个块里包含多少个需要预测的输出。训练过程中，可标注确定每个分块里实际包含的文字数目，通过这个标注去训练预测器。这样在预测过程中，就可以通过预测器得到每个分块可能包含的预测输出的文字数目；注意力模块通过预测器得到指导，确定当前attention需要在哪个分块里，从而不需要整句话的信息，就能开始预测输出，从而可以流式识别。

4)解码器(Decoder)：也可以是一个多层的神经网络，其功能包括；接收历史预测输出和attention信息去预测下一个输出目标,类似于语言模型。由图5可见，字y₁在C₁块中，字y₂、y₃、y₄在C₂块中，字y_l、y_l+1在C_m块中，字y_L在C_M块中。

具体实施时，模块的网络结构是可变的，如编码器和解码器使用哪种网络结构是可变的，只是展示了其中一种网络选择。

图5提供的系统是一个动态模型大小与时迟可控的流式语音识别系统。在训练中，每次迭代时，从候选表随机选择一个数字作为当前迭代的模型大小，时延类似，每次迭代训练，动态变化；解码时，依据实际应用场景需求，配置相应的模型与时迟大小。经过研究发现，这种动态训练的模型性能比固定模型大小与时迟单独训练的模型还好，这样就可以采用一个模型，在实际场景中，依据需求来配置，降低维护成本。

在一个示例中，所述系统可采用SCAMA流式方案。经实验发现，基于SCAMA的流式语音识别和基于整句话注意力机制的离线语音识别性能基本无损。

本申请实施例提供的语音交互系统，通过多个客户端采集不同应用的语音数据，将语音数据发送至服务端；服务端从训练样本集中学习得到模型参数动态可变的语音识别模型，并确定各个应用使用所述模型的模型参数；针对客户端发送的所述语音数据，确定目标应用的模型参数；将所述目标应用的模型参数作为所述语音识别模型的模型参数，通过基于所述目标应用的模型参数的所述语音识别模型，将所述语音数据转换为文本序列；采用这种处理方式，使得实现模型参数(如影响计算量的模型大小，影响识别反应速度的时延latency)可控的流式语音识别系统，在语音识别时，依据实际应用场景需求，配置相应的模型参数，由此实现通过一个通用模型即可满足不同应用对计算量与时延的不同需求；因此，可以有效节省系统资源，降低模型维护成本，提升模型在应用场景上的可扩展性，提升新应用场景下的模型部署效率。此外，这种动态训练的模型的性能优于固定模型参数单独训练的模型，如果采用基于SCAMA的流式端到端语音识别，则可达到基于整句话注意力机制的离线语音识别的性能，因此可以有效提升语音识别性能。

第二实施例

在上述的实施例中，提供了一种语音识别系统，与之相对应的，本申请还提供一种语音识别方法，该方法的执行主体可以是智能音箱、语音售卖机、语音售票机、聊天机器人等设备。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

所述方法可包括如下步骤：采集目标应用的语音数据，将所述语音数据发送至服务端，以使得服务端从训练样本集中学习得到模型参数动态可变的语音识别模型；针对所述语音数据，确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

第三实施例

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音识别装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种语音识别装置包括：

语音数据采集单元，用于采集目标应用的语音数据；

语音数据发送单元，用于将所述语音数据发送至服务端，以使得服务端从训练样本集中学习得到模型参数动态可变的语音识别模型；针对所述语音数据，确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

第四实施例

本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集目标应用的语音数据，将所述语音数据发送至服务端，以使得服务端从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

所述电子设备，可以是智能音箱，智能手机，智能电视，语音点餐机，语音售卖机，语音售票机，聊天机器人，等等具有语音识别服务需求的设备。

第五实施例

在上述的实施例中，提供了一种语音识别系统，与之相对应的，本申请还提供一种语音识别方法，该方法的执行主体可以是服务端等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请实施例提供的一种语音识别方法，可包括如下步骤：

步骤1：从训练样本集中学习得到模型参数动态可变的语音识别模型。

在一个示例中，所述模型参数包括：模型大小；所述模型大小可以是神经网络的层数，还可以是神经元数量，或者是神经网络的层数和神经元数量。相应的，步骤1可采用如下方式实现：根据动态确定的模型大小，对所述模型执行迭代训练。

具体实施时，所述动态确定的模型大小，可采用如下方式确定：从多个预设模型大小中，任意选取模型大小，如遍历每个预设模型大小，或者是随机选取预设模型大小。

所述模型，可以是流式端到端语音识别模型，也可以是非端到端语音识别模型。所述流式端到端语音识别模型，可包括：音频编码器和解码器；所述模型大小包括：音频编码器的大小。

在另一个示例中，所述模型参数包括：时延值；相应的，步骤1可采用如下方式实现：根据动态确定的时延值，对所述模型执行迭代训练。

具体实施时，所述动态确定的时延值，可采用如下方式确定：从多个预设时延值中，任意选取时延值。

在可控模型参数为时延值的情况下，所述模型可以为流式端到端语音识别模型；该模型可包括：音频编码器，特征数据确定模块，解码器。

需要说明的是，在模型应用阶段，所述目标应用的时延值，可以是与训练阶段相同的所述预设时延值，也可以是所述预设时延值以外的时延值。采用这种处理方式，可以有效降低模型数量、训练成本和维护成本。

步骤2：确定与目标应用对应的目标模型参数。

在本实施例中，所述方法的执行主体为服务端，服务端可接收终端设备发送的目标应用的语音数据，针对待处理语音数据，要确定与目标应用对应的目标模型参数。

所述模型，可满足不同应用对计算量与时延的不同需求。具体实施时，可以预先存储应用与模型参数间的对应关系，根据该关系确定所述目标应用的模型参数。

具体实施时，也可根据各个应用对语音识别的性能需求，确定各个应用的模型参数。性能需求，可以是语音识别的反应速度(实时度)，也可以是语音识别的准确度，等等。

具体实施时，也可根据部署目标应用的设备性能信息(如存储资源，计算资源等)，确定所述目标应用的模型参数。在这种情况下，通常需要将所述语音识别模型和目标应用部署在同一设备中。

步骤3：通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

在可控模型参数为时延值的情况下，所述模型可以为流式端到端语音识别模型；该模型可包括：音频编码器，特征数据确定模块，解码器；相应的，步骤3可包括如下子步骤：3.1)通过音频编码器，确定所述语音数据的音频特征数据，并根据目标应用的时延值，将所述音频特征数据存入分块内存；3.2)通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据；3.3)通过解码器，根据字的特征数据，确定所述语音数据中的字，形成所述文本序列。

在本实施例中，步骤3.2可包括如下子步骤：3.2.1)确定字与块内存间的对应关系；3.2.2)根据所述对应关系，确定与字对应的特征数据。具体实施时，可以是先根据所述对应关系，确定与待识别字相关的目标块；然后再根据所述目标块的音频特征数据，确定与待识别字对应的特征数据；或者，根据所述目标块的音频特征数据和待识别字的上下文信息，确定与待识别字对应的特征数据。

在本实施例中，所述特征数据确定模块还可包括预测器；步骤3.2还可包括如下子步骤：3.2.0)通过所述预测器，确定各个块包括的文本长度；相应的，可根据所述文本长度，确定字与块间的对应关系。

在一个示例中，若与目标应用相关的第一用户将与所述目标模型参数对应的资源对象发送至与所述模型相关的第二用户，则通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。所述第一用户可以是语音识别模型的使用方用户，如目标应用的开发者。所述第二用户可以是语音识别模型的开发者或管理者。所述资源对象，可以是货币或虚拟货币等，如资源对象为货币，则可以通过第三方支付平台，将货币从第一用户转账至第二用户。采用这种处理方式，使得不同应用在使用同一语音识别模型进行语音识别时，可将与配置的模型参数对应的资源对象发送给第二用户，这样才能够使用基于所配置参数的语音识别模型，处理该应用的语音数据。

第六实施例

本申请提供的一种语音识别装置包括：

第七实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将目标应用的语音数据转换为文本序列。

第八实施例

本申请实施例提供的一种语音识别方法，可包括如下步骤：

本实施例提供的所述方法与上述实施例二中服务端执行的方法的相同之处包括：二者都可以是在服务端构建所述语音识别模型；不同之处包括：本实施例提供的所述方法在构建模型后，将模型发送至其它设备(如客户端)，其它设备可在本地进行语音识别处理，无需调用服务端提供的语音识别服务，而实施例二是服务端通过语音识别模型为多个客户端提供语音识别服务。

步骤2：确定与目标应用对应的目标模型参数。

所述目标应用，可以是部署在服务器上的应用，也可以是部署在终端设备上的应用。例如，目标应用可以是部署在点餐机上自助点餐应用，自动售货机上的自动售货应用，智能电视上的电视节目点播应用，智能音箱上的自动问答服务，等等。

在一个示例中，步骤2可包括如下子步骤：2.1A)确定目标应用的语音识别性能需求信息；2.2A)根据所述性能需求信息，确定所述目标模型参数。

所述性能需求信息，可以是语音识别准确度、语音识别反应速度(又称为时延，实时度)等。其中，根据语音识别准确度，可确定模型大小。表5列出了语音识别准确度与模型大小间的对应关系表。

语音识别准确度	模型大小参数
		98％	神经网络层数:10，神经元数量:1024
95％	神经网络层数:3，神经元数量:256
		90％	神经网络层数:5，神经元数量:512
85％	神经网络层数:3，神经元数量:128
		…

表5、语音识别准确度与模型大小间的对应关系表

由表5可见，不同模型大小参数对应不同的语音识别准确度,根据目标应用的语音识别准确度需求信息，即可查询该表确定出对应的目标模型参数，然后通过基于该模型参数的语音识别模型，将语音数据转换为文本序列。

具体实施时，所述方法的执行主体接收到其它设备发送的针对目标应用的语音识别模型获取请求；所述请求可包括目标应用的语音识别性能需求信息。

具体实施时，所述方法还可包括如下步骤：根据所述性能需求信息，确定所述目标设备的设备性能需求信息；将所述设备性能需求信息发送至与所述目标应用相关的管理设备，以使得管理设备显示所述设备性能需求信息；相应的，将基于所述目标模型参数的所述语音识别模型发送至满足所述设备性能需求信息的目标设备。表6列出了语音识别性能与设备性能间的对应关系表。

表6、语音识别性能与设备性能间的对应关系表

由表6可见，不同语音识别性能对应不同的设备性能参数,根据目标应用的语音识别性能需求信息，即可查询该表确定出对应的设备性能，然后将所述设备性能需求信息发送至与所述目标应用相关的管理设备(如个人电脑等)，以使得管理设备显示所述设备性能需求信息，目标应用的管理者可以根据设备性能需求信息，配置目标设备，以便于目标设备的性能能够确保语音识别模型的正常运行。

在另一个示例中，步骤2可包括如下子步骤：2.1B)确定运行目标应用的设备性能信息；2.2B)根据所述设备性能信息，确定所述目标模型参数。采用这种处理方式，使得可基于模型应用方的现有设备的性能，确定合适的模型参数，以确保目标设备能够正常运行语音识别模型。

具体实施时，可先根据表6确定与目标设备性能对应的语音识别性能，再根据表5确定与识别准确度对应的模型大小。

具体实施时，所述设备性能信息包括：计算资源信息和存储资源信息；步骤2.2B可包括如下子步骤：2.2B.1)根据所述计算资源信息，确定模型大小；2.2B.2)根据所述存储资源信息，确定时延值。

在这种情况下，所述方法还可包括如下步骤：根据所述目标模型参数，确定语音识别性能信息；将所述性能信息发送至与所述目标应用相关的管理设备，以使得管理设备显示所述性能信息。所述性能信息，可包括语音识别实时度；相应的，所述目标模型参数包括：时延值。所述性能信息，也可包括语音识别准确度；相应的，所述目标模型参数包括：模型大小。采用这种处理方式，使得目标应用的第一用户可获知在目标设备上运行的语音识别模型能够达到的语音识别性能。

步骤3：将基于所述目标模型参数的所述语音识别模型发送至运行目标应用的目标设备，以使得所述目标应用通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

在本实施例中，所述方法还可包括如下步骤：确定与所述目标模型参数对应的资源信息；向与目标应用相关的第一用户发送所述资源信息；若第一用户将资源对象发送至与所述模型相关的第二用户，则将基于所述目标模型参数的所述语音识别模型发送至所述目标设备。

第九实施例

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音识别装置。该装置是与上述方法的实施例相对应。本实施例与第八实施例内容相同的部分不再赘述，请参见实施例八中的相应部分。

本申请提供的一种语音识别装置包括：

第十实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与目标应用对应的目标模型参数；将基于所述目标模型参数的所述语音识别模型发送至运行目标应用的目标设备，以使得所述目标应用通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

第十一实施例

在上述的实施例八中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音识别方法，该方法的执行主体可以是服务器或终端设备等。该方法是与上述方法的实施例相对应。本实施例与第八实施例内容相同的部分不再赘述，请参见实施例八中的相应部分。

本申请实施例提供的一种语音识别方法，可包括如下步骤：

步骤1：向服务端发送针对目标应用的语音识别模型获取请求；

步骤2：接收服务端回送的基于与目标应用对应的目标模型参数的模型参数动态可变的语音识别模型；

步骤3：通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

在一个示例中，所述方法还可包括如下步骤：确定目标应用的语音识别性能需求信息；所述请求包括所述性能需求信息，以使得服务端根据所述性能需求信息，确定所述目标模型参数。

具体实施时，所述方法还可包括如下步骤：接收服务端发送的根据所述性能需求信息确定的运行所述目标应用的设备性能需求信息；显示所述设备性能需求信息，以便于确定满足所述设备性能需求信息的目标设备，以使得服务端将基于所述目标模型参数的所述语音识别模型发送至所述目标设备。

在另一个示例中，所述方法还可包括如下步骤：确定运行目标应用的设备性能信息；所述请求包括所述设备性能信息，以便于服务端根据所述设备性能信息，确定所述目标模型参数。

具体实施时，所述方法还可包括如下步骤：接收服务端发送的与所述目标模型参数对应的语音识别性能信息；显示所述语音识别性能信息。

在一个示例中，所述方法还可包括如下步骤：接收服务端发送的与所述目标模型参数对应的资源信息；将资源对象发送至与所述模型相关的第二用户，以使得服务端发送基于所述目标模型参数的所述语音识别模型。

在一个示例中，所述方法还可包括如下步骤：接收服务端发送的基于多组模型参数的语音识别模型的测试系统；分别通过基于各组模型参数的语音识别模型，将语音数据转换为文本序列，以便于确定各组模型参数的语音识别性能；确定目标模型参数，将目标模型参数发送至服务端。采用这种处理方式，使得可测试目标应用使用不同模型参数的语音识别模型进行语音识别的性能，如识别准确度和延时等，这样用户就可以根据实际感知到的语音识别性能，确定所需的目标模型参数；因此，可以有效提升用户体验。

第十二实施例

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音识别装置。该装置是与上述方法的实施例相对应。本实施例与第十一实施例内容相同的部分不再赘述，请参见实施例十一中的相应部分。

本申请提供的一种语音识别装置包括：

第十三实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：向服务端发送针对目标应用的语音识别模型获取请求；接收服务端回送的基于与目标应用对应的目标模型参数的模型参数动态可变的语音识别模型；通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。

第十四实施例

在上述的实施例中，提供了一种语音识别系统，与之相对应的，本申请还提供一种语音识别服务升级方法，该方法的执行主体可以是服务端等等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种语音识别服务升级方法，可包括如下步骤：

步骤1：确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息。

所述使用状况信息，可包括用户使用目标应用的行为等信息。

例如，目标应用是部署在点餐设备上的语音点餐应用，如果根据用户点餐行为数据，发现同一用户在一次点餐时经常要重复说几次点餐语音，则表示语音识别准确度可能不够，因此可进入步骤2。再例如，目标应用是部署在庭审设备中的语音转写应用，如果发现通过所述模型转写的文字在后期校正时改动较大，则表示语音识别准确度可能不够，因此可进入步骤2。

又例如，经常有用户只完成了一部分语音点餐操作就离开了，则表示语音识别速度太慢，用户没有耐心等待，因此可进入步骤2。

步骤2：根据所述使用状况信息，确定所述语音识别模型的第二模型参数。

在一个示例中，步骤2可包括如下子步骤：2.1B)根据所述使用状况信息，确定所述目标应用的语音识别性能需求信息；2.2B)根据所述性能需求信息，确定所述语音识别模型的第二模型参数。

例如，目标应用是部署在点餐设备上的语音点餐应用，如果使用状况信息为用户经常需要重复说几次点餐语音，则表示语音识别准确度可能不够，需要提升语音识别准确度，如在第一模型参数能够达到的准确度基础上，需要再提升一个等级的准确度，这时可以根据更高一级的准确度确定第二模型参数。

再例如，目标应用是部署在庭审设备中的语音转写应用，如果使用状况信息为用户对通过所述模型转写的文字在后期校正时改动较大，则表示语音识别准确度可能不够，需要提升语音识别准确度，如在第一模型参数达到的准确度基础上，再提升一级准确度，这时可以根据更高一级的准确度确定第二模型参数。

又例如，经常有用户只完成了一部分语音点餐操作就离开了，则表示语音识别速度太慢，需要提升语音识别实时度，如在第一模型参数达到的时延基础上，再减少时延值，这时可以根据更高一级的时延值确定第二模型参数。

具体实施时，可以根据上述实施例表5和重新确定的语音识别性能，确定第二模型参数。

在一个示例中，步骤2可包括如下子步骤：2.1A)根据所述使用状况信息，确定所述语音识别模型的多组模型参数；2.2A)将基于多组模型参数的语音识别模型的测试系统发送至所述设备，以使得所述目标应用通过基于各组模型参数的语音识别模型，将语音数据转换为文本序列，以便于确定各组模型参数的语音识别性能，并根据语音识别性能确定第二模型参数。采用这种处理方式，使得可测试目标应用使用不同模型参数的语音识别模型进行语音识别的性能，如识别准确度和延时等，这样用户就可以根据实际感知到的各种模型参数对应的语音识别性能(可包括语音识别准确度、速度、时延等)，确定所需的第二模型参数；因此，可以有效提升用户体验。

具体实施时，不仅可根据所述使用状况信息，重新确定所述语音识别模型的多组模型参数，还可重新确定的各组模型参数对应的资源信息，以便于用户获知使用各种模型参数需要承担的资源，辅助用户确定第二模型参数；若第一用户将所述第二模型参数的资源对象发送至第二用户，则将所述设备上的基于所述第一模型参数的所述语音识别模型，更新为基于所述第二模型参数的语音识别模型。

步骤3：将运行目标应用的设备上的所述语音识别模型的模型参数配置为第二模型参数，以使得所述设备通过基于第二模型参数的所述语音识别模型，将语音数据转换为文本序列。

在一个示例中，可以在加密的模型参数配置文件中设置所述模型的可控模型参数，当目标应用调用所述模型时，所述模型根据所述配置文件中的第二模型参数进行语音识别处理。

在另一个示例中，可以将所述模型的可控模型参数和不可控模型参数打包在一起，作为一个整体进行完全更新。

从上述实施例可见，本申请实施例提供的语音识别服务升级方法，通过确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；根据所述使用状况信息，确定所述语音识别模型的第二模型参数；将运行目标应用的设备上的所述语音识别模型的模型参数配置为第二模型参数，以使得所述设备通过基于第二模型参数的所述语音识别模型，将语音数据转换为文本序列；这种处理方式，使得可根据应用的实际使用情况，对模型参数动态可变的语音识别模型的可控模型参数进行更新，使得所述模型可以满足应用的语音识别需求；因此，可以有效确保应用的正常运行，提升应用的可用性和实用性。

第十五实施例

在上述的实施例中，提供了一种语音识别服务升级方法，与之相对应的，本申请还提供一种语音识别服务升级装置。该装置是与上述方法的实施例相对应。本实施例与第十四实施例内容相同的部分不再赘述，请参见实施例十四中的相应部分。

本申请提供的一种语音识别服务升级装置包括：

第十六实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音识别服务升级方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；根据所述使用状况信息，确定所述语音识别模型的第二模型参数；将运行目标应用的设备上的所述语音识别模型的模型参数配置为第二模型参数，以使得所述设备通过基于第二模型参数的所述语音识别模型，将语音数据转换为文本序列。

第十七实施例

在上述的实施例中，提供了一种语音识别服务升级方法，与之相对应的，本申请还提供一种语音识别服务升级方法，该方法的执行主体可以是服务端等。该方法是与上述系统的实施例相对应。本实施例与第十四实施例内容相同的部分不再赘述，请参见实施例十四中的相应部分。

本实施例提供的所述方法与上述实施例十四中服务端执行的方法的相同之处包括：二者都可以是在服务端构建所述语音识别模型，并为目标应用重新确定模型参数；不同之处包括：实施例十四提供的所述方法在构建模型后，将模型发送至目标应用侧的设备，这样目标应用就可在本地进行语音识别处理，无需调用服务端提供的语音识别服务，而本实施例是服务端通过语音识别模型为多个客户端提供语音识别服务。

步骤3：存储所述目标应用与第二模型参数间的对应关系，以使得针对目标应用的待处理语音数据，根据所述对应关系，通过基于所述第二模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

具体实施时，可以是改变上述实施例中表2和表4中的模型参数。

从上述实施例可见，本申请实施例提供的语音识别服务升级方法，通过确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；根据所述使用状况信息，确定所述语音识别模型的第二模型参数；存储所述目标应用与第二模型参数间的对应关系，以使得针对目标应用的待处理语音数据，根据所述对应关系，通过基于所述第二模型参数的所述语音识别模型，将所述语音数据转换为文本序列；这种处理方式，使得可根据应用的实际使用情况，对模型参数动态可变的语音识别模型的可控模型参数进行更新，使得所述模型可以满足应用的语音识别需求；因此，可以有效确保应用的正常运行，提升应用的可用性和实用性。

第十八实施例

本申请提供的一种语音识别服务升级装置包括：

第十九实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音识别服务升级方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；根据所述使用状况信息，确定所述语音识别模型的第二模型参数；存储所述目标应用与第二模型参数间的对应关系，以使得针对目标应用的待处理语音数据，根据所述对应关系，通过基于所述第二模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

第二十实施例

在上述的实施例中，提供了一种语音识别系统，与之相对应的，本申请还提供一种语音识别服务测试方法，该方法的执行主体可以是服务端等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种语音识别服务测试方法，可包括如下步骤：

步骤1：接收针对目标应用的语音识别服务测试请求。

在一个示例中，语音服务应用的开发者要发布一个语音服务应用，该应用将在智能手机使用，并且要通过服务端的语音识别模型对用户语音进行识别，这时应用开发者要在手机上对该应用进行真机测试，并通过真机测试确定要采用哪种性能的语音识别模型，因此可通过智能手机向服务端发送针对目标应用的语音识别服务测试请求，测试部署在服务端的语音识别模型的哪种模型参数可满足应用对语音识别性能的需求。

步骤2：针对多组模型参数，通过基于各组模型参数的模型参数动态可变的语音识别模型，将目标应用的语音数据转换为文本序列。

在本实施例中，服务端分别通过基于各组模型参数的模型参数动态可变的语音识别模型，将目标应用的语音数据转换为文本序列。

步骤3：向请求方回送与各组模型参数对应的文本序列，以便于请求方确定各组模型参数的语音识别性能，并根据所述性能，确定与目标应用对应的目标模型参数。

从上述实施例可见，本申请实施例提供的语音识别服务测试方法，通过接收针对目标应用的语音识别服务测试请求；针对多组模型参数，通过基于各组模型参数的模型参数动态可变的语音识别模型，将目标应用的语音数据转换为文本序列；向请求方回送与各组模型参数对应的文本序列，以便于请求方确定各组模型参数的语音识别性能，并根据所述性能，确定与目标应用对应的目标模型参数；这种处理方式，使得可测试目标应用使用不同模型参数的语音识别模型进行语音识别的性能，如识别准确度和延时等，这样用户就可以根据实际感知到的各种模型参数对应的语音识别性能(可包括语音识别准确度、速度、时延等)，确定所需的模型参数，使得所述模型可以满足应用的语音识别需求；因此，可以有效确保应用的正常运行，提升应用的可用性和实用性，以及提升用户体验。

第二十一实施例

在上述的实施例中，提供了一种语音识别服务测试方法，与之相对应的，本申请还提供一种语音识别服务测试装置。该装置是与上述方法的实施例相对应。本实施例与第二十实施例内容相同的部分不再赘述，请参见实施例二十中的相应部分。

本申请提供的一种语音识别服务测试装置包括：

第二十二实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音识别服务测试方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收针对目标应用的语音识别服务测试请求；语音识别单元，用于针对多组模型参数，通过基于各组模型参数的模型参数动态可变的语音识别模型，将目标应用的语音数据转换为文本序列；文本序列回送单元，用于向请求方回送与各组模型参数对应的文本序列，以便于请求方确定各组模型参数的语音识别性能，并根据所述性能，确定与目标应用对应的目标模型参数。

第二十三实施例

在上述的实施例中，提供了一种语音识别系统，与之相对应的，本申请还提供一种语音识别模型构建方法，该方法的执行主体可以是服务端等。该方法是与上述系统的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种语音识别模型构建方法，可包括如下步骤：

步骤1：确定训练数据集，所述训练数据包括：语音数据和文本序列标注信息。

步骤2：构建所述模型的网络结构。

步骤3：根据动态确定的模型参数，对所述模型执行迭代训练，得到模型参数动态可变的语音识别模型。

在一个示例中，所述模型包括：流式端到端语音识别模型；所述模型包括：音频编码器，解码器；所述模型参数包括模型大小，所述模型大小包括音频编码器的大小。

在另一个示例中，所述模型包括：流式端到端语音识别模型；所述模型包括：音频编码器，特征数据确定模块，解码器。其中，所述音频编码器，用于确定所述语音数据的音频特征数据，并根据目标应用的时延值，将所述音频特征数据存入分块内存；所述特征数据确定模块，用于根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据；所述解码器，用于根据字的特征数据，确定所述语音数据中的字，形成所述文本序列。

在本实施例中，所述特征数据确定模块还用于确定字与块内存间的对应关系，并根据所述对应关系，确定与字对应的特征数据。

具体实施时，所述训练数据还可包括：各个块的文字长度标注信息；所述数据确定模块包括：预测器；所述预测器，用于确定各个分块包括的文本长度；所述特征数据确定模块，用于根据所述文本长度，确定字与块间的对应关系。

从上述实施例可见，本申请实施例提供的语音识别模型构建方法，通过确定训练数据集，所述训练数据包括：语音数据和文本序列标注信息；构建所述模型的网络结构；根据动态确定的模型参数，对所述模型执行迭代训练，得到模型参数动态可变的语音识别模型；这种处理方式，使得构建一个模型参数动态可变的语音识别模型，通过该通用模型可为不同语音识别性能需求的应用提供语音识别服务；因此，可以有效降低模型数量、训练成本和维护成本，为提升语音识别模型的应用场景扩展性提供基础。

第二十四实施例

在上述的实施例中，提供了一种语音识别模型构建方法，与之相对应的，本申请还提供一种语音识别模型构建装置。该装置是与上述方法的实施例相对应。本实施例与第二十三实施例内容相同的部分不再赘述，请参见实施例二十三中的相应部分。

本申请提供的一种语音识别模型构建装置包括：

网络构建单元，用于构建所述模型的网络结构；

第二十五实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音识别模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定训练数据集，所述训练数据包括：语音数据和文本序列标注信息；构建所述模型的网络结构；根据动态确定的模型参数，对所述模型执行迭代训练，得到模型参数动态可变的语音识别模型。

第二十六实施例

本申请还提供一种智能音箱。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种智能音箱，该电子设备包括：处理器和存储器；存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集目标应用的语音数据，将所述语音数据发送至服务端，以使得服务端从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

所述目标应用，可以是这种音箱技能，如天气预报、健康检测、歌曲点播等。

第二十七实施例

本申请还提供一种点餐设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种点餐设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集语音点餐数据，通过基于与点餐应用对应的目标模型参数的模型参数动态可变的语音识别模型，将所述语音点餐数据转换为点餐文本；根据所述点餐文本，执行点餐处理。

在本实施例中，由于用户使用点餐设备进行语音点餐具有较高语音识别实时度的需求，为避免由于网络延时导致的语音识别实时度降低，因此通常将语音识别模型部署在点餐设备本地，而非调用部署在服务端的语音识别模型。同时，由于点餐设备的硬件配置通常要低于服务端设备，无法在点餐设备上运行计算复杂度较高的语音识别模型，因此可将模型大小设置的较小些，以确保点餐设备能够正常运行语音识别模型。此外，由于用户使用点餐设备进行语音点餐具有较高语音识别实时度的需求，以避免点餐速度慢导致的用户等待时间长、及排队问题，因此可将模型时延值设置的低一些，以确保较高的语音识别反馈速度，如将时延值设置为150ms。

第二十八实施例

本申请还提供一种智能电视。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种智能电视，该电子设备包括：处理器和存储器；存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集电视控制语音数据，通过基于与电视应用对应的目标模型参数的模型参数动态可变的语音识别模型，将所述语音数据转换为电视控制文本；根据所述电视控制文本，执行电视控制处理。

第二十九实施例

本申请还提供一种智能移动设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种智能移动设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集语音数据，通过基于与所述设备对应的目标模型参数的模型参数动态可变的语音识别模型，将所述语音数据转换为文本序列；根据所述文本序列，执行语音交互处理。

所述智能移动设备，可以是智能手机、PAD等终端设备。

第三十实施例

本申请还提供一种车载语音助手设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种车载语音助手设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集语音数据，通过基于与所述设备对应的目标模型参数的模型参数动态可变的语音识别模型，将所述语音数据转换为文本序列；根据所述文本序列，执行语音交互处理。

在本实施例中，由于车载语音助手设备使用的是非220v电源，因此对语音实时性要求更高，因此通常将语音识别模型部署在车载语音助手设备本地，而非调用部署在服务端的语音识别模型。

第三十一实施例

本申请还提供一种庭审设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种庭审设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集语音数据，通过基于与所述设备对应的目标模型参数的模型参数动态可变的语音识别模型，将所述语音数据转换为文本序列。

在本实施例中，由于庭审设备通常具有较高性能的计算资源，但不能接受网络延时，对语音识别实时性要求较高，因此通常将语音识别模型部署在庭审设备本地，而非调用部署在服务端的语音识别模型。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种语音识别系统，其特征在于，包括：

2.一种语音识别方法，其特征在于，包括：

确定与目标应用对应的目标模型参数；

3.根据权利要求2所述的方法，其特征在于，

所述模型参数包括：模型大小；

所述模型大小包括：神经网络的层数和/或神经元数量；

根据动态确定的模型大小，对所述模型执行迭代训练。

4.根据权利要求3所述的方法，其特征在于，

所述动态确定的模型大小，采用如下方式确定：

从多个预设模型大小中，任意选取模型大小。

5.根据权利要求3所述的方法，其特征在于，

所述模型包括：流式端到端语音识别模型；

所述模型包括：音频编码器，解码器；

所述模型大小包括：音频编码器的大小。

6.根据权利要求2或3所述的方法，其特征在于，

所述模型参数包括：时延值；

根据动态确定的时延值，对所述模型执行迭代训练。

7.根据权利要求6所述的方法，其特征在于，

所述动态确定的时延值，采用如下方式确定：

从多个预设时延值中，任意选取时延值；

8.根据权利要求6所述的方法，其特征在于，

所述模型包括：流式端到端语音识别模型；

所述模型包括：音频编码器，特征数据确定模块，解码器；

9.根据权利要求8所述的方法，其特征在于，

所述通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的音频特征数据，包括：

确定字与块内存间的对应关系；

根据所述对应关系，确定与字对应的特征数据。

10.根据权利要求9所述的方法，其特征在于，

所述特征数据确定模块包括：预测器；

通过所述预测器，确定各个块包括的文本长度；

根据所述文本长度，确定字与块间的对应关系。

11.根据权利要求2所述的方法，其特征在于，

所述确定与所述目标应用对应的目标模型参数，包括：

确定目标应用的语音识别性能需求信息；

根据所述性能需求信息，确定所述目标模型参数。

12.根据权利要求2所述的方法，其特征在于，

若与目标应用相关的第一用户将与所述目标模型参数对应的资源对象发送至与所述模型相关的第二用户，则通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。

13.一种语音识别方法，其特征在于，包括：

14.一种语音识别方法，其特征在于，包括：

确定与目标应用对应的目标模型参数；

15.根据权利要求14所述的方法，其特征在于，

所述确定与所述目标应用对应的目标模型参数，包括：

确定目标应用的语音识别性能需求信息；

根据所述性能需求信息，确定所述目标模型参数。

16.根据权利要求14所述的方法，其特征在于，

所述确定与所述目标应用对应的目标模型参数，包括：

确定运行目标应用的设备性能信息；

根据所述设备性能信息，确定所述目标模型参数。

17.根据权利要求16所述的方法，其特征在于，

所述设备性能信息包括：计算资源信息和存储资源信息；

根据所述计算资源信息，确定模型大小；

根据所述存储资源信息，确定时延值。

18.根据权利要求14所述的方法，其特征在于，还包括：

确定与所述目标模型参数对应的资源信息；

向与目标应用相关的第一用户发送所述资源信息；

19.根据权利要求14所述的方法，其特征在于，还包括：

根据所述目标模型参数，确定语音识别性能信息；

20.一种语音识别方法，其特征在于，包括：

向服务端发送针对目标应用的语音识别模型获取请求；

21.根据权利要求20所述的方法，其特征在于，还包括：

确定目标应用的语音识别性能需求信息；

22.根据权利要求21所述的方法，其特征在于，还包括：

23.根据权利要求20所述的方法，其特征在于，还包括：

确定运行目标应用的设备性能信息；

24.根据权利要求20所述的方法，其特征在于，还包括：

接收服务端发送的与所述目标模型参数对应的资源信息；

25.根据权利要求20所述的方法，其特征在于，还包括：

显示所述语音识别性能信息。

26.根据权利要求20所述的方法，其特征在于，还包括：

确定目标模型参数，将目标模型参数发送至服务端。

27.一种语音识别服务升级方法，其特征在于，包括：

28.一种语音识别服务升级方法，其特征在于，包括：

29.一种语音识别服务测试方法，其特征在于，包括：

接收针对目标应用的语音识别服务测试请求；

30.一种语音识别模型构建方法，其特征在于，包括：

构建所述模型的网络结构；