CN111754985B

CN111754985B - 一种语音识别模型的训练以及语音识别的方法和装置

Info

Publication number: CN111754985B
Application number: CN202010639895.9A
Authority: CN
Inventors: 康燕斌; 张志齐
Original assignee: Shanghai Yitu Information Technology Co ltd
Current assignee: Shanghai Yitu Information Technology Co ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-05-02
Anticipated expiration: 2040-07-06
Also published as: CN111754985A

Abstract

本申请公开了一种语音识别模型的训练以及语音识别的方法和装置，属于人工智能技术领域，该方法包括，获取标注语音样本集合，以及无标注语音样本集合；根据标注语音样本集合，分别对每一预设的语音识别教师模型进行训练，获得训练好的语音识别教师模型；分别针对每一训练好的语音识别教师模型，将无标注语音样本集合中的各语音样本输入至语音识别教师模型中，输出相应的文本信息；根据标注语音样本集合、无标注语音样本集合以及相应的文本信息，对预设的语音识别学生模型进行训练，获得目标语音识别模型。获取待识别的语音数据；将语音数据输入至训练好的目标语音识别模型，输出语音识别结果。这样，提高了目标语音识别模型的性能。

Description

一种语音识别模型的训练以及语音识别的方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音识别模型的训练以及语音识别的方法和装置。

背景技术

随着人工智能技术的发展，语音识别的应用范围越来越广，如社交应用、机器人以及车载终端等。

现有技术中，通常采用单个语音识别模型或多个语音识别模型集成的方式进行语音识别。

但是，单个语音识别模型的性能通常较差，而对于基于编码器-解码器的语音识别模型，由于不同模型的输出结果可能不一致，因此，通过集成多个语音识别模型的方式并不能提升性能。

由此，如何提高基于编码器-解码器的语音识别模型的性能，是一个需要解决的问题。

发明内容

本申请实施例提供一种语音识别模型的训练以及语音识别的方法和装置，用以在采用基于编码器-解码器的语音识别模型进行语音识别时，提高模型的语音识别性能。

一方面，提供一种语音识别模型的训练方法，包括：

获取标注语音样本集合，以及无标注语音样本集合，其中，标注语音样本集合中包含多个语音样本和相应的文本信息，无标注语音样本集合中包含多个语音样本；

根据标注语音样本集合，分别对每一预设的语音识别教师模型进行训练，获得训练好的语音识别教师模型，其中，不同的语音识别教师模型采用的模型原理或参数不同；

分别针对每一训练好的语音识别教师模型，将无标注语音样本集合中的各语音样本输入至语音识别教师模型中，输出相应的文本信息；

根据标注语音样本集合、无标注语音样本集合以及相应的文本信息，对预设的语音识别学生模型进行训练，获得目标语音识别模型。

较佳的，在分别针对每一训练好的语音识别教师模型，将无标注语音样本集合中的各语音样本输入至语音识别教师模型中，输出相应的文本信息之前，进一步包括：

分别对每一训练好的语音识别教师模型进行语音识别性能测试，获得性能评分；

在训练好的各语音识别教师模型中，筛选出性能评分最高的指定数量的语音识别教师模型。

较佳的，根据标注语音样本集合、无标注语音样本集合以及相应的文本信息，对预设的语音识别学生模型进行训练，获得目标语音识别模型，包括：

根据无标注语音样本集合中包含的各语音样本以及相应的文本信息，生成预测语音样本集合；

根据标注语音样本集合，对语音识别学生模型进行训练，获得初始语音识别学生模型；

根据标注语音样本集合和预测语音样本集合，对初始语音识别学生模型进行训练，获得目标语音识别模型。

较佳的，根据标注语音样本集合和预测语音样本集合，对初始语音识别学生模型进行训练，获得目标语音识别模型，包括：

分别对标注语音样本集合和预测语音样本集合中的各语音样本和相应的文本信息进行采样，其中，从标注语音样本集合中多次采样获得的语音样本数量与从预测语音样本集合中多次采样获得的语音样本数量的比值不低于预设采样阈值；

根据采样获得的各语音样本和相应文本信息，对初始语音识别学生模型进行训练，获得目标语音识别模型。

一方面，提供一种语音识别的方法，包括：

获取待识别的语音数据；

将语音数据输入至训练好的目标语音识别模型，输出语音识别结果；

其中，目标语音识别模型是采用上述任一语音识别模型的训练方法训练获得的。

一方面，提供一种语音识别模型的训练装置，包括：

获取单元，用于获取标注语音样本集合，以及无标注语音样本集合，其中，标注语音样本集合中包含多个语音样本和相应的文本信息，无标注语音样本集合中包含多个语音样本；

训练单元，用于根据标注语音样本集合，分别对每一预设的语音识别教师模型进行训练，获得训练好的语音识别教师模型，其中，不同的语音识别教师模型采用的模型原理或参数不同；

输出单元，用于分别针对每一训练好的语音识别教师模型，将无标注语音样本集合中的各语音样本输入至语音识别教师模型中，输出相应的文本信息；

获得单元，用于根据标注语音样本集合、无标注语音样本集合以及相应的文本信息，对预设的语音识别学生模型进行训练，获得目标语音识别模型。

较佳的，输出单元还用于：

较佳的，获得单元用于：

一方面，提供一种语音识别的装置，包括：

获得单元，用于获取待识别的语音数据；

输出单元，用于将语音数据输入至训练好的目标语音识别模型，输出语音识别结果；

其中，目标语音识别模型是采用上述任一种语音识别模型的训练的方法训练获得的。

一方面，提供一种控制设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行上述任一种语音识别模型的训练或语音识别的方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种语音识别模型的训练或语音识别的方法的步骤。

本申请实施例提供的一种语音识别模型的训练以及语音识别的方法和装置中，获取标注语音样本集合，以及无标注语音样本集合；根据标注语音样本集合，分别对每一预设的语音识别教师模型进行训练，获得训练好的语音识别教师模型；分别针对每一训练好的语音识别教师模型，将无标注语音样本集合中的各语音样本输入至语音识别教师模型中，输出相应的文本信息；根据标注语音样本集合、无标注语音样本集合以及相应的文本信息，对预设的语音识别学生模型进行训练，获得目标语音识别模型。获取待识别的语音数据；将语音数据输入至训练好的目标语音识别模型，输出语音识别结果。这样，就可以通过多个模型集成以及迁移学习的方式，提高目标语音识别模型的性能。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例方式中一种语音识别模型的训练方法的实时流程图；

图2为本申请实施例方式中一种编码器解码器模型结构的示意图；

图3为本申请实施例方式中一种语音识别的方法的实施流程图；

图4a为本申请实施例方式中一种社交应用语音识别的示例图；

图4b为本申请实施例方式中一种对话机器人的语音识别应用的示例图；

图4c为本申请实施例方式中一种终端语音识别应用的示例图；

图5a为本申请实施例方式中一种语音识别模型的训练装置的结构示意图；

图5b为本申请实施例方式中一种语音识别的装置的结构示意图；

图6为本申请实施例方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

为了在采用基于编码器-解码器的语音识别模型进行语音识别时，提高模型的语音识别性能，提高用户体验，本申请实施例提供了一种语音识别模型的训练以及语音识别的方法和装置。

参阅图1所示，为本申请提供的一种语音识别模型的训练方法的实时流程图，该方法的具体实施流程如下：

步骤100：控制设备获取标注语音样本集合以及无标注语音样本集合。

具体的，标注语音样本集合中包含多个语音样本和相应的文本信息。无标注语音样本集合中包含多个语音样本。

需要说明的是，语音样本为音频，语音样本相应的文本信息为该语音样本语音识别出的文本内容。

例如，一个语音样本为一首歌曲，对应的文本信息为歌词。

一种实施方式中，为保证后续训练出的语音识别模型的语音识别的准确度，标注语音样本集合中包含的各语音样本的总音频长度高于第一预设时间阈值。无标注语音样本集合中包含的各语音样本的总音频长度高于第二预设时间阈值。

一种实施方式中，第二预设时间阈值高于第一预设时间阈值。实际应用中，第一预设时间阈值和第二预设时间阈值可以根据实际应用场景进行设置，如，第一预设时间阈值为100h，第二预设时间阈值为1Kh，在此不再赘述。

可选的，控制设备可以为终端设备或服务器。

其中，终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

其中，服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

步骤101：控制设备根据标注语音样本集合，分别对每一预设的语音识别教师模型进行训练，获得训练好的语音识别教师模型。

具体的，控制设备基于编码器-解码器网络，生成多个初始的语音识别教师模型，并分别针对每一语音识别教师模型，执行以下步骤：

将标注语音样本集合中的语音样本输入至该语音识别教师模型，获得相应的语音识别结果，并根据语音识别结果和相应的文本信息对语音识别教师模型的参数进行调整，直至获得性能符合预设训练条件的语音识别教师模型。

例如，性能为识别准确度，则预设训练条件可以为识别准确度高于预设准确度阈值。

实际应用中，预设训练条件和预设准确度阈值均可以根据实际应用场景进行设置，例如，预设准确度阈值为0.9，在此不再赘述。

其中，初始的各语音识别教师模型采用的模型原理不同或参数不同。语音识别结果为通过语音识别教师模型对语音样本进行语音识别后的文本内容。

一种实施方式中，控制设备还可以分别采用不同的语音样本和相应的文本信息，对不同的语音识别教师模型进行训练。

需要说明的是，各语音识别教师模型，不需要符合目标场景的速度要求，即不需要考虑语音识别的速度。

其中，编码-解码器网络是指：使用编码器网络将原始输入映射到特征表示，使用解码器网络将此特征表示作为输入，处理它以做出决定，并产生输出，旨在利用神经网络的这种能力来学习有效的表示。本申请实施例中，通过编码器网络将语音样本映射到特征表示，再通过解码器网络根据该特征表示，输出相应的文本信息。

参阅图2所示，为一种编码器解码器模型结构的示意图。将音频ABC输入至编码器解码器模型，且C之后编码器结束进入解码器，将编码器的输出输入至解码器，解码器输出WXYZ，直到输出特殊字符<eos>(终止符)时，停止解码，获得输出结果。

需要说明的是，语音识别教师模型通常为较大且较复杂的网络，可以获得较好的性能，但是，也存在很多的冗余信息，因此运算量以及资源的消耗都非常多。

步骤102：控制设备按照预设筛选条件对语音识别教师模型进行筛选，获得筛选后的语音识别教师模型。

具体的，控制设备分别对每一训练好的语音识别教师模型进行语音识别性能测试，获得性能评分，并在训练好的各语音识别教师模型中，筛选出性能评分最高的指定数量的语音识别教师模型。

一种实施方式中，获得性能评分时，可以采用以下方式：

控制设备获取包含多个语音样本和相应文本信息的验证集合，并分别针对每一训练好的语音识别教师模型执行以下步骤：

依次将每一语音样本输入至该语音识别教师模型，获得语音识别结果，并分别确定每一语音识别结果和相应的文本信息之间的相似度，以及统计相似度高于预设相似度阈值的语音样本数量与验证集合中语音样本总数量之间的比值，获得语音识别准确度，并将语音识别准确度作为性能评分。

实际应用中，指定数量可以根据实际应用场景进行设置，如，3，在此不再赘述。

这样，将语音识别教师模型进行筛选，可以减少数据处理量，提高数据处理速度以及语音识别性能，需要说明的是，当语音识别教师模型的数量较少时，步骤102也可以不执行。

步骤103：控制设备分别针对每一语音识别教师模型，将无标注语音样本集合中的各语音样本输入至语音识别教师模型中，输出相应的文本信息。

具体的，控制设备分别针对每一筛选出的语音识别教师模型，执行以下步骤：

依次将无标注语音样本集合中的每一语音样本输入至语音识别教师模型中，输出识别出的相应文本信息。

进一步地，控制设备创建预测语音样本集合，并将无标注语音样本集合中的各语音样本和相应的文本信息，添加到预测语音样本集合中。

需要说明的是，由于采用多个语音识别教师模型分别对无标注语音样本集合中的各语音样本进行语音识别，因此，若无标注语音样本集合的数据量为T，并语音识别教师模型的数量为K，则预测语音样本集合中的数据量至少为T*K。

这样，就可以通过语音识别教师模型，获得包含语音样本和相应文本信息的预测语音样本集合，一方面提高了后续模型训练的样本数据量，另一方面集成了多个模型的语音识别结果。

步骤104：控制设备根据标注语音样本集合、无标注语音样本集合以及相应的文本信息，对语音识别学生模型进行训练，获得目标语音识别模型。

具体的，执行步骤104时，控制设备执行以下步骤：

S1041：控制设备根据标注语音样本集合，对预设的语音识别学生模型进行训练，获得初始语音识别学生模型。

具体的，控制设备分别针对标注语音样本集合中的每一语音样本执行以下步骤：

控制设备将语音样本输入至语音识别学生模型中，输出语音识别结果，并根据语音识别结果和该语音样本相应的文本信息之间的相似度，对语音识别模型的参数进行调整，确定调整后的语音识别学生模型符合预设性能条件时，停止模型训练，获得训练好的初始语音识别学生模型。

其中，预设性能条件是根据语音识别学生模型的语音识别准确度以及语音识别速度确定的。实际应用中，预设性能条件也可以根据实际应用场景进行设置，在此不再赘述。

需要说明的是，语音识别学生模型为基于编码器-解码器网络生成的小的模型。

本申请实施例中，先通过标注语音样本集合对语音识别学生模型进行初始化，以保证训练数据的收敛。

S1042：控制设备根据标注语音样本集合和预测语音样本集合，对初始语音识别学生模型进行训练，获得目标语音识别模型。

具体的，控制设备分别对标注语音样本集合和预测语音样本集合中的各语音样本和相应的文本信息进行采样，并根据采样获得的各语音样本和相应文本信息，对初始语音识别学生模型进行训练，获得目标语音识别模型。

其中，从标注语音样本集合中进行采样时，可以对同一语音样本和相应的文本信息进行重复采样，采样次数可以根据实际应用场景进行设置，在此不再赘述。

一种实施方式中，从标注语音样本集合中多次采样获得的语音样本数量，与从预测语音样本集合中多次采样获得的语音样本数量的比值不低于预设采样阈值。

由于标注语音样本集合中的语音样本对应的文本信息是直接获取的样本数据，因此，根据标注语音样本集合中的语音样本和文本信息进行模型训练，可以保证识别精确度，而预测语音样本集合中的语音样本对应的文本信息是通过语音识别教师模型识别出的，因此，通过预测语音样本集合中的语音样本和文本信息进行模型训练，可以提高识别速度，本申请实施例中，为保证识别速度以及识别效果两者之间的平衡，需要通过预设采样阈值控制两者的语音样本数量的比例关系，实际应用中，预设采样阈值的经验取值范围为[0.2,0.4]，预设采样阈值可以根据实际应用场景进行设置，在此不做限制。

一种实施方式中，将预测语音样本集合中的所有语音样本和相应文本信息，作为采样获得的数据。

实际应用中，由于标注语音样本集合中的数据量通常较少，因此，可以对标注语音样本集合中的语音样本进行多次重复采样，以增大上述比值。

一种实施方式中，根据采样获得的各语音样本和相应文本信息，对初始语音识别学生模型进行训练，获得目标语音识别模型时，可以采用以下方式：

控制设备根据采样获得的各语音样本和相应文本信息，对初始语音识别学生模型进行训练，获得训练后的初始语音识别学生模型。

控制设备获取包含多个语音样本和相应文本信息的验证集合，并将验证集合中的各语音样本输入至训练后的初始语音识别学生模型，获得语音识别结果，并分别确定每一语音识别结果和语音样本相应的文本信息之间的相似度，以及统计相似度高于预设相似度阈值的语音样本数量与验证集合中语音样本总数量之间的比值，获得语音识别准确度，即性能评分。

若性能评分高于预设评分阈值，则控制设备执行上述分别对标注语音样本集合和预测语音样本集合中的各语音样本和相应的文本信息进行采样的步骤，否则，将训练好的初始语音识别学生模型，作为目标语音识别模型。

需要说明的是，性能评分是指语音识别的准确度，因此，通过预设评分阈值，可以控制目标语音识别模型的语音识别准确度，如，若预设评分阈值较高，则训练好的目标语音识别模型的语音识别准确度也较高，而若预设评分阈值较低，则训练好的目标语音识别模型的语音识别准确度也较低，因此，可以根据实际应用场景中，对语音识别的准确度的要求，设置相应的预设评分阈值，通常预设评分阈值的经验取值范围为[0.8-0.9]，实际应用中，预设评分阈值可以根据实际应用场景进行设置，在此不做限制。

本申请实施例中，语音识别教师模型和语音识别学生模型采用的是教师--学生网络的方法，属于迁移学习的一种。迁移学习也就是将一个模型的性能迁移到另一个模型上，语音识别教师模型通常是一个更加复杂的网络，具有非常好的性能和泛化能力，但是也存在很多的冗余信息，因此运算量以及资源的消耗都非常多。可以用语音识别教师模型来作为一个软目标(soft target)来指导另外一个更加简单的语音识别学生模型来学习，从而将语音识别教师模型中的有用信息提取出来迁移到一个更小的语音识别学生模型上，这样学习来的语音识别学生模型可以具备与语音识别教师模型相近的性能效果，也极大的节省了计算资源。使得更加简单、参数运算量更少的语音识别学生模型也能够具有和语音识别教师模型相近的性能，也算是一种模型压缩的方式。

本申请实施例中，采用标注语音样本集合，对多个复杂的语音识别教师模型进行训练，并通过训练好的语音识别教师模型对无标注语音样本集合中的语音样本进行语音识别，获得相应的文本信息，进而生成预测语音样本集合，提高了样本数据量，并集成了多个模型的语音识别结果，以及根据标注语音样本集合和预测语音样本集合对简单的语音识别学生模型进行训练，获得目标语音识别模型，将复杂的语音识别教师模型的性能迁移到简单的语音识别学生模型，并实现了对复杂模型进行了压缩，这样，采用多个模型集成以及迁移学习的方式，获得高性能、高效并且简单的目标语音识别模型。

这样，就可以采用训练好的目标语音识别模型，在后续的步骤中，对待识别的语音数据进行语音识别。

参阅图3所示，为本申请提供的一种语音识别的方法的实施流程图。该方法的具体实施流程如下：

步骤300：控制设备获取待识别的语音数据。

例如，待识别的语音数据为社交应用中用户发送的一条语音。

步骤301：控制设备将语音数据输入至训练好的目标语音识别模型，输出语音识别结果。

下面采用几个具体的应用场景对语音识别的应用进行举例说明。

参阅图4a所示，为一种社交应用语音识别的示例图。用户A通过终端设备的社交应用接收用户B发送的一条语音，社交应用通过目标语音识别模型对该语音进行语音识别，获得文本信息“你好”(语音识别结果)。

参阅图4b所示，为一种对话机器人的语音识别应用的示例图。

用户A与对话机器人进行对话，对话机器人接收用户A说的对话音频，并采用目标语音识别模型对该对话音频进行语音识别，获得文本信息“请播放古典音乐”。对话机器人通过显示界面显示“请播放古典音乐”，并通过播放器播放歌曲。

参阅图4c所示，为一种终端语音识别应用的示例图。用户A通过语音向手机发出语音指令。手机采集用户A发出的语音指令，并采用目标语音识别模型，对该语音指令进行语音识别，获得文本信息“播放综艺视频”，以及启动视频应用并播放综艺视频。

基于同一发明构思，本申请实施例中还提供了一种语音识别模型的训练装置，由于上述装置及设备解决问题的原理与一种语音识别模型的训练方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5a所示，其为本申请实施例提供的一种语音识别模型的训练装置的结构示意图，包括：

获取单元511，用于获取标注语音样本集合，以及无标注语音样本集合，其中，标注语音样本集合中包含多个语音样本和相应的文本信息，无标注语音样本集合中包含多个语音样本；

训练单元512，用于根据标注语音样本集合，分别对每一预设的语音识别教师模型进行训练，获得训练好的语音识别教师模型，其中，不同的语音识别教师模型采用的模型原理或参数不同；

输出单元513，用于分别针对每一训练好的语音识别教师模型，将无标注语音样本集合中的各语音样本输入至语音识别教师模型中，输出相应的文本信息；

获得单元514，用于根据标注语音样本集合、无标注语音样本集合以及相应的文本信息，对预设的语音识别学生模型进行训练，获得目标语音识别模型。

较佳的，输出单元513还用于：

较佳的，获得单元514用于：

基于同一发明构思，本申请实施例中还提供了一种语音识别的装置，由于上述装置及设备解决问题的原理与一种语音识别的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5b所示，其为本申请实施例提供的一种语音识别的装置的结构示意图，包括：

获得单元521，用于获取待识别的语音数据；

输出单元522，用于将语音数据输入至训练好的目标语音识别模型，输出语音识别结果；

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

基于上述实施例，参阅图6所示，本申请实施例中，一种控制设备的结构示意图。

本申请实施例提供了一种控制设备，该控制设备可以包括处理器6010(CenterProcessing Unit，CPU)、存储器6020，还可以包括输入设备6030和输出设备6040等，输入设备6030可以包括键盘、鼠标、触摸屏等，输出设备6040可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器6020可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器6010提供存储器6020中存储的程序指令和数据。在本申请实施例中，存储器6020可以用于存储本申请实施例中语音识别的程序。

处理器6010通过调用存储器6020存储的程序指令，处理器6010用于执行图1或图3所示的实施例提供的方法。

本申请实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意方法实施例中的语音识别的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音识别模型的训练方法，其特征在于，包括：

获取标注语音样本集合，以及无标注语音样本集合，其中，所述标注语音样本集合中包含多个语音样本和相应的文本信息，所述无标注语音样本集合中包含多个语音样本；

根据所述标注语音样本集合，分别对每一预设的语音识别教师模型进行训练，获得训练好的语音识别教师模型，其中，不同的语音识别教师模型采用的模型原理或参数不同；

分别针对每一训练好的语音识别教师模型，将所述无标注语音样本集合中的各语音样本输入至所述语音识别教师模型中，输出相应的文本信息；

根据所述标注语音样本集合、所述无标注语音样本集合以及相应的文本信息，对预设的语音识别学生模型进行训练，获得目标语音识别模型；具体包括：

根据所述无标注语音样本集合中包含的各语音样本以及相应的文本信息，生成预测语音样本集合；

根据所述标注语音样本集合，对所述语音识别学生模型进行训练，获得初始语音识别学生模型；

根据所述标注语音样本集合和所述预测语音样本集合，对所述初始语音识别学生模型进行训练，获得目标语音识别模型。

2.如权利要求1所述的方法，其特征在于，在分别针对每一训练好的语音识别教师模型，将所述无标注语音样本集合中的各语音样本输入至所述语音识别教师模型中，输出相应的文本信息之前，进一步包括：

3.如权利要求1所述的方法，其特征在于，根据所述标注语音样本集合和所述预测语音样本集合，对所述初始语音识别学生模型进行训练，获得目标语音识别模型，包括：

分别对所述标注语音样本集合和所述预测语音样本集合中的各语音样本和相应的文本信息进行采样，其中，从所述标注语音样本集合中多次采样获得的语音样本数量与从所述预测语音样本集合中多次采样获得的语音样本数量的比值不低于预设采样阈值；

根据采样获得的各语音样本和相应文本信息，对所述初始语音识别学生模型进行训练，获得目标语音识别模型。

4.一种语音识别的方法，其特征在于，包括：

获取待识别的语音数据；

将所述语音数据输入至训练好的目标语音识别模型，输出语音识别结果；

其中，所述目标语音识别模型是采用如权利要求1-3任一项所述的方法训练获得的。

5.一种语音识别模型的训练装置，其特征在于，包括：

获取单元，用于获取标注语音样本集合，以及无标注语音样本集合，其中，所述标注语音样本集合中包含多个语音样本和相应的文本信息，所述无标注语音样本集合中包含多个语音样本；

训练单元，用于根据所述标注语音样本集合，分别对每一预设的语音识别教师模型进行训练，获得训练好的语音识别教师模型，其中，不同的语音识别教师模型采用的模型原理或参数不同；

输出单元，用于分别针对每一训练好的语音识别教师模型，将所述无标注语音样本集合中的各语音样本输入至所述语音识别教师模型中，输出相应的文本信息；

获得单元，用于根据所述标注语音样本集合、所述无标注语音样本集合以及相应的文本信息，对预设的语音识别学生模型进行训练，获得目标语音识别模型；所述获得单元用于：

6.如权利要求5所述的装置，其特征在于，所述输出单元还用于：

7.如权利要求5所述的装置，其特征在于，所述获得单元用于：

8.一种语音识别的装置，其特征在于，包括：

获得单元，用于获取待识别的语音数据；

输出单元，用于将所述语音数据输入至训练好的目标语音识别模型，输出语音识别结果；

9.一种控制设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求1-3或4任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-3或4任一所述方法的步骤。