CN111627428B

CN111627428B - 构建压缩的语音识别模型的方法

Info

Publication number: CN111627428B
Application number: CN202010414344.2A
Authority: CN
Inventors: 刘利平; 夏春晖
Original assignee: Beijing Qingniu Technology Co ltd
Current assignee: Beijing Qingniu Technology Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2023-11-14
Anticipated expiration: 2040-05-15
Also published as: CN111627428A

Abstract

本发明提供了一种构建压缩的语音识别模型的方法，该方法包括：采集音频数据；提供经过训练的教师模型，将所述音频数据输入至所述教师模型，获得所述教师模型针对所述音频数据输出的软化概率分布向量；提供经过初始化的学生模型，将所述音频数据作为输入，以及将所述软化概率分布向量作为监督信号，训练所述学生模型；对训练后的学生模型进行压缩处理；利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理，以获得压缩的语音识别模型。此外，本发明还提供相应的计算机介质。

Description

构建压缩的语音识别模型的方法

技术领域

本发明涉及语音识别的神经网络算法领域，尤其涉及一种构建压缩的语音识别模型的方法。

背景技术

目前，智能呼叫中心通常使用语音识别模型来实现实时语音识别，为了获得较好的场景、客户意图等角度的预测性能，往往需要对复杂的语音识别模型进行训练，所述训练的效率取决于所能获得的计算资源，当计算资源不足，尤其是面对智能呼叫中心所配备的计算能力有限的低成本硬件时，在模型部署阶段就需要考虑模型的大小、计算复杂度、速度等诸多因素，具有过于庞大的模型参数数量和复杂度的语音识别模型不利于在上述有限的设备规模中进行训练和推广。

因此，对于复杂的语音识别模型，迫切需要在不影响其预测性能，甚至在提升其预测性能的前提下，尽可能地降低该语音识别模型的复杂度，以从中构建出一个所需计算资源更小的语音识别模型。

发明内容

为了克服现有技术中的上述缺陷，本发明提供了构建压缩的语音识别模型的方法，该方法包括：

采集音频数据；

提供经过训练的教师模型，将所述音频数据输入至所述教师模型，获得所述教师模型针对所述音频数据输出的软化概率分布向量；

提供经过初始化的学生模型，将所述音频数据作为输入，以及将所述软化概率分布向量作为监督信号，训练所述学生模型；

对训练后的学生模型进行压缩处理；

利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理，以获得压缩的语音识别模型。

根据本发明的一个方面，该方法中所述软化概率分布向量是：根据所述教师模型针对所述音频数据的预测输出结果，在特定温度参数值下通过所述教师模型的softmax函数输出的软目标。

根据本发明的另一个方面，该方法中所述对训练后的学生模型进行压缩处理的步骤包括：对所述训练后的学生模型执行核稀疏化处理。

根据本发明的另一个方面，该方法中所述对训练后的学生模型进行压缩处理的步骤还包括：对所述训练后的学生模型执行模型剪枝处理。

根据本发明的另一个方面，该方法中所述对训练后的学生模型进行压缩处理的步骤还包括：对所述训练后的学生模型执行矩阵量化处理。

根据本发明的另一个方面，该方法中所述语言模型是N-gram模型。

相应地，本发明还提供了一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的构建压缩的语音识别模型的方法。

本发明提供的构建压缩的语音识别模型的方法使用了教师模型输出的软化概率分布向量作为训练学生模型的监督信号，实现学生模型的压缩和训练加速，结合对训练后的学生模型进行的进一步压缩处理和超参数优化处理，可获得压缩的语音识别模型，相比复杂度较高的教师模型，所述压缩的语音识别模型训练和运行所需的计算资源更小，便于在低成本的硬件环境中进行部署。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明的构建压缩的语音识别模型的方法的一个具体实施方式的流程示意图；

图2是图1示出的步骤S400的可选实施例的流程示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

为了更好地理解和阐释本发明，下面将结合附图对本发明作进一步的详细描述。本发明并不仅仅局限于这些具体实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

需要说明的是，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有这些具体细节，本发明同样可以实施。在下文给出的多个具体实施方式中，对于本领域熟知的结构和部件未作详细描述，以便于凸显本发明的主旨。

本发明提供了一种构建压缩的语音识别模型的方法，请参考图1，图1是根据本发明的构建压缩的语音识别模型的方法的一个具体实施方式的流程示意图，该方法包括：

步骤S100，采集音频数据；

步骤S200，提供经过训练的教师模型，将所述音频数据输入至所述教师模型，获得所述教师模型针对所述音频数据输出的软化概率分布向量；

步骤S300，提供经过初始化的学生模型，将所述音频数据作为输入，以及将所述软化概率分布向量作为监督信号，训练所述学生模型；

步骤S400，对训练后的学生模型进行进一步压缩处理；

步骤S500，利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理，以获得压缩的语音识别模型。

具体地，在步骤S100中所采集的音频数据通常是具有训练样本意义的对话录音，该音频数据可能由多个具有自然语言含义的句子构成。

步骤S200中首先提供了经过训练的教师模型，本领域技术人员可知，根据知识蒸馏算法的技术背景，所述教师模型指的是：相对复杂并可以针对所述音频数据输出满足精度要求的预测结果的神经网络，可见，所述教师模型具有高复杂度和高推理性能两个典型特征，虽然其推理性能较好，但其高复杂度导致所述教师模型不利于在低计算性能的硬件环境中部署，例如现有的大多数智能呼叫中心所配备的计算能力有限的低成本硬件对于运行所述教师模型进行语音识别时就比较吃力，因而教师模型的高复杂度成为了现有的大多数智能呼叫中心在实现语音识别时的瓶颈因素。本发明的目的之一是构建相对于所述教师模型而言复杂度更低的语音识别模型，也即构建所述压缩的语音识别模型。为实现上述目的，考虑根据知识蒸馏算法，将所述教师模型的输出成果用于一个简单神经网络的训练，实现所述教师模型对所述简单神经网络的知识迁移。所述简单神经网络也即步骤S300中的所述学生模型，所述学生模型是上述一类简单神经网络在知识蒸馏算法中所公知的称谓。

步骤S200中获得的所述教师模型针对所述音频数据输出的软化概率分布向量是进一步在步骤S300中用来约束所述学生模型的训练，具体而言，将所述音频数据作为样本集训练所述学生模型，并将所述软化概率分布向量作为训练所述学生模型时的监督信号。典型地，为了达到知识蒸馏算法所预期的效果，所述软化概率分布向量指的是：根据所述教师模型针对所述音频数据的预测输出结果，在特定温度参数值下通过所述教师模型的softmax函数输出的软目标(soft-target)。相对应地，对所述音频数据进行文本转录所得的真实转录结果也通常被称之为硬目标(hard-target)。所述温度参数是softmax函数中的调节参数，所述温度参数的值越大，则所述软目标中所有类的概率分布越趋近于平均，本具体实施方式的实施者可以根据所述学生模型的训练需求选择所述温度参数的合适值。

根据知识蒸馏算法的特性，当所述软化概率分布向量充当训练所述学生模型时的监督信号时，所述学生模型的训练是受到该监督信号的约束的，因此所述训练能获得更好的收敛速率。

执行步骤S300后，训练后的学生模型可认为已经与所述教师模型具有基本相等的预测性能，而该训练后的学生模型复杂度显然低于所述教师模式，但所述复杂度依然有进一步降低的可能性。因此考虑执行步骤S400，对所述训练后的学生模型进行进一步的压缩处理。请参考图2，图2是图1示出的步骤S400的可选实施例的流程示意图，如图2所示，步骤S400包括：

步骤S410，对所述训练后的学生模型执行核稀疏化处理；

步骤S420，对所述训练后的学生模型执行模型剪枝处理；

步骤S430，对所述训练后的学生模型执行矩阵量化处理。

具体地，步骤S410中所述核稀疏化处理指的是通过Regular方法或Irregular方法来更新所述训练后的学生模型中的权重，使其运算效率更高；步骤S420中所述模型剪枝处理指的是通过模型剪枝算法思想删除所述训练后的学生模型中的计算收益较低的部分，进一步压缩所述训练后的学生模型的规模；步骤S430中所述矩阵量化处理指的是通过量化、共享权值、哈夫曼编码等手段使所述训练后的学生模型所包含的数据量进一步减小。总体而言，能进一步降低所述训练后的学生模型的复杂度的压缩处理，都可以包含在步骤S400中。

在步骤S400中执行所述压缩处理之后，进一步对压缩处理后的学生模型进行优化处理，也即执行步骤S500，利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理，以获得压缩的语音识别模型。典型的，步骤S500中根据所述音频数据对应的转录文本生成的语言模型例如是N-gram模型，该N-gram模型可以使用对所述音频数据进行文本转录后的文本集合来构建。所述超参数优化处理例如是利用所述N-gram模型所执行的针对所述压缩的语音识别模型的错别字修正等超参数调整。

经过多次实施步骤S100至步骤S500的实验，该压缩的语音识别模型比所述教师模型的预测准确率更高，而模型大小和参数总量压缩至所述教师模型的18％左右。

需要说明的是，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

相应地，本发明还公开了一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的构建压缩的语音识别模型的方法，例如图1示出的构建压缩的语音识别模型的方法。所述计算机可读介质可以是可由计算机设备访问的任何可用介质，且包括用任何方法和技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机可读介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备，或者可用于存储所需信息并且可由计算设备访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。

本发明提供的构建压缩的语音识别模型的方法中涉及软件逻辑的部分可以使用可编程逻辑器件来实现，也可以实施为计算机程序产品，该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现上述涉及软件逻辑的部分的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如可热拔插的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如RAM、ROM和硬盘。所述可移动介质包括但不限于：光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如磁带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。

本领域技术人员应当理解，任何具有适当编程装置的计算机系统都能够执行包含在计算机程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序，但是以硬件方式实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，在权利要求的等同要件的含义和范围内的所有变化均涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他部件、单元或步骤，单数不排除复数。权利要求中陈述的多个部件、单元或装置也可以由一个部件、单元或装置通过软件或者硬件来实现。

以上所披露的仅为本发明的一些较佳实施例，不能以此来限定本发明之权利范围，依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种构建压缩的语音识别模型的方法，该方法包括：

采集音频数据；

对训练后的学生模型进行压缩处理；

2.根据权利要求1所述的构建压缩的语音识别模型的方法，其中，所述软化概率分布向量是：

根据所述教师模型针对所述音频数据的预测输出结果，在特定温度参数值下通过所述教师模型的softmax函数输出的软目标。

3.根据权利要求1所述的构建压缩的语音识别模型的方法，其中，所述对训练后的学生模型进行压缩处理的步骤包括：

对所述训练后的学生模型执行核稀疏化处理。

4.根据权利要求3所述的构建压缩的语音识别模型的方法，其中，所述对训练后的学生模型进行压缩处理的步骤还包括：

对所述训练后的学生模型执行模型剪枝处理。

5.根据权利要求4所述的构建压缩的语音识别模型的方法，其中，所述对训练后的学生模型进行压缩处理的步骤还包括：

对所述训练后的学生模型执行矩阵量化处理。

6.根据权利要求1所述的构建压缩的语音识别模型的方法，其中：

所述语言模型是N-gram模型。

7.一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如权利要求1至6任一项所述的构建压缩的语音识别模型的方法。