CN111553169B

CN111553169B - 语义理解模型的剪枝方法、装置、电子设备和存储介质

Info

Publication number: CN111553169B
Application number: CN202010592755.0A
Authority: CN
Inventors: 希滕; 张刚; 温圣召
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-25
Filing date: 2020-06-25
Publication date: 2023-08-25
Anticipated expiration: 2040-06-25
Also published as: CN111553169A

Abstract

本申请公开了一种语义理解模型的剪枝方法、装置、电子设备和存储介质，涉及人工智能、深度学习、云计算、自然语言处理、智能搜索等领域。具体实现方案为：获取第一语义理解模型；在第一搜索空间中随机采样第一剪枝策略；根据采样得到的第一剪枝策略对第一语义理解模型进行剪枝，得到第二语义理解模型；根据第二语义理解模型的性能信息，更新第一语义理解模型的参数，返回在第一搜索空间中随机采样第一剪枝策略的步骤，直至达到预设的停止条件；获取目标剪枝策略；根据目标剪枝策略，对第一语义理解模型进行剪枝，得到目标模型。本申请实施例能够通过剪枝使模型的结构复杂度降低，并减少因剪枝而损失的精度。

Description

语义理解模型的剪枝方法、装置、电子设备和存储介质

技术领域

本申请涉及数据处理领域，尤其涉及人工智能、深度学习、云计算、自然语言处理、智能搜索等领域。

背景技术

NLP(Natural Language Processing，自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向。人们在处理NLP任务时，通常会选择构建各种语义理解模型来解决。近年来，语义理解模型已能获取丰富的语义知识，语义表示能力大幅提升，同时，语义理解模型的模型结构也越来越复杂。

发明内容

本申请提供了一种语义理解模型的剪枝方法、装置、电子设备和存储介质。

根据本申请的一方面，提供了一种语义理解模型的剪枝方法，包括：

获取第一语义理解模型；

在第一搜索空间中随机采样第一剪枝策略，其中，第一搜索空间包括至少两个第一剪枝策略；

根据采样得到的第一剪枝策略对第一语义理解模型进行剪枝，得到第二语义理解模型；

根据第二语义理解模型的性能信息，更新第一语义理解模型的参数，返回在第一搜索空间中随机采样第一剪枝策略的步骤，直至达到预设的停止条件，得到待处理的第一语义理解模型；

获取目标剪枝策略；

根据目标剪枝策略，对待处理的第一语义理解模型进行剪枝，得到目标模型。

根据本申请的另一方面，提供了一种语义理解模型的剪枝装置，包括：

第一获取模块，用于获取第一语义理解模型；

第一采样模块，用于在第一搜索空间中随机采样第一剪枝策略，其中，第一搜索空间包括至少两个第一剪枝策略；

第一剪枝模块，用于根据采样得到的第一剪枝策略对第一语义理解模型进行剪枝，得到第二语义理解模型；

第一更新模块，用于根据第二语义理解模型的性能信息，更新第一语义理解模型的参数，返回在第一搜索空间中随机采样第一剪枝策略的步骤，直至达到预设的停止条件，得到待处理的第一语义理解模型；

第二获取模块，用于获取目标剪枝策略；

目标剪枝模块，用于根据目标剪枝策略，对待处理的第一语义理解模型进行剪枝，得到目标模型。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意实施例提供的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意实施例提供的方法。

根据本申请的技术方案，基于在第一搜索空间中随机采样得到的剪枝策略，对第一语义理解模型进行剪枝，并根据剪枝得到的第二语义理解模型的性能更新第一语义理解模型的参数，通过迭代采样和更新，使得第一语义理解模型对剪枝不敏感。因此，根据目标剪枝策略对第一语义理解模型进行剪枝，能够通过剪枝使模型的结构复杂度降低，并减少因剪枝而损失的精度，得到结构精简且性能较好的目标模型。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请示例性实施例提供的语义理解模型的剪枝方法的示意图；

图2是本申请示例性实施例提供的语义理解模型的剪枝方法的示意图；

图3是本申请示例性实施例提供的语义理解模型的剪枝装置的示意图；

图4是本申请示例性实施例提供的语义理解模型的剪枝装置的示意图；

图5是用来实现本申请实施例的语义理解模型的剪枝方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了本申请一示例性实施例提供的语义理解模型的剪枝方法的示意图。如图1所示，该方法包括：

步骤S11，获取第一语义理解模型；

步骤S12，在第一搜索空间中随机采样第一剪枝策略，其中，第一搜索空间包括至少两个第一剪枝策略；

步骤S13，根据采样得到的第一剪枝策略对第一语义理解模型进行剪枝，得到第二语义理解模型；

步骤S14，根据第二语义理解模型的性能信息，更新第一语义理解模型的参数，返回在第一搜索空间中随机采样第一剪枝策略的步骤12，直至达到预设的停止条件，得到待处理的第一语义理解模型；

步骤S15，获取目标剪枝策略；

步骤S16，根据目标剪枝策略，对待处理的第一语义理解模型进行剪枝，得到目标模型。

根据该示例性实施例，基于在第一搜索空间中随机采样得到的剪枝策略，对第一语义理解模型进行剪枝，并根据剪枝得到的第二语义理解模型的性能更新第一语义理解模型的参数，通过迭代采样和更新，使得第一语义理解模型对剪枝不敏感。因此，根据目标剪枝策略对第一语义理解模型进行剪枝，能够通过剪枝使模型的结构复杂度降低，并减少因剪枝而损失的精度，得到结构精简且性能较好的目标模型。

示例性地，本申请实施例中的第一语义理解模型为语义理解框架。相应地，目标模型也是语义理解框架。语义理解框架在预训练阶段中利用大量的语料和语义任务，获得多个维度的自然语言信息。当用于具体的语义理解任务时，语义理解框架会被加上不同的输出层，以解决实际任务。语义理解框架一般部署在服务器上，以利用大型、复杂的模型结构承载海量的语义知识，提高语义表示能力。而本申请实施例可以通过剪枝使模型结构复杂度降低，并减少因剪枝而损失的精度，因此，能够在终端设备上运行语义理解框架，使得终端设备也能够具备强语义表示能力。

本申请实施例中，第一搜索空间中的每个第一剪枝策略可以包括与第一语义理解模型中的各个卷积层分别对应的剪枝率。例如，第一语义理解模型包括8个卷积层，则第一搜索空间中每个第一剪枝策略均包括8个剪枝率。这里，剪枝率可以指卷积层中待剪切的通道数量与现有通道数量的比例，例如0.02、0.04、0.06等。可以用向量的方式存储剪枝策略，例如，用8维向量[0.1,0.2，0.1,0.3,0.3,0.1,0.4,0.3]存储一个包括剪枝率0.1、0.2、0.1、0.3、0.3、0.1、0.4和0.3的剪枝策略。根据剪枝率和卷积层中现有通道数量，可以确定卷积层中待剪切的通道数量，然后剪切相应数量的通道。

作为示例，可以根据第一语义理解模型的卷积层数量，预先筛选出多个第一剪枝策略，得到第一搜索空间。也可以对所有候选剪枝率进行自由组合得到第一搜索空间。

示例性地，步骤S13中，根据采样得到的第一剪枝策略，对第一语义理解模型进行剪枝，包括：根据采样得到的第一剪枝策略中的每个剪枝率，对剪枝率对应的卷积层进行剪枝。

例如，根据采样得到的第一剪枝策略中第一个剪枝率对第一个卷积层进行剪枝，根据第二个剪枝率对第二个卷积层进行剪枝，依次类推，完成对所有卷积层的剪枝。

第一剪枝策略针对每个卷积层设置剪枝率，而不是采用同一剪枝率对各个卷积层进行剪枝，可以增加采样第一剪枝策略的随机性，进一步降低更新多次参数后的第一语义理解模型对各种剪枝策略的敏感度。

在一些实施方式中，步骤S13中，根据采样得到的第一剪枝策略对第一语义理解模型进行剪枝，可以包括：

根据采样得到的第一剪枝策略中的每个剪枝率，确定剪枝率对应的卷积层中待剪切的通道数量K；其中，K为大于或等于0的整数；

剪切卷积层中权重最低的K个通道。

例如，在第一个剪枝率为0.1且第一个卷积层包括512个通道的情况下，确定第一个卷积层中待剪切的通道数量为512×0.1≈51，剪切第一个卷积层中权重最低的51个通道；在第二个剪枝率为0.2，第二个卷积层包括512个通道的情况下，确定第二个卷积层中待剪切的通道数量为512×0.2≈102，剪切第二个卷积层中权重最低的102个通道。

由于根据第一剪枝策略对第一语义理解模型进行剪枝的方式是根据通道的权重进行剪枝，因此，在评估剪枝后的第二语义理解模型的性能时，减少了剪枝通道的权重引起的干扰，能够更准确评估模型剪枝后的性能，有利于通过更新参数将第一语义理解模型调整到对剪枝不敏感的状态。

实际应用时，在步骤S14中，可以先对第二语义理解模型进行训练，得到收敛的模型。然后，对收敛的模型进行评估，得到第二语义理解模型的性能信息。将性能信息作为奖励反馈值(reward)，根据reward更新第一语义理解模型的参数。这里，可以通过反向传播更新第一语义理解模型的参数。

示例性地，目标剪枝策略可以是预先筛选的适用于第一语义理解模型的剪枝策略。在一种示例性的实施方式中，步骤S15，获取目标剪枝策略，可以包括：

步骤S151，利用编码生成器在第二搜索空间中采样第二剪枝策略，其中，第二搜索空间中包括至少两个第二剪枝策略；

步骤S152，根据采样得到的第二剪枝策略，对待处理的第一语义理解模型进行剪枝，得到第三语义理解模型；

步骤S153，确定第三语义理解模型的性能信息；

步骤S154，根据性能信息更新编码生成器，返回利用编码生成器在第二搜索空间中采样第二剪枝策略的步骤S151，直至采样第二剪枝策略的次数达到第一阈值N；其中，N为大于或等于2的整数；

步骤S155，将第N次采样得到的第二剪枝策略确定为目标剪枝策略。

根据该示例性的实施方式，利用编码生成器采样得到的第二剪枝策略，对待处理的第一语义理解模型进行剪枝，并根据剪枝得到的第三语义理解模型的性能更新编码生成器，使得编码生成器每一次采样的第二剪枝策略都是对上一次采样的第二剪枝策略的优化，因此，能够得到最优的目标剪枝策略。

示例性地，第二搜索空间中的每个第二剪枝策略可以包括与第一语义理解模型中的各个卷积层分别对应的剪枝率。第二搜索空间中的各第二剪枝策略，与第一搜索空间中的各第一剪枝策略可以相同，也可以不同。第二搜索空间的获取方法可参考前述第一搜索空间的获取方法。作为示例，第二搜索空间与第一搜索空间相同，则能确保第一语义理解模型对第二搜索空间中的剪枝策略不敏感，提高剪枝后的目标模型的性能稳定性。

示例性地，编码生成器可基于采样规则在第二搜索空间中采样第二剪枝策略，其中，采样规则可以包括采样范围、采样算法、约束条件等。例如，先根据一些先验信息初始化采样规则，再利用编码生成器根据采样规则进行采样；然后，根据采样结果对模型进行剪枝后，确定剪枝后的模型的性能信息，根据性能信息更新采样规则，以实现更新编码生成器；编码生成器基于更优化的采样规则进行采样，直至采样次数达到预设阈值，得到最优的目标剪枝策略。其中，更新采样规则的方式可以是缩小采样范围、调整采样算法、增加约束条件等。

在一种示例性的实施方式中，步骤S152，根据采样得到的第二剪枝策略，对第一语义理解模型进行剪枝，可以包括：根据采样得到的第二剪枝策略中的每个剪枝率，对剪枝率对应的卷积层进行剪枝。

根据该示例性的实施方式，第二剪枝策略中针对每个卷积层设置剪枝率，而不是采用同一剪枝率对各个卷积层进行剪枝，因此，利用迭代更新的编码生成器采样得到的第二剪枝策略中包括针对不同卷积层的最优剪枝率，可以提高剪枝的质量。

可选地，上述根据采样得到的第二剪枝策略中的每个剪枝率，对剪枝率对应的卷积层进行剪枝的步骤，可以包括：

根据采样得到的第二剪枝策略中的每个剪枝率，确定剪枝率对应的卷积层中待剪切的通道数量M；其中，M为大于或等于0的整数；

剪切卷积层中权重最低的M个通道。

由于根据第二剪枝策略对第一语义理解模型进行剪枝的方式是根据通道的权重进行剪枝，而不是根据通道的先后次序进行剪枝，因此，能够降低剪枝过程中损失的精度，提高剪枝的质量。

实际应用时，在步骤S153中，可以先对第三语义理解模型进行训练，得到收敛的模型。然后，对收敛的模型进行评估，得到第三语义理解模型的性能信息。在步骤S154中，可以将性能信息作为奖励反馈值(reward)，根据reward更新编码生成器。

在一种示例性的实施方式中，在首次执行步骤S151，利用编码生成器在第二搜索空间中采样第二剪枝策略之前，获取目标剪枝策略的方法还可以包括：

根据第二搜索空间，初始化编码生成器，以使编码生成器能够生成与第二搜索空间中的第二剪枝策略对应的采样编码。

根据该示例性的实施方式，编码生成器是根据第二搜索空间初始化的，因此，编码生成器基于第二搜索空间的全范围进行采样，有利于采样到全局最优的剪枝策略，得到性能最优的目标模型。

在一种示例性的实施方式中，在步骤S151中，利用编码生成器在第二搜索空间中采样第二剪枝策略，包括：

利用编码生成器，生成采样编码；

对采样编码进行解码，得到采样编码对应的第二剪枝策略。

根据该示例性的实施方式，编码生成器通过生成采样编码和对采样编码进行解码，得到采样的第二剪枝策略。通过对第二剪枝策略进行编码，可以优化编码生成器的数据处理量，提高编码生成器的采样效率。

本申请实施例中，随机采样第一剪枝策略时，预设的停止条件可以是采样第一剪枝策略的次数达到第二阈值。

通过调整第二阈值，可以调整更新第一语义理解模型的次数。因此，可以根据实际需求，控制第一语义理解模型对剪枝的敏感度。

在一种示例性的实施方式中，语义理解模型的剪枝方法还可以包括：

获取待识别文本；

根据目标模型，得到待识别文本的识别结果。

具体实施时，可以通过训练目标结构，得到收敛的语义理解模型，然后，根据该语义理解模型得到待识别文本的识别结果。

其中，待识别文本的识别结果，可以是与待识别文本对应的结构化的、电子设备可读的信息，例如待识别文本的翻译结果、待识别文本对应的控制指令、待识别文本的关键词、主题词等。

根据该示例性的实施方式，由于目标模型是基于最优剪枝策略得到的结构复杂度较低且精度较高的模型，因此，可以提高识别速度和识别结果的精确度。

根据本申请实施例的方法，基于在第一搜索空间中随机采样得到的剪枝策略，对第一语义理解模型进行剪枝，并根据剪枝得到的第二语义理解模型的性能更新第一语义理解模型的参数，通过迭代采样和更新，使得第一语义理解模型对剪枝不敏感。因此，根据目标剪枝策略对第一语义理解模型进行剪枝，能够通过剪枝使模型的结构复杂度降低，并减少因剪枝而损失的精度，得到结构精简且性能较好的目标模型。

图3示出了本申请一示例性实施例提供的语义理解模型的剪枝装置的示意图。如图3所示，该装置包括：

第一获取模块310，用于获取第一语义理解模型；

第一采样模块320，用于在第一搜索空间中随机采样第一剪枝策略，其中，第一搜索空间包括至少两个第一剪枝策略；

第一剪枝模块330，用于根据采样得到的第一剪枝策略对第一语义理解模型进行剪枝，得到第二语义理解模型；

第一更新模块340，用于根据第二语义理解模型的性能信息，更新第一语义理解模型的参数，返回在第一搜索空间中随机采样第一剪枝策略的步骤，直至达到预设的停止条件，得到待处理的第一语义理解模型；

第二获取模块350，用于获取目标剪枝策略；

目标剪枝模块360，用于根据目标剪枝策略，对待处理的第一语义理解模型进行剪枝，得到目标模型。

示例性地，如图4所示，第二获取模块350，包括：

第二采样单元351，用于利用编码生成器在第二搜索空间中采样第二剪枝策略，其中，第二搜索空间中包括至少两个第二剪枝策略；

第二剪枝单元352，用于根据采样得到的第二剪枝策略，对第一语义理解模型进行剪枝，得到第三语义理解模型；

第一确定单元353，用于确定第三语义理解模型的性能信息；

第二更新单元354，用于根据性能信息更新编码生成器，返回利用编码生成器在第二搜索空间中采样第二剪枝策略的步骤，直至采样第二剪枝策略的次数达到第一阈值N；其中，N为大于或等于2的整数；

第二确定单元355，用于将第N次采样得到的第二剪枝策略确定为目标剪枝策略。

示例性地，第二搜索空间中的每个第二剪枝策略包括与第一语义理解模型中的各个卷积层分别对应的剪枝率；

第二剪枝单元用于根据采样得到的第二剪枝策略中的每个剪枝率，对剪枝率对应的卷积层进行剪枝。

示例性地，第二剪枝单元包括：

数量确定子单元，用于根据采样得到的第二剪枝策略中的每个剪枝率，确定剪枝率对应的卷积层中待剪切的通道数量M；其中，M为大于或等于0的整数；

剪切子单元，用于剪切卷积层中权重最低的M个通道。

示例性地，第二获取模块还包括：

初始化单元，用于根据第二搜索空间，初始化编码生成器，以使编码生成器能够生成与第二搜索空间中的第二剪枝策略对应的采样编码；

示例性地，第二采样单元包括：

生成子单元，用于利用编码生成器，生成采样编码；

解码子单元，用于对采样编码进行解码，得到采样编码对应的第二剪枝策略。

示例性地，第一搜索空间中的每个第一剪枝策略包括与第一语义理解模型中的每个卷积层分别对应的剪枝率；

如图4所示，第一剪枝模块330包括：

数量确定单元331，用于根据采样得到的第一剪枝策略中的每个剪枝率，确定剪枝率对应的卷积层中待剪切的通道数量K；其中，K为大于或等于0的整数；

剪切单元332，用于剪切卷积层中权重最低的K个通道。

示例性地，预设的停止条件为采样第一剪枝策略的次数达到第二阈值。

示例性地，如图4所示，该装置还包括：

第三获取模块370，用于获取待识别文本；

识别模块380，用于根据目标模型，得到待识别文本的识别结果。

本申请实施例提供的语义理解模型的剪枝装置，可实现本申请任一实施例提供的语义理解模型的剪枝方法，具备相应的有益效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的语义理解模型的剪枝方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的语义理解模型的剪枝方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语义理解模型的剪枝方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语义理解模型的剪枝方法对应的程序指令/模块(例如，附图3所示的第一获取模块310、第一采样模块320、第一剪枝模块330、第一更新模块340、第二获取模块350、目标剪枝模块360)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语义理解模型的剪枝方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语义理解模型的剪枝方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至语义理解模型的剪枝方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语义理解模型的剪枝方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与语义理解模型的剪枝方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，基于在第一搜索空间中随机采样得到的剪枝策略，对第一语义理解模型进行剪枝，并根据剪枝得到的第二语义理解模型的性能更新第一语义理解模型的参数，通过迭代采样和更新，使得第一语义理解模型对剪枝不敏感。因此，根据目标剪枝策略对第一语义理解模型进行剪枝，能够通过剪枝使模型的结构复杂度降低，并减少因剪枝而损失的精度，得到结构精简且性能较好的目标模型。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语义理解模型的剪枝方法，包括：

获取第一语义理解模型；

在第一搜索空间中随机采样第一剪枝策略，其中，所述第一搜索空间包括至少两个第一剪枝策略，每个所述第一剪枝策略包括所述语义理解模型中各个卷积层分别对应的剪枝率，所述剪枝率为卷积层中待剪切的通道数量与现有通道数量的比例；

根据采样得到的第一剪枝策略对所述第一语义理解模型进行剪枝，得到第二语义理解模型；

根据所述第二语义理解模型的性能信息，更新所述第一语义理解模型的参数，返回所述在第一搜索空间中随机采样第一剪枝策略的步骤，直至达到预设的停止条件，得到待处理的第一语义理解模型；

获取目标剪枝策略；

根据所述目标剪枝策略，对所述待处理的第一语义理解模型进行剪枝，得到目标模型；

所述根据采样得到的第一剪枝策略，对所述第一语义理解模型进行剪枝，包括：

根据采样得到的第一剪枝策略中的每个剪枝率，确定所述剪枝率对应的卷积层中待剪切的通道数量K；其中，K为大于或等于0的整数；

剪切所述卷积层中权重最低的K个通道。

2.根据权利要求1所述的方法，其中，所述获取目标剪枝策略，包括：

利用编码生成器在第二搜索空间中采样第二剪枝策略，其中，所述第二搜索空间中包括至少两个第二剪枝策略；

根据采样得到的第二剪枝策略，对所述待处理的第一语义理解模型进行剪枝，得到第三语义理解模型；

确定所述第三语义理解模型的性能信息；

根据所述性能信息更新所述编码生成器，返回所述利用编码生成器在第二搜索空间中采样第二剪枝策略的步骤，直至采样第二剪枝策略的次数达到第一阈值N；其中，N为大于或等于2的整数；

将第N次采样得到的第二剪枝策略确定为目标剪枝策略。

3.根据权利要求2所述的方法，其中，所述第二搜索空间中的每个第二剪枝策略包括与所述第一语义理解模型中的各个卷积层分别对应的剪枝率；

所述根据采样得到的第二剪枝策略，对所述待处理的第一语义理解模型进行剪枝，得到第三语义理解模型，包括：

根据采样得到的第二剪枝策略中的每个剪枝率，对所述剪枝率对应的卷积层进行剪枝。

4.根据权利要求3所述的方法，其中，所述根据采样得到的第二剪枝策略中的每个剪枝率，对所述剪枝率对应的卷积层进行剪枝，包括：

根据采样得到的第二剪枝策略中的每个剪枝率，确定所述剪枝率对应的卷积层中待剪切的通道数量M；其中，M为大于或等于0的整数；

剪切所述卷积层中权重最低的M个通道。

5.根据权利要求2至4中任一项所述的方法，其中，在首次利用编码生成器在第二搜索空间中采样第二剪枝策略之前，还包括：

根据所述第二搜索空间，初始化所述编码生成器，以使所述编码生成器能够生成与所述第二搜索空间中的第二剪枝策略对应的采样编码。

6.根据权利要求5所述的方法，其中，所述利用编码生成器在第二搜索空间中采样第二剪枝策略，包括：

利用编码生成器，生成采样编码；

对所述采样编码进行解码，得到所述采样编码对应的第二剪枝策略。

7.根据权利要求1所述的方法，其中，所述预设的停止条件为采样第一剪枝策略的次数达到第二阈值。

8.根据权利要求1所述的方法，还包括：

获取待识别文本；

根据所述目标模型，得到所述待识别文本的识别结果。

9.一种语义理解模型的剪枝装置，包括：

第一获取模块，用于获取第一语义理解模型；

第一采样模块，用于在第一搜索空间中随机采样第一剪枝策略，其中，所述第一搜索空间包括至少两个第一剪枝策略，每个所述第一剪枝策略包括所述语义理解模型中各个卷积层分别对应的剪枝率，所述剪枝率为卷积层中待剪切的通道数量与现有通道数量的比例；

第一剪枝模块，用于根据采样得到的第一剪枝策略对所述第一语义理解模型进行剪枝，得到第二语义理解模型；

第一更新模块，用于根据所述第二语义理解模型的性能信息，更新所述第一语义理解模型的参数，返回所述在第一搜索空间中随机采样第一剪枝策略的步骤，直至达到预设的停止条件，得到待处理的第一语义理解模型；

第二获取模块，用于获取目标剪枝策略；

目标剪枝模块，用于根据所述目标剪枝策略，对所述待处理的第一语义理解模型进行剪枝，得到目标模型；

所述第一剪枝模块包括：

数量确定单元，用于根据采样得到的第一剪枝策略中的每个剪枝率，确定所述剪枝率对应的卷积层中待剪切的通道数量K；其中，K为大于或等于0的整数；

剪切单元，用于剪切所述卷积层中权重最低的K个通道。

10.根据权利要求9所述的装置，其中，所述第二获取模块，包括：

第二采样单元，用于利用编码生成器在第二搜索空间中采样第二剪枝策略，其中，所述第二搜索空间中包括至少两个第二剪枝策略；

第二剪枝单元，用于根据采样得到的第二剪枝策略，对所述第一语义理解模型进行剪枝，得到第三语义理解模型；

第一确定单元，用于确定所述第三语义理解模型的性能信息；

第二更新单元，用于根据所述性能信息更新所述编码生成器，返回所述利用编码生成器在第二搜索空间中采样第二剪枝策略的步骤，直至采样第二剪枝策略的次数达到第一阈值N；其中，N为大于或等于2的整数；

第二确定单元，用于将第N次采样得到的第二剪枝策略确定为目标剪枝策略。

11.根据权利要求10所述的装置，其中，所述第二搜索空间中的每个第二剪枝策略包括与所述第一语义理解模型中的各个卷积层分别对应的剪枝率；

所述第二剪枝单元用于根据采样得到的第二剪枝策略中的每个剪枝率，对所述剪枝率对应的卷积层进行剪枝。

12.根据权利要求11所述的装置，其中，所述第二剪枝单元包括：

数量确定子单元，用于根据采样得到的第二剪枝策略中的每个剪枝率，确定所述剪枝率对应的卷积层中待剪切的通道数量M；其中，M为大于或等于0的整数；

剪切子单元，用于剪切所述卷积层中权重最低的M个通道。

13.根据权利要求10至12中任一项所述的装置，所述第二获取模块还包括：

初始化单元，用于根据所述第二搜索空间，初始化所述编码生成器，以使所述编码生成器能够生成与所述第二搜索空间中的第二剪枝策略对应的采样编码。

14.根据权利要求13所述的装置，其中，所述第二采样单元包括：

生成子单元，用于利用编码生成器，生成采样编码；

解码子单元，用于对所述采样编码进行解码，得到所述采样编码对应的第二剪枝策略。

15.根据权利要求9所述的装置，其中，所述预设的停止条件为采样第一剪枝策略的次数达到第二阈值。

16.根据权利要求9所述的装置，还包括：

第三获取模块，用于获取待识别文本；

识别模块，用于根据所述目标模型，得到所述待识别文本的识别结果。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。