CN117972083A

CN117972083A - 一种基于Bert和模型压缩的意图分类方法

Info

Publication number: CN117972083A
Application number: CN202311702990.9A
Authority: CN
Inventors: 赵瑞静; 王昆; 鲍思羽; 杨东明; 张京辉
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-05-03

Abstract

本发明公开了一种基于Bert和模型压缩的意图分类方法，具体涉及自然语言处理技术领域，包括采集语料数据，并构建用于Bert模型训练的数据集；初始化Bert模型，并对Bert模型进行微调；对Bert模型进行压缩，以获得训练完成的Bert模型；将训练完成的Bert模型进行测试，检测模型效果本发明引入了[CLS]token和词级别的token相结合共同对句子进行表征，提升了模型的特征提取能力，提升分类的效果；使用减少层数和降低维度的方法与蒸馏损失相结合，降低模型的体积和计算量，从而提升意图分类模型的推理速度，优化使用体验。

Description

一种基于Bert和模型压缩的意图分类方法

技术领域

本发明涉及自然语言处理技术领域，更具体地说，本发明涉及一种基于Bert和模型压缩的意图分类方法。

背景技术

文本分类是自然语言处理中的一个重要研究方向，在情感分析、新闻分类等多个领域得到了广泛的应用，意图分类作为文本分类的一个子研究领域，可以分析得到用户输入问题的目的，在智能问答中起着十分重要的作用。

在实际使用中，由于语言表达的灵活性，分类的准确程度是影响用户体验的关键因素，除此之外，分类的速度也是衡量模型的重要标准，基础的关键词提取和相似度匹配的方式或者直接应用大模型的方式难以满足用户对于效果和速度的双重需求。

因此，为了提升意图分类任务的效果并且减少模型的推理时间，本发明提出了一种基于Bert和模型压缩的意图分类方法。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于Bert和模型压缩的意图分类方法，基于BERT和模型压缩的意图分类方法结合了预训练的BERT模型的语义表示能力和对模型的压缩技术，以在保持高性能的同时降低模型的复杂性和资源需求，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于Bert和模型压缩的意图分类方法，包括：

采集语料数据，并构建用于Bert模型训练的数据集；

初始化Bert模型，并对Bert模型进行微调；

对Bert模型进行压缩，以获得训练完成的Bert模型；

将训练完成的Bert模型进行测试，检测模型效果。

进一步地，构建数据集的内容包括如下：

通过采集工具采集语料数据；所述语料数据包括问题以及问题对应的类别；

将待分类的意图类别数目划分为N，N大于零的正整数；

对每个语料数据中的问题标注对应的意图类别；所述标注通过手动完成或自动化工具完成；

将每个语料数据构建数据集，并将整个数据集划分为训练集和测试集。

进一步地，所述语料数据是指以中文为基础的语言数据；所述意图类别是指客户或者用户发送来的问题类别，所述采集工具利用爬虫或开放数据集通过在线社区、论坛或用户反馈来源搜集的文本数据。

进一步地，初始化Bert模型，并对Bert模型进行微调的方法包括：

用户问题在N个无标签中文语料数据上进行训练，以获得训练参数，通过训练参数初始化Bert模型；N大于1的正整数；

当Bert模型初始完成，将未标记的中文文本输入到Bert模型中，输出序列级别的[CLS]token和词级别的token；

把[CLS]token作为query，词级别的token作为key和value，进行attention操作，获得输入问题的表示向量。

进一步地，所述Bert模型总共包含12层，每层有12个head，隐藏层的维度为768，FeedForward层的维度为3072。

进一步地，对Bert模型进行微调的方法还包括：

对[CLS]token和词级别的token进行注意力操作，以增强特征表示能力，构建CrossTrm模型，[CLS]token作为输入的query，词级别的token作为输入的key和value，CrossTrm模型输出用来表征每条输入语句，在Bert模型后面添加用于意图分类线性层；

引入类别标签的语义信息并标记为标签文本，将标签文本经过Bert模型处理后，同样对生成的[CLS]token和词级别的token进行注意力操作，以获得标签文本的表示向量，并对标签文本的表示向量进行对比损失计算，对比损失的计算公式：

其中，q为输入标签文本的表示向量，k₊为正确标签的特征向量，k_i(i＝1…N)为所有标签的特征向量；T为超参数。

将最终训练损失由对比损失结合分类损失得到，具体计算公式如下：

α为超参数，训练过程中，以较小的学习率对整个模型做训练优化。

进一步地，对Bert模型进行压缩的方法包括：

Bert模型总共包含12层Transformer子模块，将两层视为一个阶段，目的是压缩为一层，目标层用对应的两层中的第二层的参数初始化，另外每一个Transformer模块包含一个FFN子结构，由两层全连接组成，其参数量为12×(768×3072+3072×768)，将中间隐藏层的维度从3072降低到768，使得参数量变为原来的CrossTrm模块和线性层不变。

进一步地，在构建完成目标Bert模型结构后，应用知识蒸馏的方法对目标Bert模型进行训练，最终训练损失由分类损失和蒸馏损失两部分构成，其中，蒸馏损失包括对最后一层的知识和中间隐层的知识共同进行蒸馏，其蒸馏损失函数如下：

和/>表示第i层的老师和学生模型的输出向量，p^t和p^s表示老师和学生模型的预测概率分布，T和α为超参数，对最后得到的Bert模型进行半精度处理，以获得训练完成的Bert模型。

进一步地，Bert模型训练完成后，将每个语料数据构建数据集中的测试集输入训练完成的Bert模型中，提取对应的特征并进行分类，检测模型效果。

进一步地，所述检验模型效果的方法包括混淆矩阵、学习曲线或ROC曲线。

第三方面，本发明提供一种电子设备，包括：处理器和存储器，其中，所述存储器中存储有可供处理器调用的计算机程序；

所述处理器通过调用所述存储器中存储的计算机程序，执行上述的一种基于Bert和模型压缩的意图分类方法。

第四方面，本发明提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行上述的一种基于Bert和模型压缩的意图分类方法。

本发明的技术效果和优点：

1.本发明引入了[CLS]token和词级别的token相结合共同对句子进行表征，提升了模型的特征提取能力，提升分类的效果；

2.本发明引入了标签的语义信息辅助模型的训练，优化特征空间的向量分布，使得同类别的特征向量尽可能紧凑，从而提升意图分类的效果；

3.本发明使用减少层数和降低维度的方法与蒸馏损失相结合，降低模型的体积和计算量，从而提升意图分类模型的推理速度，优化使用体验。

附图说明

图1为实施例1的方法流程图；

图2为实施例1的样例数据示意图；

图3为实施例1的Bert模型示意图；

图4为实施例1的注意力机制示意图；

图5为实施例1的模型压缩示意图；

图6为实施例2的一种电子设备示意图；

图7为实施例3的一种计算机可读存储介质示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。

应当理解的是，虽然在这里可能使用了术语“第一”“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似的第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

BERT是一种深度学习模型，通过对大规模文本数据进行预训练，学习了丰富的语义表示。在意图分类任务中，可以利用BERT的预训练模型，将其微调(fine-tuning)到特定的意图分类任务上，微调的过程涉及将预训练模型的参数调整以适应特定任务的数据；

模型压缩是为了减小模型的体积和计算需求，以适应在资源受限的环境中运行，比如在移动设备上。这可以通过一系列的技术来实现，例如剪枝(pruning)、量化(quantization)、蒸馏(knowledgedistillation)等。在BERT和意图分类任务中，模型压缩可以帮助减小模型的体积，提高模型在移动设备等资源受限环境下的性能。

实施例1

请参阅图1所示，本实施例公开提供了一种基于Bert和模型压缩的意图分类方法，包括：

步骤1：采集语料数据，并构建用于Bert模型训练的数据集；

确定待分类的意图类别数目为N，为每个意图类别收集语料数据，每条语料数据包括问题以及问题对应的类别，并将问题对应的意图类别进行标注，进一步划分为训练集和测试集；样例数据请参阅图2所示。

具体地，构建数据集的内容包括如下：

首先，通过采集工具采集语料数据；所述语料数据包括问题以及问题对应的类别；

将待分类的意图类别数目划分为N，N大于零的正整数；

需要说明的是，所述语料数据是指以中文为基础的语言数据；所述意图类别是指客户或者用户发送来的问题类别，所述采集工具利用爬虫或开放数据集通过在线社区、论坛或用户反馈等来源搜集的文本数据；确保语料数据的多样性，以更好地覆盖Bert模型遇到的不同情境和表达方式；

将每个语料数据构建数据集，并将整个数据集划分为训练集和测试集；以便在模型训练后能够对其性能进行评估；

步骤2：初始化Bert模型，并对Bert模型进行微调；

初始化Bert模型，并对Bert模型进行微调的方法包括如下：

首先，用户问题在N个无标签中文语料数据上进行训练，以获得训练参数，通过训练参数初始化Bert模型；N大于1的正整数；

把[CLS]token作为query，词级别的token作为key和value，进行attention操作，获得输入问题的表示向量；

需要说的是，所述Bert模型总共包含12层，每层有12个head，隐藏层的维度为768，FeedForward层的维度为3072；具体结构请参阅图3所示，输入语料数据，经过Bert处理后得到序列级别的[CLS]token和词级别的token，将[CLS]token进行下一步；

需要说明的是，为了使得同一类别问题获得的表示向量更加紧凑，不同类别的差异尽可能的大，引入了标签的语义信息辅助训练，以同样的方式获取标签的语义表示向量，按照上述步骤中的方式计算出对比损失，与分类损失一起，设置一个较小的学习率，对Bert模型进行参数优化。

请参阅4所示，具体地，对[CLS]token和词级别的token进行注意力操作，以增强特征表示能力，构建CrossTrm模型(CrossTransformer)，[CLS]token作为输入的query，词级别的token作为输入的key和value，CrossTrm模型输出用来表征每条输入语句，在Bert模型后面添加用于意图分类线性层；

引入类别标签的语义信息并标记为标签文本，将标签文本经过Bert模型处理后，同样对生成的[CLS]token和词级别的token进行注意力操作，以获得标签文本的表示向量，并对标签文本的表示向量进行对比损失计算，使得训练样本的特征向量接近正确意图标签的特征向量，远离错误意图标签的特征向量，为此，对比损失的计算公式：

将最终训练损失由上述对比损失结合分类损失得到，具体计算公式如下：

需要说明的是，该过程直接训练得到的Bert模型有较好的精确度，但是Bert模型体积较大，推理速度较慢，因此通过下一步骤对Bert模型进行压缩；

步骤3：对Bert模型进行压缩，以获得训练完成的Bert模型；

需要说明的是，为了减小模型的体积，降低模型的推理时间成本，在本步骤对上述步骤中得到的Bert模型进行压缩，为了区别，将上述步骤中的Bert模型标记为原始Bert模型。

请参阅图5所示，具体地，对Bert模型进行压缩的方法包括：

Bert模型总共包含12层Transformer子模块，将两层视为一个阶段，目的是压缩为一层，目标层用对应的两层中的第二层的参数初始化，另外每一个Transformer模块包含一个FFN子结构，由两层全连接组成，其参数量为12×(768×3072+3072×768)，将中间隐藏层的维度从3072降低到768，该部分的参数量变为原来的降低模型的大小和推理时间，CrossTrm模块和线性层不变。

需要说明的是，目标Bert模型的构建总共分为两步，首先把原始Bert模型中的12层压缩为6层，并用原始Bert模型第{2,4,6,8,10,12}层的参数进行初始化，然后将每个原Bert模型中FFN部分全连接的维度由3072降为768，使得原参数量变为了原来的1/4，减小了模型的体积和计算量，对目标小模型的训练损失如下所述，包括使用hardlabel的分类损失和针对隐藏层和最终输出概率分布的蒸馏损失；

在构建完成目标Bert模型结构后，应用知识蒸馏的方法对目标Bert模型进行训练，最终训练损失由分类损失和蒸馏损失两部分构成，其中，蒸馏损失包括对最后一层的知识和中间隐层的知识共同进行蒸馏，其蒸馏损失函数如下：

和/>表示第i层的老师和学生模型的输出向量，p^t和p^s表示老师和学生模型的预测概率分布，T和α为超参数，对最后得到的Bert模型进行半精度处理，以获得训练完成的Bert模型，进一步加快推理速度。

步骤4：将训练完成的Bert模型进行测试；

需要说明的是，Bert模型训练完成后，将每个语料数据构建数据集中的测试集输入训练完成的Bert模型中，提取对应的特征并进行分类，检测模型效果，所述检验模型效果的方法包括但不限定于混淆矩阵、学习曲线或ROC曲线等。

本实施例引入了[CLS]token和词级别的token相结合共同对句子进行表征，提升了模型的特征提取能力，提升分类的效果；

本实施例引入了标签的语义信息辅助模型的训练，优化特征空间的向量分布，使得同类别的特征向量尽可能紧凑，从而提升意图分类的效果；

本实施例使用减少层数和降低维度的方法与蒸馏损失相结合，降低模型的体积和计算量，从而提升意图分类模型的推理速度，优化使用体验。

实施例2

请参阅图6所示，本实施例提供了一种电子设备，包括：处理器和存储器，其中，所述存储器中存储有可供处理器调用的计算机程序；

所述处理器通过调用所述存储器中存储的计算机程序，执行实施例1的一种基于Bert和模型压缩的意图分类方法。

实施例3

请参阅图7所示，本实施例提供了一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行实施例1的一种基于Bert和模型压缩的意图分类方法。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络，或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线网络方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)，或者半导体介质。半导体介质可以是固态硬盘。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件，或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术作出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(randomaccessmemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Bert和模型压缩的意图分类方法，其特征在于，包括：

采集语料数据，并构建用于Bert模型训练的数据集；

初始化Bert模型，并对Bert模型进行微调；

对Bert模型进行压缩，以获得训练完成的Bert模型；

将训练完成的Bert模型进行测试，检测模型效果。

2.根据权利要求1所述的一种基于Bert和模型压缩的意图分类方法，其特征在于，构建数据集的内容包括如下：

将待分类的意图类别数目划分为N，N大于零的正整数；

对每个语料数据中的问题标注对应的意图类别；

3.根据权利要求2所述的一种基于Bert和模型压缩的意图分类方法，其特征在于，所述语料数据是指以中文为基础的语言数据；所述意图类别是指客户或者用户发送来的问题类别，所述采集工具利用爬虫或开放数据集通过在线社区、论坛或用户反馈来源搜集的文本数据。

4.根据权利要求3所述的一种基于Bert和模型压缩的意图分类方法，其特征在于，初始化Bert模型，并对Bert模型进行微调的方法包括：

5.根据权利要求4所述的一种基于Bert和模型压缩的意图分类方法，其特征在于，所述Bert模型总共包含12层，每层有12个head，隐藏层的维度为768，FeedForward层的维度为3072。

6.根据权利要求5所述的一种基于Bert和模型压缩的意图分类方法，其特征在于，对Bert模型进行微调的方法还包括：

对[CLS]token和词级别的token进行注意力操作，构建CrossTrm模型，[CLS]token作为输入的query，词级别的token作为输入的key和value，CrossTrm模型输出用来表征每条输入语句，在Bert模型后面添加用于意图分类线性层；

其中，q为输入标签文本的表示向量，k₊为正确标签的特征向量，k_i(i＝1…N)为所有标签的特征向量；T为超参数，

其中，α为超参数。

7.根据权利要求6所述的一种基于Bert和模型压缩的意图分类方法，其特征在于，对Bert模型进行压缩的方法包括：

Bert模型总共包含12层Transformer子模块，将两层视为一个阶段，目的是压缩为一层，目标层用对应的两层中的第二层的参数初始化，另外每一个Transformer模块包含一个FFN子结构，由两层全连接组成，其参数量为12×(768×3072+3072×768)，将中间隐藏层的维度从3072降低到768，CrossTrm模块和线性层不变。

8.根据权利要求7所述的一种基于Bert和模型压缩的意图分类方法，其特征在于，在构建完成目标Bert模型结构后，应用知识蒸馏的方法对目标Bert模型进行训练，最终训练损失由分类损失和蒸馏损失两部分构成，其中，蒸馏损失包括对最后一层的知识和中间隐层的知识共同进行蒸馏，其蒸馏损失函数如下：

和/>表示第i层的老师和学生模型的输出向量，p^t和p^s表示老师和学生模型的预测概率分布，T和α为超参数，对得到的Bert模型进行半精度处理，以获得训练完成的Bert模型。

9.根据权利要求8所述的一种基于Bert和模型压缩的意图分类方法，其特征在于，Bert模型训练完成后，将每个语料数据构建数据集中的测试集输入训练完成的Bert模型中，提取对应的特征并进行分类，检测模型效果。

10.根据权利要求9所述的一种基于Bert和模型压缩的意图分类方法，其特征在于，所述检验模型效果的方法包括混淆矩阵、学习曲线或ROC曲线。