CN116595169A

CN116595169A - 一种基于提示学习的煤矿生产领域问答意图分类方法

Info

Publication number: CN116595169A
Application number: CN202310415758.0A
Authority: CN
Inventors: 吕学强; 王耀辉; 游新冬; 孙晓虎; 韩晶; 郝强; 滕尚志; 李伟东; 孙少奇; 徐浩
Original assignee: Beijing Information Science and Technology University; Huaneng Coal Technology Research Co Ltd
Current assignee: Beijing Information Science and Technology University; Huaneng Coal Technology Research Co Ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-08-15

Abstract

本专利摘要涉及一种基于提示学习的煤矿生产领域问答意图分类方法。问答系统是智能化信息处理的重要领域，也是煤矿智能化建设不可或缺的一部分。在实际应用中，意图分类是智能问答的重要子任务，它可以帮助问答系统更好地理解用户查询意图并提供准确答案。本方法通过引入不同的提示模板对BERT预训练模型进行微调，从而提高问答意图分类的准确性。实验结果表明，引入提示模板后，模型的准确率、召回率和F1值均有所提高。此外，该方法还可以在少样本场景下快速适配新领域的任务，具有较好的应用价值。因此，本专利摘要所述的基于提示学习的煤矿生产领域问答意图分类方法可用于问答系统的开发和应用。

Description

一种基于提示学习的煤矿生产领域问答意图分类方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于提示学习的煤矿生产领域问答意图分类方式。

背景技术

BERT是一种基于Transformer结构的预训练语言模型，训练过程包括两个阶段：预训练和微调。在预训练阶段，BERT模型使用大规模的无标签文本进行训练，目的是学习出通用的语言表示。在微调阶段，BERT模型使用少量的有标签数据对模型进行微调，以完成各种NLP任务，例如情感分析、文本分类、机器翻译等。由于预训练模型是基于大量语料进行的训练，煤矿领域因其自身的特殊性很难获取大量业内数据，导致预训练模型无法得到充足的领域内语义信息，为应对训练过程语义信息不足的情况，需要使用提示学习将下游任务重新调整为MLM预训练任务的形式。

综上，BERT模型在煤矿生产领域的意图分类效果不佳，亟需一种在煤矿生产领域的意图分类方法。

发明内容

为解决上述技术问题，本发明提出了一种基于提示学习的煤矿生产领域问答意图分类方法。

本发明的一种基于提示学习的煤矿生产领域问答意图分类方法，包括以下步骤：

1、获取煤矿生产领域问答数据，对煤矿生产领域问答数据进行序列标注，以得到训练样本集；

2、手动构造提示模板，设置6种不同的prompt模板；

3、将输入数据与prompt模板拼接，传入BERT预训练语言模型；

4、BERT预训练语言模型，对输入序列进行处理，在意图分类标签预测位置使用[MASK]替换，在句子头部添加[CLS]，句子尾部添加[SEP]；

5、BERT预训练语言模型，通过vocab字向量表将输入序列的字符转成为一维向量，然后融合块向量和位置向量作为模型的总输入向量，对模型进行训练；

6、利用BERT模型自身的掩码预测能力预测[MASK]位置的字符，并直接用来分类，将分类任务转化为完形填空任务；

7、根据训练数据训练网络模型并更新参数，然后在测试集上进行意图分类。

本发明的一种基于提示学习的煤矿生产领域问答意图分类方法，所述步骤1中，对煤矿生产领域问答数据进行序列标注采用BIO标注。

本发明的一种基于提示学习的煤矿生产领域问答意图分类方法，所述步骤2中，6种不同的promopt模板如图2所示。

本发明的一种基于提示学习的煤矿生产领域问答意图分类方法，所述步骤6中，模型训练所使用的损失函数为：

公式中的是掩码模型输出的[MASK]位置的词向量，经过全连接层处理将相应的Token转化为输出各个标签最大概率的分类答案，使用掩码预测出的词向量代替整体句向量语义信息，利用torch.argmax()函数，将[MASK]部分的词向量拆分出来并放入softmax层，获取最大值的index并输出最大概率的标签。

与现有技术相比本发明的有益效果为：该方法通过自定义的prompt模板针对煤矿生产领域的意图分类任务进行训练，通过预训练模型与特定prompt结合进行微调。该方法在煤矿生产领域问答数据集上的问答意图分类任务中取得了十分好的性能表现。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明一种基于提示学习的煤矿生产领域问答意图分类方法的流程图；

图2是本发明一种基于提示学习的煤矿生产领域问答意图分类方法的prompt模板汇总；

图3是本发明一种基于提示学习的煤矿生产领域问答意图分类方法的模型结构图；

图4是本发明一种基于提示学习的煤矿生产领域问答意图分类方法的多模型性能对比示意图；

图5是本发明一种基于提示学习的煤矿生产领域问答意图分类方法的煤矿生产领域问答意图分类数据集示意图；

图6是本发明一种基于提示学习的煤矿生产领域问答意图分类方法的小样本实验性能图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1和图3分别为本发明一种基于提示学习的煤矿生产领域问答意图分类方法的流程图和本发明一种基于提示学习的煤矿生产领域问答意图分类方法的框架图，包括步骤S101~S107：

S101、获取煤矿生产领域问答数据，采用BIO标注方法对煤矿生产领域问答数据进行序列标注，以得到训练样本集。

S102、构造prompt模板。基于提示学习的煤矿生产领域问答意图分类首先需要构造prompt模板。手动构造模板需要针对不同任务，人工设计符合任务特征的自然语言模板，并通过模板提示预训练语言模型在[MASK]位置填充待预测内容，再进行模板对比实验以确定最合适的prompt模板。手动构造提示模板形如：“这是一个[MASK]问题”。为充分验证提示学习的训练效果，寻找最佳提示模板，本实施例基于煤矿生产领域问答习惯及具体使用场景，设置了6种不同的prompt模板，来满足常用问答操作需求。使用的prompt模板如图2所示。

模板构造采用长短结合，随机[MASK]位置，多提示模板等策略，基本上涵盖了各种掩码情况，避免了模板重复。

S103、将输入数据与prompt模板拼接，提示模板与问句之间使用[SEP]分隔，处理后完整的输入语句形如“煤矿安全生产的方针和原则是什么[SEP]这是一个[MASK]问题”，相当于在问答意图分类文本后添加提示语，进一步明确分类任务。使模型可利用更多的信息，充分发挥预训练模型的潜能。数据拼接之后传入BERT预训练语言模型。

S104、模型在接收和读取输入序列之后，将首先对输入序列进行处理，在意图分类标签预测位置使用[MASK]替换，在句子头部添加[CLS]，句子尾部添加[SEP]。处理完之后的输入序列形如：“[CLS]Question[SEP]这是[MASK]问句[SEP]”，方便之后的词嵌入操作。

S105、BERT预训练语言模型，通过vocab字向量表将输入序列的字符转成为一维向量，然后融合块向量和位置向量作为模型的总输入向量，对模型进行训练，将微调与提示学习结合，根据prompt模板中[MASK]的数量，利用掩码模型的预测能力，使用交叉熵损失函数计算loss，公式为：

公式中的是掩码模型输出的[MASK]位置的词向量。

S106、利用BERT模型自身的掩码预测能力预测[MASK]位置的字符，并直接用来分类，将分类任务转化为完形填空任务具体过程如下：

经过全连接层处理将相应的Token转化为输出各个标签最大概率的分类答案，使用掩码预测出的词向量代替整体句向量语义信息，利用torch.argmax()函数，将[MASK]部分的词向量拆分出来并放入softmax层，获取最大index并输出最大概率的标签。

S107、根据训练数据训练网络模型并更新参数，然后在测试集上进行意图分类。

实施例1：

针对安全管理，以煤矿安全网考试试题作为问答题库，格式上统一将填空题、判断题、选择题通过自然语言转换为问答题。针对设备管理，通过领域专家、机电设备维护人员、机电设备管理人员、机电设备检修人员等具有实际工作经验的人员进行收集，在充分匹配实际工作开展的前提下构建问答数据集。此外，针对问答系统在实际使用过程中可能出现闲聊问句的情况，截取了部分公开闲聊语料库小黄鸡语料，数据规模及例句见图5。实验过程按6:2:2的比例划分训练集、验证集和测试集。经试验得到体现本发明技术效果如下：

图4为不同提示模型，问答意图分类的效果图，其中：BERT代表使用BERT模型进行意图分类的结果。BERT_Prompt1~BERT_Prompt6代表使用不同的提示模板进行意图分类的结果。

从图4可以看出，所有添加Prompt模板的微调实验结果均优于BERT模型结果，说明提示学习方法对煤矿生产领域问答意图分类具有很好的提升作用。进一步分析实验数据，Prompt4“这是关于[MASK]的问题”具有最好的效果，其中准确率提升了0.66，召回率提升了0.66，F1（Weighted）值提升了0.58。实验证明，本专利设置的prompt模版对煤矿领域意图分类任务性能有着很大的提升。

因领域数据获取难度大且自建数据集存在数据不足、数据分布不均、标注难度高、泛化能力差等问题，增加了少样本情况下的Few-shot实验。实验从训练集中对每个类别随机选取5、10、20个样本进行训练，并保持验证集和测试集与Prompt实验相同，实验结果如图6所示。

从Few-shot实验结果中可以发现，Prompt模板在大部分时候取得了良好的提升，实验证明Prompt-Learning可以在少样本下快速学习新任务。在5-shot设置下准确率最大提升8.46，F1（Weighted）值最大提升8.12，但随着样本数的增加，Prompt模板的提升出现明显的下降，在20-shot设置下的准确最大提升1.27，F1（Weighted）值最大提升1.27。实验结果同时给出了每组实验的平均训练时长，Prompt实验的平均时长为1小时08分42秒，而Few-shot实验的平均时长最大为07分31秒，其中20-shot在测试集上的F1值最高为82.23，证明了Prompt-Learning在计算资源受限情况下的优势。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.本发明的一种基于提示学习的煤矿生产领域问答意图分类方法，其特征在于，包括以下步骤：

获取煤矿生产领域问答数据，对煤矿生产领域问答数据进行序列标注，以得到训练样本集；

手动构造提示模板，设置6种不同的prompt模板；

将输入数据与prompt模板拼接，传入BERT预训练语言模型；

BERT预训练语言模型，对输入序列进行处理，在意图分类标签预测位置使用[MASK]替换，在句子头部添加[CLS]，句子尾部添加[SEP]；

BERT预训练语言模型，通过vocab字向量表将输入序列的字符转成为一维向量，然后融合块向量和位置向量作为模型的总输入向量，对模型进行训练；

利用BERT模型自身的掩码预测能力预测[MASK]位置的字符，并直接用来分类，将分类任务转化为完形填空任务；

根据训练数据训练网络模型并更新参数，然后在测试集上进行意图分类。

2.如权利要求1所述的一种基于提示学习的煤矿生产领域问答意图分类方法，其特征在于：将获取到的考试题库中的填空题、判断题、选择题通过自然语言转换在格式上统一将为问答题。

3.如权利要求2所述的一种基于提示学习的煤矿生产领域问答意图分类方法，其特征在于：对煤矿生产领域问答数据进行序列标注，采用BIO标注。

4.如权利要求3所述的一种基于提示学习的煤矿生产领域问答意图分类方法，其特征在于：为了契合煤矿生产领域具体应用场景，手动构造提示模板以快速定位需求，并且在语义上和任务有较好的关联，模板构造采用长短结合，随机[MASK]位置，多提示模板等策略，基本上涵盖了煤矿生产领域各种掩码情况，避免了模板重复。模板如下：“这是[MASK]问句”，“这是[MASK][MASK]问句”，“这是[MASK][MASK][MASK][MASK]问句”，“这是关于[MASK]的问题”，“这个问题是[MASK]”。

5.如权利要求4所述的一种基于提示学习的煤矿生产领域问答意图分类方法，其特征在于：将提示模板与问句之间使用[SEP]分隔，完整的输入语句形如：“煤矿安全生产的方针和原则是什么[SEP]这是一个[MASK]问题”，“这是[MASK]问句[SEP]煤矿安全生产的方针和原则是什么”。

6.如权利要求5所述的一种基于提示学习的煤矿生产领域问答意图分类方法，其特征在于：针对输入的数据，通过BERT预训练模型进行训练，模型在接收和读取输入序列之后，将首先对输入序列进行处理，在意图分类标签预测位置使用[MASK]替换，在句子头部添加[CLS]，句子尾部添加[SEP]。

7.如权利要求6所述的一种基于提示学习的煤矿生产领域问答意图分类方法，其特征在于，采用所述训练样本集对所述初始神经网络模型进行训练，包括：使用提示学习的方法，采用交叉熵函数作为损失函数，对所述BERT网络的参数进行调整迭代。