CN115700515A - 文本多标签分类方法及装置 - Google Patents
文本多标签分类方法及装置 Download PDFInfo
- Publication number
- CN115700515A CN115700515A CN202211325454.7A CN202211325454A CN115700515A CN 115700515 A CN115700515 A CN 115700515A CN 202211325454 A CN202211325454 A CN 202211325454A CN 115700515 A CN115700515 A CN 115700515A
- Authority
- CN
- China
- Prior art keywords
- target
- label
- training
- prompt template
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书涉及自然语言处理和人工智能技术领域,具体地公开了一种文本多标签分类方法及装置,其中,该方法包括:接收文本多分类请求;多分类请求中携带有目标文本数据;将目标文本数据输入预训练模型中,得到目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;自适应提示模板是基于对比学习通过迭代训练构建的;将提示模板矩阵与目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将目标语句向量表征输入至编码模型中,得到目标文本数据对应的目标语句表示;利用线性分类器对目标语句表示进行映射分类,得到目标文本数据对应的标签集合。上述方法可以提高多标签分类的准确性和效率。
Description
技术领域
本说明书涉及自然语言处理和人工智能技术领域,特别涉及一种文本多标签分类方法及装置。
背景技术
文本多标签分类任务指的是对于一个句子,同时存在多个正确的标签,多标签分类任务在现实应用中大量存在。例如,维基百科有超过100万个类别标签,一篇文章有不止一个相关标签:“土豆”的网页上会有“茄属植物”、“根状蔬菜”、“来自南美的作物”等类标签。
然而,多标签分类任务中标签空间大,存在严重的数据稀疏性问题,数据集通常表现出长尾分布的特点,这意味着相当大的一部分数据标签很少有相关的训练数据。在无额外付出人工标注、数据积累的成本的情况下,存在数据质量差、标注数据少、标签分布不平衡的问题,这种数据稀疏性限制了多标签分类的准确性。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书实施例提供了一种文本多标签分类方法及装置,以解决现有技术中多标签分类的准确性较低的问题。
本说明书实施例提供了一种文本多标签分类方法,包括:
接收文本多分类请求;所述多分类请求中携带有目标文本数据;
将所述目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;所述自适应提示模板是基于对比学习通过迭代训练构建的;
将所述提示模板矩阵与所述目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将所述目标语句向量表征输入至编码模型中,得到所述目标文本数据对应的目标语句表示;
利用线性分类器对所述目标语句表示进行映射分类,得到所述目标文本数据对应的标签集合。
在一个实施例中,在接收多分类请求之前,还包括:
随机初始化提示模板以生成初始化提示模板矩阵;
获取标注数据集;所述标注数据集包括多个语句以及所述多个语句中各语句对应的至少一个标签;
基于所述标注数据集构建第一标注集合和第二标注集合;所述第一标注集合中的语句对应的标签包括第一标签;所述第二标注集合中的语句对应的标签不包括所述第一标签;
基于所述第一标注集合、所述第二标注集合和所述初始化提示模板矩阵进行对比学习,微调所述初始化提示模板的参数,得到自适应提示模板。
在一个实施例中,获取标注数据集,包括:
获取原始标注数据集;所述原始标注数据集中包括多个语句以及所述多个语句中各语句对应的至少一个标签;
对所述原始标注数据集进行数据增强,得到增强后的标注数据集。
在一个实施例中,基于所述第一标注集合、所述第二标注集合和所述初始化提示模板矩阵进行对比学习,微调所述初始化提示模板的参数,得到自适应提示模板,包括:
将所述第一标注集合中的语句输入所述预训练模型中,得到第一预训练词向量矩阵集合;将所述第二标注集合中的语句输入所述预训练模型中,得到第二预训练词向量矩阵集合;
将所述初始化提示模板与所述第一预训练词向量矩阵集合中的第一预训练词向量矩阵进行拼接,得到第一语句向量表征集合;将所述初始化提示模板与所述第二预训练词向量矩阵集合中的第二预训练词向量矩阵进行拼接,得到第二语句词向量表征集合;
将所述第一语句向量表征集合中的第一语句向量表征输入至所述编码模型中,得到第一输出集合;将所述第二语句向量表征集合中的第二语句向量表征输入至所述编码模型中,得到第二输出集合;
基于所述第一输出集合和所述第二输出集合构造对比学习损失函数;基于所述对比学习损失函数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板。
在一个实施例中,基于所述对比学习损失函数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板,包括:
构建所述线性分类器对应的分类器损失函数;
基于所述对比学习损失函数和所述分类器损失函数,构造整体损失函数;
基于所述整体损失函数,采用梯度下降算法对所述分类器和所述初始化提示模板进行联合训练,得到训练好的线性分类器和自适应提示模板。
在一个实施例中,所述对比学习损失函数为:
其中,Lcl为所述对比学习损失函数,K代表对于所述第二标注集合中的语句的个数,s(x,y)代表x,y余弦相似度,c为所述第一输出集合中与所述第一标注集合中的一语句对应的第一输出,c+为所述第一输出集合中与所述第一标注集合中的另一语句对应的第一输出,为所述第二输出集合中与所述第二标注集合中的第i个语句对应的第二输出,常数τ是调节系数。
在一个实施例中,所述整体损失函数为:
L=aLBCE+bLcl
其中,L为所述损失函数,LBCE为分类器损失函数,Lcl为对比学习损失函数,a和b为常数。
本说明书实施例还提供了一种文本多标签分类装置,包括:
接收模块,用于接收文本多分类请求;所述多分类请求中携带有目标文本数据;
生成模块,用于将所述目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;所述自适应提示模板是基于对比学习通过迭代训练构建的;
拼接模块,用于将所述提示模板矩阵与所述目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将所述目标语句向量表征输入至编码模型中,得到所述目标文本数据对应的目标语句表示;
分类模块,用于利用线性分类器对所述目标语句表示进行映射分类,得到所述目标文本数据对应的标签集合。
本说明书实施例还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述任意实施例中所述的文本多标签分类方法的步骤。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意实施例中所述的文本多标签分类方法的步骤。
在本说明书实施例中,提供了一种文本多标签分类方法,可以接收文本多分类请求,所述多分类请求中携带有目标文本数据,可以将所述目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵,基于预先基于对比学习通过迭代训练而构建的自适应提示模板,生成提示模板矩阵,可以将所述提示模板矩阵与所述目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征,将所述目标语句向量表征输入至编码模型中,得到所述目标文本数据对应的目标语句表示,最后利用线性分类器对所述目标语句表示进行映射分类,得到所述目标文本数据对应的标签集合。上述方案中,通过利用预训练模型,可以在存在数据稀疏性问题的任务上取得了优异的学习结果,很多零样本、少样本场景下的学习任务都有了明显的效果提升,提示学习在预训练模型的基础上增加提示信息,在不显著改变模型结构和参数的情况下,可以将下游任务改变为完形填空式的文本生成任务,提升了预训练模型的效果,可以将提示学习应用在银行等行业的专用语料中,用提示学习的方式解决银行等提问系统中的多标签分类问题。进一步地,通过采用对比学习的方式,可以提高自适应模板和任务的匹配性,针对具体的多标签分类问题,生成跟任务适配的提示学习模板,解决了提示学习模板影响结果准确性的问题,能够有效提高最终的多标签分类效果。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,并不构成对本说明书的限定。在附图中:
图1示出了本说明书一实施例中的文本多标签分类方法的流程图;
图2示出了本说明书一实施例中的文本多标签分类方法的流程图;
图3示出了本说明书一实施例中的文本多标签分类装置的示意图;
图4示出了本说明书一实施例中的计算机设备的示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本说明书的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书,而并非以任何方式限制本说明书的范围。相反,提供这些实施方式是为了使本说明书公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本说明书的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本说明书公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
本说明书实施例提供了一种文本多标签分类方法。本实施例中的方法可以应用于服务器。在本应用场景中,服务器可以接收客户端发送的文本多分类请求。文本多分类请求中可以携带有目标文本数据。目标文本数据可以是待分类的语句。在一个实施例中,本实施例中的方法可以应用于智能问答系统。在接收到用户输入的目标文本数据之后,可以对目标文本数据进行分类。
响应于文本多分类请求,服务器可以将目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵。这里的预训练模型可以包括以下之一:Bert模型、GPT模型、T5模型等预训练模型。服务器还可以基于预先构建的自适应提示模板,生成提示模板矩阵。这里的自适应提示模板可以是基于对比学习通过迭代训练构建得到的。
服务器可以将目标预训练词向量矩阵与提示模板矩阵进行拼接,得到所述目标文本数据对应的目标语句向量表征。之后,服务器可以将目标语句向量表征输入至编码模型中进行编码,得到目标文本数据对应的目标语句表示。这里的编码模型可以包括Transformer模型、LSTM模型等各种模型。服务器可以利用线性分类器对目标语句表示进行映射分类,得到目标文本数据对应的标签集合。标签集合中可以包括目标文本数据所属的多个标签。服务器可以将标签集合返回给客户端。
上述场景示例中,通过利用预训练模型,可以在存在数据稀疏性问题的任务上取得了优异的学习结果,很多零样本、少样本场景下的学习任务都有了明显的效果提升,提示学习在预训练模型的基础上增加提示信息,在不显著改变模型结构和参数的情况下,可以将下游任务改变为完形填空式的文本生成任务,提升了预训练模型的效果,可以将提示学习应用在银行等行业的专用语料中,用提示学习的方式解决银行等提问系统中的多标签分类问题。进一步地,通过采用对比学习的方式,可以提高自适应模板和任务的匹配性,针对具体的多标签分类问题,生成跟任务适配的提示学习模板,解决了提示学习模板影响结果准确性的问题,能够有效提高最终的多标签分类效果。
图1示出了本说明书一实施例中文本多标签分类方法的流程图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。
具体地,如图1所示,本说明书一种实施例提供的文本多标签分类方法可以包括以下步骤:
步骤S101,接收文本多分类请求;所述多分类请求中携带有目标文本数据。
本实施例中的方法可以应用于服务器。服务器可以接收客户端发送的文本多分类请求。文本多分类请求中可以包括目标文本数据。目标文本数据可以包括待分类的语句数据。在一个实施例中,本实施例中的方法可以应用于智能问答系统。在接收到用户输入的目标文本数据之后,可以对目标文本数据进行分类。
步骤S102,将所述目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;所述自适应提示模板是基于对比学习通过迭代训练构建的。
响应于文本多分类请求,服务器可以将目标文本数据输入预训练模型中进行特征提取,得到目标文本数据对应的目标预训练词向量矩阵。在一个实施例中,预训练模型可以是自然语言处理预训练模型,可以包括以下之一:Bert模型、GPT模型、T5模型等预训练模型。
服务器可以基于预先构建的自适应提示模板,生成提示模板矩阵。这里的自适应提示模板可以是基于对比学习通过迭代训练构建得到的。
步骤S103,将所述提示模板矩阵与所述目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将所述目标语句向量表征输入至编码模型中,得到所述目标文本数据对应的目标语句表示。
服务器可以将提示模板矩阵与目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征。之后,服务器可以将目标语句向量表征输入至编码模型中,得到目标文本数据对应的目标语句表示。编码模型可以对目标语句向量表征进行编码。编码模型可以包括Transformer模型、LSTM模型等各种模型。
步骤S104,利用线性分类器对所述目标语句表示进行映射分类,得到所述目标文本数据对应的标签集合。
在得到目标语句表示之后,可以利用线性分类器对目标语句表示进行映射分类。线性分类器可以是多层感知机。线性分类器输入维度与目标语句表示的维度相同,输出维度为类别个数,并使用sigmoid函数进行激活,能够得到最终属于各个标签的可能性,通过设置阈值,可以生成目标文本数据对应的标签集合。在得到标签集合之后,可以将目标文本数据对应的标签集合返回给客户端。
上述实施例中,通过利用预训练模型,可以在存在数据稀疏性问题的任务上取得了优异的学习结果,很多零样本、少样本场景下的学习任务都有了明显的效果提升,提示学习在预训练模型的基础上增加提示信息,在不显著改变模型结构和参数的情况下,可以将下游任务改变为完形填空式的文本生成任务,提升了预训练模型的效果,可以将提示学习应用在银行等行业的专用语料中,用提示学习的方式解决银行等提问系统中的多标签分类问题。进一步地,通过采用对比学习的方式,可以提高自适应模板和任务的匹配性,针对具体的多标签分类问题,生成跟任务适配的提示学习模板,解决了提示学习模板影响结果准确性的问题,能够有效提高最终的多标签分类效果。
在本说明书一些实施例中,在接收多分类请求之前,还可以包括:随机初始化提示模板以生成初始化提示模板矩阵;获取标注数据集;所述标注数据集包括多个语句以及所述多个语句中各语句对应的至少一个标签;基于所述标注数据集构建第一标注集合和第二标注集合;所述第一标注集合中的语句对应的标签包括第一标签;所述第二标注集合中的语句对应的标签不包括所述第一标签;基于所述第一标注集合、所述第二标注集合和所述初始化提示模板矩阵进行对比学习,微调所述初始化提示模板的参数,得到自适应提示模板。
具体地,服务器可以随机初始化提示模板以生成初始化提示模板矩阵。服务器可以获取标注数据集。标注数据集中可以包括多个文本数据(或者说,语句)以及多个语句中各语句对应的至少一个标签。可以基于标注数据集构建第一标注集合和第二标注集合。第一标注集合中的语句对应的标签均可以包括第一标签。这里的第一标签可以是多个标签中的任一个标签。第二标注集合中的语句对应的标签均不包含第一标签。之后,可以基于第一标注集合、第二标注集合和初始化提示模板矩阵进行对比学习,微调初始化提示模板的参数,得到自适应提示模板。对比学习是一种自监督学习方法,可以在没有标签的情况下让模型学习数据的相似和不同来学习数据集的一般特征。通过上述方式,可以提高自适应模板和分类任务的匹配性,能够生成跟任务适配的提示学习模板,进而提高分类的准确性。
在本说明书一些实施例中,获取标注数据集,可以包括:获取原始标注数据集;所述原始标注数据集中包括多个语句以及所述多个语句中各语句对应的至少一个标签;对所述原始标注数据集进行数据增强,得到增强后的标注数据集。具体地,服务器可以选取原始标注数据集中对应的语句数量小于第一预设数量的标签,对于选取的标签对应的语句进行数据增强,以产生新的语句,以对标准数据集进行扩充,以使得扩充后的标注数据集中每种标签对应的语句的数量不少于第二预设数量。通过数据增强,可以有效解决数据稀疏性的问题,进一步提高多标签分类的准确性。
在本说明书一些实施例中,基于所述第一标注集合、所述第二标注集合和所述初始化提示模板矩阵进行对比学习,微调所述初始化提示模板的参数,得到自适应提示模板,可以包括:将所述第一标注集合中的语句输入所述预训练模型中,得到第一预训练词向量矩阵集合;将所述第二标注集合中的语句输入所述预训练模型中,得到第二预训练词向量矩阵集合;将所述初始化提示模板与所述第一预训练词向量矩阵集合中的第一预训练词向量矩阵进行拼接,得到第一语句向量表征集合;将所述初始化提示模板与所述第二预训练词向量矩阵集合中的第二预训练词向量矩阵进行拼接,得到第二语句词向量表征集合;将所述第一语句向量表征集合中的第一语句向量表征输入至所述编码模型中,得到第一输出集合;将所述第二语句向量表征集合中的第二语句向量表征输入至所述编码模型中,得到第二输出集合;基于所述第一输出集合和所述第二输出集合构造对比学习损失函数;基于所述对比学习损失函数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板。
具体地,服务器可以将第一标注集合和第二标注集合中的语句分别输入至预训练模型中,得到对应的第一预训练词向量矩阵集合和第二预训练次向量矩阵集合。之后,可以将初始化提示模板分别与第一预训练词向量矩阵集合和第二预训练次向量矩阵集合中的第一预训练词向量矩阵和第二预训练词向量矩阵进行拼接,得到第一语句向量表征集合和第二语句词向量表征集合。之后,将第一语句向量表征集合和第二语句词向量表征集合中的语句词向量表征集合输入至编码模型中,得到对应的第一输出集合和第二输出集合。第一输出集合和第二输出集合对应的是两种不同标签对应的语句向量表征。通过对两种不同标签对应的语句向量表征进行对比学习,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板。通过上述方式,可以构造对比学习损失函数进行对比学习,生成自适应提示模板。
在本说明书一些实施例中,基于所述对比学习损失函数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板,可以包括:构建所述线性分类器对应的分类器损失函数;基于所述对比学习损失函数和所述分类器损失函数,构造整体损失函数;基于所述整体损失函数,采用梯度下降算法对所述分类器和所述初始化提示模板进行联合训练,得到训练好的线性分类器和自适应提示模板。上述实施例中,基于提示学习的多标签分类任务、基于对比学习的提示学习模板自适应学习任务,两个任务进行联合训练进行多任务学习,能够有效提高最终的多标签分类效果。
在本说明书一些实施例中,所述对比学习损失函数为:
其中,Lcl为所述对比学习损失函数,K代表对于所述第二标注集合中的语句的个数,s(x,y)代表x,y余弦相似度,c为所述第一输出集合中与所述第一标注集合中的一语句对应的第一输出,c+为所述第一输出集合中与所述第一标注集合中的另一语句对应的第一输出,为所述第二输出集合中与所述第二标注集合中的第i个语句对应的第二输出,常数τ是调节系数。
在本说明书一些实施例中,所述整体损失函数为:
L=aLBCE+bLcl
其中,L为所述损失函数,LBCE为分类器损失函数,Lcl为对比学习损失函数,a和b为常数。在一个实施例中,分类器损失函数可以是二元交叉熵损失。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述,在此不做一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本说明书,并不构成对本说明书的不当限定。
本具体实施例中提出了一种文本多标签分类方法。本具体实施例中,可以通过提示学习在预训练模型的基础上增加提示信息,在不显著改变模型结构和参数的情况下,将下游任务改变为完形填空式的文本生成任务,提升了预训练模型的效果。本实施例将提示模型应用在多标签分类任务上,预测问题的标签,同时为了更好的提高提示模板效果,进一步采用对比学习的方式增强模板自适应选择,构造提示学习多标签分类和对比学习增强提示学习模板自适应学习两部分损失,联合训练后提高最终的多标签分类效果。
对于输入的问题Input,在开头和结尾分别添加[CLS]和[SEP]两个专属开始、结束标记([CLS]是句子开始的标志,[SEP]是句子结束的标志)。可以将整个句子输入进预训练模型Bert中,获得预训练词向量矩阵W,随机初始化Prompt模板矩阵P,将P与W进行拼接,输入至Transformer中,取[CLS]位置的隐藏层输出作为句子向量表征,记为c,整个过程记为c=Prompt Bert(Input)。
获得句子表示c后,将c通过线性分类器多层感知机(MLP)进行映射分类,分类器输入维度与c相同,输出维度为类别个数,并使用sigmoid函数进行激活,能够得到最终属于各个标签的可能性,通过设置阈值t,确定最终预测的标签集合。损失函数具体如下:
LBCE=BCE(Y,σ(cM))
其中,Y是正确的标签向量,M是分类器参数矩阵,BCE是二元交叉熵损失,σ为sigmoid函数。
图2示出了基于对比学习生成自适应提示模板的流程示意图。根据标签,将句子重新组织,构建同属于一个标签的句子集合,对于句子输入Input,随机选取同一标签下的另一个句子,将该句子拼接提示模板后输入进Prompt Bert,获得正pair句子向量输出c+。在数据集中随机选取标签不同的句子作为负例,为了区分原句子输入Input与负例句子输入,Input记为Positive Input,负例句子记为Negative Input,Negative Input经过PromptBert后,将负例句子编码为c-,如图2所示。
总体来说,输入Input,Positive Input和Negative Input,经过Prompt Bert编码,得到c,c+,c-。定义对比学习损失函数如下:
其中,K代表对于一个正例随机采样的负例的个数,s(x,y)代表x,y余弦相似度,常数τ是调节系数。
模型整体损失为:
L=aLBCE+bLcl
其中,a和b为权重系数。
模型使用开源预训练模型Bert初始化,使用mini-batch梯度下降方法最优化对比学习损失函数,经过多轮迭代训练,微调Prompt模板向量,能够获得任务相关的自适应Prompt模板。通过联合训练,可以得到训练好的Transformer模型、线性分类器以及自适应提示模板。
本实施例中,首次将提示学习模型应用在银行业专用语料中,用提示学习的方式解决提问系统中的多标签分类问题;通过使用对比学习,提高自适应模板和任务的匹配性,针对具体的多标签分类问题,生成更任务适配的提示学习模板,解决了提示学习模板影响结果准确性的问题;基于提示学习的多标签分类任务、基于对比学习的提示学习模板自适应学习任务,两个任务进行联合训练进行多任务学习,能够有效提高最终的多标签分类效果。
基于同一发明构思,本说明书实施例中还提供了一种文本多标签分类装置,如下面的实施例所述。由于文本多标签分类装置解决问题的原理与文本多标签分类方法相似,因此文本多标签分类装置的实施可以参见文本多标签分类方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图3是本说明书实施例的文本多标签分类装置的一种结构框图,如图3所示,包括:接收模块301、生成模块302、拼接模块303和分类模块304,下面对该结构进行说明。
接收模块301用于接收文本多分类请求;所述多分类请求中携带有目标文本数据。
生成模块302用于将所述目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;所述自适应提示模板是基于对比学习通过迭代训练构建的。
拼接模块303用于将所述提示模板矩阵与所述目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将所述目标语句向量表征输入至编码模型中,得到所述目标文本数据对应的目标语句表示。
分类模块304用于利用线性分类器对所述目标语句表示进行映射分类,得到所述目标文本数据对应的标签集合。
在本说明书一些实施例中,该装置还可以包括构建模块,构建模块可以包括:
生成单元,用于随机初始化提示模板以生成初始化提示模板矩阵;
获取单元,用于获取标注数据集;所述标注数据集包括多个语句以及所述多个语句中各语句对应的至少一个标签;
构建单元,用于基于所述标注数据集构建第一标注集合和第二标注集合;所述第一标注集合中的语句对应的标签包括第一标签;所述第二标注集合中的语句对应的标签不包括所述第一标签;
对比学习单元,基于所述第一标注集合、所述第二标注集合和所述初始化提示模板矩阵进行对比学习,微调所述初始化提示模板的参数,得到自适应提示模板。
在本说明书一些实施例中,获取单元可以具体用于:
获取原始标注数据集;所述原始标注数据集中包括多个语句以及所述多个语句中各语句对应的至少一个标签;
对所述原始标注数据集进行数据增强,得到增强后的标注数据集。
在本说明书一些实施例中,对比学习单元可以具体用于:
将所述第一标注集合中的语句输入所述预训练模型中,得到第一预训练词向量矩阵集合;将所述第二标注集合中的语句输入所述预训练模型中,得到第二预训练词向量矩阵集合;
将所述初始化提示模板与所述第一预训练词向量矩阵集合中的第一预训练词向量矩阵进行拼接,得到第一语句向量表征集合;将所述初始化提示模板与所述第二预训练词向量矩阵集合中的第二预训练词向量矩阵进行拼接,得到第二语句词向量表征集合;
将所述第一语句向量表征集合中的第一语句向量表征输入至所述编码模型中,得到第一输出集合;将所述第二语句向量表征集合中的第二语句向量表征输入至所述编码模型中,得到第二输出集合;
基于所述第一输出集合和所述第二输出集合构造对比学习损失函数;基于所述对比学习损失函数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板。
在本说明书一些实施例中,基于所述对比学习损失函数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板,可以包括:
构建所述线性分类器对应的分类器损失函数;
基于所述对比学习损失函数和所述分类器损失函数,构造整体损失函数;
基于所述整体损失函数,采用梯度下降算法对所述分类器和所述初始化提示模板进行联合训练,得到训练好的线性分类器和自适应提示模板。
在本说明书一些实施例中,所述对比学习损失函数可以为:
其中,Lcl为所述对比学习损失函数,K代表对于所述第二标注集合中的语句的个数,s(x,y)代表x,y余弦相似度,c为所述第一输出集合中与所述第一标注集合中的一语句对应的第一输出,c+为所述第一输出集合中与所述第一标注集合中的另一语句对应的第一输出,为所述第二输出集合中与所述第二标注集合中的第i个语句对应的第二输出,常数τ是调节系数。
在本说明书一些实施例中,所述整体损失函数可以为:
L=aLBCE+bLcl
其中,L为所述损失函数,LBCE为分类器损失函数,Lcl为对比学习损失函数,a和b为常数。
从以上的描述中,可以看出,本说明书实施例实现了如下技术效果:通过利用预训练模型,可以在存在数据稀疏性问题的任务上取得了优异的学习结果,很多零样本、少样本场景下的学习任务都有了明显的效果提升,提示学习在预训练模型的基础上增加提示信息,在不显著改变模型结构和参数的情况下,可以将下游任务改变为完形填空式的文本生成任务,提升了预训练模型的效果,可以将提示学习应用在银行等行业的专用语料中,用提示学习的方式解决银行等提问系统中的多标签分类问题。进一步地,通过采用对比学习的方式,可以提高自适应模板和任务的匹配性,针对具体的多标签分类问题,生成跟任务适配的提示学习模板,解决了提示学习模板影响结果准确性的问题,能够有效提高最终的多标签分类效果。
本说明书实施方式还提供了一种计算机设备,具体可以参阅图4所示的基于本说明书实施例提供的文本多标签分类方法的计算机设备组成结构示意图,所述计算机设备具体可以包括输入设备41、处理器42、存储器43。其中,所述存储器43用于存储处理器可执行指令。所述处理器42执行所述指令时实现上述任意实施例中所述的文本多标签分类方法的步骤。
在本实施方式中,所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该计算机设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本说明书实施方式中还提供了一种基于文本多标签分类方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现上述任意实施例中所述文本多标签分类方法的步骤。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本说明书的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本说明书的优选实施例而已,并不用于限制本说明书,对于本领域的技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
Claims (10)
1.一种文本多标签分类方法,其特征在于,包括:
接收文本多分类请求;所述多分类请求中携带有目标文本数据;
将所述目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;所述自适应提示模板是基于对比学习通过迭代训练构建的;
将所述提示模板矩阵与所述目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将所述目标语句向量表征输入至编码模型中,得到所述目标文本数据对应的目标语句表示;
利用线性分类器对所述目标语句表示进行映射分类,得到所述目标文本数据对应的标签集合。
2.根据权利要求1所述的文本多标签分类方法,其特征在于,在接收多分类请求之前,还包括:
随机初始化提示模板以生成初始化提示模板矩阵;
获取标注数据集;所述标注数据集包括多个语句以及所述多个语句中各语句对应的至少一个标签;
基于所述标注数据集构建第一标注集合和第二标注集合;所述第一标注集合中的语句对应的标签包括第一标签;所述第二标注集合中的语句对应的标签不包括所述第一标签;
基于所述第一标注集合、所述第二标注集合和所述初始化提示模板矩阵进行对比学习,微调所述初始化提示模板的参数,得到自适应提示模板。
3.根据权利要求2所述的文本多标签分类方法,其特征在于,获取标注数据集,包括:
获取原始标注数据集;所述原始标注数据集中包括多个语句以及所述多个语句中各语句对应的至少一个标签;
对所述原始标注数据集进行数据增强,得到增强后的标注数据集。
4.根据权利要求2所述的文本多标签分类方法,其特征在于,基于所述第一标注集合、所述第二标注集合和所述初始化提示模板矩阵进行对比学习,微调所述初始化提示模板的参数,得到自适应提示模板,包括:
将所述第一标注集合中的语句输入所述预训练模型中,得到第一预训练词向量矩阵集合;将所述第二标注集合中的语句输入所述预训练模型中,得到第二预训练词向量矩阵集合;
将所述初始化提示模板与所述第一预训练词向量矩阵集合中的第一预训练词向量矩阵进行拼接,得到第一语句向量表征集合;将所述初始化提示模板与所述第二预训练词向量矩阵集合中的第二预训练词向量矩阵进行拼接,得到第二语句词向量表征集合;
将所述第一语句向量表征集合中的第一语句向量表征输入至所述编码模型中,得到第一输出集合;将所述第二语句向量表征集合中的第二语句向量表征输入至所述编码模型中,得到第二输出集合;
基于所述第一输出集合和所述第二输出集合构造对比学习损失函数;基于所述对比学习损失函数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板。
5.根据权利要求4所述的文本多标签分类方法,其特征在于,基于所述对比学习损失函数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板,包括:
构建所述线性分类器对应的分类器损失函数;
基于所述对比学习损失函数和所述分类器损失函数,构造整体损失函数;
基于所述整体损失函数,采用梯度下降算法对所述分类器和所述初始化提示模板进行联合训练,得到训练好的线性分类器和自适应提示模板。
7.根据权利要求5所述的文本多标签分类方法,其特征在于,所述整体损失函数为:
L=aLBCE+bLcl
其中,L为所述损失函数,LBCE为分类器损失函数,Lcl为对比学习损失函数,a和b为常数。
8.一种文本多标签分类装置,其特征在于,包括:
接收模块,用于接收文本多分类请求;所述多分类请求中携带有目标文本数据;
生成模块,用于将所述目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;所述自适应提示模板是基于对比学习通过迭代训练构建的;
拼接模块,用于将所述提示模板矩阵与所述目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将所述目标语句向量表征输入至编码模型中,得到所述目标文本数据对应的目标语句表示;
分类模块,用于利用线性分类器对所述目标语句表示进行映射分类,得到所述目标文本数据对应的标签集合。
9.一种计算机设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211325454.7A CN115700515A (zh) | 2022-10-27 | 2022-10-27 | 文本多标签分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211325454.7A CN115700515A (zh) | 2022-10-27 | 2022-10-27 | 文本多标签分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115700515A true CN115700515A (zh) | 2023-02-07 |
Family
ID=85120909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211325454.7A Pending CN115700515A (zh) | 2022-10-27 | 2022-10-27 | 文本多标签分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115700515A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
CN116304717A (zh) * | 2023-05-09 | 2023-06-23 | 北京搜狐新媒体信息技术有限公司 | 文本分类方法及装置、存储介质及电子设备 |
CN116484005A (zh) * | 2023-06-25 | 2023-07-25 | 北京中关村科金技术有限公司 | 一种分类模型构建方法、装置及存储介质 |
-
2022
- 2022-10-27 CN CN202211325454.7A patent/CN115700515A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
CN116304717A (zh) * | 2023-05-09 | 2023-06-23 | 北京搜狐新媒体信息技术有限公司 | 文本分类方法及装置、存储介质及电子设备 |
CN116304717B (zh) * | 2023-05-09 | 2023-12-15 | 北京搜狐新媒体信息技术有限公司 | 文本分类方法及装置、存储介质及电子设备 |
CN116484005A (zh) * | 2023-06-25 | 2023-07-25 | 北京中关村科金技术有限公司 | 一种分类模型构建方法、装置及存储介质 |
CN116484005B (zh) * | 2023-06-25 | 2023-09-08 | 北京中关村科金技术有限公司 | 一种分类模型构建方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
CN108009148B (zh) | 基于深度学习的文本情感分类表示方法 | |
CN111783462A (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN109948149B (zh) | 一种文本分类方法及装置 | |
CN115700515A (zh) | 文本多标签分类方法及装置 | |
US11010664B2 (en) | Augmenting neural networks with hierarchical external memory | |
CN111241814B (zh) | 语音识别文本的纠错方法、装置、电子设备及存储介质 | |
CN113837370B (zh) | 用于训练基于对比学习的模型的方法和装置 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN114168709B (zh) | 一种基于轻量化预训练语言模型的文本分类方法 | |
CN112329476A (zh) | 一种文本纠错方法及装置、设备、存储介质 | |
CN115080749B (zh) | 一种基于自监督训练的弱监督文本分类方法、系统和装置 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN114372465A (zh) | 基于Mixup和BQRNN的法律命名实体识别方法 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN114995903A (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
US11941360B2 (en) | Acronym definition network | |
CN114048290A (zh) | 一种文本分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |