CN113836934A

CN113836934A - 基于标签信息增强的文本分类方法和系统

Info

Publication number: CN113836934A
Application number: CN202110894290.9A
Authority: CN
Inventors: 张琨; 吴乐; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-12-24
Anticipated expiration: 2041-08-05
Also published as: CN113836934B

Abstract

本发明提供一种基于标签信息增强的文本分类方法和系统，涉及深度学习和自然语言理解技术领域。本发明通过对比学习实现了准确的表示输入文本与标签之间的相互影响，弥补了现有方法在标签表示以及文本与标签之间的相互影响建模方面存在的不足，实现对自然语言文本语义的准确表示，提高文本分类的准确性。

Description

基于标签信息增强的文本分类方法和系统

技术领域

本发明涉及深度学习和自然语言理解技术领域，具体涉及一种基于标签信息增强的文本分类方法和系统。

背景技术

文本分类是自然语言处理领域的一个十分重要的组成部分，是评价句子语义表征是否准确的一种常用方法。其主要用于对给定单个或多个句子进行分类。根据具体任务的不同，文本分类也有着不同的分类标准。例如情感分类主要用于判断给定句子的情感类别或者极性；复述识别主要用于判断给定的两个句子是否表达相同的语义。因此该任务关注的基础技术是如何对输入文本进行准确的语义表征。自然语言句子的语义表示是自然语言处理甚至人工智能领域一个基础但极其重要的研究内容，无论是基础的信息检索，语义抽取，还是复杂的问答系统，对话系统，都需要对输入句子的语义有一个全面准确的表示，这样才能保证机器理解人类复杂的语言系统。

根据对标签信息的不同利用方法，现有工作可大致分为两类：独热编码方式，主要关注于输入文本的编码，标签信息主要用于用作模型训练的监督信号。标签编码方式，该方法一方面关注于输入文本的建模，另一方面通过每个标签映射到与文本表示相同的语义空间，利用低维稠密的向量表示标签的语义信息，从而有助于建模输入文本和标签之间的复杂语义交互关系。这两类方法在文本分类任务上都取得了惊人的进步，后一种方法更是因能够充分利用标签所蕴涵的语义信息，实现更准确的建模而越来越受到大家的关注。

但现有的基于标签信息的文本分类方法仍存在一些问题，现有的基于编码的方法更多的关注于输入文本的表示，标签语义一般是作为文本语义建模的指导信息，而忽略了标签和输入文本之间的相互影响与复杂交互，导致现有的基于标签信息文本分类方法不能对自然语言文本语义进行准确的表示。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于标签信息增强的文本分类方法和系统，解决了现有方法忽略了标签和输入文本之间的相互影响与复杂交互的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明提供一种基于标签信息增强的文本分类方法，所述方法包括：

S1、获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵；

S2、获取所述输入文本对应的标签的标签语义表示；

S3、基于所述文本全局语义表示向量、所述文本局部语义表示矩阵和标签语义表示，利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量，将所述文本监督的标签语义表征向量和所述标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间，得到映射向量；

S4、通过第二带分类层的多层感知机对所述标签监督的语义表征向量进行处理，获取文本的分类结果；

S5、利用选择交叉熵损失函数和基于所述映射向量获取的对比损失函数作为优化目标，学习和优化步骤S1～S3中的参数。

优选的，所述S1具体包括：

使用统一的形式表示输入文本，将输入文本表示为一个词序列：X＝{x₁,x₂,…,x_n}，其中n表示文本序列的长度，x_i表示词序列中第i个词在词典V中对应的向量表示，将词序列的前部和后部加上符号CLS，接着将得到的表示输入到第一预训练模型中，该过程可以表示为：

其中：α_l为权重参数；BERT_l表示取第一预训练模型BERT第l层的结果；

表示第l层的第一个[CLS]对应的向量表示，H_l表示第l层对应的输入文本的词序列对应的矩阵表示；[CLS；X；CLS]表示将两个[CLS]分别拼接到词序列X的前边和后边；H为文本局部语义表示矩阵，表示经过第一预训练模型目标文本的词序列中所有词的语义表示输出；v为示经过第一预训练模型的目标文本的文本全局语义表示向量，表示经过加权之后得到的句子的语义表示。

优选的，在S2在，在执行获取所述输入文本对应的标签的标签语义表示之前，所述方法还包括：

引入外部知识库，从外部知识库中为每个标签检索到对应的句子描述。

优选的，所述S2具体包括：

使用统一的形式表示标签文本，整个文本集合可以表示为y＝{y₁,y₂,…,y_m}，其中m表示整个标签集合的大小，y_j表示第j个标签的独热编码表示；

使用E_f表示跟随整个模型学习的标签语义向量表示，得到基于领域的编码表示；选择WordNet作为外部知识库，从WordNet中为每个标签检索到对应的句子描述s，句子描述输入到第二预训练模型中，得到基于知识的编码表示；

将基于领域的编码表示和基于知识的编码表示整合起来，就得到了最终标签语义表示；该过程可以表示为如下形式：

其中：BERT_L表示取第二预训练模型BERT最后一层的结果；s_j表示从WordNet中为第j个标签检索到对应的句子；

和

分别表示第j个标签对应的基于领域的编码表示和基于知识的编码表示；e_j表示第j个标签的标签语义表示。

优选的，所述S3具体包括：

S301、基于文本全局语义表示向量和标签语义表示，获取文本监督的标签语义表征向量；

S302、基于文本局部语义表示矩阵和标签语义表示，获取标签监督的文本语义表征向量；

S303、将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间，得到映射向量。

优选的，所述S301具体包括：

使用注意力机制，在文本语义的指导下，从标签语义表示中选择最相关的部分，生成文本监督的标签语义表征向量，该过程可以表示为如下：

E＝[e₁,e₂,…,e_m]

其中：E表示所有标签的标签语义表示堆叠而成的矩阵；{ω_l,W_l,U_l}为需要模型训练的参数；I_l为长度为m的全为1的列向量；

表示将U_lv的结果重复l次；β^l表示在考虑文本语义的情况下，所有标签语义的重要程度的概率分布向量；

表示在考虑文本语义的情况下，第j个标签语义对最终语义的影响程度；

表示文本监督的语义表征向量；tanh()为非线性激活函数。

优选的，所述S302具体包括：

选择注意力机制建模标签语义对文本语义的影响，从文本词序列中选择出跟每个标签最相关的词信息，将其融合到一起，得到标签监督的文本语义表征向量，该过程可以表示为如下：

其中：{ω,W,U}分别表示需要模型训练的参数；I为长度为n的全为1的列向量；e_t为矩阵E中表示第t个标签的语义表示；γ^t表示在考虑第t个标签语义的条件下，输入文本的词序列对应的权重分布向量；

表示在考虑第t个标签语义的条件下，输入文本的第i个词对应的权重；

表示在考虑第t个标签语义的条件下，输入文本的语义表示向量；

表示标签监督的语义表征向量；maxpooling()表示最大池化操作。

优选的，所述S4具体包括：

将标签监督的语义表征向量输入到第二带分类层的多层感知机中，得到输入文本的分类结果，该过程可以表示为：

y^*＝argmax_{y∈y}P(y|X,y)

其中：P(y|X,y)表示预测结果为y的概率，y^*表示模型最后预测的结果。

优选的，所述S5具体包括：

1)交叉熵损失函数：

其中：log()为对数似然函数，K表示一个训练批次中样本的数量，y_i表示第i个样本所对应的真实标签的独热向量表示，即只有真实标签对应的索引位置的值为1，其他位置均为0，向量长度为所有标签的数量；

3)对比损失函数：

其中：z₁和z₂分别表示映射向量；τ是超参数，用于控制对比学习的强度；sim()表示相似度计算函数；1_[k≠j]是一个指示值，表示当且仅当k≠j的时候，其对应的值为1，否则为0；

3)在得到两个损失函数的基础上，通过对两个函数加权整合到一起，就得到了本发明实施例的最终优化目标：

Loss＝Loss₁+λLoss₂

其中：λ为超参数。

第二方面，本发明提供一种基于标签信息增强的文本分类系统，所述系统包括：

文本语义表示获取模块，用于获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵；

标签语义表示获取模型，用于获取所述输入文本对应的标签的标签语义表示；

注意力机制模块，用于基于所述文本全局语义表示向量、所述文本局部语义表示矩阵和所述标签语义表示，利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量，将所述文本监督的标签语义表征向量和所述标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间，得到映射向量；

分类结果获取模块，用于通过第二带分类层的多层感知机对所述标签监督的语义表征向量进行处理，获取文本的分类结果；

参数优化模块，用于利用选择交叉熵损失函数和基于所述映射向量获取的对比损失函数作为优化目标，学习和优化所述文本语义表示获取模块、所述标签语义表示获取模型和所述注意力机制模块中的参数。

(三)有益效果

本发明提供了一种基于标签信息增强的文本分类方法和系统。与现有技术相比，具备以下有益效果：

本发明通过对比学习实现了准确的表示输入文本与标签之间的相互影响，弥补了现有方法在标签表示以及文本与标签之间的相互影响建模方面存在的不足，实现对自然语言文本语义的准确表示，提高文本分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于标签信息增强的文本分类方法的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于标签信息增强的文本分类方法和系统，解决了现有方法忽略了标签和输入文本之间的相互影响与复杂交互的技术问题，实现对自然语言文本语义的准确表示，提高文本分类的准确性。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

现有基于标签的文本分类方法仍存在一些问题，首先，这些方法大多是利用一个低维稠密的向量表示标签的语义，该向量是在模型训练过程中进行学习的，并不能准确表示标签所包含的丰富语义信息，同一个标签在面对不同的输入句子时可能关注的是不同方面的语义，因此需要更为精确的标签表示；其次，现有的基于编码的方法仍然更多的关注于输入文本的表示，标签语义更多的是作为文本语义建模的指导信息。忽略了标签和输入文本之间的相互影响与复杂交互，以及标签之间的相互依赖关系并没有得到足够重视。为了解决上述问题，本发明实施例一方面借助人类先验知识(例如知识图谱，语义网)实现标签语义更为全面准确的建模；另一方面将对比学习引入到文本文类中，分别从输入文本和标签语义角度对整个输入信息进行更为全面的建模，实现对输入文本和标签之间的相互影响关系的建模，从而实现对自然语言文本语义的准确表示以及文本分类的准确性。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种基于标签信息增强的文本分类方法，如图1所示，该方法包括步骤S1～S4：

S2、获取输入文本对应的标签的标签语义表示；

S3、基于文本全局语义表示向量、文本局部语义表示矩阵和标签语义表示，利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量，将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间，得到映射向量；

S4、通过第二带分类层的多层感知机对标签监督的语义表征向量进行处理，获取文本的分类结果；

S5、利用选择交叉熵损失函数和基于映射向量获取的对比损失函数作为优化目标，学习和优化步骤S1～S3中的参数。

本发明实施例通过对比学习实现了准确的表示输入文本与标签之间的相互影响，弥补了现有方法在标签表示以及文本与标签之间的相互影响建模方面存在的不足，实现对自然语言文本语义的准确表示，提高文本分类的准确性。

下面对各个步骤进行详细描述：

在步骤S1中，获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵，具体实施过程如下：

使用统一的数学形式表示输入文本，将输入文本表示为一个词序列：X＝{x₁,x₂,…,x_n}，其中n表示文本序列的长度，x_i表示词序列中第i个词在词典V中对应的向量表示，词典V是已经存在的(例如预训练语言模型BERT就会提供对应的词典)。然后首先将词序列的前部和后部加上特殊符号“[CLS]”，接着将得到的表示输入到第一预训练模型中(在本发明实施例中以BERT作为预训练模型的代表)，假设本发明实施例选择预训练模型中的后L层的输出，那么最后输入文本的向量表示就可以通过对这L层的输出结果进行加权求和得到，其权重参数{α₁,α₂,…,α_L}是需要跟随整个模型进行训练得到。该过程可以表示为：

其中：

在步骤S2中，获取输入文本对应的标签的标签语义表示，具体实施过程如下：

使用统一的数学形式表示标签文本，整个文本集合可以表示为y＝{y₁,y₂,…,y_m}，其中m表示整个标签集合的大小，y_j表示第j个标签的独热编码表示。本发明实施例首先使用E_f表示跟随整个模型学习的标签语义向量表示，在此处称为基于领域的编码表示；与此同时，本发明实施例选择WordNet作为外部知识库(需要说明的是，外部知识库还可选择知识图谱和其他语义网等)，从WordNet中为每个标签检索到对应的句子描述s，然后将句子描述输入到第二预训练模型中(例如BERT)，并使用最后一层输出中[CLS]的表示作为描述句子的语义表示，该表示在此处称之为基于知识的编码表示；最后将基于领域的编码表示和基于知识的编码表示整合起来，就得到了最终标签语义表示。以第j个标签为例，该过程可以表示为如下形式：

其中：BERT_L表示取BERT最后一层的结果，y_j表示第j个标签的独热编码表示；s_j表示从WordNet中为第j个标签检索到对应的句子；

和

分别表示第j个标签对应的基于领域的编码表示和基于知识的编码表示，e_j表示第j个标签的标签语义表示。

在步骤S3中，基于文本全局语义表示向量、文本局部语义表示矩阵和标签语义表示，利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量，将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间，得到映射向量。具体实施过程如下：

S301、基于文本全局语义表示向量和标签语义表示，获取文本监督的标签语义表征向量，具体包括：

本发明实施例首先建模文本语义对标签语义表示的影响，具体而言，本发明实施例选择使用注意力机制，在文本语义的指导下，从标签语义表示中选择最相关的部分，从而生成文本监督的标签语义表征向量，该过程可以表示为如下：

E＝[e₁,e₂,…,e_m]

表示文本监督的语义表征向量。tanh()为非线性激活函数。

S302、基于文本局部语义表示矩阵和标签语义表示，获取标签监督的文本语义表征向量。

与此同时，为了分析标签语义对文本语义表示的选择，本发明实施例同样选择注意力机制建模标签语义对文本语义的影响，从文本词序列中选择出跟每个标签最相关的词信息，然后将其融合到一起，得到标签监督的文本语义表征向量，该过程可以表示为如下：

S303、将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间，得到映射向量；

在分别得到文本监督的语义表征和标签监督的语义表征之后，本发明实施例通过多层感知机(MLP)将这两个表征映射到对比学习空间，该过程可以表示为：

其中ReLU()表示非线性激活函数，z₁和z₂分别表示映射到对比学习空间中的向量，即映射向量，为目标函数中的对比学习奠定基础。

在步骤S4中，通过第二带分类层的多层感知机对标签监督的语义表征向量进行处理，获取文本的分类结果。具体实施过程如下：

本发明实施例将标签监督的语义表征向量

输入到另外一个带分类层的多层感知机(MLP₁)用于预测输入文本的最终分类结果，该过程可以表示为：

y^*＝argmax_{y∈y}P(y|X,y)

在步骤S5中，利用选择交叉熵损失函数和对比损失函数作为优化目标，学习和优化步骤S1～S3中的参数。具体实施过程如下：

得到以上的结果之后，本发明实施例分别选择交叉熵损失函数和对比损失函数InfoNCE作为优化的目标，用于训练模型，学习模型中的参数，具体如下：

1)交叉熵损失函数：考虑到文本分类任务为分类任务，因此选择分类任务的交叉熵损失函数作为优化目标，可以表示为：

其中log()为对数似然函数，K表示一个训练批次中样本的数量，y_i表示第i个样本所对应的真实标签的独热向量表示，即只有真实标签对应的索引位置的值为1，其他位置均为0，向量长度为所有标签的数量。

2)对比损失函数：为了保证学习到的文本监督的语义表征和标签监督的语义表征能够尽可能的相似(来自同一样本)，本发明实施例选择InfoNCE损失函数作为对比学习过程的优化目标，具体表示为：

其中τ是超参数，用于控制对比学习的强度；sim()表示相似度计算函数，例如余弦相似度；1_[k≠j]是一个指示值，表示当且仅当k≠j的时候，其对应的值为1，否则为0。

Loss＝Loss₁+λLoss₂

其中：λ为模型的超参数，用于控制两个损失函数对最终结果的影响。

需要说明的是，本发明实施例通过步骤S5的交叉熵损失函数和对比损失函数作为优化目标，学习和优化步骤S1～S3中的参数，如权重参数{α₁,α₂,…,α_L}、基于领域的编码表示E_f、权重参数{ω_l,W_l,U_l}和{ω,W,U}等，当损失函数的损失值达到预设的值后，保存当前训练过程中的上述参数，通过保存参数后的步骤S1～S4对待分类的文本进行分类。即S1～S5是完整的模型的训练过程，步骤S1～S4，相当于模型的运用过程，其中S303在模型的运用过程中无需执行。

本发明实施例还提供一种基于标签信息增强的文本分类系统，该系统包括：

标签语义表示获取模型，用于获取输入文本对应的标签的标签语义表示；

注意力机制模块，用于基于文本全局语义表示向量、文本局部语义表示矩阵和标签语义表示，利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量，将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间，得到映射向量；

分类结果获取模块，用于通过第二带分类层的多层感知机对标签监督的语义表征向量进行处理，获取文本的分类结果；

参数优化模块，用于利用选择交叉熵损失函数和基于映射向量获取的对比损失函数作为优化目标，学习和优化文本语义表示获取模块、标签语义表示获取模型和注意力机制模块中的参数。

可理解的是，本发明实施例提供的基于标签信息增强的文本分类系统与上述基于标签信息增强的文本分类方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于标签信息增强的文本分类方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例通过对比学习实现了准确的表示输入文本与标签之间的相互影响，弥补了现有方法在标签表示以及文本与标签之间的相互影响建模方面存在的不足，实现对自然语言文本语义的准确表示，提高文本分类的准确性。

2、本发明实施例通过引入额外的先验知识(即引入外部知识库)实现了更为全面准确的标签语义表示，进一步提高文本分类的准确性。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。