CN116775880A

CN116775880A - 一种基于标签语义和迁移学习的多标签文本分类方法及系统

Info

Publication number: CN116775880A
Application number: CN202310786159.XA
Authority: CN
Inventors: 邓维斌; 张艺腾; 李洪兴; 王智莹; 邓鹏�
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-09-19

Abstract

本发明涉及一种基于标签语义和迁移学习的多标签文本分类方法及系统，属于自然语言处理技术领域。该方法具体为，获取文本数据集并预处理，整理数据集并划分为训练集、验证集和测试集；初始化文本获得文本嵌入；构建语义提取器，获取头部文档表示、尾部文档表示和测试集文档表示；构建头部分类器，获得头部分类器权重；构建标签原型机生成头标签原型、尾标签原型；通过迁移学习预测尾部分类器权重；将头部分类器权重和尾部分类器权重拼接得到用于预测标签的分类器权重并对测试集进行预测。本发明通过迁移学习解决了长尾效应，提高了多标签文本分类任务的精度的效率。

Description

一种基于标签语义和迁移学习的多标签文本分类方法及系统

技术领域

本发明属于自然语言处理技术领域，涉及一种基于标签语义和迁移学习和多标签文本分类方法及系统。

背景技术

文本数据是人们容易接受的一种数据形式，它往往包含着相当丰富的信息，无论是在日常交流还是网络上都具有举足轻重的地位。因此，如何对文本进行准确有效的管理、组织、筛选、过滤，并对文本信息高效的获取，从而为人们提供高质量的信息服务已成为当今信息科学技术领域的一个重大挑战。

文本分类是一种自然语言处理(Natural Language Processing，NLP)技术，用于将文本数据按照其内容进行分类。在文本分类任务中，文本数据被分成两个或多个类别。分类任务可以分为二分类和多分类两种类型。二分类是最简单的文本分类任务之一，它将文本数据分成两个类别。二分类任务通常用于情感分析、垃圾邮件过滤以及文本相似度等方面。多分类是另一种常见的文本分类任务，它将文本数据分成三个或更多个类别。多分类任务通常用于新闻分类、产品分类以及电影分类等方面。多分类任务的难点在于如何设计算法，以处理大量的类别和复杂的类别关系。文本分类技术已被广泛应用于各种领域，例如信息检索、社交媒体分析、舆情监测、智能客服等。在实际应用中，文本分类技术可以帮助人们更快、更准确地获取所需信息，提高工作效率和精度。

目前针对多标签文本分类的主要有两种方法：分别是基于传统机器学习的方法和基于深度学习的方法。传统的机器学习方法通常采用基于特征的方法，使用文本的词袋模型或者TF-IDF算法提取文本的特征，然后使用分类器进行分类。在多标签情况下，可以使用二元分布式分类(Binary Relevance)和多标签分类器链(Classifier Chains)等方法来处理。这些方法需要对每个标签训练一个单独的分类器，而且忽略了标签之间的依赖关系。

近年来，基于深度学习的多标签文本分类方法逐渐成为研究的热点。深度学习模型可以自动提取文本的特征，避免了手动特征工程的过程，并且可以捕获标签之间的依赖关系。其中，使用卷积神经网络(Convolutional Neural Networks，CNN)和循环神经网络(Recurrent Neural Networks，RNN)的模型在多标签文本分类任务中表现出色。此外，还有一些基于注意力机制(Attention Mechanism)的模型，它们可以更加准确地捕获文本的关键信息。

但目前多标签文本分类仍存在着长尾问题，即文本中尾标签被分类为头标签，导致尾标签的泛化能力较弱，这必然影响到了多标签文本分类任务的效率以及准确性。因此，有必要针对多标签文本分类中的长尾问题进行优化研究。

发明内容

有鉴于此，本发明的目的在于提供一种基于标签语义和迁移学习的多标签文本分类方法及系统，通过提取标签语义提升多标签分类任务的效果和性能，通过迁移学习改善长尾效应，提高模型的泛化性能和效率。

为达到上述目的，本发明提供如下技术方案：

方案一、一种基于标签语义和迁移学习的多标签文本分类方法，其包括以下步骤：

S1、获取文本数据集并预处理，整理数据集并划分为训练集、验证集和测试集；

S2、初始化文本获得文本嵌入；

S3、构建语义提取器，引入标签语义嵌入，获得文档表示并将标签训练集划分的头部文档和尾部文档分别输入到语义提取器获得头部文档表示R_head和尾部文档表示R_tail，将测试集经过语义提取器获得测试集的文档表示R_test；

S4、构建头部分类器，将头部文档表示R_head作为头部分类器的输入对头部分类器进行训练，得到头部分类器权重M_head；

S5、构建标签原型机为每个头标签和尾标签分别生成头标签原型P_head和尾标签原型P_tail，再构建尾标签注意力模块捕获头尾标签依赖以获得新的尾标签原型P_new；

S6、通过训练迁移学习模型将头标签原型P_head映射到头部分类器权重M_head，得到训练后的参数W_transfer，并采用训练后的迁移学习模型预测尾部分类器权重M_tail；

S7、将头部分类器权重M_head和尾部分类器权重M_tail拼接得到用于预测标签的分类器权重M，将R_test通过训练后的分类器对标签进行预测。

进一步地，步骤S1中，预处理包括提取文本内容，去除文本中的英文字符、表情和乱码，对文本进行分句；使用分词工具去除停用词。

进一步地，步骤S2中，利用Glove预训练嵌入模型对文本进行初始化，获得文本嵌入。

进一步地，步骤S3包括以下步骤：

S31、采用Bi-LSTM语言模型来学习每个输入文档的单词嵌入，并计算每个单词的隐状态，以捕获每个单词的前后上下文信息，再将每个单词的隐状态串联以获得文档的整体表示H；

S32、采用自注意力机制提取最相关的文本语义信息，其中权重向量如下式：

A^(s)＝softmax(W₂ tanh(W₁H))

式中，W₁表示权重矩阵，W₂表示参数向量；

将文档的整体表示H与权重向量A^(s)进行加权得到基于自注意力机制的文本表示r^(s)；

S33、引入标签嵌入，通过标签注意力机制对Bi-LSTM获得的文本表示和标签嵌入进行计算，确定单词和标签之间的语义关系r^(l)，以捕获隐藏在标签文本中的语义信息；

S34、使用自适应融合机制对r^(s)和r^(l)进行融合得到最终的文档表示R作为语义提取器的输出；

S35、将头部文档和尾部文档分别输入到语义提取器中获得头部文档表示R_head和尾部文档表示R_tail；将测试集经过语义提取器获得测试集的文档表示R_test。

进一步地，步骤S4具体为，将头部文档表示R_head输入全连接层，使用sigmoid激活函数将全连接层输出转化为标签的概率；训练过程中使用二元交叉熵损失函数通过最小化损失函数训练模型学习头部分类器权重M_head。

进一步地，步骤S5包括以下步骤：

S51、对于某个头部标签j，抽样t个文档并获得这些文档的表示对这t个文档表示求平均值得到标签j对应的头标签原型/>

通过同样的方式获得尾部标签z对应的尾标签原型

S52、引入尾标签注意模块，计算每个尾标签原型和头标签原型/>之间的注意力分数，获得尾标签注意原型，对尾标签注意原型和尾标签原型取平均即获得新的尾标签原型/>

进一步地，步骤S6具体为，通过迁移学习器来连接小样本标签原型p^j和对应的多样本分类器权重m^j以建立映射关系，具体地，通过最小化公式训练迁移函数将头标签原型映射到头部分类器权重/>对每个头部标签多次采样获得不同的/>以训练得到能够推广的迁移学习模型；再使用训练后的迁移学习模型来预测尾部分类器权重。

进一步地，步骤S7中，采用训练后的分类器对测试集标签进行预测如下式所示：

方案二、基于方案一所述方法提出的基于标签语义和迁移学习的多标签文本分类系统，、该系统包括依次连接的数据集构建与预处理模块、文本初始化模块、文本语义提取模块、迁移学习模块和标签预测模块。

本发明的有益效果在于：本发明通过引入标签嵌入融合文本和标签的语义信息，通过构建尾标签注意模块捕获头部标签和尾部标签的依赖，并且利用迁移学习将元知识从数据丰富的头标签转移到数据贫乏的尾标签，能够有效提升多标签文本分类效果。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明模型结构示意图；

图2为语义提取器结构示意图；

图3为本发明多标签文本分类系统示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，为本发明所提出的基于标签语义和迁移学习的多标签文本分类方法及系统。

其中多标签文本分类方法主要包括以下步骤：

S1、获取文本数据集，提取其文本内容并去除文本中的英文字符、表情和乱码，对文本进行分句；然后使用分词工具去除停用词。整理数据集后将其划分为训练集、验证集和测试集。

S2、采用Glove预训练嵌入模型对文本进行初始化，获得文本嵌入。

S3、构建语义提取器，如图2所示，引入标签语义嵌入，获得文档表示并将标签训练集划分的头部文档和尾部文档分别输入到语义提取器获得头部文档表示R_head和尾部文档表示R_tail，将测试集经过语义提取器获得测试集的文档表示R_test，具体如下：

S31、为捕获每个单词的前后上下文信息，采用Bi-LSTM语言模型来学习每个输入文档的单词嵌入，并计算每个单词的隐状态，每个单词的隐状态表示由下式生成：

式中，和/>分别表示单词前后两个方向的隐状态，w_i表示每个文本的词向量表示。

为获得文档的整体表示，将文档中每个单词的隐状态串联，文档的整体表示H由下式得到：

S32、生成的文档H中的单词对每个标签的贡献不同，采用自注意力机制提取最相关的文本语义信息，其中权重向量如下式所示：

A^(s)＝softmax(W₂ tanh(W₁H))

式中，W₁表示权重矩阵，W₂表示参数向量。

然后将文档H和权重向量A^(s)进行加权得到基于自注意力机制的文本表示r^(s)：

式中，表示标签j对应的自注意力机制层的输出；

S33、为了捕获隐藏在标签文本中的语义信息，引入标签嵌入，通过标签注意力机制对Bi-LSTM获得的文本表示和标签嵌入进行计算，确定单词和标签之间的语义关系r^(l)，r^(l)根据下式生成：

式中，C表示标签的词向量表示，和/>分别表示由标签注意力机制对单词前后两个方向的隐状态计算得到的注意力系数。

S34、为了最大限度地利用生成的文本语义信息和标签语义信息，使用自适应融合机制对r^(s)和r^(l)进行融合，得到最终的文档表示R作为语义提取器的输出，如下式所示：

β＝sigmoid(r^(s)W₃)

γ＝sigmoid(r^(l)W₄)

其中，W₃,W₄∈R^2k为可训练参数，分别将r^(s)和r^(l)经过全连接层和sigmoid激活函数处理，得到r^(s)和r^(l)对应的权重系数β和γ；标签j在r^(s)和r^(l)上的权重系数分别为β_j和γ_j，对β_j和γ_j做归一化处理，是β_j和γ_j的和为1，并对标签j对应的r^(s)和r^(l)进行加权合并，计算得到第j个标签融合后的文档信息表示R_j，如下式所示：

S35、将标签训练集划分的头部文档和尾部文档分别输入到由步骤S31～S34构建的语义提取器中获得头部文档表示R_head和尾部文档表示R_tail；将测试集经过语义提取器获得测试集的文档表示R_test。

S4、构建头部分类器，将头部文档表示R_head作为头部分类器的输入对头部分类器进行训练，即将R_head送入全连接层，接着使用sigmoid激活函数将全连接层输出转化为标签的概率，如下式所示：

其中M_head为头部标签分类器的可训练参数，模型使用二元交叉熵损失函数通过最小化损失函数训练模型学习头部分类器权重M_head，其中二元交叉熵损失函数如下：

式中，N_head表示头部文档数量，l_head表示头部标签数量，y_ij和分别表示第i个实例的第j个标签的真实值和预测值。

S5、构建标签原型机为每个头标签和尾标签分别生成头标签原型P_head和尾标签原型P_tail，再构建尾标签注意力模块捕获头尾标签依赖以获得新的尾标签原型P_new，具体如下：

S51、构建标签原型机，为每个标签生成标签原型。首先，针对某一个头部标签j，抽样t个文档并获得这些文档的表示然后对这些文档表示求平均值得到标签j对应的标签原型，如下式所示：

同理，对于一个尾部标签z，抽样t个文档并且通过语义提取器获得尾部文档表示然后对这些尾部文档表示求平均得到尾标签原型：

S52、引入尾标签注意模块，计算每个尾标签原型和头标签原型/>之间的注意力分数，获得尾标签注意原型，对尾标签注意原型和尾标签原型取平均即获得新的尾标签原型/>如下式所示：

式中，e_zj表示权重参数，α_zj表示头尾原型间的注意力分数，表示尾标签注意原型。

具体地，通过迁移学习器来连接小样本标签原型p^j和对应的多样本分类器权重m^j以建立映射关系，即，通过最小化公式训练迁移函数将头标签原型映射到头部分类器权重/>其中最小化公式如下：

式中，W_transfer∈R^d×d为迁移学习器的可训练参数。

为训练得到一个能够推广的迁移学习模型，对每个头部标签采样30次以获得不同的然后通过训练后的迁移学习模型来预测尾部分类器权重，如下式：

S7、将头部分类器权重M_head和尾部分类器权重M_tail拼接得到用于预测标签的分类器权重M，将R_test通过训练后的分类器对标签进行预测，具体如下：

将头部分类器权重与尾部分类器权重拼接形成完整的分类器权重，如下式：

最后将测试文档经过语义提取器得到文档表示R_test，然后通过训练后的分类器对标签进行预测，如下式所示：

本发明提出的基于标签语义和迁移学习的多标签文本分类系统如图3所示，其包括依次连接的数据集构建与预处理模块、文本初始化模块、文本语义提取模块、迁移学习模块和标签预测模块。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于标签语义和迁移学习的多标签文本分类方法，其特征在于：该方法包括以下步骤：

S2、初始化文本获得文本嵌入；

2.根据权利要求1所述的多标签文本分类方法，其特征在于：步骤S1中，所述预处理包括，提取文本内容，去除文本中的英文字符、表情和乱码，对文本进行分句；使用分词工具去除停用词。

3.根据权利要求1所述的多标签文本分类方法，其特征在于：步骤S3包括以下步骤：

A^(s)＝softmax(W₂ tanh(W₁H))

式中，W₁表示权重矩阵，W₂表示参数向量；

4.根据权利要求1所述的多标签文本分类方法，其特征在于：步骤S4具体为，将头部文档表示R_head输入全连接层，使用sigmoid激活函数将全连接层输出转化为标签的概率；训练过程中使用二元交叉熵损失函数通过最小化损失函数训练模型学习头部分类器权重M_head。

5.根据权利要求1所述的多标签文本分类方法，其特征在于：步骤S5包括以下步骤：

通过同样的方式获得尾部标签z对应的尾标签原型

6.根据权利要求1所述的多标签文本分类方法，其特征在于：步骤S6具体为，通过迁移学习器来连接小样本标签原型p^j和对应的多样本分类器权重m^j以建立映射关系，具体地，通过最小化公式训练迁移函数将头标签原型映射到头部分类器权重/>对每个头部标签多次采样获得不同的/>以训练得到能够推广的迁移学习模型；再使用训练后的迁移学习模型来预测尾部分类器权重。

7.根据权利要求1所述的多标签文本分类方法，其特征在于：步骤S7中，采用训练后的分类器对测试集标签进行预测如下式所示：

8.适用于权利要求1～7中任一项所述方法的基于标签语义和迁移学习的多标签文本分类系统，其特征在于：该系统包括依次连接的数据集构建与预处理模块、文本初始化模块、文本语义提取模块、迁移学习模块和标签预测模块。