CN115795037A

CN115795037A - 一种基于标签感知的多标签文本分类方法

Info

Publication number: CN115795037A
Application number: CN202211673044.1A
Authority: CN
Inventors: 马甲林; 冯海; 古汉钊; 张正伟; 张琳; 张粤
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-14
Anticipated expiration: 2042-12-26
Also published as: CN115795037B

Abstract

本发明公开了一种基于标签感知的多标签文本分类方法，输入文本训练数据集进行数据预处理得到文本P和标签集合T；采用Glove模型获得文本词嵌入向量V₁和标签词嵌入向量V₂；将V₁输入到LSTM进行预编码得到文本的隐表示V；经过训练获得TransE模型，引入外部知识图谱，通过TransE得到的知识嵌入与V₂进行拼接得到扩充后的标签表示矩阵M，然后输入到LSTM得到标签的隐表示C；将文本的隐表示V和标签的隐表示C联合空间进行学习，结合注意力机制获得精确的文本表示；基于精确的文本表示训练多标签文本分类模型；将待分类的测试集多标签文本输入到多标签文本分类模型中，进行预测分类输出标签序列。本发明可以有效的提高多标签文本分类模型准确性。

Description

一种基于标签感知的多标签文本分类方法

技术领域

本发明属于自然语言处理技术领域，特别涉及到基于标签感知的多标签文本分类方法。

背景技术

多标签文本分类(Multi-Class Text Classification，MCTC)是为文本文档分配一个或多个标签的文本分类任务，专注于文本的高级语义表示和标签相关性建模，有着广泛的应用，如信息检索、情感分析、主题识别、推荐系统等。目前，在多标签文本分类领域上，研究者主要探索如何从文档中充分捕获有效语义信息；探究标签与文档之间的相关性，从文档中获取标签的文档表示；探究标签之间的联系，在多标签文本分类中，大多数标签之间都有层次性。

尽管多标签文本分类的研究有了一定的进展，可是依然有诸多问题需要进一步的探索，上述研究把标签当成没有语义信息的标记，忽略了标签本身的语义信息，标签的语义信息仅仅在最后的分类预测阶段起监督的作用，同时大多数标签是几个字符长度的短文本，标签文本存在数据稀疏问题。因此，本发明提供一种标签感知的多标签文本分类方法，可有效提高多标签文本分类模型的准确性。

发明内容

发明目的：对于背景技术中存在的问题，本发明提供一种标签感知的多标签文本分类方法，采用知识图谱嵌入和标签注意力的技术，提高多标签分类模型预测的准确度。

技术方案：本发明提出一种基于标签感知的多标签文本分类方法，包括如下步骤：

步骤1：输入文本训练数据集进行数据预处理得到文本P和标签集合T；

步骤2：采用Glove模型获得文本词嵌入向量V₁和标签词嵌入向量V₂；

步骤3：将文本的词向量V₁输入到LSTM进行预编码得到文本的词隐表示V；

步骤4：经过训练获得TransE模型，引入外部知识图谱，通过TransE模型得到的知识嵌入与标签词嵌入向量V₂进行拼接得到扩充后的标签表示矩阵M；

步骤5：将标签表示矩阵M输入到LSTM得到标签的隐表示C；

步骤6：将文本的词隐表示V和标签的隐表示C进行聚合运算，然后利用空洞卷积提取文本的细粒度特征，通过标签注意力获得标签的文本表示，最后经过多层感知机进行分类预测，训练多标签文本分类模型；

步骤7：利用训练好的多标签文本分类模型对待分类文本的数据集进行多标签文本分类。

进一步地，所述步骤1中预处理包括：

步骤1.1：对文本训练集中的数据进行数据清洗，清洗文本数据中的非文本数据；

步骤1.2：进行停用词过滤、纠错、同义词替换得到文本P和标签集合T；

步骤1.3：定义P＝{p₁,p₂,...,p_M}为M个文档构成的数据集，p_i表示P中的第i个文档，p_i＝{w₁,w₂,...,w_m}，其中m为文档p_i的长度，w_j表示该文档的第j个单词，p_i对应的分类标签由T＝{t₁,t₂,...,t_l}表示，其中l为标签的个数。

进一步地，所述步骤4具体包括如下步骤：

步骤4.1：经过训练和调参后获得TransE模型，TransE利用损失优化函数使正确的三元组的距离小，错误的三元组距离大，损失优化函数公式如下：

其中，s表示正确的三元组，s′表示错误的三元组，d表示向量之间的距离，Υ是一个常数，表示正负样本之间的间距，[x]₊表示max(^0,x)；错误的三元组s′由正确的三元组s里的头实体h、关系r、尾实体t其中之一随机替换成其他实体或关系生成；

步骤4.2：使用TransE模型得到知识图谱的相关上下文实体嵌入，将知识图谱嵌入和之前标签嵌入获取的标签词嵌入向量V₂进行拼接，扩展标签的语义信息，得到标签表示矩阵M。

进一步地，所述步骤4.2中知识图谱嵌入的上下文实体的嵌入按以下公式来转换：

其中，e_i表示通过知识图谱嵌入得到的上下文实体嵌入，上面公式得出的上下文嵌入指的是全部上下文实体嵌入的平均值。

进一步地，所述步骤6具体方法为：

步骤6.1：对文本的词隐表示V和标签隐表示C进行聚合运算，然后采用多层不同扩张率的一维空洞卷积提取文本特征，聚合运算公式如下：

其中，C表示步骤5所得的标签嵌入矩阵，V表示步骤3所得的词嵌入矩阵，

表示同位元素对应相除，

表示K×L阶的归一化矩阵，K指标签总数，L指单词长度，

中的每个元素由标签向量嵌入和词向量嵌入进行点乘计算得出；

步骤6.2：将聚合运算得到的结果输入到最大池化层，通过softmax函数得到Attention系数；

步骤6.3：Attention系数加权词嵌入计算得出文本表示，文本表示计算公式如下：

其中，β_l表示第l个元素的Attention系数，v_l表示步骤3所得第l个词的词嵌入。

步骤6.4：输入到多层感知机进行标签的分类预测，训练多标签文本分类模型。

进一步地，所述步骤6.4中分类预测由两个全连接层和一个输出层组成的感知机实现，预测第i个标签出现的概率由以下公式计算获得：

y_i＝σ(W₂f(W₁z)) (5)

其中，W₁为全连接层的参数，W₂是输出层的参数，函数f为非线性激活函数，z为文本的最终表示；

所述步骤6.4中训练多标签文本分类模型时使用二元交叉熵损失作为损失函数：

其中，N表示文档文本的总数，c表示标签的个数，

y_ij∈{0,1}分别表示第i个实例的第j个标签的预测标签和真实标签。

有益效果：

本发明方法采用知识图谱嵌入和注意力机制的技术，解决标签文本存在的数据稀疏问题，知识图谱嵌入对标签文本进行语义扩展，增强标签的语义信息；通过标签嵌入注意力使标签和文本进行语义交互，通过标签嵌入的注意力机制获得的注意力向量表示出文档文本中每个单词在不同分类任务中的重要程度，得到基于标签的文档表示，将标签应用到文本分类过程中，提高了多标签文本分类方法的准确性。

附图说明

图1为本发明基于标签感知的多标签文本分类方法整体流程图；

图2为本发明基于标签感知的多标签文本分类方法模型框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明公开了一种基于标签感知的多标签文本分类方法，包括如下步骤：

步骤1：对文本训练集进行数据预处理，得到文本P和标签集合T。

具体的本发明实施例采用的数据集是公开数据集AAPD。AAPD数据集来源于北京大学大数据研究院提供的公开英文数据集(2018年)，总共有55840篇与计算机科学相关的论文摘要和相对应的学科，总共涉及到54个学科。AAPD数据集的统计情况如表1所示。

表1AAPD数据集简介

步骤1.1：对文本训练集中的数据进行数据清洗，清洗文本数据中的非文本数据。

步骤1.2：然后进行停用词过滤、纠错、同义词替换得到文本P和标签集合T。

步骤2：采用Glove模型得到文本词嵌入向量V₁、标签词嵌入向量V₂。

步骤3：文本的词向量V₁通过LSTM预编码获得文本词隐表示V。

步骤4：通过训练和调参获得TransE模型，引入外部知识图谱，使用TransE模型得到知识图谱嵌入，与标签词嵌入向量V₂进行拼接获得标签表示矩阵M。

具体步骤如下：

步骤4.1：经过训练和调参后获得TransE模型，TransE模型利用损失优化函数使正确的三元组的距离小，错误的三元组距离大，损失优化函数公式如下：

其中，s表示正确的三元组，s′表示错误的三元组，d表示向量之间的距离，Υ是一个常数，表示正负样本之间的间距，[x]₊表示max(^0,x)。错误的三元组s′由正确的三元组s里的头实体h、关系r、尾实体t其中之一随机替换成其他实体或关系生成。

知识图谱嵌入的上下文实体的嵌入按以下公式来转换：

步骤5：标签表示矩阵M输入到LSTM获得标签隐表示C；

步骤6：文本词隐表示V和标签隐表示C进行聚合运算，然后利用空洞卷积提取文本的细粒度特征，通过标签注意力获得标签的文本表示，最后经过多层感知机进行分类预测，训练多标签文本分类模型，具体方法为：

步骤6.1：对文本词隐表示V和标签隐表示C进行聚合运算，然后利用空洞卷积提取文本特征；

聚合运算公式如下：

表示同位元素对应相除，

表示K×L阶的归一化矩阵，K指标签总数，L指单词长度，

中的每个元素由标签向量嵌入和词向量嵌入进行点乘计算得出。

本发明采用多层不同扩张率的一维空洞卷积捕获更全面的语义特征。在实验中，将扩张率设置为[1,2,3]，卷积核大小设置为3×3。

步骤6.2：将聚合运算得到的结果输入到最大池化层，通过softmax函数得到Attention系数。

步骤6.3：Attention系数加权词嵌入计算得出文本表示；

文本表示计算公式如下：

其中，β_l表示步骤6.2所得第l个元素的Attention系数，v_l表示步骤3所得第l个词的词嵌入。

本发明的分类预测由两个全连接层和一个输出层组成的感知机实现。预测第i个标签出现的概率由以下公式计算获得：

y_i＝σ(W₂f(W₁z)) (5)

其中，W₁为全连接层的参数，W₂是输出层的参数，函数f为非线性激活函数，z为文本的最终表示。

训练多标签文本分类模型时使用二元交叉熵损失作为损失函数：

其中，N表示文档文本的总数，c表示标签的个数，

为进一步说明本发明提供方法的实施效果，选择BR、LP、LEAM、LSAN和LCFA多标签文本分类算法作为对比算法，采用Micro-F1作为分类算法性能的评价指标，其中micro-precision、micro-recall可作为实验结果分析的重要参考。

本方法与其他多标签文本分类算法的评价指标对比结果如表2所示。

表2AAPD实验结果

本发明提出的方法Micro-F1为75.2％,Micro-F1较传统方法提高了10％以上，精确率和召回率也有所提高。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于标签感知的多标签文本分类方法，其特征在于，包括如下步骤：

步骤5：将标签表示矩阵M输入到LSTM得到标签的隐表示C；

2.根据权利要求1所述的基于标签感知的多标签文本分类方法，其特征在于，所述步骤1中预处理包括：

3.根据权利要求1所述的基于标签感知的多标签文本分类方法，其特征在于，所述步骤4具体包括如下步骤：

4.根据权利要求3所述的基于标签感知的多标签文本分类方法，其特征在于，所述步骤4.2中知识图谱嵌入的上下文实体的嵌入按以下公式来转换：

5.根据权利要求1所述的基于标签感知的多标签文本分类方法，其特征在于，所述步骤6具体方法为：

其中，C表示步骤5所得的标签隐表示，V表示步骤3所得的文本的词隐表示，

表示同位元素对应相除，

表示K×L阶的归一化矩阵，K指标签总数，L指单词长度，

中的每个元素由标签隐表示和文本的词隐表示进行点乘计算得出；

其中，β_l表示第l个元素的Attention系数，v_l表示步骤3所得的文本的词隐表示中第l个词的词隐表示。

6.根据权利要求5所述的基于标签感知的多标签文本分类方法，其特征在于，所述步骤6.4中分类预测由两个全连接层和一个输出层组成的感知机实现，预测第i个标签出现的概率由以下公式计算获得：

y_i＝σ(W₂f(W₁z)) (5)

其中，N表示文档文本的总数，c表示标签的个数，