CN112711953A

CN112711953A - 一种基于注意力机制和gcn的文本多标签分类方法和系统

Info

Publication number: CN112711953A
Application number: CN202110066091.9A
Authority: CN
Inventors: 刘孝炎; 肖正; 郭修远; 王立峰
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-04-27
Anticipated expiration: 2041-01-19
Also published as: CN112711953B

Abstract

本发明公开了一种基于注意力机制和GCN的文本多标签分类方法，包括：获取待分类文本，对该待分类文本进行预处理，并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量；将得到的多维向量输入到预先训练好的分类模型中，以得到待分类文本的分类结果。本发明利用注意力机制构建文本、单词、标签之间的语义相关性，一方面，汇总文本和标签信息形成新的文本单词表示形式，更充分地进行文本特征提取，另一方面，汇总文本和单词信息形成新的标签表示形式，利用图神经网络进行标签的相关性建模。在两个角度上提升文本多标签分类的效果。

Description

一种基于注意力机制和GCN的文本多标签分类方法和系统

技术领域

本发明属于自然语言处理技术领域，更具体地，涉及一种基于注意力机制和图卷积网络(Graphic convolutional network，简称GCN)的文本多标签分类方法和系统。

背景技术

随着社会和网络技术的发展，存在海量文本形式的信息资源。如何对这些文本进行有效的分类，从中快速、准确、全面的挖掘有效信息，已经成为了自然语言处理研究领域的热点之一。文本分类是指为文档集合中的每个文档确定类别，存在广泛的应用场景。而多标签分类作为文本分类领域中的难点，也引起了不少的关注，目前的多标签分类方法大多考虑两部分内容：

1.特征提取，此步骤一般使用神经网络等方法来处理文本数据，学习将其映射到一个向量空间进行表示。目前，通常使用卷积神经网络、循环神经网络、以及两种网络混合使用进行文本分类，比如在TextCNN网络中，采用了多个卷积核提取词向量矩阵特征，通过多个不同的卷积核来关注文中的关键信息，从而实现提取文本特征的目的；

2.标签相关性，多标签比单标签分类任务更复杂，主要体现在标签往往是相关的。现有方法往往倾向于忽略标签之间的相关性，难以达到很好的效果。为获取和利用这种相关性，旷视研究院提出一种基于图卷积网络的多标签分类模型ML-GCN，该模型通过数据驱动的方式建立有向图并由GCN将类别标记映射为对应类别分类器，以此建模标签相关性关系。

但是，现有的多标签分类方法仍然存在一些不可忽略的缺陷：第一、循环神经网络在特征提取过程中，主要是提取语义关系，这往往会忽略文中的关键部分，从而影响文本分类准确度；第二、基于卷积神经网络(例如TextCNN)的方式容易捕捉文本中的关键部分，但由于采用了卷积操作，容易忽略文本语义关系，从而影响文本分类准确度；第三、使用GCN进行标签相关性建模大多采用数据驱动的方式，其忽略了文本的不同部分对于预测不同的标签的作用，进而会影响文本分类准确度。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于注意力机制和GCN的文本多标签分类方法和系统，其目的在于，解决现有多标签分类方法由于往往会忽略文中的关键部分，导致影响文本分类准确度的技术问题，以及由于使用卷积神经网络的卷积操作，导致容易忽略文本语义关系，从而影响文本分类准确度的技术问题，以及由于大多采用数据驱动的方式，其忽略了文本的不同部分对于预测不同的标签的作用，从而导致影响文本分类准确度的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于注意力机制和GCN的文本多标签分类方法，包括如下步骤：

(1)获取待分类文本，对该待分类文本进行预处理，并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量；

(2)将步骤(1)得到的多维向量输入到预先训练好的分类模型中，以得到待分类文本的分类结果。

优选地，步骤(1)首先是使用正则表达式对待分类文本进行数据清洗，以去除特殊符号，然后使用自然语言处理工具包(Natural Language Toolkit，简称NLTK)对去除了特殊符号后的待分类文本进行处理，以去除其中的停用词并修正其中的单词表示，最后使用Glove预训练词向量将处理后的待分类文本转换成300维向量。

优选地，分类模型包含依次连接的第一TextCNN网络、注意力网络、第二TextCNN网络以及GCN网络；

注意力网络的具体结构为：

第一层是矩阵变换层，输入为C×d维向量表示，包含文本、单词和标签的向量信息，利用三个d×C维的Q、K、V矩阵，输出3个C×C的q、k、v向量；其中C为自然数，d等于300；

第二层为注意力机制计算层，其输入为第一层得到的3个C×C维的q、k、v向量，输出为C×C维的相关性向量；

第三层为拼接层，其将第二层得到的C×C维的相关性向量与原始输入的C×d维向量进行拼接，以输出C×(C+d)维向量。

GCN网络的具体结构为：

第一层是图卷积层，其输入为标签词向量矩阵和关系矩阵，该层使用d×512维权重矩阵，该层输出为标签相关性矩阵，；

第二层是图卷积层，其输入为第一层输出的标签相关性矩阵和第一层输入的关系矩阵，该层使用512×100维权重矩阵，该层输出为标签相关性矩阵。

优选地，分类模型是通过以下步骤训练得到的：

(2-1)获取文本数据集，将该文本数据集进行预处理，并将预处理后的文本数据集按照7：2：1的比例划分为训练集、验证集、以及测试集。

(2-2)对于训练集中的每个待分类文本而言，使用Glove预训练词向量获取该待分类文本的L×d维特征向量W，并将特征向量W输入第一TextCNN网络中，以获得该待分类文本所对应的d维特征向量T，其中L表示该待分类文本的长度；

(2-3)获取训练集中的所有标签，使用Glove预训练词向量将每个标签转换为d维特征向量，所有J个标签对应的特征向量构成J×d维标签向量U，其中J表示文本数据集中的标签总数；

(2-4)对步骤(2-1)所获得的每个待分类文本对应的d维特征向量T、待分类文本单词的L×d维特征向量W、以及步骤(2-3)得到的待分类文本对应的标签向量U在行方向上进行拼接，以得到该待分类文本对应的C×d维特征向量A，其中C＝L+J+1；

(2-5)将步骤(2-4)得到的每个待分类文本对应的C×d维特征向量A分别与3个d×C维的矩阵Q、K、V进行乘法处理，以获得三个C×C维向量q、k、v，并根据得到的C×C维向量q、k、v获得每个待分类文本对应的注意力分数s；

(2-6)对步骤(2-5)得到的每个待分类文本对应的注意力分数s进行处理，以得到该待分类文本对应的C×C维向量

(2-7)将步骤(2-4)得到的每个待分类文本对应的C×d维特征向量A和步骤(2-6)得到的新的C×C维向量

在列方向上进行拼接，以获得每个待分类文本对应的、新的C×(C+d)维特征向量

(2-8)对于训练集中的每个待分类文本而言，根据训练集中每两个标签的共现情况创建该待分类文本对应的概率矩阵P；

(2-9)针对训练集中的每个待分类文本而言，对步骤(2-8)得到的概率矩阵P进行二值化处理，以得到二值化处理后的概率矩阵P：

(2-10)根据步骤(2-9)二值化处理后的概率矩阵P并使用以下公式获取标签共现矩阵

(2-11)针对训练集中的每个待分类文本而言，将步骤(2-7)中得到的该待分类文本对应的C×(C+d)维特征向量

拆分为一个(L+1)×(C+d)维文本表示向量W′和一个J×(C+d)维标签向量U′，并将新的标签向量U′和步骤(2-10)得到的标签共现矩阵

一起输入两层图神经网络GCN中，以得到该待分类文本对应的标签相关性向量H²；

(2-12)针对训练集中的每个待分类文本而言，将步骤(2-11)得到的该待分类文本对应的文本表示向量W′输入第二TextCNN网络中，以获得该待分类文本对应的特征向量F1，将该文本特征向量F1与步骤(2-11)得到的标签相关性向量H²进行点积操作，以得到该待分类文本对应的文本特征向量F。

(2-13)使用步骤(2-12)得到的每个待分类文本对应的文本特征向量F，并使用多标签分类损失函数Loss对分类模型进行迭代训练，直到该分类模型收敛为止，从而得到训练好的分类模型，并获得此时该待分类文本的预测标签。

(2-14)使用步骤(2-1)得到的测试集对步骤(2-13)训练好的分类模型进行验证，直到得到的分类精度达到最优为止，从而得到训练好的分类模型。

优选地，步骤(2-5)中，q＝A×Q，k＝A×K，v＝A×V；

注意力分数s的计算公式如下：

优选地，步骤(2-6)是采用以下公式：

s＝sigmoid(s)

其中t，z∈[1，C]

其中s_tz表示注意力分数s中第t行第z列的值，且有t∈[1，注意力分数s中的行总数]，z∈[1，注意力分数s中的列总数]，sigmoid()和softmax()分别表示sigmoid和softmax函数；

步骤(2-8)中概率矩阵中的每个元素P_ij是采用以下公式计算，其中i，j∈[1，J]：

其中M_ij表示训练集的所有标签中第i个标签和第j个标签在训练集的共现次数，N_i表示训练集的所有标签中第i个标签在训练集中的出现次数。

优选地，步骤(2-9)是采用以下公式：

其中，α∈[0，1]。

步骤(2-10)是采用以下公式：

其中E为J×J维单位矩阵，P_i表示二值化处理后的概率矩阵P的第i行，sum(P_i)表示对二值化处理后的概率矩阵P的第i行进行求和，δ∈[0，1]。

优选地，步骤(2-11)中GCN的输出迭代公式为：

H表示GCN的输出，l表示GCN中卷积层的序号，且l∈[0，1]，当l＝0时，H⁰就是新的标签向量U′，B^l表示GCN网络中第l个卷积层的参数矩阵，f(·)表示非线性激活函数LeakyReLU，且有：

其中，a∈[0，1]。

优选地，多标签分类损失函数Loss为：

Loss＝{l₁，...，l_N}，l_n＝-[y_n·log(σ(x_n))+(1-y_n)·log(1-σ(x_n))]

其中，N表示训练时的批大小值，即每次训练的待分类文本数，n表示标签序号，其为自然数，且n∈[1，J]，y_n表示待分类文本中是否含有第n个标签的真实值，x_n表示待分类文本是否含有标签的预测值，σ(x_n)为sigmoid函数，且有：

按照本发明的另一方面，提供了一种基于注意力机制和GCN的文本多标签分类系统，包括：

第一模块，用于获取待分类文本，对该待分类文本进行预处理，并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量；

第二模块，用于将第一模块得到的多维向量输入到预先训练好的分类模型中，以得到待分类文本的分类结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、由于本发明采用了步骤(2-4)到步骤(2-7)，其使用注意力机制，获得文本、单词和标签之间的语义关系，形成新的特征向量表示，结合TextCNN方法，能够同时考虑语义关系和文本关键部分，提升特征提取能力。因此能够解决现有的多标签分类方法中处理文本语义关系和关键部分难以兼得，从而影响文本分类准确度的技术问题；

2、由于本发明采用了步骤(2-8)到步骤(2-11)，其采用GCN网络构建标签的相关性，在数据驱动方式的基础上，结合文本不同部分对标签的重要程度角度考虑，来实现标签的相关性建模。因此能够解决现有多标签分类方法忽略了文本的不同部分对于预测不同的标签的作用，进而会影响文本分类准确度的技术问题；

3、本发明的方法具有普适性，能够适用于各种情况下的文本多标签分类任务。

附图说明

图1是本发明基于注意力机制和GCN的文本多标签分类方法的整体框架示意图；

图2是本发明基于注意力机制和GCN的文本多标签分类方法的流程图；

图3是本发明中使用的分类模型的网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，利用注意力机制构建文本、单词、标签之间的语义相关性，一方面，汇总文本和标签信息形成新的文本单词表示形式，更充分地进行文本特征提取，另一方面，汇总文本和单词信息形成新的标签表示形式，利用图神经网络进行标签的相关性建模。在两个角度上提升文本多标签分类的效果。

在本发明的实验中，通过在文本多标签分类的数据集上测试，本发明发现在多个数据集上的分类效果均有提升，准确率约提升2％，F1分数约提升1.5％。其原因在于，利用注意力机制形成新的向量表示形式，更充分地挖掘文本信息，利用图神经网络构造了标签的相关性建模进一步提升分类效果。

如图1和图2所示，本发明提供了一种基于注意力机制和GCN的文本多标签分类方法，包括如下步骤：

具体而言，本步骤首先使用正则表达式对待分类文本进行数据清洗，以去除一些特殊符号(例如&、％、#等)，然后使用自然语言处理工具包(Natural Language Toolkit，简称NLTK)对去除了特殊符号后的待分类文本进行处理，以去除其中的停用词并修正其中的单词表示，最后，使用Glove预训练词向量将处理后的待分类文本转换成300维向量。

如图3所示，本发明的分类模型包含依次连接的第一TextCNN网络、注意力网络、第二TextCNN网络以及图卷积网络(Graph Convolutional Network，简称GCN)四个部分。

具体而言，注意力网络包括3层，其结构如下：

第一层是矩阵变换层，输入为C×d维(其中C为自然数，其大小和数据集的文本长度和标签数量有关，文本长度越大，标签数量越多，则C的取值越大，d为常数，通常取300)向量表示，包含文本、单词和标签的向量信息，利用三个d×C维的Q、K、V矩阵，输出3个C×C的q、k、v向量；

GCN网络包括2层，其结构如下：

第一层是图卷积层，其输入为J×d维(其中J为标签数量)标签词向量矩阵和J×J维关系矩阵，该层使用d×512维权重矩阵，该层输出为J×512维标签相关性矩阵；

第二层是图卷积层，其输入为第一层输出的J×512维标签相关性矩阵和第一层输入的J×J维关系矩阵，该层使用512×100维权重矩阵，该层输出为J×100维标签相关性矩阵。

具体而言，本步骤中的分类模型是通过以下步骤训练得到的：

在本步骤中，文本数据集是由从科学网页(Web ofScience)这一网站获取的多个论文信息组成，每个论文信息包含论文摘要和所属学科类别。

本步骤中对文本数据集进行预处理的过程，和上述步骤(1)中预处理的过程完全相同，在此不再赘述；

(2-2)对于训练集中的每个待分类文本而言，使用Glove预训练词向量获取该文本的L×d维特征向量W(其中L表示该文本的长度)，并将特征向量W输入第一TextCNN网络中，以获得该待分类文本所对应的d维特征向量T。

(2-3)获取训练集中的所有标签，使用Glove预训练词向量将每个标签转换为d维特征向量，所有J个标签对应的特征向量构成J×d维标签向量U，其中J表示数据集中的标签总数。

具体而言，q＝A×Q。

k＝R×K

v＝A×V

注意力分数s的计算公式如下：

注意，考虑到不同单词和标签之间的影响程度不同，以及可能存在的干扰，在注意力机制的基础上做了改进，对获得的s，进行如下处理：

具体而言，本步骤是采用以下公式：

s＝sigmoid(s)

其中t，z∈[1，C]

其中s_tz表示注意力分数s中第t行第z列的值，且有t∈[1，注意力分数s中的行总数]，z∈[1，注意力分数s中的列总数]，sigmoid()和softmax()分别表示sigmoid和softmax函数。

经过上述处理，降低了不相关单词和标签之间的注意力分数，减少了噪声干扰。最终获得新的C×C维向量

本步骤的优点在于，首先将文本特征向量、单词向量和标签向量，利用注意力机制构造语义相关性，学习三者之间的重要程度关系，同时，去除相关性较低部分的影响。随后，将注意力机制的结果与原始特征向量拼接，既保留了原本的特征又添加了语义相关性特征，更充分地进行文本特征提取。

具体而言，概率矩阵中的每个元素P_ij是采用以下公式计算，其中i，j∈[1，J]：

具体而言，本步骤是采用以下公式：

其中，α∈[0，1]，其优选取值为0.3。

本步骤的目的，是考虑到标签之间的共现关系可能表现出长尾分布，一些罕见的共现可能是噪声，而且由训练集产生的相关矩阵可能会影响模型的泛化能力。

其中E为J×J维单位矩阵，P_i表示二值化处理后的概率矩阵P的第i行，sum(P_i)表示对二值化处理后的概率矩阵P的第i行进行求和，δ∈[0，1]，其优选取值为0.25。

本步骤的目的，是考虑到在图卷积过程中，节点特征可能会过于平滑，以致于来自不同节点的特征可能变得难以区分。

其中，GCN的输出迭代公式为：

H表示GCN的输出，l表示GCN中卷积层的序号，且l∈[0，1]，当l＝0时，H⁰就是新的标签向量U′，B^l表示GCN网络中第l个卷积层的参数矩阵，f(·)表示非线性激活函数LeakyReLU：

其中，a∈[0，1]，其优选取值为0.2。

本步骤的优点在于，首先获取对于每个待分类文本对应的含有语义关系的标签向量，以及标签之间的概率矩阵，随后利用图神经网路进行标签相关性建模，体现文本标签之间的依赖关系，提升分类效果。

具体而言，文本特征向量

多标签分类损失函数Loss为：

Loss＝{l₁，...，l_N}，l_n＝-[y_n·log(σ(x_n))+(1-y_n)·log(1-σ(x_n))]

其中，N表示训练时的批大小(Batch size)值，即每次训练的待分类文本数，n表示标签序号，其为自然数，且n∈[1，J]，y_n表示待分类文本中是否含有第n个标签的真实值(为1表示包含，为0表示不包含)，x_n表示待分类文本是否含有标签的预测值(以概率值的形式表示)，σ(x_n)为sigmoid函数，可以把x_n映射到(0,1)的区间，且有：

实验结果

本发明的实验环境：在Ubuntu 18.04操作系统下，CPU为Intel(R)Core(TM)i9-10920X，GPU为2块NVIDIA 1080Ti 12GB，内存为64GB DDR4，采用Pytorch编程实现本发明的算法。具体设置如下：batch size大小为256，初始学习率为1e-3。

为了说明本发明方法的有效性以及对于分类效果的提升，在多个数据集上进行了测试，以Paper数据集为例，将本发明得到的测试结果与当前常用的方法进行对比，评估结果如下表1：

表1

注：本发明*表示，仅使用注意力机制考虑语义相关性而未使用GCN的方法。

根据上表1记载的在Paper数据集下的实验结果，可以看到本发明中提出的文本多标签分类方法，在三个指标上都优于现有的方法。在于，本发明提出的基于注意力机制和GCN的文本多标签分类方法，一方面，采用自注意力机制获取文本、单词、标签之间新的向量表示形式，更充分地提取文本特征，另一方面，采用改进的图神经网络，强化文本中单词对于标签的重要程度，提升标签相关性建模效果。本发明提出的方法与现有技术相比，提升了文本多标签分类的效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制和GCN的文本多标签分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于注意力机制和GCN的文本多标签分类方法，其特征在于，步骤(1)首先是使用正则表达式对待分类文本进行数据清洗，以去除特殊符号，然后使用自然语言处理工具包(Natural Language Toolkit，简称NLTK)对去除了特殊符号后的待分类文本进行处理，以去除其中的停用词并修正其中的单词表示，最后使用Glove预训练词向量将处理后的待分类文本转换成300维向量。

3.根据权利要求1或2所述的基于注意力机制和GCN的文本多标签分类方法，其特征在于，

分类模型包含依次连接的第一TextCNN网络、注意力网络、第二TextCNN网络以及GCN网络；

注意力网络的具体结构为：

GCN网络的具体结构为：

4.根据权利要求1至3中任意一项所述的基于注意力机制和GCN的文本多标签分类方法，其特征在于，分类模型是通过以下步骤训练得到的：

(2-1)获取文本数据集，将该文本数据集进行预处理，并将预处理后的文本数据集按照7∶2∶1的比例划分为训练集、验证集、以及测试集。