CN113297385B

CN113297385B - 基于改进GraphRNN的多标签文本分类系统及分类方法

Info

Publication number: CN113297385B
Application number: CN202110853595.5A
Authority: CN
Inventors: 刘汉东; 钟学燕; 陈雁; 王欣
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-09-28
Anticipated expiration: 2041-07-28
Also published as: CN113297385A

Abstract

本发明公开了一种基于改进GraphRNN的多标签文本分类系统及分类方法，所述分类系统包括编码器、由改进GraphRNN构成的解码器和Graph2Seq模块构成；采用上述系统对多标签文本分类方法如下：步骤1：将原始样本的标签集转换为标签图；步骤2：文本预处理，包括分词、词语向量化、划分数据集；步骤3：划分数据集，分为训练集、验证集、测试集；步骤4：训练分类系统，在验证集上调整超参数前驱节点数，再在测试集上测试；步骤5：将新样本送入训练好的分类系统，预测对应的标签结果。本发明将多标签分类转换为图生成问题，可缓解标签顺序带来的影响，图生成分为节点生成和边生成，可分别建模标签关联和标签关联程度。

Description

基于改进GraphRNN的多标签文本分类系统及分类方法

技术领域

本发明属于信息技术领域，涉及自然语言处理、文本分类及多标签分类，具体涉及一种基于改进GraphRNN的多标签文本分类系统及分类方法。

多标签分类是机器学习领域中一个重要的学习任务，被广泛应用于文本分类、图像标注、推荐系统等实际场景。在多标签分类问题中，样本可以被分配到多个标签上。假设样本空间

，

表示

维的实数空间，标签空间

，

表示某个标签，

，当前数据集为

，

表示样本总数，

表示某样本输入信息，

表示某样本对应的标签。多标签分类任务就是从数据中学习一个决策函数

，使得每个文本被分配到一组标签上去。当标签空间较大时，输出空间会出现指数级增长，而利用标签关联可以减小多标签分类难度。

从利用标签关联的角度出发，目前多标签分类方法主要可分为三种：1、一阶方法，典型算法如Binary Relevance、ML-KNN，这类方法简单有效，但忽略了标签关联；2、二阶方法，典型算法如Rank-SVM、Calibrated Label Ranking，这类方法只考虑标签对两两之间的联系，如排序问题中相关标签和不相关标签的排列关系；3、高阶方法，这类方法能建模多个标签之间的关联，但需要预定义顺序，存在累计误差，典型的传统算法如ClassifierChains、Ensemble Classifier Chains。

在以上三类方法中，目前围绕高阶方法展开的研究居多。由于循环神经网络在处理序列数据上的表现优异，近年来不少研究利用循环神经网络建模标签高阶关联，在序列到序列（Sequence to Sequence，Seq2Seq）模型下将多标签分类转换为序列生成问题，但模型易受标签顺序影响。为缓解标签顺序带来的影响，有研究将多标签分类视为标签集合预测，但无法区分标签关联程度，而标签间关联应有不同程度之分。

总的来说，现有的多标签分类方法，在建模标签高阶关联时，要么受标签顺序限制，要么没有考虑标签关联的具体程度。

发明内容

本发明针对多标签分类中如何利用标签关联的问题，提出了一种基于改进GraphRNN的多标签文本分类系统及分类方法，根据标签共现关系构建标签图数据，将多标签分类转换为标签图生成问题，可避免预定义标签顺序；利用标签共现信息，建模标签关联程度，可以更细致地建模标签关联。

为解决上述技术问题，本发明采用的技术方案如下：

一种基于改进GraphRNN的多标签文本分类系统，所述分类系统包括编码器、解码器和Graph2Seq模块，输入信息由编码器进行编码，送入解码器生成标签图，再由Graph2Seq模块将生成的标签图转换为标签集；

所述解码器由改进GraphRNN构成，具体是：基于GraphRNN图生成模型并对其进行改进，改进GraphRNN由节点生成和边生成组成，其中，所述节点生成添加softmax模块后生成标签节点，建模标签关联，所述边生成由二分类改为多分类，建模标签不同的关联程度，具体如下：

所述节点生成为：

节点生成以“<BOS>”作为初始输入节点，第

时刻，输入包括

、

、

，输出为节点概率分布

，表示预测当前时刻节点为不同标签的概率，

为当前时刻预测节点，

为当前时刻以前预测出的所有节点，

为单个样本的文本信息；

为前一时刻预测节点的嵌入信息，

为“<BOS>”的嵌入信息，

为预测当前时刻节点时通过注意力机制从编码信息中获得的上下文信息，

为前一时刻的隐状态；

计算过程如下式所示，

为

对于编码器第

时刻的隐状态

的注意力大小，

为编码器的最后一个时刻，score函数用于计算

和

之间的注意力分数， softmax模块将输入向量转换为各元素在(0，1)之间且和为1的输出向量，tanh函数为一种非线性激活函数，

、

、

均为将要学习的神经网络参数；

及

计算分别如下式所示；

GRU为门控循环单元，

表示图节点个数，初始隐状态

为编码器最后时刻的隐状态

，

表示将要学习的神经网络参数；下标enc的表示编码过程，下标node的表示节点生成过程，

表示编码过程中的隐状态，

表示节点生成过程中的隐状态；根据节点概率分布

，选择概率最大的标签作为第

时刻的预测节点

，用于后续边生成的节点嵌入从而得到

；

所述边生成为：

在预测出节点

以后，开始进行边生成，初始输入为“<BOS>”，每个时间步为多分类问题，边生成完毕时得到

对应的邻接向量

，

指

与前驱节点的连边关系，前驱节点即第

时刻以前生成的节点

；假定第一个节点

对应的邻接向量均为零向量；边生成第

步时，输入包括

、

、

，输出为连边概率分布

，下标edge表示边生成过程，

表示边生成过程中的隐状态；

表示

和

拼接后的向量，见下式：

表示节点生成过程中第

时刻预测节点

的嵌入信息，

表示第

步时预测边的嵌入信息，

为“<BOS>”的嵌入信息；

表示预测当前边时通过注意力机制从编码信息中获得的上下文信息，隐状态

如下式所示，初始化为编码器最后时刻

的隐状态

，

表示前驱节点个数，对应于邻接向量

的元素个数；

经过softmax模块得到第

步连边概率分布，如下式所示，

为节点

与节点

的连边信息，

为节点

与第

步以前的前驱节点的连边信息，

表示要学习的神经网络参数；

当预测节点标签为“<EOS>”时，图生成完毕，得到节点集合

和邻接向量集合

，根据V和S还原邻接矩阵，据此得到标签图。

进一步地，所述编码器具体为：

单个样本的文本信息

，文本信息中

表示某一个词，

；单个样本的文本信息经过门控循环单元进行编码，第

个时刻，词

经过词嵌入得到

作为输入，隐状态

更新如下式所示；

在0时刻，隐状态

初始化为0。

进一步地，所述Graph2Seq模块具体为：根据改进GraphRNN得到的标签图，Graph2Seq模块在标签图上进行广度优先搜索得到最终的标签集，作为多标签分类结果。

一种基于改进GraphRNN的多标签文本分类系统的分类方法，包括以下步骤：

步骤1：将原始样本的标签集转换为标签图；

步骤2：文本预处理，包括分词、词语向量化、划分数据集；

步骤3：划分数据集，分为训练集、验证集、测试集；

步骤4：训练分类系统，在验证集上调整超参数前驱节点个数T，再在测试集上测试；

步骤5：将新样本送入训练好的分类系统，预测对应的标签结果。

进一步地，所述步骤1具体为：

将单个样本的所有标签对视为共现标签对，对于

个样本，统计标签频次、标签对共现频次，标签间的共现程度定义为标签之间的正点互信息，标签之间的正点互信息用 PPMI表示，不同标签

和

之间的正点互信息表示为

，计算如下式所示，

和

表示来源于标签空间

的不同标签，

，

，且

，

为标签空间

的大小，

表示概率；

根据

，得到标签共现矩阵

；

根据

及划分区间确定标签连边，标签连边用

表示，

为节点

与

的连边大小，即关联程度，

，

，且

，节点

和

代表的标签在

中对应的索引分别为

和

，

计算如下式所示，

，

，表示标签共现程度阈值，采用

表示标签共现矩阵

中第

行第

列的元素；

标签连边确定之后构建标签图。

进一步地，在步骤3中，将数据集进行随机划分，数据集中80%数量的数据作为训练集，而验证集和测试集各为10%数量的数据。

与现有技术相比，本发明的有益效果是：将多标签分类转换为图生成问题，可缓解标签顺序给模型带来的影响，提升了预测结果在instance-F1和label-F1指标的表现效果，不仅可以建模标签关联，还可以建模标签关联程度，从而更细致地建模标签关联。

附图说明

图1是本发明多标签文本分类系统示意图。

图2是基于本发明分类系统的分类方法流程图。

图3是将单个文本的所有标签对视为共现标签对示意图。

图4是本发明中展示的标签集转换为标签图的过程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

一、多标签文本分类系统组成

本发明分类系统由编码器（Encoder）、解码器（改进GraphRNN）和Graph2Seq构成。本发明系统框架如图1所示，输入信息由Encoder进行编码，送入改进GraphRNN进行标签图生成，最后Graph2Seq将生成的标签图转换为标签集，作为分类结果。

1、编码器（Encoder）

负责对输入文本信息进行编码。单个样本的文本信息

，文本信息中

表示某一个词，

；

单个样本的文本信息经过GRU进行编码，第

个时刻，词

经过词嵌入得到

作为输入，隐状态

更新如式（1）所示，下标enc表示边生成过程，在0时刻，隐状态

初始化为0。

2、解码器（改进GraphRNN）

GraphRNN是You等提出的图生成模型，包括节点生成（Node-level RNN）和边生成（Edge-level RNN）两部分，但缺少节点输出模块，并且GraphRNN中的边生成为二分类问题，无法区分多种标签关联程度，因此本发明通过改进GraphRNN，使其既能输出节点也能输出邻接向量。改进GraphRNN同样由节点生成（Node-level RNN）和边生成（Edge-level RNN）组成，改进点包括两个方面：

节点生成添加softmax模块后生成标签节点，建模标签关联；

边生成由二分类改为多分类，可以建模标签不同的关联程度。

（1）Node-level RNN：节点生成以“<BOS>”作为初始输入节点，第

时刻，输入包括

、

、

，输出为节点概率分布

，表示预测当前时刻节点为不同标签的概率，

为当前时刻预测节点，

为当前时刻以前预测出的所有节点，

为单个样本的文本信息。其中，下标node表示节点生成过程，

为前一时刻预测节点的嵌入信息，

为“<BOS>”的嵌入信息，

为前一时刻的隐状态。

计算过程如式（2）~（4）所示，

为

对于编码器第

时刻的隐状态

的注意力大小，

为编码器的最后一个时刻，score函数用于计算

和

之间的注意力分数，softmax可将输入向量转换为各元素在(0, 1)之间且和为1的输出向量，tanh函数为一种非线性激活函数，

、

、

均为将要学习的神经网络参数。

及

计算分别如式（5）、（6）所示，GRU为门控循环单元，

表示图节点个数，初始隐状态

为编码器最后时刻的隐状态

，

表示将要学习的神经网络参数。下标enc的表示编码过程，下标node的表示节点生成过程，

表示编码过程中的隐状态，

表示节点生成过程中的隐状态；根据节点概率分布

，选择概率最大的标签作为第

时刻的预测节点

，用于后续边生成的节点嵌入从而得到

。

（2）Edge-level RNN：在预测出节点

以后，开始进行边生成，初始输入为“<BOS >”，每个时间步为多分类问题，即预测当前节点与前驱节点的关联程度，边生成完毕时得到

对应的邻接向量

，

指

与前驱节点的连边关系，前驱节点即第

时刻以前生成的节点

。在图1中，边生成过程从第2个节点开始，这是因为第一个节点

不存在前驱节点，无法进行边生成，因此在本发明中考虑设置

对应的邻接向量均为零向量。边生成第

步时，输入包括

、

、

，输出为连边概率分布

，下标edge表示边生成过程。

表示

和

拼接后的向量，见式（7），

表示节点生成过程中第

时刻预测节点

的嵌入信息，

表示第

步时预测边的嵌入信息，

为“<BOS>”的嵌入信息。

表示预测当前边时通过注意力机制从编码信息中获得的上下文信息，计算方法与

类似，隐状态

如式（8）所示，初始化为编码器最后时刻

的编码信息

，

表示前驱节点个数，对应于邻接向量

的元素个数。

经过softmax得到第

步连边概率分布，如式（9）所示，

为节点

与节点

的连边信息，

为节点

与第

步以前的前驱节点的连边信息，

表示要学习的参数。

在图1中，当预测节点标签为“<EOS>”时，图生成完毕，得到节点集合

和邻接向量集合

，根据V和S还原邻接矩阵，据此得到标签图。

3、Graph2Seq模块

Graph2Seq模块将生成的标签图转换为标签集，作为分类结果。具体地，由改进 GraphRNN生成的节点集合

和邻接向量集合

可以还原邻接矩阵，进而得到标签图，在标签图上以

中的第一个节点

作为起始节点进行广度优先搜索（Breadth-First Search，BFS）得到标签序列作为分类结果。在图1中，Graph2Seq模块根据图生成结果构建邻接矩阵，进而画出由标签A、B、C和D构成的标签图，在图上进行BFS得到最终的标签集{A，B，D，C}，作为多标签分类结果。

二、原理说明

为了将seq2seq用于多标签分类时减少标签顺序带来的影响，本发明将多标签视为集合，为了描述这种集合，本发明使用标签图来表示标签集。将节点集合表示为

，节点对应的邻接向量集合表示为

，则标签图

，当考虑输入单个样本的文本信息

时，标签图

的条件概率表示为

，如式（10）所示。

在式（10）中，

表示某种节点顺序，

表示图节点个数，

表示第

个节点，

表示

对应的邻接向量，

表示

中第

个元素，

表示

元素个数，即前驱节点个数。训练目标如式（11）所示，

表示样本总数，

表示第

个样本的文本信息，

表示第

个样本的标签图。

三、基于改进GraphRNN的多标签分类流程

如图2所示，基于改进GraphRNN的多标签分类流程包括如下几个步骤：

1、数据转换：将原始样本的标签集转换为标签图；

在建立分类系统之前，需要将文本对应的原始标签集转换为标签图

，

表示节点集合，

表示边集合。其中节点

表示标签，标签连边

表示

与

的关联程度，可通过标签共现信息进行描述，具体做法为根据标签共现大小划分多个区间，不同的区间对应不同的标签关联程度，从而表示标签之间的连边大小。如图3所示，将单个样本的所有标签对视为共现标签对，对于

个样本，统计标签频次、标签对共现频次，标签间的共现程度定义为标签之间的正点互信息，标签之间的正点互信息用PPMI表示，PPMI可衡量两个标签间的相关性，不同标签

和

之间的正点互信息表示为

，计算如式（12）所示，

和

表示来源于标签空间

的不同标签，

，

，且

，

为标签空间

的大小，

表示概率。

根据

，得到标签共现矩阵得到标签共现矩阵

，其保存了标签两两之间的共现信息，值越大表示二者关联程度越大。最后，根据

及划分区间确定标签连边，标签连边用

表示，

为节点

与

的连边大小，即关联程度，

，

，且

，节点

和

代表的标签在

中对应的索引分别为

和

，

计算如式（13）所示，

，

，表示标签共现程度阈值，值越大关联程度越大，0表示不存在连边，即标签关联程度较低，以此对标签关联程度进行区分，采用

表示标签共现矩阵

中第

行第

列的元素。

标签连边确定之后即可构建标签图，图4展示了标签集{A，B，C}转换为标签图的过程。

2、文本预处理：分词，词语向量化，划分数据集；

3、划分数据集：将数据集进行随机划分，数据集中80%数量的数据作为训练集，而验证集和测试集各为10%数量的数据；

4、训练、测试分类系统；

训练分类系统，在验证集上调整超参数前驱节点个数

(AAPD数据集

取3时最佳， SLASHDOT数据集

取4时最佳)，最后在测试集上测试，对比实验结果如表1所示，本发明所提出的改进GraphRNN在instance-F1和label-F1上表现最佳，instance-F1和label-F1分别度量样本和标签的F1值，值越大越好，如式（14）、（15）所示，

表示样本总数，

表示标签空间大小，

表示第

个样本的真实标签集是否包含标签空间

中索引为

的标签，若包含则值为1，反之为0，

表示第

个样本的预测标签结果是否包含标签空间

中索引为

的标签，若包含则值为1，反之为0；

对比方法说明如下：

(1) Binary Relevance（BR）：将多标签分类问题转换为二分类问题，没有利用标签之间的相关性。

(2) Classifier Chains（CC）：将多个BR级联起来，前一分类器输出作为后一分类器输入，该方法能考虑到标签之间的高阶关联。

(3) Ensemble Classifier Chains（ECC）：在Classifier Chains的基础上，选择不同的标签顺序，结合集成学习训练分类系统。

(4) seq2seq-GRU：在seq2seq模型下基于GRU，按标签频次降序训练分类系统，生成多标签序列。

(5) set-RNN：将多标签视为标签集合，直接生成多标签集合。

(6)改进GraphRNN：本发明方法，将原始问题转换为标签图生成问题，在图上进行BFS得到分类结果。

5、将新样本送入训练好的分类系统，预测对应的标签结果。

本发明将多标签分类问题转换为图生成问题，因此在训练分类系统之前，需要将原始样本标签集转换为与之对应的标签图，进一步训练分类系统。模型训练完成后，即可用于预测新样本的标签。

Claims

1.一种基于改进GraphRNN的多标签文本分类系统，所述分类系统包括编码器、解码器和Graph2Seq模块，输入信息由编码器进行编码，送入解码器生成标签图，再由Graph2Seq模块将生成的标签图转换为标签集；其特征在于：

所述解码器由改进GraphRNN构成，具体是：

基于GraphRNN图生成模型并对其进行改进，改进GraphRNN由节点生成和边生成组成，其中，所述节点生成添加softmax模块后生成标签节点，建模标签关联，所述边生成由二分类改为多分类，建模标签不同的关联程度，具体如下：

所述节点生成为：

节点生成以“<BOS>”作为初始输入节点，第

时刻，输入包括

、

、

，输出为节点概率分布

，表示预测当前时刻节点为不同标签的概率，

为当前时刻预测节点，

为当前时刻以前预测出的所有节点，

为单个样本的文本信息；

为前一时刻预测节点的嵌入信息，

为“<BOS>”的嵌入信息，

为前一时刻的隐状态；

计算过程如下式所示，

为

对于编码器第

时刻的隐状态

的注意力大小，

为编码器的最后一个时刻，score函数用于计算

和

、

、

均为将要学习的神经网络参数；

及

计算分别如下式所示；

GRU为门控循环单元，

表示图节点个数，初始隐状态

为编码器最后时刻的隐状态

，

表示编码过程中的隐状态，

表示节点生成过程中的隐状态；根据节点概率分布

，选择概率最大的标签作为第

时刻的预测节点

，用于后续边生成的节点嵌入从而得到

；

所述边生成为：

在预测出节点

对应的邻接向量

，

指

与前驱节点的连边关系，前驱节点即第

时刻以前生成的节点

；假定第一个节点

对应的邻接向量均为零向量；边生成第

步时，输入包括

、

、

，输出为连边概率分布

，下标edge表示边生成过程，

表示边生成过程中的隐状态；

表示

和

拼接后的向量，见下式：

表示节点生成过程中第

时刻预测节点

的嵌入信息，

表示第

步时预测边的嵌入信息，

为“<BOS>”的嵌入信息；

如下式所示，初始化为编码器最后时刻

的隐状态

，

表示前驱节点个数，对应于邻接向量

的元素个数；

经过softmax模块得到第

步连边概率分布，如下式所示，

为节点

与节点

的连边信息，

为节点

与第

步以前的前驱节点的连边信息，

表示要学习的神经网络参数；

当预测节点标签为“<EOS>”时，图生成完毕，得到节点集合

和邻接向量集合

,根据V和S还原邻接矩阵，据此得到标签图。

2.根据权利要求1所述的一种基于改进GraphRNN的多标签文本分类系统，其特征在于，所述编码器具体为：

单个样本的文本信息

,文本信息中

表示某一个词，

；单个样本的文本信息经过门控循环单元进行编码，第

个时刻，词

经过词嵌入得到

作为输入，隐状态

更新如下式所示；

在0时刻，隐状态

初始化为0。

3.根据权利要求2所述的一种基于改进GraphRNN的多标签文本分类系统，其特征在于，所述Graph2Seq模块具体为：根据改进GraphRNN得到的标签图，Graph2Seq模块在标签图上进行广度优先搜索得到最终的标签集，作为多标签分类结果。

4.根据权利要求3所述的一种基于改进GraphRNN的多标签文本分类系统的分类方法，其特征在于，包括以下步骤：

步骤1：将原始样本的标签集转换为标签图；

步骤2：文本预处理，包括分词、词语向量化、划分数据集；

步骤3：划分数据集，分为训练集、验证集、测试集；

5.根据权利要求4所述的一种基于改进GraphRNN的多标签文本分类系统的分类方法，其特征在于，所述步骤1具体为：

将单个样本的所有标签对视为共现标签对，对于

个样本，统计标签频次、标签对共现频次，标签间的共现程度定义为标签之间的正点互信息，标签之间的正点互信息用PPMI表示，不同标签

和

之间的正点互信息表示为

，计算如下式所示，

和

表示来源于标签空间

的不同标签，

，

，且

，

为标签空间

的大小，

表示概率；

根据

，得到标签共现矩阵

；

根据

及划分区间确定标签连边，标签连边用

表示，

为节点

与

的连边大小，即关联程度，

，

，且

，节点

和

代表的标签在

中对应的索引分别为

和

，

计算如下式所示，

，

，表示标签共现程度阈值，采用

表示标签共现矩阵

中第

行第

列的元素；

标签连边确定之后构建标签图。

6.根据权利要求5所述的一种基于改进GraphRNN的多标签文本分类系统的分类方法，其特征在于，在步骤3中，将数据集进行随机划分，数据集中80%数量的数据作为训练集，而验证集和测试集各为10%数量的数据。