CN112598044B

CN112598044B - 一种基于多通道图卷积的文本分类方法

Info

Publication number: CN112598044B
Application number: CN202011495609.2A
Authority: CN
Inventors: 苏勤亮; 欧宏宇
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2024-04-02
Anticipated expiration: 2040-12-17
Also published as: CN112598044A

Abstract

本发明提供一种基于多通道图卷积的文本分类方法，该方法从不同角度对文本节点和单词节点建立多个图，可以对单词节点间的同质性进行更全面的建模。对每个图都在一个对应的通道内进行卷积，并且在每一层图卷积网络中，同一节点在不同通道中的特征信息可以相互交流，并用门机制控制信息交流的通过量，提高特征提取的效果。

Description

一种基于多通道图卷积的文本分类方法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种基于多通道图卷积的文本分类方法。

背景技术

文本分类是自然语言处理中最基本的任务，有着重要的研究意义和巨大的实用价值。其应用场景十分广泛，包括主题分类、情感分类、问题分类、意图分类等等。目前已有的研究文本分类的方法主要包括传统机器学习的方法，以及深度学习方法，如基于卷积神经网络的方法、基于递归神经网络的方法、基于注意力机制的方法，以及以上方法的集成。

传统机器学习方法通常是对文本提取TF-IDF特征或词袋特征，然后交给回归模型进行学习。回归模型有很多，例如支持向量机，贝叶斯等。深度学习方法用单词嵌入向量表示文本中的单词。基于卷积神经网络的方法将卷积神经网络应用在文本上，用多个滤波器对文本进行一维卷积，提取文本的局部语义信息，然后使用最大值池化操作，捕捉最显著的特征。最后讲这些特征输入全连接层，得到标签的概率分布。

基于递归神经网络的方法利用递归神经网络提取文本的序列信息。常用的递归神经网络有RNN、LSTM、GRU等。将一段文本输入到单向或双向的递归神经网络中，得到文本的表示用于分类，文本的表示可以是递归神经网络的末端输出，也可以是对递归过程中的输出序列通过池化得到。有的做法直接将递归神经网络应用在整段的文本中，也有层级结构的表示学习，先学习句子表示，再在句子表示上学习文本表示。

注意力机制的用法类似递归神经网络，基于注意力机制的方法主要是为了克服递归神经网络对于长序列无法全部记住，难并行化的缺点。transformer模型使用多层的自注意力加前向网络，实现编码器-解码器模型。Transformer以及基于transformer模型改良的各种模型(例如bert)可以用在包括文本分类在内的多个自然语言处理任务上。

发明内容

本发明提供一种基于多通道图卷积的文本分类方法，该方法从不同角度对文本节点和单词节点建立多个图，可以对单词节点间的同质性进行更全面的建模。

为了达到上述技术效果，本发明的技术方案如下：

一种基于多通道图卷积的文本分类方法，包括以下步骤：

S1：从单词相似性和相关性角度构造文本之间的关系图；

S2：利用S1得到的多个关系图进行多通道图卷积；

S3：在S1的多通道图卷积过程中让同一节点在不同通道间交流信息，并用门机制控制节点信息在交流时通过量。

进一步地，所述步骤S1的具体过程是：

将全部文本中出现的单词汇集成一个词典，然后构建由单词和文本节点组成的无向异构图，图中每个文本是一个节点，每个单词也是一个节点，对文本数据建立两个异构图，文本与其中出现的单词建立连边，边权值为文本与单词间的TF-IDF值；单词间分别根据相关性和相似性建立连边，相关性通过单词间的点互信息PMI值定义，相似性通过单词间的GloVe向量的余弦相似度定义，当单词间的值大于一阈值时建立连边，如公式(1)：

其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。

进一步地，PMI用于评价单词间的相关性，其计算方式为：

PMI基于滑动窗口进行统计，其中W(i)是含有单词i的滑动窗口，W(i,j)指同时含有单词i，j的滑动窗口，W则是全部滑动窗口数量。

进一步地，所述步骤S2中：

将各节点的特征向量分别设置为one-hot向量，将步骤S1中构造的两个图作为不同的卷积通道，将节点特征输入到这两个通道中分别分布应用GCN进行图卷积提取特征，所使用的两层GCN模型的表达式如公式(2)：

其中表示标准化后的邻接矩阵，X各节点特征向量表示输入，W₀、W₁表示线性变换矩阵。

进一步地，所述步骤S2中：

对两个通道的输出结果进行融合如公式(3)：

Z＝softmax(max_pooling(GCN(X,G₁),GCN(X,G₂))) (3)

其中G₁、G₂是步骤S1构建的两个图，用于建立GCN的邻接矩阵将两路输出进行最大值池化，并进行softmax操作得到最终的分类结果，各通道的GCN不共享参数。

进一步地，所述步骤S3的具体过程是：

在两个图卷积的通道之间，加入信息交流，并用门机制控制信息的流通。同一节点在不同通道内交换信息，具体如公式(4)：

其中表示第p层第i通道的节点特征向量，节点接收其他通道同节点的特征向量信息，gate是门机制，其实现相当于一个单层的全连接神经网络，用于控制特征向量各个维度接收信息的多少，gate的公式如(5)：

其中W_ij是i，j通道之间的线性变换矩阵，B_ij是偏移矩阵。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法从不同角度对文本节点和单词节点建立多个图，可以对单词节点间的同质性进行更全面的建模。对每个图都在一个对应的通道内进行卷积，并且在每一层图卷积网络中，同一节点在不同通道中的特征信息可以相互交流，并用门机制控制信息交流的通过量，提高特征提取的效果。

附图说明

图1为文本节点和单词节点组成的异构图示意图；

图2为本方法网络结构示意图；

图3为基于门机制的信息交流示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于多通道图卷积的文本分类方法，包括以下步骤：

S1：从单词相似性和相关性角度构造文本之间的关系图；

S2：利用S1得到的多个关系图进行多通道图卷积；

如图1所示，步骤S1的具体过程是：

其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。

进一步地，PMI用于评价单词间的相关性，其计算方式为：

如图2所示，步骤S2中：

其中表示标准化后的邻接矩阵，X各节点特征向量表示输入，W₀、W₁表示线性变换矩阵；

对两个通道的输出结果进行融合如公式(3)：

Z＝softmax(max_pooling(GCN(X,G₁),GCN(X,G₂))) (3)

如图3所示，所述步骤S3的具体过程是：

其中W_ij是i，j通道之间的线性变换矩阵，B_ij是偏移矩阵。

本实施例采用的正常数据数据集分别是R8、R52、ohsumed、mr数据集，R8数据集包含8个类别，2189条数据；R52数据集包含52个类别，2568条数据；ohsumed数据集包含23个类别，4043条数据；mr数据集包含2个类别，3554条数据；均以8：1：1比例划分训练集、验证集和测试集。

本发明方法具体步骤为：

第一步，将全部文本中出现的单词汇集成一个词典，然后构建由单词和文本节点组成的无向的异构图。图中每个文本是一个节点，每个单词也是一个节点。对文本数据建立两个异构图，在这两个图中文本与其中出现的单词建立连边，边权值都为TF-IDF值。单词间分别根据相关性和相似性建立连边，相关性通过单词间的PMI值定义，相似性通过单词间的GloVe向量的余弦相似度定义，当单词间的值大于一阈值时建立连边。两个图中每个节点都建立自连接连边，边权值为1。

第二步，将各节点用one-hot向量表示，并分别输入到S1中构造的两个图中，应用两层GCN进行图卷积提取特征。GCN网络层的表达式为其中/>表示标准化后的邻接矩阵，H表示输入，W表示线性变换矩阵。

第三步，在两个图卷积的通道之间，对同一节点在不同通道中的特征信息进行信息交流，并用门机制控制信息的流通。信息交流的具体过程为：其中/>表示第p层第i通道的节点特征向量，节点接收其他通道同节点的特征向量信息，gate是门机制，用于控制接收信息的多少。gate的公式为：/>其中W_ij是i，j通道之间的线性变换矩阵，B_ij是偏移矩阵。

第四步，对两个通道输出的特征进行最大值池化操作进行融合，再对融合的特征进行softmax操作得到文本节点的分类结果。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多通道图卷积的文本分类方法，其特征在于，包括以下步骤：

S1：从单词相似性和相关性角度构造文本之间的关系图；

S2：利用S1得到的多个关系图进行多通道图卷积；

S3：在S1的多通道图卷积过程中让同一节点在不同通道间交流信息，并用门机制控制节点信息在交流时通过量；

所述步骤S3的具体过程是：

在两个图卷积的通道之间，加入信息交流，并用门机制控制信息的流通，同一节点在不同通道内交换信息，具体如公式(4)：

其中W_ij是i，j通道之间的线性变换矩阵，B_ij是偏移矩阵。

2.根据权利要求1所述的基于多通道图卷积的文本分类方法，其特征在于，所述步骤S1的具体过程是：

其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。

3.根据权利要求2所述的基于多通道图卷积的文本分类方法，其特征在于，PMI用于评价单词间的相关性，其计算方式为：

4.根据权利要求3所述的基于多通道图卷积的文本分类方法，其特征在于，所述步骤S2中：

5.根据权利要求4所述的基于多通道图卷积的文本分类方法，其特征在于，所述步骤S2中：

对两个通道的输出结果进行融合如公式(3)：

Z＝softmax(max_pooling(GCN(X,G₁),GCN(X,G₂))) (3)