CN112765352A

CN112765352A - 基于具有自注意力机制的图卷积神经网络文本分类方法

Info

Publication number: CN112765352A
Application number: CN202110082121.5A
Authority: CN
Inventors: 项林英; 王国庆; 陈飞
Original assignee: Northeastern University Qinhuangdao Branch
Current assignee: Northeastern University Qinhuangdao Branch
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-07

Abstract

本发明提供一种基于具有自注意力机制的图卷积神经网络文本分类方法，涉及人工智能和信息技术技术领域。该方法首先获取多个待分类的文本存储到语料库中，同时对待分类的文本进行分词处理获得文本分词序列，并进行预处理；然后使用自注意力机制得到文本分词序列的自注意力机制矩阵；再对所有文本构建图网络结构；对图网络结构进行预处理，计算图的Laplacian矩阵并进行归一化；在图的Laplacian矩阵基础上构建和训练图卷积神经网络模型；最后通过Softmax分类器，得到文本分类结果。该分类方法能够较好地捕捉文本间的语义信息相关性，从而更好地表达出文本信息中的隐含关系，实现对文本的精准分类。

Description

基于具有自注意力机制的图卷积神经网络文本分类方法

技术领域

本发明涉及人工智能和信息技术技术领域，尤其涉及一种基于具有自注意力机制的图卷积神经网络文本分类方法。

背景技术

随着深度学习技术的迅速发展，数据规模呈现出爆炸性增长趋势，越来越多的研究人员将深度学习和神经网络方法应用到图网络结构领域，推动了深度学习研究领域的快速发展。图神经网络是一类基于深度学习的处理图网络结构的方法，且具有较好的性能和可解释性。在短短的几年内，鉴于神经网络在图像、文本领域的广泛应用，一部分研究学者尝试将神经网络方法与图网络结构结合起来，图神经网络研究逐渐成为深度学习领域的热潮。图数据具有很强的局部耦合性，节点之间存在一定的关系，因此图的表示需要包含图的结构信息和特征属性。

文本分类的核心就是从文本中提取分类数据的特征，然后选择合适的分类算法和模型对特征进行建模，从而实现文本分类。文本分类的基础任务是将文档数据转换成计算机能够识别的表达方式，合理有效的文本表示是保证文本分类质量的重要前提。目前文本表示的主要方法分为三大类：第一类是基于传统文本分类技术，由特征提取和分类器分类组成。第二类是基于深度学习方法，通过深度学习方法学习文本中的特征。第三类是基于图结构的表示方法，主要是将文档表示为图网络结构，对文本数据的分析转换为对图数据的分析。尽管这些方法都有各自的优点，但难以保证得到整体分类效果的最优模型。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于具有自注意力机制的图卷积神经网络文本分类方法，将数据库中的文本表示为图网络结构，利用自注意力机制获取分词序列的自注意力机制矩阵，并进行融合降维处理，将自注意力机制矩阵作为图卷积神经网络模型的输入，再经过Softmax分类器输出每个文本的类别。

为解决上述技术问题，本发明所采取的技术方案是：基于具有自注意力机制的图卷积神经网络文本分类方法，包括以下步骤：

步骤1：获取待分类的文本分词序列，并进行预处理；

获取多个待分类的文本存储到语料库中，同时对待分类的文本进行分词处理获得文本分词序列；在文本分词序列中，对无效词或者停止词进行过滤处理；

步骤2：获取过滤处理后的文本分词序列的嵌入矩阵，使用自注意力机制得到文本分词序列的自注意力机制矩阵；

对步骤1中得到的预处理后的文本分词序列进行编码，建立文本词向量，将文本词向量输入到自注意力机制中，得到自注意力机制词向量，并计算各自注意力机制词向量的权重；

根据自注意力机制的查询Query与地址Key，计算各自注意力机制词向量与其邻居自注意力机制词向量之间的相似度，相似度计算函数为Sim_i(Query,Key)＝Query_i·Key_i，其中，Query_i，Key_i分别为第i个自注意力机制词向量的查询和地址；然后使用Softmax函数对各自注意力机制词向量进行归一化处理得到各自注意力机制词向量的概率分布，

其中，α_i为各自注意力机制词向量的概率分布密度，L_x＝||Source||表示文本分词序列的长度，Source表示文本分词序列；对各自注意力机制词向量的Value值进行加权求和，求和通过以下公式来计算：

其中，SAT(Query,Source)表示对自注意力机制词向量的Value值加权求和的结果值；

对加权求和后的自注意力机制词向量，采用随机初始化的词嵌入模型映射获得文本分词序列的嵌入矩阵，并对词嵌入矩阵的各行向量根据对应词的位置进行编码，然后将编码后的嵌入矩阵通过自注意力机制生成文本分词序列的自注意力机制矩阵A＝{a₁,a₂,...,a_m}^T，其中，向量a_i为第i个词的自注意力机制词向量，其包含有词本身和词与词序列中其它词的关联信息；最后，对文本分词序列的自注意力机制矩阵进行降维和融合处理；

步骤3：对语料库中所有文本构建图网络结构；针对一个文本，构建一个具有n个节点、e条边的图网络结构，文本中的词作为图的节点，与一个节点最相似的若干词作为该词的邻居节点，并计算两个词向量的余弦相似度；

构建图G，文本词构建图中的节点n，并在两个节点之间建立一条边，节点共现次数表示为节点边的权重W，若两个节点之间没有数据关联，则不构建边；在图G中，与节点n相连的节点在图G中所有节点的占比为Pe(n,G)，通过公式来计算

其中，P(n,G)表示在图G中与节点n相连接的节点的个数，N_G表示图G中节点总数；

步骤4：对图网络结构进行预处理，计算图的Laplacian矩阵并进行归一化；

对图网络结构进行傅里叶变换，将其从节点域变换到频谱域，在频谱域计算图的Laplacian矩阵；图G中，目标节点的邻接矩阵表示文本分词序列的自注意力机制矩阵，建立文本分词序列与图网络结构之间的联系，目标节点j的邻接矩阵A＝(A_jj′)∈R^N×N是一个对称阵，N表示几何空间的维数；如果图中节点j与节点j′之间有边相连，则A_jj′＝A_j′j＝1(j≠j′)；否则A_jj′＝A_j′j＝0(j≠j)；d_j表示节点j的度，记为

D表示目标节点j的度矩阵，记为D＝diag(d_j)；则图Laplacian矩阵L＝D-A，L＝(L_jj′)∈R^N×N，图Laplacian矩阵归一化定义为

I_n是单位矩阵；

步骤5：构建和训练图卷积神经网络模型；

步骤5.1：在图的Laplacian矩阵L基础上，计算图傅里叶变换，实现图卷积滤波；

步骤5.2：构建图卷积层，得到简化后的图卷积；

基于谱方法的图卷积定义为g_θ*x＝Ug_θU^Tx，其中，x∈R^N为频域上图信号，g_θ＝diag(θ)为由θ∈R^N参数化的滤波器，θ∈R^N是傅里叶系数的矢量，U表示自注意力机制特征向量矩阵；卷积过程需要K个参数，采用K^th阶的切比雪夫多项式展开式逼近频谱滤波器g_θ；

根据对信号x与频谱滤波器g_θ的定义，进一步将图卷积定义为

其中，T_K表示切比雪夫多项式，θ₀,θ₁,...,θ_K表示可学习参数；

λ_max是Laplacian矩阵L的最大特征值，K是多项式阶数，*表示卷积符；

将Laplacian矩阵最大特征值λ_max近似为2，从而得到图卷积为

其中，θ₀′和θ₁′是两个自由参数；设定θ＝θ₀′＝-θ₁′；于是，得到下面的表达式：

其中，

的取值范围是[0,2]，

且

进一步得到简化后的图卷积公式：

步骤5.3：构建图的池化层和全连接层；

对图网络结构完成图卷积操作后，得到新的特征图，构造特征图对应的平衡二叉树，并在池化层对平衡二叉树进行池化处理后，将池化结果输入到全连接层；

步骤6：通过Softmax分类器，得到文本分类结果；

将图卷积神经网络模型全连接层的输出作为Softmax分类器的输入，对Softmax分类器输出的所有值计算Softmax函数值，并选取最大值作为文本的类别。

采用上述技术方案所产生的有益效果在于：本发明提供的基于具有自注意力机制的图卷积神经网络文本分类方法，(1)采用自注意机制获取文本的全局语义信息，自注意力机制可以灵活地捕捉全局和局部的关联信息，捕获有关文本结构的复合特征，并且可以减少模型的训练时间；(2)将通过自注意力机制获取的全局语义信息作为图卷积神经网络模型的输入，图卷积神经网络可以实现参数共享，避免模型过拟合，提高了图卷积神经网络模型的分类性能；(3)使用图网络结构的方式表示文本信息，通过词的相似度构建结构图，较好地捕捉文本间的语义信息相关性，从而更好地表达出文本信息中的隐含关系。

附图说明

图1为本发明实施例提供的基于具有自注意力机制的图卷积神经网络文本分类方法的流程示意图；

图2为本发明实施例提供的基于具有自注意力机制的图卷积神经网络文本分类方法的原理示意图；

图3为本发明实施例提供的自注意力机制示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，基于具有自注意力机制的图卷积神经网络文本分类方法，如图1和2所示，包括以下步骤：

步骤1：获取待分类的文本分词序列，并进行预处理；

本实施例采用的原始数据集来自AG’s news新闻分类文本，其中包含了14652篇新闻，选择体育、科技、文化、娱乐和财经五大类别的新闻，并将其中80％作为训练文本，20％作为测试文本。获取得到数据集{sⁱ,yⁱ}，s表示当前输入样本，y表示输入样本的标签，并将所述数据集分为训练集和测试集。

获取多个待分类的文本存储到语料库中，同时对待分类的文本进行分词处理获得文本分词序列，在中文文本中，词与词之间是连写的，不像英文中，单词与单词自然分离；在文本分词序列中，对无效词或者停止词进行过滤处理；

步骤2：获取训练集中过滤处理后的文本分词序列的嵌入矩阵，使用如图3所示的自注意力机制得到文本分词序列的自注意力机制矩阵；

根据自注意力机制的查询Query与地址Key，计算各自注意力机制词向量与其邻居自注意力机制词向量之间的相似度，相似度计算函数为Sim_i(Query,Key)＝Query_i·Key_i，其中，Query_i，Key_i分别为第i个自注意力机制词向量的查询和地址；然后使用Softmax函数对各自注意力机制词向量进行归一化处理后得到各自注意力机制词向量的概率分布

步骤3：对语料库中所有文本构建图网络结构；构建一个具有n个节点、e条边的图网络结构，文本中的词作为图的节点，与一个节点最相似的若干词作为该词的邻居节点，并计算两个词向量的余弦相似度；

I_n是单位矩阵；

步骤5：构建和训练图卷积神经网络模型；

为了实现后续的图卷积滤波操作，需要计算图的傅里叶变换；图Laplacian矩阵L是一个实对称半正定矩阵，它有一个正交特征向量集

称为图傅立叶模型，在图的傅里叶变换中

看作是图的频率；

步骤5.2：构建图卷积层，得到简化后的图卷积；

基于谱方法的图卷积定义为g_θ*x＝Ug_θU^Tx，其中，x∈R^N为频域上图信号，g_θ＝diag(θ)为由θ∈R^N参数化的滤波器，θ∈R^N是傅里叶系数的矢量，U表示自注意力机制特征向量矩阵；卷积过程需要K个参数，采用高达K^th阶的切比雪夫多项式展开式逼近频谱滤波器g_θ；

λ_max是Laplacian矩阵L的最大特征值，K是多项式阶数，*表示卷积符；切比雪夫多项式定义为T_K(X)＝2XT_K-1(X)-T_K-2(X)，满足T₀(X)＝1，T₁(X)＝X；

使用K层局部卷积来定义图卷积神经网络，从而消除计算Laplacian特征向量的需要，将Laplacian矩阵最大特征值λ_max近似为2，从而得到图卷积为

其中，

的取值范围是[0,2]，

且

进一步得到简化后的图卷积公式：

步骤5.3：构建图的池化层和全连接层；

步骤6：通过Softmax分类器，得到文本分类结果；

本实施例最后还通过预测集中文本对图卷积神经网络模型进行分类预测与验证。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于具有自注意力机制的图卷积神经网络文本分类方法，其特征在于：包括以下步骤：

步骤1：获取多个待分类的文本存储到语料库中，同时对待分类的文本进行分词处理获得文本分词序列；并对文本分词序列的无效词或者停止词进行过滤处理；

步骤4：对图网络结构进行预处理，计算图的Laplacian矩阵并进行归一化；步骤5：构建和训练图卷积神经网络模型；

步骤5.1：在图的Laplacian矩阵基础上，计算图傅里叶变换，实现图卷积滤波；

步骤5.2：构建图卷积层，并得到简化后的图卷积；步骤5.3：构建图的池化层和全连接层；步骤6：通过Softmax分类器，得到文本分类结果；

2.根据权利要求1所述的基于具有自注意力机制的图卷积神经网络文本分类方法，其特征在于：所述步骤2的具体方法为：

对加权求和后的自注意力机制词向量，采用随机初始化的词嵌入模型映射获得文本分词序列的嵌入矩阵，并对词嵌入矩阵的各行向量根据对应词的位置进行编码，然后将编码后的嵌入矩阵通过自注意力机制生成文本分词序列的自注意力机制矩阵A＝{a₁,a₂,...,a_m}^T，其中，向量a_i为第i个词的自注意力机制词向量，其包含有词本身和词与词序列中其它词的关联信息；最后，对文本分词序列的自注意力机制矩阵进行降维和融合处理。

3.根据权利要求2所述的基于具有自注意力机制的图卷积神经网络文本分类方法，其特征在于：所述步骤3的具体方法为：