CN113806488B

CN113806488B - 一种基于元结构学习的异构图转换的文本挖掘方法

Info

Publication number: CN113806488B
Application number: CN202111121124.1A
Authority: CN
Inventors: 王书海; 彭浩; 刘明瑞; 刘欣
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2024-02-02
Anticipated expiration: 2041-09-24
Also published as: CN113806488A

Abstract

本发明公开一种基于元结构学习的异构图转换的文本挖掘方法，包括针对文本数据，提取文本中的信息构造异构信息网络图；通过图转换层，以获取元路径来捕捉节点间的关系；通过建立通道型哈达玛积模块提取出元图结构，从而捕捉节点之间同时存在的多种交互情况；对提取出的包含元路径和元图的元结构使用图卷积网络，生成节点嵌入；利用获得的节点嵌入挖掘下游文本。本发明能够适用于复杂的文本识别环境，有效避免语义信息的丢失，能够获得丰富完整的语义信息。

Description

一种基于元结构学习的异构图转换的文本挖掘方法

技术领域

本发明属于文本挖掘技术领域，特别是涉及一种基于元结构学习的异构图转换的文本挖掘方法。

背景技术

随着互联网技术的发展，全球信息化数据呈现出爆发增长、海量集聚、传播迅速等特点，我们已经进入了一个“大数据时代”，这对文化传播、信息管理等产生了重大影响，自然语言处理技术受到越来越多的关注，并成为当下的热点。自然语言处理是指让计算机接受用户自然语言形式的输入，并在内部通过人类所定义的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。自然语言处理的目的在于用计算机代替人工来处理大规模的自然语言信息，实现人与计算机之间用自然语言进行有效通信的各种理论和方法。让计算机能够确切理解人类的语言，并自然地与人进行交互。

预定义的元路径意味着这些方法依赖于启发式学习，并且是特定于任务的。由于人工经验的局限性，手工构建的特征工程只能捕获部分信息。且元路径分别考虑节点之间的每种类型的关系，然而，异构环境中的真实关系往往相当复杂，同时节点之间可能存在不同类型的关系，元路径无法表示两个同时工作的语义关系，这进一步导致语义信息的丢失。在传统的文本分类方法中，受到词序和缺乏文本信息类型的限制，难以进行信息丰富的语义模式的挖掘。

发明内容

为了解决上述问题，本发明提出了一种基于元结构学习的异构图转换的文本挖掘方法，能够适用于复杂的文本识别环境，有效避免语义信息的丢失，能够获得丰富完整的语义信息。

为达到上述目的，本发明采用的技术方案是：一种基于元结构学习的异构图转换的文本挖掘方法，包括步骤：

S10,针对文本数据，提取文本中的信息构造异构信息网络图；

S20，通过图转换层，以获取元路径来捕捉节点间的关系；

S30,通过建立通道型哈达玛积模块提取出元图结构，从而捕捉节点之间同时存在的多种交互情况；

S40,对提取出的包含元路径和元图的元结构使用图卷积网络，生成节点嵌入；

S50,利用获得的节点嵌入挖掘下游文本。

进一步的是，在所述步骤S10中,针对文本数据，提取文本中的信息构造异构信息网络图，包括步骤：

S11,收集大量文本数据，使用N×D的原始特征矩阵U来存储文本的原始特征，其中N和D分别为文本的数量和文本特征的维度；并利用自然语言处理工具从文本数据中提取单词类型、文本类型、主题类型和实体类型；

S12，将文本中的单词提取为单词类型节点，学习单词向量，结果用于文本表示；如果文本中存在单词，则在文本节点和单词节点之间建立边；通过计算单词向量的相似度确定单词之间的联系；

S13,探索文本中潜在的主题，作为主题类型节点；主题分布通过计算语料库内单词的条件概率确定；为每个文本筛选出概率值最高的前K个主题；如果一个主题被文本所包含，就在这两个节点之间建立一条边；

S14，对于实体类型，建立文本和实体之间的联系以及实体之间的联系；

S15，将文本类型、单词类型、主题类型、实体类型信息作为异构信息网络图的节点，进而根据各个节点的关系建立异构信息网络图。

进一步的是，在所述步骤S20中，通过图转换层，以获取元路径来捕捉节点间的关系，包括步骤：

S21,通过图转换网络提取异构信息网络图中的元路径，在第一图转换层中对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积；

S22,使用第一图转换层的输出通过矩阵乘法生成基于元路径的邻接矩阵；

S23，堆叠多个图转换层，第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵，第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同，将对于每个通道中的所有边类型计算一个新的权重矩阵，并对每层生成基于邻接矩阵的元路径；

S24,元路径是与不同类型的边连接的路径，邻接矩阵通过沿路径的每种边类型的邻接矩阵经过卷积后相乘产生；

S25，根据沿该路径的所有边类型的权重的累积乘积，获得每个元路径的重要性得分。

S21,通过图转换网络提取异构信息网络图中的元路径，在第一图转换层中，通过两个卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积；

S22,使用两个卷积的输出通过矩阵乘法生成基于元路径的邻接矩阵P¹，即P¹＝O₁O₂，其中，O₁和O₂分别为卷积层的两个输出；

S23，堆叠多个图转换层，第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵，第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同，将对于每个通道中的所有边类型计算一个新的权重矩阵W^α(i+1)，第i层生成的基于邻接矩阵的元路径Pⁱ＝P^i-1O_i+1；

S24,元路径p是与不同类型的边连接的路径，长度为k的元路径p的邻接矩阵M_p通过沿路径p的每种边类型的邻接矩阵经过卷积后相乘产生，即M_p＝M_e1M_e2...M_ek；

S25，根据沿该路径的所有边类型的权重的累积乘积，获得每个元路径的重要性得分，包括步骤：

元路径p_e3e2由边类型e₃和e₂组成，其重要性得分由边类型e₃和e₂的权重矩阵和计算得出。

进一步的是，在步骤S21中,通过图转换网络提取异构信息网络图中的元路径，在第一图转换层中，通过两个卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积，获得卷积的输出：

其中，conv表示卷积操作，e表示一种边类型，M_e是基于边类型的邻接矩阵，W^α＝softmax(W)；softmax是一种激活函数。

进一步的是，在所述步骤S30中,通过建立通道型哈达玛积模块提取出元图结构，从而捕捉节点之间同时存在的多种交互情况，包括步骤：

S31,建立通道式哈达玛积来提取元图，利用哈达玛积以元图的形式融合不同元路径；通过在多条元路径上通过哈达玛积，得到由多条元路径组成的元图的一个新的邻接矩阵；

S32,对第k个图转换层中生成长度为k+1的多条元路径，通过通道型哈达玛积模块，获得每条元路径的重要性得分，从而利用条元路径的重要性得分得分获取元图的重要性得分；

S33,枚举所有通道对，并在各自的两个矩阵上应用哈达玛乘积来过得的元图；最后，该模块的输出包含从不同通道对生成的所有基于元图的邻接矩阵；

S34，使用均值池化来消除弱关系的元结构。

进一步的是，在步骤S31中,建立通道式哈达玛积来提取元图，利用哈达玛积以元图的形式融合两个存在同时工作机会的元路径p_a和p_b；通过在多条元路径上通过哈达玛积，得到由这两条元路径组成的元图g的一个新的邻接矩阵Mg。

进一步的是，在步骤S32中,对第k个图转换层中生成的两条长度为k+1的元路径p_a和p_b，获得两者的重要性得分；

利用两条元路径的重要性得分得分获取元图的重要性得分元图g的重要性得分。

进一步的是，在步骤S34中，使用均值池化来消除弱关系的元结构，公式为：

其中，表示第i层时的所有元结构，包括元路径和元图。

进一步的是，在所述步骤S50中，利用获得的节点嵌入挖掘下游文本，完成包括新闻文本分类、情感分析和自然语言推理任务。

采用本技术方案的有益效果：

本发明针对大量文本数据，提取文本中的信息构建异构信息网络图，通过异构图转换器提取异构信息网络图中丰富的语义和结构信息，能够自动生成包含元路径和元图的元结构，采用图卷积网络对元结构进行节点嵌入后应用于文本挖掘任务。本发明通过提取文本数据中的信息构造异构信息网络图，它集成了四种文本信息并捕获它们之间的关系。异构信息网络图为复杂图形结构的计算提供了新的解决方法。通过异构信息网络图中的元路径，我们提取异构图中丰富的语义信息，然而传统的预定义的元路径依赖于启发式学习，并且是特定于任务的，只能捕获部分信息。而且，传统方法中元路径只考虑了节点之间的每种类型的关系，没有考虑节点间不同类型之间的关系，这将进一步导致语义信息的丢失。本发明采用元结构学习的异构图转换器在不依赖启发式学习的情况下自动提取信息丰富的语义结构，可以自动生成解释性元结构，包括元路径和元图。之后通过图卷积网络进行节点嵌入，应用于下游任务。

本发明的方法可以作为一个强大的元结构提取器，用于其他图神经网络模型。特别地，我们将其应用于文本挖掘任务，包括新闻分类，情感分析和自然语言推理等任务。实验结果也证明了元结构学习的异构图转换器应用于其他图神经网络模型的有效性。

附图说明

图1为本发明的一种基于元结构学习的异构图转换的文本挖掘方法的流程示意图；

图2为本发明实施例中一种基于元结构学习的异构图转换的文本挖掘方法的原理框架示意图；

图3为本发明实施例中一层图转换网络示意图；

图4为本发明实施例中通道型哈达玛积模块示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。

在本实施例中，参见图1和2所示，本发明提出了一种基于元结构学习的异构图转换的文本挖掘方法，包括步骤：

S10,针对文本数据，提取文本中的信息构造异构信息网络图；

S20，通过图转换层，以获取元路径来捕捉节点间的关系；

S50,利用获得的节点嵌入挖掘下游文本。

作为上述实施例的优化方案1，一种基于元结构学习的异构图转换的文本挖掘方法，包括步骤：

在所述步骤S10中，包括步骤：

S11,面对大量文本数据，使用N×D的原始特征矩阵U来存储文本的原始特征，其中N和D分别为文本的数量和文本特征的维度。利用自然语言处理工具从文本数据中提取单词类型、文本类型、主题类型和实体类型；

S12，将文本T中的单词提取为单词类型节点，学习单词向量，结果用于文本表示；如果文本中存在一个单词，则在文本节点和单词节点之间建立边；通过计算单词向量的相似度确定单词之间的联系；

S13,探索文本中潜在的主题，作为主题类型节点。主题分布通过计算语料库内单词的条件概率确定；为每个文本T筛选出概率值最高的前K个主题。如果一个主题被文本所包含，就在这两个节点之间建立一条边；

在所述步骤S20中,包括步骤：

S21,如图3所示，通过图转换网络提取异构信息网络图中的元路径，在第一层图转换器中，通过两个1*1卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积，公式如下：

其中，conv表示卷积操作，e表示一种边类型，M_e是基于边类型的邻接矩阵，W∈R¹ ^×1×E是卷积层的参数，W^α＝softmax(W)；softmax是一种激活函数；

S22,然后使用两个卷积层的输出通过矩阵乘法生成基于元路径的邻接矩阵P¹，即P¹＝O₁O₂，其中，O₁和O₂分别为卷积层的两个输出；

S23，堆叠多个图转换层，以提取长度越来越长的元路径，其长度可达k+1。第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵卷积层的工作方式与第一层相同，它将对于每个通道中的所有边类型计算一个新的权重矩阵W^α(i+1)。第i层生成的基于邻接矩阵的元路径Pⁱ＝P^i-1O_i+1；

S25，每个元路径的重要性得分是沿该路径的所有边类型的权重的累积乘积，例如，元路径p_e3e2由边类型e₃和e₂组成，其重要性得分由以下公式计算得出：

其中，和/>分别为边类型e₃和e₂的权重矩阵。

在所述步骤S30中，如图4所示，包括步骤：

S31,建立一个新的模块称为通道式哈达玛积来提取元图；哈达玛积是该模块的关键，它以元图的形式融合了不同元路径的效果；

例如，两个存在同时工作机会的元路径p_a和p_b，通过在两条元路径上应用哈达玛积，得到由这两条元路径组成的元图g的一个新的邻接矩阵Mg，公式如下：

其中，和/>分别为元路径p_a和p_b的邻接矩阵；

S32,对第k个图转换层中生成的两条长度为k+1的元路径p_a和p_b应用哈达玛积；两者的重要性得分可以分别记为和/>

其中，t_a和t_b是其所对应的元路径中的边类型序列；

元图g的重要性得分计算公式为：

由于小于1的权重多次相乘，计算出的元图的重要性分数将非常小，为了数值有效性，将每层中的权重矩阵放大十倍；

S33,枚举所有通道对，并在各自的两个矩阵上应用哈达玛乘积来发现更多的元图；最后，该模块的输出包含从不同通道对生成的所有基于元图的邻接矩阵；

S34，使用均值池化来消除弱关系的元结构，公式为：

其中，表示第i层时的所有元结构，包括元路径和元图。

在所述步骤S40中，对提取出的包含元路径和元图的元结构，使用图卷积网络来产生信息丰富的节点嵌入，用于下游文本挖掘任务；

在所述步骤S50中，将模型分别用于新闻文本分类、情感分析和自然语言推理任务。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于元结构学习的异构图转换的文本挖掘方法，其特征在于，包括步骤：

S10,针对文本数据，提取文本中的信息构造异构信息网络图；包括步骤：

S15，将文本类型、单词类型、主题类型、实体类型信息作为异构信息网络图的节点，进而根据各个节点的关系建立异构信息网络图；

S20，通过图转换层，以获取元路径来捕捉节点间的关系，包括步骤：

S25，根据沿该路径的所有边类型的权重的累积乘积，获得每个元路径的重要性得分；

S50,利用获得的节点嵌入挖掘下游文本。

2.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法，其特征在于，在所述步骤S20中，通过图转换层，以获取元路径来捕捉节点间的关系，包括步骤：

S23，堆叠多个图转换层，第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵，第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同，将对于每个通道中的所有边类型计算一个新的权重矩阵W^a(i+1)，第i层生成的基于邻接矩阵的元路径Pⁱ＝P^i-1O_i+1；

元路径p_e3e2由边类型e₃和e₂组成，其重要性得分由边类型e₃和e₂的权重矩阵和/>计算得出。

3.根据权利要求2所述的一种基于元结构学习的异构图转换的文本挖掘方法，其特征在于，在步骤S21中,通过图转换网络提取异构信息网络图中的元路径，在第一图转换层中，通过两个卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积，获得卷积的输出：

4.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法，其特征在于，在所述步骤S30中,通过建立通道型哈达玛积模块提取出元图结构，从而捕捉节点之间同时存在的多种交互情况，包括步骤：

S34，使用均值池化来消除弱关系的元结构。

5.根据权利要求4所述的一种基于元结构学习的异构图转换的文本挖掘方法，其特征在于，在步骤S31中,建立通道式哈达玛积来提取元图，利用哈达玛积以元图的形式融合两个存在同时工作机会的元路径p_a和p_b；通过在多条元路径上通过哈达玛积，得到由这两条元路径组成的元图g的一个新的邻接矩阵Mg。

6.根据权利要求5所述的一种基于元结构学习的异构图转换的文本挖掘方法，其特征在于，在步骤S32中,对第k个图转换层中生成的两条长度为k+1的元路径p_a和p_b，获得两者的重要性得分；

7.根据权利要求4所述的一种基于元结构学习的异构图转换的文本挖掘方法，其特征在于，在步骤S34中，使用均值池化来消除弱关系的元结构，公式为：

其中，表示第i层时的所有元结构，包括元路径和元图。

8.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法，其特征在于，在所述步骤S50中，利用获得的节点嵌入挖掘下游文本，完成包括新闻文本分类、情感分析和自然语言推理任务。