CN114298022A

CN114298022A - 一种用于大规模复杂语义网络的子图匹配的方法

Info

Publication number: CN114298022A
Application number: CN202111464131.1A
Authority: CN
Inventors: 张加万; 李会彬; 张怡
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-08

Abstract

本发明公开了一种用于大规模复杂语义网络的子图匹配的方法，涉及数据处理技术领域。本发明包括以下步骤：步骤一：进行文本语义信息建模，对复杂语义网络包含的节点进行分词，将原始的文本信息词序列化；步骤二：进行结构信息建模，采用LINE模型相似的结构建模方式，用以处理任意类型边的大规模网络；步骤三：进行嵌入方法学习，采用SNE框架联合学习文本信息与结构信息嵌入的方法；步骤四：进行匹配图嵌入及匹配结果计算，匹配图的嵌入结果生成使用原始大图训练的嵌入模型。本发明通过采用基于大图先验知识的子图网络表征的方法,并结合语义和结构信息，用于提高大规模语义网络子图匹配的效率。

Description

一种用于大规模复杂语义网络的子图匹配的方法

技术领域

本发明涉及数据处理技术领域，特别是涉及一种用于大规模复杂语义网络的子图匹配的方法。

背景技术

在大数据时代，大规模语义网络被用于建模各种复杂关系，在学术领域中，论文之间的关系可以生成一个引文网络，在社会学中，个体之间的交流可以被定义为社交网络，子图匹配通过在大图中寻找子图的最佳对应，帮助数据分析人员在原始图中快速地定位想要匹配的信息，对于分析和理解网络具有重要的意义；

子图匹配问题目前面临着两个挑战，首先，作为一个离散组合优化问题，子图匹配本质上是一个NP难问题，存在耗时的问题，目前的工作大多通过放松离散约束条件，以寻求匹配的近似解，但这样处理很难获得全局最优解，另一个挑战在于目前的子图匹配技术还无法处理具有复杂语义节点的大规模网络，当节点为长段落的文本或网页时，其本身的语义十分复杂，算法无法概括节点信息，更无法将他们组合起来进行匹配，传统的方法往往会遭受瓶颈；因此，我们提出一种用于大规模复杂语义网络的子图匹配的方法。

发明内容

本发明的目的在于提供一种用于大规模复杂语义网络的子图匹配的方法，该方法通过采用基于大图先验知识的子图网络表征的方法,并结合语义和结构信息，用于提高大规模语义网络子图匹配的效率。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种用于大规模复杂语义网络的子图匹配的方法，所述用于大规模复杂语义网络的子图匹配的方法，包括以下步骤：

步骤一：进行文本语义信息建模，对复杂语义网络包含的节点进行分词，将原始的文本信息词序列化；

步骤二：进行结构信息建模，采用LINE模型相似的结构建模方式，用以处理任意类型边的大规模网络；

步骤三：进行嵌入方法学习，采用SNE框架联合学习文本信息与结构信息嵌入的方法；

步骤四：进行匹配图嵌入及匹配结果计算，匹配图的嵌入结果生成使用原始大图训练的嵌入模型，其中用到的语义信息向量和结构信息向量使用与大图相同的生成方式。

优选地，所述步骤一中复杂语义网络包含的节点具有文本属性，它包括一段话或是一个网页，为了将原始的文本信息词序列化，通过对其进行分词，在此基础上，去停用词和词干化以处理分词序列存在的大量冗余信息，并节省运行空间和提高算法效率。

优选地，所述步骤二中节点的直连关系被用于定义一阶相似度，两个节点之间的一阶相似度的向量相似度为二阶相似度，通过使用不同的目标函数，由此获得了基于一阶和二阶相似度的向量，加权得到的新的向量同时具有了一阶和二阶的信息。

优选地，所述步骤三中SNE框架主要分为三层，包括输入层、隐藏层和输出层，输入层作为网络信息输入的接口，将结构信息和文本信息进行加权拼接，初始的拼接允许结构和文本信息共同输入隐藏层以进行特征提取，实现了非线性融合，隐藏层是一个多层感知机，通过堆叠多个非线性层来更好的进行网络的学习，每经过一层，向量执行一次降维，输出层使用softmax层得到每个节点与其他节点存在连接的概率，最大化邻接节点的概率来优化模型参数，则有了目标函数的定义；

某一节点和它所有邻居节点的接近性可以用条件概率来表达，即在节点u_i出现的情况下，其所有邻居节点出现的概率，它可以被定义为：

其中N_i为节点u_i的所有邻居节点。

在上一个公式的基础上，可以定义整个网络的节点接近性公式：

因为模型输入层编码了结构属性和文本属性，因此可以同时根据两种信息指导网络嵌入方法的学习，所得到的模型以网络参数的形式被保存，以供匹配图嵌入时使用，训练得到的节点向量可以组成网络表示矩阵以供下游任务使用。

优选地，所述步骤四中基于焦点的匹配图和大图中融合了周围网络结构信息的节点均能够得到嵌入表示，通过使用余弦相似度求两种向量的相似性，则得到子网络与全局网络的匹配，由此匹配结果将被计算出来。

优选地，所述步骤一中使用Word2Vec和LDA从词序列生成文本信息矩阵，LDA通过无监督的方式，提取隐含信息，并为整个网络生成主题词表，Word2Vec为每个节点词序列的每个词生成词向量，并为主题词表生成主题词词向量；

通过使用Word2Vec和LDA从词序列生成文本信息矩阵，LDA通过无监督的方式，提取隐含信息，并为整个网络生成主题词表，它所基于的前提是文章和主题，以及主题和词语之间，都符合多项式分布的规律，它忽视了词语的顺序，通过捕捉词语的共现关系并根据词频计算出各种主题的概率分布；Word2Vec为每个节点词序列的每个词生成词向量，并为主题词表生成主题词词向量，将单独节点词向量的平均值视为代表它的节点向量，通过逐个节点向量与逐个主题词向量求相似性，获得了文本信息矩阵T，其中，矩阵的每一行对应一个节点，每一列对应一个主题词，相似性大小排序可以帮助找到某个节点从语义上最接近的主题词。

本发明具有以下有益效果：

本发明通过采用基于大图先验知识的子图网络表征的方法,并结合语义和结构信息，用于提高大规模语义网络子图匹配的效率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种用于大规模复杂语义网络的子图匹配的方法流程图；

图2为本发明的一种用于大规模复杂语义网络的子图匹配的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-2所示：本发明一种用于大规模复杂语义网络的子图匹配的方法，主要是通过通过采用基于大图先验知识的子图网络表征的方法,并结合语义和结构信息，用于提高大规模语义网络子图匹配的效率，具体步骤如下：

步骤一、文本信息预处理：

根据研究的整体分析流程，首先需要对文本信息进行预处理，在网络的原始文本中，文本中可能包含一些对文本特征没有任何贡献作用的字词，比如语气词oh、emm等，标点符号，介词of、in等，然后需要对去除掉停用词的文本进行词干化，在英文单词中，一个词往往有多个形式，而词的含义却大体相同，如absolute和absolutely,do和done等；通过词干化，可以将这些含义相近但形式不同的词转化为同一个词，词干化后，虽然词的意思没有太大的变化，但是用户面对词干化后的单词时，难免还是会感觉到困惑，因此为了方便之后用户的交互，本系统需要建立一个词干与原始单词的对应关系，从而在训练模型的时候使用词干化后的单词，在用户需要交互的时候，所展示的单词为原始单词。

经过上述步骤之后，网络中总的词汇量将会得到减少，这不仅能够加快训练的过程，还能提高最终得到的文本矩阵的准确性。

步骤二、生成文本信息的矩阵T：

当一个网络中的每个节点都包含文本信息时，每个节点都可以看做成一个文档节点，那么该网络不考虑边的话，其可以看作是一个文档的集合；在经过文本信息的预处理后，网络中的每个节点对应的文本信息都变成了一个词序列sk＝t1,..,tn，其中t表示sk中第k个单词，使用这些词序列来训练Word2Vec模型和LDA模型，通过LDA模型系统能够得到一些主题词汇，通过Word2Vec模型系统能够得到网络对应的词向量，本文将这些主题词汇按照用户设定的参数，抽取出一些，从而得到一个这些主题词形成的列表，对于每一个节点对应的文本信息，系统都通过Word2Vec模型将其转换为向量形式，然后加权平均，从而得到这个词对应的Word2Vec模型的向量，本文使用该向量分别与LDA模型形成的主题列表求取余弦相似度，并归一化，从而得到一个全为正数的数组，将每一个节点都按照同样的方式进行计算，最终可以得到一个词向量的矩阵T＝(V1.....n)，其中v表示第k个词的向量表示；

矩阵T中的每一行向量都是该节点文本信息的合并，因此会包含该节点的文本信息。

步骤三、结构信息的建模方法：

本文的结构信息的建模方法使用的是类似于LINE模型中的方法，LINE模型使用节点连接关系得到一阶相似度，使用两个节点间的一阶相似度的的向量的相似度作为二阶相似度，该方法主要应用于无权无向网络中，该方法主要关注的是网络中节点的空间结构的相似性，并且可以得到全为正的矩阵，从而很好的符合本文的分析研究任务；

将网络中节点间的连接信息导入到Networkx中，从而得到一个网络的实例g，然后使用实例g来训练结构模型，训练之后可以得到网络的结构信息矩阵X；

步骤四、联合文本和结构信息：

为了将文本信息与结构信息进行联合，从而得到一个总体的特征矩阵，需要使用合适的方法对文本信息与结构信息进行联合优化，本文采用了神经网络的方式；

采用了ASNE中的SNE框架将结构信息和文本信息进行联合，SNE框架主要分为三层，输入层，隐藏层，输出层；输入层作为网络信息输入的接口，分别将结构信息和文本信息进行加权拼接，从而输入到网络中，隐藏层是一个多层感知机，通过堆叠多个非线性层来更好的进行网络的学习，输出层最终将隐藏层的结果进行处理，从而将其映射到合适的空间中，供给下游任务使用，输出层使用softmax层得到每个节点与其他节点存在连接的概率，最大化邻接节点的概率来优化模型参数，则有了目标函数的定义；

其中N_i为节点u_i的所有邻居节点。

在上一个公式的基础上，我们可以定义整个网络的节点接近性公式：

步骤五、给定焦点的子图匹配过程：

在之前的网络训练过程中，已经得到了一个训练好参数的一个模型，该模型可以看作是一个编码器，能够将输入的信息转变为合适的嵌入表示；因此神经网络的方式的匹配过程为：

1.需要匹配的数据属于新数据，通过对所需要匹配的文本信息和结构信息进行预处理，得到向量α为表示初始的匹配信息向量；

2.将向量α'输入到训练后的模型中，进行准换而不进行拟合，从而得到向量a；

3.将向量a与之前得到的网络嵌入矩阵分别求取相似度，从而得到该向量与整个网络中每个节点的相似度；

4.根据该相似度列表进行排序，从而可以得到一个合适的匹配结果。

为了解决图匹配面临的处理效率挑战，本方案不再依赖成对的节点和边之间的关系，寻找大图中与子图最匹配的关系组合，而是首先从大图中学习特定网络的表达方法，然后使用习得的方法对指定焦点节点的查找子图整体进行表达，子图匹配问题由此转化成在全局网络中查找局部子网络表示的问题，大大降低了时间和空间需求，通过使用网络表征学习中的知识来进行网络表达，它通过从网络中学习信息，以获取节点的向量表示，并捕获实体的特性，因为在低维的空间中工作，因此对于网络中的固有噪声具有鲁棒性，适合处理大规模网络；

在此基础上，本方案还采用了特征融合的方法，以应对具有复杂语义节点的大规模网络分析，基于ASNE中的SNE框架将word2Vec得到的节点语义信息和LINE得到的结构向量联合嵌入，网络邻域的结构和节点的语义被联系起来，同时在大图中的语义和结构特征嵌入方法被学习，当执行子图匹配时，构造的搜索子图使用这种嵌入方法直接快速构建搜索向量，搜索向量与全局向量求取相似性，即可以获得子图匹配的结果。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种用于大规模复杂语义网络的子图匹配的方法，其特征在于，所述用于大规模复杂语义网络的子图匹配的方法，包括以下步骤：

2.根据权利要求1所述的一种用于大规模复杂语义网络的子图匹配的方法，其特征在于，所述步骤一中复杂语义网络包含的节点具有文本属性，它包括一段话或是一个网页，为了将原始的文本信息词序列化，通过对其进行分词，在此基础上，去停用词和词干化以处理分词序列存在的大量冗余信息，并节省运行空间和提高算法效率。

3.根据权利要求1所述的一种用于大规模复杂语义网络的子图匹配的方法，其特征在于，所述步骤二中节点的直连关系被用于定义一阶相似度，两个节点之间的一阶相似度的向量相似度为二阶相似度，通过使用不同的目标函数，由此获得了基于一阶和二阶相似度的向量，加权得到的新的向量同时具有了一阶和二阶的信息。

4.根据权利要求1所述的一种用于大规模复杂语义网络的子图匹配的方法，其特征在于，所述步骤三中SNE框架主要分为三层，包括输入层、隐藏层和输出层，输入层作为网络信息输入的接口，将结构信息和文本信息进行加权拼接，初始的拼接允许结构和文本信息共同输入隐藏层以进行特征提取，实现了非线性融合，隐藏层是一个多层感知机，通过堆叠多个非线性层来更好的进行网络的学习，每经过一层，向量执行一次降维，输出层使用softmax层得到每个节点与其他节点存在连接的概率，最大化邻接节点的概率来优化模型参数，则有了目标函数的定义。

5.根据权利要求1所述的一种用于大规模复杂语义网络的子图匹配的方法，其特征在于，所述步骤四中基于焦点的匹配图和大图中融合了周围网络结构信息的节点均能够得到嵌入表示，通过使用余弦相似度求两种向量的相似性，则得到子网络与全局网络的匹配，由此匹配结果将被计算出来。

6.根据权利要求2所述的一种用于大规模复杂语义网络的子图匹配的方法，其特征在于，所述步骤一中使用Word2Vec和LDA从词序列生成文本信息矩阵，LDA通过无监督的方式，提取隐含信息，并为整个网络生成主题词表，Word2Vec为每个节点词序列的每个词生成词向量，并为主题词表生成主题词词向量。