CN111898039B

CN111898039B - 一种融合隐藏关系的属性社区搜索方法

Info

Publication number: CN111898039B
Application number: CN202010636070.1A
Authority: CN
Inventors: 谢晓芹; 张家铭; 王巍; 杨武
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2023-12-19
Anticipated expiration: 2040-07-03
Also published as: CN111898039A

Abstract

本发明属于信息检索技术领域，具体涉及一种融合隐藏关系的属性社区搜索方法。本发明提供了一个能够提取社交网络结构和属性信息的堆栈式自编码器模型，主要针对现有的社区搜索算法没有考虑结点之间隐藏关系的问题，提出了新的优化方法。本发明能够有效地发现社区中的隐藏关系，通过预测社区中心增大了搜索社区的准确率，使得搜索的社区具有更好的鲁棒性和扩展性。

Description

一种融合隐藏关系的属性社区搜索方法

技术领域

本发明属于信息检索技术领域，具体涉及一种融合隐藏关系的属性社区搜索方法。

背景技术

社区是社交网络中重要的组成部分，在社区中的结点联系紧密，有相似的属性，如职业，兴趣等。属性社区搜索问题是给定一个查询结点v_q和一个属性集A_q，得到v_q在A_q上所在的社区C,则C是包含v_q且C中的结点都具有A_q中的属性信息。一个好的属性社区可以缩小目标范围，更有针对性地进行商品推荐，朋友推荐，消息推送等。现有的属性社区搜索算法在原始图中，根据拓扑结构和结点的属性进行搜索合适的结点，没有考虑到结点之间的隐藏关系，使得搜索到的社区中缺失部分信息。同时，现有的社区搜索算法是查询结点v_q为中心向外扩展得到一个(k,d)-truss结构的社区候选集，如果查询结点是在真实社区中是一个边缘结点，则社区候选集与实际社区交集部分较少，导致查询结果与实际社区的误差较大。

针对上面问题，本发明首先对社交网络图进行网络表示学习，网络表示学习可以将原始图中高维的邻接矩阵压缩成低维的矩阵，将结点映射到低维空间中，在低维空间中结点之间的距离能够体现原图中结点之间在结构、属性上的联系。利用得到的表示向量对结点之间进行链接预测，可以发现原图中不存在的隐藏关系，再进行社区搜索，使得社区结构更健壮和可扩展。同时，本发明利用表示向量预测要搜索的社区中心，以预测到的中心节点向外扩展得到社区候选集，提高了查询结果的准确率。

发明内容

本发明的目的在于提供搜索融合隐藏关系的属性社区，通过预测社区中心提高属性社区搜索的查全率和查准率的一种融合隐藏关系的属性社区搜索方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：输入原始社交网络图G＝(V,E,A)、查询节点v_q和查询属性集合A_q；

社交网络图G＝(V,E,A)中，V为社交网络图中的节点集合，V＝{v₁,…,v_n}，n为社交网络图中节点的数量；E为社交网络图中的边集，E＝{e_ij}，0≤i,j<n，如果节点v_i与节点v_j之间存在一条边，则e_ij＝1，否则e_ij＝0；A为社交网络图的属性矩阵，m为社交网络图中属性的数量；

步骤2：将原始社交网络图G的邻接矩阵和属性矩阵/>拼接成矩阵

步骤3：使用矩阵X训练堆栈式自编码器；所述的堆栈式自编码器包括编码器和解码器；所述的矩阵X输入到编码器的输入层，编码器对矩阵X进行编码，编码器的隐藏层中间层输出表示矩阵d是表示空间的维度；所述的解码器将矩阵Y解码为/>通过迭代更新模型权重使损失函数最小化，完成练堆栈式自编码器的训练；

步骤4：将矩阵输入到训练好的堆栈式自编码器，得到表示矩阵

步骤5：从查询节点v_q开始，做d次的广度优先搜索，得到子图H_s；

步骤6：获取子图H_s的中心节点c；

步骤7：从中心节点c开始，做d次广度优先搜索，得到候选子图H_t；

步骤8：对候选子图H_t中的每个节点进行链接预测，将发现的隐藏关系加入到候选子图H_t中，得到最终子图H_d；

步骤9：使用社区搜索算法对最终子图H_d进行搜索，得到查询节点v_q所在的属性社区H_r；

步骤9.1：初始化令l＝0，H_l＝H_d,H_r＝H_l；

步骤9.2：判断中心节点c是否在中间社区H_l中；若中心节点c在中间社区H_l中，则从步骤9.3开始循环执行；否则，结束循环跳到步骤9.8；

步骤9.3：对中间社区H_l中每个节点进行打分，节点打分函数为：

其中，u是除查询节点v_q之外的节点，u∈H_l-v_q；V(H_l)是子图H_l包含的节点集合；V_w为包含了属性w的节点集合；attr(u)表示节点u中存储的属性集合；

步骤9.4：删除打分最低的节点和该节点关联的边；

步骤9.5：将中间社区H_l加入到候选子图集合Hset中；

步骤9.6：将中间社区H_l调整为(k,d)-truss结构；

步骤9.7：令l＝l+1，返回步骤9.2；

步骤9.8：计算候选子图集合Hset中每一个候选子图的社区评分，选择社区评分最高的候选子图作为搜索到的社区H_r；

H_r＝argmax_H∈Hsetf(H,A_q)

其中，V_a表示包含属性a的节点集合，V(H)表示候选子图H里的节点集合；

步骤9.9：判断查询节点v_q是否在属性社区H_r中；若查询节点v_q不在属性社区H_r中，则将查询节点v_q加入到属性社区H_r中；

步骤9.10：输出包含查询节点v_q，且所有节点都具有查询属性集合A_q中的属性信息的属性社区H_r。

本发明还可以包括：

所述的步骤6中获取子图H_s的中心节点c的方法具体为：

步骤6.1：建立子图H_s的无边图H_sa＝(V_s,E_sa,A_s)；初始化s_i＝s_j＝0；

V_s为子图H_s的节点集合，0≤s≤b，b为子图H_s中的节点数量；A_s为子图H_s的属性矩阵；

步骤6.2：令s_i＝s_i+1，获取节点拥有的查询属性的数量nq_i；所述的查询属性为查询属性集合A_q中的属性信息；

步骤6.3：令s_j＝s_j+1；

步骤6.4：若s_i＝s_j，则返回步骤6.3；否则，获取节点拥有的查询属性的数量nq_j；

步骤6.5：若nq_i<nq_j，则在无边图H_sa中添加一条有向边

若nq_i＝nq_j且nq_i≠0，则在无边图H_sa中添加两条有向边和/>

步骤6.6：若s_j<b，则返回步骤6.3；否则，执行步骤6.7；

步骤6.7：若s_i<b，则返回步骤6.2；否则，输出带有属性方向的有向图H_sa，执行步骤6.8；

步骤6.8：计算带有属性方向的有向图H_sa中每一个节点v_s的pageRank评分，选择具有最大pageRank评分的节点作为子图H_s的中心节点c。

所述的步骤8中对候选子图H_t中的每个节点进行链接预测，将发现的隐藏关系加入到候选子图H_t中，得到最终子图H_d的具体步骤为：

步骤8.1：计算原始社交网络图G中每个节点与其他节点的相似度，获取与每个节点相似度最大的p个节点，构建矩阵RN；两个节点的相似度计算公式为：

其中，y_i为节点v_i对应于表示矩阵中的表示向量；y_j为节点v_j对应于表示矩阵/>中的表示向量；p为设定的常数；

步骤8.2：初始化t_i＝1；

步骤8.3：在矩阵RN中根据索引找到距离候选子图H_t中节点在全属性上最近的p个节点，记为集合/>

步骤8.4：在集合中获取增大A_q权重后距离节点/>最近的且在原图中与节点v_i不相连的r个节点，记为集合/>r为设定的常数；

所述的增大A_q权重后节点与另一个节点/>的距离为：

其中：为节点/>对应于表示矩阵/>中的表示向量；/>为节点/>对应于表示矩阵/>中的表示向量；/>表示加入查询属性的表示空间映射向量；

步骤8.5：初始化Pt_i＝1；

步骤8.6：若集合中的节点/>在候选子图H_t的节点集合中，则在候选子图H_t中建立节点/>与节点/>之间的边；否则，将节点/>添加到候选子图H_t的节点集合中，建立节点/>与节点/>之间的边，并根据原始社交网络图G的边集E，在候选子图H_t中建立节点/>与候选子图H_t中其他节点之间的边；

步骤8.7：若Pt_i<r，则令Pt_i＝Pt_i+1，并返回步骤8.6；否则，执行步骤8.8；

步骤8.8：若t_i<g，g为候选子图H_t中节点的数量，则令t_i＝t_i+1，并返回步骤8.3；否则，执行步骤8.9；

步骤8.9：将候选子图H_t调整为(k,d)-truss结构，得到最终子图H_d。

所述的步骤3中堆栈式自编码器的解码器的损失函数为：

L＝L_high+L_s+L_a+L_reg

其中，L_high为损失函数的捕捉高阶结构特征；L_s为损失函数的捕捉一阶结构特征；L_a为损失函数的捕捉属性相似度；L_reg为正则项；y_i和y_j分别为原始社交网络图G中节点v_i和节点v_j的表示向量；若节点v_i和节点v_j之间存在一条边，则s_ij＝e_ij；若节点v_i和节点v_j之间不存在一条边，则s_ij＝θ<0；x_i为节点v_i的邻接向量和属性向量的串联向量；为x_i对应的模型的输出；⊙为哈达玛积；t_i＝[t_i1,t_i2,…,t_i(n+m)]；若x_ij>0，则t_ij＝δ>1，δ为常数；若x_ij≤0，则t_ij＝1；/>a_i和a_j分别为节点v_i和节点v_j的属性向量；w^(k)为编码器部分第k层隐藏层权重矩阵；/>为解码器第k层权重矩阵。

本发明的有益效果在于：

本发明提供了一个能够提取社交网络结构和属性信息的堆栈式自编码器模型，主要针对现有的社区搜索算法没有考虑结点之间隐藏关系的问题，提出了新的优化方法。本发明能够有效地发现社区中的隐藏关系，通过预测社区中心增大了搜索社区的准确率，使得搜索的社区具有更好的鲁棒性和扩展性。

附图说明

图1是本发明的流程图。

图2是堆栈式自编码器模型结构图。

图3(a)隐藏边ab使得实际边bc满足了(4,2)-truss结构的示意图。

图3(b)隐藏边ab，ac使得b与查询结点a连接起来的示意图。

图3(c)是隐藏边cb使得b到查询结点的最短距离由3变为2，从而进入(4,2)-truss子图中的示意图。

图4是使用堆栈式自编码器模型学习得到的表示向量在blogCatalog和facebook数据集上进行链接预测实验效果图。

图5是加入隐藏关系的属性社区搜素结果与没有加入隐藏关系的在facebook子图：F698、F686、F1912、F3437、F348、F3980、F414中，属性社区搜索结果的对比表。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明提出一种融合隐藏关系的属性社区搜索方法，本发明提供了一个能够提取社交网络结构和属性信息的堆栈式自编码器模型，主要针对现有的社区搜索算法没有考虑结点之间隐藏关系的问题，提出了新的优化方法；包括：(1)使用堆栈式自编码器对图邻接矩阵和属性矩阵进行表示学习；(2)对查询结点所在(k,d)-truss子图进行中心预测；(3)对候选子图中进行链接预测发现隐藏关系；(4)在加入隐藏关系的候选子图中进行社区搜索。本发明能够有效地发现社区中的隐藏关系，通过预测社区中心增大了搜索社区的准确率，使得搜索的社区具有更好的鲁棒性和扩展性。

参照图1，一种融合隐藏关系的属性社区搜索方法，本发明实现步骤如下：

步骤6：获取子图H_s的中心节点c；

本发明具体包括以下步骤：

步骤3：使用矩阵X训练堆栈式自编码器；所述的堆栈式自编码器包括编码器和解码器；所述的矩阵X输入到编码器的输入层，编码器对矩阵X进行编码，编码器的隐藏层中间层输出表示矩阵d是表示空间的维度，d＜＜(n+m)；所述的解码器将矩阵Y解码为通过迭代更新模型权重使损失函数最小化，完成练堆栈式自编码器的训练；

堆栈式自编码器的解码器的损失函数为：

L＝L_high+L_s+L_a+L_reg

步骤6：获取子图H_s的中心节点c；

步骤6.3：令s_j＝s_j+1；

步骤6.5：若nq_i<nq_j，则在无边图H_sa中添加一条有向边

若nq_i＝nq_j且nq_i≠0，则在无边图H_sa中添加两条有向边和/>

步骤6.6：若s_j<b，则返回步骤6.3；否则，执行步骤6.7；

步骤8.2：初始化t_i＝1；

所述的增大A_q权重后节点与另一个节点/>的距离为：

步骤8.5：初始化Pt_i＝1；

步骤9.1：初始化令l＝0，H_l＝H_d,H_r＝H_l；

步骤9.4：删除打分最低的节点和该节点关联的边；

步骤9.5：将中间社区H_l加入到候选子图集合Hset中；

步骤9.6：将中间社区H_l调整为(k,d)-truss结构；

步骤9.7：令l＝l+1，返回步骤9.2；

H_r＝argmax_H∈Hsetf(H,A_q)

步骤1中给定一个无向无权图G＝(V,E,A)，其中V＝{v₁,…,v_n}表示图中的n个结点，E＝{e_ij}，0≤i,j<n表示边集，如果v_i与v_j之间存在一条边，则e_ij＝1，否则e_ij＝0；如果是带权图，则e_ij为边上的权重。为G的邻接矩阵，/>为G的属性矩阵。将M与A拼接起来构成/>

参照图2，堆栈式自编码器分为编码器和解码器两部分：编码器将输入层的的矩阵进行编码，从隐藏层中间层输出，得到一个/>的矩阵，再通过解码器，将Y解码为/>通过设计损失函数L＝L_high+L_s+L_a+L_reg迭代更新模型权重使损失函数最小化。将X输入到已经训练好的模型中，在编码器模块最后一层输出的矩阵即为图G的低维表示矩阵Y；

为堆栈式自编码器设置损失函数捕捉一阶结构特征：

其中，y_i和y_j分别为v_i和v_j的表示向量。如果v_i和v_j之间存在一条边，则s_ij＝e_ij，否则s_ij＝θ<0。对于不相连的两个结点，给定一个负数的惩罚系数，在求L_s最小值的过程中，不相连的结点在低维空间中的距离会增大，相连的结点在低维空间中的距离会缩小。

设置损失函数捕捉高阶结构特征：

其中，x_i为v_i邻接向量和属性向量的串联向量，为x_i对应的模型的输出，⊙为哈达玛积，t_i＝[t_i1,t_i2,…,t_i(n+m)]，x_ij>0，t_ij＝δ>1，δ为常数，否则t_ij＝1。这个会增加重构前后x_i中1值的损失，减少x_i中0值的损失。

设置捕捉属性相似度的损失函数：

其中，a_i和a_j分别为v_i和v_j的属性向量。为了将L_a最小化，a_i和a_j越相似，则y_i和y_j的距离会越近，反之则越远。

综上，堆栈式自编码器的损失函数为：

L＝L_high+L_s+L_a+L_reg

其中，L_reg为L2正则项：

其中，w^(k)为编码器部分第k层隐藏层权重矩阵，为解码器第k层权重矩阵。通过迭代训练自编码器模型，优化模型参数使得L最小。将X输入训练好的模型，在隐藏层的中间层输出，即得到表示学习矩阵/>其中d＜＜(n+m)。

由于现有的社区搜索算法多采用(k,d)-truss限制社区的结构，即一条边要在(k-2)个三角形中，结点到查询结点的距离不能大于d。这里我们讨论(4,2)-truss的结构，查询结点为a的情况：在图3(a)中，隐藏关系ab使得实际边bc满足(4,2)-truss结构，从而使得b结点加入到a所在的属性社区中；在图3(b)中，在实际图中结点b与a不相连，通过隐藏关系ab,bc使得ab相连；在图3(c)中，在实际图中b到a的最短距离为3，不满足(4,2)-truss结构，隐藏关系bc使得结点b到a的最短距离变为2，从而进入a所在的社区。

本发明的效果可通过以下实验进一步说明：

实验平台：操作系统Ubuntu 16.04.4，处理器Intel i7，内存8G，python3.6

(1)网络表示学习模型效果验证：

发现隐藏关系是通过表示向量进行链接预测，链接预测效果好坏对于隐藏关系的发掘有重要影响。在facebook数据集上，先随机删除一些边，对处理过的图进行表示学习。模型训练结束后，使用表示向量去预测未知的边，并与原图中的边进行比较，使用precision@K做为预测隐藏边的评价指标。实验结果如图4所示。从实验结果可以看出，通过堆栈式自编码器学习到的表示向量对于预测隐藏边有良好的效果。

(2)加入隐藏边的属性社区搜索算法的验证：

在facebook的子图中随机选择100个测试样本，每个样本里包含一个查询结点和一个查询属性，使用现有的属性社区搜索算法和融合隐藏关系的属性社区搜索算法进行搜索，将搜索到的结果与真实社区进行比较，如图5所示。由于预测了社区中心，使得候选子集和真实社区的交集增大，使得加入隐藏关系的社区具有更高的查准率；由于加入了隐藏关系，使得更多的结点加入到查询社区中，增大了结果的查全率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合隐藏关系的属性社区搜索方法，其特征在于，包括以下步骤：

步骤1：输入原始社交网络图G＝(V，E，A)、查询节点v_q和查询属性集合A_q；

社交网络图G＝(V，E，A)中，V为社交网络图中的节点集合，V＝{v₁，...，v_n}，n为社交网络图中节点的数量；E为社交网络图中的边集，E＝{e_ij}，0≤i，j＜n，如果节点v_i与节点v_j之间存在一条边，则e_ij＝1，否则e_ij＝0；A为社交网络图的属性矩阵，m为社交网络图中属性的数量；

步骤4：将矩阵输入到训练好的堆栈式自编码器，得到表示矩阵/>

步骤6：获取子图H_s的中心节点c；

步骤9.1：初始化令l＝0，H_l＝H_d，H_r＝H_l；

步骤9.4：删除打分最低的节点和该节点关联的边；

步骤9.5：将中间社区H_l加入到候选子图集合Hset中；

步骤9.6：将中间社区H_l调整为(k，d)-truss结构；

步骤9.7：令l＝l+1，返回步骤9.2；

H_r＝argmax_H∈Hsetf(H，A_q)

2.根据权利要求1所述的一种融合隐藏关系的属性社区搜索方法，其特征在于：所述的步骤6中获取子图H_s的中心节点c的方法具体为：

步骤6.1：建立子图H_s的无边图H_sa＝(V_s，E_sa，A_s)；初始化s_i＝s_j＝0；

步骤6.3：令s_j＝s_j+1；

步骤6.5：若nq_i＜nq_j，则在无边图H_sa中添加一条有向边

若nq_i＝nq_j且nq_i≠0，则在无边图H_sa中添加两条有向边和/>

步骤6.6：若s_j＜b，则返回步骤6.3；否则，执行步骤6.7；

步骤6.7：若s_i＜b，则返回步骤6.2；否则，输出带有属性方向的有向图H_sa，执行步骤6.8；

3.根据权利要求1或2所述的一种融合隐藏关系的属性社区搜索方法，其特征在于：所述的步骤8中对候选子图H_t中的每个节点进行链接预测，将发现的隐藏关系加入到候选子图H_t中，得到最终子图H_d的具体步骤为：

其中，y_i为节点v_i对应于表示矩阵中的表示向量；y_j为节点v_j对应于表示矩阵中的表示向量；p为设定的常数；

步骤8.2：初始化t_i＝1；

所述的增大A_q权重后节点与另一个节点/>的距离为：

步骤8.5：初始化Pt_i＝1；

步骤8.6：若集合中的节点/>在候选子图H_t的节点集合中，则在候选子图H_t中建立节占/>与节点/>之间的边；否则，将节点/>添加到候选子图H_t的节点集合中，建立节点与节点/>之间的边，并根据原始社交网络图G的边集E，在候选子图H_t中建立节点/>与候选子图H_t中其他节点之间的边；

步骤8.7：若Pt_i＜r，则令Pt_i＝Pt_i+1，并返回步骤8.6；否则，执行步骤8.8；

步骤8.8：若t_i＜g，g为候选子图H_t中节点的数量，则令t_i＝t_i+1，并返回步骤8.3；否则，执行步骤8.9；

步骤8.9：将候选子图H_t调整为(k，d)-truss结构，得到最终子图H_d。

4.根据权利要求1或2所述的一种融合隐藏关系的属性社区搜索方法，其特征在于：所述的步骤3中堆栈式自编码器的解码器的损失函数为：

L＝L_high+L_s+L_a+L_reg

其中，L_high为损失函数的捕捉高阶结构特征；L_s为损失函数的捕捉一阶结构特征；L_a为损失函数的捕捉属性相似度；L_reg为正则项；y_i和y_j分别为原始社交网络图G中节点v_i和节点v_j的表示向量；若节点v_i和节点v_j之间存在一条边，则s_ij＝e_ij；若节点v_i和节点v_j之间不存在一条边，则s_ij＝θ＜0；x_i为节点v_i的邻接向量和属性向量的串联向量；为x_i对应的模型的输出；⊙为哈达玛积；t_i＝[t_i1，t_i2，...，t_i(n+m)]；若x_ij＞0，则t_ij＝δ＞1，δ为常数；若x_ij≤0，则t_ij＝1；/>a_i和a_j分别为节点v_i和节点v_j的属性向量；w^(k)为编码器部分第k层隐藏层权重矩阵；/>为解码器第k层权重矩阵。

5.根据权利要求3所述的一种融合隐藏关系的属性社区搜索方法，其特征在于：所述的步骤3中堆栈式自编码器的解码器的损失函数为：

L＝L_high+L_s+L_a+L_reg