CN109271541B - 一种基于聚集图的语义结构查询方法 - Google Patents

一种基于聚集图的语义结构查询方法 Download PDF

Info

Publication number
CN109271541B
CN109271541B CN201810980199.7A CN201810980199A CN109271541B CN 109271541 B CN109271541 B CN 109271541B CN 201810980199 A CN201810980199 A CN 201810980199A CN 109271541 B CN109271541 B CN 109271541B
Authority
CN
China
Prior art keywords
graph
aggregation
point
super
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810980199.7A
Other languages
English (en)
Other versions
CN109271541A (zh
Inventor
朱玉
游进国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810980199.7A priority Critical patent/CN109271541B/zh
Publication of CN109271541A publication Critical patent/CN109271541A/zh
Application granted granted Critical
Publication of CN109271541B publication Critical patent/CN109271541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于聚集图的语义结构查询方法,属于数据挖掘领域。本发明先对社交网络中的原图进行图聚集,将复杂庞大的社交网络进行压缩,然后对查询的语义结构用同样的聚集方法进行操作,并以邻接矩阵的形式分别储存这两个聚集图的点与边的信息,最后在原图的聚集图的邻接矩阵上对语义结构的聚集图查询。本发明利用在聚集图上查询语义结构来实现候选语义结构的有效过滤和查询图的快速覆盖,能够支持大型网络图中语义结构的快速查询。

Description

一种基于聚集图的语义结构查询方法
技术领域
本发明涉及一种基于聚集图的语义结构查询方法,属于数据挖掘领域。
背景技术
图数据的表达能力特别强,连续几年越来越受到工业界和学术界的共同关注。在社会计算的大数据时代对图查询进行研究,其意义更加突出。目前的图查询都是基于大图、非压缩数据的,对于聚集图的查询仍然是值得研究的方向。
海量的图数据需要高效的查询技术。目前大多数研究都是针对于原图直接查询,由于原图可能是一个内存比较大的数据,查询时耗时大,所占内存也比较大。
发明内容
本发明要解决的技术问题是提供一种基于聚集图的语义结构查询方法,目的在于在社交网络中查询针对研究比较有意义的语义结构;在降低空间开销的同时,具有较高的查询效率。
本发明采用的技术方案是:一种基于聚集图的语义结构查询方法,包括如下步骤:
数据预处理步骤:将庞大的社交网络和想要查找的语义结构用图的形式来表示,其中用点表示社交网络中的一员,点与点之间的边来表示每个人之间是否存在关系;
图聚集步骤:将得到的社交网络的原图和想要查询的语义结构星形图用BUS聚集算法聚集成两个新的聚集图;
匹配查询步骤:用邻接矩阵来存储聚集图的图信息,利用星形图的超点间强关联与超点内部弱关联来匹配查询。
所述数据预处理步骤,具体包括如下步骤:
步骤110:将庞大的社交网络中的每一员看作一个端点,若成员有关注的关系则视为两个端点之间有边存在,并构成一个原图;
步骤120:将两个以上人员关注同一人员的人员关系图表达为星形图,星形图来表示想要查询的语义结构。
所述图聚集步骤,具体包括如下步骤:
步骤210:将原图和想要查询的星形图利用BUS聚集算法进行聚集分别得到对应的聚集图,发现星形结构聚集之后都为超点与超点之间概率为1,其中一个超点内部只有一个点,另一个超点内部有大于等于2个数的点,且该超点内部为弱关联。
所述图聚集步骤中BUS聚集算法采用自底向上凝聚分组,具体为:
步骤220:每次选取两个分组进行凝聚,直至结果图的误差率不满足误差阈值为止,其中:1)两超点间可能存在的边总数Γij;2)两超点间实际存在的边的总数Eij,两者间的关联强度P=Eijij
所述匹配查询步骤,具体包括如下步骤:
步骤310:将得到的原图的聚集图用邻接矩阵来存储图信息;
步骤320:在原图的聚集图邻接矩阵中匹配星形图聚集图的邻接矩阵,根据超点上的概率和超点与超点之间的关联强度特征来进行查询。
所述步骤310,包括下列步骤311、312:
步骤311:在非对角线上存储超点与超点之间的关联强度关系;
步骤312:对角线上存储超点内部关系。
所述步骤320,包括下列步骤321、322、323:
步骤321:在原图聚集之后的邻接矩阵的非对角线处寻找概率大于1/2的点对,即为超点与超点之间为强关联,输出这些超点对;
步骤322:判断超点对中是否满足一个超点内只有一个点,另一个超点内的点数大于等于2,输出符合要求的超点对;
步骤323:判断超点内点数大于等于2的的超点内部是否是弱关联即概率小于1/2,输出符合的超点对,即查询成功。
所述BUS聚集算法包括如下步骤:
首先,获得想要聚集的原图的邻接矩阵,并记录各个点的度数;然后,广度优先遍历各个点,每次选取两个组进行凝聚,有效地将时间复杂度控制在多项式时间内;之后,条件熵选择最优分组;最后,出现条件熵值一样时,根据误差率的大小,选取误差率较小的分组。
本发明的有益效果是:本发明利用在聚集图上查询语义结构来实现候选语义结构的有效过滤和查询图的快速覆盖,能够支持大型网络图中语义结构的快速查询。
附图说明
图1是本发明的整体流程图;
图2是假设社交网络映射的原图;
图3是从社交网络中抽取的部分原图;
图4是一种星形图;
图5是原图经过聚集之后的聚集图;
图6是星形图聚集效果;
图7是用邻接矩阵储存的数据图;
图8是匹配邻接矩阵过程图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步的说明。
实施例1:如图1-8所示,一种基于聚集图的语义结构查询方法,包括如下步骤:
数据预处理步骤:将庞大的社交网络和想要查找的语义结构用图的形式来表示,其中用点表示社交网络中的一员,点与点之间的边来表示每个人之间是否存在关系;
图聚集步骤:将得到的社交网络的原图和想要查询的语义结构星形图用BUS(Bottom-Up graph Summarization)聚集算法聚集成两个新的聚集图;
匹配查询步骤:用邻接矩阵来存储聚集图的图信息,利用星形图的超点间强关联与超点内部弱关联来匹配查询。
进一步地,所述数据预处理步骤,具体包括如下步骤:
步骤110:将庞大的社交网络中的每一员看作一个端点,若成员有关注的关系则视为两个端点之间有边存在,并构成一个原图(如图2所示);
步骤120:将两个以上人员关注同一人员(如明星和其庞大的粉丝群体)的人员关系图表达为星形图(如图4所示),星形图来表示想要查询的语义结构。
进一步地,所述图聚集步骤,具体包括如下步骤:
步骤210:将原图和想要查询的星形图利用BUS聚集算法进行聚集分别得到对应的聚集图(如图5,6所示),发现星形结构聚集之后都为超点与超点之间概率为1,其中一个超点内部只有一个点,另一个超点内部有大于等于2个数的点,且该超点内部为弱关联。
进一步地,所述图聚集步骤中BUS聚集算法采用自底向上凝聚分组,具体为:
步骤220:每次选取两个分组进行凝聚,直至结果图的误差率不满足误差阈值为止,其中:1)两超点间可能存在的边总数Γij;2)两超点间实际存在的边的总数Eij,两者间的关联强度P=Eijij
进一步地,所述匹配查询步骤,具体包括如下步骤:
步骤310:将得到的原图的聚集图用邻接矩阵来存储图信息;
步骤320:在原图的聚集图邻接矩阵中匹配星形图聚集图的邻接矩阵,根据超点上的概率和超点与超点之间的关联强度特征来进行查询。
所述步骤310,包括下列步骤311、312(如图7所示):
步骤311:在非对角线上存储超点与超点之间的关联强度关系;
步骤312:对角线上存储超点内部关系。
所述步骤320,包括下列步骤321、322、323(如图8所示):
步骤321:在原图聚集之后的邻接矩阵的非对角线处寻找概率大于1/2的点对,即为超点与超点之间为强关联,输出这些超点对:{1,2,3},{1,7,8},{7,8,4,5,6};
步骤322:判断超点对中是否满足一个超点内只有一个点,另一个超点内的点数大于等于2,输出符合要求的超点对{1,2,3},{1,7,8};
步骤323:判断超点内点数大于等于2的的超点内部是否是弱关联即概率小于1/2,输出符合的超点对{1,7,8},即查询成功。
进一步地,所述BUS聚集算法包括如下步骤:
首先,获得想要聚集的原图的邻接矩阵,并记录各个点的度数;然后,广度优先遍历各个点,每次选取两个组进行凝聚,有效地将时间复杂度控制在多项式时间内;之后,条件熵选择最优分组;最后,出现条件熵值一样时,根据误差率的大小,选取误差率较小的分组。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种基于聚集图的语义结构查询方法,其特征在于:包括如下步骤:
数据预处理步骤:将庞大的社交网络和想要查找的语义结构用图的形式来表示,其中用点表示社交网络中的一员,点与点之间的边来表示每个人之间是否存在关系;
图聚集步骤:将得到的社交网络的原图和想要查询的语义结构星形图用BUS聚集算法聚集成两个新的聚集图;
匹配查询步骤:用邻接矩阵来存储聚集图的图信息,利用星形图的超点间强关联与超点内部弱关联来匹配查询;
所述匹配查询步骤,具体包括如下步骤:
步骤310:将得到的原图的聚集图用邻接矩阵来存储图信息;
步骤320:在原图的聚集图邻接矩阵中匹配星形图聚集图的邻接矩阵,根据超点上的概率和超点与超点之间的关联强度特征来进行查询;
所述步骤310,包括下列步骤311、312:
步骤311:在非对角线上存储超点与超点之间的关联强度关系;
步骤312:对角线上存储超点内部关系;
所述步骤320,包括下列步骤321、322、323:
步骤321:在原图聚集之后的邻接矩阵的非对角线处寻找概率大于1/2的点对,即为超点与超点之间为强关联,输出这些超点对;
步骤322:判断超点对中是否满足一个超点内只有一个点,另一个超点内的点数大于等于2,输出符合要求的超点对;
步骤323:判断超点内点数大于等于2的的超点内部是否是弱关联即概率小于1/2,输出符合的超点对,即查询成功。
2.根据权利要求1所述的基于聚集图的语义结构查询方法,其特征在于:所述数据预处理步骤,具体包括如下步骤:
步骤110:将庞大的社交网络中的每一员看作一个端点,若成员有关注的关系则视为两个端点之间有边存在,并构成一个原图;
步骤120:将两个以上人员关注同一人员的人员关系图表达为星形图,星形图来表示想要查询的语义结构。
3.根据权利要求2所述的基于聚集图的语义结构查询方法,其特征在于:所述图聚集步骤,具体包括如下步骤:
步骤210:将原图和想要查询的星形图利用BUS聚集算法进行聚集分别得到对应的聚集图,发现星形结构聚集之后都为超点与超点之间概率为1,其中一个超点内部只有一个点,另一个超点内部有大于等于2个数的点,且该超点内部为弱关联。
4.根据权利要求2所述的基于聚集图的语义结构查询方法,其特征在于:所述图聚集步骤中BUS聚集算法采用自底向上凝聚分组,具体为:
步骤220:每次选取两个分组进行凝聚,直至结果图的误差率不满足误差阈值为止,其中:1)两超点间可能存在的边总数Γij;2)两超点间实际存在的边的总数Eij,两者间的关联强度P=Eijij
5.根据权利要求3或4所述的基于聚集图的语义结构查询方法,其特征在于:所述BUS聚集算法包括如下步骤:
首先,获得想要聚集的原图的邻接矩阵,并记录各个点的度数;然后,广度优先遍历各个点,每次选取两个组进行凝聚,有效地将时间复杂度控制在多项式时间内;之后,条件熵选择最优分组;最后,出现条件熵值一样时,根据误差率的大小,选取误差率较小的分组。
CN201810980199.7A 2018-08-27 2018-08-27 一种基于聚集图的语义结构查询方法 Active CN109271541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810980199.7A CN109271541B (zh) 2018-08-27 2018-08-27 一种基于聚集图的语义结构查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810980199.7A CN109271541B (zh) 2018-08-27 2018-08-27 一种基于聚集图的语义结构查询方法

Publications (2)

Publication Number Publication Date
CN109271541A CN109271541A (zh) 2019-01-25
CN109271541B true CN109271541B (zh) 2021-07-16

Family

ID=65154507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810980199.7A Active CN109271541B (zh) 2018-08-27 2018-08-27 一种基于聚集图的语义结构查询方法

Country Status (1)

Country Link
CN (1) CN109271541B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843842A (zh) * 2016-03-08 2016-08-10 东北大学 一种大数据环境下多维聚集查询与展示系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361092B2 (en) * 2015-09-25 2022-06-14 Intel Corporation Contextual access of data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843842A (zh) * 2016-03-08 2016-08-10 东北大学 一种大数据环境下多维聚集查询与展示系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Grouping and Aggregate queries Over Semantic Web Databases;Dawit Seid;《IEEE》;20071008;全文 *
Research on Graph Structure Characteristics of Data Cube Lattice;Wang Yang;《Computer Engineering》;20170215;第43卷(第2期);第68-73页 *
一种有效的加权图聚集算法;胡宝丽;《中国科学技术大学学报》;20160315;第46卷(第03期);第180-187页 *
加权图聚集算法研究;胡宝丽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;I138-2317页 *

Also Published As

Publication number Publication date
CN109271541A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN112181971B (zh) 一种基于边缘的联邦学习模型清洗和设备聚类方法、系统
WO2021052177A1 (zh) 日志解析方法、装置、服务器和存储介质
WO2021203319A1 (zh) 数据查询方法、装置及服务器
CN105515997A (zh) 基于bf_tcam实现零范围扩张的高效范围匹配方法
CN110719106A (zh) 一种基于节点分类排序的社交网络图压缩方法及系统
CN106021386A (zh) 面向海量分布式数据的非等值连接方法
CN107517266A (zh) 一种基于分布式缓存的即时通讯方法
CN108829846B (zh) 一种基于用户特征的业务推荐平台数据聚类优化系统及方法
CN109271541B (zh) 一种基于聚集图的语义结构查询方法
WO2012159320A1 (zh) 一种大规模图像数据的聚类方法及装置
CN110121153B (zh) 一种基于首尾轨迹片段的位置隐私保护方法
CN116127400A (zh) 基于异构计算的敏感数据识别系统、方法及存储介质
CN107239791A (zh) 一种基于LSH的高维K‑means聚类中心优选方法
CN110941836A (zh) 一种分布式垂直爬虫方法及终端设备
CN116668377A (zh) 一种vpn加密流量业务分类装置及方法
Yan et al. Improved SiamFC Target Tracking Algorithm Based on Anti‐Interference Module
CN112966001B (zh) 一种基于区块链的BCTkPQ查询方法
WO2021143010A1 (zh) 一种分布式计算任务的响应方法及设备
CN115295164A (zh) 医保数据的处理方法、装置、电子设备和存储介质
CN104021169B (zh) 一种基于SDD‑1算法的Hive连接查询方法
CN109246331A (zh) 一种视频处理方法和系统
Han et al. Grass leaf identification using dbN wavelet and CILBP
CN104731784A (zh) 视觉搜索方法、系统以及移动终端
CN106156000B (zh) 基于求交算法的搜索方法及搜索系统
CN109828968B (zh) 一种数据去重处理方法、装置、设备、集群及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant