CN109271541A - 一种基于聚集图的语义结构查询方法 - Google Patents
一种基于聚集图的语义结构查询方法 Download PDFInfo
- Publication number
- CN109271541A CN109271541A CN201810980199.7A CN201810980199A CN109271541A CN 109271541 A CN109271541 A CN 109271541A CN 201810980199 A CN201810980199 A CN 201810980199A CN 109271541 A CN109271541 A CN 109271541A
- Authority
- CN
- China
- Prior art keywords
- aggregation
- overtrick
- semantic structure
- original image
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 72
- 238000004220 aggregation Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000005054 agglomeration Methods 0.000 claims description 7
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于聚集图的语义结构查询方法,属于数据挖掘领域。本发明先对社交网络中的原图进行图聚集,将复杂庞大的社交网络进行压缩,然后对查询的语义结构用同样的聚集方法进行操作,并以邻接矩阵的形式分别储存这两个聚集图的点与边的信息,最后在原图的聚集图的邻接矩阵上对语义结构的聚集图查询。本发明利用在聚集图上查询语义结构来实现候选语义结构的有效过滤和查询图的快速覆盖,能够支持大型网络图中语义结构的快速查询。
Description
技术领域
本发明涉及一种基于聚集图的语义结构查询方法,属于数据挖掘领域。
背景技术
图数据的表达能力特别强,连续几年越来越受到工业界和学术界的共同关注。在社会计算的大数据时代对图查询进行研究,其意义更加突出。目前的图查询都是基于大图、非压缩数据的,对于聚集图的查询仍然是值得研究的方向。
海量的图数据需要高效的查询技术。目前大多数研究都是针对于原图直接查询,由于原图可能是一个内存比较大的数据,查询时耗时大,所占内存也比较大。
发明内容
本发明要解决的技术问题是提供一种基于聚集图的语义结构查询方法,目的在于在社交网络中查询针对研究比较有意义的语义结构;在降低空间开销的同时,具有较高的查询效率。
本发明采用的技术方案是:一种基于聚集图的语义结构查询方法,包括如下步骤:
数据预处理步骤:将庞大的社交网络和想要查找的语义结构用图的形式来表示,其中用点表示社交网络中的一员,点与点之间的边来表示每个人之间是否存在关系;
图聚集步骤:将得到的社交网络的原图和想要查询的语义结构星形图用BUS聚集算法聚集成两个新的聚集图;
匹配查询步骤:用邻接矩阵来存储聚集图的图信息,利用星形图的超点间强关联与超点内部弱关联来匹配查询。
所述数据预处理步骤,具体包括如下步骤:
步骤110:将庞大的社交网络中的每一员看作一个端点,若成员有关注的关系则视为两个端点之间有边存在,并构成一个原图;
步骤120:将两个以上人员关注同一人员的人员关系图表达为星形图,星形图来表示想要查询的语义结构。
所述图聚集步骤,具体包括如下步骤:
步骤210:将原图和想要查询的星形图利用BUS聚集算法进行聚集分别得到对应的聚集图,发现星形结构聚集之后都为超点与超点之间概率为1,其中一个超点内部只有一个点,另一个超点内部有大于等于2个数的点,且该超点内部为弱关联。
所述图聚集步骤中BUS聚集算法采用自底向上凝聚分组,具体为:
步骤220:每次选取两个分组进行凝聚,直至结果图的误差率不满足误差阈值为止,其中:1)两超点间可能存在的边总数Γij;2)两超点间实际存在的边的总数Eij,两者间的关联强度P=Eij/Γij。
所述匹配查询步骤,具体包括如下步骤:
步骤310:将得到的原图的聚集图用邻接矩阵来存储图信息;
步骤320:在原图的聚集图邻接矩阵中匹配星形图聚集图的邻接矩阵,根据超点上的概率和超点与超点之间的关联强度特征来进行查询。
所述步骤310,包括下列步骤311、312:
步骤311:在非对角线上存储超点与超点之间的关联强度关系;
步骤312:对角线上存储超点内部关系。
所述步骤320,包括下列步骤321、322、323:
步骤321:在原图聚集之后的邻接矩阵的非对角线处寻找概率大于1/2的点对,即为超点与超点之间为强关联,输出这些超点对;
步骤322:判断超点对中是否满足一个超点内只有一个点,另一个超点内的点数大于等于2,输出符合要求的超点对;
步骤323:判断超点内点数大于等于2的的超点内部是否是弱关联即概率小于1/2,输出符合的超点对,即查询成功。
所述BUS聚集算法包括如下步骤:
首先,获得想要聚集的原图的邻接矩阵,并记录各个点的度数;然后,广度优先遍历各个点,每次选取两个组进行凝聚,有效地将时间复杂度控制在多项式时间内;之后,条件熵选择最优分组;最后,出现条件熵值一样时,根据误差率的大小,选取误差率较小的分组。
本发明的有益效果是:本发明利用在聚集图上查询语义结构来实现候选语义结构的有效过滤和查询图的快速覆盖,能够支持大型网络图中语义结构的快速查询。
附图说明
图1是本发明的整体流程图;
图2是假设社交网络映射的原图;
图3是一种星形图;
图4是原图经过聚集之后的聚集图;
图5是星形图聚集效果;
图6是用邻接矩阵储存的数据图;
图7是匹配邻接矩阵过程图;
图8为图7中筛选出强链接的点对图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步的说明。
实施例1:如图1-8所示,一种基于聚集图的语义结构查询方法,包括如下步骤:
数据预处理步骤:将庞大的社交网络和想要查找的语义结构用图的形式来表示,其中用点表示社交网络中的一员,点与点之间的边来表示每个人之间是否存在关系;
图聚集步骤:将得到的社交网络的原图和想要查询的语义结构星形图用BUS(Bottom-Up graph Summarization)聚集算法聚集成两个新的聚集图;
匹配查询步骤:用邻接矩阵来存储聚集图的图信息,利用星形图的超点间强关联与超点内部弱关联来匹配查询。
进一步地,所述数据预处理步骤,具体包括如下步骤:
步骤110:将庞大的社交网络中的每一员看作一个端点,若成员有关注的关系则视为两个端点之间有边存在,并构成一个原图(如图2所示);
步骤120:将两个以上人员关注同一人员(如明星和其庞大的粉丝群体)的人员关系图表达为星形图(如图3所示),星形图来表示想要查询的语义结构。
进一步地,所述图聚集步骤,具体包括如下步骤:
步骤210:将原图和想要查询的星形图利用BUS聚集算法进行聚集分别得到对应的聚集图(如图4,5所示),发现星形结构聚集之后都为超点与超点之间概率为1,其中一个超点内部只有一个点,另一个超点内部有大于等于2个数的点,且该超点内部为弱关联。
进一步地,所述图聚集步骤中BUS聚集算法采用自底向上凝聚分组,具体为:
步骤220:每次选取两个分组进行凝聚,直至结果图的误差率不满足误差阈值为止,其中:1)两超点间可能存在的边总数Γij;2)两超点间实际存在的边的总数Eij,两者间的关联强度P=Eij/Γij。
进一步地,所述匹配查询步骤,具体包括如下步骤:
步骤310:将得到的原图的聚集图用邻接矩阵来存储图信息;
步骤320:在原图的聚集图邻接矩阵中匹配星形图聚集图的邻接矩阵,根据超点上的概率和超点与超点之间的关联强度特征来进行查询。
所述步骤310,包括下列步骤311、312(如图6所示):
步骤311:在非对角线上存储超点与超点之间的关联强度关系;
步骤312:对角线上存储超点内部关系。
所述步骤320,包括下列步骤321、322、323(如图7所示):
步骤321:在原图聚集之后的邻接矩阵的非对角线处寻找概率大于1/2的点对,即为超点与超点之间为强关联,输出这些超点对:{1,2,3},{1,7,8},{7,8,4,5,6};
步骤322:判断超点对中是否满足一个超点内只有一个点,另一个超点内的点数大于等于2,输出符合要求的超点对{1,2,3},{1,7,8};
步骤323:判断超点内点数大于等于2的的超点内部是否是弱关联即概率小于1/2,输出符合的超点对{1,7,8},即查询成功。
进一步地,所述BUS聚集算法包括如下步骤:
首先,获得想要聚集的原图的邻接矩阵,并记录各个点的度数;然后,广度优先遍历各个点,每次选取两个组进行凝聚,有效地将时间复杂度控制在多项式时间内;之后,条件熵选择最优分组;最后,出现条件熵值一样时,根据误差率的大小,选取误差率较小的分组。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.一种基于聚集图的语义结构查询方法,其特征在于:包括如下步骤:
数据预处理步骤:将庞大的社交网络和想要查找的语义结构用图的形式来表示,其中用点表示社交网络中的一员,点与点之间的边来表示每个人之间是否存在关系;
图聚集步骤:将得到的社交网络的原图和想要查询的语义结构星形图用BUS聚集算法聚集成两个新的聚集图;
匹配查询步骤:用邻接矩阵来存储聚集图的图信息,利用星形图的超点间强关联与超点内部弱关联来匹配查询。
2.根据权利要求1所述的基于聚集图的语义结构查询方法,其特征在于:所述数据预处理步骤,具体包括如下步骤:
步骤110:将庞大的社交网络中的每一员看作一个端点,若成员有关注的关系则视为两个端点之间有边存在,并构成一个原图;
步骤120:将两个以上人员关注同一人员的人员关系图表达为星形图,星形图来表示想要查询的语义结构。
3.根据权利要求2所述的基于聚集图的语义结构查询方法,其特征在于:所述图聚集步骤,具体包括如下步骤:
步骤210:将原图和想要查询的星形图利用BUS聚集算法进行聚集分别得到对应的聚集图,发现星形结构聚集之后都为超点与超点之间概率为1,其中一个超点内部只有一个点,另一个超点内部有大于等于2个数的点,且该超点内部为弱关联。
4.根据权利要求2所述的基于聚集图的语义结构查询方法,其特征在于:所述图聚集步骤中BUS聚集算法采用自底向上凝聚分组,具体为:
步骤220:每次选取两个分组进行凝聚,直至结果图的误差率不满足误差阈值为止,其中:1)两超点间可能存在的边总数Γij;2)两超点间实际存在的边的总数Eij,两者间的关联强度P=Eij/Γij。
5.根据权利要求2所述的基于聚集图的语义结构查询方法,其特征在于:所述匹配查询步骤,具体包括如下步骤:
步骤310:将得到的原图的聚集图用邻接矩阵来存储图信息;
步骤320:在原图的聚集图邻接矩阵中匹配星形图聚集图的邻接矩阵,根据超点上的概率和超点与超点之间的关联强度特征来进行查询。
6.根据权利要求5所述的基于聚集图的语义结构查询方法,其特征在于:所述步骤310,包括下列步骤311、312:
步骤311:在非对角线上存储超点与超点之间的关联强度关系;
步骤312:对角线上存储超点内部关系。
7.根据权利要求6所述的基于聚集图的语义结构查询方法,其特征在于:所述步骤320,包括下列步骤321、322、323:
步骤321:在原图聚集之后的邻接矩阵的非对角线处寻找概率大于1/2的点对,即为超点与超点之间为强关联,输出这些超点对;
步骤322:判断超点对中是否满足一个超点内只有一个点,另一个超点内的点数大于等于2,输出符合要求的超点对;
步骤323:判断超点内点数大于等于2的的超点内部是否是弱关联即概率小于1/2,输出符合的超点对,即查询成功。
8.根据权利要求3或4所述的基于聚集图的语义结构查询方法,其特征在于:所述BUS聚集算法包括如下步骤:
首先,获得想要聚集的原图的邻接矩阵,并记录各个点的度数;然后,广度优先遍历各个点,每次选取两个组进行凝聚,有效地将时间复杂度控制在多项式时间内;之后,条件熵选择最优分组;最后,出现条件熵值一样时,根据误差率的大小,选取误差率较小的分组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810980199.7A CN109271541B (zh) | 2018-08-27 | 2018-08-27 | 一种基于聚集图的语义结构查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810980199.7A CN109271541B (zh) | 2018-08-27 | 2018-08-27 | 一种基于聚集图的语义结构查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271541A true CN109271541A (zh) | 2019-01-25 |
CN109271541B CN109271541B (zh) | 2021-07-16 |
Family
ID=65154507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810980199.7A Active CN109271541B (zh) | 2018-08-27 | 2018-08-27 | 一种基于聚集图的语义结构查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271541B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843842A (zh) * | 2016-03-08 | 2016-08-10 | 东北大学 | 一种大数据环境下多维聚集查询与展示系统及方法 |
US20170091470A1 (en) * | 2015-09-25 | 2017-03-30 | Intel Corporation | Contextual access of data |
-
2018
- 2018-08-27 CN CN201810980199.7A patent/CN109271541B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091470A1 (en) * | 2015-09-25 | 2017-03-30 | Intel Corporation | Contextual access of data |
CN105843842A (zh) * | 2016-03-08 | 2016-08-10 | 东北大学 | 一种大数据环境下多维聚集查询与展示系统及方法 |
Non-Patent Citations (4)
Title |
---|
DAWIT SEID: "Grouping and Aggregate queries Over Semantic Web Databases", 《IEEE》 * |
WANG YANG: "Research on Graph Structure Characteristics of Data Cube Lattice", 《COMPUTER ENGINEERING》 * |
胡宝丽: "一种有效的加权图聚集算法", 《中国科学技术大学学报》 * |
胡宝丽: "加权图聚集算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109271541B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10268652B2 (en) | Identifying correlations between log data and network packet data | |
CN103678520B (zh) | 一种基于云计算的多维区间查询方法及其系统 | |
WO2018040503A1 (zh) | 获取搜索结果的方法和装置 | |
JP5744892B2 (ja) | テキストフィルタリングの方法およびシステム | |
US10679055B2 (en) | Anomaly detection using non-target clustering | |
US11748351B2 (en) | Class specific query processing | |
CN109829066B (zh) | 基于分层结构的局部敏感哈希图像索引方法 | |
CN103679012A (zh) | 一种可移植可执行文件的聚类方法和装置 | |
CN104391923A (zh) | 一种查询数据集的方法及装置 | |
Fahim | A clustering algorithm based on local density of points | |
CN101848248A (zh) | 一种规则查找方法和装置 | |
CN103810300A (zh) | 用于非索引覆盖的数据查询方法和装置 | |
WO2017095439A1 (en) | Incremental clustering of a data stream via an orthogonal transform based indexing | |
CN108959427B (zh) | 基于经验拟合的局部敏感哈希图像检索参数优化方法 | |
Shi et al. | Map/reduce in CBIR application | |
CN109271541A (zh) | 一种基于聚集图的语义结构查询方法 | |
CN108052601A (zh) | 数据库建立方法、装置及终端 | |
CN105447142B (zh) | 一种双模式农业科技成果分类方法及系统 | |
Chathurika et al. | A revised averaging algorithm for an effective feature extraction in component-based image retrieval system | |
Li et al. | Efficient clustering index for semantic Web service based on user preference | |
CN108133018B (zh) | 一种基于关联聚合的数据取证推荐方法 | |
CN112148830A (zh) | 一种基于最大区域网格的语义数据存储与检索的方法及装置 | |
Ramana et al. | Methods for mining cross level association rule in taxonomy data structures | |
Bouhlel et al. | Semantic-aware framework for mobile image search | |
CN111062418A (zh) | 一种基于最小生成树的无参数化聚类算法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |