CN105138600B - 基于图结构匹配的社交网络分析方法 - Google Patents
基于图结构匹配的社交网络分析方法 Download PDFInfo
- Publication number
- CN105138600B CN105138600B CN201510477246.2A CN201510477246A CN105138600B CN 105138600 B CN105138600 B CN 105138600B CN 201510477246 A CN201510477246 A CN 201510477246A CN 105138600 B CN105138600 B CN 105138600B
- Authority
- CN
- China
- Prior art keywords
- result
- matching
- graph structure
- social network
- query engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000003012 network analysis Methods 0.000 title claims abstract description 10
- 238000010586 diagram Methods 0.000 claims abstract description 16
- 238000012800 visualization Methods 0.000 claims abstract description 7
- 230000000007 visual effect Effects 0.000 claims abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000012423 maintenance Methods 0.000 abstract description 10
- 238000007726 management method Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000007792 addition Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007794 visualization technique Methods 0.000 description 2
- 101000741917 Homo sapiens Serine/threonine-protein phosphatase 1 regulatory subunit 10 Proteins 0.000 description 1
- 102100038743 Serine/threonine-protein phosphatase 1 regulatory subunit 10 Human genes 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2428—Query predicate definition using graphical user interfaces, including menus and forms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图结构匹配的社交网络分析方法,涉及图结构匹配技术、增量计算技术等领域。主要包括下述步骤:a、图形化界面帮助用户管理图数据,构建模式图及可视化查询结果。b、查询引擎调用分布式算法执行结构匹配计算,同时对匹配结果进行评估,选取top‑K个结果,并将它们可视化在图形界面上。c、运用增量算法,对已有的匹配结果进行增量计算,以保证结果的正确性和完整性。针对社交网络“大数据”,通过分布式,可视化及增量计算技术,实现高效、便捷的数据分析与维护,进而为专家推荐、社交圈子识别,社会位置分析等热点应用提供关键技术支撑。
Description
技术领域
本发明涉及图结构匹配技术、社交网络分析技术、分布式计算技术、增量计算技术等领域;具体涉及基于图结构匹配的社交网络分析方法。
背景技术
近年来,互联网的持续快速发展,社交网络等新兴信息模式的迅猛发展,对个人和社会群体的行为产生了深远影响。以Facebook为例,我们发现其:(1)用户规模大,全球注册用户超8.5亿,用户间联系逾千亿;(2)使用频繁,超过一半的用户每天登陆Facebook,所有用户每月在线时间达7000亿分钟;(3)商业价值高,是排名第一的广告发布接受网站,每天有超过10亿条包括视频、照片、新闻等信息在用户间分享。
庞大的社交网络为人们提供了丰富的信息,然而如何快速有效地发现社交网络海量信息背后所蕴含的知识,是亟待人们解决的问题。
由于社交网络可以抽象为图结构——用户可被视为图的顶点,用户之间的关系可被看作图的边,因此,基于图结构匹配的分析技术已成为社交网络分析的主要技术之一,并且已经和正在帮助人们进行专家推荐、社交圈子识别,社会位置分析等。简言之,图结构匹配是在一个大图G中查询与给定模式图Q匹配的子图(可形式化描述为Q(G))。然而,由于社交网络图数据“海量”及“非结构化”的特点,通过传统技术对社交网络“大数据”进行分析已难以满足人们的迫切需要。具体原因表现在:(1)图结构匹配兼顾数据和拓扑结构,从而导致对该问题的运算往往较为复杂,例如:基于子图同构的图结构匹配属于一类极难解决的问题——NP完全问题;(2)社交网络的数据往往是分布式存储的。例如:Twitter社交图的FlockDB,Yahoo!互联网应用的PNUTS,开源社区的Neo4j和HypergraphDB等。另一方面,图结构匹配经常需要访问多个数据节点,例如:访问多个数据站点以取得匹配计算所需要的全部信息。因此,在分布式环境下,图结构匹配的求值更加困难;(3)现实世界的社交网络是不断变化的。在一周内有10%的节点及节点关系更新是常见的情况。当更新出现的时候,昂贵的查询需要被重新计算。这样的计算在面对频繁的请求时往往是无法进行的。(4)可视化管理工具的缺失。与关键词搜索和结构化查询不同,图结构匹配查询条件(如模式图Q)的描述更加复杂,且对结果的理解也需要更加直观的方式。
发明内容
本发明的目的是为了有效的克服以上困难,更加高效、便捷地对社交网络“大数据”进行分析,我们对传统技术进行了如下三方面的扩展:(I)采用分布式技术管理、查询数据,实现图结构匹配计算的并行化;(II)实现匹配结果(视图)的增量维护;(III)实现模式图构造和匹配结果的可视化。
为了达到上述的技术效果,本发明采取以下技术方案:基于图结构匹配的社交网络分析方法,包括下述步骤(以下步骤不分先后顺序):
a、图形化界面帮助用户管理图数据,构建模式图及可视化查询结果。
b、查询引擎调用分布式算法执行结构匹配计算,同时对匹配结果进行评估,选取top-K个结果,并将它们可视化在图形界面上。
c、运用增量算法,对已有的匹配结果进行增量计算,以保证结果的正确性和完整性。
进一步的技术方案是:步骤b通过以下步骤实现:
b1、查询引擎接收查询请求后,将请求分发到各个数据站点。
b2、各站点收到查询请求后,并行地调用优化了的VF2算法执行本地计算。
b3、查询引擎收集到所有返回的计算结果后,查询引擎利用排序功能识别top-K个匹配项,排序功能利用匹配结果的度数对结果进行整合。
进一步的技术方案是:步骤c通过以下步骤实现:
c1、将模式图Q视为无向图Q',并计算出无向图Q'的直径d。
c2、对于给定的图G中每一条边的更新Δe=(v,v'),分别计算v和v'在d步内可达的节点,并从图G中导出该子图,称为图G(Δe,Q);对图G(Δe,Q)和模式图Q进行同构计算。
本发明与现有技术相比,具有以下的有益效果:
针对社交网络“大数据”,通过分布式,可视化及增量计算技术,实现高效、便捷的数据分析与维护,进而为专家推荐、社交圈子识别,社会位置分析等热点应用提供关键技术支撑。
本发明所提供的技术包括:(I)分布式图结构匹配技术,(II)图数据管理技术,(III)匹配结果(视图)增量维护技术,(IV)查询可视化技术。
(I)分布式图结构匹配技术:通过全双工方式,对经典的VF2算法进行拓展,实现分布式图结构匹配计算。
(II)图数据管理技术:基础数据采用十字链表结构,便于双向(延父节点,或子节点)遍历;同时由于采用了更加“简洁”的数据结构,使得数据的空间开销更小。
(III)匹配结果增量维护技术:从输入输出变化的角度,设计增量维护算法,使得对查询结果的动态维护更加高效。
(IV)查询可视化技术:通过“所见即所得”的可视化方式帮助用户构建查询,管理图数据,并可视化查询结果。
附图说明
图1是本发明系统架构示意图
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
基于图结构匹配的社交网络分析方法,通过以下三大模块实现:
一、图形化界面:
图形化界面帮助用户管理图数据,构建模式图,及可视化查询结果。用户一方面可以通过在面板上“画出”一系列的节点和边,便利地构建模式图,另一方面可以选择所要查询的图数据,最终明确匹配算法的输入;用户可以指定图数据并对其进行一系列数据管理操作,如节点查询,节点和边的增删改等操作;匹配结果将以图形化的方式呈现,用户可以更加直观地理解匹配结果。
二、查询引擎
查询引擎调用分布式算法执行结构匹配计算,同时对匹配结果进行评估,选取top-K个结果,并将它们可视化在图形界面上。查询引擎的具体工作流程如下:
(I)查询引擎接收查询请求后,将请求分发到各个数据站点(S1,S2...Sm)。
(II)各站点收到查询请求后,并行地调用优化了的VF2算法执行本地计算。考虑到本地化的运算会导致匹配结果缺失,因此在执行本地化运算前,对于当前站点Si的边界节点vo(即位于本站点,但是存在子节点位于其他站点),如果其与模式图Q中的某个节点uo具有相同的节点标签(可扩展至具有类似语义),则Si向其他站点Sj请求边界节点vo的邻居节点。Si接收到Sj返回的数据后,进行本地运算,并将结果返回查询引擎。
(III)查询引擎收集到所有返回的计算结果后,对结果进行整合。考虑到查询结果集有时会非常大,而用户可能只对排名靠前的K个匹配结果感兴趣,因此查询引擎利用排序功能识别top-K个匹配项;而排序依据来源于对社交网络的观察:一个匹配结果与外部连接地紧密程度反映了该匹配结果的社会影响,因此排名功能利用匹配结果的度数(出入度之和)作为衡量匹配结果重要性的指标。
三、增量计算模块
真实的社交网络图G往往非常大,并且经常变化。对于给定的图G,模式图Q和图G的增量ΔG,在每一次图G更新后重新计算模式图Q(G+ΔG)将是一个非常消耗资源的过程。而当增量ΔG很小时,增量计算比每一次重新计算效率高得多。本模块通过运用增量算法,对已有的匹配结果进行增量计算,以保证结果的正确性和完整性。增量计算的核心思路依据子图同构的“本地化”特性,其算法如下:
(1)将模式图Q视为无向图Q',并计算出无向图Q'的直径d。
(2)对于图G中每一条边的更新Δe=(v,v')(增删节点不会影响匹配结果,故忽略之),分别计算v和v'在d步内可达的节点,并从图G中导出该子图,称为图G(Δe,Q);对图G(Δe,Q)和模式图Q进行同构计算。
本发明通过实施例所述方法实现了以下效果:
实现了对社交网络“大数据”的分布式存储,维护,及结构匹配计算;从而通过并行处理的方式,极大提高了面向大规模图数据开展分析、计算的能力;
实现了更为轻量级的图数据表示,及更加便捷的图数据管理。对于图数据,我们采用了更为复杂,但却更加易用的十字链表作为其基础数据结构;同时采用了更加精炼的方式,确保数据开销更小。我们在十字链表的基础上,实现了非常高效的节点、边的增删改操作,使得图数据的维护非常便利。
实现了增量维护计算,以克服社交网络更新频繁,而批量计算又开销巨大的严重瓶颈。
实现了模式图的可视化构建,以及查询结果的可视化。帮助用户更加便捷的描述查询请求,以及更加直观的理解查询结果。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (2)
1.基于图结构匹配的社交网络分析方法,其特征在于,包括下述步骤:
a、图形化界面帮助用户管理图数据,构建模式图及可视化查询结果;
b、查询引擎调用分布式算法执行结构匹配计算,同时对匹配结果进行评估,选取top-K个结果,并将top-K个结果可视化在图形界面上;
c、运用增量算法,对已有的匹配结果进行增量计算,以保证结果的正确性和完整性;
具体地,所述步骤b通过以下步骤实现:
b1、查询引擎接收查询请求后,将请求分发到各个数据站点;
b2、各站点收到查询请求后,并行地调用VF2算法执行本地计算;
b3、查询引擎收集到所有返回的计算结果后,查询引擎利用排序功能识别top-K个匹配项,排序功能利用匹配结果的度数对结果进行整合。
2.根据权利要求1所述的基于图结构匹配的社交网络分析方法,其特征在于,步骤c通过以下步骤实现:
c1、将模式图Q视为无向图Q',并计算出无向图Q'的直径d;
c2、对于社交网络图G中每一条边的更新Δe=(v,v'),分别计算v和v'在d步内可达的节点,并从图G中导出所述图G的子图,称为图G(Δe,Q);对图G(Δe,Q)和模式图Q进行同构计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510477246.2A CN105138600B (zh) | 2015-08-06 | 2015-08-06 | 基于图结构匹配的社交网络分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510477246.2A CN105138600B (zh) | 2015-08-06 | 2015-08-06 | 基于图结构匹配的社交网络分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105138600A CN105138600A (zh) | 2015-12-09 |
CN105138600B true CN105138600B (zh) | 2019-03-26 |
Family
ID=54723948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510477246.2A Active CN105138600B (zh) | 2015-08-06 | 2015-08-06 | 基于图结构匹配的社交网络分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105138600B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933882B (zh) * | 2015-12-31 | 2020-09-29 | 华为技术有限公司 | 一种大数据增量计算方法和装置 |
CN106372125A (zh) * | 2016-08-24 | 2017-02-01 | 安阳师范学院 | 一种sna视角下教育技术微博群个案研究模型构建方法 |
CN106446143B (zh) * | 2016-09-21 | 2019-12-24 | 四川长虹电器股份有限公司 | 基于图结构匹配的智能推荐系统及方法 |
US10885118B2 (en) * | 2017-05-12 | 2021-01-05 | Futurewei Technologies, Inc. | Incremental graph computations for querying large graphs |
CN108197186B (zh) * | 2017-12-26 | 2021-11-12 | 北京航空航天大学 | 一种应用于社交网络中的动态图匹配查询方法 |
CN111611419B (zh) * | 2019-02-26 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 一种子图识别方法及装置 |
CN110543364A (zh) * | 2019-07-21 | 2019-12-06 | 聊城市光明医院 | 一种医学影像快速加载方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102981913A (zh) * | 2012-12-04 | 2013-03-20 | 公安部第三研究所 | 支持大规模分布式增量计算的推理控制方法及推理控制系统 |
CN103345508A (zh) * | 2013-07-04 | 2013-10-09 | 北京大学 | 一种适用于社会网络图的数据存储方法及系统 |
CN103699550A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 数据挖掘系统及数据挖掘方法 |
-
2015
- 2015-08-06 CN CN201510477246.2A patent/CN105138600B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699550A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 数据挖掘系统及数据挖掘方法 |
CN102981913A (zh) * | 2012-12-04 | 2013-03-20 | 公安部第三研究所 | 支持大规模分布式增量计算的推理控制方法及推理控制系统 |
CN103345508A (zh) * | 2013-07-04 | 2013-10-09 | 北京大学 | 一种适用于社会网络图的数据存储方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105138600A (zh) | 2015-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105138600B (zh) | 基于图结构匹配的社交网络分析方法 | |
CN105117421B (zh) | 基于图结构匹配的社交网络分析方法 | |
Pan et al. | Integrating BIM and AI for smart construction management: Current status and future directions | |
Deng et al. | AirVis: Visual analytics of air pollution propagation | |
CN103605662B (zh) | 一种分布式计算框架参数优化方法、装置及系统 | |
Hor et al. | A semantic graph database for BIM-GIS integrated information model for an intelligent urban mobility web application | |
Obitko et al. | Big data challenges in industrial automation | |
Zhang et al. | A system for tender price evaluation of construction project based on big data | |
Chen et al. | Digital twin in circular economy: Remanufacturing in construction | |
CN111160867A (zh) | 大范围地域停车场大数据分析系统 | |
Zhang et al. | A holistic literature review of building information modeling for prefabricated construction | |
CN106503811A (zh) | 一种基于大数据的基础设施全生命周期管理方法 | |
Mohamed et al. | A review on big data management and decision-making in smart grid | |
Zhang et al. | Research hotspots and trends in heritage building information modeling: A review based on CiteSpace analysis | |
Li | Research on efficiency evaluation model of integrated energy system based on hybrid multi-attribute decision-making | |
CN113722564A (zh) | 基于空间图卷积能源物资供应链的可视化方法及装置 | |
Gopalakrishnan et al. | Big Data in building information modeling research: survey and exploratory text mining | |
Ali et al. | From big data to smart data-centric software architectures for city analytics: the case of the pell smart city platform | |
Chen et al. | Digital twin mobility profiling: A spatio-temporal graph learning approach | |
Yindong et al. | Advances and future challenges in electric power big data | |
Zhihui et al. | Intelligent Data Mining of Computer-Aided Extension Residential Building Design Based on Algorithm Library | |
Hu | Library information resource sharing cloud service based on cloud computing mode | |
Wu et al. | The design of distributed power big data analysis framework and its application in residential electricity analysis | |
Hao et al. | UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction | |
Dollah et al. | A review of sector-specific big data analytics models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |