CN108320234A - 一种数据处理方法、装置、及计算机可读存储介质 - Google Patents
一种数据处理方法、装置、及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108320234A CN108320234A CN201711277234.0A CN201711277234A CN108320234A CN 108320234 A CN108320234 A CN 108320234A CN 201711277234 A CN201711277234 A CN 201711277234A CN 108320234 A CN108320234 A CN 108320234A
- Authority
- CN
- China
- Prior art keywords
- community
- similarity
- node
- data processing
- centroid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000005192 partition Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 10
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 210000002230 centromere Anatomy 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据处理方法,包括以下步骤:将网络划分成多个社区;分别计算每个社区中内部节点间的相似度;确定每个社区的中心节点,将隶属不同社区的节点间的相似度表示为节点对应的社区的中心节点间的相似度。基于上述数据处理方法,本发明还提供了一种数据处理装置、及计算机可读存储介质。本发明的技术方案将网络划分成多个社区,降低了数据处理的规模,位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似,精度不受太大的影响,算法的效率大大提升。
Description
技术领域
本发明涉及通讯技术领域,特别涉及一种数据处理方法、装置、及计算机可读存储介质。
背景技术
目前,网络中两用户之间的相似度计算方法有多种,典型的方法包括基于节点局部信息的方法和基于网络拓扑结构信息的方法。
基于节点局部信息的方法考虑节点的邻居信息。一般来说,如果网络中的两个节点有着相同或者相近的邻居节点,那么这两个节点被认为是相似的,基于该思想的相似度构造方法大致有以下三种:
假设Γi表示节点i的邻居集合,|Γi|表示该集合的势,|Γi∩Γj|表示节点i和节点j共有的邻居个数。可以定义如下三种相似度:
基于信号传递思想将网络拓扑结构信息转化为空间向量信息,它的基本思想是将网络中的节点当作具有接收和发射信号的节点,首先从网络中任选一个节点v,给v赋一个信号值,然后v向自己和自己的邻居节点发射该信号值,接到信号的节点记录并保存相应的信号值,同理,其它的节点也进行同样的接收和发送信号的过程,如此传递下去,经过T次传递之后,位于同一个社区里的节点对网络中其它节点传递的信号量是接近的。信号传递的过程可以用数学公式表示,即V=(I+A)T,I表示单位矩阵,A表示网络的邻接矩阵,T表示信号传递的次数。信号传递T次后,包含n个节点的网络中的每一个节点的信号量是一个n维向量,它表示的是该节点对网络其它节点的影响程度,这样n个节点就有n个n维向量,从而将网络空间拓扑结构的信息转化为了向量空间信息,再对其进行标准化之后就可以运用各种空间距离计算相应的相似度矩阵对其进行聚类。
如果一个节点相似于另一个节点的邻居节点,那么也认为这两个节点是相似的,基于这个思想,Leicht E.A.等人提出了另一种基于网络拓扑结构的节点相似度构造方法,简称为regular方法:
该方法采用一种迭代的思想,假设A为网络的邻接矩阵,T(i)表示中间矩阵,
Sregular=D-1*T(t)*D-1 (6)
其中,In表示n*n的单位矩阵,a是一个收敛参数,λ1是邻接矩阵的最大特征值,D是对角矩阵,对角线的元素依次是每个节点的度,t表示最大的迭代次数。
但是,在上述的数据处理方法中,由于需要计算大量的位于不同社区节点之间的相似度,导致数据处理规模大、计算量大。
发明内容
为了解决现有技术中用户相似度计算时数据处理规模大、计算量大的问题,本发明提供了一种数据处理方法、装置、及计算机可读存储介质。
本发明提供的数据处理方法,包括:
将网络划分成多个社区;
分别计算每个社区中内部节点间的相似度;
确定每个社区的中心节点,将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。
可选的,在本发明所述的数据处理方法中,所述将网络划分成多个社区包括:采用预设的模块度优化算法将所述网络划分成多个社区。
可选的,在本发明所述的数据处理方法中,所述确定每个社区的中心节点包括:对每个社区中的多个内部节点采用预设的算法按照重要性进行排序,得到每个社区的中心节点。
可选的,在本发明所述的数据处理方法中,所述预设的算法包括page-rank算法。
可选的,在本发明所述的数据处理方法中,在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前,还包括:确定中心节点间的相似度。
本发明还提供了一种数据处理装置,包括社区划分模块、第一处理模块、第二处理模块;
所述社区划分模块,用于将网络划分成多个社区;
所述第一处理模块,用于分别计算每个社区中内部节点间的相似度;
所述第二处理模块,用于确定每个社区的中心节点,将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。
可选的,在本发明所述的数据处理装置中,所述社区划分模块具体用于:采用预设的模块度优化算法将所述网络划分成多个社区。
可选的,在本发明所述的数据处理装置中,所述第二处理模块具体用于:对每个社区中的多个内部节点采用预设的算法按照重要性进行排序,得到每个社区的中心节点。
可选的,在本发明所述的数据处理装置中,所述第二处理模块具体用于:在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前,确定中心节点间的相似度。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
本发明的有益效果如下:
本发明实施例提供的数据处理方法、装置、及计算机可读存储介质,将网络划分成多个社区,降低了数据处理的规模,位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似,精度不受太大的影响,算法的效率大大提升。
附图说明
图1为本发明方法实施例中数据处理方法的流程示意图;
图2为本发明装置实施例中数据处理装置的结构示意图;
图3为本发明实例1中将网络划分为社区的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中用户相似度计算时数据处理规模大、计算量大的问题,本发明提供了一种数据处理方法、装置、及计算机可读存储介质。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
网络中存在社区结构,同一个社区的内部节点之间的相似度很高,位于不同社区的节点之间的相似度低。本发明借助上述复杂网络社区发现的基本思路,将网络划分为多个社区,从而将大网络划分为多个小网络,在每个小网络内部,节点之间的相似度计算方法采用已有的背景技术方案,隶属不同社区的节点间相似度将近似表示成对应社区中心点间的相似度,从而大大减少整个算法的计算量,降低整个算法的时间复杂度。
根据本发明的方法实施例,提供了一种数据处理方法,图1为本发明方法实施例中数据处理方法的流程示意图,如图1所示,本发明方法实施例的数据处理方法,包括以下步骤:
S101:将网络划分成多个社区。
可选的,在本发明方法实施例所述的数据处理方法中,所述将网络划分成多个社区包括:采用预设的模块度优化算法将所述网络划分成多个社区。其中所述模块度优化算法为已有的经典社区发现算法。
S102:分别计算每个社区中内部节点间的相似度。
具体的,每个社区中多个内部节点之间的相似度可以用现有技术中的任意相似度计算方法进行计算,本发明对此不做限定。
S103:确定每个社区的中心节点,将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。
可选的,在本发明方法实施例所述的数据处理方法中,所述确定每个社区的中心节点包括:对每个社区中的多个内部节点采用预设的算法按照重要性进行排序,得到每个社区的中心节点。
可选的,所述预设的算法包括page-rank算法。
可选的,在本发明方法实施例所述的数据处理方法中,在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前,还包括:确定中心节点间的相似度。
可选的,在本发明方法实施例所述的数据处理方法中,所述任意两个中心节点间的相似度包括:以两个中心节点间最短路径长度的倒数作为两个节点间的相似度。
本发明实施例提供的数据处理方法,将网络划分成多个社区,降低了数据处理的规模,位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似,精度不受太大的影响,算法的效率大大提升。
基于本发明的方法实施例,提供了一种数据处理装置,图2为本发明装置实施例中数据处理装置的结构示意图,如图2所示,本发明装置实施例的数据处理装置,包括社区划分模块20、第一处理模块22、及第二处理模块24。
具体的,所述社区划分模块20,用于将网络划分成多个社区。
可选的,在本发明装置实施例所述的数据处理装置中,所述社区划分模块20具体用于:采用预设的模块度优化算法将所述网络划分成多个社区。
所述第一处理模块22,用于分别计算每个社区中内部节点间的相似度。
所述第二处理模块24,用于确定每个社区的中心节点,将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。
可选的,在本发明装置实施例所述的数据处理装置中,所述第二处理模块24具体用于:对每个社区中的多个内部节点采用预设的算法按照重要性进行排序,得到每个社区的中心节点。
所述预设的算法包括page-rank算法。
可选的,在本发明装置实施例所述的数据处理装置中,所述第二处理模块24具体用于:在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前,确定中心节点间的相似度。
可选的,在本发明装置实施例所述的数据处理装置中,所述第二处理模块24具体用于:以两个中心节点间最短路径长度的倒数作为两个节点间的相似度。
本发明实施例提供的数据处理装置,将网络划分成多个社区,降低了数据处理的规模,位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似,精度不受太大的影响,算法的效率大大提升。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如下步骤:
步骤11:将网络划分成多个社区。
可选的,所述将网络划分成多个社区包括:采用预设的模块度优化算法将所述网络划分成多个社区。其中所述模块度优化算法为已有的经典社区发现算法。
步骤12:分别计算每个社区中内部节点间的相似度。
步骤13:确定每个社区的中心节点,将隶属不同社区的两个节点间的相似度表示为所述两个节点对应的两个社区的中心节点间的相似度。
可选的,所述确定每个社区的中心节点包括:对每个社区中的多个内部节点采用预设的算法按照重要性进行排序,得到每个社区的中心节点。
可选的,所述预设的算法包括page-rank算法。
可选的,在将隶属不同社区的两个节点间的相似度表示为所述两个节点对应的两个社区的中心节点间的相似度之前,所述数据处理程序被处理器执行时还实现如下步骤:确定任意两个中心节点间的相似度。
可选的,所述确定两个中心节点间的相似度包括:以两个中心节点间最短路径长度的倒数作为两个节点间的相似度。
本发明实施例提供的计算机可读存储介质,将网络划分成多个社区,降低了数据处理的规模,位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似,精度不受太大的影响,算法的效率大大提升。
为了更加详细的说明本发明的方法实施例、装置实施例及计算机可读存储介质,给出实例1。
第一步,采用模块度优化算法(已有的经典社区发现算法)将网络划分为n个小网络,每个小网络是一个社区,图3为本发明实例1中将网络划分为社区的示意图,在图3中,将网络划分成了a、b、c三个社区。
第二步,对每一个社区中的节点进行重要性排序,采用page-rank算法(已有的经典网页排序算法)找到排在第一位的节点,该节点是该社区的中心节点(图3中实心圆圈)。
第三步,对上述n个中心节点进行两两间的相似度计算,方法采用最短路径的方法,任意两个中心节点间的相似度为两点间最短路径长度的倒数。
第四步,社区内部节点间的相似度为该社区内两点间最短路径长度的倒数。
第五步,隶属不同社区的节点间相似度近似表示成各自社区中心节点间的相似度,即采用第三步的计算结果;例如,将a社区中某一节点与b社区中某一节点之间的相似度表示为a社区的中心节点与b社区的中心节点之间的相似度。
本发明将大网络划分成小网络,采用“分而治之”的思想,降低了数据处理的规模,提高算法的效率;位于不同社区节点间的相似度用各自社区中心节点间的相似度进行近似,精度不受太大的影响,然而由于减少了大量社区间节点之间相似度的计算量,使得算法的效率大大提升。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
将网络划分成多个社区;
分别计算每个社区中内部节点间的相似度;
确定每个社区的中心节点,将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。
2.如权利要求1所述的数据处理方法,其特征在于,所述将网络划分成多个社区包括:
采用预设的模块度优化算法将所述网络划分成多个社区。
3.如权利要求1所述的数据处理方法,其特征在于,所述确定每个社区的中心节点包括:
对每个社区中的多个内部节点采用预设的算法按照重要性进行排序,得到每个社区的中心节点。
4.如权利要求3所述的数据处理方法,其特征在于,所述预设的算法包括page-rank算法。
5.如权利要求1所述的数据处理方法,其特征在于,在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前,还包括:确定中心节点间的相似度。
6.一种数据处理装置,其特征在于,包括社区划分模块、第一处理模块、第二处理模块;
所述社区划分模块,用于将网络划分成多个社区;
所述第一处理模块,用于分别计算每个社区中内部节点间的相似度;
所述第二处理模块,用于确定每个社区的中心节点,将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。
7.如权利要求6所述的数据处理装置,其特征在于,所述社区划分模块具体用于:
采用预设的模块度优化算法将所述网络划分成多个社区。
8.如权利要求6所述的数据处理装置,其特征在于,所述第二处理模块具体用于:
对每个社区中的多个内部节点采用预设的算法按照重要性进行排序,得到每个社区的中心节点。
9.如权利要求6所述的数据处理装置,其特征在于,所述第二处理模块具体用于:
在将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度之前,确定中心节点间的相似度。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至5中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711277234.0A CN108320234A (zh) | 2017-12-06 | 2017-12-06 | 一种数据处理方法、装置、及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711277234.0A CN108320234A (zh) | 2017-12-06 | 2017-12-06 | 一种数据处理方法、装置、及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108320234A true CN108320234A (zh) | 2018-07-24 |
Family
ID=62891835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711277234.0A Pending CN108320234A (zh) | 2017-12-06 | 2017-12-06 | 一种数据处理方法、装置、及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108320234A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376278A (zh) * | 2018-08-27 | 2019-02-22 | 中国电子科技集团公司电子科学研究院 | 人车全息档案研判搜索系统 |
-
2017
- 2017-12-06 CN CN201711277234.0A patent/CN108320234A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376278A (zh) * | 2018-08-27 | 2019-02-22 | 中国电子科技集团公司电子科学研究院 | 人车全息档案研判搜索系统 |
CN109376278B (zh) * | 2018-08-27 | 2024-04-16 | 中国电子科技集团公司电子科学研究院 | 人车全息档案研判搜索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hegeman et al. | Toward optimal bounds in the congested clique: Graph connectivity and MST | |
Morone et al. | Influence maximization in complex networks through optimal percolation | |
US9426233B2 (en) | Multi-objective server placement determination | |
Sun et al. | The cost-efficient deployment of replica servers in virtual content distribution networks for data fusion | |
CN103179052B (zh) | 一种基于接近度中心性的虚拟资源分配方法及系统 | |
US20150006619A1 (en) | Computing connected components in large graphs | |
WO2019127299A1 (zh) | 数据查询方法、电子设备及存储介质 | |
CN109063041A (zh) | 关系网络图嵌入的方法及装置 | |
Johnson et al. | Large-scale network partitioning for decentralized traffic management and other transportation applications | |
Traag et al. | Exponential ranking: taking into account negative links | |
Bokal et al. | A generalization of Hungarian method and Hall’s theorem with applications in wireless sensor networks | |
Lin et al. | Advanced algorithms for local routing strategy on complex networks | |
CN106681795B (zh) | 节点局部拓扑和可利用资源容量的虚拟网络映射方法 | |
Li et al. | GAP: Genetic algorithm based large-scale graph partition in heterogeneous cluster | |
Luo et al. | A relationship matrix resolving model for identifying vital nodes based on community in opportunistic social networks | |
CN114785692A (zh) | 一种虚拟电厂聚合调控通信网络流量均衡方法及装置 | |
WO2020124488A1 (zh) | 应用进程映射方法、电子装置及计算机可读存储介质 | |
CN108320234A (zh) | 一种数据处理方法、装置、及计算机可读存储介质 | |
CN117061365A (zh) | 一种节点选择方法、装置、设备及可读存储介质 | |
Zhang et al. | An efficient and balanced graph partition algorithm for the subgraph-centric programming model on large-scale power-law graphs | |
CN116975018A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
Segal et al. | On construction of minimum energy k-fault resistant topologies | |
Souravlas et al. | Efficient community-based data distribution over multicast trees | |
Kannan et al. | Bottleneck congestion games with logarithmic price of anarchy | |
CN109635183A (zh) | 一种基于社区的合作者推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180724 |
|
RJ01 | Rejection of invention patent application after publication |