CN108520471A - 重叠社区发现方法、装置、设备及存储介质 - Google Patents
重叠社区发现方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN108520471A CN108520471A CN201810396480.6A CN201810396480A CN108520471A CN 108520471 A CN108520471 A CN 108520471A CN 201810396480 A CN201810396480 A CN 201810396480A CN 108520471 A CN108520471 A CN 108520471A
- Authority
- CN
- China
- Prior art keywords
- community
- discrete point
- space
- time
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 27
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种重叠社区发现方法,包括:获取社交数据,并根据所述社交数据构造以所述社交数据中的用户为节点,用户关系为边的社交网络;对所述社交网络进行预处理,删除所述社交网络中的非稳定边并生成目标社交网络;对所述目标社交网络进行划分,获得至少一个社区核和至少一个离散点;根据所述社交数据,计算每个所述离散点与每个所述社区核中的每个节点的时空相似性;根据所述时空相似性,计算每个所述离散点与每个所述社区核的综合时空相似度;根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属。本发明还公开了一种重叠社区发现的装置、设备及存储介质,降低计算的复杂,提高重叠社区发现结果的准确性。
Description
技术领域
本发明涉及社交网络技术领域,尤其涉及一种的重叠社区发现方法、装置、设备及存储介质。
背景技术
随着互联网应用的不断推广,人们越来越多地参与到社交网络中,人们不再局限于地域的差异而紧密联系在一起。随着社交网络的迅速发展,研究人员对社区发现的研究也越来越深入。通过挖掘社交网络中的社区结构,能够发现社交网络中隐含的组织结构信息或团体结构信息等。传统的社区发现方法可分为3类:基于标签传播的方法、基于节点分裂的方法和基于模块度优化的方法。
然而,发明人在实施本发明的过程中发现,传统的社区发现方法没有考虑用户的社交时间等信息,降低了结果的准确性,并且传统的计算算法复杂度大,不能快速地进行社区发现。
发明内容
针对上述问题,本发明的目的在于提供一种重叠社区发现方法、装置、设备以及存储介质,可以降低计算的复杂,快速进行社区发现,并且可以提高重叠社区发现结果的准确性。
第一方面,本发明实施例提供了一种重叠社区发现方法,包括:
获取社交数据,并根据所述社交数据构造以所述社交数据中的用户为节点,用户关系为边的社交网络;
对所述社交网络进行预处理,删除所述社交网络中的非稳定边并生成目标社交网络;
对所述目标社交网络进行划分,获得至少一个社区核和至少一个离散点;
根据所述社交数据,计算每个所述离散点与每个所述社区核中的每个节点的时空相似性;
根据所述时空相似性,计算每个所述离散点与每个所述社区核的综合时空相似度;
根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属。
在第一方面的第一种实现方式中,所述对所述社交网络进行预处理,删除所述社交网络中的非稳定边并生成目标社交网络具体为:
根据所述社交数据,计算所述社交网络中每条边的权重;
将所述权重小于预设的权重阈值的边标记为非稳定边;
删除所述非稳定边,生成目标社交网络。
在第一方面的第二种实现方式中,所述对所述目标社交网络进行划分,获得至少一个社区核和至少一个离散点具体为:
根据所述目标社交网络,计算所述目标社交网络中每条边的边介数和当前社区模块度;
根据所述当前社区模块度和所述每条边的边介数,对所述目标社交网络进行划分,生成至少一个社区核和至少一个离散点。
在第一方面的第三种实现方式中,所述根据所述社交数据,计算每个所述离散点与每个所述社区核中的每个节点的时空相似性具体为:
对于每一个离散点:
根据所述社交数据以及预设的时间段权值,计算所述离散点与每个所述社区核中的每个节点的时空相似性。
在第一方面的第四种实现方式中,所述根据所述社交数据,计算每个所述离散点至每个所述社区核中的每个节点的时空相似性,具体为:
对于每一个离散点:
根据所述社交数据,计算所述离散点与每个所述社区核的中心节点的第一时空相似性;
根据所述第一时空相似性,提取预定数量的第一社区核;
根据所述社交数据,计算所述离散点与每个所述第一社区核中的每个节点的时空相似性。
在第一方面的第五种实现方式中,所述根据所述时空相似性,计算每个所述离散点与每个所述社区核的综合时空相似度,具体为:
将每个所述离散点与每个所述社区核中的每个节点的时空相似性进行加权平均,计算得出每个所述离散点与每个所述社区核的综合时空相似度。
在第一方面的第六种实现方式中,所述根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属,具体为:
根据每个所述综合时空相似度计算阈值;
根据每个所述离散点的综合时空相似度与所述阈值,获得每个所述离散点的社区归属。
第二方面,本发明实施例还提供了一种重叠社区发现的装置,包括:
社交网络构造模块,用于获取社交数据,并根据所述社交数据构造以所述社交数据中的用户为节点,用户关系为边的社交网络;
预处理模块,用于对所述社交网络进行预处理,删除所述社交网络中的非稳定边并生成目标社交网络;
社交网络划分模块,用于对所述目标社交网络进行划分,获得至少一个社区核和至少一个离散点;
时空相似性计算模块,用于根据所述社交数据,计算每个所述离散点与每个所述社区核中的每个节点的时空相似性;
综合相似度计算模块,用于根据所述时空相似性,计算每个所述离散点与每个所述社区核的综合时空相似度;
社区归属判断模块,用于根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属。
第三方面,本发明实施例还提供了一种重叠社区发现设备,包括显示器、处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的重叠社区发现方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的重叠社区发现方法。
上述技术方案中的一个技术方案具有如下优点:对社交网络进行预处理,降低了计算的复杂度;并且根据社交数据来度量离散节点与社区核内部每个节点的时空相似性,考虑了用户的地理位置和时间等信息,,提高了重叠社区发现的准确性,最后用过计算离散点与社区核的综合时空相似度并结合阈值来判断离散点的归属性,从而实现社交网络的重叠社区的发现。当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的重叠社区发现方法的流程示意图。
图2是本发明第一实施例提供的重叠社区发现方法的社交网络示意图。
图3是本发明第一实施例提供的重叠社区发现方法的目标社交网络示意图。
图4是本发明第三实施例提供的重叠社区发现装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种重叠社区发现方法,其可以在重叠社区发现设备上执行,并包括以下步骤:
S10,获取社交数据,并根据所述社交数据构造以所述社交数据中的用户为节点,用户关系为边的社交网络。
在本实施例中,所述重叠社区发现设备可以为手机、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)或数字广播接收器等移动终端,也可以为数字TV、台式计算机或服务器等等固定终端,在所述设备上可以获取社交数据,所述社交数据可以为移动运营商的业务数据、微博网络中的业务数据等。根据获取得到的社交数据可以构造相应的社交网络。例如,从移动运营商获取某个区域的移动用户在一段时间内的业务数据,可以理解的是,运营商系统中会记录移动用户在发生业务过程中的所有信息,包括用户号码、业务开始时间、业务介绍时间、发生业务的类型、发生业务的基站位置等。将所述业务数据中的每个移动用户作为社交网络的节点,并将用户关系(例如产生通话或短信)作为社交网络中相关节点之间的边,例如某两个移动用户之间发生通话或者短信等业务,则这两个移动用户(即节点)之间是有一条边连接的,若两个节点之间没有发生通话或短信业务,那么这两个节点之间没有连接,如图2所示,图2为根据业务数据构造生成的社交网络,其中,节点之间存在一条边表示移动用户之间有至少一次的交互次数。
S20,对所述社交网络进行预处理,删除所述社交网络中的非稳定边并生成目标社交网络。
在本实施例中,需要对社交网络进行预处理。由于通过移动用户的业务数据构成的移动社交网络中,有一些边是无效的,即偶尔发生联系的用户关系是不稳定的,因此需要将不稳定的边去掉,降低算法的复杂度。
具体地,根据所述社交数据,计算所述社交网络中每条边的权重;将所述权重小于预设的权重阈值的边标记为非稳定边;删除所述非稳定边,生成目标社交网络。
在本实施例中,根据获取得到的社交数据来计算每条边的权重,例如两个节点之间的边的权重可以为这两个节点的交互次数,并预先设定一个权重阈值,将交互次数小于该阈值的边可以视为不稳定的边,将其去掉。作为示例,根据获取得到的移动用户的业务数据,计算用户之间的交互次数,即计算用户之间发生通话或短信等业务的次数。例如,将移动用户在一段时间内的交互次数阈值为10,如果在该时间内,某两个移动用户之间累计的交互次数小于10(即这两个节点的边的权重小于阈值10),则表示这两个移动用户之间的关系是不稳定的,即这两个节点之间的边是无效边,将其删除,最终得到所需要的目标社交网络,如图3所示。
S30,对所述目标社交网络进行划分,获得至少一个社区核和至少一个离散点。
在本实施例中,对社交网络进行预处理后,对得到的目标社交网络进行划分,分成多个非重叠社团和离散点。在这里,采用GN算法对上述预处理得到的目标社交网络进行处理形成若干个社区核以及离散点。GN算法作为一种分裂式的图聚类算法,通过删除边介数最大的边把一个社团分为多个不相交的集合;然后再删除每一个集合中最大边介数的边,如此不断的删除最弱连接的边,最终把目标社交网络分成若干个社区核和离散点。
在本实施例的一种实现方式中,具体地,根据所述目标社交网络,计算所述目标社交网络中每条边的边介数和当前社区模块度;根据所述当前社区模块度和所述每条边的边介数,对所述目标社交网络进行划分,生成至少一个社区核和至少一个离散点。
在本实施例中,通过计算社区模块度来获得最优的网络社区划分。作为示例,计算所述目标社交网络中每条边的边介数和当前的社区模块度Q值,存储该Q值和当前的社区分割情况,并删除边介数最大的边,计算删除边之后的此时的社区模块度,若此时的社区模块度与所述Q值大,则将此时的社区模块度和此时的社区分割情况存储更新,否则,进行下一次网络分割,当所有边分割结束时,输出Q值最高时的社区分割情况,从而得到最优的网络社区划分,并获得若干个社区核以及离散点,其中,所述社区核至少包括两个或者两个以上的节点,也就是通过GN算法划分后的小社团。
S40,根据所述社交数据,计算每个所述离散点与每个所述社区核中的每个节点的时空相似性。
在本实施例中,通过计算时间和空间的相似性来反映所有用户在不同时间段的地理位置的重合度或相似度,并以此来衡量用户的时空相似性,以描述用户关系的紧密程度,即计算每个离散点与每个社区核中的每个节点一段时间内在地理位置上的重合度,所述重合度即所述离散点与所述社区核中对应节点的时空相似性。
在本发明的一种实现方式中,具体地,对于每一个离散点:根据所述社交数据以及预设的时间段权值,计算所述离散点与每个所述社区核中的每个节点的时空相似性。
作为示例,设用户u的轨迹用时间戳t和基站l来表示,如:<t1,l1>,<t2,l2>,…,<ti,li>,…,<tn,ln>,其中,n表示用户u发生业务的次数。将一天的时间分成不同的时间段,例如休息时间和非休息时间,并且根据不同时间段的重要性给每个时间段设置对应的权值。在这里,将一天的时间分为3个时间段:9:00-17:00上班时间段;17:00-22:00下班时间段;22:00-次日8:00休息时间段。然后分别计算这3个时间段移动用户之间(即节点之间)在地理位置(基站)上的重合度,计算公式为:
其中,△T为各个时间段的时间精度(一般设置为一个小时),θ为3个时间段各自设定的权值(即三个时间段的调节系数),δ函数表示移动用户在某一个时间段是否出现在同样的地理位置(即基站),Ti(u)是指用户在地点li(u)的时间。同理Tj(v)是指用户在地点li(v)的时间。
例如,用户A(即节点A)在早上9点15分在基站1001,用户B(即节点B)在早上9点16在基站1001,由于两个基站是一样的,因此(δ(li(u),li(v))=1;那么早上的时间段为9:00-17:00,那么ΔT=8,由于用户A和用户B在同一个地点的时间非常接近,|Ti(u)-Tj(v)|=1/60小时(1分钟换成了小时的单位),因此,(ΔT-|Ti(u)-Tj(v)|)(δ(li(u),li(v))=8-1/60。θ是三个时间段的调节系数,如果认为上班时间、下班时间和休息时间的重要性一样,那么可把θ设为1/3。如果不一样,那么按照各自的重要性设置其权值。在这里,如果两个移动用户在某一个时间段出现在同样的基站,则(δ(li(u),li(v))=1;如果某一个时间段并没有出现在相同的基站,则(δ(li(u),li(v))=0。这个δ函数表示括号里面的两个数是否相同,相同设为1,不同设为0。在本实施例中,根据上述公式利用社交数据可以计算每一个离散点与每个社区核中每一个节点的时空相似性,例如计算得到离散点A和某个社区核中的节点B的时空相似性CoL(a,b)。
在本发明的另一种实现方式中,具体地,对于每一个离散点:根据所述社交数据,计算所述离散点与每个所述社区核的中心节点的第一时空相似性;根据所述第一时空相似性,提取预定数量的第一社区核;根据所述社交数据,计算所述离散点与每个所述第一社区核中的每个节点的时空相似性。
在本实施例中,一般来说,需要计算离散节点和每一个社区核内每一个节点的相似性。当数据数量过多时,考虑到数据规模的问题,只需要计算每个离散点与一部分社区核中的每个节点的时空相似性。作为示例,对于每一个离散点,可以通过上述方式计算该离散点与每个社区核的中心节点的时空相似性,并将计算得到的时空相似性进行排序,提取预定数量的社区核,例如提取该离散点与中心节点的时空相似性排名前5(TOP5)的5个社区核,接着再计算该离散点与这5个社区核中的每一个节点的时空相似性。
S50,根据所述时空相似性,计算每个所述离散点与每个所述社区核的综合时空相似度。
在本实施例中,计算每个离散点与每个社区核的每一个节点的时空相似性之后,可以由此计算得到每个离散点与每个社区核的综合时空相似度。在这里,具体地,将每个所述离散点与每个所述社区核中的每个节点的时空相似性进行加权平均,计算得出每个所述离散点与每个所述社区核的综合时空相似度。作为示例,假设一个离散点A和一个社区核Q(包含2个节点B和C),计算离散点A和节点B的时空相似性以及离散点A和节点C的时空相似性,将这两个时空相似性进行加权平均,计算得到的加权平均值为离散点A与社区核Q的综合时空相似度。
S60,根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属。
在本实施例中,计算得到每个离散点与每个社区核的综合时空相似度之后,通过与预先设定的阈值进行比较,来判断每个离散点的社区归属。例如,对于每一个离散点,将该离散点与每个社区核的综合时空相似度分别与预设的阈值进行比较,若该离散点对应的综合时空相似度中只存在一个综合时空相似度大于所述阈值,则判定该离散点从属于与该综合时空相似度对应的社区;若存在多个综合时空相似度大于所述阈值,则判定该离散点从属于多个社区;若该离散点的所有一个综合时空相似度均小于所述阈值,则判定该离散点不从属于任何社区。
综上所述,本实施例提出了一系列的流程来检测社交网络的重叠社区,考虑了社交网络中用户交互关系(通过交互次数来衡量),对社交网络进行预处理,降低了计算的复杂度。同时还考虑了用户的地理位置和时间等信息,采用多维的用户特征来计算,采用分段时空特征来度量离散节点与社区核内部每个节点的时空相似性,提高了重叠社区发现的准确性。
本发明第二实施例:
在第一实施例的基础上,所述根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属,具体为:根据每个所述综合时空相似度计算阈值;根据每个所述离散点的综合时空相似度与所述阈值,获得每个所述离散点的社区归属。
在本实施例中,可以根据离散点与社区核的综合时空相似度来计算阈值,该阈值直接决定了离散点从属于一个社区还是多个社区的问题。在这里,采用离散点与社区核的综合时空相似度的连乘来计算阈值。例如,移动用户时空相似性的阈值设置参考Farkas的强度函数公式计算得出:
其中,C为派系集合,x表示离散点,y表示社区核,n表示经过GN算法划分社团后离散点的数量;m表示经过GN算法划分社团后社区核的数量,CoL(x,y)表示离散点x与社区核y的综合时空相似度。
在本实施例中,对于每一个离散点,将该离散点与每个社区核的综合时空相似度分别与上述计算得到的阈值进行比较,若该离散点对应的综合时空相似度中只存在一个综合时空相似度大于所述阈值,则判定该离散点从属于与该综合时空相似度对应的社区;若存在多个综合时空相似度大于所述阈值,则判定该离散点从属于多个社区;若该离散点的所有一个综合时空相似度均小于所述阈值,则判定该离散点不从属于任何社区。作为示例,假设离散点X与TOP5社区核(Y1,Y2,Y3,Y4,Y5)的时空相似性加权平均值(即综合时空相似度)分别为5.1,4.8,4.7,4.3,3.9。而通过Farkas的强度函数得到阈值为4.0.那么可以得到,离散点X从属于Y1,Y2,Y3,Y4社区。
通过上述方式,采用离散节点与社区核的综合时空相似度的连乘来得到阈值,可以综合考虑各个数据之间的差异性,而不是采用传统的经验法判定,提高了重叠社区发现结果的准确性。
请参阅图4,本发明第三实施例提供了一种重叠社区发现的装置,包括:
社交网络构造模块10,用于获取社交数据,并根据所述社交数据构造以所述社交数据中的用户为节点,用户关系为边的社交网络;
预处理模块20,用于对所述社交网络进行预处理,删除所述社交网络中的非稳定边并生成目标社交网络;
社交网络划分模块30,用于对所述目标社交网络进行划分,获得至少一个社区核和至少一个离散点;
时空相似性计算模块40,用于根据所述社交数据,计算每个所述离散点与每个所述社区核中的每个节点的时空相似性;
综合相似度计算模块50,用于根据所述时空相似性,计算每个所述离散点与每个所述社区核的综合时空相似度;
社区归属判断模块60,用于根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属。
优选地,所述预处理模块20具体为:
权重计算单元,用于根据所述社交数据,计算所述社交网络中每条边的权重;
标记单元,用于将所述权重小于预设的权重阈值的边标记为非稳定边;
删除单元,用于删除所述非稳定边,生成目标社交网络。
优选地,所述社交网络划分模块30具体为:
边介数计算单元,用于根据所述目标社交网络,计算所述目标社交网络中每条边的边介数和当前社区模块度;
网络划分单元,用于根据所述当前社区模块度和所述每条边的边介数,对所述目标社交网络进行划分,生成至少一个社区核和至少一个离散点。
优选地,所述时空相似性计算模块40具体为:
对于每一个离散点:
第一相似性计算单元,用于根据所述社交数据以及预设的时间段权值,计算所述离散点与每个所述社区核中的每个节点的时空相似性。
优选地,所述时空相似性计算模块40具体为:
对于每一个离散点:
第二相似性计算单元,用于根据所述社交数据,计算所述离散点与每个所述社区核的中心节点的第一时空相似性;
社区核提取单元,用于根据所述第一时空相似性,提取预定数量的第一社区核;
第三相似性计算单元,用于根据所述社交数据,计算所述离散点与每个所述第一社区核中的每个节点的时空相似性。
优选地,所述综合相似度计算模块50具体为:
加权平均单元,用于将每个所述离散点与每个所述社区核中的每个节点的时空相似性进行加权平均,计算得出每个所述离散点与每个所述社区核的综合时空相似度。
优选地,所述社区归属判断模块60具体为:
阈值计算单元,用于根据每个所述综合时空相似度计算阈值;
社区归属判断单元,用于根据每个所述离散点的综合时空相似度与所述阈值,获得每个所述离散点的社区归属。
本发明第四实施例提供了一种重叠社区发现的设备。该实施例的重叠社区发现的设备包括:处理器、显示器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如重叠社区发现的程序。所述处理器执行所述计算机程序时实现上述各个重叠社区发现的方法的实施例中的步骤,例如图1所示的步骤S10。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各单元的功能,例如图4所示的社交网络构造模块10。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述重叠社区发现的设备中的执行过程。
所述重叠社区发现的设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述重叠社区发现的设备可包括,但不仅限于,处理器、存储器、显示器。本领域技术人员可以理解,上述部件仅仅是重叠社区发现的设备的示例,并不构成对重叠社区发现的设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述重叠社区发现的设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述重叠社区发现的设备的控制中心,利用各种接口和线路连接整个所述重叠社区发现的设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述重叠社区发现的设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述重叠社区发现的设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种重叠社区发现方法,其特征在于,包括:
获取社交数据,并根据所述社交数据构造以所述社交数据中的用户为节点,用户关系为边的社交网络;
对所述社交网络进行预处理,删除所述社交网络中的非稳定边并生成目标社交网络;
对所述目标社交网络进行划分,获得至少一个社区核和至少一个离散点;
根据所述社交数据,计算每个所述离散点与每个所述社区核中的每个节点的时空相似性;
根据所述时空相似性,计算每个所述离散点与每个所述社区核的综合时空相似度;
根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属。
2.根据权利要求1所述的重叠社区发现方法,其特征在于,所述对所述社交网络进行预处理,删除所述社交网络中的非稳定边并生成目标社交网络具体为:
根据所述社交数据,计算所述社交网络中每条边的权重;
将所述权重小于预设的权重阈值的边标记为非稳定边;
删除所述非稳定边,生成目标社交网络。
3.根据权利要求1所述的重叠社区发现方法,其特征在于,所述对所述目标社交网络进行划分,获得至少一个社区核和至少一个离散点具体为:
根据所述目标社交网络,计算所述目标社交网络中每条边的边介数和当前社区模块度;
根据所述当前社区模块度和所述每条边的边介数,对所述目标社交网络进行划分,生成至少一个社区核和至少一个离散点。
4.根据权利要求1所述的重叠社区发现方法,其特征在于,所述根据所述社交数据,计算每个所述离散点与每个所述社区核中的每个节点的时空相似性具体为:
对于每一个离散点:
根据所述社交数据以及预设的时间段权值,计算所述离散点与每个所述社区核中的每个节点的时空相似性。
5.根据权利要求1所述的重叠社区发现方法,其特征在于,所述根据所述社交数据,计算每个所述离散点至每个所述社区核中的每个节点的时空相似性具体为:
对于每一个离散点:
根据所述社交数据,计算所述离散点与每个所述社区核的中心节点的第一时空相似性;
根据所述第一时空相似性,提取预定数量的第一社区核;
根据所述社交数据,计算所述离散点与每个所述第一社区核中的每个节点的时空相似性。
6.根据权利要求1所述的重叠社区发现方法,其特征在于,所述根据所述时空相似性,计算每个所述离散点与每个所述社区核的综合时空相似度具体为:
将每个所述离散点与每个所述社区核中的每个节点的时空相似性进行加权平均,计算得出每个所述离散点与每个所述社区核的综合时空相似度。
7.根据权利要求1所述的重叠社区发现方法,其特征在于,所述根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属具体为:
根据每个所述综合时空相似度计算阈值;
根据每个所述离散点的综合时空相似度与所述阈值,获得每个所述离散点的社区归属。
8.一种重叠社区发现的装置,其特征在于,包括:
社交网络构造模块,用于获取社交数据,并根据所述社交数据构造以所述社交数据中的用户为节点,用户关系为边的社交网络;
预处理模块,用于对所述社交网络进行预处理,删除所述社交网络中的非稳定边并生成目标社交网络;
社交网络划分模块,用于对所述目标社交网络进行划分,获得至少一个社区核和至少一个离散点;
时空相似性计算模块,用于根据所述社交数据,计算每个所述离散点与每个所述社区核中的每个节点的时空相似性;
综合相似度计算模块,用于根据所述时空相似性,计算每个所述离散点与每个所述社区核的综合时空相似度;
社区归属判断模块,用于根据每个所述综合时空相似度以及预设的阈值,获得每个所述离散点的社区归属。
9.一种重叠社区发现设备,其特征在于,包括显示器、处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的重叠社区发现方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的重叠社区发现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810396480.6A CN108520471B (zh) | 2018-04-27 | 2018-04-27 | 重叠社区发现方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810396480.6A CN108520471B (zh) | 2018-04-27 | 2018-04-27 | 重叠社区发现方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108520471A true CN108520471A (zh) | 2018-09-11 |
CN108520471B CN108520471B (zh) | 2021-06-18 |
Family
ID=63429414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810396480.6A Active CN108520471B (zh) | 2018-04-27 | 2018-04-27 | 重叠社区发现方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108520471B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222484A (zh) * | 2019-04-28 | 2019-09-10 | 五八有限公司 | 一种用户身份识别方法、装置、电子设备及存储介质 |
CN110647590A (zh) * | 2019-09-23 | 2020-01-03 | 税友软件集团股份有限公司 | 一种目标社群数据的识别方法及相关装置 |
CN111125481A (zh) * | 2018-10-31 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 社区发现方法、装置及设备 |
CN111159576A (zh) * | 2019-12-31 | 2020-05-15 | 亚信科技(中国)有限公司 | 一种用户分类方法、装置及系统 |
CN113115200A (zh) * | 2019-12-24 | 2021-07-13 | 中国移动通信集团浙江有限公司 | 用户关系识别方法、装置及计算设备 |
CN113516562A (zh) * | 2021-07-28 | 2021-10-19 | 中移(杭州)信息技术有限公司 | 家庭社交网络构建方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150334198A1 (en) * | 2012-01-18 | 2015-11-19 | Alcatel Lucent | Method for providing a set of services of a first subset of a social network to a user of a second subset of said social network |
CN105243148A (zh) * | 2015-10-25 | 2016-01-13 | 西华大学 | 一种基于签到数据的时空轨迹相似性度量方法及系统 |
CN105389332A (zh) * | 2015-10-13 | 2016-03-09 | 广西师范学院 | 一种地理社交网络下的用户相似性计算方法 |
CN105404890A (zh) * | 2015-10-13 | 2016-03-16 | 广西师范学院 | 一种顾及轨迹时空语义的犯罪团伙判别方法 |
CN107341733A (zh) * | 2017-06-12 | 2017-11-10 | 广州杰赛科技股份有限公司 | 社区划分方法及装置 |
-
2018
- 2018-04-27 CN CN201810396480.6A patent/CN108520471B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150334198A1 (en) * | 2012-01-18 | 2015-11-19 | Alcatel Lucent | Method for providing a set of services of a first subset of a social network to a user of a second subset of said social network |
CN105389332A (zh) * | 2015-10-13 | 2016-03-09 | 广西师范学院 | 一种地理社交网络下的用户相似性计算方法 |
CN105404890A (zh) * | 2015-10-13 | 2016-03-16 | 广西师范学院 | 一种顾及轨迹时空语义的犯罪团伙判别方法 |
CN105243148A (zh) * | 2015-10-25 | 2016-01-13 | 西华大学 | 一种基于签到数据的时空轨迹相似性度量方法及系统 |
CN107341733A (zh) * | 2017-06-12 | 2017-11-10 | 广州杰赛科技股份有限公司 | 社区划分方法及装置 |
Non-Patent Citations (4)
Title |
---|
JAEWON YANG.ETC: ""Community-Affiliation Graph Model for Overlapping Network Community Detection"", 《2012 IEEE 12TH INTERNATIONAL CONFERENCE ON DATA MINING》 * |
RHYTHM WALIA.ETC: ""Finding the Influential Overlap Nodes in Communities"", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE & COMMUNICATION TECHNOLOGY》 * |
刘世超等: ""基于标签传播概率的重叠社区发现算法"", 《计算机学报》 * |
王莉等: ""在线社会网络的动态社区发现及演化"", 《计算机学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125481A (zh) * | 2018-10-31 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 社区发现方法、装置及设备 |
CN110222484A (zh) * | 2019-04-28 | 2019-09-10 | 五八有限公司 | 一种用户身份识别方法、装置、电子设备及存储介质 |
CN110222484B (zh) * | 2019-04-28 | 2023-05-23 | 五八有限公司 | 一种用户身份识别方法、装置、电子设备及存储介质 |
CN110647590A (zh) * | 2019-09-23 | 2020-01-03 | 税友软件集团股份有限公司 | 一种目标社群数据的识别方法及相关装置 |
CN113115200A (zh) * | 2019-12-24 | 2021-07-13 | 中国移动通信集团浙江有限公司 | 用户关系识别方法、装置及计算设备 |
CN113115200B (zh) * | 2019-12-24 | 2023-04-18 | 中国移动通信集团浙江有限公司 | 用户关系识别方法、装置及计算设备 |
CN111159576A (zh) * | 2019-12-31 | 2020-05-15 | 亚信科技(中国)有限公司 | 一种用户分类方法、装置及系统 |
CN111159576B (zh) * | 2019-12-31 | 2023-08-11 | 亚信科技(中国)有限公司 | 一种用户分类方法、装置及系统 |
CN113516562A (zh) * | 2021-07-28 | 2021-10-19 | 中移(杭州)信息技术有限公司 | 家庭社交网络构建方法、装置、设备及存储介质 |
CN113516562B (zh) * | 2021-07-28 | 2023-09-19 | 中移(杭州)信息技术有限公司 | 家庭社交网络构建方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108520471B (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520471A (zh) | 重叠社区发现方法、装置、设备及存储介质 | |
CN108090225A (zh) | 数据库实例的运行方法、装置、系统及计算机可读存储介质 | |
CN107767265A (zh) | 一种数据共享方法及服务器 | |
CN110309058A (zh) | 业务端测试方法、装置、计算机装置及计算机存储介质 | |
CN109710703A (zh) | 一种血缘关系网络的生成方法及装置 | |
CN105940377A (zh) | 用于基于云的虚拟化编排器的方法、系统和计算机可读介质 | |
CN102223453A (zh) | 高性能无队列呼叫中心 | |
CN109033277A (zh) | 基于机器学习的类脑系统、方法、设备及存储介质 | |
CN108959633A (zh) | 一种提供客户服务的方法和装置 | |
CN102300011A (zh) | 在无队列呼叫中心中用于填充及维护数据结构的自动机制 | |
CN109582418A (zh) | 用户行为数据收集方法、装置、计算机装置、存储介质 | |
CN1744638B (zh) | 广告发布系统及发布广告的方法 | |
CN108694413A (zh) | 自适应采样不平衡数据分类处理方法、装置、设备及介质 | |
CN107888663A (zh) | 一种分发文件的方法、设备及计算机可读介质 | |
CN109710447A (zh) | 用于数据访问的方法、装置、介质和计算设备 | |
CN110677269A (zh) | 通信用户关系的确定方法、装置和计算机可读存储介质 | |
CN112348568A (zh) | 广告投放平台账号的集中管理平台和方法 | |
Moghaddam et al. | Design and administration of collaborative networked headquarters | |
CN110532366A (zh) | 一种模板规则管理方法、语言生成方法、装置及存储设备 | |
CN115809292A (zh) | 数据处理方法、装置、设备及介质 | |
CN113505522B (zh) | 一种智能电网台区业务计算管理方法、装置、终端及介质 | |
CN109614416A (zh) | 一种基于数据统计分析的发票管理方法及装置 | |
CN109981697A (zh) | 一种文件转存方法、系统、服务器及存储介质 | |
CN115277835A (zh) | 信息推送方法、装置、存储介质及电子设备 | |
CN110020166A (zh) | 一种数据分析方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |