CN111899115A - 一种确定社交网络中社区结构的方法、装置及存储介质 - Google Patents
一种确定社交网络中社区结构的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111899115A CN111899115A CN202010480690.0A CN202010480690A CN111899115A CN 111899115 A CN111899115 A CN 111899115A CN 202010480690 A CN202010480690 A CN 202010480690A CN 111899115 A CN111899115 A CN 111899115A
- Authority
- CN
- China
- Prior art keywords
- user
- geographic
- edge
- node
- geographical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000003993 interaction Effects 0.000 claims abstract description 209
- 230000002452 interceptive effect Effects 0.000 claims abstract description 72
- 238000013507 mapping Methods 0.000 claims abstract description 60
- 230000005540 biological transmission Effects 0.000 claims abstract description 36
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims description 17
- 230000000977 initiatory effect Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 15
- 238000004140 cleaning Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种确定社交网络中社区结构的方法、装置及存储介质,涉及计算机技术领域,用以提供一种新的确定社区结构的方法。该方法包括:基于用户标识与预划分的地理区域的映射关系,利用从社交网络中获取的用户交互数据创建地理区域交互网络;用户交互数据包括用户标识和数据传输方向;地理区域交互网络包括与用户交互数据中用户标识映射的地理区域对应的地理节点,及基于数据传输方向确定的连接地理节点的第一连边;基于地理区域交互网络构建边可交换模型并进行训练;对训练后的边可交换模型进行设定采样处理,得到第一连边以及地理节点的分类结果;根据分类结果确定社交网络中的社区结构。该方法能够基于用户的地理位置确定社区结构。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种确定社交网络中社区结构的方法、装置及存储介质。
背景技术
社区结构指网络中的一些密集群体,每个社区结构内部的节点间的联系相对紧密,各个社区结构之间的节点连接相对比较稀疏;针对社交网络而言,社区结构是客观存在的,可以根据社交网络中的社区结构,对同一社区结构中的用户进行好友推送,广告定向推送等操作,且可以针对已获知的社区结构做进一步的社交网络的社交特性的发现,因此发现社交网络中的社区结构很有意义。
在对社交网络的社区结构的研究过程中发现,属于同一社区结构中的用户很大概率是同一个地理区域的,社区结构的划分与用户的地理位置具有很强的关联性,而相关技术中常通过社区发现算法发现社交网络中的社区结构,此过程中并不涉及用户的地理位置,因此如何基于社交网络中用户的地理位置发现社区结构,成为了一个需要考虑的问题。
发明内容
本申请实施例提供一种确定社交网络中社区结构的方法、装置及存储介质,用于提供一种基于社交网络中的用户的地理位置,发现社交网络中的社区结构的方法。
本申请第一方面,提供一种确定社交网络中社区结构的方法,包括:
基于用户标识与预划分的地理区域的映射关系,利用从社交网络中获取的用户交互数据创建地理区域交互网络;其中所述用户交互数据包括用户标识和数据传输方向,所述用户标识包括数据发起用户的标识和数据接收用户的标识;所述地理区域交互网络包括地理节点和连接所述地理节点的第一连边,所述地理节点与所述用户交互数据中的用户标识映射的地理区域对应,所述第一连边是基于所述用户交互数据中的数据传输方向确定的;
基于所述地理区域交互网络构建边可交换模型,并对所述边可交换模型进行训练;
对训练后的边可交换模型进行设定采样处理,得到所述训练后的边可交换模型中第一连边的分类结果以及所述地理节点的分类结果;
根据所述第一连边的分类结果和所述地理节点的分类结果中至少一个分类结果,确定所述社交网络中的社区结构。
在一种可能的实现方式中,所述基于用户标识与预划分的地理区域的映射关系,利用从社交网络中获取的用户交互数据创建地理区域交互网络,包括:
利用从社交网络中获取的用户交互数据创建用户交互网络,所述用户交互网络包括用户节点和连接所述用户节点的第二连边,所述用户节点与所述用户交互数据中的用户标识对应,所述第二连边是基于所述用户交互数据中的数据传输方向确定的;
基于用户标识与地理区域的映射关系和所述用户交互网络,创建所述地理区域交互网络;其中所述地理节点与所述用户节点映射的地理区域对应,所述用户节点映射的地理区域是所述用户节点对应的用户标识基于所述映射关系映射得到的;所述第一连边是通过所述第二连边确定的。
在一种可能的实现方式中,所述基于用户标识与预划分的地理区域的映射关系,利用从社交网络中获取的用户交互数据创建地理区域交互网络,包括:
基于用户标识与地理区域的映射关系,将所述用户交互数据中的用户标识映射为地理区域;
根据映射得到的地理区域以及用户交互数据中的数据传输方向,创建所述地理区域交互网络,其中所述地理节点与所述映射得到的地理区域对应,所述第一连边是通过所述用户交互数据中的数据传输方向确定的。
在一种可能的实现方式中,所述根据所述第一连边的分类结果和所述地理节点的分类结果中至少一个分类结果,确定所述社交网络的社区结构,包括:
根据所述第一连边的分类结果,将同一连边类别的第一连边连接的地理节点组成的集合,确定为一个社区结构;或
根据所述地理节点的分类结果,将同一节点类别的地理节点组成的集合,确定为一个社区结构;或
根据所述第一连边的分类结果确定候选节点集合,所述候选节点集合包括同一连边类别的第一连边连接的地理节点;以及根据所述地理节点的分类结果,将所述候选节点集合中同一节点类别的地理节点组成的集合,确定为一个社区结构。
在一种可能的实现方式中,所述确定为一个社区结构之后,还包括:
根据各社区结构中包含的地理节点的数量,确定各社区结构的地理节点交互紧密度;或
根据各社区结构中包含的地理节点对应的第一连边的数量,确定各社区结构的地理节点交互紧密度。
在一种可能的实现方式中,所述对训练后的边可交换模型进行设定采样处理,得到所述训练后的边可交换模型中第一连边的分类结果以及所述地理节点的分类结果,包括:
对训练后的边可交换模型进行吉布斯采样处理,得到所述训练后的边可交换模型中第一连边的分类结果;
根据连接所述地理节点的第一连边对应的分类结果,确定所述地理节点的分类结果。
在一种可能的实现方式中,所述根据连接所述地理节点的第一连边对应的分类结果,确定所述地理节点的分类结果,包括:
针对所述地理节点中任意的一个地理节点,确定连接所述一个地理节点的第一连边的连边类别;
将确定的连边类别中的目标连边类别,确定为所述一个地理节点对应的节点类别,所述目标连边类别为连接所述一个地理节点的第一连边的数量最大的连边类别。
在一种可能的实现方式中,所述根据所述第一连边的分类结果和所述地理节点的分类结果中至少一个分类结果,确定所述社交网络的社区结构之后,还包括:
将确定的社区结构映射到地理地图中,分析映射后的社区结构和对应的参考地理区域的匹配度,所述参考地理区域的覆盖范围大于所述预划分的地理区域的覆盖范围;
根据所述匹配度确定社区结构的划分准确度。
在一种可能的实现方式中,所述地理区域包括行政区,所述用户标识包括用户的IP地址。
本申请第二方面,提供一种确定社交网络中社区结构的装置,包括:
地理区域交互网络获取单元,用于利用从社交网络中获取的用户交互数据创建地理区域交互网络;其中所述用户交互数据包括用户标识和数据传输方向,所述用户标识包括数据发起用户的标识和数据接收用户的标识;所述地理区域交互网络包括地理节点和连接所述地理节点的第一连边,所述地理节点与所述用户交互数据中的用户标识映射的地理区域对应,所述第一连边是基于所述用户交互数据中的数据传输方向确定的;
训练单元,用于基于所述地理区域交互网络构建边可交换模型,并对所述边可交换模型进行训练;
分类单元,用于对训练后的边可交换模型进行设定采样处理,得到所述训练后的边可交换模型中第一连边的分类结果以及所述地理节点的分类结果;
社区确定单元,用于根据所述第一连边的分类结果和所述地理节点的分类结果中至少一个分类结果,确定所述社交网络中的社区结构。
在一种可能的实现方式中,所述地理区域交互网络获取单元具体用于:
利用从社交网络中获取的用户交互数据创建用户交互网络,所述用户交互网络包括用户节点和连接所述用户节点的第二连边,所述用户节点与所述用户交互数据中的用户标识对应,所述第二连边是基于所述用户交互数据中的数据传输方向确定的;
基于用户标识与地理区域的映射关系和所述用户交互网络,创建所述地理区域交互网络;其中所述地理节点与所述用户节点映射的地理区域对应,所述用户节点映射的地理区域是所述用户节点对应的用户标识基于所述映射关系映射得到的;所述第一连边是通过所述第二连边确定的。
在一种可能的实现方式中,所述地理区域交互网络获取单元具体用于:
基于用户标识与地理区域的映射关系,将所述用户交互数据中的用户标识映射为地理区域;
根据映射得到的地理区域以及用户交互数据中的数据传输方向,创建所述地理区域交互网络,其中所述地理节点与所述映射得到的地理区域对应,所述第一连边是通过所述用户交互数据中的数据传输方向确定的。
在一种可能的实现方式中,所述社区确定单元具体用于:
根据所述第一连边的分类结果,将同一连边类别的第一连边连接的地理节点组成的集合,确定为一个社区结构;或
根据所述地理节点的分类结果,将同一节点类别的地理节点组成的集合,确定为一个社区结构;或
根据所述第一连边的分类结果确定候选节点集合,所述候选节点集合包括同一连边类别的第一连边连接的地理节点;以及根据所述地理节点的分类结果,将所述候选节点集合中同一节点类别的地理节点组成的集合,确定为一个社区结构。
在一种可能的实现方式中,所述社区确定单元还用于:
确定为一个社区结构之后,根据各社区结构中包含的地理节点的数量,确定各社区结构的地理节点交互紧密度;或
确定为一个社区结构之后,根据各社区结构中包含的地理节点对应的第一连边的数量,确定各社区结构的地理节点交互紧密度。
在一种可能的实现方式中,所述分类单元具体用于:
对训练后的边可交换模型进行吉布斯采样处理,得到所述训练后的边可交换模型中第一连边的分类结果;
根据连接所述地理节点的第一连边对应的分类结果,确定所述地理节点的分类结果。
在一种可能的实现方式中,所述分类单元具体用于:
针对所述地理节点中任意的一个地理节点,确定连接所述一个地理节点的第一连边的连边类别;
将确定的连边类别中的目标连边类别,确定为所述一个地理节点对应的节点类别,所述目标连边类别为连接所述一个地理节点的第一连边的数量最大的连边类别。
在一种可能的实现方式中,所述社区确定单元还用于:
根据所述第一连边的分类结果和所述地理节点的分类结果中至少一个分类结果,确定所述社交网络的社区结构之后,将确定的社区结构映射到地理地图中,分析映射后的社区结构和对应的参考地理区域的匹配度,所述参考地理区域的覆盖范围大于所述预划分的地理区域的覆盖范围;
根据所述匹配度确定社区结构的划分准确度。
在一种可能的实现方式中,所述地理区域包括行政区,所述用户标识包括用户的IP地址。
本申请第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面及任一种可能的实施方式中任一所述的方法。
本申请第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面及任一种可能的实施方式中任一所述的方法。
由于本申请实施例采用上述技术方案,至少具有如下技术效果:
本申请实施例中,将社交网络中的用户映射到其所在的地理区域,基于用户交互数据创建地理区域交互网络,并通过可交换模型对地理区域交互网络中的连边和地理节点进行聚类,基于连边和地理节点的聚类结果确定社区结构,提供了一种新的基于用户的地理位置,确定社交网络中的社区结构的方法。
附图说明
图1为本申请实施例提供的一种确定社交网络中社区结构的流程示意图;
图2为本申请实施例提供的一种地理区域交互网络中第一连边的示例图;
图3为本申请实施例提供的另一种地理区域交互网络中第一连边的示例图;
图4为本申请实施例提供的两个地理节点之间的第一连边的示意图;
图5为本申请实施例提供的一种简化地理区域交互网络的结构的示意图;
图6为本申请实施例提供的另一种简化地理区域交互网络的结构的示意图;
图7为本申请实施例提供的一种获得地理区域交互网络的过程示意图;
图8为本申请实施例提供的另一种获得地理区域交互网络的过程示意图;
图9为本申请实施例提供的一种不同方式划分的社区结构的划分结构对比示意图;
图10为本申请实施例提供的一种确定社交网络中社区结构的具体流程示意图;
图11为本申请实施例提供的一种确定社交网络中社区结构的装置的结构示意图;
图12为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了更好的理解本申请实施例提供的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。
为了便于本领域技术人员更好地理解本申请的技术方案,下面对本申请涉及的技术术语进行说明。
社交网络(Online Social Network,OSN):社交网站中用户构成的社会媒体网络,通常以节点和连边表示,其中节点表示社交网站中的用户,该用户可以是个人或组织,连别边表示用户与用户之间的关系如朋友关系、亲属关系、同事关系、师徒关系等。
社区结构:指网络中的一些密集群体,在本申请实施例中社区结构指社交网络中的密集的节点组成的群体,每个社区结构内部的节点间的联系相对紧密,各个社区结构之间的节点连接相对比较稀疏。
边可交换模型:假设的边的顺序交换对网络模型没有影响的网络模型,如狄利克雷网络分布(Dirichlet network distribution,DND)模型、混合狄利克雷网络(Mixtureof Dirichlet network distribution,MDND)模型,这类网络模型将节点之间的交互,而不是节点当做数据点,由此构建了可交换的有向的二项连边(binary links);每条连边都对应于单个交互,比如两个用户之间的好友关系,或者两个用户之间的信息传递。这类网络模型有三个方面的好处,第一是很适合用于对稀疏网络进行建模即非零的连边数随节点数呈O(M)增长,而现实生活中的网络大部分是稀疏网络。第二是,该模型的计算复杂度相对随机块一类的模型要低,对于M个节点,K个分组的随机块模型的计算复杂度通常是O(M2K),而边可交换模型的计算复杂度通常由连变数决定,即O(N),N是网络模型中的连变数,只要网络连边数增长速度低于M2的增长速度,该模型计算复杂度就较低。该模型的第三个优点是可以用来预测新的连边。
MDND模型:强调关注连边的序列,假设边是可交换的,并且连边可以分成很多潜在的分类,每条连边的分类都服从一个统一的分布。
下面对本申请的设计思想进行说明。
针对在线的社交网络如即时通讯应用的用户组成的社交网络,社区结构是客观存在的,发现社交网络中的社区结构有助于对社交网络的探索,即发现社交网络中的社区结构很有意义。如在某个社区结构中的用户,直观可以得知该用户和与其之间相连的用户可以产生互动,但是该用户和与其同属于同一个社区结构中的其它用户其实也很“近”,该用户和上述其它用户之间存在某种关系的可能性比较大,且他们之间发生交互的可能性也比较大。因此如果在社交网络中做好友推荐的话,可以在属于同一社区结构的用户之间优先进行推荐,或者,在向社交网络中的用户推送广告时,可以将该用户偏好的广告推送给上述其它用户,或者将上述其它用户偏好的广告推送给该用户。
在对社交网络的社区结构的研究过程中发现,社交网络中探测得到的社区结构中,属于同一社区结构中的用户很大概率是同一个地理区域的,社区结构的划分与用户的地理位置具有很强的关联性;而相关技术中常通过社区发现算法发现社交网络中的社区结构,社区算法常基于用户的兴趣对社交网络中的节点进行划分,从而确定其中的社区结构,此过程中并不涉及用户的地理位置,因此如何基于社交网络中用户的地理位置发现社区结构,成为了一个需要考虑的问题。
鉴于此,发明人设计了一种确定社交网络中社区结构的方法、装置及存储介质。该方法中考虑基于社交网络中用户的地理位置发现社区结构,基于从社交网络中获取的用户交互数据,将用户交互数据中数据发起用户和数据接收用户分别映射为其所在的地理区域,并基于映射的地理区域和用户交互数据中的数据传输方向创建地理区域交互网络,该地理交互网络包括与用户交互数据中用户标识映射的地理区域对应的地理节点,及基于数据传输方向确定的连接地理节点的第一连边;进而基于上述地理区域交互网络构建边可交换模型,并对上述边可交换模型进行训练,对训练后的边可交换模型进行设定采样处理,得到第一连边以及地理节点的分类结果;根据分类结果确定社交网络中的社区结构。
其中,上述地理区域是预划分的,用户交互数据中包括用户标识和数据传输方向,该用户标识包括数据发起用户的标识和数据接收用户的标识,可以基于用户标识与预划分的地理区域的映射关系,将数据发起用户和数据接收用户分别映射为其所在的地理区域。
进一步地,上述地理区域可以是行政区,上述用户标识可以是用户使用的终端的互联网协议地址(Internet Protocol Address,ip地址)。
为了更清楚地理解本申请的设计思路,以下结合附图对本申请提供的一种确定社交网络中社区结构的方法进行详细的说明。
请参见图1,本申请实施例提供一种确定社交网络中社区结构的方法,具体包括如下步骤:
步骤S101,基于用户标识与预划分的地理区域的映射关系,利用从社交网络中获取的用户交互数据创建地理区域交互网络;其中用户交互数据包括用户标识和数据传输方向,上述用户标识包括数据发起用户的标识和数据接收用户的标识;上述地理区域交互网络包括地理节点和连接地理节点的第一连边,上述地理节点与用户交互数据中的用户标识映射的地理区域对应,第一连边是基于上述用户交互数据中的数据传输方向确定的。
作为一种实施例,上述用户标识可以是ip地址,上述映射关系可以是ip地址和预划分的地理区域的映射关系;上述预划分的地理区域可以但不局限于为行政区如中国某个省份下的市区、县级区域等城市区域,此种情况下上述映射关系也可以是ip地址和城市区域的映射关系。
本申请实施例中,地理区域交互网络中的第一连边可以是无方向的连边,即针对一个用户交互数据,若将其中数据发起用户的用户标识映射的地理区域对应的地理节点记为第一地理节点,将数据接收用户的用户标识映射的地理区域对应的地理节点记为第二地理节点,则上述一个用户交互数据对应的第一连边为连接上述第一地理节点和第二地理节点的无方向的连边,此处可参见图2的示意出的第一连边。
地理区域交互网络中的第一连边还可以是有方向的连边,即针对一个用户交互数据,若将其中数据发起用户的用户标识映射的地理区域对应的地理节点记为第一地理节点,将数据接收用户的用户标识映射的地理区域对应的地理节点记为第二地理节点,则上述一个用户交互数据对应的第一连边为从上述第一地理节点指向第二地理节点的连边,此处可参见图3示意出的第一连边。
通常情况下从社交网络中获取的用户交互数据的数量很多,且同一地理区域可以包括多个用户,且一个用户可以是一个用户交互数据中的数据发起用户,也可以是另一个用户交互数据中的数据接收用户,因此多个用户的用户标识映射得到的地理区域可能是同一个地理区域,因此得到的地理区域交互网络中任意两个地理节点之间可能有一条第一连边或多条第一连边。
请参见图4,给出一种地理区域交互网络中任意两个地理节点(即图4中第一地理节点和第二地理节点)之间存在多条连边的示意图,若第一连边为无方向的连边,则地理区域交互网络中的第一地理节点和第二地理节点之间的多条连边的可能情况如图4中左图所示;若第一连边为有方向的连边,则上述第一地理节点和第二地理节点之间的多条连边的可能情况如图4中右图所示。
步骤S102,基于上述地理区域交互网络构建边可交换模型,并对上述边可交换模型进行训练。
获得的地理区域交互网络可以反应社交网络中的信息交互在地理区域上的特性,在地理区域交互网络中的信息交互和地理区域有着较强的耦合关系,而社交网络中通常不同的用户群体关注的话题不同,参与信息交互的用户群体也不同,即社交网络中的数据发送用户和数据接收用户的分布与具体的信息分类有关,而边可交换模型如MDND网络模型可以刻画连边的不同分类与连边的节点的范围的关联情况,因此可以用MDND网络模型对地理区域交互网络进行建模,即基于地理区域交互网络构建MDND网络模型。
具体地,在将地理区域交互网络输入构建的MDND网络模型后,可以设置MDND网络模型的参数,其中MDND网络模型有三个聚类参数,分别用来控制分类的数量、模型中地理节点的数量及模型中第一连边的分组之间的交叠程度,可以为这三个聚类参数设置不同的值来控制MDND网络模型的特性;进而训练MDND网络模型,其中上述聚类参数的值可由本领域的技术人员根据实际经验设置,此处不做限定。
步骤S103,对训练后的边可交换模型进行设定采样处理,得到上述训练后的边可交换模型中第一连边的分类结果以及上述地理节点的分类结果。
具体地,上述设定采样处理可以是吉布斯采样处理,对训练后的边可交换模型进行吉布斯采样处理,得到上述训练后的边可交换模型中第一连边的分类结果;
根据连接上述地理节点的第一连边对应的分类结果,确定上述地理节点的分类结果。
进一步,在根据第一连边的分类结果确定地理节点的分类结果时,可以针对上述地理节点中任意的一个地理节点,确定连接上述一个地理节点的第一连边的连边类别;
将确定的连边类别中的目标连边类别,确定为上述一个地理节点对应的节点类别,上述目标连边类别为连接上述一个地理节点的第一连边的数量最大的连边类别。
即若连接地理节点P的第一连边的类别包括连边类别Cate1、连边类别Cate2以及连边类别Cate3,且连边类别Cate1至Cate3中连接地理节点P的第一连边的数量分别是4、5、3时,则将连边类别Cate2确定为地理节点P的节点类别。
步骤S104,根据上述第一连边的分类结果和上述地理节点的分类结果中至少一个分类结果,确定上述社交网络中的社区结构。
作为一种实施例,可以但不局限于通过如下几种方式中的任意一种,确定社交网络中的社区结构:
第一种社区确定方式:
根据上述第一连边的分类结果,将同一连边类别的第一连边连接的地理节点组成的集合,确定为一个社区结构。
即若根据第一连边的分类结果确定某个连边类边Cate1中包括第一连边Con1、第一连边Con2以及第一连边Con3,且第一连边Con1连接地理节点P1和P2,第一连边Con2连接地理节点P3和P4,第一连边Con3连接地理节点P1和P5,则P1、P2、P3、P4和P5组成的集合确定为一个社区结构。
第二种社区确定方式:
根据上述第一连边的分类结果,将同一连边类别的第一连边连接的地理节点组成的集合,确定为一个社区结构。
即若根据地理节点的分类结果,确定某个节点类别中包括P1、P4、P5、P6以及P7,则此时可以将P1、P4、P5、P6以及P7组成的集合确定为一个社区结构。
第三种社区确定方式:
根据上述第一连边的分类结果确定候选节点集合,上述候选节点集合包括同一连边类别的第一连边连接的地理节点;以及根据上述地理节点的分类结果,将上述候选节点集合中同一节点类别的地理节点组成的集合,确定为一个社区结构。
即若根据第一连边的分类结果确定某个连边类边Cate1中包括第一连边Con1、第一连边Con2以及第一连边Con3,且第一连边Con1连接地理节点P1和P2,第一连边Con2连接地理节点P3和P4,第一连边Con3连接地理节点P1和P5,则连边类别Cate1对应的候选节点集合为{P1、P2、P3、P4、P5},若根据地理节点的分类结果,确定某个节点类别中包括P1、P4、P5、P6以及P7,则此时可以将P1、P4和P5组成的集合确定为一个社区结构。
作为一种实施例,由于从社交网络中获取的用户交互数据的数据质量参差不齐,因此在步骤S101中利用用户交互数据创建地理区域交互网络之前,还可以对获取的用户交互数据进行数据清洗,得到语法、语义以及数据结构统一的用户交互数据。
本申请实施例对用户交互数据进行数据清洗时,可以但不局限于对用户交互数据进行一致性检查、无效值和缺失值处理、去重处理、错误数据格式处理中的一种处理或多种处理,以下分类进行说明:
第一种数据清洗处理:一致性检查
一致性检查(consistency check)是根据用户交互数据中每个变量的合理取值范围和相互关系,检查用户交互数据是否符合要求,若发现一个用户交互数据中存在变量值超出正常值域范围,或变量值在逻辑上不合理的情况时,丢弃该用户交互数据。
上述变量值超出正常值域范围即为变量值超出其正常的值所在的范围的情况,如在一个用户交互数据中人的身高这一变量值为负数,或体重这一变量值出现了负数,都视为超出正常值域范围。
上述变量值在逻辑上不合理的情况可能以多种形式出现,如某个用户说自己开车上班,但又报告没有汽车,或者某个用户报告自己是某品牌的喜好者,但同时又在该品牌大量很低的分值等。
第二种数据清洗处理:无效值和缺失值处理
由于对用户交互数据进行调查、编码或录入误差,用户交互数据中可能存在一些无效的变量值和缺失的变量值,需要对这些无效的变量值和缺失的变量值进行如下一种或多种处理:
对无效的变量值或缺失的变量值进行估算,如用用户交互数据的中对应变量的变量值的平均值、中位值或众数替换用户交互数据中的无效的变量值或缺失的变量值;
剔除包含无效的变量或缺失的变量值的用户交互数据;
删除无效的变量值或缺失的变量值对应的变量,即若获取的多个用户交互数据中,某一变量的变量值是无效的或缺失的情况过多,且该变量对于确定社交网络中的社区结构影响不大,则可以将该变量从用户交互数据中删除,以减少确定社区结构分析时用的变量数目,且这种处理方式不会减少获取的用户交互数据的数量。
第三种数据清洗处理:去重处理
若获取的用户交互数据中存在多个重复的用户交互数据,则将多个重复的用户交互数据进行合并,或者随机删除多个重复的用户交互数据中的部分用户交互数据,使得最后只保留多个重复的用户交互数据中的一个用户交互数据。
具体的,在将获取的一个用户交互数据保存到数据库时,数据库中会存在一条记录,数据库中属性值相同的记录是重复记录,则可以通过判断数据库中的不同记录的属性值是否相同,来判定不同记录对应的用户交互数据是否相同。
第四种数据清洗处理:错误数据格式处理
由于在获取用户交互数据后直接将用户交互数据写入数据库,并未对其进行数据格式的检验,导致存储的一些用户交互数据的数据格式错误,针对存在错误数据格式的用户交互数据,可以对其错误数据格式进行修正,或者杉树存在错误数据格式的用户交互数据。
以下给出一些错误数据格式的类型:数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式错误、日期越界等。其中可以通过写字符检测的方式,确定存在数值数据输成全角数字字符的用户交互数据并删除;针对存在日期格式错误或日期越界的用户交互数据,为了保证获取的用户交互数据的数量,可以对这类用户交互数据进行修正,而不需要删除存在日期格式错误或日期越界的用户交互数据。
作为一种实施例,在上述步骤S101创建地理区域交互网络后,可以通过为第一连边赋予权重的方式对上述地理区域交互网络进行结构简化,当第一连边是无方向的连边时,可以仅在两个地理节点之间创建一条唯一的连边作为第一连边,并基于这两个地理节点之间的交互次数(即图4中左图的第一地理节点和第二地理节点之间的第一连边的数量),确定该两个地理节点之间唯一的第一连边的权重,此处可参见图5,图5中各直线或曲线表示上述无方向的第一连边,地理节点P1至地理节点P5之间的第一连边的具体情况可参照图5。
当第一连边是有方向的连边时,两个地理节点之间方向不同的第一连边视为两个第一连边,可以基于这两个地理节点之间各方向的交互次数(即图4中右图的第一地理节点和第二地理节点之间的有方向的第一连边的数量),确定该两个地理节点之间不同方向的第一连边的权重,此处可参见图6,图6中各有方向的直线或有方向的曲线表示有方向的第一连边,地理节点P1至地理节点P5之间的第一连边的具体情况可参照图6。
作为一种实施例,可以但不局限于基于如下方式创建地理区域交互网络。
第一种网络创建方式:
具体包括如下两个步骤:
步骤B1:利用从社交网络中获取的用户交互数据创建用户交互网络,上述用户交互网络包括用户节点和连接上述用户节点的第二连边,上述用户节点与上述用户交互数据中的用户标识对应,上述第二连边是基于上述用户交互数据中的数据传输方向确定的;
步骤B2:基于用户标识与地理区域的映射关系和上述用户交互网络,创建上述地理区域交互网络;其中上述地理节点与上述用户节点映射的地理区域对应,上述用户节点映射的地理区域是上述用户节点对应的用户标识基于上述映射关系映射得到的;上述第一连边是通过上述第二连边确定的。
具体地,上述第二连边可以是无方向的连边,也可以是有方向的连边,本申请实施例中以第二连边为有方向的连边为例进行说明。
在步骤B1中首先确定能够作为用户标识的数据,其中可以但不局限于以ip地址作为用户标识,以用户交互数据中提取出的用户标识(包括数据发送用户的用户标识和数据接收用户的用户标识)作为用户节点进行编码,进而确定用户节点之间有方向的第二连边,如若用户A转发或查看用户B发出的消息,则在用户交互网络中应当有一条从用户B对应的用户节点指向用户A对应的用户节点的第二连边。
进一步,本申请实施例中可以通过编码表现形式的用户边列表表示上述用户交互网络,如下给出一种获取用户边列表的示意:
用户交互数据的数据对表示如下:
(ZfKIOFTZ,jCdW0XYY)、(toGTwifE,fZO2MA39)、(pZF6cUNR,LLGMlorX)、(LLGMlorX,nFGm3UKV)、(0gWiSofv,IvAtHxkM)、(toGTwifE,IvAtHxkM)、(QLEyCe7O,2qXobqqZ)、(EaBOnUDJ,pZF6cUNR)、(EaBOnUDJ,ZfKIOFTZ)。
上述每个()为一个用户交互数据对应的数据对,()中“,”前面一项的数据为数据发起用户的用户标识,()中“,”后面一项的数据为数据接收用户的用户标识。
若设置用户标识与用户编码的对应关系如下:
1与ZfKIOFTZ对应、2与jCdW0XYY对应、3与toGTwifE对应、4与fZO2MA39对应、5与LLGMlorX对应、6与nFGm3UKV对应、7与0gWiSofv对应、8与IvAtHxkM对应、9与QLEyCe7O对应、10与2qXobqqZ对应、11与EaBOnUDJ对应、12与pZF6cUNR对应;其中,数字1-12为用户的用户编码。
基于上述用户交互数据的数据对和用户标识与用户编码的对应关系,可以得到如下的用户边列表:
(1,2)、(3,4)、(12,5)、(5,6)、(7,8)、(3,8)、(9,10)、(11,12)、(11,1)。
在上述步骤B2中,可以基于用户标识与地理区域的映射关系,将用户交互网络中的用户节点映射为地理区域;即若用户标识为ip地址,则可以将用户节点对应的ip地址映射的地理区域,确定为该用户节点映射的地理区域,并基于该地理区域对地理节点进行编码,进而基于用户交互网络中的第二连边,确定连接地理节点的第一连边,由此得到地理区域交互网络,将用户之间的信息交互看做地理区域之间的信息交互,每一个用户之间的信息交互都可以表示为一个地理区域对应的数据对;例如若用户A转发或查看用户B发出的消息,则在用户交互网络中应当有一条从用户B对应的用户节点指向用户A对应的用户节点的第二连边;若用户A属于地理区域A,用户B属于地理区域B,则可以将用户A对应的用户节点映射为地理区域A,可以将用户B对应的用户节点映射为地理区域B,地理区域交互网络中存在一个从地理区域A对应的地理节点指向地理区域B对应的地理节点的有方向的第一连边。
进一步,因为多个用户可能属于同一个地理区域,因此,可以基于用户交互网络中第二连边的数量(即用户的交互次数),确定地理区域交互网络中两个地理区域之间的有方向的信息交互次数,进而基于两个地理区域之间的有方向的信息交互次数,确定该两个地理区域之间的第一连边的权重,由此可得到带权重的地理区域交互网络;例如,用户交互网络中存在一条用户A对应的用户节点指向用户B对应的用户节点的第二连边,以及一条用户C对应的用户节点指向用户B对应的用户节点的第二连边,且用户A和用户C属于地理区域A,用户B属于地理区域B,即地理区域A指向地理区域B的信息交互有2次,则在地理区域交互网络中存在一个地理区域A对应的地理节点指向地理区域B对应的地理节点的第一连边,且可以将该第一连边的权重设置为2。
请参见图7,以下给出一种获得地理区域交互网络的过程。具体包括:
该示例中以用户边列表作为用户交互网络,以ip地址作为用户标识,以城市区域作为预划分的地理区域进行说明。
步骤S701,基于获取的用户交互数据获得用户边列表。
步骤S702,获取用户边列表中的ip地址。
步骤S703,查找ip地址和城市区域的映射关系,获得用户边列表中各ip地址对应的城市区域。
步骤S704,读取用户边列表。
步骤S705,基于用户边列表中各ip地址对应的城市区域,将用户边列表转化为地理区域交互网络。
本步骤中,将用户节点转换为对应的地理节点,即可以将用户之间的信息交互关系转化为城市区域之间的信息交互关系,进而提取出城市区域之间的信息交互关系的边列表,基于城市区域对应的地理节点的编码,将城市区域之间交互关系转化为编码的表现形式,进而计算地理节点之间的第一连边的权重。
第二种网络创建方式:
具体包括如下两个步骤:
步骤C1:基于用户标识与地理区域的映射关系,将上述用户交互数据中的用户标识映射为地理区域;
步骤C2:根据映射得到的地理区域以及用户交互数据中的数据传输方向,创建上述地理区域交互网络,其中上述地理节点与上述映射得到的地理区域对应,上述第一连边是通过上述用户交互数据中的数据传输方向确定的。
在步骤C1中首先确定用户交互数据中能够作为用户标识的数据,其中可以但不局限于以ip地址作为用户标识,进而基于上述映射关系确定用户交互数据中用户标识映射的地理区域。
在步骤C2中基于用户标识映射的地理区域对地理节点进行编码,进而基于用户交互数据中的数据传输方向确定地理节点之间的第一连边。
如一个用户交互数据为用户A转发或查看用户B发出的消息,用户A属于地理区域A,用户B属于地理区域B,则步骤C1中确定用户A的用户标识映射的地理区域为地理区域A,用户B的用户标识映射的地理区域为地理区域B;在步骤C2中,有该用户交互数据的信息可知数据传输方向为从用户B指向用户A,则可以确定地理区域交互网络中,存在一条从地理区域B对应的地理节点指定地理区域A对应的地理节点的第一连边。
其中,对上述对地理对地理节点进行编码的方式不做限定,可以但不局限于参考上述对用户节点进行编码的方式。
请参见图8,以下给出一种基于获得地理区域交互网络的过程。具体包括:
该示例中以ip地址作为用户标识,以城市区域作为预划分的地理区域进行说明。
步骤S801,确定获取的用户交互数据中的ip地址。
步骤S802,查找ip地址和城市区域的映射关系,确定用户交互数据中各ip地址映射的城市区域。
步骤S803,基于用户交互数据中的数据传输方向以及用户交互数据中各ip地址映射的城市区域,创建地理区域交互网络。
本步骤中,将用户边列表中的ip地址映射为城市区域,即将用户之间的信息交互关系转化为城市区域之间的信息交互关系,进而提取出城市区域之间的信息交互关系的边列表,基于城市区域对应的地理节点的编码,将城市区域之间的信息交互关系转化为编码的表现形式,进而计算地理节点之间的第一连边的权重。
作为一种实施例,步骤S204中确定社区结构之后,还可以基于地理节点的聚类情况或第一连边的聚类情况确定各社区结构内的地理节点交互紧密度,进而可以根据各社区结构的地理节点交互紧密度为各社区结构进行其他方向的探索如商品推广、信息推广等,其中地理节点交互紧密度表示一个社区结构内的信息交互程度,其可以基于一个社区结构内的各个地理节点的信息交互的程度确定。
具体地,可以根据各社区结构中包含的地理节点的数量,确定各社区结构的地理节点交互紧密度,如直接将一个社区结构中的地理节点的数量确定为该社区结构的地理节点交互紧密度;或
根据各社区结构中包含的地理节点对应的第一连边的数量,确定各社区结构的地理节点交互紧密度,如直接将连接一个社区结构中的地理节点的第一连边的数量,确定为该社区结构的地理节点交互紧密度;或
或者根据各社区结构中包含的第一连边的权重,确定各社区结构的地理节点交互紧密度,如将一个社区中包含的第一连边的权重之和,确定为该社区结构的地理节点交互紧密度。
其中一个社区结构中包含的第一连边,可以理解为连接的两个地理节点都在该社区结构中的第一连边为该社区结构包含的第一连边,如第一连边Con1连接地理节点P1和P2,第一连边Con2连接地理节点P3和P4,第一连边Con3连接地理节点P1和P5,其中地理节点P1、地理节点P2、地理节点P3以及地理节点P5为社区结构N1中的地理节点,地理节点P4为社区结构N2中的地理节点,则第一连边Con1和第一连边Con3为社区结构N1包含的第一连边。
作为一种实施例,步骤S204中确定社区结构之后,还通过如下方式确定社区结构划分的准确度:
将确定的社区结构映射到地理地图中,分析映射后的社区结构和对应的参考地理区域的匹配度,上述参考地理区域的覆盖范围大于上述预划分的地理区域的覆盖范围;
根据上述匹配度确定社区结构的划分准确度。
其中,上述参考地理区域的范围大于用户标识映射的预划分的地理区域,即若用户标识映射的预划分的地理区域为X省份区域下的X城市区域时,此处参考地理区域可以是X省份。
具体地,若地理区域为行政区,则可以通过可视化手段,将确定的社区结构映射到包含划分的行政区的地理地图中,分析映射后的社区结构和对应的参考的行政区的匹配度,基于该匹配度确定社区结构的划分准确度。
以下结合图9进行说明,其中包括参考的地理区域S1至参考的地理区域S8,分别对应图中的封闭区域901至封闭区域908,其中每个区域都用相同的灰度标识;其中图9a为映射的地理地图(即参考地理区域的划分情况),图9b为基于本申请实施例提供的将基于MDND刻画的社区结构映射到地理地图中的结果,图9c为将通过社区发现算法刻画的社区结构映射到地理地图中的结果,从图9a、图9b以及图9c中可以看出,图9b中的社区结构的划分结果与图9a中的封闭区域901至封闭区域908基本一致,仅明显的出现封闭区域909以及封闭区域910很小面积的划分错误;图9c中的社区结构的划分结果与图9a中的封闭区域901至封闭区域906基本一致,但明显的出现将封闭区域907和封闭区域908错误划分在一起,由此可见,基于MDND网络模型刻画出的社区结构与实际的地理区域较为一致。
且进一步地,可以根据图9b中封闭区域901至封闭区域908中,将每个封闭区域的划分正确的面积与图9c中对应的封闭区域的面积的比值,确定为对应的每个社区结构的划分准确度。
本申请实施例以下内容,提供一个确定社交网络中社区结构的具体示例。该示例中以ip地址作为社交网络中用户的用户标识,以行政区中的省份区域下的城市区域作为预划分的地理区域为例进行说明,如图10所示,具体包括:
步骤S1001,从社交网络中获取用户交互数据,并对用户交互数据进行数据清洗,上述用户交互数据中包括用户标识和数据传输方向。
步骤S1002,基于数据清洗后的用户交互数据创建用户交互网络,上述用户交互网络包括与用户标识对应的用户节点以及连接用户节点的第二连边。
创建用户交互网络的具体方法可参见上述内容,此处不再重复叙述。
步骤S1003,基于用户标识与预划分的地理区域的映射关系以及用户交互网络,获得地理区域交互网络,上述地理区域交互网络包括地理节点和连接地理节点的第一连边,地理节点与用户标识映射的地理区域对应。
获得地理区域交互网络的具体方法可参见内容,此处不再重复叙述。
步骤S1004,基于地理区域交互网络创建MDND网络模型,并对创建的MDND网络模型进行训练。
步骤S1005,对训练后的MDND网络模型进行吉布斯采样,获得MDND网络模型中的第一连边的分类结果。
步骤S1006,基于MDND网络模型中的第一连边的分类结果,确定MDND网络模型中地理节点的分类结果。
步骤S1007,根据MDND网络模型中地理节点的分类结果,确定社交网络中的社区结构。
本申请实施例中,将社交网络中的用户映射到其所在的地理区域,基于用户交互数据创建地理区域交互网络,并通过可交换模型如MDND网络模型对节点和连边的聚类能力,对地理区域交互网络中的连边和地理节点进行聚类,基于连边和地理节点的聚类结果确定社区结构,提供了一种新的基于用户的地理位置,确定社交网络中的社区结构的方法,有益于探索社交网络中的社区结构的特性。
请参照图11,基于同一发明构思,本申请实施例提供一种确定社交网络中社区结构的装置1100,包括:
地理区域交互网络获取单元1101,用于利用从社交网络中获取的用户交互数据创建地理区域交互网络;其中上述用户交互数据包括用户标识和数据传输方向,上述用户标识包括数据发起用户的标识和数据接收用户的标识;上述地理区域交互网络包括地理节点和连接上述地理节点的第一连边,上述地理节点与上述用户交互数据中的用户标识映射的地理区域对应,上述第一连边是基于上述用户交互数据中的数据传输方向确定的;
训练单元1102,用于基于上述地理区域交互网络构建边可交换模型,并对上述边可交换模型进行训练;
分类单元1103,用于对训练后的边可交换模型进行设定采样处理,得到上述训练后的边可交换模型中第一连边的分类结果以及上述地理节点的分类结果;
社区确定单元1104,用于根据上述第一连边的分类结果和上述地理节点的分类结果中至少一个分类结果,确定上述社交网络中的社区结构。
作为一种实施例,地理区域交互网络获取单元1101具体用于:
利用从社交网络中获取的用户交互数据创建用户交互网络,上述用户交互网络包括用户节点和连接上述用户节点的第二连边,上述用户节点与上述用户交互数据中的用户标识对应,上述第二连边是基于上述用户交互数据中的数据传输方向确定的;
基于用户标识与地理区域的映射关系和上述用户交互网络,创建上述地理区域交互网络;其中上述地理节点与上述用户节点映射的地理区域对应,上述用户节点映射的地理区域是上述用户节点对应的用户标识基于上述映射关系映射得到的;上述第一连边是通过上述第二连边确定的。
作为一种实施例,地理区域交互网络获取单元1101具体用于:
基于用户标识与地理区域的映射关系,将上述用户交互数据中的用户标识映射为地理区域;
根据映射得到的地理区域以及用户交互数据中的数据传输方向,创建上述地理区域交互网络,其中上述地理节点与上述映射得到的地理区域对应,上述第一连边是通过上述用户交互数据中的数据传输方向确定的。
作为一种实施例,社区确定单元1104具体用于:
根据上述第一连边的分类结果,将同一连边类别的第一连边连接的地理节点组成的集合,确定为一个社区结构;或
根据上述地理节点的分类结果,将同一节点类别的地理节点组成的集合,确定为一个社区结构;或
根据上述第一连边的分类结果确定候选节点集合,上述候选节点集合包括同一连边类别的第一连边连接的地理节点;以及根据上述地理节点的分类结果,将上述候选节点集合中同一节点类别的地理节点组成的集合,确定为一个社区结构。
作为一种实施例,社区确定单元1104还用于:
确定为一个社区结构之后,根据各社区结构中包含的地理节点的数量,确定各社区结构的地理节点交互紧密度;或
确定为一个社区结构之后,根据各社区结构中包含的地理节点对应的第一连边的数量,确定各社区结构的地理节点交互紧密度。
作为一种实施例,分类单元1103具体用于:
对训练后的边可交换模型进行吉布斯采样处理,得到上述训练后的边可交换模型中第一连边的分类结果;
根据连接上述地理节点的第一连边对应的分类结果,确定上述地理节点的分类结果。
作为一种实施例,分类单元1103具体用于:
针对上述地理节点中任意的一个地理节点,确定连接上述一个地理节点的第一连边的连边类别;
将确定的连边类别中的目标连边类别,确定为上述一个地理节点对应的节点类别,上述目标连边类别为连接上述一个地理节点的第一连边的数量最大的连边类别。
作为一种实施例,社区确定单元1104还用于:
根据上述第一连边的分类结果和上述地理节点的分类结果中至少一个分类结果,确定上述社交网络的社区结构之后,将确定的社区结构映射到地理地图中,分析映射后的社区结构和对应的参考地理区域的匹配度;
根据上述匹配度确定社区结构的划分准确度。
作为一种实施例,上述地理区域包括行政区,上述用户标识包括用户的IP地址。
作为一种实施例,图11中的装置可以用于实现前文论述的任意一种确定社交网络中社区结构的方法。
如图12所示,本公开提供一种电子设备1200,包括处理器1201、用于存储上述处理器可执行指令的存储器1202;
其中,上述处理器1201被配置为执行上述任意一种确定社交网络中社区结构的方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器,上述指令可由上述电子设备的处理器执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种确定社交网络中社区结构的方法,其特征在于,包括:
基于用户标识与预划分的地理区域的映射关系,利用从社交网络中获取的用户交互数据创建地理区域交互网络;其中所述用户交互数据包括用户标识和数据传输方向,所述用户标识包括数据发起用户的标识和数据接收用户的标识;所述地理区域交互网络包括地理节点和连接所述地理节点的第一连边,所述地理节点与所述用户交互数据中的用户标识映射的地理区域对应,所述第一连边是基于所述用户交互数据中的数据传输方向确定的;
基于所述地理区域交互网络构建边可交换模型,并对所述边可交换模型进行训练;
对训练后的边可交换模型进行设定采样处理,得到所述训练后的边可交换模型中第一连边的分类结果以及所述地理节点的分类结果;
根据所述第一连边的分类结果和所述地理节点的分类结果中至少一个分类结果,确定所述社交网络中的社区结构。
2.如权利要求1所述的方法,其特征在于,所述基于用户标识与预划分的地理区域的映射关系,利用从社交网络中获取的用户交互数据创建地理区域交互网络,包括:
利用从社交网络中获取的用户交互数据创建用户交互网络,所述用户交互网络包括用户节点和连接所述用户节点的第二连边,所述用户节点与所述用户交互数据中的用户标识对应,所述第二连边是基于所述用户交互数据中的数据传输方向确定的;
基于用户标识与地理区域的映射关系和所述用户交互网络,创建所述地理区域交互网络;其中所述地理节点与所述用户节点映射的地理区域对应,所述用户节点映射的地理区域是所述用户节点对应的用户标识基于所述映射关系映射得到的;所述第一连边是通过所述第二连边确定的。
3.如权利要求1所述的方法,其特征在于,所述基于用户标识与预划分的地理区域的映射关系,利用从社交网络中获取的用户交互数据创建地理区域交互网络,包括:
基于用户标识与地理区域的映射关系,将所述用户交互数据中的用户标识映射为地理区域;
根据映射得到的地理区域以及用户交互数据中的数据传输方向,创建所述地理区域交互网络,其中所述地理节点与所述映射得到的地理区域对应,所述第一连边是通过所述用户交互数据中的数据传输方向确定的。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一连边的分类结果和所述地理节点的分类结果中至少一个分类结果,确定所述社交网络的社区结构,包括:
根据所述第一连边的分类结果,将同一连边类别的第一连边连接的地理节点组成的集合,确定为一个社区结构;或
根据所述地理节点的分类结果,将同一节点类别的地理节点组成的集合,确定为一个社区结构;或
根据所述第一连边的分类结果确定候选节点集合,所述候选节点集合包括同一连边类别的第一连边连接的地理节点;以及根据所述地理节点的分类结果,将所述候选节点集合中同一节点类别的地理节点组成的集合,确定为一个社区结构。
5.如权利要求1所述的方法,其特征在于,所述对训练后的边可交换模型进行设定采样处理,得到所述训练后的边可交换模型中第一连边的分类结果以及所述地理节点的分类结果,包括:
对训练后的边可交换模型进行吉布斯采样处理,得到所述训练后的边可交换模型中第一连边的分类结果;
根据连接所述地理节点的第一连边对应的分类结果,确定所述地理节点的分类结果。
6.如权利要求5所述的方法,其特征在于,所述根据连接所述地理节点的第一连边对应的分类结果,确定所述地理节点的分类结果,包括:
针对所述地理节点中任意的一个地理节点,确定连接所述一个地理节点的第一连边的连边类别;
将确定的连边类别中的目标连边类别,确定为所述一个地理节点对应的节点类别,所述目标连边类别为连接所述一个地理节点的第一连边的数量最大的连边类别。
7.如权利要求1-6任一项所述的方法,其特征在于,所述根据所述第一连边的分类结果和所述地理节点的分类结果中至少一个分类结果,确定所述社交网络的社区结构之后,还包括:
将确定的社区结构映射到地理地图中,分析映射后的社区结构和对应的参考地理区域的匹配度,所述参考地理区域的覆盖范围大于所述预划分的地理区域的覆盖范围;
根据所述匹配度确定社区结构的划分准确度。
8.一种确定社交网络中社区结构的装置,其特征在于,包括:
地理区域交互网络获取单元,用于利用从社交网络中获取的用户交互数据创建地理区域交互网络;其中所述用户交互数据包括用户标识和数据传输方向,所述用户标识包括数据发起用户的标识和数据接收用户的标识;所述地理区域交互网络包括地理节点和连接所述地理节点的第一连边,所述地理节点与所述用户交互数据中的用户标识映射的地理区域对应,所述第一连边是基于所述用户交互数据中的数据传输方向确定的;
训练单元,用于基于所述地理区域交互网络构建边可交换模型,并对所述边可交换模型进行训练;
分类单元,用于对训练后的边可交换模型进行设定采样处理,得到所述训练后的边可交换模型中第一连边的分类结果以及所述地理节点的分类结果;
社区确定单元,用于根据所述第一连边的分类结果和所述地理节点的分类结果中至少一个分类结果,确定所述社交网络中的社区结构。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7中任一项权利要求所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010480690.0A CN111899115B (zh) | 2020-05-30 | 2020-05-30 | 一种确定社交网络中社区结构的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010480690.0A CN111899115B (zh) | 2020-05-30 | 2020-05-30 | 一种确定社交网络中社区结构的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111899115A true CN111899115A (zh) | 2020-11-06 |
CN111899115B CN111899115B (zh) | 2021-03-23 |
Family
ID=73207550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010480690.0A Expired - Fee Related CN111899115B (zh) | 2020-05-30 | 2020-05-30 | 一种确定社交网络中社区结构的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899115B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107529656A (zh) * | 2016-06-22 | 2018-01-02 | 腾讯科技(深圳)有限公司 | 一种社交网络社区的划分方法及服务器 |
CN108596264A (zh) * | 2018-04-26 | 2018-09-28 | 南京大学 | 一种基于深度学习的社区发现方法 |
CN109472115A (zh) * | 2018-12-14 | 2019-03-15 | 中国人民解放军国防科技大学 | 基于地理信息的大规模复杂网络建模方法及装置 |
CN109829494A (zh) * | 2019-01-28 | 2019-05-31 | 山西大学 | 一种基于加权相似性度量的聚类集成方法 |
CN110533545A (zh) * | 2019-07-12 | 2019-12-03 | 长春工业大学 | 基于深度稀疏自编码器的边社区发现算法 |
CN111091145A (zh) * | 2019-12-04 | 2020-05-01 | 成都理工大学 | 一种基于边分类的社区检测算法 |
CN111210002A (zh) * | 2019-12-30 | 2020-05-29 | 北京航空航天大学 | 一种基于生成对抗网络模型的多层学术网络社区发现方法、系统 |
-
2020
- 2020-05-30 CN CN202010480690.0A patent/CN111899115B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107529656A (zh) * | 2016-06-22 | 2018-01-02 | 腾讯科技(深圳)有限公司 | 一种社交网络社区的划分方法及服务器 |
CN108596264A (zh) * | 2018-04-26 | 2018-09-28 | 南京大学 | 一种基于深度学习的社区发现方法 |
CN109472115A (zh) * | 2018-12-14 | 2019-03-15 | 中国人民解放军国防科技大学 | 基于地理信息的大规模复杂网络建模方法及装置 |
CN109829494A (zh) * | 2019-01-28 | 2019-05-31 | 山西大学 | 一种基于加权相似性度量的聚类集成方法 |
CN110533545A (zh) * | 2019-07-12 | 2019-12-03 | 长春工业大学 | 基于深度稀疏自编码器的边社区发现算法 |
CN111091145A (zh) * | 2019-12-04 | 2020-05-01 | 成都理工大学 | 一种基于边分类的社区检测算法 |
CN111210002A (zh) * | 2019-12-30 | 2020-05-29 | 北京航空航天大学 | 一种基于生成对抗网络模型的多层学术网络社区发现方法、系统 |
Non-Patent Citations (1)
Title |
---|
王鹏 等: "基于边分类的SVM模型在社区发现中的研究", 《长春理工大学学报(自然科学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111899115B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022247955A1 (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN103795613A (zh) | 一种在线社交网络中朋友关系预测的方法 | |
CN110224859B (zh) | 用于识别团伙的方法和系统 | |
CN110008999B (zh) | 目标帐号的确定方法、装置、存储介质及电子装置 | |
CN111078737B (zh) | 共性分析方法、装置、数据处理设备及可读存储介质 | |
CN109783805A (zh) | 一种网络社区用户识别方法及装置 | |
CN110247805B (zh) | 一种基于k壳分解的识别传播关键节点的方法及装置 | |
CN114896977A (zh) | 一种物联网实体服务信任值的动态评估方法 | |
CN115329210A (zh) | 一种基于交互图分层池化的虚假新闻检测方法 | |
CN113556368A (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN111899115B (zh) | 一种确定社交网络中社区结构的方法、装置及存储介质 | |
CN113343012A (zh) | 一种新闻配图方法、装置、设备及存储介质 | |
CN109472115B (zh) | 基于地理信息的大规模复杂网络建模方法及装置 | |
CN114461943B (zh) | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 | |
CN114840777B (zh) | 多维度养老服务推荐方法、装置以及电子设备 | |
CN115936758A (zh) | 基于大数据的智能拓客方法及相关装置 | |
CN116166910A (zh) | 一种社交媒体账号粉丝水军检测方法、系统、设备和介质 | |
CN115131058A (zh) | 账号识别方法、装置、设备及存储介质 | |
CN111292171B (zh) | 金融理财产品推送方法及装置 | |
CN111667106B (zh) | 一种基于社交网络的用户数据预测方法 | |
CN115293872A (zh) | 建立风险识别模型的方法及对应装置 | |
CN113312364A (zh) | 基于区块链的智慧云业务更新方法及区块链业务系统 | |
CN114387005A (zh) | 一种基于图分类的套利团伙识别方法 | |
CN116484026B (zh) | 基于知识图谱的人物关系推理方法、装置及电子设备 | |
CN113987309B (zh) | 个人隐私数据识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210323 |