CN107943806B

CN107943806B - 一种结合拓扑过滤和社区发现的媒体传播方法

Info

Publication number: CN107943806B
Application number: CN201610894204.3A
Authority: CN
Inventors: 盛益强; 陈婉杰; 赵震宇; 王劲林
Original assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2020-06-16
Anticipated expiration: 2036-10-13
Also published as: CN107943806A

Abstract

本发明涉及一种结合拓扑过滤和社区发现的媒体传播方法，包括：将用户关系抽象为图，并对图中节点进行基于中心性的拓扑过滤；运用社区发现算法，从经过拓扑过滤的节点所构成的图中挖掘出高密度社区；将高密度社区虚拟化为虚拟节点，得到一个新的节点集合；从新的节点集合中选择种子节点，得到种子节点集合；从种子节点集合中的各个种子节点出发进行媒体传播。

Description

一种结合拓扑过滤和社区发现的媒体传播方法

技术领域

本发明涉及社会计算与媒体挖掘方法，特别涉及结合拓扑过滤和社区发现的媒体传播方法。

背景技术

随着互联网和大数据的研究应用日益广泛，包括社交网络影响力传播在内的媒体传播已经成为数据挖掘和社交网络分析中的关键问题之一。对于整个传播过程而言，种子节点(也就是初始化后的活跃节点)的选取是传播的基础，因为种子节点的选取结果直接影响传播的最终效果，包括覆盖率及传播时间在内。目前常用的种子节点的选取方法有贪心算法，基于节点度的启发式算法，基于距离的启发式算法，以及随机算法等。

假设初始化后的活跃节点为S，用f(S)表示使用S中的节点作为种子节点进行传播得到最终活跃的节点数目。以覆盖率较高的贪心算法为例，首先初始化一个空的集合S，然后每添加一个节点时需要遍历所有节点，将使得f(S+v)-f(S)的值最大的那个节点加入节点集合S。使用贪心算法选择种子节点时，由于每次添加一个节点时均需要遍历所有节点，因此导致时间复杂度较高，且贪心算法没有考虑图的拓扑结构，这是贪心算法的局限所在。

对于基于节点度的启发式算法，即选择度数最高的k个节点作为初始的活跃节点，该算法相比贪心算法而言时间复杂度降低很多，但由于该算法每次只选择度数较高的节点，忽略了部分节点的信息，而贪心算法每添加一个节点时均遍历所有节点从而选出局部最优解，因此基于节点度的启发式算法算法效果远不及贪心算法。对于更简单的随机算法，即从原节点集合中随机选取若干节点作为种子节点，由于不确定因素较多，随机性大，一般不被选用。

使用贪心算法进行媒体传播，在选取种子节点集合S时，需要对每一个未激活节点进行验证，当用户节点数量增加时，算法的复杂度非常高。因此，有必要减少验证的节点数，提高验证的节点质量，以改善算法的复杂度，进而提高传播效率。

发明内容

本发明的目的在于克服现有媒体传播方法的效率低下问题，特别是解决贪心算法的时间复杂度高，未考虑图的拓扑结构的问题，从而提供一种高效的媒体传播方法。

为了实现上述目的，本发明提供了一种结合拓扑过滤和社区发现的媒体传播方法，包括：

步骤1)、将用户关系抽象为图，并对图中节点进行基于中心性的拓扑过滤；

步骤2)、运用社区发现算法，从步骤1)所得到的经过拓扑过滤的节点所构成的图中挖掘出高密度社区；

步骤3)、将步骤2)所得到的高密度社区虚拟化为虚拟节点，得到一个新的节点集合；

步骤4)、从步骤3)所得到的新的节点集合中选择种子节点，得到种子节点集合；

步骤5)、从种子节点集合中的各个种子节点出发进行媒体传播。

上述技术方案中，在步骤1)中，所述基于中心性的拓扑过滤的过滤条件为节点的任意一种中心性指标，包括度中心性、介数中心性、紧密度中心性和特征向量中心性中的任意一种。

上述技术方案中，以节点的介数中心性作为基于中心性的拓扑过滤的过滤条件，所述步骤1)进一步包括：

步骤1-1)、设置节点介数的阈值，并计算图结构中所有节点的介数；

步骤1-2)、将所有节点按介数值进行排序；

步骤1-3)、将介数小于或等于节点介数的阈值的节点去除；

步骤1-4)、保持剩余节点在原图中的连接关系并更新相关参数。

上述技术方案中，节点介数的阈值根据节点规模和节点的度分布设置，其计算公式如下：

h＝B_max/n；

其中，h为节点介数的阈值，B_max为在节点的介数分布上对应最多节点的介数值，n为节点规模。

上述技术方案中，所述步骤2)进一步包括：

基于社区内部的网络交互密度，即边数与节点数的比值，对步骤1)所得到的节点集合进行分组，得到不同密度的社区；将所得到的各个社区内部的网络交互密度与一阈值c进行比较，将大于该阈值c的社区作为高密度社区；其中，所述阈值c根据公式c＝(n-1)/3设置，n为社区内部的节点数。

上述技术方案中，所述步骤3)进一步包括：

将步骤2)得到的高密度社区视为一个虚拟节点，然后从图中删除高密度社区包含的节点，再将虚拟节点加入原节点集合，若原节点集合中有外部节点和高密度社区中的节点相连，则将外部节点与原社区的连接替换连接至虚拟节点，从而得到新的节点集合、新的图、新的边的集合；其中，

所生成的虚拟节点的节点中心性指标为两部分之和，这两部分分别为新的节点集合中该虚拟节点在虚拟化之后的节点中心性指标，以及该虚拟节点在虚拟化之前的与该虚拟节点对应的社区内部所有节点中心性指标的平均值。

上述技术方案中，在所述的步骤4)中，采用包括随机算法、大度算法和贪心算法中的任意一种实现从步骤3)所得到的新的节点集合中选择种子节点。

上述技术方案中，在所述的步骤5)中，采用包括独立级联法、线性阈值法中的任意一种实现从种子节点集合中的各个种子节点出发进行媒体传播。

本发明的优点在于：

与现有技术相比，本发明提供的结合拓扑过滤和社区发现的媒体传播方法能够降低时间复杂度，考虑了图的拓扑结构，达到了提高传播效率的目的。

附图说明

图1是本发明的结合拓扑过滤和社区发现的媒体传播方法的流程图；

图2是本发明的结合拓扑过滤和社区发现的媒体传播方法的示意图。

具体实施方式

现结合附图对本发明作进一步的描述。

图1和图2是本发明的结合拓扑过滤和社区发现的媒体传播方法的流程图和示意图，所述方法包括：

步骤101)、将用户关系抽象为图，并对图中节点进行基于中心性的拓扑过滤；

具体地，将用户关系视为图结构G，节点为用户，边为用户之间的连接，其中节点数为n，边的数目为m，节点集合为N，边的集合为M；对G中的节点进行基于中心性的拓扑过滤，得到图G’，节点集合N’，边的集合M’；所述的过滤条件为节点的任意一种中心性指标，包括度中心性、介数中心性、紧密度中心性和特征向量中心性中的任意一种，优选地，使用节点的介数中心性作为过滤条件。

以节点的介数中心性作为过滤条件为例，所述步骤101)可进一步包括：

步骤101-1)、设置节点介数的阈值，并计算图结构中所有节点的介数；

步骤101-2)、将所有节点按介数值进行排序；

步骤101-3)、将介数小于或等于阈值的节点去除；

步骤101-4)、保持剩余节点在原图中的连接关系并更新相关参数。

在一种具体的实施方式中，首先设置节点介数的阈值为h，其取值为正整数，然后对N中的节点进行遍历，从N中去除介数小于等于h的节点，剩余的节点构成N’。在设置节点介数的阈值时，可以根据过滤后的节点规模来反向选择阈值的大小，该阈值可以根据节点规模和节点的度分布自动设置，如采用如下公式计算阈值h：h＝B_max/n，其中，B_max为在节点的介数分布上对应最多节点的介数值，n为节点规模，或由技术人员预先设置。

步骤102)、运用社区发现算法，从步骤101)所得到的经过拓扑过滤的节点所构成的图中挖掘出高密度社区；

具体地，对N’中的节点构成的图G’，采用社区发现算法挖掘出其中的高密度社区，即：基于社区内部的网络交互密度(即边数与节点数的比值)对节点集合进行分组，得到不同密度的社区；从所得到的社区中挖掘出高密度社区，所述的高密度社区是指一个社区内部的网络交互密度，即社区内部的边数m与节点数n的比值m/n，大于给定阈值c的节点集合。其中，阈值c可以由技术人员预先设置，或根据公式c＝(n-1)/3自动设置。步骤103)将高密度社区虚拟化为虚拟节点，得到一个新的节点集合；

具体地，将每个高密度社区视为一个虚拟节点，用虚拟节点替换图结构G’中组成该社区的节点，并设置虚拟节点的属性，得到图G”，节点集合N”，边的集合M”；所述虚拟节点的属性为该虚拟节点的节点中心性指标；进一步地，虚拟节点的节点中心性指标为两部分之和，这两部分分别为新的节点集合N”中该虚拟节点在虚拟化之后的节点中心性指标，以及该虚拟节点在虚拟化之前的与该虚拟节点对应的社区内部所有节点中心性指标的平均值。

在一种具体的实施方式中，将得到的高密度社区视为一个虚拟节点，然后从图中删除高密度社区包含的节点，再将虚拟节点加入原节点集合，若原节点集合中有外部节点和高密度社区中的节点相连，则将外部节点与原社区的连接替换连接至虚拟节点，从而得到新的节点集合N”。

步骤104)采用包括随机算法、大度算法和贪心算法在内的现有方法中的任意一种，从新节点集合中选择种子节点；

具体地，对图G”中的节点，使用包括随机、大度和贪心算法在内的现有算法选择种子节点集合S；

在一种具体的实施方式中，假设初始化活跃的节点集合为S，用f(S)表示最终活跃的节点数目，初始化一个空的集合S，若选用贪心算法，则对N”中的节点进行遍历，每次遍历均将f(S+v)-f(S)的值最大的那个节点加入S，若选用大度算法，则选择N”中度最高的k个节点加入S中，其中的v表示待激活节点。

步骤105)采用包括独立级联法、线性阈值法在内的现有方法中的任意一种，从种子节点集合中的种子节点出发进行媒体传播。

具体地，使用S中的节点作为种子节点，采用包括独立级联法、线性阈值法在内的现有方法，进行媒体传播。

在一种具体实施方式中，使用独立级联模型进行媒体传播；在独立级联模型中，n个节点，m条边对应的图中的每一条有向边都有一个对应的概率值p(u,v)；p(u,v)表示当节点u被激活后，节点u通过边(u,v)独立激活节点v的概率；其具体的传播过程如下：在t＝0时刻，集合S中的节点已被激活，而其他节点都处于不活跃状态；在任何时刻点t≥1，对任何一个在上一时刻刚被激活的节点u会对它的每个尚未被激活的出邻居节点v尝试激活一次，而这次尝试成功的概率为p(u,v)，且这次激活尝试与所有其他的激活尝试事件相互独立；如果尝试成功，则节点v在时刻t被激活，如果尝试不成功，且节点v的其他邻居也未在时刻t成功激活节点v，则节点v在时刻t仍为不活跃状态；当在某一时刻不再有新的节点被激活时，传播过程结束。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种结合拓扑过滤和社区发现的媒体传播方法，包括：

2.根据权利要求1所述的结合拓扑过滤和社区发现的媒体传播方法，其特征在于，在步骤1)中，所述基于中心性的拓扑过滤的过滤条件为节点的任意一种中心性指标，包括度中心性、介数中心性、紧密度中心性和特征向量中心性中的任意一种。

3.根据权利要求2所述的结合拓扑过滤和社区发现的媒体传播方法，其特征在于，以节点的介数中心性作为基于中心性的拓扑过滤的过滤条件，所述步骤1)进一步包括：

步骤1-2)、将所有节点按介数值进行排序；

步骤1-3)、将介数小于或等于节点介数的阈值的节点去除；

4.根据权利要求3所述的结合拓扑过滤和社区发现的媒体传播方法，其特征在于，节点介数的阈值根据节点规模和节点的度分布设置，其计算公式如下：

h＝B_max/n；

其中，h为节点介数的阈值，B_max为在节点的度分布上对应最多节点的介数值，n为节点规模。

5.根据权利要求1所述的结合拓扑过滤和社区发现的媒体传播方法，其特征在于，所述步骤2)进一步包括：

6.根据权利要求1所述的结合拓扑过滤和社区发现的媒体传播方法，其特征在于，所述步骤3)进一步包括：

7.根据权利要求1所述的结合拓扑过滤和社区发现的媒体传播方法，其特征在于，在所述的步骤4)中，采用包括随机算法、大度算法和贪心算法中的任意一种实现从步骤3)所得到的新的节点集合中选择种子节点。

8.根据权利要求1所述的结合拓扑过滤和社区发现的媒体传播方法，其特征在于，在所述的步骤5)中，采用包括独立级联法、线性阈值法中的任意一种实现从种子节点集合中的各个种子节点出发进行媒体传播。