CN105306540A - 一种获得社交网络中影响力最大的前k个节点的方法 - Google Patents
一种获得社交网络中影响力最大的前k个节点的方法 Download PDFInfo
- Publication number
- CN105306540A CN105306540A CN201510614670.7A CN201510614670A CN105306540A CN 105306540 A CN105306540 A CN 105306540A CN 201510614670 A CN201510614670 A CN 201510614670A CN 105306540 A CN105306540 A CN 105306540A
- Authority
- CN
- China
- Prior art keywords
- information
- node
- flow
- maximum
- influence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种获得社交网络中影响力最大的前k个节点的方法,该方法包括的步骤:设置类别用于分类信息;将所获得的信息分类到设置的类别中;在每一种分类下计算图的邻接矩阵和邻接表;使用最大流算法计算在相应类别下每条边的最大流量;设置每种类别的权值,利用加权平均计算每条边的影响力;对获得的每对节点的影响力按从大到小进行排序;选择影响力最大的前k个节点。本发明根据信息的内容将信息分类到不同的类别中,采用网络流模拟的方法计算相应类别下不同节点之间的流量,通过加权平均的方式计算实际的影响力得出最后的节点集合。本发明用于社交网络中影响力的计算。
Description
技术领域
本发明涉及社交网络中影响力最大化问题,提出了一种选择影响力最大的前k个节点的方法。
技术背景
社交网络由单独的个体之间通过某种关系如朋友关系、商品的推荐形成。这种网络对于信息的传播有着很重要的作用,如微博网络里话题的传播等。在社交网络中一个人会推荐给他的朋友某种物品,这样信息从这个人传到他的朋友,他的朋友继续推荐则形成了一个更大的网络。影响最大化问题是指在一个给定的社交网络中,选取一个节点的集合,使得由该集合中的节点所影响的节点的数量最多。影响最大化问题的研究对于理解信息在网络中的传播方式有很重要的作用,对于商家投放广告策略也是一种很重要的参考。
社交网络中的节点可以分为两种状态:活跃态和非活跃态。受影响的节点称为活跃态节点,当前还没有被影响的节点称为非活跃态节点。非活跃态节点可以转变为活跃态节点,但是活跃态节点不能转变为非活跃态节点。影响最大化问题形式定义为:设A是当前活跃的节点,其他的节点当前都处于非活跃状态,I(A)是指信息经过一段时间的传播所影响的节点的数目,即使得节点从非活跃状态变为活跃状态的数目。影响力最大化为题是求出这样的集合A使得I(A)最大。
目前影响力最大化模型主要包括线性阈值模型和独立级联模型以及这两种主要模型的一些变体。线性阈值模型是指对于社交网络中的任意一个节点v,其父节点u以概率p(u,v)激活它,并且满足关系式。给定初始集合A,线性阈值模型的激活方式为:
⑴、随机选取[0,1]内的一个数值作为概率p;
⑵、在t时刻,节点v被其处于活跃态的父节点u以概率p(u,v)激活;
⑶、如果所有父节点对其激活的概率之和大于p,即,则当前节点v被激活;
⑷、如果没有更多的节点被激活则传播过程终止。
在独立级联模型中,社交网络被抽象成一个带权有向图。节点u,v之间的权值p(u,v)表示节点u激活节点v的概率。
独立级联模型的激活方式为:
⑴、在t时刻,节点u尝试以概率p(u,v)激活其子节点v,如果v被激活,则在t+1时刻该节点称为活跃节点。如果没有激活成功,则节点u以后都不能再次尝试激活节点v,即只能激活一次。
⑵、如果在时刻t有多个节点可以尝试激活节点v,则他们以任意顺序按相应的概率激活节点v。
⑶、如果没有新的非活跃节点被激活,则传播过程终止。
发明内容
本发明的目的是提供一种通过使用最大流模拟信息在社交网络中的传播计算影响力最大的前k个节点的方法,该方法考虑了信息的内容对信息在网络传播过程中的影响,而不只是单一的只考虑个体之间的相似程度。
实现本发明目的的具体技术方案是:
一种获得社交网络中影响力最大的前k个节点的方法,该方法包括以下具体步骤:
步骤一:设置类别信息,指定信息分为数类;
步骤二:将获得的信息按信息的内容分类到指定的某一类别中;
步骤三:计算社交网络的邻接矩阵和邻接表;
步骤四:使用最大流算法计算在相应类别下每条边的流量;
步骤五:设置每种类别的权值,利用加权平均计算每条边的影响力;
步骤六:对每对节点的影响力按从大到小排序;
步骤七:选择前k个节点作为所要求的节点集合。
所述指定信息分为数类是结合信息的实际内容设置种类的数量。
所述按信息的内容分类到指定的某一类别中,具体包括:
步骤A1:将每一条信息按TF-IDF算法转化为对应的向量;
步骤A2:采用支持向量机、朴素贝叶斯算法、kNN、最大熵或者决策树算法对步骤A1中的结果进行分类。
所述计算社交网络的邻接矩阵和邻接表,具体包括:
步骤B1:对于每个类别中的某一条信息,如果该信息从A传播到了B,则AB之间连边的权值增加1,如此处理每个类别中的每一条信息,得到每种类别下的对应的带权有向图;
步骤B2:对每一种类别下的带权有向图生成对应图的邻接矩阵和邻接表用于最大流的计算。
所述使用最大流算法计算在相应类别下每条边的流量及设置每种类别的权值,利用加权平均计算每条边的影响力,具体包括:
步骤C1:对于每个类别下的带权有向图,使用最大流算法计算每条边的流量;
步骤C2:设置每种类别对应的权值;
步骤C3:对于网络中的每对节点,计算每条边的加权流量,作为该边对应的节点的影响力。
本发明的伪代码:
输入:社交网络图,整数k,每个主题的权重。
输出:影响力最大的前k个节点。
设置类别categories;
for(i=0;i<categories;i++)
构造图Gi;
在图Gi上调用最大流算法求出最大流;
endfor
for(i=0;i<=n*(n-1)/2;i++)
for(j=0;j<=n*(n-1)/2;j++)
for(k=0;k<categories;k++)
weight[ei][ej]=∑ki*(ei,ej);
if((ei,ej)>0)
array.push_back((ei,ej));
endif
endfor
endfor
endfor
sort(array);
for(i=0;i<k;i++)
seed.push_back(array[i].first)。
本发明通过对信息的分类处理可以更清楚的揭示社交网络中信息的传播路径。同时,在计算影响力的时候加入信息的内容更有利于影响力计算的准确性,因为信息在网络中的传播不仅与网络中的个体有关,而且与信息本身的内容有关。影响力最大化在广告投放,舆情分析方面都有很重要的应用。
附图说明
图1为本发明流程图;
图2为本发明信息分类生成邻接矩阵和邻接表的流程图。
具体实施方式
以下结合附图,对本发明作进一步的详细说明,实施本发明的过程、条件以及实验方法等,除以下专门提及的内容以外,均为本领域的普遍知识和公知常识,本发明并没有特别限制的内容。
为了说明详细步骤,选取了新浪微博的一部分数据,含有1511个节点和3023条微博信息。
本发明通过以下步骤来解决:
步骤一:设置类别信息,指定信息分为数类。
将给定的信息分为三类,分别是新闻时事类,生活类和体育类。
步骤二:将获得的信息按信息的内容分类到所指定的某一类别中。
采用TF-IDF算法将获得的信息转化为向量的形式。分类算法可以采用kNN、最大熵或者支持向量机算法。分类后的结果为:新闻时事类540条,生活类1432条,体育类1051条。
步骤三:计算社交网络的邻接矩阵和邻接表。
如果节点u转发了v的信息,则u,v节点之间存在边,并且边的权值为1,当再次转发时,边的权值加1。以这样的方式计算出三种类别下的邻接矩阵和邻接表。
步骤四:使用最大流算法计算在相应类别下每条边的流量。
对三种类别下的网络,采用最大流算法计算每条边的流量。
步骤五:设置每种类别的权值,利用加权平均计算每条边的影响力。
设置三种类别的权值,记为,,,则u,v节点的权值为,其中,,分别表示三种类别下u,v节点的权值。在本实验中,,,都设置为1/3。
步骤六:对每对节点的影响力按从大到小排序。
将每条边的开始节点,结束节点和边的权值存入数组,按边的权值从大到小,即每对节点的影响力排序。
步骤七:选择前k个节点作为所要求的节点集合。
设置集合S为空。对于每条边<u,v>,选择起始节点u作为加入集合S。当S的大小为k时停止加入。最后的结果如表,并与贪心算法、PageRank算法对比。表中的数值表示种子集合S影响的节点的数目。
K=10 | K=30 | K=50 | |
本发明 | 93 | 167 | 313 |
PageRank算法 | 85 | 151 | 300 |
贪心算法 | 81 | 147 | 289 |
从表中可以看出,在K=10,30,50的时候,本发明所得的种子集所影响的节点数目多于PageRank算法和贪心算法。同时,PageRank算法的结果比贪心算法稍好。由此说明本发明所得的种子集节点的影响范围更大,信息传播所影响的节点更多,能够取得更好的结果。
Claims (5)
1.一种获得社交网络中影响力最大的前k个节点的方法,其特征在于,该方法包括以下具体步骤:
步骤一:设置类别信息,指定信息分为数类;
步骤二:将获得的信息按信息的内容分类到指定的某一类别中;
步骤三:计算社交网络的邻接矩阵和邻接表;
步骤四:使用最大流算法计算在相应类别下每条边的流量;
步骤五:设置每种类别的权值,利用加权平均计算每条边的影响力;
步骤六:对每对节点的影响力按从大到小排序;
步骤七:选择前k个节点作为所要求的节点集合。
2.如权利要求1所述的方法,其特征在于,所述指定信息分为数类是结合信息的实际内容设置种类的数量。
3.如权利要求1所述的方法,其特征在于,所述按信息的内容分类到指定的某一类别中,具体包括:
步骤A1:将每一条信息按TF-IDF算法转化为对应的向量;
步骤A2:采用支持向量机、朴素贝叶斯算法、kNN、最大熵或者决策树算法对步骤A1中的结果进行分类。
4.如权利要求1所述的方法,其特征在于,所述计算社交网络的邻接矩阵和邻接表,具体包括:
步骤B1:对于每个类别中的某一条信息,如果该信息从A传播到了B,则AB之间连边的权值增加1,如此处理每个类别中的每一条信息,得到每种类别下的对应的带权有向图;
步骤B2:对每一种类别下的带权有向图生成对应图的邻接矩阵和邻接表用于最大流的计算。
5.如权利要求1所述的方法,其特征在于,所述使用最大流算法计算在相应类别下每条边的流量及设置每种类别的权值,利用加权平均计算每条边的影响力,具体包括:
步骤C1:对于每个类别下的带权有向图,使用最大流算法计算每条边的流量;
步骤C2:设置每种类别对应的权值;
步骤C3:对于网络中的每对节点,计算每条边的加权流量,作为该边对应的节点的影响力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510614670.7A CN105306540A (zh) | 2015-09-24 | 2015-09-24 | 一种获得社交网络中影响力最大的前k个节点的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510614670.7A CN105306540A (zh) | 2015-09-24 | 2015-09-24 | 一种获得社交网络中影响力最大的前k个节点的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105306540A true CN105306540A (zh) | 2016-02-03 |
Family
ID=55203283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510614670.7A Pending CN105306540A (zh) | 2015-09-24 | 2015-09-24 | 一种获得社交网络中影响力最大的前k个节点的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105306540A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126607A (zh) * | 2016-06-21 | 2016-11-16 | 重庆邮电大学 | 一种面向社交网络的用户关系分析方法 |
CN106789962A (zh) * | 2016-12-02 | 2017-05-31 | 浙江大学 | 一种基于临界时间的网络污染抑制方法 |
CN107123055A (zh) * | 2017-03-03 | 2017-09-01 | 华南理工大学 | 一种基于PageRank的社交大数据信息最大化方法 |
CN107123056A (zh) * | 2017-03-03 | 2017-09-01 | 华南理工大学 | 一种基于位置的社交大数据信息最大化方法 |
CN107316246A (zh) * | 2016-09-22 | 2017-11-03 | 山东科技大学 | 一种社交网络关键用户的挖掘方法 |
CN107767278A (zh) * | 2016-08-15 | 2018-03-06 | 腾讯科技(深圳)有限公司 | 社群层次结构构建方法和装置 |
CN107945036A (zh) * | 2017-11-21 | 2018-04-20 | 中山大学 | 一种在线社交网络中有影响力传播者识别与量化的方法 |
CN108683448A (zh) * | 2018-04-24 | 2018-10-19 | 中国民航大学 | 适用于航空网络的影响力节点识别方法及系统 |
CN110019981A (zh) * | 2017-11-27 | 2019-07-16 | 中国科学院声学研究所 | 一种融合无监督学习与网络出度的有向超边传播方法 |
CN111325968A (zh) * | 2018-12-13 | 2020-06-23 | 深圳先进技术研究院 | 一种基于拥堵扩散的交通瓶颈预测方法、系统及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064917A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院深圳先进技术研究院 | 一种面向微博的特定倾向的高影响力用户群发现方法 |
CN103412872A (zh) * | 2013-07-08 | 2013-11-27 | 西安交通大学 | 一种基于有限节点驱动的微博社会网络信息推荐方法 |
CN103476051A (zh) * | 2013-09-11 | 2013-12-25 | 华北电力大学(保定) | 一种通信网节点重要性评价方法 |
CN103886105A (zh) * | 2014-04-11 | 2014-06-25 | 北京工业大学 | 一种基于社交网络用户行为的用户影响力分析方法 |
CN104092567A (zh) * | 2014-06-26 | 2014-10-08 | 华为技术有限公司 | 确定用户的影响力排序的方法与装置 |
CN104217160A (zh) * | 2014-09-19 | 2014-12-17 | 中国科学院深圳先进技术研究院 | 一种中文钓鱼网站检测方法及系统 |
WO2015043073A1 (zh) * | 2013-09-29 | 2015-04-02 | 北大方正集团有限公司 | 一种关键知识点推荐方法及其系统 |
-
2015
- 2015-09-24 CN CN201510614670.7A patent/CN105306540A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064917A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院深圳先进技术研究院 | 一种面向微博的特定倾向的高影响力用户群发现方法 |
CN103412872A (zh) * | 2013-07-08 | 2013-11-27 | 西安交通大学 | 一种基于有限节点驱动的微博社会网络信息推荐方法 |
CN103476051A (zh) * | 2013-09-11 | 2013-12-25 | 华北电力大学(保定) | 一种通信网节点重要性评价方法 |
WO2015043073A1 (zh) * | 2013-09-29 | 2015-04-02 | 北大方正集团有限公司 | 一种关键知识点推荐方法及其系统 |
CN103886105A (zh) * | 2014-04-11 | 2014-06-25 | 北京工业大学 | 一种基于社交网络用户行为的用户影响力分析方法 |
CN104092567A (zh) * | 2014-06-26 | 2014-10-08 | 华为技术有限公司 | 确定用户的影响力排序的方法与装置 |
CN104217160A (zh) * | 2014-09-19 | 2014-12-17 | 中国科学院深圳先进技术研究院 | 一种中文钓鱼网站检测方法及系统 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126607B (zh) * | 2016-06-21 | 2019-12-31 | 重庆邮电大学 | 一种面向社交网络的用户关系分析方法 |
CN106126607A (zh) * | 2016-06-21 | 2016-11-16 | 重庆邮电大学 | 一种面向社交网络的用户关系分析方法 |
CN107767278A (zh) * | 2016-08-15 | 2018-03-06 | 腾讯科技(深圳)有限公司 | 社群层次结构构建方法和装置 |
CN107767278B (zh) * | 2016-08-15 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 社群层次结构构建方法和装置 |
CN107316246A (zh) * | 2016-09-22 | 2017-11-03 | 山东科技大学 | 一种社交网络关键用户的挖掘方法 |
CN106789962A (zh) * | 2016-12-02 | 2017-05-31 | 浙江大学 | 一种基于临界时间的网络污染抑制方法 |
CN106789962B (zh) * | 2016-12-02 | 2019-07-16 | 浙江大学 | 一种基于临界时间的网络污染抑制方法 |
CN107123055A (zh) * | 2017-03-03 | 2017-09-01 | 华南理工大学 | 一种基于PageRank的社交大数据信息最大化方法 |
CN107123056A (zh) * | 2017-03-03 | 2017-09-01 | 华南理工大学 | 一种基于位置的社交大数据信息最大化方法 |
CN107945036A (zh) * | 2017-11-21 | 2018-04-20 | 中山大学 | 一种在线社交网络中有影响力传播者识别与量化的方法 |
CN110019981A (zh) * | 2017-11-27 | 2019-07-16 | 中国科学院声学研究所 | 一种融合无监督学习与网络出度的有向超边传播方法 |
CN110019981B (zh) * | 2017-11-27 | 2021-05-04 | 中国科学院声学研究所 | 一种融合无监督学习与网络出度的有向超边传播方法 |
CN108683448B (zh) * | 2018-04-24 | 2020-10-09 | 中国民航大学 | 适用于航空网络的影响力节点识别方法及系统 |
CN108683448A (zh) * | 2018-04-24 | 2018-10-19 | 中国民航大学 | 适用于航空网络的影响力节点识别方法及系统 |
CN111325968A (zh) * | 2018-12-13 | 2020-06-23 | 深圳先进技术研究院 | 一种基于拥堵扩散的交通瓶颈预测方法、系统及电子设备 |
CN111325968B (zh) * | 2018-12-13 | 2021-05-25 | 深圳先进技术研究院 | 一种基于拥堵扩散的交通瓶颈预测方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105306540A (zh) | 一种获得社交网络中影响力最大的前k个节点的方法 | |
Wang et al. | Understanding the power of opinion leaders’ influence on the diffusion process of popular mobile games: Travel Frog on Sina Weibo | |
CN103064917B (zh) | 一种面向微博的特定倾向的高影响力用户群发现方法 | |
US8554910B2 (en) | Method and device for pushing data | |
CN104394118B (zh) | 一种用户身份识别方法及系统 | |
Zhang et al. | Maximizing the spread of positive influence in online social networks | |
CN108763314A (zh) | 一种兴趣推荐方法、装置、服务器及存储介质 | |
US11361045B2 (en) | Method, apparatus, and computer-readable storage medium for grouping social network nodes | |
CN105095219B (zh) | 微博推荐方法和终端 | |
CN101986298A (zh) | 用于在线论坛的信息实时推荐方法 | |
CN104834695A (zh) | 基于用户兴趣度和地理位置的活动推荐方法 | |
CN106886518A (zh) | 一种微博账号分类的方法 | |
CN103116611A (zh) | 社交网络意见领袖识别方法 | |
CN104572757A (zh) | 微博群体处理方法及装置 | |
CN106681989A (zh) | 一种预测微博转发概率的方法 | |
Zhang et al. | Influence maximization in messenger-based social networks | |
CN104090961A (zh) | 一种基于机器学习的社交网络垃圾用户过滤方法 | |
CN105426392A (zh) | 一种协同过滤推荐方法及系统 | |
CN112560105B (zh) | 保护多方数据隐私的联合建模方法及装置 | |
CN111026976A (zh) | 微博特定事件关注群体识别方法 | |
Fu et al. | Preferential information dynamics model for online social networks | |
Gaye et al. | Spanning graph for maximizing the influence spread in Social Networks | |
CN103793504B (zh) | 一种基于用户偏好与项目属性的聚类初始点选择方法 | |
Tandukar et al. | Ensuring relevant and serendipitous information flow in decentralized online social network | |
Sen | Complexities of social networks: A Physicist's perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160203 |
|
WD01 | Invention patent application deemed withdrawn after publication |