CN108197332A - 社会网中基于主题兴趣的影响最大化方法 - Google Patents

社会网中基于主题兴趣的影响最大化方法 Download PDF

Info

Publication number
CN108197332A
CN108197332A CN201810150517.7A CN201810150517A CN108197332A CN 108197332 A CN108197332 A CN 108197332A CN 201810150517 A CN201810150517 A CN 201810150517A CN 108197332 A CN108197332 A CN 108197332A
Authority
CN
China
Prior art keywords
item
theme
node
models
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810150517.7A
Other languages
English (en)
Other versions
CN108197332B (zh
Inventor
刘勇
郭龙江
王楠
李金宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang University
Original Assignee
Heilongjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang University filed Critical Heilongjiang University
Priority to CN201810150517.7A priority Critical patent/CN108197332B/zh
Publication of CN108197332A publication Critical patent/CN108197332A/zh
Application granted granted Critical
Publication of CN108197332B publication Critical patent/CN108197332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

社会网中基于主题兴趣的影响最大化方法,本发明涉及主题兴趣的影响最大化方法。本发明的目的是为了解决现有IC模型没有考虑传播项的特征,假定对所有传播项目的影响概率都是相同的;以及现有TIC模型没有考虑到用户的兴趣分布,不能准确地描述信息传播规律,导致信息传播预测准确率低的问题。本发明过程为:步骤一、建立基于主题兴趣的传播模型TI‑IC;步骤二、利用EM算法学习TI‑IC模型的参数和新传播项的主题分布向量;步骤三、基于步骤二提出针对TI‑IC模型的影响最大化算法。本发明用于社交网的影响最大化问题领域。

Description

社会网中基于主题兴趣的影响最大化方法
技术领域
本发明涉及主题兴趣的影响最大化方法。
背景技术
近年来,随着社交应用的普及,人们信息获取的方式发生了很大的改变。通过在线社交网络转发和分享消息逐渐成为了人们获取信息的主要方式。很多在线社交网站允许用户对信息进行转发、评论、标记或其他一些类似的操作。如果能充分挖掘社交网络中这些海量数据,发现传播规律,将促进新思想、新产品在社交网上快速传播。
为了利用社交网进行病毒式营销,Kempe等人[1]等人首次提出了影响最大化问题:选取一个大小为k的初始用户集合(种集),使得在给定传播模型下,最终被影响的用户数量最大。文献[1]同时在两个个经典的传播模型(独立级联模型IC和线性阈值模型LT)给出了贪心算法。此后,影响最大化问题被广泛研究。一方面,为了扩展到大规模社交网络上,经典传播模型上高效的影响最大化算法[2-5]相继被提出;
[1]Kempe D,Kleinberg J.Maximizing the spread of influence through asocial network[C]//Proc of the 9th ACM SIGKDD Int Conf on Knowledge Discoveryand Data Mining.New York:ACM,2003:137-146
[2]Chen Wei,Wang Yajun,Yang Siyu.Efficient influence maximization insocial networks[C]//Proc of the 15th ACM SIGKDD Int Conf on KnowledgeDiscovery and Data Mining.New York:ACM,2009:199-208
[3]Chen Wei,Wang Chi,Wang Yajun.Scalable influence maximization forprevalent viral marketing in large-scale social networks[C]//Proc of the 16thACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2010:1029-1038
[4]Kim J,Kim S K,Yu H.Scalable and parallelizable processing ofinfluence maximization for large-scale social networks[C]//Proc of the 29thInt Conf on Data Engineering.Piscataway,NJ:IEEE,2013:266-277
[5]Li Yuchen,Zhang Dongxiang,Tan Kian-Lee.Real-time targetedinfluence maximization for online advertisements[J].Proceedings of the VLDBEndowment,2015,8(10):1070-1081)
另一方面,为了更精确地模拟信息传播过程,一些新的传播模型[6-8]相继被提出。
[6]Barbieri N,Bonchi F,Manco G.Topic-aware social influencepropagation models[C]//Proc of the 12th Int Conf on Data Mining.Piscataway,NJ:IEEE,2012:81-90
[7]Rong Yu,Cheng Hong,Mo Zhiyu,et al.Why it happened:Identifying andmodeling the reasons of the happening of social events[C]//Proc of the 21stACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2015:1015-1024
[8]Galhotra S,Arora A,Roy S.Holistic influence maximization-combiningscalability and efficiency with opinion-aware models[C]//Proc of the 2016 ACMSIGMOD Int Conf on Management of Data.New York:ACM,2016:743-758SIGMOD
现有的传播模型几乎都是利用朋友之间的影响来模拟传播过程。例如:TIC模型[6]利用用户的主题分布和传播项的主题分布来计算朋友之间在不同主题上的影响程度。然而,在现实生活中,发现这样一个现象:相对于朋友之间的影响,人们更容易被其感兴趣的信息吸引。例如:用户使用新浪微博转发好友发布的内容时,用户更多的是被内容本身所吸引,被好友影响的可能性相对较小。即使一个不经常联系的好友发布了令用户感兴趣的内容时,用户也会有很大可能性转发该内容。
根据上述分析,在求解社会网中的影响最大化问题时理应考虑用户对传播项的兴趣。使用用户的兴趣分布和传播项的主题分布建立传播模型,可以更精确地描述信息传播过程,得到更准确的预测结果,具有重要的理论意义和广泛的应用价值。
Domingos等人[9]最先考虑社会网中具有影响力的结点选择问题。2003年,Kempe等人[1]首次提出了影响最大化问题,证明了影响最大化问题在独立级联模型和线性阈值模型上都为NP-hard问题,并且设计出具有(1-1/e)近似比的贪心算法。贪心算法虽然简单,但是由于在每次迭代选择种子结点的过程中都需要进行大量的蒙特卡洛模拟来估计影响范围,导致贪心算法的效率较低。Barbieri等人[6]扩展了传统IC模型,提出了主题感知的独立级联模型(Topic-aware Influence Cascade,TIC)。Cigdem等人[10]在该模型的基础上,提出了基于主题的影响最大化问题,设计了一个树形框架,利用索引来减少新传播项的计算量,使得算法效率得到很大提升。
[9]Domingos P,Richardson M.Mining the network value of customers[C]//Proc of the 7th ACM SIGKDD Int Conf on Knowledge Discovery and DataMining.New York:ACM,2001:57-66
[10]Aslay C,Barbieri N,Bonchi F,et.al.Online Topic-aware InfluenceMaximization Queries[C]//Proc of the 17th Int Conf on Extending DatabaseTechnology.New York:ACM,2014:92-101
Chen等人[11]估计每个用户的影响上界,利用该上界对影响力小的用户进行剪枝,并设计了高效的计算上界的方法。Li等人[5]提出了在线广告的实时影响最大化,对于一个给定关键字的广告,在线寻找k个结点的种集,利用反向可达集的概念设计了一个基于采样技术的算法,不仅有近似比保障,也提升了算法的效率。
[11]Chen Shuo,Fan Jun,Li Guoliang,et.al.Online topic-aware influencemaximization[J].Proceedings of the VLDB Endowment,2015,8(6):666-677
任何影响最大化算法都依赖于特定的传播模型。社交网传播模型大致可以分为带有拓扑结构的传播模型和无拓扑结两的传播模型两大类。
带有拓扑结构的传播模型将社交网拓扑结构看作前置条件,要求信息沿着边进行传播。经典的IC模型和LT模型均属于此类模型。文献[12]考虑了时间因素的影响,在IC和LT基础上提出了AsIC和AsLT模型。文献[13]通过分析传播内容来构造传播模型。文献[14]考虑内在因素和外在因素的作用来模拟传播过程。文献[7]同时考虑外部影响、朋友影响和用户兴趣的联合作用利用随机过程构建传播模型CMPP。文献[8]考虑结点和结点之间的交互作用,在IC基础上提出了情感交互模型OI。
[12]Saito K,Kimura M,Ohara K,et.al.Generative models of informationdiffusion with asynchronous time-delay[C]//Proc of the 2nd Asian Conf onMachine Learning.2010:193-208
[13]Lagnier C,Denoyer L,Gaussier E,et.al.Predicting informationdiffusion in social networks using content and user’s profiles[C]//Proc ofthe 35th European Conf on Information Retrieval.Berlin:Springer,2013:74-85
[14]Myers S A,Zhu Chenguang,Leskovec J.Information diffusion andexternal influence in networks[C]//Proc of the 18th ACM SIGKDD Int Conf onKnowledge Discovery and Data Mining.New York:ACM,2012:33-41
无拓扑结构的传播模型假定社交网拓扑结构无法获取,只根据观察到的事件序列来推断传播轨迹,预测传播趋势。文献[15]推断用户之间的信息传播速率,使得观察事件序列出现概率最大。文献[16]根据观测的事件序列来推断信息传播路径和网络拓扑结构,通过追踪新闻站点之间的新闻流通路径验证算法有效性。文献[17]将用户映射到一个连续隐藏空间中,根据与感染源的距离远近来计算每个用户被感染的概率。通过从观察到的事件序列中学习传播核函数来预测信息传播。文献[18]使用表达学习的方式将用户映射到连续潜在空间。如果两个用户在潜在空间的距离越近,则这两个用户的影响概率越大。通过这种方式来构造传播模型Embedded IC。
[15]propagation with survival theory[C]//Proc of the 30th Int Conf onMachine Learning.New York:ACM,2013:666-674
[16]Gomez-Rodriguez M,Leskovec J,Krause A.Inferring networks ofdiffusion and influence[C]//Proc of the 16th ACM SIGKDD Int Conf on KnowledgeDiscovery and Data Mining.New York:ACM,2010:1019-1028
[17]Bourigault S,Lagnier C,Lamprier S,et.al.Learning social networkembeddings for predicting information diffusion[C]//Proc of the 7th ACM IntConf on Web Search and Data Mining.New York:ACM,2014:393-402
[18]Bourigault S,Lamprier S,Gallinari P.Representation learning forinformation diffusion through social networks:An embedded cascade model[C]//Proc of the 9th ACM Int Conf on Web Search and Data Mining.New York:ACM,2016:573-582
综上,现有IC模型没有考虑传播项的特征,假定对所有传播项目的影响概率都是相同的;以及现有TIC模型没有考虑到用户的兴趣分布,不能准确地描述信息传播规律,导致信息传播预测准确率低。
发明内容
本发明的目的是为了解决现有IC模型没有考虑传播项的特征,假定对所有传播项目的影响概率都是相同的;以及现有TIC模型没有考虑到用户的兴趣分布,不能准确地描述信息传播规律,导致信息传播预测准确率低的问题,而提出社会网中基于主题兴趣的影响最大化方法。
社会网中基于主题兴趣的影响最大化方法具体过程为:
步骤一、建立基于主题兴趣的传播模型TI-IC;
给定一个社会网有向图G=(V,E),一组用户的历史动作日志D(u,i,t),对于每个主题z∈[1,Z],每个传播项i都有一个主题分量每个用户结点u都有一个兴趣分量因此每个传播项i存在主题分布向量每个用户结点u存在不同主题上的兴趣分布向量
V为用户集合,E为关系集合;Z为主题总个数,取值为正整数;I为传播项总个数,取值为正整数;
D中u属于G中的用户集合V;
每个结点仅有一次机会由不活跃状态变为活跃状态,并且该过程不可逆;
S表示种集,即初始的活跃用户集合,
在t=0时刻,S中的结点在传播项i上活跃;
在t≥1时刻,如果用户结点u的任何邻居结点w在时刻t-1变为活跃状态,则w都有一次机会去激活邻居用户结点u,激活的概率为
当用户结点u的邻居结点活跃的条件下,用户结点u被激活的概率如下所示:
其中,表示在传播项i的传播过程中,在用户结点u之前已经活跃的邻居结点集合,即
Δ为时延阈值;N取值为正整数;ti(w)为结点w在传播项i上活跃的时刻,ti(u)为用户结点u在传播项i上活跃的时刻;ti(u)=∞,代表每个用户结点u不会接受传播项i;
表示传播项i在传播过程中,一定不会影响u的邻居集合;
当点用户结点u的任何邻居结点w在传播项i上一定活跃,用户结点u在传播项i上活跃或不活跃;
步骤二、利用EM算法学习TI-IC模型的参数和新传播项的主题分布向量;
EM学习算法的输入是:社会网有向图G=(V,E),用户历史动作日志D(u,i,t);
假设TI-IC模型的每个传播项的传播轨迹都是独立的,则给定TI-IC传播模型参数Θ的对数似然函数,表示为:
其中,L(Θ;Di)表示传播项i的传播轨迹的似然函数;
传播项i的传播轨迹Di在第z个主题分量上的似然函数定义为:
其中,表示传播项i的传播过程中,主题z使结点u被激活的概率,
表示传播项i的传播过程中,主题z没有影响结点u的概率:
利用EM算法学习TI-IC模型的参数,得到EM学习算法的输出,即TI-IC模型的参数Θ,Θ包括
当新的传播项i出现时,求解新传播项i的主题分布向量
步骤三、基于步骤二提出针对TI-IC模型的影响最大化算法。
本发明的有益效果为:
本发明利用用户兴趣的主题分布和传播项的主题分布,在传统独立级联模型(IC)的基础上,提出了基于主题-兴趣的传播模型TI-IC(Topic-Interest IndependentModel),并在该模型的基础上设计了基于主题兴趣的影响最大化算法ACG-TIIM。通过在两个真实数据集上的实验结果表明:TI-IC模型在均方根误差MSE、F1-score、ROC曲线下面积等多个指标上均优于传统的IC模型和TIC模型。ACG-TIIM算法可以得到和传统贪心算法几乎一样的种集,但比传统贪心算法快2个数量级以上。
本发明提出了基于主题兴趣的传播模型(TI-IC),并使用EM算法学习该模型的参数,考虑到用户的兴趣分布,能准确地描述信息传播规律的问题;
本发明提出了新传播项主题分布向量的学习算法,考虑了传播项的具体情况;
在TI-IC基础上,提出了基于主题兴趣的影响最大化问题(TIIM),并提出了一个新的启发式算法ACG-TIIM;ACG-TIIM算法也可用于求解其它传播模型上的影响最大化问题;
多个真实数据集上的实验结果表明:TI-IC模型比传统IC模型和TIC模型能更准确地描述信息传播规律,ACG-TIIM算法可有效并高效求解影响最大化问题。
本发明传播模型是一种带有拓扑结构的传播模型。与现有模型的主要区别是,本发明考虑传播项的特征以及用户的兴趣分布,提高了信息描述准确率,适合在大规模社交网络上学习,而且预测效果方面明显优于IC和TIC模型,因此更适合作为求解影响最大化问题的传播模型。解决了现有IC模型没有考虑传播项的特征,假定对所有传播项目的影响概率都是相同的;以及现有TIC模型没有考虑到用户的兴趣分布,导致不能准确地描述信息传播规律,导致信息描述准确率低的问题。
IC和TI-IC和最主要的区别在于:IC模型中只考虑了活跃结点对相邻目标结点的影响概率,而不考虑传播项的具体情况,IC模型假定对所有传播项目的影响概率都是相同的;而TI-IC模型在描述信息传播过程中关注目标结点对传播项的兴趣,不同的传播项目对目标结点会有不同的兴趣,从而产生不同的影响概率。
TIC和TI-IC和最主要的区别在于,TIC模型中只考虑了传播项的主题分布并没有考虑到用户的兴趣分布,因此不同的朋友对目标用户会产生不同的影响;而TI-IC模型只关注目标用户对传播项的兴趣,而与目标用户的朋友影响无关。当目标用户看到他的任何朋友接受传播项时,目标用户都会以一定的概率被影响。
附图说明
图1为本发明流程图;
图2为本发明实施例Digg上不同模型下的准确率示意图,TI-IC为主题-兴趣的传播模型,TIC为主题感知的独立级联模型,IC为独立级联模型,CMPP为使用混合泊松过程建模社交影响、外部影响和内部影响的模型,TI-IC-UN为在模拟传播之前,对新传播项的特征向量直接取均匀分布,得到的TI-IC模型的一个变体,NIC为固定传播概率的IC模型,Actination Threshold为激活阈值,Accuracy为准确率;
图3为本发明实施例Last.fm上不同模型下的准确率示意图;
图4为本发明实施例Digg上不同模型下的F1-score示意图,F1-score为F1分数;
图5为本发明实施例Last.fm上不同模型下的F1-score示意图;
图6为本发明实施例Digg上不同模型下的ROC曲线示意图,False Positive Rate为假阳率,True Positive Rate为真阳率,AUC为曲线下面积;
图7为本发明实施例Last.fm上不同模型下的ROC曲线示意图;
图8为本发明实施例在Digg数据集上ROC面积和主题个数示意图,Number ofTopics为主题个数;
图9为本发明实施例在Last.fm数据集上ROC面积和主题个数示意图;
图10为本发明实施例在Digg数据集上影响范围和种集大小示意图,Number ofSeeds为种集个数,Influence Spread为传播影响,CELF-Gre算法为使用带有CELF优化的贪心算法选择k个结点作为种集,ACG-TIIM-UN算法为ACG-TIIM算法的一个变体,不学习新传播项的主题分布,直接取均匀分布,ACG-TIIM算法为本发明提出的基于主题兴趣的影响传播最大化算法,LDegree算法为简单选择具有最大度的k个结点作为种集;
图11为本发明实施例在Last.fm数据集上影响范围和种集大小示意图;
图12为本发明实施例在Digg数据集上运行时间和种集大小示意图,RunningTime/s为运行时间;
图13为本发明实施例在Last.fm数据集上运行时间和种集大小示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式的社会网中基于主题兴趣的影响最大化方法具体过程为:
步骤一、建立基于主题兴趣的传播模型TI-IC;
本发明介绍基于主题兴趣的传播模型TI-IC。TI-IC模型是IC模型的扩展,假设每个传播项存在一个主题分布,并且每个用户存在一个兴趣分布。本发明介绍基于主题兴趣的传播模型TI-IC。TI-IC模型是IC模型的扩展,用来将主题混合在每个传播项和用户中。例如,一个电影可能会包含如下基本的主题:喜剧,爱情,动作等,一个用户也会存在一个兴趣分布,如对喜剧的喜爱程度是0.6,对爱情剧的喜爱程度是0.1,对动作片的喜爱程度是0.3。
给定一个社会网有向图G=(V,E),一组用户的历史动作日志D(u,i,t),对于每个主题z∈[1,Z],每个传播项i都有一个主题分量每个用户结点u都有一个兴趣分量因此每个传播项i存在主题分布向量每个用户结点u存在不同主题上的兴趣分布向量
V为用户集合,E为关系集合(qq好友);Z为主题总个数,取值为正整数;I为传播项总个数,取值为正整数;
D中u属于G中的用户集合V;
TI-IC模型的工作原理与IC模型的工作原理类似:
每个结点仅有一次机会由不活跃状态变为活跃状态,并且该过程不可逆;
S表示种集,即初始的活跃用户集合,
在t=0时刻,S中的结点在传播项i上活跃;
在t≥1时刻,如果用户结点u的任何邻居结点w在时刻t-1变为活跃状态,则w都有一次机会去激活邻居用户结点u,激活的概率为
当用户结点u的N个邻居结点同时活跃的条件下,用户结点u被激活的总概率如下所示:
(基于主题兴趣的传播模型TI-IC)
其中,表示在传播项i的传播过程中,在用户结点u之前已经活跃的邻居结点集合,即
Δ为时延阈值;即在此时间段之内的传播为有效的,如果影响时间间隔超过了此阈值,则此次传播无效。
当用户结点用户结点u的邻居结点w在传播项i上一定活跃;
每个被激活的结点仅有一次机会去激活它的不活跃邻居结点,该传播过程持续到没有被激活的结点为止;N取值为正整数;ti(w)为结点w在传播项i上活跃的时刻,ti(u)为用户结点u在传播项i上活跃的时刻;ti(u)=∞,代表每个用户结点u不会接受传播项i;
表示传播项i在传播过程中,一定不会影响u的邻居集合;
当点用户结点u的任何邻居结点w在传播项i上一定活跃,用户结点u在传播项i上活跃或不活跃;(可能活跃,也可能不活跃);
注意:IC和TI-IC和最主要的区别在于:IC模型中只考虑了活跃结点对相邻目标结点的影响概率,而不考虑传播项的具体情况,IC模型假定对所有传播项目的影响概率都是相同的;而TI-IC模型在描述信息传播过程中关注目标结点对传播项的兴趣,不同的传播项目对目标结点会有不同的兴趣,从而产生不同的影响概率。
TIC和TI-IC和最主要的区别在于,TIC模型中只考虑了传播项的主题分布并没有考虑到用户的兴趣分布,因此不同的朋友对目标用户会产生不同的影响;而TI-IC模型只关注目标用户对传播项的兴趣,而与目标用户的朋友影响无关。当目标用户看到他的任何朋友接受传播项时,目标用户都会以一定的概率被影响。
所述TI-IC为主题-兴趣的传播模型;
步骤二、利用EM算法学习TI-IC模型的参数和新传播项的主题分布向量;
基于主题兴趣的传播模型的学习算法
使用EM学习算法求解基于主题兴趣的传播模型TI-IC的参数;
EM学习算法的输入是:社会网有向图G=(V,E),用户历史动作日志D(u,i,t);
假设TI-IC模型的每个传播项的传播轨迹都是独立的,则给定TI-IC传播模型参数Θ的对数似然函数,表示为:
其中,L(Θ;Di)表示传播项i的传播轨迹的似然函数;
传播项i的传播轨迹Di在第z个主题分量上的似然函数定义为:
其中,表示传播项i的传播过程中,主题z使结点u被激活的概率,
表示传播项i的传播过程中,主题z没有影响结点u的概率:
φ为空集;
EM算法为最大期望算法;
本发明中,参照标准EM算法的符号表示,表示参数Θ的当前估计。
传播项i在传播过程中,主题z上结点w激活结点u的概率如下定义:
EM算法的Q函数定义如下:
其中,πz为传播项i在主题z上的先验概率;表示参数Θ的当前估计,的当前估计值,的当前估计值;
的具体推导过程如下:
利用EM算法学习TI-IC模型的参数,得到EM学习算法的输出,即TI-IC传播模型参数Θ,Θ包括
新传播项的学习算法
从历史数据中学习TI‐IC模型参数之后,在实际应用之前还需要获得传播项的主题分布向量。如果传播项是一个已经存在的传播项,TI‐IC模型学习算法的输出同时包含了传播项的主题分布向量。然而,实际应用中的任务通常是促销新产品。如何针对新产品选择合适的主题分布向量是一个关键问题。下面给出3种新产品的主题分布向量构造方法。
新产品的主题分布向量取自一个均分分布向量。这种方法显然没有考虑不同产品的特征,通常不能达到最佳的促销效果。
由领域专家为新产品选择合适的主题分布向量。这种方法增加了人工的工作量,而且TI‐IC模型中每个维度的具体含义,很难给出准确的定义,使得领域专家很难做出合适的选择。
利用少量的新产品的销售数据学习新产品的主题分布向量。假设有少量用户{u1,u2,...,un}购买了新产品i,这些用户的兴趣分布向量已经在学习TI-IC模型参数之后获得。直觉上这些用户应该对产品i感兴趣,这些用户的兴趣向量的对应分量应与产品i的主题分布向量的对应分量比较接近。
当新的传播项i出现时,求解新传播项i的主题分布向量
当新的传播项i出现时,采用以下方法求解新传播项i的主题分布向量使得下面的目标最小化;
对上面的优化目标,使用梯度下降算法求解;的具体求解过程为:
步骤S1)采用均值为0,方差为0.01的正态分布初始化
步骤S2)
步骤S3)重复执行步骤S2),直到收敛;
步骤S4)输出
其中λ是学习步长;
具体求解过程如算法2所示,
算法2:学习新传播项的算法
输入:接受新传播项i的部分用户兴趣分布向量主题个数Z;
输出:新传播项i的主题分布向量
1)init
2)Repeat
3)
4)until convergence
步骤三、基于步骤二提出针对TI-IC模型的影响最大化算法;
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤二中利用EM算法学习TI-IC模型的参数,得到EM学习算法的输出,即TI-IC模型的参数Θ,Θ包括具体过程为:
步骤a)采用均值为0,方差为0.01的正态分布初始化πz;z∈[1,Z],u∈V;
πz表示所有传播项i在主题z上的先验概率;
步骤b)对所有传播项i和主题z,计算(EM算法E步);
步骤c)对所有主题z,计算(EM算法M步)
步骤d)对所有主题z和用户u,计算(EM算法M步);
步骤e)重复执行步骤b)至步骤d),直到收敛;
步骤f)输出
即得到EM学习算法的输出Θ,Θ包括
学习TI-IC模型参数的EM算法的伪代码如算法1所示。开始随机地初始化参数和πz,需保证和∑zπz=1,算法不断执行E步和M步直到收敛为止。
算法1:学习兴趣主题模型TI-IC参数的EM算法
输入:社会网G(V,E),传播轨迹D,主题个数Z
输出:TI-IC参数
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤二中当新的传播项i出现时,求解新传播项i的主题分布向量具体过程为:
当新的传播项i出现时,采用以下方法求解新传播项i的主题分布向量使得下面的目标最小化;
对上面的优化目标,使用梯度下降算法求解;的具体求解过程为:
步骤S1)采用均值为0,方差为0.01的正态分布初始化
步骤S2)
步骤S3)重复执行步骤S2),直到收敛;
步骤S4)输出
其中λ是学习步长;
具体求解过程如算法2所示,算法2:学习新传播项的算法
输入:接受新传播项i的部分用户兴趣分布向量主题个数Z;
输出:新传播项i的主题分布向量
1)init
2)Repeat
3)
4)until convergence
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述步骤三中基于步骤二提出针对TI-IC模型的影响最大化算法;具体过程为:
基于主题兴趣的影响最大化算法:本发明首先提出了基于主题兴趣的影响传播最大化问题,然后提出了求解该问题的一个新的启发式算法。
问题定义:本发明在基于主题兴趣的传播模型TI-IC基础上,提出了基于主题兴趣的影响最大化问题(Topic‐Interest Influence Maximization)TIIM,并给出了该问题的形式化定义。
基于主题兴趣的影响最大化问题TIIM:给定有向图G(V,E),用户的历史动作日志D(User,Item,Time),种集大小k,传播项i,基于主题的影响最大化问题是寻找大小为k的种集S,使得传播项i的影响范围最大;基于主题兴趣的影响最大化问题TIIM形式化地表示为:
由于TI-IC模型中,仅有边上的传播概率考虑主题和兴趣,而传播的机制是没有变化的。所以对于TI-IC模型而言,影响范围函数δi(S)的单调性和子模性直接由IC模型继承而来。
步骤a1)输入社会网有向图G=(V,E)、某个传播项i的主题分布向量θi、种集大小K,主题个数Z和模拟次数R;
所述θi为步骤f)输出的或步骤S4)输出的
步骤a2)初始化种集C为候选种子集合;
步骤a3)对所有(w,u)∈E,计算
为在传播项i上结点w对用户结点u的影响概率;
步骤a4)对所有w∈V,从每个结点w出发,进行深度优先搜索,寻找概率大于阈值ε的所有路径,构造一棵以w为根的可达路径树T(w),近似地估计结点w的影响范围δw=∑u∈T(w)(1-Πpath∈PATH(w,u)(1-p(path)));
其中PATH(w,u)为从w到u的所有路径集合,path为PATH(w,u)集合中的一条路径;p(path)为沿着路径路径path中w对u的影响概率;
步骤a5)根据δw对所有w从大到小排序;
步骤a6)取前3K个w放入候选种子集合C;
步骤a7)对C中每一个w、δw和w当前迭代次数0放入优先级队列Q;
步骤a8)判断种集个数,当种集个数小于K时,执行步骤a9);当种集个数等于K时,输出种集S;
步骤a9)取Q的队列头,队列头为优先级队列Q中的第一个元素,形式为w,w的影响增益,w的当前模拟次数;本发明涉及所有w是结点的ID;
一个元素包括w、w的影响增益和w的当前模拟次数;
如果w的模拟次数小于S的大小,则计算w的影响增益w.mg=δi(S∪{w})-δi(S),把w、w的影响增益w.mg、w的当前迭代次数放入优先级队列Q;
其中δi(S)为在传播项i上S的影响范围,使用R次蒙特卡洛模拟计算得到;δi(S∪{w})为在传播项i上S和u的影响范围,使用R次蒙特卡洛模拟计算得到;δi为在传播项i上的影响范围;
如果w的模拟次数等于S的大小,把w放入种集S,执行步骤a 8)。
算法3.求解TIIM问题的启发式算法ACG-TIIM.
输入:图G(V,E),用户兴趣向量矩阵i的主题分布种集大小k,主题个数Z,模拟次数R;
输出:种集S
其它步骤及参数与具体实施方式一至三之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本实施例社会网中基于主题兴趣的影响最大化方法过程为:
1实验数据
使用2个真实数据集进行实验,2个数据集都包含社会网有向图G(V,E)和一组动作日志D(u,i,t),数据集分别是Digg[6]([6]Barbieri N,Bonchi F,Manco G.Topic-awaresocial influence propagation models[C]//Proc of the 12th Int Conf on DataMining.Piscataway,NJ:IEEE,2012:81-90)和Last.fm[6]([6]Barbieri N,Bonchi F,MancoG.Topic-aware social influence propagation models[C]//Proc of the 12th IntConf on Data Mining.Piscataway,NJ:IEEE,2012:81-90);
其中,Digg是一个社交新闻网站,用户在网站上对文章进行投票评论,D中包含的元组(u,i,t)代表用户u在时刻t投票给了故事i,如果用户u投票给故事i,u的朋友v在之后不久也投票给了故事i,采用与[6]相同的处理方式,认为这个投票的动作从u传播到了v,Last.fm是世界最大的社交音乐平台,用户可以在这个网站中搜索,收听以及评论自己的喜欢的音乐,D中包含的元组(u,i,t)代表用户u在时刻t评论了歌手i。
从Digg数据集中提取了15000个结点和395513条边以及相应的动作日志,从Last.fm数据集中提取了5100个结点和23453条边以及相应的动作日志,在2个数据集的动作日志上各选择了1000个传播项,并且每个传播项的传播范围都超过50,在2个数据集中,都不考虑孤立结点,即在动作日志D中有动作记录,但是在图G中却没有朋友的结点。
实验中所有算法均用C++编写,在Microsoft Visual Studio 2005环境下编译,所有实验都在Intel Core i7 6700 3.4GHz-主频CPU,8GB主存的台式机上运行。
2对比模型和对比指标
本发明模型主要与下面几个模型进行对比:
1)独立级联模型(IC模型):传统的独立级联模型工作原理如下:
网络中结点共有2个状态,活跃结点与不活跃结点,每个活跃结点有且仅有一次机会去激活未活跃的结点,并且该过程不可逆,传播的停止条件是当前时刻没有再被激活的结点,该模型的参数为结点间的影响传播概率,由EM算法学习而来。
2)基于主题的独立级联模型(TIC模型[6]):TIC模型工作原理与IC模型一致,与IC模型不同的是,活跃结点激活不活跃结点的概率为基于主题的影响传播概率,该模型的参数为结点间基于主题的影响传播概率,由EM算法学习而来。
3)固定传播概率的IC模型(NIC):固定边上影响概率为0.02(多次实验测试最佳的影响概率值),工作原理与IC模型一致。
3个模型共同需要设置的参数是延迟阈值Δ,通常的做法是设置Δ在3~5之间,但是通过实验发现Δ的变化对3个模型的影响不大,为了减少模型的计算量,在实验中都把Δ的值设置为无穷大。
4)使用混合泊松过程建模社交影响、外部影响和内部影响的CMPP模型[7]([7]RongYu,Cheng Hong,Mo Zhiyu,et al.Why it happened:Identifying and modeling thereasons of the happening of social events[C]//Proc of the 21st ACM SIGKDD IntConf on Knowledge Discovery and Data Mining.New York:ACM,2015:1015-1024):取社交影响权重为0.3,内部影响权重为0.7,不考虑外部影响;这种配置是CMPP模型在本实验数据上的最好效果。
5)本发明的基于兴趣主题的传播模型TI-IC-UN:在模拟传播之前,对新传播项的特征向量直接取均匀分布。
6)本发明的基于兴趣主题的传播模型TI-IC:在模拟传播之前,对新传播项的特征向量使用梯度下降算法(算法2)进行学习。
对于新的传播项i,通过以下限制条件选取感染源集合:首先找到传播项i的所有活跃结点,然后依次检查这些活跃结点,如果活跃结点v的任何邻点在传播项i上都没有在v之前活跃,就把活跃结点v加入到感染源集合中。
对于TIC模型和TI-IC模型,如果没有明确说明,设置传播项主题分布个数Z=10,TIC模型也使用算法2学习了新传播项的主题分布向量。
将所有传播项按照8:2的比例,分成训练集和测试集,保证一个传播项的传播轨迹或者全在训练集或者全在测试集,显然测试集中的每个传播项都是新传播项,首先在训练集上学习模型中的参数,然后根据学习得到的模型预测测试集中每个新传播项的传播结果;具体预测过程如下:对每个传播项i,首先确定它的感染源集合(如果结点v接受了传播项i,但是v的任何邻居没有在v之前接受传播项i,则结点v是感染源),然后让感染源中的结点为初始活跃结点,使用2000次蒙特卡洛模拟模拟传播项i的传播过程,计算每个结点被激活的概率,最后根据预测的概率值计算如下指标。
均方误差(Mean Squared Error,MSE):计算每个结点预测的概率值与真实值(被激活是1,没被激活是0)差的平方,然后求平均值。
准确率(Accuracy):给定一个激活阈值τ,如果预测的概率值大于等于τ,则预测该结点活跃,否则预测该结点不活跃.对每个传播项i,计算预测正确的结点数占所有结点数的百分比。
真正例(True Positive,TP):预测为活跃实际为活跃的结点数;
假正例(False Positive,FP):预测为活跃实际为不活跃的结点数;
真负例(True Negative,TN):预测为不活跃实际为不活跃的结点数;
假负例(False Negative,FN):预测为不活跃实际为活跃的结点数.
精确率(Precision,P):
召回率(Recall,R):
F1分数(F1-score):
ROC曲线下面积(AUC):按照预测的概率值对所有结点排序,计算ROC曲线下面积.
注意:对每个传播项,都按照上述公式先计算均方误差、准确率、F1-score、AUC,然后在所有传播项上求均值.
3不同模型上的对比结果
3.1在MSE上的对比
表1和表2分别给出了不同模型的在2个数据集合上的均方误差MSE,可以看出,NIC模型的误差最大,因为NIC模型使用了固定的影响概率,使得预测效果较差;CMPP模型明显优于NIC模型,但是比IC模型和TIC模型要差;在Digg数据集上,IC模型明显优于TIC模型,而在Last.fm数据集上,IC模型与TIC模型差别不大;TI-IC-UN模型由于没有学习新传播项的主题分布向量,使得MSE误差要大于IC模型;但是当学习了新传播项的分布向量后得到的TI-IC模型要明显优于IC模型和TIC模型;这说明不同的传播项有不同的特征,在传播之前学习其特征是必要的;
表1 Digg上不同模型的均方误差
表2 Last.fm上不同模型的均方误差
3.2在准确率和F1分数上的对比
图2和图3分别给出了不同模型在数据集Digg和Last.fm上在不同激活阈值τ下的准确率,由图2和图3可知,在准确率性能的度量上当把激活阈值设置为大于0.1时,新提出的模型TI-IC都明显高于其他模型;其中NIC性能最差,IC模型和TIC模型次于TI-IC模型,但是明显高于其他模型,TI-IC-UN模型由于没有考虑新传播项的主题分布,与IC模型和TIC模型相比,在准确率方面仍然处于劣势。
图4和图5分别给出了不同模型在数据集Digg和Last.fm上在不同激活阈值τ下的F1-score;从图4和图5可以看出,TI-IC模型的F1-score始终高于其他模型;TI-IC-UN模型由于没有考虑新传播项的主题分布,在F1-score上也不具有优势;
综上所述,新提出的模型TI-IC在准确率和F1-score上均好于现有的IC模型和TIC模型,并且TI-IC,IC,TIC模型的预测效果明显好于CMPP模型和固定影响概率的NIC模型。
3.3在ROC曲线上的对比
对比了不同模型的ROC曲线,如图6和图7所示,在数据集Digg上TI-IC模型与IC模型、TIC模型在ROC曲线上有多处重叠,但是TI-IC模型在ROC曲线下面积仍然大于IC模型和TIC模型.在数据集Last.fm上,TI-IC模型的优势更明显,在2个数据集上,TI-IC-UN模型的ROC曲线下面积仍然低于IC模型和TIC模型,再次说明学习新传播项自身特征的重要性;
综合3.1,3.2,3.3节中的实验结果和分析,可以得出如下结论:TI-IC模型相比于其他现有模型能更有效地模拟传播过程,更准确地预测传播结果。
4不同主题个数对结果的影响
验证不同主题个数对实验结果的影响;图8和图9分别给出了数据集Digg和Last.fm上TI-IC模型和TIC模型在不同主题数下的ROC面积;其他模型没有主题个数选项,从实验图中可以看出:当主题个数是10时,基本达到了理想的实验结果,当主题个数大于10时,实验效果没有明显改善,考虑到学习效率,设置主题个数为10。
5影响最大化算法对比
本发明提出的启发式算法ACG-TIIM,主要与如下影响最大化算法进行比较:
1)LDegree算法:在这个算法中,简单选择具有最大度的k个结点作为种集,再使用蒙特卡洛模拟估计影响范围;
2)CELF-Gre算法:使用带有CELF优化[19]的贪心算法选择k个结点作为种集,该算法在影响最大化问题中被广泛应用;([19]Leskovec J,Krause A,Guestrin C,etal.Cost-effective outbreak detection in networks[C]//Proc of the 13th ACMSIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2007:420-429
3)ACG-TIIM-UN算法:本发明提出的启发式算法ACG-TIIM,但是不学习新传播项的主题分布,直接取均匀分布;
本实验中,涉及蒙特卡洛模拟估计影响范围的时候都将模拟次数R值设为2000,CELF-Gre算法和ACG-TIIM算法在应用到TI-IC模型之前,都用EM算法获取用户的兴趣分布,以及新传播项的主题分布,然后转换成边上的影响概率,新传播项取自测试集合,并对所有传播项的结果计算均值,CELF-Gre算法和ACG-TIIM算法在应用到IC模型之前,都用文献[20]中算法直接获取边上的影响概率,CELF-Gre算法和ACG-TIIM算法在应用到TIC模型之前,都用文献[6]中算法获取边上分主题的影响概率,再用本文算法学习新传播项的主题分布,转换成边上的影响概率,在实验中,将算法中的主题数目Z统一设置为10,选择候选集合时设置λ=3;
[20]Saito K,Nakano R,Kimura M,et al.Prediction of informationdiffusion probabilities for independent cascade model[C]//Proc of Int Conf onKnowledge-based Intelligent Information &Engineering Systems.Amsterdam:IOSPress,2008:67-75
5.1种集大小与影响范围的关系
实验主要验证种影响范围与种集大小的关系.首先在TI-IC模型下,运行上述对比算法选择不同大小的种集,在数据集Digg和Last.fm上的影响范围如实验图10和图11所示。
从图10图11可得出如下结论:LDegree算法的运行效果最差,是由于该算法只考虑社会网中的拓扑结构,选择了全局具有最大度的结点,既没有考虑用户之间的影响,更也没有考虑用户对传播项的兴趣,ACG-TIIM-UN算法得到的影响范围远远好于LDegree算法,是由于该算法在真实的数据上学习了用户的兴趣,转换成了影响概率,使得影响范围计算更准确.然而,ACG-TIIM-UN算法获得的影响范围仍旧小于CELF-Gre算法和ACG-TIIM算法,这是因为CELF-Gre算法和ACG-TIIM算法除了学习用户的兴趣分布,还学习了新传播项的主题分布,从而使得影响范围更广;而且,进一步检查了算法ACG-TIIM-UN和算法ACG-TIIM返回的种集,在所有传播项上,算法ACG-TIIM-UN返回的种集几乎都一样;但是算法ACG-TIIM在不同的传播项上返回的种子集合差异很大,这再次说明在促销新产品时,应该针对特定的产品选择特定的用户,CELF-Gre算法和ACG-TIIM算法得到几乎相同的影响范围;进一步检查了这2个算法返回的种集,发现在不同的种集大小条件下,这2个算法返回的种集几乎全完一样,这是因为这2个算法在计算种集之前,学习了相同的参数(包括用户兴趣分布和新传播项的主题分布),但是ACG-TIIM算法只考察了部分候选结点,而CELF-Gre算法需要考察全部候选结点,这使得这2个算法的运行效率会差别很大,具体差别见5.2的实验;
在IC模型和TIC模型下,也运行了上述对比算法,在IC模型下,ACG-TIIM算法和CELF-Gre算法的影响范围几乎完全一样,在TIC模型下,ACG-TIIM-UN的影响范围稍微低于ACG-TIIM算法和CELF-Gre算法,ACG-TIIM算法和CELF-Gre算法的影响范围几乎完全一样;
5.2种集大小与运行时间的关系
对影响最大化算法的运行时间进行比较:在TI-IC模型上,运行上述对比算法选择不同大小的种集,在数据集Digg和Last.fm上的运行时间如实验图12和图13所示;
从实验图中可得出如下结论:LDegree算法的运行时间是最短的,由于该算法只是从整个网络中选择具有最大度的k个结点作为种集,ACG-TIIM算法和ACG-TIIM-UN算法的运行效率较为接近,ACG-TIIM算法在选择种集之前需要学习新传播项的主题分布,所以ACG-TIIM算法比ACG-TIIM-UN算法稍慢,但是ACG-TIIM算法比CELF-Gre算法快2个数量级,这是因为ACG-TIIM算法在选择种集之前,先生成候选结点,仅对候选结点进行蒙特卡洛模拟估计影响范围,候选结点数要远远小于所有结点数,所以ACG-TIIM算法效率比CELF-Gre算法高很多;
在IC模型和TIC模型下,也运行了上述对比算法,ACG-TIIM算法效率远远优于CELF-Gre算法。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (4)

1.社会网中基于主题兴趣的影响最大化方法,其特征在于:所述方法具体过程为:
步骤一、建立基于主题兴趣的传播模型TI-IC;
给定一个社会网有向图G=(V,E),一组用户的历史动作日志D(u,i,t),对于每个主题z∈[1,Z],每个传播项i都有一个主题分量每个用户结点u都有一个兴趣分量因此每个传播项i存在主题分布向量每个用户结点u存在不同主题上的兴趣分布向量i∈[1,I];
其中V为用户集合,E为关系集合;Z为主题总个数,取值为正整数;I为传播项总个数,取值为正整数;
D中u属于G中的用户集合V;
每个结点仅有一次机会由不活跃状态变为活跃状态,并且该过程不可逆;
S表示种集,即初始的活跃用户集合,
在t=0时刻,S中的结点在传播项i上活跃;
在t≥1时刻,如果用户结点u的任何邻居结点w在时刻t-1变为活跃状态,则w都有一次机会去激活邻居用户结点u,激活的概率为
当用户结点u的邻居结点活跃的条件下,用户结点u被激活的概率如下所示:
其中,表示在传播项i的传播过程中,在用户结点u之前已经活跃的邻居结点集合,即
Δ为时延阈值;N取值为正整数;ti(w)为结点w在传播项i上活跃的时刻,ti(u)为用户结点u在传播项i上活跃的时刻;ti(u)=∞,代表每个用户结点u不会接受传播项i;
表示传播项i在传播过程中,一定不会影响u的邻居集合;
当点用户结点u的任何邻居结点w在传播项i上一定活跃,用户结点u在传播项i上活跃或不活跃;
所述TI-IC为主题-兴趣的传播模型;
步骤二、利用EM算法学习TI-IC模型的参数和新传播项的主题分布向量;
EM算法的输入是:社会网有向图G=(V,E),用户历史动作日志D(u,i,t);
假设TI-IC模型的每个传播项的传播轨迹都是独立的,则给定TI-IC传播模型参数Θ的对数似然函数,表示为:
其中,L(Θ;Di)表示传播项i的传播轨迹的似然函数;
传播项i的传播轨迹Di在第z个主题分量上的似然函数定义为:
其中,表示传播项i的传播过程中,主题z使结点u被激活的概率,
表示传播项i的传播过程中,主题z没有影响结点u的概率:
φ为空集;
利用EM算法学习TI-IC模型的参数,得到EM学习算法的输出,即TI-IC传播模型参数Θ,Θ包括
当新的传播项i出现时,求解新传播项i的主题分布向量
步骤三、基于步骤二提出针对TI-IC模型的影响最大化算法。
2.根据权利要求1所述社会网中基于主题兴趣的影响最大化方法,其特征在于:所述步骤二中利用EM算法学习TI-IC模型的参数,得到EM学习算法的输出,即TI-IC模型的参数Θ,Θ包括具体过程为:
步骤a)采用均值为0,方差为0.01的正态分布初始化z∈[1,Z],u∈V;
πz表示所有传播项i在主题z上的先验概率;
步骤b)对所有传播项i和主题z,计算
步骤c)对所有主题z,计算z∈[1,Z];
步骤d)对所有主题z和用户u,计算z∈[1,Z],u∈V;
步骤e)重复执行步骤b)至步骤d),直到收敛;
步骤f)输出
3.根据权利要求2所述社会网中基于主题兴趣的影响最大化方法,其特征在于:所述步骤二中当新的传播项i出现时,求解新传播项i的主题分布向量具体过程为:
步骤S1)采用均值为0,方差为0.01的正态分布初始化z∈[1,Z],i∈[1,I];
步骤S2)
步骤S3)重复执行步骤S2),直到收敛;
步骤S4)输出
其中λ是学习步长。
4.根据权利要求3所述社会网中基于主题兴趣的影响最大化方法,其特征在于:所述步骤三中基于步骤二提出针对TI‐IC模型的影响最大化算法;具体过程为:
步骤a1)输入社会网有向图某个传播项i的主题分布向量θi、种集大小K,主题个数Z和模拟次数R;
所述θi为步骤f)输出的或步骤S4)输出的
步骤a2)初始化种集C为候选种子集合;
步骤a3)对所有(w,u)∈E,计算
为在传播项i上结点w对用户结点u的影响概率;
步骤a4)对所有w∈V,从每个结点w出发,寻找概率大于阈值ε的所有路径,构造一棵以w为根的可达路径树T(w),估计结点w的影响范围δw=∑u∈T(w)(1-Πpath∈PATH(w,u)(1-p(path)));
其中PATH(w,u)为从w到u的所有路径集合,path为PATH(w,u)集合中的一条路径;p(path)为沿着路径路径path中w对u的影响概率;
步骤a5)根据δw对所有w从大到小排序;
步骤a6)取前3K个w放入候选种子集合C;
步骤a7)对C中每一个w、δw和w当前迭代次数0放入优先级队列Q;
步骤a8)判断种集个数,当种集个数小于K时,执行步骤a9);当种集个数等于K时,输出种集S;
步骤a9)取Q的队列头,队列头为优先级队列Q中的第一个元素,一个元素形式为w、w的影响增益、w的当前模拟次数;
如果w的模拟次数小于S的大小,则计算w的影响增益w.mg=δi(S∪{w})-δi(S),把w、w的影响增益w.mg、w的当前迭代次数放入优先级队列Q;
其中δi(S)为在传播项i上S的影响范围,使用R次蒙特卡洛模拟计算得到;δi(S∪{w})为在传播项i上S和u的影响范围,使用R次蒙特卡洛模拟计算得到;δi为在传播项i上的影响范围;
如果w的模拟次数等于S的大小,把w放入种集S,执行步骤a 8)。
CN201810150517.7A 2018-02-13 2018-02-13 社会网中基于主题兴趣的影响最大化方法 Active CN108197332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810150517.7A CN108197332B (zh) 2018-02-13 2018-02-13 社会网中基于主题兴趣的影响最大化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810150517.7A CN108197332B (zh) 2018-02-13 2018-02-13 社会网中基于主题兴趣的影响最大化方法

Publications (2)

Publication Number Publication Date
CN108197332A true CN108197332A (zh) 2018-06-22
CN108197332B CN108197332B (zh) 2021-09-28

Family

ID=62593470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810150517.7A Active CN108197332B (zh) 2018-02-13 2018-02-13 社会网中基于主题兴趣的影响最大化方法

Country Status (1)

Country Link
CN (1) CN108197332B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127232A (zh) * 2018-10-31 2020-05-08 百度在线网络技术(北京)有限公司 兴趣圈发现方法、装置、服务器和介质
CN113158082A (zh) * 2021-05-13 2021-07-23 聂佼颖 一种基于人工智能的媒体内容真实度分析方法
CN113706109A (zh) * 2021-08-27 2021-11-26 上海哔哩哔哩科技有限公司 任务处理方法及装置
CN117057943A (zh) * 2023-07-10 2023-11-14 齐齐哈尔大学 一种节点特征感知的时序社交网络影响力最大化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156436A (zh) * 2014-08-13 2014-11-19 福州大学 一种社交云媒体协同过滤推荐方法
CN104616200A (zh) * 2015-02-11 2015-05-13 中南大学 一种基于节点特性的影响力最大化初始节点选取方法
CN105468681A (zh) * 2015-11-16 2016-04-06 中国科学院信息工程研究所 一种基于话题模型的网络负面信息影响最小化方法
CN105913287A (zh) * 2016-05-20 2016-08-31 重庆大学 一种基于社区结构的影响最大化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156436A (zh) * 2014-08-13 2014-11-19 福州大学 一种社交云媒体协同过滤推荐方法
CN104616200A (zh) * 2015-02-11 2015-05-13 中南大学 一种基于节点特性的影响力最大化初始节点选取方法
CN105468681A (zh) * 2015-11-16 2016-04-06 中国科学院信息工程研究所 一种基于话题模型的网络负面信息影响最小化方法
CN105913287A (zh) * 2016-05-20 2016-08-31 重庆大学 一种基于社区结构的影响最大化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢胜男等: "社会网中基于主题的局部影响最大化算法研究", 《计算机科学与探索》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127232A (zh) * 2018-10-31 2020-05-08 百度在线网络技术(北京)有限公司 兴趣圈发现方法、装置、服务器和介质
CN111127232B (zh) * 2018-10-31 2023-08-29 百度在线网络技术(北京)有限公司 兴趣圈发现方法、装置、服务器和介质
CN113158082A (zh) * 2021-05-13 2021-07-23 聂佼颖 一种基于人工智能的媒体内容真实度分析方法
CN113158082B (zh) * 2021-05-13 2023-01-17 和鸿广科技(上海)有限公司 一种基于人工智能的媒体内容真实度分析方法
CN113706109A (zh) * 2021-08-27 2021-11-26 上海哔哩哔哩科技有限公司 任务处理方法及装置
CN113706109B (zh) * 2021-08-27 2024-05-14 上海哔哩哔哩科技有限公司 任务处理方法及装置
CN117057943A (zh) * 2023-07-10 2023-11-14 齐齐哈尔大学 一种节点特征感知的时序社交网络影响力最大化方法及系统
CN117057943B (zh) * 2023-07-10 2024-05-03 齐齐哈尔大学 一种节点特征感知的时序社交网络影响力最大化方法及系统

Also Published As

Publication number Publication date
CN108197332B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
Liu et al. Leveraging local h-index to identify and rank influential spreaders in networks
Zhang et al. Event detection and popularity prediction in microblogging
CN108197332A (zh) 社会网中基于主题兴趣的影响最大化方法
Guille et al. Information diffusion in online social networks: A survey
Gao et al. Network immunization and virus propagation in email networks: experimental evaluation and analysis
Jung et al. Irie: Scalable and robust influence maximization in social networks
Meirom et al. Controlling graph dynamics with reinforcement learning and graph neural networks
Sun et al. A voting approach to uncover multiple influential spreaders on weighted networks
Wan et al. Information propagation model based on hybrid social factors of opportunity, trust and motivation
Zhang et al. Groups make nodes powerful: Identifying influential nodes in social networks based on social conformity theory and community features
Yan et al. Group-level influence maximization with budget constraint
Kazemzadeh et al. Influence maximization in social networks using effective community detection
Kuhlman et al. Finding critical nodes for inhibiting diffusion of complex contagions in social networks
Parau et al. Opinion leader detection
Ullah et al. Identification of influential nodes based on temporal-aware modeling of multi-hop neighbor interactions for influence spread maximization
Chen et al. Predicting user retweeting behavior in social networks with a novel ensemble learning approach
Huang et al. Identifying influential individuals in microblogging networks using graph partitioning
Subbian et al. Supervised rank aggregation for predicting influence in networks
Wu et al. Evolution prediction of multi-scale information diffusion dynamics
Lu et al. Collective human behavior in cascading system: discovery, modeling and applications
Lu et al. Predicting viral news events in online media
Liu et al. Ct lis: Learning influences and susceptibilities through temporal behaviors
Hafiene et al. A new structural and semantic approach for identifying influential nodes in social networks
Xiao et al. Mpurank: A social hotspot tracking scheme based on tripartite graph and multimessages iterative driven
Liu et al. Linear computation for independent social influence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201022

Address after: 212001 7th floor, tower C, Ruitai Industrial Park, 298 Nanxu Avenue, high tech Zone, Zhenjiang City, Jiangsu Province

Applicant after: Jiangsu Paizhi Information Technology Co.,Ltd.

Address before: 150080 Harbin, Heilongjiang, Nangang District Road, No. 74

Applicant before: Heilongjiang University

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Influence maximization method based on topic interest in social network

Effective date of registration: 20211229

Granted publication date: 20210928

Pledgee: Bank of Jiangsu Limited by Share Ltd. Zhenjiang branch

Pledgor: Jiangsu Paizhi Information Technology Co.,Ltd.

Registration number: Y2021980016933

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230614

Granted publication date: 20210928

Pledgee: Bank of Jiangsu Limited by Share Ltd. Zhenjiang branch

Pledgor: Jiangsu Paizhi Information Technology Co.,Ltd.

Registration number: Y2021980016933