CN108304867A - 面向社交网络的信息流行度预测方法及系统 - Google Patents
面向社交网络的信息流行度预测方法及系统 Download PDFInfo
- Publication number
- CN108304867A CN108304867A CN201810069728.8A CN201810069728A CN108304867A CN 108304867 A CN108304867 A CN 108304867A CN 201810069728 A CN201810069728 A CN 201810069728A CN 108304867 A CN108304867 A CN 108304867A
- Authority
- CN
- China
- Prior art keywords
- information
- node
- user
- popularity
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000009977 dual effect Effects 0.000 claims abstract description 15
- 230000007480 spreading Effects 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 7
- 230000003993 interaction Effects 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 12
- 208000015181 infectious disease Diseases 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000011002 quantification Methods 0.000 claims description 3
- 230000006854 communication Effects 0.000 abstract description 8
- 238000005259 measurement Methods 0.000 abstract description 7
- 238000004891 communication Methods 0.000 abstract description 5
- 238000007418 data mining Methods 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 26
- 230000000694 effects Effects 0.000 description 9
- 230000000644 propagated effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000009792 diffusion process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000018199 S phase Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 230000009021 linear effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明请求保护一种面向社交网络的信息流行度预测方法及系统,属于社交网络信息分析领域。本发明主要包括数据获取、属性提取、模型构建、预测分析四个主要步骤。首先,结合社交网络中用户关系和节点行为数据提炼信息传播网络。其次,从个体行为维度和节点交互维度出发,提取影响传播力度量的属性,并给出相关定义。重新构建双重加权社交网络,并基于改进的PageRank算法度量网络中的节点传播力。最后,以信息为中心,提取信息发布者的个体特征和信息发布一小时内的转发特征,利用LR分类器训练得到一种信息流行度预测模型,能够有效预测信息流行程度,及时发现网络群体事件并识别信息传播网络中的重要传播节点。
Description
技术领域
本发明属于社交网络分析领域,主要涉及社交网络中信息传播,具体针对信息流行度进行预测与分析。
背景技术
在当前社交网络及Web 2.0普及的时代,社交网站如Twitter、新浪微博等已成为人们获取信息和发表意见的重要平台。社交网络的信息共享性、实时性、互动性以及传播形式多样性使其在信息传播方面具有强大的影响力,如“马航MH370”、“美国总统选举”等事件在微博上引起全民关注等。鉴于社交网络信息传播对人们生活、社会发展的影响,近年来在线社交网络信息传播分析与预测逐渐得到研究者的重视。
现有研究通常使用流行度来衡量信息在社交网络中的宏观传播效果。信息流行度指在一段时间内操作在社交网络某条信息上的网络行为的数量度量,如视频的观看量、微博的转发量等。目前社交网络信息流行度预测方法主要分为两类。一类是基于传染病的预测方法,该方法利用动力学演化方程组刻画不同类型节点随时间的状态演化关系,侧重于研究传播过程中个体在几个状态之间的重新分配,关注信息的整体传播情况。例如:Yang等人在《隐含网络中信息扩散建模》(Modeling information diffusion in implicitnetworks)中基于SIS模型的基础上提出了线性影响力模型,模型假设信息的传播受各节点影响力限制,建立每个节点的影响函数,此函数用以量化该节点对后续被激活节点的影响力,某时间处于活跃状态节点的影响力之和即为此时刻信息的流行度。另一类是基于分类或回归的预测方法,从影响信息传播的各个影响因素出发,构建并选择特征,从而训练基于分类或回归的预测模型,对信息流行度进行预测。例如:Bakshy等人在《每个人都是一个有影响力的人:量化Twitter中的用户影响力》(Everyone’s an influencer:Quantifyinginfluence on Twitter)中基于回归树模型进行信息流行度预测,发现平均被转发数、最大被转发数等特征与用户博文转发量呈现相关性,从而证明用户影响力能够影响信息的传播。
但是社交网络中个体之间的连接关系并不是随机的,上述研究均忽略了节点之间的关系强弱差异,以及参与信息传播的个体之间的差异,例如具有很多条强关系的节点或者活跃度高的节点都会产生较大的影响力,促进信息的传播。如何从信息传播的角度在社交网络中发现高影响力节点,结合用户交互和网络结构分析社交网络中节点之间的差异性,是快速变化的网络时代信息决策的一个关键问题。因此,以网络节点影响力度量为切入点进行信息流行度预测建模具有一定的研究意义。
本发明所解决的问题:针对社交网络中个体的差异性、用户关系具有强弱性等问题,本发明提出了一种面向社交网络的信息流行度预测方法。该方法结合信息发布者个体特征和早期信息传播特征预测信息最终的流行度,主要改进在于量化信息传播网络中的节点影响力,本发明提到的节点影响力包括节点之间的影响力和节点自身的影响力,利用节点间的交互刻画社交网络中用户关系的强弱,即节点之间的影响力;利用个体行为刻画用户的活跃度,即节点自身的影响力。总的来说,结合不同的节点影响力和网络拓扑结构提出一种节点传播力度量方法,从信息源驱动和早期信息感染群体驱动两个方面,更加准确地进行信息流行度的预测,为解决热点发现滞后、网络舆情监测实时性难以保证等问题提供思路。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种能够有效预测信息流行程度,及时发现网络群体事件并识别信息传播网络中的重要传播节点的面向社交网络的信息流行度预测系统及方法。本发明的技术方案如下:
一种面向社交网络的信息流行度预测系统,包括:获取数据源模块、属性提取模块,所述获取数据源模块利用社交网络中的用户关系和节点行为数据,构建信息传播网络;属性提取模块,基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提取节点间交互次数并定义用户间关注度、受重视度,还包括信息流行度预测模型构建模块及流行度训练预测模块,所述信息流行度预测模型构建模块,用于构建双重加权社交网络,并利用改进的PageRank算法度量双重加权社交网络中的节点传播力,改进的PageRank算法改进体现在:一是将原算法中的阻尼系数更改成1减去节点权重,表示节点不传播消息的概率,二是在原算法中融入节点的所有入边节点间的影响力,以刻画其他用户对该节点的信任和依赖程度,同时针对信息传播主要受信息源驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布n小时内的转发特征,利用逻辑回归分类器训练得到信息流行度预测模型;流行度训练预测模块,用于将训练好的信息流行度预测模型对任意一条信息的流行度进行预测,发现网络中重要的传播节点。
进一步的,所述属性提取模块从个体行为维度出发,提取用户相对活跃度,刻画用户作为网络中的个体在网络群体中的相对权重,定义相对活跃度为其中,Mi为用户提交消息总数,Ti为用户注册时间长度,表示网络中用户发布信息数的对数平均值,N为网络用户总数。
进一步的,所述属性提取模块从节点交互维度出发,利用节点间交互次数定义用户间关注度为受重视度为综合这两个指标量化用户关系强度为其中,nab表示用户a→b的交互次数,同理,nba表示用户b→a的交互次数;Oa为所有用户a发出交互行为的用户集合,反之,Ia为所有用户a收到交互行为的用户集合;为网络中所有交互的对数均值。
进一步的,所述信息流行度预测模型构建模块利用改进的PageRank算法度量双重加权社交网络中的节点传播力具体包括,首先将用户关系强度wij表示为边权重,将用户相对活跃度ai表示为节点权重,重新构建一个双重加权社交网络;然后对PageRank算法进行改进,根据公式:计算得到节点i的传播力TC(i),其中,TC(i)表示节点i的传播力,ai为节点相对活跃度,可以用来表示节点的传播可能性,N为网络节点个数,Ii为所有用户i收到交互行为的用户集合。
进一步的,所述提取信息发布者的个体特征和信息发布n小时内的转发特征,利用LR分类器训练得到信息流行度预测模型具体包括;针对信息源传播驱动,提取信息发布者的个体特征,包括发文用户的节点传播力TC(m)、发文用户的认证状态STA(m);针对信息感染群体驱动,提取早期信息转发特征,包括信息一小时内被转发数一小时内转发用户的传播力之和一小时内转发用户的认证数之和其中Vret表示信息发布一小时内的转发用户集合,上述特征组合成模型输入将训练样本集中信息最终流行度ym∈{1,2,3,4}作为模型输出,训练LR分类器参数,构建信息流行度预测模型。
进一步的,所述流行度训练预测模块对任意一条信息的流行度预测具体包括,对任一条信息m,以信息为中心从现有网络中找出信息发布者vpos∈V和早期信息感染群体提取信息发布者特征和信息发布一小时内的转发特征作为预测模型输入通过训练好的LR分类器预测信息的流行度ym,并根据节点传播力的排序识别重要传播节点。
进一步的,所述n为1。
一种基于所述系统的面向社交网络的信息流行度预测方法,其包括以下步骤:
利用社交网络中的用户关系和节点行为数据,构建信息传播网络;基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提取节点间交互次数并定义用户间关注度、受重视度,还包括信息流行度预测模型构建步骤及流行度训练预测步骤,所述信息流行度预测模型构建步骤,包括:构建双重加权社交网络,并利用改进的PageRank算法度量双重加权社交网络中的节点传播力,改进的PageRank算法改进体现在:一是将原算法中的阻尼系数更改成1减去节点权重,表示节点不传播消息的概率,二是在原算法中融入节点的所有入边节点间的影响力,以刻画其他用户对该节点的信任和依赖程度,同时针对信息传播主要受信息源驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布n小时内的转发特征,利用逻辑回归分类器训练得到信息流行度预测模型;流行度训练预测步骤,包括:将训练好的信息流行度预测模型对任意一条信息的流行度进行预测,发现网络中重要的传播节点。
本发明的优点及有益效果如下:
本发明针对现有研究在对节点影响力分析时仅考虑网络结构,忽略了用户行为,综合考虑用户间的影响力即节点交互维度及用户自身影响力即个体行为维度,提出一种基于改进PageRank的节点传播力度量方法,使节点传播力的度量更加准确,并进一步根据信息源传播驱动和早期信息感染群体驱动,使用分类器预测信息流行度,能够由此预先更加准确地发现热门信息,对网络舆情的预警和控制具有重要意义。
附图说明
图1是本发明提供优选实施例的实施方式流程图;
图2是本发明的预测模型框图;
图3是本发明的算法实施图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
由于信息的流行程度不仅受发布者的影响,还与转发者的影响力紧密相关,因此本发明从信息源驱动和早期信息感染群体驱动两方面出发,提取发布者个体特征和早期信息传播特征,针对网络中个体的差异性及用户关系的强弱性,引入节点间的影响力和节点自身影响力量化差异,构建一种信息流行度预测模型,使其能够有效预测信息流行程度,及时发现网络群体事件并识别信息传播网络中的重要传播节点。
基于以上思路,本发明作出如下定义:
1.定义社交关系网络G=(V,E),其中,V={v1,v2,…,vN}为节点集,节点个数为|V|=N,一个节点代表一个用户,为边集,eij=<vi,vj>表示节点i→j之间的有向边。
2.定义B={(b,vi,t)}为节点行为数据,其中{(b,vi,t)}表示节点vi在t时间的动作b,B是节点集合一段时间内的历史行为。
3.定义个体行为维度和节点交互维度两种度量节点影响力的方式,形式化表示信息传播过程中节点的全局影响力(节点自身影响力)和局部影响力(节点间的影响力)。
问题具体表述为:给定社交关系网络G=(V,E)、节点行为数据B={(b,vi,t)}和信息m,以信息为中心从现有网络中找出信息发布者vpos∈V和早期信息感染群体预测信息的流行度ym,可表示为:
如图1所示为本发明的实施方式流程图,主要包括:数据源获取模块,属性提取模块,构建模型模块,预测分析模块共四大模块。
以下具体说明本发明的详细实施过程。
S1:数据源获取。
社交网络中数据获取方法包括利用网络爬虫获取或者基于API接口抓取数据。在本发明中,首先需以信息为中心,确定信息发布者和信息发布后一段时间的感染群体作为研究对象,抓取社交关系网络及以节点行为数据,并根据节点间历史交互数据构建信息传播网络,节点行为数据包括历史发布、转发、认证等行为以及行为时间,社交关系网络指用户间的关注-被关注关系。
S2:属性提取。
本发明综合信息源传播力和信息感染群体传播力预测信息最终的流行度,关于节点传播力的度量主要从个体行为维度和节点交互维度出发,提取影响传播力度量的属性。其属性可根据数据方面的特征对其进行适当修改,以下通过实例进行具体说明。
S21:个体行为维度属性提取。个体行为包括用户的发布行为、转发行为、注册行为等,本发明采用用户活跃度表示用户在信息传播网络上的个体影响力,主要考虑用户提交消息总数、用户注册时间长度等统计指标对用户活跃度进行量化,以下做详细描述。
S211:用户提交消息总数Mi
用户提交消息总数用于反映用户在社交网络中行为活跃度,包括原创消息Mi p和转发消息Mi r,内容可以是新鲜事、照片、状态、评论等,显然
Mi=Mi p+Mi r
S212:用户注册时间长度Ti
用户注册时间长度定义为研究的信息对象m被发布的时间tm pos与用户注册ID的时间ti reg之差,单位为天,显然
Ti=tm pos-ti reg
S213:用户绝对活跃度ai'
用户绝对活跃度刻画了用户在社交网络中的个体表现,设用户i提交的消息总数为Mi,用户注册时长为Ti,则用户i的绝对活跃度为
S214:用户相对活跃度ai
在一个网络平台下,存在不同类型的用户,有些用户非常活跃,而多数用户保持较低的活跃度,这样用户的活跃度差异很大。本发明引入相对活跃度,刻画用户作为网络中的个体在网络群体中的活跃度相对权重,减小活跃度差异。在此基础上,定义相对活跃度为
其中,表示网络中用户发布信息数的対数平均值,N为网络用户总数。
S22:节点交互维度属性提取。节点交互指社交网络中用户转发另一个用户的消息,或在发布的消息中提及了另一个用户。节点交互的强弱刻画了用户关系的强弱,本发明利用交互次数定义用户间的关注度、受重视度两个指标,综合这两个指标量化用户关系强度,以下做详细描述。
S221:关注度fab
关注是用户的主动行为,关注度指用户a对b的友好程度和关注程度,可以通过用户间的交互次数占关注主体所有交互的比例体现,如用户a发出的所有交互中,用户b所占的比例越高,说明a对b的关注度越高,反之,关注度较低。令nab表示用户a→b的交互次数,Oa为所有用户a发出交互行为的用户集合,则a对b关注度为
S222:受重视度sab
受重视是用户的被动承受,受重视度指用户a受b的重视程度,可以通过用户间的交互次数占受重视客体所有交互的比例体现,如用户a收到的所有交互中,来自于用户b的比例,该值越高表示用户a受b的重视度越高,反之,重视度较低。令nba表示用户b→a的交互次数,Ia为所有用户a收到交互行为的用户集合,则a受b重视度为
S223:用户a→b关系强度wab
关注度fab∈[0,1]和受重视度sab∈[0,1]这两个指标可以有效度量两个用户之间的相互依赖。本发明中采用关注度和受重视度的调和平均值,且引入用户间交互次数占全网络中交互次数的对数分位数作为全局因子克服局部高强度交互效应,定义a→b关系强度为
其中,为网络中所有交互的对数均值。
S3:构建信息流行度预测模型。
本发明基于以下两个步骤构建信息流行度预测模型,模型框图如图2所示。首先,以用户为中心,针对网络中个体的差异性及用户关系的强弱性,引入节点间的影响力和节点自身影响力量化差异,并基于改进的PageRank算法度量网络中的节点传播力。然后,以信息为中心,针对信息传播主要受信息源传播驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布一小时内的转发特征,基于训练样本集对LR分类器进行训练建模,其具体学习算法如图3所示。
S31:节点传播力度量。
由于在真实的社交网络中,用户之间的关系强度不同,用户的活跃度也有所不同,将S2步骤中用户关系强度即节点间的影响力表示为边权重,将S2步骤中用户相对活跃度即节点自身影响力表示为节点权重,重新构建一个双重加权社交网络
G'=(V,WE,A)
其中,V={v1,v2,…,vn}仍为节点集,为加权边集,weij=<vi,vj,wij>表示节点i→j之间的有向边,wij为i→j之间的权值,且0≤wij≤1;A={a1,a2,…,aN}表示每个节点的个体影响力,其中0≤ai≤1。
然后对PageRank算法进行改进,计算网络中各个节点的PR值作为节点传播力,其迭代更新公式为
其中,TC(i)表示节点i的传播力,ai为节点相对活跃度,可以用来表示节点的传播可能性,N为网络节点个数,Ii为所有用户i收到交互行为的用户集合。新算法包含两处改进,一是将原算法中的阻尼系数更改成1减去节点权重,即:1-ai,表示节点不传播消息的概率,其逻辑含义与阻尼系数一致;二是在原算法中融入节点i的所有入边节点间的影响力wji,以刻画其他用户对该节点的信任和依赖程度。
补充说明一点:算法的收敛性在经典的PageRank算法中已得到证明,收敛方式也有很多种,常用的方式是把所有用户迭代前后值中变化值与预先设定的阀值比较判定是否收敛。若小于预先设定的阈值,则算法收敛,结束。否则,算法继续迭代。其数学表达为:
|TCn+1-TCn|<ε
其中,TCn表示改进算法第n次迭代的节点传播力值矩阵,ε是预先设定的阈值。
S32:信息流行度预测模型。
为了验证节点传播力对信息扩散的作用,本发明提出基于LR分类器的信息流行度预测模型。由于信息的流行程度不仅受发布者的影响,还与转发者的影响力紧密相关,因此本发明从信息源驱动和早期信息感染群体驱动两方面出发,提取信息发布者的个体特征和信息发布一小时内的转发特征作为模型特征输入具体特征包括:发文用户的节点传播力TC(m)、发文用户的认证状态STA(m)、信息一小时内被转发数一小时内转发用户的传播力之和一小时内转发用户的认证数之和Vret表示信息发布一小时内的转发用户集合。模型输入具体表示为
将训练样本集中信息最终流行度ym∈{1,2,3,4}作为模型输出,训练分类器参数,构建信息流行度预测模型。
S4:预测分析。根据训练出来的LR分类器和任一条信息m展开的双重加权社交网络G=(V,E,A),以信息为中心从现有网络中找出信息发布者vpos∈V和早期信息感染群体即可得到信息发布者特征和信息发布一小时内的转发特征作为预测模型输入以预测信息的流行度ym的值,并根据节点传播力的排序识别重要传播节点。
本发明针对在线社交网络信息传播各个影响因素,基于改进的PageRank算法,提出了一种新的面向社交网络的信息流行度预测模型。模型考虑了网络中个体的差异性及用户关系的强弱性,引入节点间的影响力和节点自身影响力量化差异,从而综合度量网络中节点的传播力,分析信息源节点和信息感染节点在信息扩散过程中的驱动作用,预测最终的信息流行度并识别信息传播过程中的重要节点。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (8)
1.一种面向社交网络的信息流行度预测系统,包括:获取数据源模块、属性提取模块,所述获取数据源模块利用社交网络中的用户关系和节点行为数据,构建信息传播网络;属性提取模块,基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提取节点间交互次数并定义用户间关注度、受重视度;其特征在于,还包括信息流行度预测模型构建模块及流行度训练预测模块,所述信息流行度预测模型构建模块,将上述提取属性用于构建双重加权社交网络,并利用改进的PageRank算法度量双重加权社交网络中的节点传播力,改进的PageRank算法改进体现在:一是将原算法中的阻尼系数更改成1减去节点权重,表示节点不传播消息的概率,二是在原算法中融入节点的所有入边节点间的影响力,以刻画其他用户对该节点的信任和依赖程度,同时针对信息传播主要受信息源驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布n小时内的转发特征,利用逻辑回归分类器训练得到信息流行度预测模型;流行度训练预测模块,用于将训练好的信息流行度预测模型对任意一条信息的流行度进行预测,发现网络中重要的传播节点。
2.根据权利要求1所述的面向社交网络的信息流行度预测系统,其特征在于,所述属性提取模块从个体行为维度出发,提取用户相对活跃度,刻画用户作为网络中的个体在网络群体中的相对权重,定义相对活跃度为其中,Mi为用户提交消息总数,Ti为用户注册时间长度,表示网络中用户发布信息数的对数平均值,N为网络用户总数。
3.根据权利要求1或2所述的面向社交网络的信息流行度预测系统,其特征在于,所述属性提取模块从节点交互维度出发,利用节点间交互次数定义用户间关注度为受重视度为综合这两个指标量化用户关系强度为其中,nab表示用户a→b的交互次数,同理,nba表示用户b→a的交互次数;Oa为所有用户a发出交互行为的用户集合,反之,Ia为所有用户a收到交互行为的用户集合;为网络中所有交互的对数均值。
4.根据权利要求1或2所述的面向社交网络的信息流行度预测系统,其特征在于,所述信息流行度预测模型构建模块利用改进的PageRank算法度量双重加权社交网络中的节点传播力具体包括,首先将用户关系强度wij表示为边权重,将用户相对活跃度ai表示为节点权重,重新构建一个双重加权社交网络;然后对PageRank算法进行改进,根据公式:计算得到节点i的传播力TC(i),其中,TC(i)表示节点i的传播力,ai为节点相对活跃度,可以用来表示节点的传播可能性,N为网络节点个数,Ii为所有用户i收到交互行为的用户集合。
5.根据权利要求4所述的面向社交网络的信息流行度预测系统,其特征在于,所述提取信息发布者的个体特征和信息发布n小时内的转发特征,利用LR分类器训练得到信息流行度预测模型具体包括;针对信息源传播驱动,提取信息发布者的个体特征,包括发文用户的节点传播力TC(m)、发文用户的认证状态STA(m);针对信息感染群体驱动,提取早期信息转发特征,包括信息一小时内被转发数一小时内转发用户的传播力之和一小时内转发用户的认证数之和其中Vret表示信息发布一小时内的转发用户集合,上述特征组合成模型输入将训练样本集中信息最终流行度ym∈{1,2,3,4}作为模型输出,训练LR分类器参数,构建信息流行度预测模型。
6.根据权利要求5所述的面向社交网络的信息流行度预测系统,其特征在于,所述流行度训练预测模块对任意一条信息的流行度预测具体包括,对任一条信息m,以信息为中心从现有网络中找出信息发布者vpos∈V和早期信息感染群体提取信息发布者特征和信息发布一小时内的转发特征作为预测模型输入通过训练好的LR分类器预测信息的流行度ym,并根据节点传播力的排序识别重要传播节点。
7.根据权利要求1所述的面向社交网络的信息流行度预测系统,其特征在于,所述n为1。
8.一种基于权利要求6所述系统的面向社交网络的信息流行度预测方法,其特征在于,包括以下步骤:
利用社交网络中的用户关系和节点行为数据,构建信息传播网络;基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提取节点间交互次数并定义用户间关注度、受重视度,还包括信息流行度预测模型构建步骤及流行度训练预测步骤,所述信息流行度预测模型构建步骤,包括:构建双重加权社交网络,并利用改进的PageRank算法度量双重加权社交网络中的节点传播力,改进的PageRank算法改进体现在:一是将原算法中的阻尼系数更改成1减去节点权重,表示节点不传播消息的概率,二是在原算法中融入节点的所有入边节点间的影响力,以刻画其他用户对该节点的信任和依赖程度,同时针对信息传播主要受信息源驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布n小时内的转发特征,利用逻辑回归分类器训练得到信息流行度预测模型;流行度训练预测步骤,包括:将训练好的信息流行度预测模型对任意一条信息的流行度进行预测,发现网络中重要的传播节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810069728.8A CN108304867B (zh) | 2018-01-24 | 2018-01-24 | 面向社交网络的信息流行度预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810069728.8A CN108304867B (zh) | 2018-01-24 | 2018-01-24 | 面向社交网络的信息流行度预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304867A true CN108304867A (zh) | 2018-07-20 |
CN108304867B CN108304867B (zh) | 2021-09-10 |
Family
ID=62866152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810069728.8A Active CN108304867B (zh) | 2018-01-24 | 2018-01-24 | 面向社交网络的信息流行度预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304867B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086932A (zh) * | 2018-08-02 | 2018-12-25 | 广东工业大学 | 一种媒体信息流行度的预测方法、系统及装置 |
CN109727152A (zh) * | 2019-01-29 | 2019-05-07 | 重庆理工大学 | 一种基于时变阻尼运动的在线社交网络信息传播构建方法 |
CN109981343A (zh) * | 2019-02-18 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 基于传播加速度的微博传播流行度预测方法及装置 |
CN110059882A (zh) * | 2019-04-19 | 2019-07-26 | 金陵科技学院 | 一种基于移动社交网络的内容流行度预测方法和装置 |
CN110083701A (zh) * | 2019-03-20 | 2019-08-02 | 重庆邮电大学 | 一种基于平均影响力的网络空间群体性事件预警系统 |
CN110851684A (zh) * | 2019-11-12 | 2020-02-28 | 重庆邮电大学 | 一种基于三元关联图的社交话题影响力识别方法及装置 |
CN111241421A (zh) * | 2020-01-14 | 2020-06-05 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN111242658A (zh) * | 2018-11-29 | 2020-06-05 | 北京京东尚科信息技术有限公司 | 信息分享奖励方法、装置及计算机可读存储介质 |
CN111310975A (zh) * | 2020-01-19 | 2020-06-19 | 浙江工业大学 | 一种基于深度模型的多任务消息传播预测方法 |
CN111861122A (zh) * | 2020-06-18 | 2020-10-30 | 北京航空航天大学 | 一种基于传播属性相似性的社交网络信息可信度评估方法 |
CN112418269A (zh) * | 2020-10-23 | 2021-02-26 | 西安电子科技大学 | 社交媒体网络事件传播关键时间预测方法、系统、介质 |
CN112511411A (zh) * | 2020-12-07 | 2021-03-16 | 郁剑 | 一种5g背景下新媒体影像的视觉传播方法 |
CN112929445A (zh) * | 2021-02-20 | 2021-06-08 | 山东英信计算机技术有限公司 | 一种面向推荐系统的链路预测方法、系统及介质 |
CN113537461A (zh) * | 2021-06-30 | 2021-10-22 | 中国人民解放军战略支援部队信息工程大学 | 基于sir值学习的网络关键节点发现方法及系统 |
CN114928548A (zh) * | 2022-04-26 | 2022-08-19 | 苏州大学 | 一种社交网络信息传播规模预测方法及装置 |
CN110990718B (zh) * | 2019-11-27 | 2024-03-01 | 国网能源研究院有限公司 | 一种公司形象提升系统的社会网络模型构建模块 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
CN104182457A (zh) * | 2014-07-14 | 2014-12-03 | 上海交通大学 | 在社交网络中基于泊松过程模型的事件流行度预测方法 |
CN104933622A (zh) * | 2015-03-12 | 2015-09-23 | 中国科学院计算技术研究所 | 一种基于用户和微博主题的微博流行度预测方法及系统 |
CN105260474A (zh) * | 2015-10-29 | 2016-01-20 | 俞定国 | 一种基于信息交互网络的微博用户影响力计算方法 |
CN107292390A (zh) * | 2017-05-24 | 2017-10-24 | 重庆邮电大学 | 一种基于混沌理论的信息传播模型及其传播方法 |
CN107341270A (zh) * | 2017-07-28 | 2017-11-10 | 东北大学 | 面向社交平台的用户情感影响力分析方法 |
CN107609717A (zh) * | 2017-10-12 | 2018-01-19 | 南京航空航天大学 | 社交网络中一种基于Kalman滤波器的帖子转发量预测方法 |
-
2018
- 2018-01-24 CN CN201810069728.8A patent/CN108304867B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
CN104182457A (zh) * | 2014-07-14 | 2014-12-03 | 上海交通大学 | 在社交网络中基于泊松过程模型的事件流行度预测方法 |
CN104933622A (zh) * | 2015-03-12 | 2015-09-23 | 中国科学院计算技术研究所 | 一种基于用户和微博主题的微博流行度预测方法及系统 |
CN105260474A (zh) * | 2015-10-29 | 2016-01-20 | 俞定国 | 一种基于信息交互网络的微博用户影响力计算方法 |
CN107292390A (zh) * | 2017-05-24 | 2017-10-24 | 重庆邮电大学 | 一种基于混沌理论的信息传播模型及其传播方法 |
CN107341270A (zh) * | 2017-07-28 | 2017-11-10 | 东北大学 | 面向社交平台的用户情感影响力分析方法 |
CN107609717A (zh) * | 2017-10-12 | 2018-01-19 | 南京航空航天大学 | 社交网络中一种基于Kalman滤波器的帖子转发量预测方法 |
Non-Patent Citations (2)
Title |
---|
Q.ZHAO: "SEISMIC:ASelf- Exciting Point Process Model for Predicting tweet Popularity", 《INPROCEEDINGS OF THE 21ST ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATAMINING(KDD)》 * |
S.MISHRA: "Feature Driven and Point ProcessApproaches for Popularity Prediction", 《IN PROCEEDINGS OF THE 25TH ACMINTERNATIONAL ON CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT(CIKM)》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086932A (zh) * | 2018-08-02 | 2018-12-25 | 广东工业大学 | 一种媒体信息流行度的预测方法、系统及装置 |
CN111242658A (zh) * | 2018-11-29 | 2020-06-05 | 北京京东尚科信息技术有限公司 | 信息分享奖励方法、装置及计算机可读存储介质 |
CN109727152A (zh) * | 2019-01-29 | 2019-05-07 | 重庆理工大学 | 一种基于时变阻尼运动的在线社交网络信息传播构建方法 |
CN109981343A (zh) * | 2019-02-18 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 基于传播加速度的微博传播流行度预测方法及装置 |
CN110083701A (zh) * | 2019-03-20 | 2019-08-02 | 重庆邮电大学 | 一种基于平均影响力的网络空间群体性事件预警系统 |
CN110083701B (zh) * | 2019-03-20 | 2023-07-21 | 重庆邮电大学 | 一种基于平均影响力的网络空间群体性事件预警系统 |
CN110059882B (zh) * | 2019-04-19 | 2021-06-29 | 金陵科技学院 | 一种基于移动社交网络的内容流行度预测方法和装置 |
CN110059882A (zh) * | 2019-04-19 | 2019-07-26 | 金陵科技学院 | 一种基于移动社交网络的内容流行度预测方法和装置 |
CN110851684A (zh) * | 2019-11-12 | 2020-02-28 | 重庆邮电大学 | 一种基于三元关联图的社交话题影响力识别方法及装置 |
CN110851684B (zh) * | 2019-11-12 | 2022-10-04 | 重庆邮电大学 | 一种基于三元关联图的社交话题影响力识别方法及装置 |
CN110990718B (zh) * | 2019-11-27 | 2024-03-01 | 国网能源研究院有限公司 | 一种公司形象提升系统的社会网络模型构建模块 |
CN111241421A (zh) * | 2020-01-14 | 2020-06-05 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN111241421B (zh) * | 2020-01-14 | 2022-07-01 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN111310975A (zh) * | 2020-01-19 | 2020-06-19 | 浙江工业大学 | 一种基于深度模型的多任务消息传播预测方法 |
CN111861122B (zh) * | 2020-06-18 | 2022-10-18 | 北京航空航天大学 | 一种基于传播属性相似性的社交网络信息可信度评估方法 |
CN111861122A (zh) * | 2020-06-18 | 2020-10-30 | 北京航空航天大学 | 一种基于传播属性相似性的社交网络信息可信度评估方法 |
CN112418269A (zh) * | 2020-10-23 | 2021-02-26 | 西安电子科技大学 | 社交媒体网络事件传播关键时间预测方法、系统、介质 |
CN112418269B (zh) * | 2020-10-23 | 2024-04-16 | 西安电子科技大学 | 社交媒体网络事件传播关键时间预测方法、系统、介质 |
CN112511411A (zh) * | 2020-12-07 | 2021-03-16 | 郁剑 | 一种5g背景下新媒体影像的视觉传播方法 |
CN112929445A (zh) * | 2021-02-20 | 2021-06-08 | 山东英信计算机技术有限公司 | 一种面向推荐系统的链路预测方法、系统及介质 |
CN112929445B (zh) * | 2021-02-20 | 2022-06-07 | 山东英信计算机技术有限公司 | 一种面向推荐系统的链路预测方法、系统及介质 |
CN113537461A (zh) * | 2021-06-30 | 2021-10-22 | 中国人民解放军战略支援部队信息工程大学 | 基于sir值学习的网络关键节点发现方法及系统 |
CN113537461B (zh) * | 2021-06-30 | 2023-04-18 | 中国人民解放军战略支援部队信息工程大学 | 基于sir值学习的网络关键节点发现方法及系统 |
CN114928548A (zh) * | 2022-04-26 | 2022-08-19 | 苏州大学 | 一种社交网络信息传播规模预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108304867B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304867A (zh) | 面向社交网络的信息流行度预测方法及系统 | |
US11100411B2 (en) | Predicting influence in social networks | |
CN110909529A (zh) | 一种公司形象提升系统的用户情感分析和预判系统 | |
Xiao et al. | User behavior prediction of social hotspots based on multimessage interaction and neural network | |
Bagherjeiran et al. | Combining behavioral and social network data for online advertising | |
CN115712772A (zh) | 一种基于话题关联的话题传播预测方法 | |
CN116151954A (zh) | 一种实时团伙反欺诈检测方法及系统 | |
Woo et al. | An event-driven SIR model for topic diffusion in web forums | |
Shang et al. | Network security situation prediction based on long short-term memory network | |
Duan et al. | News text classification based on MLCNN and BiGRU hybrid neural network | |
Feng et al. | On modeling and predicting popularity dynamics via integrating generative model and rich features | |
Sun et al. | Multi-order nearest neighbor prediction for recommendation systems | |
Drakopoulos et al. | Discovering sentiment potential in Twitter conversations with Hilbert–Huang spectrum | |
Sun et al. | The academic status of reviewers predicts their language use | |
Yang et al. | A weighted topic model enhanced approach for complementary collaborator recommendation | |
CN110796561A (zh) | 基于三跳速度衰减传播模型的影响力最大化方法及装置 | |
Gupta et al. | Network’s reciprocity: a key determinant of information diffusion over Twitter | |
CN113705075B (zh) | 一种基于图神经网络的社交关系分析方法 | |
Mao et al. | Research on the popularity prediction of multimedia network information based on fast K neighbor algorithm | |
Jingjing et al. | Mining social influence in microblogging via tensor factorization approach | |
Yang et al. | Topic Audiolization: A Model for Rumor Detection Inspired by Lie Detection Technology | |
Wang | Social media platform-oriented topic mining and information security analysis by big data and deep convolutional neural network | |
Pawar et al. | TWITTER SENTIMENT ANALYSIS USING TEXTUAL INFORMATION AND DIFFUSION PATTERNS | |
Tai et al. | Predicting information diffusion using the inter-and intra-path of influence transitivity | |
Xu et al. | Hot Topic Trend Prediction of Topic Based on Markov Chain and Dynamic Backtracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |