CN109829114B - 一种基于用户行为的话题流行度预测系统及方法 - Google Patents

一种基于用户行为的话题流行度预测系统及方法 Download PDF

Info

Publication number
CN109829114B
CN109829114B CN201910114603.7A CN201910114603A CN109829114B CN 109829114 B CN109829114 B CN 109829114B CN 201910114603 A CN201910114603 A CN 201910114603A CN 109829114 B CN109829114 B CN 109829114B
Authority
CN
China
Prior art keywords
forwarding
user
driving force
social
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910114603.7A
Other languages
English (en)
Other versions
CN109829114A (zh
Inventor
谢小秋
肖云鹏
杜江
刘宴兵
梁霞
帅杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910114603.7A priority Critical patent/CN109829114B/zh
Publication of CN109829114A publication Critical patent/CN109829114A/zh
Application granted granted Critical
Publication of CN109829114B publication Critical patent/CN109829114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明请求保护一种基于用户行为的话题流行度预测系统及方法。它的具体步骤为:获取数据、转发驱动力量化、动力学模型构建三个部分。首先,通过网络爬虫抓取web中的内容获取社交网络用户数据。然后,分析影响用户转发的个人和社交转发驱动力,利用多元线性回归量化转发驱动概率。其次,考虑真实社交网站中,信息传播具有沿关注关系层级传播的特点,重构SIR模型中信息传播的规则。最后,将量化后的转发驱动力引入到SIR模型中,结合时间切片技术,刻画时间特性引起的感染率的动态变化过程,利用最小二乘法拟合模型真实参量,构建信息流行度态势变化趋势,预测信息转发数。本发明提高了话题流行度预测准确度。

Description

一种基于用户行为的话题流行度预测系统及方法
技术领域
本发明属于社交网络信息传播预测领域,主要涉及用户行为分析和量化,构建一种更真实的社交网络信息传播模型,并基于该模型预测话题的流行度。
背景技术
随着互联网技术的发展,在线社交网络已逐渐成为人们获取信息、交流信息的重要平台,对人们的工作生活产生了巨大的影响。与此同时,社交网络中数据呈现爆炸式的增长趋势,使得一个话题或者一条消息在短时间内达到数百万的关注用户,从而发展成为高热度话题,诸如消息过载、虚假信息泛滥等问题也随之而来。而信息流行度的预测为分析和解决这一问题提供帮助,并成为研究的热点。在舆情监控上,预测话题信息态势变化有利于利支持网络安全预警和辅助决策;在网络营销方面,准确估计信息的流行度可以帮助商家合理的进行商品推荐和广告投放;在微博影响力评估上,预测信息流行度能够动态刻画热度态势变化趋势,进而应用于微博话题热搜排序。
目前,关于流行度的研究主要集中于在线视频、微博、话题标签等。多数研究工作中,研究者通常将流行度定义量化为某种数量,如视频的观看数、微博的点赞数、话题标签的出现次数等。关于流行度的预测方法,主要包括三类:基于时间序列的方法、基于分类和回归的方法、基于传染病的方法。其中,基于传染病模型的方法是研究信息的传播过程和动力学成因的基础,也是信息流行度预测的一个重要工具。在线社交网络中,信息的传播过程类似生物学中传染病的传播过程,可以将信息视为传染病,进而对疾病在人群中的表现和分布式进行计算建模。传染病模型包括SI、SIS、SIR三类。
前面提到信息传播的过程类似传染病的过程,但是仍然存在很多不同的地方。一方面,由于社交网络平台具有公开特性,在SIR模型中假设三种人群接近常数变得不合理。另一方面,在生物种群中,当一个个体感染某种疾病后,除了一些有抗体的免疫个体外,网络中其余个体是易感染者,其都有机会接触到感染个体。然而,在线社交网络中,消息是沿着关注关系传播的,只有用户关注者转发了这条消息,用户才有机会以粉丝的身份接收到信息,成为易感染者。所以说,网络中的易感染者大多数来自感染者的粉丝。考虑以上问题,我们基于传统SIR模型,引入过渡状态F,构建F-SIR模型,其中F表示感染者的粉丝,是感染者的粉丝到易感染的一个过渡状态。
此外,传统SIR模型参数训练中,往往人为的设定固定的群体状态转换概率来构建完整的SIR预测传播网络。这样的话,一方面,人为设定的参数具有随机性且缺乏理论依据;另一方面,忽略了话题传播过程中时间特性引起的转换概率的动态变化,使得预测值和真实值有较大的差量。本发明从微观用户角度出发,提取用户个人和社交维度的转发驱动力,量化转发感染率,通过最小二乘算法训练获得模型参数。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高流行度预测的准确度的基于用户行为的话题流行度预测系统及方法。本发明的技术方案如下:
一种基于用户行为的话题流行度预测系统,其包括:数据源获取模块、转发驱动力量化模块及话题流行度预测模型构建模块,
数据源获取模块,用于从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;
转发驱动力量化模块,从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元性回归模型量化用户转发驱动力;
话题流行度预测模型:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体过渡用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到重构模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数。
进一步的,所述数据源获取模块中获取数据源包括特定话题信息下的网络结构、用户历史行为集和状态统计量,其中,网络结构是指参与话题用户的关注关系构成的点边拓扑图;用户历史行为是指网络结构下的用户在话题开始前的网络活动日志;状态统计量是针对改进SIR模型统计得到的各个时刻的状态量。
进一步的,所述转发驱动力量化模块提取的个人转发驱动力和社交转发驱动力包括以下内容:
个人转发驱动力:
(1)个人关注度:value[attention(ui)]
(2)个人历史转发率:value[retweetRate(ui)]
(3)个人活跃度:value[activity(ui)]
社交转发驱动力:
(1)话题兴趣相似度:value[inteSimil(ui,w)]
(2)社交感染率:value[socInfRate(ui,uj)]
(3)社交影响力:value[socEffe(ui,vj)]
进一步的,所述转发驱动力量化模块利用多元线性回归量化用户个人和社交影响力,获得基于多维属性的转发概率P(ui),多元线性回归量化公式如下:
P(ui)=θ01Pindividual(ui)+θ2Psocial(ui) 式(7)
其中,θ0、θ1、θ2是偏回归系数,将归一化后的个人转发驱动力Pindividual(ui)表示为:
Figure BDA0001969652310000031
关于κim中的m,令m分别取1,2,3,用于表示用户个人转发驱动力,可以提取个人关注度、个人转发率、个人活跃度三个属性,而
Figure BDA0001969652310000032
代表不同属性下的最大值,U是话题用户集,以此实现个人转发驱动力的归一化处理;
考虑到话题的传播时间和邻居节点的带动力成反比,引入半衰减因子函数
Figure BDA0001969652310000041
刻画用户兴趣随时间衰减的情况,用t、t'分别表示话题当前时刻和开始时刻,w为正则化因子,定义用户社交转发驱动力Psocial(ui)为:
Figure BDA0001969652310000042
χi1为兴趣相似度,关于χin中的n,令n分别取2,3,分别是社交感染率和社交影响力。
进一步的,所述话题流行度预测模型中基于传统SIR模型,构建信息传播新的规则,具体步骤如下:
S311:在新的规则中,认为消息沿着关注关系传播,只有当一个用户转发了一条信息后,其粉丝才会成为易感染者,而非整个网络中的消息未知者,在此基础上,构建基于SIR模型的改进F-SIR模型,其中F表示粉丝,是感染者的粉丝到易感染的一个过度状态;
S312:根据以上的传播规则,动力学方程表示如下:
Figure BDA0001969652310000043
方程中,
Figure BDA0001969652310000044
表示当前时刻的平均转发概率,通过多元线性回归量化求得。
进一步的,所述话题流行度预测模型中,结合F-SIR模型,利用最小二乘模型拟合真实值,求得话题传播动力学方程,实现信息流行度的预测,具体步骤如下:
通过时间切片技术,设定切片窗口大小,统计各个时间窗口下对应的三个状态的真实值记为S(t+1)、I(t+1)、R(t+1),预测值用S'(t+1)、I'(t+1)、R'(t+1),则预测值和真实值的误差函数可以表示如下:
Figure BDA0001969652310000045
其中,k表示训练集窗口长度,而
Figure BDA0001969652310000051
Figure BDA0001969652310000052
R'(t+1)=R(t)+μ(t)I(t) 式(14)
为了最小化误差函数f,利用最小二乘法求未知参量,令偏导数为0,结果即为所求。
一种基于所述系统的话题流行度预测方法,其包括以下步骤:
数据源获取步骤、转发驱动力量化步骤及话题流行度预测步骤,其中,
数据源获取步骤包括:从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;
转发驱动力量化步骤包括:从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元性回归模型量化用户转发驱动力;
话题流行度预测步骤包括:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到重构模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数。
本发明的优点及有益效果如下:
本发明首先,考虑到话题流行度态势受多种驱动机制交互影响,而在微观层面上,表现在用户转发行为的不确定性和复杂性,本发明分析影响用户转发行为的多维属性,提出一种感知信息流行度的用户行为演化策略,能够深入挖掘信息流行度变化的微观用户因素的,为信息传播的预测研究提供支持。其次,考虑到真实社交网络中信息沿着关注关系层级传播,而易感染者多为当前时刻感染者的粉丝,重新定义SIR模型中群体状态量S,重构社交网络信息传染病传播规则,从而更真实的模拟信息在社交网络中的传播过程。最后,考虑传统传染病模型中人为设定固定参数带来随机性的弊端,将量化后的转发驱动力引入到SIR模型中,结合时间切片技术,刻画时间特性引起的感染率的动态变化过程,从而提高流行度预测的准确度。
附图说明
图1是本发明提供优选实施例的总体流程图。
图2是本发明的转发驱动力量化模型图:
图3是本发明的状态转移模型图
图4是本发明的话题预测状态转换模型图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明解决上述技术问题的技术方案是:参见图1,为一种基于用户行为的话题流行度预测方法,即本发明的具体实施的流程示意图。本发明的具体步骤包括以下几个步骤:
S1:获取数据源。从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据。
S2:量化转发驱动力。考虑到用户转发行为的复杂性以及不确定性,从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,通过多元性回归模型量化用户转发驱动力。
S3:构建动力学模型。首先,基于传统SIR模型以及社交网络中信息传播的特点,重构社交网络信息传播规则和状态转移方程;其次,将S2中量化后的转发驱动力用于动态刻画SIR模型的动态感染率,通过时间切片技术提取各个状态量值,利用最小二乘法拟合模型真实参量,预测话题流行度态势变化趋势,预测话题转发数。
对于S1获取数据源,通过腾讯微博分别抓取多个话题的传播信息,包括特定话题信息下的网络结构、用户历史行为集和状态统计量。其中,网络结构是指参与话题用户的关注关系构成的点边拓扑网络;用户历史行为是指网络结构下的用户在话题开始前的网络活动日志;状态统计量是基于改进SIR模型统计获得各个时刻每的状态量。
对于S2的实施,其流程图如图2所示,主要包括以下几个步骤:
S21:提取用户转发驱动力。从用户个人转发驱动力和社交转发驱动力两个方面提取影响用户转发的因素,将两者结合用户量化用户转发驱动力。其中,个人转发驱动力包括个人关注度、个人历史转发率和个人活跃度;社交转发驱动力包括话题兴趣相似度、社交感染率、社交影响力。各驱动力的相关定义如下:
关于用户个人转发驱动力中的个人活跃度、个人历史转发率、个人活跃度的具体定义如下:
(1)个人关注度
Figure BDA0001969652310000071
用户关注度定义为用户粉丝数和用户偶像数的比值,关注度越大的用户越有可能通过参与话题讨论来吸引其粉丝。num[idol(ui)]代表用户ui的偶像数,num[fans(ui)]代表用户的粉丝数。
(2)个人历史转发率
Figure BDA0001969652310000072
用户历史转发率定义为话题开始前一个月用户转发微博占总微博的比值,公式中num[retweet(ui)]代表话题开始前一个月用户转发的微博数,同理,num[totalTweet(ui)]是所有微博数目。
(3)用户活跃度
value[activity(ui)]=ρnum[orig(ui)]+num[retw(ui)] 式(3)
用户活跃度是用来衡量用户过往参与信息以及对微博使用的积极性,相比活跃度低的用户,高活跃度的用户在转发上起到的作用更大。公式中,ρ∈[0,1]是弱化系数,num[orig(ui)]、num[retw(ui)]分别表示话题开始前一个月用户ui发表和转发微博的数量。
关于用户社交转发驱动力中的话题兴趣相似度、社交感染率、社交影响力具体定义如下:
(1)话题兴趣相似度
Figure BDA0001969652310000081
兴趣相似度利用Jaccard系数计算两者相似度,用于衡量社交话题内容和用户兴趣的相似程度,认为两者相似度越大用户越容易被话题吸引,越容易转发话题。其中,userInterest(ui)是用户行为兴趣标签,topicInterest(w)为话题关键字标签。
(2)社交感染率
Figure BDA0001969652310000082
社交感染率考虑的是邻居节点参与情况对当前用户参与情况的影响,定义为参与到话题的邻居节点在所有邻居节点的比例。num[neigRetw(ui)]为用户的邻居节点参与话题数目,num[neig(ui)]是用户关注的用户总数。
(3)社交影响力
Figure BDA0001969652310000083
社交影响力是用户衡量当前用户的邻居节点的信息传播带动力,社交影响力越大说明邻居节点的信息传播带动力越大,越有可能吸引用户参与话题。用
Figure BDA0001969652310000084
分别表示话题开始的前一个月邻居节点发表微博的平均阅读数、转发数、评论数,β表示弱化系数。
S22:利用多元线性回归量化用户个人和社交影响力,获得基于多维属性的转发概率P(ui)。多元线性回归量化公式如下:
P(ui)=θ01Pindividual(ui)+θ2Psocial(ui) 式(7)
其中,θ0、θ1、θ2是偏回归系数,可以通过多元线性回归模型训练得到。而将归一化后的个人转发驱动力Pindividual(ui)表示为:
Figure BDA0001969652310000091
κim用于表示用户个人转发驱动驱动力,可以提取个人关注度、个人转发率、个人活跃度三个属性,而
Figure BDA0001969652310000092
代表不同属性下的最大值,以此实现个人转发驱动力的归一化处理。
考虑到话题的传播时间和邻居节点的带动力成反比,引入半衰减因子函数
Figure BDA0001969652310000093
刻画用户兴趣随时间衰减的情况,用t、t'分别表示话题当前时刻和开始时刻,w为正则化因子。定义用户社交转发驱动力Psocial(ui)为:
Figure BDA0001969652310000094
χi1为兴趣相似度,χin分别是社交感染率和社交影响力。
对于S3的实施包括构建话题信息传播规则以及构建话题流行度预测模型两个步骤。具体实现如下:
S31:基于传统SIR模型,构建信息传播新的规则,新规则下状态转移方程如图3,具体步骤如下:
S311:在新的规则中,认为消息沿着关注关系传播,只有当一个用户转发了一条信息后,其粉丝才会成为易感染者,而非整个网络中的消息未知者。在此基础上,我们构建基于SIR模型的改进F-SIR模型,其中F表示粉丝,是感染者的粉丝到易感染的一个过度状态。
S312:根据以上的传播规则,动力学方程表示如下:
Figure BDA0001969652310000101
方程中,
Figure BDA0001969652310000102
表示当前时刻的平均转发概率,通过多元线性回归量化求得。/>
S32:流行度预测模型。结合F-SIR模型,利用最小二乘模型拟合真实值,求得话题传播动力学方程,实现信息流行度的预测,具体步骤如下:
通过时间切片技术,设定切片窗口大小,统计各个时间窗口下对应的三个状态的真实值记为S(t+1)、I(t+1)、R(t+1),预测值用S'(t+1)、I'(t+1)、R'(t+1),则预测值和真实值的误差函数可以表示如下:
Figure BDA0001969652310000103
其中,
Figure BDA0001969652310000104
Figure BDA0001969652310000105
R'(t+1)=R(t)+μ(t)I(t) 式(14)
为了最小化误差函数f,利用最小二乘法求未知参量,令偏导数为0,结果即为所求。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (4)

1.一种基于用户行为的话题流行度预测系统,其特征在于,包括:数据源获取模块、转发驱动力量化模块及话题流行度预测模型构建模块,
数据源获取模块,用于从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;
转发驱动力量化模块,从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元线性回归模型量化用户转发驱动力;
话题流行度预测模型:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到话题流行度预测模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数;
所述转发驱动力量化模块利用多元线性回归量化用户个人和社交影响力,获得基于多维属性的转发概率P(ui),多元线性回归量化公式如下:
P(ui)=θ01Pindividual(ui)+θ2Psocial(ui) 式(7)
其中,θ0、θ1、θ2是偏回归系数,将归一化后的个人转发驱动力Pindividual(ui)表示为:
Figure FDA0004110683590000011
关于κim中的m,令m分别取1,2,3用于表示用户个人转发驱动力,可以提取个人关注度、个人转发率、个人活跃度三个属性,而
Figure FDA0004110683590000012
代表不同属性下的最大值,U是话题用户集,以此实现个人转发驱动力的归一化处理;
考虑到话题的传播时间和邻居节点的带动力成反比,引入半衰减因子函数
Figure FDA0004110683590000013
刻画用户兴趣随时间衰减的情况,用t、t'分别表示话题当前时刻和开始时刻,w为正则化因子,定义用户社交转发驱动力Psocial(ui)为:
Figure FDA0004110683590000021
χi1为兴趣相似度,关于χin中的n,令n分别取2,3,分别是社交感染率和社交影响力;
所述话题流行度预测模型中基于传统SIR模型,构建信息传播新的规则,具体步骤如下:
S311:在新的规则中,认为消息沿着关注关系传播,只有当一个用户转发了一条信息后,其粉丝才会成为易感染者,而非整个网络中的消息未知者,在此基础上,构建基于SIR模型的改进F-SIR模型,其中F表示粉丝,是感染者的粉丝到易感染的一个过度状态;
S312:根据以上的传播规则,动力学方程表示如下:
Figure FDA0004110683590000022
/>
方程中,
Figure FDA0004110683590000023
表示当前时刻的平均转发概率,通过多元线性回归量化求得;μ表示比例系数;
所述话题流行度预测模型中,结合F-SIR模型,利用最小二乘模型拟合真实值,求得话题传播动力学方程,实现信息流行度的预测,具体步骤如下:
通过时间切片技术,设定切片窗口大小,统计t+1时间窗口下对应的易感者、染病者、恢复者三个状态的真实值,记为S(t+1)、I(t+1)、R(t+1),S(t)、I(t)、R(t)分别表示当前t时刻的易感者、染病者、恢复者的真实值,预测值用S'(t+1)、I'(t+1)、R'(t+1),则预测值和真实值的误差函数可以表示如下:
Figure FDA0004110683590000024
其中,k表示训练集窗口长度,而
Figure FDA0004110683590000025
Figure FDA0004110683590000031
R'(t+1)=R(t)+μI(t) 式(14)
为了最小化误差函数f,利用最小二乘法求未知参量,令偏导数为0,结果即为所求。
2.根据权利要求1所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述数据源获取模块中获取数据源包括特定话题信息下的网络结构、用户历史行为集和状态统计量,其中,网络结构是指参与话题用户的关注关系构成的点边拓扑图;用户历史行为是指网络结构下的用户在话题开始前的网络活动日志;状态统计量是针对改进SIR模型统计得到的各个时刻的状态量。
3.根据权利要求1所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述转发驱动力量化模块提取的个人转发驱动力和社交转发驱动力包括以下内容:
个人转发驱动力:
(1)个人关注度:value[attention(ui)]
(2)个人历史转发率:value[retweetRate(ui)]
(3)个人活跃度:value[activity(ui)]
社交转发驱动力:
(1)话题兴趣相似度:value[inteSimil(ui,w)]
(2)社交感染率:value[socInfRate(ui,uj)]
(3)社交影响力:value[socEffe(ui,vj)]。
4.一种基于权利要求1-3之一所述系统的话题流行度预测方法,其特征在于,包括以下步骤:
数据源获取步骤、转发驱动力量化步骤及话题流行度预测步骤,其中,
数据源获取步骤包括:从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;
转发驱动力量化步骤包括:从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元线性回归模型量化用户转发驱动力;
话题流行度预测步骤包括:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到重构模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数;
所述转发驱动力量化模块利用多元线性回归量化用户个人和社交影响力,获得基于多维属性的转发概率P(ui),多元线性回归量化公式如下:
P(ui)=θ01Pindividual(ui)+θ2Psocial(ui) 式(7)
其中,θ0、θ1、θ2是偏回归系数,将归一化后的个人转发驱动力Pindividual(ui)表示为:
Figure FDA0004110683590000041
关于κim中的m,令m分别取1,2,3用于表示用户个人转发驱动力,可以提取个人关注度、个人转发率、个人活跃度三个属性,而
Figure FDA0004110683590000042
代表不同属性下的最大值,U是话题用户集,以此实现个人转发驱动力的归一化处理;
考虑到话题的传播时间和邻居节点的带动力成反比,引入半衰减因子函数
Figure FDA0004110683590000043
刻画用户兴趣随时间衰减的情况,用t、t'分别表示话题当前时刻和开始时刻,w为正则化因子,定义用户社交转发驱动力Psocial(ui)为:
Figure FDA0004110683590000044
χi1为兴趣相似度,关于χin中的n,令n分别取2,3,分别是社交感染率和社交影响力;
所述话题流行度预测模型中基于传统SIR模型,构建信息传播新的规则,具体步骤如下:
S311:在新的规则中,认为消息沿着关注关系传播,只有当一个用户转发了一条信息后,其粉丝才会成为易感染者,而非整个网络中的消息未知者,在此基础上,构建基于SIR模型的改进F-SIR模型,其中F表示粉丝,是感染者的粉丝到易感染的一个过度状态;
S312:根据以上的传播规则,动力学方程表示如下:
Figure FDA0004110683590000051
方程中,
Figure FDA0004110683590000052
表示当前时刻的平均转发概率,通过多元线性回归量化求得。/>
CN201910114603.7A 2019-02-14 2019-02-14 一种基于用户行为的话题流行度预测系统及方法 Active CN109829114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910114603.7A CN109829114B (zh) 2019-02-14 2019-02-14 一种基于用户行为的话题流行度预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910114603.7A CN109829114B (zh) 2019-02-14 2019-02-14 一种基于用户行为的话题流行度预测系统及方法

Publications (2)

Publication Number Publication Date
CN109829114A CN109829114A (zh) 2019-05-31
CN109829114B true CN109829114B (zh) 2023-05-26

Family

ID=66862080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910114603.7A Active CN109829114B (zh) 2019-02-14 2019-02-14 一种基于用户行为的话题流行度预测系统及方法

Country Status (1)

Country Link
CN (1) CN109829114B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428094A (zh) * 2019-07-19 2019-11-08 清华大学 微观社交网络系统的稳态刻画及调控方法和系统
CN112037930B (zh) * 2020-11-02 2021-02-05 平安科技(深圳)有限公司 一种传染病预测设备、方法、装置及存储介质
CN112712210B (zh) * 2020-12-30 2023-07-25 深圳市网联安瑞网络科技有限公司 突发性话题传播规模预测方法、系统、处理终端、介质
CN112905656A (zh) * 2021-01-29 2021-06-04 重庆理工大学 一种融合时序网络的动态社区发现系统
CN113139134B (zh) * 2021-04-26 2022-04-19 中国人民解放军国防科技大学 一种社交网络中用户生成内容的流行度预测方法、装置
CN113537461B (zh) * 2021-06-30 2023-04-18 中国人民解放军战略支援部队信息工程大学 基于sir值学习的网络关键节点发现方法及系统
CN115935283B (zh) * 2022-12-27 2023-07-25 南京信息工程大学 一种基于多元非线性因果分析的干旱成因溯源方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230169A (zh) * 2017-12-20 2018-06-29 重庆邮电大学 基于社交影响力的信息传播模型及态势感知系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100257117A1 (en) * 2009-04-03 2010-10-07 Bulloons.Com Ltd. Predictions based on analysis of online electronic messages
CN106682991B (zh) * 2016-12-21 2021-02-09 重庆邮电大学 一种基于在线社交网络的信息传播模型及其传播方法
CN107292390A (zh) * 2017-05-24 2017-10-24 重庆邮电大学 一种基于混沌理论的信息传播模型及其传播方法
CN109165239B (zh) * 2018-07-06 2021-05-18 重庆邮电大学 基于用户属性和内容属性的d2d信息传播建模方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230169A (zh) * 2017-12-20 2018-06-29 重庆邮电大学 基于社交影响力的信息传播模型及态势感知系统及方法

Also Published As

Publication number Publication date
CN109829114A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829114B (zh) 一种基于用户行为的话题流行度预测系统及方法
CN108304867B (zh) 面向社交网络的信息流行度预测方法及系统
US11100411B2 (en) Predicting influence in social networks
Nguyen et al. Real-time event detection for online behavioral analysis of big social data
CN106682991B (zh) 一种基于在线社交网络的信息传播模型及其传播方法
Datta et al. Algorithmic inferencing of aesthetics and emotion in natural images: An exposition
CN108230169B (zh) 基于社交影响力的信息传播模型及态势感知系统及方法
Lei et al. Understanding user behavior in Sina Weibo online social network: A community approach
Zhang et al. Structural diversity effect on hashtag adoption in Twitter
CN113282841B (zh) 基于建模的公众话题传播评估方法及系统
Liao et al. Mining micro-blogs: Opportunities and challenges
Wang et al. Predicting the security threats on the spreading of rumor, false information of Facebook content based on the principle of sociology
CN111353905B (zh) 针对网络社区的网民用户个体影响力测量和估算系统
CN115712772A (zh) 一种基于话题关联的话题传播预测方法
CN112434933A (zh) 一种公众社交平台的媒体影响力定量评估方法
Jing et al. Reconstructing the social network of HIV key populations from locally observed information
Shukla et al. Role of hybrid optimization in improving performance of sentiment classification system
Jenness et al. Spatial recruitment bias in respondent-driven sampling: implications for HIV prevalence estimation in urban heterosexuals
Farajtabar et al. A continuous-time mutually-exciting point process framework for prioritizing events in social media
Zygmunt Role identification of social networkers
Qasem et al. On the detection of influential actors in social media
CN112269945B (zh) 基于谣言辟谣促谣和三方认知博弈的信息传播预测方法
Shi et al. Your preference or mine? A randomized field experiment on recommender systems in two-sided matching markets
Su et al. Toward capturing heterogeneity for inferring diffusion networks: A mixed diffusion pattern model
CN113870043A (zh) 一种基于用户意识和演化博弈的信息传播控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant