CN104182457A - 在社交网络中基于泊松过程模型的事件流行度预测方法 - Google Patents

在社交网络中基于泊松过程模型的事件流行度预测方法 Download PDF

Info

Publication number
CN104182457A
CN104182457A CN201410334425.6A CN201410334425A CN104182457A CN 104182457 A CN104182457 A CN 104182457A CN 201410334425 A CN201410334425 A CN 201410334425A CN 104182457 A CN104182457 A CN 104182457A
Authority
CN
China
Prior art keywords
user
event
forwarding
key user
ugc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410334425.6A
Other languages
English (en)
Other versions
CN104182457B (zh
Inventor
陈凯
周异
何建华
周曲
杨蒙蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD
Xiamen Shang Ji Network Technology Co., Ltd.
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201410334425.6A priority Critical patent/CN104182457B/zh
Publication of CN104182457A publication Critical patent/CN104182457A/zh
Application granted granted Critical
Publication of CN104182457B publication Critical patent/CN104182457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种在社交网络中基于泊松过程模型的事件流行度预测方法,步骤:第一步,选取样本事件,并获取样本事件的微博传播链;第二步,用户影响力计算并筛选影响力大的作为关键用户,而将剩下的用户标记为非关键用户;第三步,将关键用户带来的转发微博过程建模为泊松过程模型,而对非关键用户带来的转发微博过程简单处理;第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数;第五步,给定一个已知一定时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。本发明能在微博事件发生的初期给出比较好的流行度预测,将为合理引导事件的发展提供非常有效的帮助。

Description

在社交网络中基于泊松过程模型的事件流行度预测方法
技术领域
本发明涉及互联网技术领域内社交网络中的事件流行度预测方法,具体地说,涉及的是一种在社交网络中基于泊松过程模型的事件流行度预测方法。
背景技术
在Web2.0时代,社交网络发展如火如荼,逐渐成为网民日常生活中的重要部分。微博作为一种通过关注机制分享简短信息的广播式的新型社交网络平台,它具有操作简单、互动性强等特点。到2012年年底,新浪微博注册用户数已经超过了4亿,微博作为一种新兴媒体,它在传播信息、形成热点话题和热点事件中起到了越来越重要的作用。微博正成为社会舆论热点的主要策源地,全面参与并影响着现实世界。
微博在热点事件的发生到推重整个过程中起到非常关键的作用,如果能在事件发生的初期就对其未来的流行度有较准确的预测,将能够给相关部门或企业争取时间,对事件发展进行合理引导和及时采取相应的对策。因此为了避免热点事件由于处理不当或者处理不及时可能带来的经济损失和不良社会后果,对事件的流行度进行预测非常必要,具有重大社会意义。
经检索,目前没有与事件流行度的预测相关的公开专利。
发明内容
本发明要解决的问题是提供一种在社交网络中对事件的流行度进行预测的方法,并基于此,对事件的流行度进行预测,从而可以早的对事件的发展态势了解,给相关部门或企业争取尽可能多的时间制定对策。
本发明一个目的是提供一种社交网络中事件流行度的预测方法,具体包括:
第一步,选取样本事件,并获取样本事件的微博传播链;
第二步,用户影响力计算,并筛选影响力大的作为关键用户,并将剩下的用户标记为非关键用户;
第三步,将关键用户带来的转发微博过程建模为泊松过程模型,而对非关键用户带来的转发微博过程简单处理;
第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数;
第五步,给定一个已知一定时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。
所述第一步中,选取样本事件是指:对发生在某一个社交网络平台中的热点事件进行选择,这里的热点事件是指被该社交网络平台或其他热门排行榜列为热点话题;这里的事件通过事件内容的一组关键词来描述,本身是一组内容相近的用户产生内容(UGC)的集合;选取的事件需要反映这个社交网络平台在一定时间段内的所有热点事件信息。
优选地,所述选取样本事件是按照下面的步骤选取的:
(1)周期性的分别从各大热门话题榜各获取前10个热门事件的标题;
(2)用新闻搜索引擎搜索热门事件的标题,获取有关事件更多的文本信息和关键词;
(3)在社交网络的搜索页面中搜索每个事件的关键词,解析出和该事件有关的原创热门UGC;
(4)使用社交网络开放平台提供的API来获取每个事件中的原创UGC的转发链,包括每条UGC的创建时间、文本、作者信息;
(5)检测有规律的发布UGC,发布UGC时间间隔短,重复多次转发同一个社交网络用户的水军账户,删除它们发出的所有UGC。
优选地,所述第一步中,获取样本事件的传播链中的传播链是指参与事件传播的社交网络用户的用户产生内容(UGC)之间具有转发关系,这些UGC转发关系构成有向的具有时间性的传播关系链叫UGC传播链;获取传播链是指通过社交网络平台提供的API获取参与事件传播的用户人数大于阈值T2的UGC传播链,T2是任意正整数,T2为0表示获取事件相关的所有传播链,参与人数少的UGC传播链将被舍去。
优选地,所述第二步中,用户的影响力是指该用户在事件传播过程中吸引其他用户参与事件传播的能力,用户影响力跟他的粉丝数、粉丝质量、用户之间的交互、发布用户产生内容(UGC)的转发数,甚至和参与事件的主题有关。所述用户的影响力采用基于PageRank的方法计算;或者用户ui的影响力si采用以下方法获得:
(1)计算每个用户在样本事件数据中的发出的UGC数
(2)计算每个用户在样本事件数据中由其一级转发用户产生的UGC转发数
(3)用来代表这样一个用户集合,在这个集合中的每个用户uj发出的UGC的转发数之和都为并且uj至少转发了ui一次,那么用户ui的影响力用下面的式子计算:
s i = Σ n n | U i n | + N i ( 1 )
其中|U|代表用户集合U中的用户数。
更好地,所述关键用户的筛选过程如下:
(1)将用户的影响力设置为0,因为他们参与的事件太少;
(2)根据影响力排序所有的用户,选取前K个作为选择的关键用户Us,而剩下的则作为非关键用户;
阈值Tc和参数K用来控制关键用户的数目以及参与事件的数目,在某一种社交网络平台中Tc=3是一个经验值,K的经验值在104级别。
优选地,所述第三步的模型及其涉及参数如下:
(1)对关键用户的建模:将每个参与事件的关键用户的一级转发过程建模为一个泊松过程,泊松过程的参数只有到达率λ,它代表了单位时间内的用户的一级转发的增加数量,与下面的因素有关:
a)用户自身可以带来的转发数,用用户的活跃粉丝数αiFN(ui)来衡量,其中FN(ui)是用户ui的粉丝数,αi≤1;
b)事件的吸引力,用其转发数的平均增长率来衡量,其中Cj(t)表示事件mj在t时的转发数,tj为事件的起点时刻;
c)用户作息的自然规律,用一天内用户产生内容(UGC)的创建时间分布P(t)来衡量;
d)UGC的可见度,它是指UGC在用户主页上从上到下用户看到的概率依次降低,它用衰减因子来衡量,其中tij表示用户ui在事件mj中的参与时间;
最后λ用下面的式子计算:
λ ( u i , m j , t ) = α i FN ( u i ) C j ( t ) t - t j P ( t ) ( t - t ij ) - β i
根据泊松过程的计算,得到某个关键用户带来的转发数随着时间的概率分布;
(2)对于非关键用户的建模:只在样本数据中统计得到一个经验比例r,它随着三个变量的变化而变化:
a)已知信息的结束时刻tn
b)未来时间段的开始时刻tp
c)未来时间段的长度l;
根据这个经验比例,给定已知一个事件和其一定时间段的信息,计算得出未来某时间段内由非关键用户带来的转发数。
优选地,上述第四步中学习和估计第三步模型中涉及到的关键用户的参数λ、非关键用户的参数r以及一天内UGC创建时间的分布P(k)的方法;
事件的传播链是由转发关系组成的,即转发关系ui→uj代表用户uj转发了ui的一条UGC,这种转发关系有下面四种情况:
(1)用户ui和uj都是关键用户;
(2)用户ui是关键用户,用户uj不是关键用户;
(3)用户ui不是关键用户,用户uj是关键用户;
(4)用户ui和uj都不是关键用户;
其中(1)和(2)都构成关键用户带来的转发数,也即转发关键用户的UGC而产生的转发数;而(3)和(4)则构成非关键用户带来的转发数,即转发非关键用户的UGC而产生的转发数;将样本数据按照这个原则分为由关键用户带来的转发和由非关键用户带来的转发两个部分,分别用于关键用户λ和非关键用户比例r的估计;
对于关键用户λ的估计,只采用关键用户带来的转发数据并采用最大似然估计的方法进行估计和学习,通过极大化下面的似然函数来得到αi,βi的估计值:
f ( α i , β i | m j ) = Π j = 1 M Π k = 1 T n P ( C j ( kδ ) - C j ( ( k - 1 ) δ ) = N j [ k ] | α i , β i )
其中Nj[k]为事件mj在第k个时间段内的由关键用户带来的转发数增量;
对于非关键用户r的估计,使用非关键用户带来的转发数据,按照权利要求8(2)中的方法来进行统计计算;
对于一天内UGC创建时间的分布P(k)的估计,使用所有的样本事件数据。在样本事件数据中统计以δ时间间隔来统计一天内UGC创建的数量并归一化成为P(k)。
优选地,上述第五步中给定一个新的事件以及它的一定时间长度的传播链信息,预测其未来某时间段内的流行度的模型,这里的流行度指以转发数为主要衡量标准的流行度;
把整个事件转发数的增长过程等间隔δ的分为许多时间段,每个时间段内认为所有用户的λ是保持不变的,将事件的起点时刻记为0;假设前Tn个时间段的事件的信息是完全已知的,这包括与事件相关的所有UGC的作者和作者的信息、创建时间、文本信息,如果是转发的UGC还包括转发信息;预测第Tp(Tp>Tn)个时间段内的事件转发数的增长量,这个增长量包括由关键用户带来的转发数和非关键用户带来的转发数两个部分:
(1)计算关键用户带来的转发数:计算每个关键用户在第Tp个时间段内的转发数随着时间的概率分布λ,其中事件的吸引力,使用所有已知时间段长度的UGC的吸引力即其他的因素使用相应时刻的值,根据泊松过程的可加性,将每个关键用户的λ加起来即可得到由关键用户带来的转发数在Tp时间段内的大泊松过程的参数λ,即
C j ( Tpδ ) - C j ( ( Tp - 1 ) δ ) ~ P ( δ Σ i λ ( u i , m j , t ij + T p δ ) )
(2)计算非关键用户带来的转发数:根据非关键用户带来的转发数比例r,只用计算已知Tn个时间段中参与的非关键用户的个数即可得到第Tp个时间段内的转发数增量,即
C j ( Tpδ ) - C j ( ( Tp - 1 ) δ ) = r ( t n , t p , l ) * N c n .
本发明上述技术方案中:
第一步中,本发明从各大网络热门排行榜出发,结合搜索引擎以及社交网络平台搜索,互相验证得到最终选取的热门事件。
第三步中,本发明首先将用户分为关键用户和非关键用户分别建模,重点分析关键用户,以泊松模型进行建模;而对非关键用户则仅仅使用经验比例来计算其贡献,以做简化。对关键用户泊松模型到达率的计算,充分考虑了用户自身的影响、参与事件的吸引力、用户作息规律、UGC的可见度四种影响因素,并给出一个公式用于量化计算。
第五步中,对整个事件转发数的增长过程等间隔的离散化为多个时间段,进一步降低计算复杂度以及参数估计难度。
与现有技术相比,本发明具有以下有益效果:
本发明能够在社交网络中对其中的事件的流行度进行较准确的预测,并可以给出未来一段时间内预测流行度的变化曲线。根据这些预测的流行度信息,可以预报事件的发展变化情况,从而给相关部门和企业提供时间制定应对策略,将为合理引导事件的发展提供非常有效的帮助,可以避免事件由于处理不当或者处理不及时可能带来的经济损失和不良社会后果。
附图说明
图1为本发明一较佳实施例中获取样本事件的流程图;
图2为本发明一较佳实施例中筛选关键用户的流程图;
图3为本发明一较佳实施例中整个系统的框架图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本实施例提供一种在微博中对事件流行度进行预测的方法,该方法分为四个部分:
第一步,选取样本事件,并获取样本事件的微博传播链;
第二步,用户影响力计算,并筛选影响力大的作为关键用户,并将剩下的用户标记为非关键用户;
第三步,将关键用户带来的转发微博过程建模为泊松过程模型,而对非关键用户带来的转发微博过程简单处理;
第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数;
第五步,给定一个已知一定时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。
第一步中,选取样本事件是指:对发生在某一个社交网络平台中的热点事件进行选择,这里的热点事件是指被该社交网络平台或其他热门排行榜(比如百度风云榜http://top.baidu.com/)列为热点话题;这里的事件通过事件内容的一组关键词来描述,本身是一组内容相近的用户产生内容的集合(用户产生内容是指用户在该社交网络中发布的原创或非原创的内容,比如微博中就是一条不超过140字的博文,下文用UGC表示);选取的事件需要反映这个社交网络平台在一定时间段内的所有热点事件信息。
如图1所示,本实施例中选取样本事件的流程:
(1)周期性的分别从百度搜索风云榜(http://top.baidu.com)、搜狗热搜榜(http://top.sogou.com)、搜搜热榜(http://top.soso.com)和新浪微博热门话题榜(http://huati.weibo.com)各获取前10个热门事件的标题;
(2)在新闻搜索引擎谷歌新闻(http://news.google.com)、百度新闻(http://news.baidu.com))搜索热门事件的标题,获取有关事件更多的文本信息和关键词;
(3)在新浪微博的搜索页面(http://s.weibo.com)中搜索每个事件的关键词,解析出和该事件有关的原创热门微博;
(4)使用新浪微博开放平台提供的API来获取每个事件中的原创微博的转发链,包括每条(转发)微博的创建时间、文本、作者信息等;
(5)检测有规律的发帖,发帖间隔比较短,重复多次转发同一个微博的水军账户,删除它们发出的所有(转发)微博。
本实施案例中,获取的样本事件总量应该可以反映一段时间内的整个微博平台上的用户活动情况,进而使得选出的关键用户具有实际使用意义。
如图2所示,下面描述了一种用户影响力的计算方法和关键用户的筛选方法。
用户ui的影响力si具体计算如下:
(1)计算每个用户在样本事件数据中的发出的微博数
(2)计算每个用户在样本事件数据中由其一级转发用户产生的微博转发数
(3)用来代表这样一个用户集合,在这个集合中的每个用户uj发出的微博的转发数之和都为并且uj至少转发了ui一次。那么用户ui的影响力用下面的式子计算:
s i = Σ n n | U i n | + N i ( 1 )
其中|U|代表用户集合U中的用户数。
关键用户的筛选过程如下:
(1)将用户的影响力设置为0,因为他们参与的微博事件太少。
(2)根据影响力排序所有的用户。选取前K个作为选择的关键用户Us,而剩下的则作为非关键用户。
阈值Tc和参数K可以用来控制关键用户的数目以及参与事件的数目,具体可以根据实际数据集进行调节,也可以根据实验结果进行调节。Tc=3是一个经验值,在新浪微博平台中K的经验值一般在104级别。
接下来对用户带来转发微博的过程进行建模。
(1)对关键用户的建模。将每个参与事件的关键用户的一级转发过程建模为一个泊松过程。泊松过程的参数只有到达率λ,它与下面的因素有关:
a)用户自身可以带来的转发数,用用户的活跃粉丝数αiFN(ui)来衡量,其中FN(ui)是用户ui的粉丝数,αi≤1;
b)微博事件的吸引力,用其转发数的平均增长率来衡量,其中Cj(t)表示事件mj在t时的转发数,tj为事件的起点时刻。
c)用户作息的自然规律,用一天内微博的创建时间分布P(t)来衡量;
d)微博的可见度,它是指微博在用户主页上从上到下用户看到的概率依次降低,它用衰减因子来衡量,其中tij表示用户ui在事件mj中的参与时间(相应微博的创建时间)。
最后λ用下面的式子计算:
λ ( u i , m j , t ) = α i FN ( u i ) C j ( t ) t - t j P ( t ) ( t - t ij ) - β i
根据泊松过程的计算,可以得到某个关键用户带来的转发数随着时间的概率分布。
(2)对于非关键用户的建模。只在样本数据中统计得到一个经验比例r。它随着三个变量的变化而变化:
a)已知信息的结束时刻tn
b)未来时间段的开始时刻tp
c)未来时间段的长度l。
根据这个经验比例,给定已知一个微博事件和其一定时间段的信息,就可以计算得出未来某时间段内由非关键用户带来的转发数。
接下来对关键用户的参数λ、非关键用户的参数r以及一天内微博创建时间的分布P(k)进行学习和估计。
微博事件的传播链是由转发关系组成的,即转发关系ui→uj代表用户uj转发了ui的一条微博。这种转发关系有下面四种情况:
(1)用户ui和uj都是关键用户;
(2)用户ui是关键用户,用户uj不是关键用户;
(3)用户ui不是关键用户,用户uj是关键用户;
(4)用户ui和uj都不是关键用户。
其中(1)和(2)都构成关键用户带来的转发数,也即转发关键用户的微博而产生的转发数;而(3)和(4)则构成非关键用户带来的转发数,即转发非关键用户的微博而产生的转发数。将样本数据按照这个原则分为由关键用户带来的转发和由非关键用户带来的转发两个部分,分别用于关键用户λ和非关键用户比例r的估计。
对于关键用户λ的估计,只采用关键用户带来的转发数据并采用最大似然估计的方法进行估计和学习。通过极大化下面的似然函数来得到αi,βi的估计值。
f ( α i , β i | m j ) = Π j = 1 M Π k = 1 T n P ( C j ( kδ ) - C j ( ( k - 1 ) δ ) = N j [ k ] | α i , β i )
其中Nj[k]为事件mj在第k个时间段内的由关键用户带来的转发数增量。
对于非关键用户r的估计,使用非关键用户带来的转发数据,按照权利要求4(2)中的方法来进行统计计算。
对于一天内微博创建时间的分布P(k)的估计,使用所有的样本事件数据。在样本事件数据中统计以δ时间间隔来统计一天内微博创建的数量并归一化成为P(k)。
接下来对一个已知一定Tn个时间段发展演化信息的事件进行流行度预测。
要预测第Tp(Tp>Tn)个时间段内的微博事件转发数的增长量。这个增长量包括由关键用户带来的转发数和非关键用户带来的转发数两个部分。
(1)计算关键用户带来的转发数。计算每个关键用户在第Tp个时间段内的λ,其中微博事件的吸引力,使用所有已知时间段长度的微博的吸引力即其他的因素使用相应时刻的值。根据泊松过程的可加性,将每个关键用户的λ加起来即可得到由关键用户带来的转发数在Tp时间段内的大泊松过程的参数λ,即
C j ( Tpδ ) - C j ( ( Tp - 1 ) δ ) ~ P ( δ Σ i λ ( u i , m j , t ij + T p δ ) )
(2)计算非关键用户带来的转发数。按照上述给出的非关键用户带来的转发数比例r的计算方法,根据该比例r,只用计算已知Tn个时间段中参与的非关键用户的个数即可得到第Tp个时间段内的转发数增量,即
C j ( Tpδ ) - C j ( ( Tp - 1 ) δ ) = r ( t n , t p , l ) * N c n .
本发明方法还可以适用于其他社交网络,比如TWITTER,其实施跟微博实施例基本相同的,具体过程不再详细说明。
本发明上述实施例中参数是根据实验的结果进行选取的,即根据人工标注的机器人账户作为学习基准,通过测试不同参数组合达到的识别率,选取了上述识别率较优对应的一组参数,当然,根据实际的需要,对上述参数进行适当调整也是可以实现本发明的目的。
以上所述仅是本发明的优选实施方式,本发明的保护范围不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范畴。应当指出,对于本技术领域的技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也都应视为本发明的保护范围。

Claims (10)

1.一种在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于包括如下步骤:
第一步,选取样本事件,并获取样本事件的传播链;
第二步,用户影响力计算,并筛选影响力大的用户作为关键用户,并将剩下的用户标记为非关键用户;
第三步,将关键用户带来的转发传播过程建模为泊松过程模型,而对非关键用户带来的转发传播过程,仅仅使用样本数据获得一个经验比例值;
第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数,以确定第三步中的模型;
第五步,给定一个已知时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。
2.根据权利要求1所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:上述第一步中,选取样本事件是指:对发生在某一个社交网络平台中的热点事件进行选择,这里的热点事件是指被该社交网络平台或其他热门排行榜列为热点话题;这里的事件通过事件内容的一组关键词来描述,本身是一组内容相近的用户产生内容(UGC)的集合;选取的事件需要反映这个社交网络平台在一定时间段内的所有热点事件信息。
3.根据权利要求2所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述选取样本事件是按照下面的步骤选取的:
(1)周期性的分别从各大热门话题榜各获取前10个热门事件的标题;
(2)用新闻搜索引擎搜索热门事件的标题,获取有关事件更多的文本信息和关键词;
(3)在社交网络的搜索页面中搜索每个事件的关键词,解析出和该事件有关的原创热门UGC;
(4)使用社交网络开放平台提供的API来获取每个事件中的原创UGC的转发链,包括每条UGC的创建时间、文本、作者信息;
(5)检测有规律的发布UGC,发布UGC时间间隔短,重复多次转发同一个社交网络用户的水军账户,删除它们发出的所有UGC。
4.根据权利要求1-3任一项所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述第一步中,获取样本事件的传播链中的传播链是指参与事件传播的社交网络用户的用户产生内容(UGC)之间具有转发关系,这些UGC转发关系构成有向的具有时间性的传播关系链叫UGC传播链;获取传播链是指通过社交网络平台提供的API获取参与事件传播的用户人数大于阈值T2的UGC传播链,T2是任意正整数,T2为0表示获取事件相关的所有传播链,参与人数少的UGC传播链将被舍去。
5.根据权利要求1所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述第二步中,用户的影响力是指该用户在事件传播过程中吸引其他用户参与事件传播的能力,用户影响力跟他的粉丝数、粉丝质量、用户之间的交互、发布用户产生内容(UGC)的转发数,甚至和参与事件的主题有关。
6.根据权利要求5所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述用户的影响力采用基于PageRank的方法计算;或者用户ui的影响力si采用以下方法获得:
(1)计算每个用户在样本事件数据中的发出的UGC数
(2)计算每个用户在样本事件数据中由其一级转发用户产生的UGC转发数
(3)用来代表这样一个用户集合,在这个集合中的每个用户uj发出的UGC的转发数之和都为并且uj至少转发了ui一次,那么用户ui的影响力用下面的式子计算:
s i = Σ n n | U i n | + N i ( 1 )
其中|U|代表用户集合U中的用户数。
7.根据权利要求6所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述关键用户的筛选过程如下:
(1)将用户的影响力设置为0,因为他们参与的事件太少;
(2)根据影响力排序所有的用户,选取前K个作为选择的关键用户Us,而剩下的则作为非关键用户;
阈值Tc和参数K用来控制关键用户的数目以及参与事件的数目,在某一种社交网络平台中Tc=3是一个经验值,K的经验值在104级别。
8.根据权利要求1所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述第三步的模型及其涉及参数如下:
(1)对关键用户的建模:将每个参与事件的关键用户的一级转发过程建模为一个泊松过程,泊松过程的参数只有到达率λ,它代表了单位时间内的用户的一级转发的增加数量,与下面的因素有关:
a)用户自身可以带来的转发数,用用户的活跃粉丝数αiFN(ui)来衡量,其中FN(ui)是用户ui的粉丝数,αi≤1;
b)事件的吸引力,用其转发数的平均增长率来衡量,其中Cj(t)表示事件mj在t时的转发数,tj为事件的起点时刻;
c)用户作息的自然规律,用一天内用户产生内容(UGC)的创建时间分布P(t)来衡量;
d)UGC的可见度,它是指UGC在用户主页上从上到下用户看到的概率依次降低,它用衰减因子来衡量,其中tij表示用户ui在事件mj中的参与时间;
最后λ用下面的式子计算:
λ ( u i , m j , t ) = α i FN ( u i ) C j ( t ) t - t j P ( t ) ( t - t ij ) - β i
根据泊松过程的计算,得到某个关键用户带来的转发数随着时间的概率分布;
(2)对于非关键用户的建模:只在样本数据中统计得到一个经验比例r,它随着三个变量的变化而变化:
a)已知信息的结束时刻tn
b)未来时间段的开始时刻tp
c)未来时间段的长度l;
根据这个经验比例,给定已知一个事件和其一定时间段的信息,计算得出未来某时间段内由非关键用户带来的转发数。
9.根据权利要求8所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:第四步中学习和估计第三步模型中涉及到的关键用户的参数λ、非关键用户的参数r以及一天内UGC创建时间的分布P(k)的方法;
事件的传播链是由转发关系组成的,即转发关系ui→uj代表用户uj转发了ui的一条UGC,这种转发关系有下面四种情况:
(1)用户ui和uj都是关键用户;
(2)用户ui是关键用户,用户uj不是关键用户;
(3)用户ui不是关键用户,用户uj是关键用户;
(4)用户ui和uj都不是关键用户;
其中(1)和(2)都构成关键用户带来的转发数,也即转发关键用户的UGC而产生的转发数;而(3)和(4)则构成非关键用户带来的转发数,即转发非关键用户的UGC而产生的转发数;将样本数据按照这个原则分为由关键用户带来的转发和由非关键用户带来的转发两个部分,分别用于关键用户λ和非关键用户比例r的估计;
对于关键用户λ的估计,只采用关键用户带来的转发数据并采用最大似然估计的方法进行估计和学习,通过极大化下面的似然函数来得到αi,βi的估计值:
f ( α i , β i | m j ) = Π j = 1 M Π k = 1 T n P ( C j ( kδ ) - C j ( ( k - 1 ) δ ) = N j [ k ] | α i , β i )
其中Nj[k]为事件mj在第k个时间段内的由关键用户带来的转发数增量;
对于非关键用户r的估计,使用非关键用户带来的转发数据,按照权利要求8(2)中的方法来进行统计计算;
对于一天内UGC创建时间的分布P(k)的估计,使用所有的样本事件数据;在样本事件数据中统计以δ时间间隔来统计一天内UGC创建的数量并归一化成为P(k)。
10.根据权利要求1所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:第五步中给定一个新的事件以及它的一定时间长度的传播链信息,预测其未来某时间段内的流行度的模型,这里的流行度指以转发数为主要衡量标准的流行度;
把整个事件转发数的增长过程等间隔δ的分为许多时间段,每个时间段内认为所有用户的λ是保持不变的,将事件的起点时刻记为0;假设前Tn个时间段的事件的信息是完全已知的,这包括与事件相关的所有UGC的作者和作者的信息、创建时间、文本信息,如果是转发的UGC还包括转发信息;预测第Tp(Tp>Tn)个时间段内的事件转发数的增长量,这个增长量包括由关键用户带来的转发数和非关键用户带来的转发数两个部分:
(1)计算关键用户带来的转发数:计算每个关键用户在第Tp个时间段内的转发数随着时间的概率分布λ,其中事件的吸引力,使用所有已知时间段长度的UGC的吸引力即其他的因素使用相应时刻的值,根据泊松过程的可加性,将每个关键用户的λ加起来即得到由关键用户带来的转发数在Tp时间段内的大泊松过程的参数λ,即
C j ( Tpδ ) - C j ( ( Tp - 1 ) δ ) ~ P ( δ Σ i λ ( u i , m j , t ij + T p δ ) )
(2)计算非关键用户带来的转发数:根据非关键用户带来的转发数比例r,只用计算已知Tn个时间段中参与的非关键用户的个数即可得到第Tp个时间段内的转发数增量,即
C j ( Tpδ ) - C j ( ( Tp - 1 ) δ ) = r ( t n , t p , l ) * N c n .
CN201410334425.6A 2014-07-14 2014-07-14 在社交网络中基于泊松过程模型的事件流行度预测方法 Active CN104182457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410334425.6A CN104182457B (zh) 2014-07-14 2014-07-14 在社交网络中基于泊松过程模型的事件流行度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410334425.6A CN104182457B (zh) 2014-07-14 2014-07-14 在社交网络中基于泊松过程模型的事件流行度预测方法

Publications (2)

Publication Number Publication Date
CN104182457A true CN104182457A (zh) 2014-12-03
CN104182457B CN104182457B (zh) 2017-08-01

Family

ID=51963498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410334425.6A Active CN104182457B (zh) 2014-07-14 2014-07-14 在社交网络中基于泊松过程模型的事件流行度预测方法

Country Status (1)

Country Link
CN (1) CN104182457B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置
CN104954360A (zh) * 2015-04-17 2015-09-30 腾讯科技(深圳)有限公司 分享内容屏蔽方法及装置
CN105488599A (zh) * 2015-12-29 2016-04-13 杭州数梦工场科技有限公司 预测文章热度的方法和装置
CN105848178A (zh) * 2015-01-16 2016-08-10 中国移动通信集团四川有限公司 一种非授权资源的探测和获取方法及装置
CN106257459A (zh) * 2016-08-03 2016-12-28 哈尔滨工程大学 一种基于关键用户的微博信息传播预测方法
CN106533893A (zh) * 2015-09-09 2017-03-22 腾讯科技(深圳)有限公司 一种消息处理方法及系统
CN107609717A (zh) * 2017-10-12 2018-01-19 南京航空航天大学 社交网络中一种基于Kalman滤波器的帖子转发量预测方法
CN107818514A (zh) * 2016-09-12 2018-03-20 腾讯科技(深圳)有限公司 一种控制在线社交网络信息传播的方法、装置及终端
CN108304867A (zh) * 2018-01-24 2018-07-20 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
WO2019095570A1 (zh) * 2017-11-17 2019-05-23 平安科技(深圳)有限公司 预测事件流行度方法、服务器及计算机可读存储介质
CN109948047A (zh) * 2019-01-18 2019-06-28 中国科学院自动化研究所 基于转移熵的文化基因排序方法与系统及相关设备
CN110287377A (zh) * 2019-05-13 2019-09-27 湖南大学 在线社交网络的增量式组水平的话题流行度预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345524A (zh) * 2013-07-19 2013-10-09 中国地质大学(武汉) 微博热点话题检测方法及系统
CN103617279A (zh) * 2013-12-09 2014-03-05 南京邮电大学 基于Pagerank方法的微博信息传播影响力评估模型的实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345524A (zh) * 2013-07-19 2013-10-09 中国地质大学(武汉) 微博热点话题检测方法及系统
CN103617279A (zh) * 2013-12-09 2014-03-05 南京邮电大学 基于Pagerank方法的微博信息传播影响力评估模型的实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PEI SHEN ETC: "A Probability based Subnet Selection Method for Hot Event Detection in Sina Weibo Microblogging", 《2013 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING》 *
TOMOHARU IWATA ETC: "Discovering Latent Influence in Online Social Activities via Shared Cascade Poisson Processes", 《PROCEEDINGS OF THE 19TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105848178A (zh) * 2015-01-16 2016-08-10 中国移动通信集团四川有限公司 一种非授权资源的探测和获取方法及装置
CN105848178B (zh) * 2015-01-16 2019-12-17 中国移动通信集团四川有限公司 一种非授权资源的探测和获取方法及装置
CN104954360B (zh) * 2015-04-17 2018-09-04 腾讯科技(深圳)有限公司 分享内容屏蔽方法及装置
CN104954360A (zh) * 2015-04-17 2015-09-30 腾讯科技(深圳)有限公司 分享内容屏蔽方法及装置
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置
CN106533893B (zh) * 2015-09-09 2020-11-27 腾讯科技(深圳)有限公司 一种消息处理方法及系统
CN106533893A (zh) * 2015-09-09 2017-03-22 腾讯科技(深圳)有限公司 一种消息处理方法及系统
CN105488599B (zh) * 2015-12-29 2020-03-06 杭州数梦工场科技有限公司 预测文章热度的方法和装置
CN105488599A (zh) * 2015-12-29 2016-04-13 杭州数梦工场科技有限公司 预测文章热度的方法和装置
CN106257459A (zh) * 2016-08-03 2016-12-28 哈尔滨工程大学 一种基于关键用户的微博信息传播预测方法
CN106257459B (zh) * 2016-08-03 2019-11-01 哈尔滨工程大学 一种基于关键用户的微博信息传播预测方法
CN107818514A (zh) * 2016-09-12 2018-03-20 腾讯科技(深圳)有限公司 一种控制在线社交网络信息传播的方法、装置及终端
CN107818514B (zh) * 2016-09-12 2022-01-14 腾讯科技(深圳)有限公司 一种控制在线社交网络信息传播的方法、装置及终端
CN107609717A (zh) * 2017-10-12 2018-01-19 南京航空航天大学 社交网络中一种基于Kalman滤波器的帖子转发量预测方法
WO2019095570A1 (zh) * 2017-11-17 2019-05-23 平安科技(深圳)有限公司 预测事件流行度方法、服务器及计算机可读存储介质
CN108304867B (zh) * 2018-01-24 2021-09-10 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN108304867A (zh) * 2018-01-24 2018-07-20 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN109948047B (zh) * 2019-01-18 2021-09-28 中国科学院自动化研究所 基于转移熵的文化基因排序方法与系统及相关设备
CN109948047A (zh) * 2019-01-18 2019-06-28 中国科学院自动化研究所 基于转移熵的文化基因排序方法与系统及相关设备
CN110287377A (zh) * 2019-05-13 2019-09-27 湖南大学 在线社交网络的增量式组水平的话题流行度预测方法
CN110287377B (zh) * 2019-05-13 2021-11-23 湖南大学 在线社交网络的增量式组水平的话题流行度预测方法

Also Published As

Publication number Publication date
CN104182457B (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
CN104182457A (zh) 在社交网络中基于泊松过程模型的事件流行度预测方法
CN104216954B (zh) 突发事件话题状态的预测装置及预测方法
CN106682770B (zh) 一种基于好友圈子的动态微博转发行为预测系统及方法
CN102394798B (zh) 一种基于多元特征的微博信息传播行为预测方法及系统
Lakkaraju et al. What's in a name? understanding the interplay between titles, content, and communities in social media
CN103150374B (zh) 一种识别微博异常用户的方法和系统
De Choudhury et al. Can blog communication dynamics be correlated with stock market activity?
Kalampokis et al. Combining social and government open data for participatory decision-making
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
Joho et al. Overview of NTCIR-11 Temporal Information Access (Temporalia) Task.
CN104133837A (zh) 一种基于分布式计算的互联网信息投放渠道优化系统
CN102012929A (zh) 网络舆情预测方法及系统
CN102663101A (zh) 一种基于新浪微博的用户等级排序算法
CN110781411B (zh) 一种基于辟谣消息的谣言传播控制方法
Uddin et al. Predicting the popularity of online news from content metadata
CN104133897A (zh) 一种基于话题影响力的微博话题溯源方法
CN110995485B (zh) 一种无拓扑结构的社交消息传播范围预测方法
CN104901847A (zh) 一种社交网络僵尸账号检测方法及装置
Bae et al. Predicting the lifespan and retweet times of tweets based on multiple feature analysis
Li et al. A hybrid model for experts finding in community question answering
Guille et al. Predicting the temporal dynamics of information diffusion in social networks
WO2021210992A9 (en) Systems and methods for determining entity attribute representations
Li et al. Lifecycle research of social media rumor refutation effectiveness based on machine learning and visualization technology
Mahmud et al. When will you answer this? estimating response time in twitter
CN102508918A (zh) 一种搜索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181009

Address after: 211299 No. 368 zhe Ning Road, zhe Tang Town, Lishui Economic Development Zone, Nanjing, Jiangsu

Patentee after: Nanjing Ji Yun Information technology company limited

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Patentee before: Shanghai Jiao Tong University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190102

Address after: 201100 Shanghai Minhang District, Jianchuan Road 951 Building 5 1 Floor

Patentee after: SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD

Address before: 211299 No. 368 zhe Ning Road, zhe Tang Town, Lishui Economic Development Zone, Nanjing, Jiangsu

Patentee before: Nanjing Ji Yun Information technology company limited

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190814

Address after: 201100 Shanghai Minhang District, Jianchuan Road 951 Building 5 1 Floor

Co-patentee after: Xiamen Shang Ji Network Technology Co., Ltd.

Patentee after: SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD

Address before: 201100 Shanghai Minhang District, Jianchuan Road 951 Building 5 1 Floor

Patentee before: SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD