CN103761292A - 基于用户转发行为的微博阅读概率计算方法 - Google Patents

基于用户转发行为的微博阅读概率计算方法 Download PDF

Info

Publication number
CN103761292A
CN103761292A CN201410020499.2A CN201410020499A CN103761292A CN 103761292 A CN103761292 A CN 103761292A CN 201410020499 A CN201410020499 A CN 201410020499A CN 103761292 A CN103761292 A CN 103761292A
Authority
CN
China
Prior art keywords
microblogging
user
probability
time
time point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410020499.2A
Other languages
English (en)
Other versions
CN103761292B (zh
Inventor
宋丹丹
杜建光
廖乐健
礼欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201410020499.2A priority Critical patent/CN103761292B/zh
Publication of CN103761292A publication Critical patent/CN103761292A/zh
Application granted granted Critical
Publication of CN103761292B publication Critical patent/CN103761292B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于用户转发行为的微博阅读概率计算方法,用于计算在一段给定的时间范围(T1,T2)内,一用户H的好友发送的一条微博Wx,其发送时间用tx表示,T1<tx<T2,被用户H阅读的概率,其具体操作步骤如下:首先,在给定的时间范围(T1,T2)内,查找时间tx之前用户H转发的最后一条微博Wi的原始发送时间点ti,以及时间tx之后用户H转发的第一条微博Wj的原始转发时间点tj;同时获取微博Wi的转发时间点ti′,和微博Wj的转发时间点t′j。然后,按照ti、ti′、tj和t′j的时间顺序,将ti、ti′、tj、t′j的关系分为6种情况。最后,分别按照6种情况计算微博Wx被用户H阅读的概率。使用本发明提出的基于用户转发行为的微博阅读概率计算方法计算微博的阅读概率,可以更准确的衡量用户的属性,方便其它微博应用,如:推荐系统、虚拟广告等。

Description

基于用户转发行为的微博阅读概率计算方法
技术领域
本发明涉及一种基于用户转发行为的微博阅读概率计算方法,属于计算机应用技术领域。
背景技术
随着在线社交网络的高速发展,微博这种新型的社交网络在人们的生活中发挥着越来越重要的作用。因此,在微博中进行用户行为分析逐渐成为一个新兴的热点研究方向。
在已有研究中,关于用户行为的分析侧重于在微博中进行统计分析,例如:认证用户的个数、活跃用户的个数、用户的地理位置分布、用户每天发的微博个数与时间的关系、用户回复和转发情况等。在这些统计数据上进一步进行数据挖掘对微博中的应用,如:推荐系统、虚拟广告等都具有重要意义。
阅读行为和转发行为都属于用户行为。用户阅读其好友所发的微博,同时转发有意义的微博。现实中,用户往往关注许多好友,这些好友每天会发表大量的微博。因此,对一个用户而言,其能够阅读的微博数量巨大,而用户每天有特定的活动规律,因此这些微博中,有些微博有较大的可能性被阅读,而有些微博被阅读的可能性会很低。
近些年来,虽然研究人员做了大量关于社交网络的研究。但还没有研究人员根据用户的行为,研究其好友所发微博被阅读的概率。早期,研究人员根据用户的被关注程度计算用户的影响力,随后研究人员通过分析用户行为(转发、回复、提到)来计算用户的影响力,结果表明分别通过用户转发行为、用户回复发行为和用户提到()行为计算得到的用户影响力结果之间能够很好的相互关联,而这三个结果与通过被关注数计算得到的用户影响力不相关联,这表明通过被关注数计算得到的用户影响力的准确度更低。但分别通过用户转发行为、用户回复发行为和用户提到行为计算得到的用户影响力的方法存在一个明显的缺陷:这些研究没有更深层次的考虑用户的阅读行为。例如:用户每天查看微博的上线习惯。
用户阅读微博有一定的习惯,例如:当用户在浏览微博时,这些微博是按照时间倒序排列的。通常情况下,用户会从上到下阅读微博。当阅读完一页的时候,通过点击“更多”按钮阅读更早的微博。一旦遇到感兴趣的微博,用户会选择转发。根据这些习惯,2010年CIKM会议上,Zi Yang等人将用户好友所发的微博分为三类:转发、错过、忽略,并将这些习惯作为一个特征,系统的研究了转发行为的内在机制。
总体而言,已有的研究存在以下问题:
(1)在计算用户影响力时没有考虑用户的行为习惯。导致这种计算方法不能很好的刻画用户的阅读行为。例如在极端情况下,用户好友会发表大量的微博,对用户而言阅读到所有的微博是不可能的。
(2)虽然一些研究考虑了用户的阅读行为习惯,但是没有更深进一步的研究这些阅读习惯。
发明内容
本发明的目的是在于针对现有技术的缺点,提供一种基于用户转发行为的微博阅读概率计算方法。
一种基于用户转发行为的微博阅读概率计算方法,用于计算在一段给定的时间范围内(用符号(T1,T2)表示,其中T1、T2之间的时间间隔不小于1小时),一用户(用符号H表示)的好友发送的一条微博(用符号Wx表示,其发送时间用tx表示,T1<tx<T2)被用户H阅读的概率(用符号P(Wx)表示),其具体操作步骤如下:
步骤一、在给定的时间范围(T1,T2)内,查找时间tx之前用户H转发的最后一条微博(用符号Wi表示)的原始发送时间点(用符号ti表示,T1<ti<tx),以及时间tx之后用户H转发的第一条微博(用符号Wj表示)的原始转发时间点(用符号tj表示,tx<tj<T2);同时获取微博Wi的转发时间点(用符号ti′表示,T1<ti′<T2)和微博Wj的转发时间点(用符号t′j表示,T1<tj′<T2)。
步骤二、在步骤一操作的基础上,按照微博Wi的原始发送时间点ti、转发时间点ti′,以及微博Wj的原始发送时间点tj和转发时间点t′j的时间顺序,将ti、ti′、tj、t′j的关系分为以下6种情况:
情况1:T1<ti<tj<t'j<ti'<T2
情况2:T1<ti<ti'<tj<t'j<T2
情况3:T1<ti<tj<ti'<t'j<T2
情况4:在时间范围(T1,T2)内,在时间tx之前未查找到用户H转发的最后一条微博Wi,即不存在ti和ti′,但在时间tx之后查找到用户H转发的第一条微博Wj,且T1<tj<t'j<T2
情况5:在时间范围(T1,T2)内,在时间tx之后未查找到用户H转发的第一条微博Wj,即不存在tj和t′j,但在时间tx之前查找到用户H转发的最后一条微博Wi,且T1<ti<ti'<T2
情况6:在时间范围(T1,T2)内,在时间tx之前未查找到用户H转发的最后一条微博Wi,同时在时间tx之后未查找到用户H转发的第一条微博Wj,即ti、ti′、tj、t′j都不存在。
步骤三、在步骤二操作的基础上,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况1时,则认为用户H在ti≤tx≤tj时间范围内持续在阅读微博,因此判断用户H一定能阅读到微博Wx,因此微博Wx被用户H阅读的概率函数如公式(1)所示。
P(Wx)=1   (1)
步骤四、在步骤二操作的基础上,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况2时,则认为用户H在(ti,t'j)时间范围内有2次阅读过程。所述一次阅读过程是指在一段连续的时间范围内,用户持续在微博页面上从上向下阅读微博的过程。
用户H在(ti,t'j)时间范围内的第1次阅读过程的开始时间为(ti,ti')中的某一时刻,在此阅读过程中用户H转发了微博Wi;用户H在(ti,t'j)时间范围内的第2次阅读过程的开始时间为(tj,t'j)中的某一时刻,在此阅读过程中用户H转发了微博Wj
在第1次阅读过程中,用户在ti′时刻转发了发布在ti时刻的微博Wi,因此微博Wi被用户H读到的概率为1。由于第1次阅读过程的开始时间在ti与ti′之间,因此,发布在ti′时刻的微博在第1次阅读过程中被用户的读到的概率为0。因此,当ti≤tx≤ti'时,微博Wx被用户H阅读的概率函数是递减的,微博Wx被用户H阅读的概率可通过公式(2)得到。
P ( W x ) = t i &prime; - t x t i &prime; - t i , t i &le; t x &le; t i &prime; - - - ( 2 )
在第2次阅读过程中,用户在tj′时刻转发了发表在tj时刻的微博Wj,因此微博Wj被用户H读到的概率为1。由于用户在前一次阅读过程中已经阅读了发布在ti时刻的微博,因此,在此次阅读过程中,ti时刻和早于ti时刻的微博的阅读概率都为0。因此,当ti≤tx≤tj,微博Wx被用户H阅读的概率函数可通过公式(3)计算得到。
P ( W x ) = t x - t i t j - t i , t i &le; t x &le; t j - - - ( 3 )
当微博Wx的阅读概率可以通过公式(2)和公式(3)分别计算并得到两个不同值时,取其中较大的值作为微博Wx的阅读概率。因此,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况2时,可通过公式(4)获得发布在时刻tx的微博Wx被用户H阅读的概率函数,其中ti≤tx≤tj
P ( W x ) = max ( t i &prime; - t x t i &prime; - t i , t x - t i t j - t i ) , t i &le; t x &le; t i &prime; t x - t i t j - t i , t i &prime; < t x &le; t j - - - ( 4 )
步骤五、在步骤二操作的基础上,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况3时,认为用户H在(ti,t'j)时间范围内有2次阅读过程。
用户H在(ti,t'j)时间范围内的第1次阅读过程的开始时间为(ti,ti')中的某一时刻,在此阅读过程中用户H转发了微博Wi;用户H在(ti,t'j)时间范围内的第2次阅读过程的开始时间为(tj,t'j)中的某一时刻,在此阅读过程中用户H转发了微博Wj
在第1次阅读过程中,用户在ti′时刻转发了发布在ti时刻的微博Wi,因此微博Wi被用户H读到的概率为1。由于这次阅读过程的开始时间介于ti与ti′之间,而且微博Wj在第2次阅读过程中被转发,所以,这次阅读过程的开始时间介于ti与tj之间。因此发布在tj时刻的微博在这次阅读过程中被用户的读到的概率为0。因此,当ti≤tx≤tj时,微博Wx被用户H阅读的概率可通过公式(5)得到。
P ( W x ) = t j - t x t j - t i , t i &le; t x &le; t j - - - ( 5 )
在第2次阅读过程中,用户在tj′时刻转发了发表在tj时刻的微博Wj,因此微博Wj被用户H读到的概率为1。由于用户在前一次阅读过程中已经阅读了发布在ti时刻的微博,因此,在此次阅读过程中,ti时刻和早于ti时刻的微博的阅读概率都为0。因此,当ti≤tx≤tj,则微博Wx被用户H阅读的概率函数可通过公式(6)计算得到。
P ( W x ) = t x - t i t j - t i , t i &le; t x &le; t j - - - ( 6 )
当微博Wx的阅读概率可以通过公式(5)和公式(6)分别计算并得到两个不同值时,取其中较大的值作为Wx的阅读概率。因此,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况3时,可通过公式(7)获得发布在时刻tx的微博Wx被用户H阅读的概率函数,其中ti≤tx≤tj
P ( W x ) =max ( t j - t x t j - t i , t x - t i t j - t i ) , t i &le; t x &le; t j - - - ( 7 )
步骤六、在步骤二操作的基础上,当微博Wi不存在,微博Wj存在,并且tj、t′j满足步骤二中所述情况4时,即微博Wj为用户H在时间段(T1,T2)内转发的第一条微博。由于用户在tj′时刻转发了发表在tj时刻的微博Wj,因此微博Wj被用户H读到的概率为1。因此从时间点tj到时间点T1之间的微博被用户H读到的概率是递减的,此时发布在时刻tx的微博Wx被用户H阅读的概率可通过公式(8)计算得到。
P ( W x ) = t x - T 1 t j - T 1 , T 1 &le; t x &le; t j - - - ( 8 )
步骤七、在步骤二操作的基础上,当微博Wj不存在,微博Wi存在,并且ti、ti′满足步骤二中所述情况5时,即微博Wi为用户H在时间段(T1,T2)内转发的最后一条微博。由于用户在ti′时刻转发了发表在ti时刻的微博Wi,因此微博Wj被用户H读到的概率为1。因此从时间点ti到时间点ti′之间的微博被用户H读到的概率是递减的,此时发布在时刻tx的微博Wx被用户H阅读的概率可通过公式(9)计算得到。
P ( W x ) = t i &prime; - t x t i &prime; - t i , t i &le; t x &le; t i &prime; 0 , t i &prime; < t x < T 2 - - - ( 9 )
步骤八、在步骤二操作的基础上,当微博Wi与Wj都不存在,用户H在时间段(T1,T2)内没有转发微博,即为情况6所述。由于用户H在此时间内没有转发微博,因此此段时间内微博Wi被用户H阅读的概率都为0。其概率函数,如公式(10)所示。
P(Wx)=0,T1<tx<T2   (10)
通过上述步骤的操作,即可得到(T1,T2)时间范围内,用户H的好友发送的微博Wx被用户H阅读的概率P(Wx)。
有益效果
使用本发明提出的基于用户转发行为的微博阅读概率计算方法计算微博的阅读概率,可以更准确的衡量用户的属性,方便其它微博应用,如:推荐系统、虚拟广告等。
具体实施方式
为了更好的说明本发明的技术方案,下面通过6个实施例,对本发明做进一步说明。
实施例中以Twitter中的一个实例用户数据为例。设置数据集起始时间T1为:2009-08-1400:00:00;终止时间T2为:2009-08-2600:00:00。将用户转发信息进行抽取,得到的内容如表1所示。
表1用户转发信息表
原始发送人 原始发送时间 转发人 转发时间
alexblagg 2009-08-1401:04:43 10bagspacking 2009-08-1401:43:06
lisacongdon 2009-08-1401:10:50 10bagspacking 2009-08-1401:42:46
chrisgeidner 2009-08-1715:45:27 10bagspacking 2009-08-2017:26:27
schmange19 2009-08-2017:26:20 10bagspacking 2009-08-2020:00:34
表1中第一行数据显示了用户10bagspacking在2009-08-14的01:43:06时刻转发了其好友alexblagg发表在2009-08-14的01:04:43时刻发送的微博;第二行数据显示了用户10bagspacking在2009-08-14的01:42:46时刻转发了其好友lisacongdon发表在2009-08-14的01:10:50时刻发送的微博;第三行数据显示了用户10bagspacking在2009-08-20的17:26:27时刻转发了其好友chrisgeidner发表在2009-08-17的15:45:27时刻发送的微博;第四行数据显示了用户10bagspacking在2009-08-20的20:00:34时刻转发了其好友schmange19发表在2009-08-20的17:26:20时刻发送的微博。
同时抽取到用户10bagspacking的好友fmanjoo在(T1,T2)内发布的5条微博的时间,如表2所示。
表2用户fmanjoo在(T1,T2)内发布5条微博的时间信息
微博代号 原始发送时间
W1 2009-08-1400:18:24
W2 2009-08-1401:06:09
W3 2009-08-1404:19:29
W4 2009-08-1417:21:51
W5 2009-08-1619:05:53
实施例1:
计算用户10bagspacking的好友fmanjoo在tx时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx),此时tx为2009-08-1400:18:24,Wx为W1
步骤一、在表1中查找时间tx之前用户10bagspacking最后一次转发的微博,表1中未能找到时间tx之前用户10bagspacking最后一次转发的微博。在表1中查找时间tx之后用户10bagspacking第一次转发微博Wj的原始发送时间点tj=2009-08-1401:04:43,微博Wj的转发时间点tj′=2009-08-1401:43:06。
步骤二、在步骤一操作的基础上,根据微博Wj的原始发送时间点tj和转发时间点t′j的时间顺序,判断其符合情况4。
步骤六、微博Wx被用户10bagspacking阅读的概率可通过公式(8)计算:
P ( W x ) = t x - T 1 t j - T 1 = 2009 - 08 - 1400 : 18 : 24 &prime; &prime; &prime; &prime; - 2009 - 08 - 1400 : 00 : 00 &prime; &prime; &prime; &prime; 2009 - 08 - 1401 : 04 : 43 &prime; &prime; &prime; &prime; - 2009 - 08 - 1400 : 00 : 00 &prime; &prime; &prime; &prime; &ap; 0.2843
即用户10bagspacking的好友fmanjoo在2009-08-1400:18:24时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx)约为28.43%。
实施例2:
计算用户10bagspacking的好友fmanjoo在tx时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx),此时tx为2009-08-1401:06:09,Wx为W2
步骤一、在表1中查找时间tx之前用户10bagspacking最后一次转发的微博的原始发送时间点ti=2009-08-1401:04:43,微博Wi的转发时间点ti′=2009-08-1401:43:06。在表1中查找时间tx之后用户10bagspacking第一次转发微博Wj的原始发送时间点tj=2009-08-1401:10:50,微博Wj的转发时间点tj′=2009-08-1401:42:46。
步骤二、在步骤一操作的基础上,根据微博Wi的原始发送时间点ti、转发时间点ti′,以及微博Wj的原始发送时间点tj和转发时间点t′j的时间顺序,判断其符合情况1。
步骤三、微博Wx被用户10bagspacking阅读的概率可通过公式(1)计算:
P(Wx)=1
即用户10bagspacking的好友fmanjoo在2009-08-1401:06:09时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx)为100%。
实施例3:
计算用户10bagspacking的好友fmanjoo在tx时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx),此时tx为2009-08-1404:19:29,Wx为W3
步骤一、在表1中查找时间tx之前用户10bagspacking最后一次转发的微博的原始发送时间点ti=2009-08-1401:10:50,微博Wi的转发时间点ti′=2009-08-1401:42:46。在表1中查找时间tx之后用户10bagspacking第一次转发微博Wj的原始发送时间点tj=2009-08-1715:45:27,微博Wj的转发时间点tj′=2009-08-2017:26:27。
步骤二、在步骤一操作的基础上,根据微博Wi的原始发送时间点ti、转发时间点ti′,以及微博Wj的原始发送时间点tj和转发时间点t′j的时间顺序,判断其符合情况2。
步骤四、微博Wx被用户10bagspacking阅读的概率可通过公式(4)计算,由于tx>ti′,因此:
P ( W x ) = t x - t i t j - t i = 2009 - 08 - 1404 : 19 : 29 &prime; &prime; &prime; &prime; - 2009 - 08 - 1401 : 10 : 50 &prime; &prime; &prime; &prime; 2009 - 08 - 1715 : 45 : 27 &prime; &prime; &prime; &prime; - 2009 - 08 - 1401 : 10 : 50 &prime; &prime; &prime; &prime; &ap; 0.0363
即用户10bagspacking的好友fmanjoo在2009-08-1404:19:29时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx)约为3.63%。
实施例4:
计算用户10bagspacking的好友fmanjoo在tx时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx),此时tx为2009-08-1717:21:51,Wx为W4
步骤一、在表1中查找时间tx之前用户10bagspacking最后一次转发的微博的原始发送时间点ti=2009-08-1715:45:27,微博Wi的转发时间点ti′=2009-08-2017:26:27。在表1中查找时间tx之后用户10bagspacking第一次转发微博Wj的原始发送时间点tj=2009-08-2017:26:20,微博Wj的转发时间点tj′=2009-08-2020:00:34。
步骤二、在步骤一操作的基础上,根据微博Wi的原始发送时间点ti、转发时间点ti′,以及微博Wj的原始发送时间点tj和转发时间点t′j的时间顺序,判断其符合情况3。
步骤五、微博Wx被用户10bagspacking阅读的概率可通过公式(7)计算:
P ( W x ) = max ( t j - t x t j - t i , t x - t i t j - t i ) = t j - t x t j - t i = 2009 - 08 - 2017 : 26 : 20 &prime; &prime; &prime; &prime; - 2009 - 08 - 1717 : 21 : 51 &prime; &prime; &prime; &prime; 2009 - 08 - 2017 : 26 : 20 &prime; &prime; &prime; &prime; - 2009 - 08 - 1715 : 45 : 27 &prime; &prime; &prime; &prime; &ap; 0.9782
即用户10bagspacking的好友fmanjoo在2009-08-1717:21:51时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx)约为97.82%。
实施例5:
计算用户10bagspacking的好友fmanjoo在tx时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx),此时tx为2009-08-2019:05:53,Wx为W5
步骤一、在表1中查找时间tx之前用户10bagspacking最后一次转发的微博Wi的原始发送时间点ti=2009-08-2017:26:20,微博Wj的转发时间点ti′=2009-08-2020:00:34。,表1中未能找到时间tx之后用户10bagspacking第一次转发的微博。
步骤二、在步骤一操作的基础上,根据微博Wi的原始发送时间点ti和转发时间点ti′的时间顺序,判断其符合情况5。
步骤七、微博Wx被用户10bagspacking阅读的概率可通过公式(9)计算,由于ti≤tx≤ti',因此:
P ( W x ) = t i &prime; - t x t i &prime; - t i = 2009 - 08 - 2020 : 00 : 34 &prime; &prime; &prime; &prime; - 2009 - 08 - 2019 : 05 : 53 &prime; &prime; &prime; &prime; 2009 - 08 - 2020 : 00 : 34 &prime; &prime; &prime; &prime; - 2009 - 08 - 2017 : 26 : 20 &prime; &prime; &prime; &prime; &ap; 0.03545
即用户10bagspacking的好友fmanjoo在2009-08-2019:05:53时刻发送的微博Wx被用户10bagspacking阅读的概率P(Wx)约为35.45%。
实施例6:
在(T1,T2)时间范围内,另一用户waleedovase没有转发任何微博。
计算用户waleedovase的好友fmanjoo在(T1,T2)时间范围内的tx时刻发送的微博Wx被用户waleedovase阅读的概率P(Wx)。
步骤一、未能找到时间tx之前用户waleedovase最后一次转发的微博。也未能找到时间tx之后用户waleedovase第一次转发的微博。
步骤二、在步骤一操作的基础上,判断其符合情况6。
步骤八、微博Wx被用户H阅读的概率可通过公式(10)计算:
P(Wx)=0
即用户waleedovase的好友fmanjoo在(T1,T2)时间范围内发送的微博Wx被用户waleedovase阅读的概率P(Wx)为0。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于用户转发行为的微博阅读概率计算方法,用于计算在一段给定的时间范围内,一用户H的好友发送的一条微博Wx,被用户H阅读的概率P(Wx),其中:一段给定的时间范围用符号(T1,T2)表示,T1、T2之间的时间间隔不小于1小时;微博Wx的发送时间用tx表示,T1<tx<T2;其特征在于:其具体操作步骤如下:
步骤一、在给定的时间范围(T1,T2)内,查找时间tx之前用户H转发的最后一条微博Wi的原始发送时间点ti,T1<ti<tx,以及时间tx之后用户H转发的第一条微博Wj的原始转发时间点tj,tx<tj<T2;同时获取微博Wi的转发时间点ti′,T1<ti′<T2和微博Wj的转发时间点t′j,T1<tj′<T2
步骤二、在步骤一操作的基础上,按照微博Wi的原始发送时间点ti、转发时间点ti′,以及微博Wj的原始发送时间点tj和转发时间点t′j的时间顺序,将ti、ti′、tj、t′j的关系分为以下6种情况:
情况1:T1<ti<tj<t'j<ti'<T2
情况2:T1<ti<ti'<tj<t'j<T2
情况3:T1<ti<tj<ti'<t'j<T2
情况4:在时间范围(T1,T2)内,在时间tx之前未查找到用户H转发的最后一条微博Wi,即不存在ti和ti′,但在时间tx之后查找到用户H转发的第一条微博Wj,且T1<tj<t'j<T2
情况5:在时间范围(T1,T2)内,在时间tx之后未查找到用户H转发的第一条微博Wj,即不存在tj和t′j,但在时间tx之前查找到用户H转发的最后一条微博Wi,且T1<ti<ti'<T2
情况6:在时间范围(T1,T2)内,在时间tx之前未查找到用户H转发的最后一条微博Wi,同时在时间tx之后未查找到用户H转发的第一条微博Wj,即ti、ti′、tj、t′j都不存在;
步骤三、在步骤二操作的基础上,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况1时,则认为用户H在ti≤tx≤tj时间范围内持续在阅读微博,因此判断用户H一定能阅读到微博Wx,因此微博Wx被用户H阅读的概率函数如公式(1)所示;
P(Wx)=1   (1)
步骤四、在步骤二操作的基础上,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况2时,则认为用户H在(ti,t'j)时间范围内有2次阅读过程;所述一次阅读过程是指在一段连续的时间范围内,用户持续在微博页面上从上向下阅读微博的过程;
用户H在(ti,t'j)时间范围内的第1次阅读过程的开始时间为(ti,ti')中的某一时刻,在此阅读过程中用户H转发了微博Wi;用户H在(ti,t'j)时间范围内的第2次阅读过程的开始时间为(tj,t'j)中的某一时刻,在此阅读过程中用户H转发了微博Wj
在第1次阅读过程中,用户在ti′时刻转发了发布在ti时刻的微博Wi,因此微博Wi被用户H读到的概率为1;由于第1次阅读过程的开始时间在ti与ti′之间,因此,发布在ti′时刻的微博在第1次阅读过程中被用户的读到的概率为0;因此,当ti≤tx≤ti'时,微博Wx被用户H阅读的概率函数是递减的,微博Wx被用户H阅读的概率可通过公式(2)得到;
P ( W x ) = t i &prime; - t x t i &prime; - t i , t i &le; t x &le; t i &prime; - - - ( 2 )
在第2次阅读过程中,用户在tj′时刻转发了发表在tj时刻的微博Wj,因此微博Wj被用户H读到的概率为1;由于用户在前一次阅读过程中已经阅读了发布在ti时刻的微博,因此,在此次阅读过程中,ti时刻和早于ti时刻的微博的阅读概率都为0;因此,当ti≤tx≤tj,微博Wx被用户H阅读的概率函数可通过公式(3)计算得到;
P ( W x ) = t x - t i t j - t i , t i &le; t x &le; t j - - - ( 3 )
当微博Wx的阅读概率可以通过公式(2)和公式(3)分别计算并得到两个不同值时,取其中较大的值作为微博Wx的阅读概率;因此,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况2时,可通过公式(4)获得发布在时刻tx的微博Wx被用户H阅读的概率函数,其中ti≤tx≤tj
P ( W x ) = max ( t i &prime; - t x t i &prime; - t i , t x - t i t j - t i ) , t i &le; t x &le; t i &prime; t x - t i t j - t i , t i &prime; < t x &le; t j - - - ( 4 )
步骤五、在步骤二操作的基础上,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况3时,认为用户H在(ti,t'j)时间范围内有2次阅读过程;
用户H在(ti,t'j)时间范围内的第1次阅读过程的开始时间为(ti,ti')中的某一时刻,在此阅读过程中用户H转发了微博Wi;用户H在(ti,t'j)时间范围内的第2次阅读过程的开始时间为(tj,t'j)中的某一时刻,在此阅读过程中用户H转发了微博Wj
在第1次阅读过程中,用户在ti′时刻转发了发布在ti时刻的微博Wi,因此微博Wi被用户H读到的概率为1;由于这次阅读过程的开始时间介于ti与ti′之间,而且微博Wj在第2次阅读过程中被转发,所以,这次阅读过程的开始时间介于ti与tj之间;因此发布在tj时刻的微博在这次阅读过程中被用户的读到的概率为0;因此,当ti≤tx≤tj时,微博Wx被用户H阅读的概率可通过公式(5)得到;
P ( W x ) = t j - t x t j - t i , t i &le; t x &le; t j - - - ( 5 )
在第2次阅读过程中,用户在tj′时刻转发了发表在tj时刻的微博Wj,因此微博Wj被用户H读到的概率为1;由于用户在前一次阅读过程中已经阅读了发布在ti时刻的微博,因此,在此次阅读过程中,ti时刻和早于ti时刻的微博的阅读概率都为0;因此,当ti≤tx≤tj,则微博Wx被用户H阅读的概率函数可通过公式(6)计算得到;
P ( W x ) = t x - t i t j - t i , t i &le; t x &le; t j - - - ( 6 )
当微博Wx的阅读概率可以通过公式(5)和公式(6)分别计算并得到两个不同值时,取其中较大的值作为Wx的阅读概率;因此,当微博Wi的原始发送时间点ti、转发时间点ti′、微博Wj的原始发送时间点tj和转发时间点t′j之间的关系为步骤二中所述情况3时,可通过公式(7)获得发布在时刻tx的微博Wx被用户H阅读的概率函数,其中ti≤tx≤tj
P ( W x ) =max ( t j - t x t j - t i , t x - t i t j - t i ) , t i &le; t x &le; t j - - - ( 7 )
步骤六、在步骤二操作的基础上,当微博Wi不存在,微博Wj存在,并且tj、t′j满足步骤二中所述情况4时,即微博Wj为用户H在时间段(T1,T2)内转发的第一条微博;由于用户在tj′时刻转发了发表在tj时刻的微博Wj,因此微博Wj被用户H读到的概率为1;因此从时间点tj到时间点T1之间的微博被用户H读到的概率是递减的,此时发布在时刻tx的微博Wx被用户H阅读的概率可通过公式(8)计算得到;
P ( W x ) = t x - T 1 t j - T 1 , T 1 &le; t x &le; t j - - - ( 8 )
步骤七、在步骤二操作的基础上,当微博Wj不存在,微博Wi存在,并且ti、ti′满足步骤二中所述情况5时,即微博Wi为用户H在时间段(T1,T2)内转发的最后一条微博;由于用户在ti′时刻转发了发表在ti时刻的微博Wi,因此微博Wj被用户H读到的概率为1;因此从时间点ti到时间点ti′之间的微博被用户H读到的概率是递减的,此时发布在时刻tx的微博Wx被用户H阅读的概率可通过公式(9)计算得到;
P ( W x ) = t i &prime; - t x t i &prime; - t i , t i &le; t x &le; t i &prime; 0 , t i &prime; < t x < T 2 - - - ( 9 )
步骤八、在步骤二操作的基础上,当微博Wi与Wj都不存在,用户H在时间段(T1,T2)内没有转发微博,即为情况6所述;由于用户H在此时间内没有转发微博,因此此段时间内微博Wi被用户H阅读的概率都为0;其概率函数,如公式(10)所示;
P(Wx)=0,T1<tx<T2   (10)
通过上述步骤的操作,即可得到(T1,T2)时间范围内,用户H的好友发送的微博Wx被用户H阅读的概率P(Wx)。
CN201410020499.2A 2014-01-16 2014-01-16 基于用户转发行为的微博阅读概率计算方法 Expired - Fee Related CN103761292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410020499.2A CN103761292B (zh) 2014-01-16 2014-01-16 基于用户转发行为的微博阅读概率计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410020499.2A CN103761292B (zh) 2014-01-16 2014-01-16 基于用户转发行为的微博阅读概率计算方法

Publications (2)

Publication Number Publication Date
CN103761292A true CN103761292A (zh) 2014-04-30
CN103761292B CN103761292B (zh) 2017-01-18

Family

ID=50528529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410020499.2A Expired - Fee Related CN103761292B (zh) 2014-01-16 2014-01-16 基于用户转发行为的微博阅读概率计算方法

Country Status (1)

Country Link
CN (1) CN103761292B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112207A (zh) * 2014-07-29 2014-10-22 浪潮软件集团有限公司 一种基于互联网数据的电子商务交易监测方法
CN107180106A (zh) * 2017-06-06 2017-09-19 中国人民解放军国防科学技术大学 一种基于用户行为序列的相互影响力快速度量方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982381A (zh) * 2012-12-06 2013-03-20 湖南蚁坊软件有限公司 一种微博传播影响面的管理系统及方法
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
US20130151562A1 (en) * 2010-07-08 2013-06-13 Hitachi, Ltd. Method of calculating feature-amount of digital sequence, and apparatus for calculating feature-amount of digital sequence
CN103179198A (zh) * 2012-11-02 2013-06-26 中国人民解放军国防科学技术大学 基于多关系网络的话题影响力个体挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130151562A1 (en) * 2010-07-08 2013-06-13 Hitachi, Ltd. Method of calculating feature-amount of digital sequence, and apparatus for calculating feature-amount of digital sequence
CN103179198A (zh) * 2012-11-02 2013-06-26 中国人民解放军国防科学技术大学 基于多关系网络的话题影响力个体挖掘方法
CN102982381A (zh) * 2012-12-06 2013-03-20 湖南蚁坊软件有限公司 一种微博传播影响面的管理系统及方法
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112207A (zh) * 2014-07-29 2014-10-22 浪潮软件集团有限公司 一种基于互联网数据的电子商务交易监测方法
CN107180106A (zh) * 2017-06-06 2017-09-19 中国人民解放军国防科学技术大学 一种基于用户行为序列的相互影响力快速度量方法
CN107180106B (zh) * 2017-06-06 2021-01-01 中国人民解放军国防科学技术大学 一种基于用户行为序列的相互影响力快速度量方法

Also Published As

Publication number Publication date
CN103761292B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
US20210026910A1 (en) Expert Detection in Social Networks
CN103678613B (zh) 一种计算影响力数据的方法与装置
JP5560367B2 (ja) ネットワーク内の友人の動的情報を管理するための方法、システムおよびサーバ
US20180365710A1 (en) Website interest detector
CN108259638B (zh) 个人群组列表智能排序方法、智能终端及存储介质
CN105247507A (zh) 品牌的影响力得分
CN102915307A (zh) 一种个性化信息推荐的方法、装置及信息处理系统
CN107437189B (zh) 一种推广信息的投放方法、装置及系统
CN103136705B (zh) 一种人际关系热度统计方法
CN104951542A (zh) 识别社交短文本类别的方法、分类模型训练方法及装置
Kooli et al. Economic design of an attribute np control chart using a variable sample size
CN104537096A (zh) 一种基于微博消息传播树的微博消息影响力度量方法
CN103984701A (zh) 微博转发量预测模型生成方法及微博转发量预测方法
CN103714132B (zh) 一种用于基于地域和行业进行热点事件挖掘的方法和设备
CN103942298B (zh) 基于线性回归的推荐方法及系统
CN105550275A (zh) 一种微博转发量预测方法
CN102737027B (zh) 个性化搜索方法及系统
CN104166726A (zh) 一种面向微博文本流的突发关键词检测方法
Cao et al. Topics and trends of the on-line public concerns based on Tianya forum
CN102664744A (zh) 网络消息通信中群发推荐的方法
CN106294333A (zh) 一种微博突发话题检测方法及装置
WO2015101161A1 (zh) 一种用于生成与目标系统对应的用户页面方法和装置
Singh et al. A true simulation study of three estimators at equal protection of respondents in randomized response sampling
CN103761292A (zh) 基于用户转发行为的微博阅读概率计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170118

Termination date: 20180116

CF01 Termination of patent right due to non-payment of annual fee