CN107180106B - 一种基于用户行为序列的相互影响力快速度量方法 - Google Patents

一种基于用户行为序列的相互影响力快速度量方法 Download PDF

Info

Publication number
CN107180106B
CN107180106B CN201710416842.9A CN201710416842A CN107180106B CN 107180106 B CN107180106 B CN 107180106B CN 201710416842 A CN201710416842 A CN 201710416842A CN 107180106 B CN107180106 B CN 107180106B
Authority
CN
China
Prior art keywords
user
blog
data
time
forwarding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710416842.9A
Other languages
English (en)
Other versions
CN107180106A (zh
Inventor
全拥
李树栋
贾焰
周斌
杨树强
韩伟红
李爱平
黄九鸣
江荣
邓璐
刘强
张军阳
李超
张良
韩文祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710416842.9A priority Critical patent/CN107180106B/zh
Publication of CN107180106A publication Critical patent/CN107180106A/zh
Application granted granted Critical
Publication of CN107180106B publication Critical patent/CN107180106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于在线社交网络数据挖掘领域,具体涉及一种基于用户行为序列的相互影响力快速度量方法。本发明主要步骤为:(S1)数据采集阶段:搜集并存储社交网络平台用户产生的行为数据,所述行为数据包括用户转发关系数据、用户发布博文数据、用户转发博文数据、用户发布博文时间数据和用户转发博文时间数据;(S2)行为序列量化阶段:将用户发布博文时间数据和用户转发博文时间数据进行向量化表示,得到向量化结果;(S3)相互影响力计算阶段:根据行为数据和向量化结果,计算任意两个用户之间的相互影响力。本发明充分考虑了社交网络中用户之间的转发关系以及用户发布或转发博文的时序行为特征,为定量分析社交网络影响力奠定了基础。

Description

一种基于用户行为序列的相互影响力快速度量方法
技术领域
本发明属于在线社交网络数据挖掘领域,具体涉及一种基于用户行为序列的相互影响力快速度量方法。
背景技术
随着互联网技术的进一步发展以及移动智能设备的广泛使用,以Twitter和新浪微博为代表的社交平台成为网络应用的主流,基于其特有的社交功能,用户可以随时随地发布、评论或回复消息,甚至可以与其他用户进行在线交互。此外,社交网络平台还具有广泛的商业用途,例如进行新产品推广、信息推荐或舆情监控等。用户、信息和结构是社交网络的三大要素,同时也是推动信息在网络中进行传播的主体、客体和载体:用户在社交平台上发布一则信息,通过用户之间的相互交互在已有的关系网络中实现信息的传播[1]
近年来,社交网络分析受到学术界和工业界的广泛关注,它是指基于统计学、信息学和社会学等多学科理论,为用户社交关系形成、行为特点分析以及信息传播规律提供一种可计算的方法[1]。相比于传统的社会学研究,社交网络分析不仅关注网络中用户的属性,而且更注重分析网络中用户之间的关系结构和交互行为。作为社交网络分析的重要内容,影响力分析一直是学术界的热点研究问题,因为信息在社交网络中的传播离不开用户的交互,而影响力是驱动用户交互的关键因素。在社交网络中,影响力是指用户的行为、观点或态度会受其他用户的影响而发生改变。研究社交影响力的形成原因和作用机制可以帮助人们揭示网络中用户互动的底层机制,为理解社交网络中信息传播规律奠定基础。早期,社交影响力在社会心理学领域被大量研究,被认为是一种在人们的行为、思想或态度从最初的不确定状态到最终趋于稳定状态的过程中的特有现象。由于当时理论研究和实验方法的限制,研究者只能从人工整理的小数据集上定性地对社交影响力进行分析,验证了在某个社会性系统中存在影响力。在线社交网络平台的兴起为社交网络分析提供了大量可用的实验数据,研究者可以对构建的社交网络模型及理论进行定量分析,特别是海量用户的交互数据为建立影响力度量模型和影响力传播仿真计算进行充分的实验论证提供了可能。
如何准确衡量用户之间的相互影响力是社交网络中影响力分析的重要研究内容,也是研究影响力个体识别技术和影响力传播极大化技术的前提条件。现有文献中的方法主要从网络结构、用户行为和博文内容等角度对相互影响力进行建模及定量计算。例如,相关学者认为相互影响力的大小与用户之间共同好友个数相关。显然,这种方法不符合实际情况,因为用户之间的相互影响力是不对称的,如在新浪微博中,大V用户和普通用户之间的相互影响力就不对等。还有学者利用网络日志数据,基于行为分布规律和因果关系建立用户之间相互影响力度量模型[2],虽然在一定程度上能提高模型的准确率,但难以获取完整的日志数据导致模型的使用率并不高。后来还有学者综合考虑网络拓扑结构和博文内容,通过构造用户博文、关系或行为生成等概率产生式模型,利用参数估计方法对用户之间的相互影响力进行推断[3],这类方法具有较高的准确率,但社交网络结构规模和参数估计方法的复杂性给模型的计算效率带来挑战。
社交网络数据建立的图结构模型相当复杂,包含上亿个用户节点以及用户之间关系构成的成百上千亿条边,我们难以直接在这种超大规模图上进行用户相互影响力的挖掘分析。再者,出于隐私考虑,现有社交网络平台不能完整显示用户的好友列表等信息,加之社交网络的动态演化性,不能实时得到当前时刻网络的拓扑结构,因此已有的相互影响力计算方法难以实现。在社交网络平台中,用户之间的交互行为是相互影响的外在表现,而相互影响是用户交互行为的内在诱因,因此我们可以利用用户之间的交互行为特征度量用户之间的相互影响力。社交网络平台中用户的行为有转发、回复、点赞和收藏等,其中转发行为最能表征用户之间的相互影响,同时也是信息得以传播的最直接方式。一般情况下,用户发布或转发博文等行为都具有一定时间规律,存在相互影响用户的社交行为时序特征具有某种一致性,并且这种一致性越强,用户之间的相互影响程度就越高。本发明旨在充分考虑上述因素,建立一种高效而准确的社交网络用户相互影响力度量模型。文中相关参考文献:
[1]方滨兴,许进,李建华.在线社交网络分析[M].电子工业出版社,2014.
[2]Goyal A,Bonchi F,Lakshmanan LV S.Learning influence probabilitiesin social networks.[C]//International Conference on Web Search and Web DataMining,WSDM2010,New York,Ny,Usa,February.2010:241-250.
[3]Zhang J,Tang J,Zhuang H,et al.Role-aware Conformity InfluenceModeling and Analysis in Social Networks[C]//Twenty-Eighth AAAI Conference onArtificial Intelligence.2014.
发明内容
针对现有技术在社交网络中度量用户之间相互影响力不能同时保证精度和效率的问题,本发明提出了一种基于用户行为序列的相互影响力快速度量方法,该方法共分为数据采集、行为序列向量化以及相互影响力计算3个步骤。其中,数据采集阶段负责搜集并存储相关社交网络平台用户产生的社交行为数据;行为序列向量化阶段负责对上述用户行为数据进行数学化(向量化)表示;相互影响力计算阶段负责对用户之间的相互影响力进行定量计算。本发明的核心思想就是基于用户时序行为特征,综合利用用户之间的转发历史信息,通过构造的相互影响力计算模型,实现在社交网络中快速而准确地度量任意用户之间的相互影响力。具体技术方案如下:
一种基于用户行为序列的相互影响力快速度量方法,包括以下步骤,
(S1)数据采集阶段:搜集并存储社交网络平台用户产生的行为数据,所述行为数据包括用户转发关系数据、用户发布博文数据、用户转发博文数据、用户发布博文时间数据和用户转发博文时间数据;
(S2)行为序列量化阶段:将所述步骤(S1)中的用户发布博文时间数据和用户转发博文时间数据进行向量化表示,得到向量化结果;
(S3)相互影响力计算阶段:根据步骤(S1)中的行为数据和步骤(S2)中的向量化结果,计算任意两个用户之间的相互影响力。
进一步地,所述用户发布博文时间数据进行向量化表示的具体过程为:选取时间周期Tp,以时间间隔Sp将时间周期Tp均分成Np个时间区间,设Pu是Np维向量,表示用户u在不同时间区间内发布博文的次数;通过计算公式(1)将用户u发布博文时间数据映射到不同的时间区间,进一步累加映射次数获得其发布博文的次数统计向量,
Figure BDA0001313890560000051
其中,mod表示取模运算,
Figure BDA0001313890560000052
表示向下取整,tp表示用户发布博文的时间,t0表示参照时间;t0取常数。
进一步地,所述用户转发博文时间数据进行向量化表示的具体过程为:选取时间周期Tr,以时间间隔Sr将Tr均分成Nr个时延区间,设RPDu是Nr维向量,表示用户u转发博文在不同时延区间内的次数。按照计算公式(2)将用户u转发博文时间数据映射到不同的时延区间,通过累加映射次数获得其转发博文时延次数统计向量;
Figure BDA0001313890560000053
其中,mod表示取模运算,
Figure BDA0001313890560000054
表示向下取整,tr表示用户转发博文的时间,td表示源博文发布时间。
进一步地,所述计算任意两个用户之间的相互影响力的具体过程为:设Iu(v)表示用户u对用户v的影响力,且Iu(v)≠Iv(u),计算用户u对用户v的影响力,即:
Figure BDA0001313890560000055
其中#repostsu→v表示用户v转发用户u博文的次数,#postsu表示用户u发布博文的次数,#repostv表示用户v转发博文的次数,
Figure BDA0001313890560000056
表示向量
Figure BDA0001313890560000057
的第i个分量,而
Figure BDA0001313890560000058
表示向量
Figure BDA0001313890560000059
的第j个分量;D表示时延窗口因子,1≤D≤Nr;δ(i,j,Np)=(i+j mod Np)+1;Pu为Np维向量,表示用户u在不同时间区间内发布博文次数;RPDv为Nr维向量,表示用户v转发博文在不同时延区间内的次数;
Figure BDA00013138905600000510
Figure BDA00013138905600000511
分别为Pu和RPDv的归一化结果,
Figure BDA0001313890560000061
表示用户u发博时间概率分布,
Figure BDA0001313890560000062
表示用户v转博时延概率分布;i,j,D取整数。
采用本发明获得的有益效果:本发明充分考虑了社交网络中用户之间的转发关系以及用户发布或转发博文的时序行为特征,为定量分析社交网络影响力奠定了基础。本发明方法实用性强,在实现过程中无需依赖社交网络中用户之间的关系拓扑结构,同时该方法在保证计算精度的前提下,也具有很高的计算效率,适用于在大规模社交网络数据中挖掘用户之间的相互影响力。
附图说明
图1为本发明方法流程示意图;
图2为本发明网络结构示意图。
具体实施方式
下面结合附图和实施例进一步说明本发明的技术方案。
本发明的具体流程和网络结构示意图分别如图1和图2所示,其具体阶段分别为:
(S1)数据采集阶段,从互联网中抓取相关社交网络平台用户产生的社交行为数据,并根据规定的数据格式抽取有效信息,存入本地数据库;实施例中,搜集的行为数据包括用户转发关系数据、用户发布博文数据、用户转发博文数据、用户发布博文时间数据和用户转发博文时间数据;搜集的行为数据均以数据集的形式存在,具体格式为:
1)搜集用户转发关系数据集,其格式要求是一个三元组<源用户ID,转发用户ID,转发次数>;2)搜集用户发布博文数据集,其格式要求是一个二元组<用户ID,发博次数>;3)搜集用户转发博文数据集,其格式要求是一个二元组<用户ID,转博次数>;4)搜集用户发布博文时间数据集,其格式要求是一个二元组<用户ID,发博/转博时间>;5)搜集用户转发博文时间数据集,其格式要求是一个三元组<用户ID,转博时间,源博文发布时间>。
(S2)行为序列向量化阶段,基于频次统计方法将上述搜集的数据按类别进行离散化处理,得到所有用户发布博文的次数统计向量和转发博文时延次数统计向量,归一化后得到所有用户发博时间概率分布和转博时延概率分布;具体过程如下:
a)用户发布博文时间数据进行向量化表示过程为:选取时间周期Tp,以时间间隔Sp将时间周期Tp均分成Np个时间区间,设Pu是Np维向量,表示用户u在不同时间区间内发布博文的次数;通过计算公式(1)将用户u发布博文时间数据映射到不同的时间区间,进一步累加映射次数获得其发布博文的次数统计向量,
Figure BDA0001313890560000071
其中,mod表示取模运算,
Figure BDA0001313890560000072
表示向下取整,tp表示用户发布或者转发博文的时间,t0表示参照时间;t0取常数。为了克服数据稀疏问题,将用户转发博文时间数据也视作用户发布博文时间数据。
b)用户转发博文时间数据进行向量化表示过程为:选取时间周期Tr,以时间间隔Sr将Tr均分成Nr个时延区间,设RPDu是Nr维向量,表示用户u转发博文在不同时延区间内的次数。按照计算公式(2)将用户u转发博文时间数据映射到不同的时延区间,通过累加映射次数获得其转发博文时延次数统计向量;
Figure BDA0001313890560000081
其中,mod表示取模运算,
Figure BDA0001313890560000082
表示向下取整,tr表示用户转发博文的时间,td表示源博文发布时间。
c)重复步骤a)和步骤b),计算所有用户的P*和RPD*,“*”表示任一用户;然后通过归一化方法得到
Figure BDA0001313890560000083
Figure BDA0001313890560000084
其中
Figure BDA0001313890560000085
中的分量表示用户在不同时间区间内的发博时间概率,而
Figure BDA0001313890560000086
中的分量表示用户转博时延在不同时延区间中的概率。
(S3)相互影响力计算阶段,根据上述已经处理好的数据,利用相互影响力度量模型(即计算公式(3))计算任意两个相互之间的相互影响力。
Figure BDA0001313890560000087
其中#repostsu→v表示用户v转发用户u博文的次数,可以由用户转发关系数据集得到;#postsu表示用户u发布博文的次数,可以由用户发布博文数据集得到;#repostv表示用户v转发博文的次数,可以由用户转发博文数据集得到;
Figure BDA0001313890560000088
表示向量
Figure BDA0001313890560000089
的第i个分量,而
Figure BDA00013138905600000810
表示向量
Figure BDA00013138905600000811
的第j个分量;D表示时延窗口因子,1≤D≤Nr;δ(i,j,Np)=(i+j mod Np)+1。
为了充分说明本发明的技术特点,在此以一个人工合成的小数据集为例进行说明。我们抽取该人工数据集中的4位社交网络用户u1、u2、u3、u4及其产生的部分社交行为数据,说明本发明方法计算其相互影响力的过程。
(S1)数据采集阶段,该阶段主要负责搜集数据。一般地,实施例中可利用网络爬虫工具以指定用户集为种子集合在相关社交网络平台搜集用户的社交行为数据。并通过自然语言处理技术抽取有效信息存入数据库。具体过程如下:
(S11)针对搜集到的用户转发关系数据,若该转发关系已存在于用户转发关系数据集A1中,则在相应转发关系的转发次数字段加1;若不存在,则在该数据集A1中插入此条转发关系,且转发次数字段置为1。如表1所示:
表1用户转发关系数据集A1
Figure BDA0001313890560000091
(S12)针对搜集到的用户发布博文数据,若该用户已存在于用户发博数据集A2中,则在相应用户的发博次数字段加1;若不存在,则在该数据集A2中插入此用户,且发博次数字段置为1。如表2所示:
表2用户发博数据集A2
Figure BDA0001313890560000092
(S13)针对搜集到的用户转发博文数据,若该用户已存在于用户转博数据集A3中,则在相应用户的转博次数字段加1;若不存在,则在该数据集A3中插入此用户,且转博次数字段置为1。如表3所示:
表3用户转博数据集A3
Figure BDA0001313890560000093
(S14)针对搜集到的用户发布博文时间数据,将每条数据插入用户发博时间数据集A4中,为了克服数据稀疏问题,将用户转发博文时间数据也看作用户发布博文时间数据并存入数据集A4中,用来计算用户在不同时间区间内的发博时间概率,这是合理的,因为当用户处于在线状态时,该用户有可能发布博文。如表4所示,时间单位是毫秒:
表4用户发博时间数据集A4
Figure BDA0001313890560000101
(S15)针对搜集到的用户转发博文时间数据,将每条数据插入用户转博时间数据集A5中。如表5所示,时间单位是毫秒:
表5用户转博时间数据集A5
Figure BDA0001313890560000102
(S2)行为序列向量化阶段,该阶段主要对步骤1中数据集A4和A5的数据进行向量化处理。具体过程如下:
(S21)针对用户发博时间数据集A4,统计用户在不同时间区间内发博的次数。一般情况下,用户的社交行为具有明显的时间周期性,如以天、周或月为时间周期。周期和时间区间的选取可以依实际情况而定,周期越长,时间区间越小,计算的时间复杂度和精度越高;周期越短,时间区间越大,计算的时间复杂度和精度越低。由于此处只做示例性说明,所以令Tp=24h,时间间隔Sp=4h,则Np=6,t0可以是任意一天的零点时刻,如1492444800。那么一天被划分为[0,4),[4,8),[8,12),[12,16),[16,20),[20,24)共6个时间区间,令Pu1=[0,0,0,0,0,0]表示用户u1在上述时间区间内的发博次数向量,可以通过公式(1)计算Pu1,以表4中第一条数据为例进行说明,此时tp=1492450090,则
Figure BDA0001313890560000111
即更新Pu1=[1,0,0,0,0,0]。在数据集A4中,将用户u1的所有发博/转博时间映射到上述6个时间区间,统计不同时间区间内用户发博次数。
(S21)针对用户转博时间数据集A5,统计用户在不同时延区内转博的次数。令Tr=12h,时间间隔Sr=3h,则Nr=4,令RPDu1=[0,0,0,0]表示用户u1在[0,3),[3,6),[6,9),[9,12)这4个时延区间内的转博次数向量,可以通过公式(2)计算RPDu1,以表5中第一条数据为例进行说明,此时tr=1492520122,td=1492499884,则
Figure BDA0001313890560000112
即更新RPDu1=[0,1,0,0],在数据集A5中,将用户u1的所有转博时延数据映射到上述4个时延区间,统计不同时延区间内用户转博次数。
(S23)重复步骤(S21)和步骤(S22),统计所有用户在不同时间区间内的发博次数和不同时延区间内的转博次数,如表6和表7所示:
表6用户发博次数统计
Figure BDA0001313890560000113
表7用户转博时延次数统计
Figure BDA0001313890560000114
表8所示为所有用户在不同时间区间内的发博时间概率分布,由表6中的数据进行归一化处理所得;表9所示为所有用户在不同时延区间内的转博概率分布,由表7中的数据进行归一化处理所得:
表8用户发博时间概率分布
Figure BDA0001313890560000121
表9用户转博时延概率分布
Figure BDA0001313890560000122
(S3)相互影响力计算阶段,该阶段主要根据步骤S1和步骤S2中的数据结果计算社交网络中任意两个用户之间的相互影响力。具体过程如下:
(S31)时延窗口因子D表示用户可能转发其他用户博文的延迟时间范围,D值越大,计算的时间复杂度和精度越高;D值越小,计算的时间复杂度和精度越低,应依实际情况而定。在本实例过程中,令D=2,即博文发布6小时之后不存在被转发的可能。根据公式(3)计算用户u1对用户u2的影响力Iu1(u2),此时,“#repostsu1→u2”可由数据集A1得到;“#postsu1”可由数据集A2得到;“#repostu2”可由数据集A3得到,则
Figure BDA0001313890560000123
(S32)重复步骤(S31),计算所有用户之间的相互影响力。如表10所示:
表10用户之间的相互影响力
Figure BDA0001313890560000124
Figure BDA0001313890560000131
由表10可以看出,用户之间的相互影响力满足非对称性。
综上所述,本发明基于用户发布或转发博文的时间统计规律,结合社交网络用户之间转发关系,提出了一种基于用户行为序列的相互影响力度量方法,为定量分析社交网络影响力奠定了基础。该方法可扩展性高、操作性强,无需考虑社交网络关系拓扑结构。此外,该方法在保证精度的前提下具有较高的计算效率,适用于在大规模社交网络数据中挖掘用户之间的相互影响力。
以上是对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

Claims (1)

1.一种基于用户行为序列的相互影响力快速度量方法,其特征在于,包括以下步骤,
(S1)数据采集阶段:搜集并存储社交网络平台用户产生的行为数据,所述行为数据包括用户转发关系数据、用户发布博文数据、用户转发博文数据、用户发布博文时间数据和用户转发博文时间数据;
(S2)行为序列量化阶段:将所述步骤(S1)中的用户发布博文时间数据和用户转发博文时间数据进行向量化表示,得到向量化结果;
(S3)相互影响力计算阶段:根据步骤(S1)中的行为数据和步骤(S2)中的向量化结果,计算任意两个用户之间的相互影响力;所述用户发布博文时间数据进行向量化表示的具体过程为:选取时间周期Tp,以时间间隔Sp将时间周期Tp均分成Np个时间区间,设Pu是Np维向量,表示用户u在不同时间区间内发布博文的次数;通过计算公式(1)将用户u发布博文时间数据映射到不同的时间区间,进一步累加映射次数获得其发布博文的次数统计向量,
Figure FDA0002680540360000011
其中,mod表示取模运算,
Figure FDA0002680540360000014
表示向下取整,tp表示用户发布博文的时间,t0表示参照时间;所述用户转发博文时间数据进行向量化表示的具体过程为:选取时间周期Tr,以时间间隔Sr将Tr均分成Nr个时延区间;按照计算公式(2)将用户u转发博文时间数据映射到不同的时延区间,通过累加映射次数获得其转发博文时延次数统计向量;
Figure FDA0002680540360000012
其中,mod表示取模运算,
Figure FDA0002680540360000013
表示向下取整,tr表示用户转发博文的时间,td表示源博文发布时间;所述计算任意两个用户之间的相互影响力的具体过程为:设Iu(v)表示用户u对用户v的影响力,且Iu(v)≠Iv(u),计算用户u对用户v的影响力,即:
Figure FDA0002680540360000021
其中#repostsu→v表示用户v转发用户u博文的次数,#postsu表示用户u发布博文的次数,#repostv表示用户v转发博文的次数,
Figure FDA0002680540360000022
表示向量
Figure FDA0002680540360000023
的第i个分量,而
Figure FDA0002680540360000024
表示向量
Figure FDA0002680540360000025
的第j+1个分量;D表示时延窗口因子,1≤D≤Nr;δ(i,j,Np)=(i+j mod Np)+1;Pu为Np维向量,表示用户u在不同时间区间内发布博文次数;RPDv为Nr维向量,表示用户v转发博文在不同时延区间内的次数;
Figure FDA0002680540360000026
Figure FDA0002680540360000027
分别为Pu和RPDv的归一化结果,
Figure FDA0002680540360000028
表示用户u发博时间概率分布,
Figure FDA0002680540360000029
表示用户v发博时间概率分布,
Figure FDA00026805403600000210
表示用户v转博时延概率分布;i,j,D取整数。
CN201710416842.9A 2017-06-06 2017-06-06 一种基于用户行为序列的相互影响力快速度量方法 Active CN107180106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710416842.9A CN107180106B (zh) 2017-06-06 2017-06-06 一种基于用户行为序列的相互影响力快速度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710416842.9A CN107180106B (zh) 2017-06-06 2017-06-06 一种基于用户行为序列的相互影响力快速度量方法

Publications (2)

Publication Number Publication Date
CN107180106A CN107180106A (zh) 2017-09-19
CN107180106B true CN107180106B (zh) 2021-01-01

Family

ID=59835492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710416842.9A Active CN107180106B (zh) 2017-06-06 2017-06-06 一种基于用户行为序列的相互影响力快速度量方法

Country Status (1)

Country Link
CN (1) CN107180106B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993586B (zh) * 2019-04-10 2021-12-07 秒针信息技术有限公司 一种营销产品的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761292A (zh) * 2014-01-16 2014-04-30 北京理工大学 基于用户转发行为的微博阅读概率计算方法
CN104915392A (zh) * 2015-05-26 2015-09-16 国家计算机网络与信息安全管理中心 一种微博转发行为预测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9104667B2 (en) * 2012-09-24 2015-08-11 International Business Machines Corporation Social media event detection and content-based retrieval
US20160267543A1 (en) * 2015-03-12 2016-09-15 WeLink, Inc. Targeting and channeling digital advertisements to social media users through location-based social monitoring

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761292A (zh) * 2014-01-16 2014-04-30 北京理工大学 基于用户转发行为的微博阅读概率计算方法
CN104915392A (zh) * 2015-05-26 2015-09-16 国家计算机网络与信息安全管理中心 一种微博转发行为预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
社交网络影响力研究综述;丁兆云等;《计算机科学》;20140131;第41卷(第1期);第48-53页 *

Also Published As

Publication number Publication date
CN107180106A (zh) 2017-09-19

Similar Documents

Publication Publication Date Title
Wang et al. Measurement and analysis of the bitcoin networks: A view from mining pools
Piraveenan et al. Assortative mixing in directed biological networks
CN106127590A (zh) 一种基于节点影响力的信息态势感知及传播管控模型
CN108304521B (zh) 基于演化博弈的微博谣言传播的分析方法与系统
CN104573017B (zh) 识别网络水军团体的方法及系统
CN108564479B (zh) 一种基于隐链接分析热点话题传播趋势的系统及方法
CN103279887A (zh) 一种基于信息理论的微博传播可视化分析方法与系统
Ribeiro et al. On MySpace account spans and double Pareto-like distribution of friends
CN108170842A (zh) 基于三部图模型的微博热点话题溯源方法
CN107784327A (zh) 一种基于gn的个性化社区发现方法
Rohe A critical threshold for design effects in network sampling
Deng et al. Highly efficient epidemic spreading model based LPA threshold community detection method
Lu et al. Collective human behavior in cascading system: discovery, modeling and applications
CN107180106B (zh) 一种基于用户行为序列的相互影响力快速度量方法
CN103488885B (zh) 基于mmsb的微博网络用户行为分析方法
Canzani et al. Insights from Modeling Epidemics of Infectious Diseases-A Literature Review.
CN112860973A (zh) 基于社交网络分析的组织健康评估方法
Lizardo et al. Analysis of opinion evolution in a multi-cultural student social network
Suvorova Models for respondents' behavior rate estimate: bayesian network structure synthesis
CN105761152A (zh) 社交网络中一种基于三元组的参与话题预测方法
CN109492677A (zh) 基于贝叶斯理论的时变网络链路预测方法
CN113127696A (zh) 一种提高基于行为的影响力度量准确性方法
CN107145964A (zh) 基于遗传编程的多元回归预测模型优化方法
Lee et al. Analysis of clustering coefficients of online social networks by duplication models
Wang et al. A brief review on Item Response Theory models-based parameter estimation methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant