CN105205146B - 一种计算微博用户影响力的方法 - Google Patents

一种计算微博用户影响力的方法 Download PDF

Info

Publication number
CN105205146B
CN105205146B CN201510600289.5A CN201510600289A CN105205146B CN 105205146 B CN105205146 B CN 105205146B CN 201510600289 A CN201510600289 A CN 201510600289A CN 105205146 B CN105205146 B CN 105205146B
Authority
CN
China
Prior art keywords
microblogging
user
comment
forwarding
root
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510600289.5A
Other languages
English (en)
Other versions
CN105205146A (zh
Inventor
刘春阳
徐杰
吴俊杰
赵志云
王卿
张旭
李雄
袁昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510600289.5A priority Critical patent/CN105205146B/zh
Publication of CN105205146A publication Critical patent/CN105205146A/zh
Application granted granted Critical
Publication of CN105205146B publication Critical patent/CN105205146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种计算微博用户影响力的方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、服务器将微博流数据平均分发到多个端口;步骤三、对流数据进行特征提取和并行计算;步骤四、将特征存储;步骤五、过滤不关心用户;步骤六、计算用户影响力;步骤七、存储每日每个用户的影响力。优点在于:该影响力的指标增加了平均数、最高数和爆发度,平均数要求用户发布的每条微博的平均影响力都比较高,避免出现微博数大造成转发量或评论量大,最高数和爆发度分别刻画影响力传播的范围和速度,因此,新增加的指标克服以往指标中存在单一总数不能完整刻画用户影响力的缺陷,能够更深入的解释用户影响力高的原因。

Description

一种计算微博用户影响力的方法
技术领域
本发明属于数据挖掘领域,具体涉及一种计算微博用户影响力的方法。
背景技术
目前微博内容发布量巨大,已成为中国最大的舆论平台;微博信息的转发和评论量,对舆情事件的传播起到巨大推波助澜的作用。然而,对于微博中存在的诸多虚假或恶意信息肆意传播的现象,给监管部门带来巨大挑战,而这些消息的传播往往都是借助网络中影响力较大的节点用户。此外,对于微博上关于商品和服务的推广,通过选择影响力较大的用户作为首选推广人群,借助他们的明星效应,能够将产品或服务传播到更多人。因此,识别和利用影响力较大的用户,对于促进网络安全和网络经济的发展有重要意义。
针对目前学术界评估用户影响力的方法主要是基于链接分析和用户行为权值。链接分析方法比较直观反映影响的人群,但对于全网用户的计算,其时间和空间复杂度是不能承受的。基于用户行为权值分析方法依赖于用户的粉丝数、发布数、转发数、评论数和提及(@)数,基于完善的指标体系能够很好的反映出用户影响力水平。因此,本发明选择基于用户行为权值的方法,即统计分析用户的交互行为,评估用户影响力大小。
基于用户行为权值的方法需要评估用户影响力指标体系,目前市场上实际使用的指标体系包括新浪微博自身的指数和新媒体指数。新浪微博的指标体系公布信息不是很完全,提供的排行榜往往是根据转发总数、评论总数得到的热门人物。新媒体指数公布的细节比较完善,但其指标体系中存在诸多缺陷。诸如没有考虑影响力传播的广度和速度,但其最大缺陷在于从某种意义上说,微博发布者数量越大,其影响力越大,这显然与事实是不相符合的。因此,在总结目前关于评估用户影响力指标体系的缺陷的基础上,有针对性的提出一套完整的指标体系,和完善的微博流数据处理流程,以实现更准确的用户影响力评估。
发明内容
本发明针对大数据环境下微博用户影响力难以定量评估的问题,构建了一种计算微博用户影响力的方法,对影响力较大的用户进行识别和利用。
具体步骤如下:
步骤一、收集每日的微博流数据;
微博流数据可分为原创微博、转发微博和评论微博三类,每条流数据含有1个标识;每条流数据的信息包括:uid,mid,root_mid,root_uid,用户粉丝数,新增粉丝数,时间,ip地址和微博内容;
uid为当前微博的用户id;mid为当前微博的id;
root_mid分为三种情况:如果是原创微博,root_mid为空;如果是转发微博,root_mid为被转发微博id;如果是评论微博,root_mid为被评论微博id;
root_uid分为三种情况:如果是原创微博,root_uid为空;如果是转发微博,root_uid为被转发用户id;如果是评论微博,root_uid为被评论用户id;
时间为当前微博的发布时间;ip地址为当前微博的用户ip地址;
新增粉丝数是与前一天粉丝数的差值,粉丝数降低时设为0;
微博内容分为三种情况:如果是原创微博,微博内容即用户发布内容;如果是转发微博,微博内容是用户转发时附加评论信息与上级转发用户昵称、被转发微博的发布内容;如果是评论微博,微博内容即被评论微博的发布内容。
步骤二、服务器利用ZMQ中的pull-push方案将每日的微博流数据平均分发到服务器的多个端口上;
步骤三、对服务器端口接收的流数据进行特征提取和并行计算;
具体过程如下:
根据每条微博流数据,根据标识判断微博流数据属于哪一类,分别进行增量计算:
对于原创微博,记录该条微博的uid,mid,粉丝数,发布时间和ip地址,对该uid的原创微博数自增1,如果ip未曾使用过,则ip地址个数自增1;
对于转发微博,记录该条微博的uid,mid,粉丝数,发布时间,ip地址,root_uid,以及root_mid;并对该uid的转发微博数自增1,如果ip未曾使用过,则ip地址个数自增1;对root_uid的root_mid被转发量即自增1;将0-24h按照每15分钟间隔划分为96个区间,将该mid的发布时间映射到96个区间之一;对root_uid相应的区间上的微博转发量自增1作为微博转发的爆发度;
对于评论微博,记录该条微博的uid,mid,发布时间,ip地址,root_uid以及root_mid;并对该uid的微博评论数自增1,如果ip未曾使用过,则ip地址个数自增1;root_uid的root_mid微博被评论量自增1;将0-24h按照每15分钟间隔划分为96个区间,将该mid的发布时间映射到96个区间之一;对root_uid相应的区间上的微博评论量自增1作为微博评论的爆发度。
步骤四、将从每一条流数据中提取得到的特征存储到内存数据库集群redis中,作为用户影响力多维属性特征。
具体为:以redis内存数据库中的hash表为基本存储单元,hash表包括命名空间、键和值三部分;以uid或root_uid为命名空间,用户影响力的多维属性为键,值为多维属性对应的数值,使得对每条微博流数据进行统计时能够对相应用户的影响力的多维属性进行增量累加。
用户影响力多维属性特征包括:原创微博数,转发微博数,用户粉丝数和新增粉丝数,原创微博转发的总评论数,平均评论数,最高评论数和爆发度;原创微博评论的总评论数,平均评论数,最高评论数和爆发度;转发微博转发的总评论数,平均评论数,最高评论数和爆发度;转发微博评论的总评论数,平均评论数,最高评论数和爆发度。
步骤五、用户自定义过滤规则过滤不关心用户;
步骤六、利用用户影响力多维属性特征计算用户影响力;
用户影响力的具体计算方法如下:
用户活跃度d_active为:
d_active=0.5×ln(x1+1)+0.3×ln(x2+1)+0.1×ln(x3+1)+0.1×ln(x4+1)
x1为原创微博数,x2为转发微博数,x3为用户粉丝数和x4为新增粉丝数;
微博影响力d_weibo为:
d_weibo=0.3×x5+0.3×x6+0.2×x7+0.2×x8
其中,x5为原创微博转发权重,x6为原创微博评论权重,x7为转发微博转发权重和x8为转发微博评论权重;计算方法如下:
x5=0.4×ln(x51+1)+0.2×ln(x52+1)+0.15×ln(x53+1)+0.25×ln(x54+1)
x6=0.4×ln(x61+1)+0.2×ln(x62+1)+0.15×ln(x63+1)+0.25×ln(x64+1)
x7=0.4×ln(x71+1)+0.2×ln(x72+1)+0.15×ln(x73+1)+0.25×ln(x74+1)
x8=0.4×ln(x81+1)+0.2×ln(x82+1)+0.15×ln(x83+1)+0.25×ln(x84+1)
x51为原创微博总转发数、x52为原创微博平均转发数、x53为原创微博最高转发数和x54为原创微博被转发的爆发度;x61为原创微博总评论数、x62为原创微博平均评论数、x63为原创微博最高评论数和x64为原创微博被评论的爆发度;x71为转发微博总转发数、x72为转发微博平均转发数、x73为转发微博最高转发数和x74为转发微博被转发的爆发度;x81为转发微博总评论数、x82为转发微博平均评论数、x83为转发微博最高评论数和x84为转发微博被评论的爆发度;
用户影响力index为:
index=0.2×d_active+0.8×d_weibo
步骤七、计算每日每个用户的影响力,结果存储到集群数据库elasticsearch并应用。
本发明的优点在于:
1)、一种计算微博用户影响力的方法,完善的用户影响力指标体系的建立;在综合国内外研究现状的基础上,基于用户的粉丝数、微博数、转发数、评论数等微博行为属性,提出了新的用户影响力指标体系。该指标体系新增加了平均数、最高数和爆发度的指标,平均数要求用户发布的每条微博的平均影响力都比较高,而避免出现大微博数造成大转发量或评论量的现象,最高数和爆发度分别刻画影响力传播的范围和速度,是刻画影响力较为重要的两个指标。因此,新增加的指标克服以往指标中存在单一总数不能完整刻画用户影响力的缺陷,能够更深入的解释用户影响力高的原因。
2)、一种计算微博用户影响力的方法,通过一套并行增量计算流程的设计,包括微博流数据的分发、接收、增量计算、中间结果和最终结果的存储。其囊括的技术方法包括zeromq的分发-接收配置、redis内存数据库的中间结果存储结构设计、elasticsearch数据库的最终结果的存储和排序。该套流数据处理流程也可以应用其他的大数据处理流程中来,也可以进行横向扩展成分布式的集群,以实现更大规模的数据处理。
附图说明
图1为本发明一种计算微博用户影响力的方法的流程图;
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明一种计算微博用户影响力的方法,如图1所示,具体步骤如下:
步骤一、收集每日的微博流数据;
每日新浪微博流数据推送到服务器,微博流数据可分为原创微博、转发微博和评论微博三类,每条流数据含有1个标识,0表示该条微博是原创微博,1表示该条微博是转发微博,2表示该条微博是评论微博。
每条流数据的信息为:uid,mid,root_mid,root_uid,用户粉丝数,新增粉丝数,时间,ip地址和微博内容;
uid为当前微博的用户id;mid为当前微博的id;
root_mid分为三种情况:如果是原创微博,root_mid为空;如果是转发微博,root_mid为被转发微博id;如果是评论微博,root_mid为被评论微博id;
root_uid分为三种情况:如果是原创微博,root_uid为空;如果是转发微博,root_uid为被转发用户id;如果是评论微博,root_uid为被评论用户id;
时间为当前微博的发布时间;ip地址为当前微博的用户ip地址;
新增粉丝数是与前一天粉丝数的差值,粉丝数减少时设为0;
微博内容分为三种情况:如果是原创微博,微博内容即用户发布内容;如果是转发微博,微博内容是用户转发时附加评论信息与上级转发用户昵称、被转发微博的发布内容;如果是评论微博,微博内容即被评论微博的发布内容。
具体如下:
针对原创微博的流数据,包括:uid为用户id,mid为微博id,用户粉丝数,微博发布时间和微博内容;
针对转发微博的流数据,包括:uid为用户id,mid为转发微博id,root_mid为被转发微博id,root_uid为被转发用户id,用户粉丝数,微博发布时间,ip地址和被转发微博内容;
针对评论微博的流数据,包括:uid为用户id,mid为评论微博id,root_mid为被评论微博id,root_uid为被评论用户id,用户粉丝数,微博发布时间,ip地址和被评论微博内容。
步骤二、服务器利用ZMQ中的pull-push方案将每日的微博流数据平均分发到服务器的多个端口;
服务器上安装zmq(ZeroMQ)软件包,服务器的端口范围4个-6个;本发明选取4个端口,每日的微博流数据为6500万条,平均分发到服务器的4个端口。
步骤三、从服务器的端口接收流数据,并对微博流数据进行特征提取和并行计算;
服务器的4个端口同时对微博信息进行特征提取:提取root_uid的转发量,root_uid的评论量,uid用户粉丝数,微博发布时间以及ip地址个数,得到每个用户的影响力多维属性。
微博发布时间和ip地址个数用于后续的用户过滤。具体的特征提取如下:
根据每条微博流数据,根据标识判断微博流数据属于哪一类,分别进行增量计算:
对于原创微博,记录该条微博的uid,mid,粉丝数,发布时间和ip地址,对该uid的原创微博数自增1,如果ip未曾使用过,则ip地址个数自增1;
对于转发微博,记录该条微博的uid,mid,粉丝数,发布时间,ip地址,root_uid,以及root_mid;并对该uid的转发微博数自增1,如果ip未曾使用过,则ip地址个数自增1;对root_uid的root_mid被转发量即自增1;将0-24h按照每15分钟间隔划分为96个区间,将该mid的发布时间映射到96个区间之一;
如时间0:10对应到区间1,对root_uid相应的区间1上的微博转发量自增1作为微博转发爆发度的统计;
对于评论微博,记录该条微博的uid,mid,用户粉丝数,发布时间,ip地址,root_uid以及root_mid;并对该uid的微博评论数自增1,如果ip未曾使用过,则ip地址个数自增1;root_uid的微博(root_mid)微博被评论量自增1;将0-24h按照每15分钟间隔划分为96个区间,将该mid的发布时间映射到96个区间之一;
如时间0:10对应到区间1,对root_uid相应的区间1上的微博评论量自增1作为微博评论爆发度的统计。
步骤四、将从每一条流数据中提取的特征存储到redis内存数据库集群中,统计得到用户影响力多维属性特征。
将服务器端口提取的每一条流数据的特征存储到redis内存数据库集群中;
具体为:以redis内存数据库中的hash表为基本存储单元,hash表包括命名空间、键和值三部分;某个用户微博被人转发时,他是root_uid,当他转发别人时,他变成了uid;所以,最终统计得到的是某个用户分别作为root_uid和uid时的所有信息。
以uid或root_uid为命名空间,用户影响力的多维属性为键,值为多维属性对应的数值,使得对每条微博流数据进行统计时能够对相应用户的影响力的多维属性进行增量累加。
用户影响力多维属性特征包括:原创微博数,转发微博数,用户粉丝数和用户新增粉丝数,原创微博转发的总评论数,平均评论数(总评论数/原创微博数),最高评论数(单条原创微博最高评论数)和爆发度(15分钟内原创微博被转发总数);原创微博评论的总评论数,平均评论数(总评论数/原创微博数),最高评论数(单条原创微博最高评论数)和爆发度(15分钟内原创微博被评论总数);转发微博转发的总评论数,平均评论数(总评论数/转发微博数),最高评论数(单条转发微博最高评论数)和爆发度(15分钟内转发微博被转发总数);转发微博评论的总评论数,平均评论数(总评论数/转发微博数),最高评论数(单条转发微博最高评论数)和爆发度(15分钟内转发微博被评论总数)。
步骤五、用户自定义过滤规则过滤不关心用户;
自定义过滤规则的目的是为了筛除微博段子手、娱乐明星、广告用户、垃圾用户、水军、马甲等使用者不关心的微博用户。
自定义规则包括:自定义黑名单;筛除每分钟发布微博数多于4条的用户;筛除ip地址个数多于7个的用户;筛除转发用户数多于20个用户;以及筛除@用户数多于15个用户的用户;用户也可以根据需要增加或减少过滤规则;
步骤六、利用用户影响力多维属性特征计算用户影响力;
用户的微博影响力指标包括:用户活跃度和微博影响力,这两部分具体的权重比值可根据所需设定;本实施例中用户活跃度权重占20%;微博影响力权重占80%;
用户活跃度指标包括:原创微博数x1,转发微博数x2,用户粉丝数x3和用户新增粉丝x4;各个指标所占用的权重根据所需设定,本实施例中原创微博数权重为50%,转发微博数权重为30%,用户粉丝数权重为10%,用户新增粉丝权重为10%。
微博影响力指标包括:原创微博转发权重x5,原创微博评论权重x6,转发微博转发权重x7和转发微博评论权重x8;各个指标所占用的权重根据所需设定,本实施例中原创微博转发权重为30%,原创微博评论权重为30%,转发微博转发权重为20%,转发微博评论权重为20%。
微博影响力指标的4部分,对于每个部分,又是由4个子指标组成,分别为:原创微博总转发数x51、原创微博平均转发数x52、原创微博最高转发数x53和原创微博被转发的爆发度x54;原创微博总评论数x61、原创微博平均评论数x62、原创微博最高评论数x63和原创微博被评论的爆发度x64,转发微博总转发数x71、转发微博平均转发数x72、转发微博最高转发数x73和转发微博被转发的爆发度x74,转发微博总评论数x81、转发微博平均评论数x82、转发微博最高评论数x83和转发微博被评论的爆发度x84
各个指标所占用的权重根据所需设定,以原创微博评论为例,本实施例中其对应的权值设置分别为40%、20%、15%和25%。对其余3个微博影响力指标也同样适用。
用户影响力的具体计算方法如下:
用户活跃度d_active为:
d_active=0.5×ln(x1+1)+0.3×ln(x2+1)+0.1×ln(x3+1)+0.1×ln(x4+1)
微博影响力d_weibo为:
d_weibo=0.3×x5+0.3×x6+0.2×x7+0.2×x8
其中,原创微博转发权重x5,原创微博评论权重x6,转发微博转发权重x7,转发微博评论权重x8的计算方法如下:
x5=0.4×ln(x51+1)+0.2×ln(x52+1)+0.15×ln(x53+1)+0.25×ln(x54+1)
x6=0.4×ln(x61+1)+0.2×ln(x62+1)+0.15×ln(x63+1)+0.25×ln(x64+1)
x7=0.4×ln(x71+1)+0.2×ln(x72+1)+0.15×ln(x73+1)+0.25×ln(x74+1)
x8=0.4×ln(x81+1)+0.2×ln(x82+1)+0.15×ln(x83+1)+0.25×ln(x84+1)
用户影响力index为:
index=0.2×d_active+0.8×d_weibo
步骤七、计算每日每个用户的影响力,结果存储到elasticsearch集群数据库并应用;每日所有流数据处理完成之后,按照用户从redis数据库中取出影响力多维属性特征进行影响力计算,将计算结果存储到elasticsearch集群数据库;在elasticsearch数据库上,可以基于这些信息进行排名、热门用户推荐等应用;按照最终计算出来的用户影响力作为影响力的定量评价,得到全网用户的影响力排名,及一些其他应用。

Claims (3)

1.一种计算微博用户影响力的方法,其特征在于,包括如下步骤:
步骤一、收集每日的微博流数据;
微博流数据分为原创微博、转发微博和评论微博三类,每条流数据含有1个标识;
步骤二、服务器利用传输层ZMQ中的pull-push方案将每日的微博流数据平均分发到服务器各端口;ZMQ即为ZeroMQ软件包,pull-push方案为一种消息分发方式;
步骤三、对服务器端口接收的流数据进行特征提取和并行计算;
具体过程如下:
对每条微博流数据,根据标识判断微博流数据属于哪一类,分别进行增量计算:
对于原创微博,记录该条微博的uid,mid,粉丝数,发布时间和ip地址,将对该uid的原创微博数自增1,如果ip未曾使用过,则ip地址个数自增1;uid为当前微博的用户id;mid为当前微博的id;
对于转发微博,记录该条微博的uid,mid,粉丝数,发布时间,ip地址,root_uid,以及root_mid;将该uid的转发微博数自增1,如果ip未曾使用过,将ip地址个数自增1;将root_uid的root_mid被转发量自增1;将0-24h按照每15分钟间隔划分为96个区间,将该mid的发布时间映射到96个区间之一;对root_uid相应的区间上的微博转发量自增1,将微博转发量作为微博转发的爆发度;root_uid为被转发用户id;root_mid为被转发微博id;
对于评论微博,记录该条微博的uid,mid,发布时间,ip地址,root_uid以及root_mid;并对该uid的微博评论数自增1,如果ip未曾使用过,则将ip地址个数自增1;将root_uid的root_mid微博被评论量自增1;将0-24h按照每15分钟间隔划分为96个区间,将该mid的发布时间映射到96个区间之一;将root_uid相应的区间上的微博评论量自增1,将微博评论量作为微博评论的爆发度;root_mid为被评论微博id;root_uid为被评论用户id;
步骤四、将从每一条流数据中提取得到的特征存储到内存数据库集群redis中,作为用户影响力多维属性特征;
用户影响力多维属性特征包括:原创微博数,转发微博数,用户粉丝数和新增粉丝数,原创微博转发的总评论数、平均评论数、最高评论数和爆发度;原创微博评论的总评论数、平均评论数、最高评论数和爆发度;转发微博转发的总评论数、平均评论数、最高评论数和爆发度;转发微博评论的总评论数,平均评论数,最高评论数和爆发度;
步骤五、用户自定义过滤规则过滤掉不关心用户;
步骤六、利用用户影响力多维属性特征计算用户影响力;
用户影响力的具体计算方法如下:
用户活跃度d_active为:
d_active=0.5×ln(x1+1)+0.3×ln(x2+1)+0.1×ln(x3+1)+0.1×ln(x4+1),
x1为原创微博数,x2为转发微博数,x3为用户粉丝数和x4为新增粉丝数;
微博影响力d_weibo为:
d_weibo=0.3×x5+0.3×x6+0.2×x7+0.2×x8
其中,x5为原创微博转发权重,x6为原创微博评论权重,x7为转发微博转发权重和x8为转发微博评论权重;计算方法如下:
x5=0.4×ln(x51+1)+0.2×ln(x52+1)+0.15×ln(x53+1)+0.25×ln(x54+1),
x6=0.4×ln(x61+1)+0.2×ln(x62+1)+0.15×ln(x63+1)+0.25×ln(x64+1),
x7=0.4×ln(x71+1)+0.2×ln(x72+1)+0.15×ln(x73+1)+0.25×ln(x74+1),
x8=0.4×ln(x81+1)+0.2×ln(x82+1)+0.15×ln(x83+1)+0.25×ln(x84+1),
x51为原创微博总转发数、x52为原创微博平均转发数、x53为原创微博最高转发数和x54为原创微博被转发的爆发度;x61为原创微博总评论数、x62为原创微博平均评论数、x63为原创微博最高评论数和x64为原创微博被评论的爆发度;x71为转发微博总转发数、x72为转发微博平均转发数、x73为转发微博最高转发数和x74为转发微博被转发的爆发度;x81为转发微博总评论数、x82为转发微博平均评论数、x83为转发微博最高评论数和x84为转发微博被评论的爆发度;
用户影响力index为:
index=0.2×d_active+0.8×d_weibo,
步骤七、计算每日每个用户的影响力,结果存储到集群数据库elasticsearch中并应用。
2.如权利要求1所述的一种计算微博用户影响力的方法,其特征在于,所述的步骤一中,每条流数据的信息包括:uid,mid,root_mid,root_uid,用户粉丝数,新增粉丝数,时间,ip地址和微博内容;
root_mid分为三种情况:如果是原创微博,root_mid为空;如果是转发微博,root_mid为被转发微博id;如果是评论微博,root_mid为被评论微博id;
root_uid分为三种情况:如果是原创微博,root_uid为空;如果是转发微博,root_uid为被转发用户id;如果是评论微博,root_uid为被评论用户id;
时间为当前微博的发布时间;ip地址为当前微博的用户ip地址;
新增粉丝数是与前一天粉丝数的差值,粉丝数降低时设为0;
微博内容分为三种情况:如果是原创微博,微博内容即用户发布内容;如果是转发微博,微博内容是用户转发时附加评论信息与上级转发用户昵称、被转发微博的发布内容;如果是评论微博,微博内容即被评论微博的发布内容。
3.如权利要求1所述的一种计算微博用户影响力的方法,其特征在于,所述的步骤四具体为:以内存数据库redis中的hash表为基本存储单元,hash表包括命名空间、键和值三部分;以uid或root_uid为命名空间,用户影响力的多维属性为键,值为多维属性对应的数值,使得对每条微博流数据进行统计时能够对相应用户的影响力的多维属性进行增量累加。
CN201510600289.5A 2015-09-18 2015-09-18 一种计算微博用户影响力的方法 Active CN105205146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510600289.5A CN105205146B (zh) 2015-09-18 2015-09-18 一种计算微博用户影响力的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510600289.5A CN105205146B (zh) 2015-09-18 2015-09-18 一种计算微博用户影响力的方法

Publications (2)

Publication Number Publication Date
CN105205146A CN105205146A (zh) 2015-12-30
CN105205146B true CN105205146B (zh) 2018-10-30

Family

ID=54952829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510600289.5A Active CN105205146B (zh) 2015-09-18 2015-09-18 一种计算微博用户影响力的方法

Country Status (1)

Country Link
CN (1) CN105205146B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980692B (zh) * 2016-05-30 2020-12-08 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN106127535A (zh) * 2016-08-24 2016-11-16 四川众缆科技有限公司 基于移动终端的广告推送系统及方法
CN106875277A (zh) * 2017-01-16 2017-06-20 星云纵横(北京)大数据信息技术有限公司 一种社交媒体账号影响力的判断方法
CN107169873B (zh) * 2017-06-16 2021-05-11 北京信息科技大学 一种多特征融合的微博用户权威度评价方法
CN109218776B (zh) * 2017-06-30 2022-04-12 武汉斗鱼网络科技有限公司 一种提高主播知名度的方法、装置及计算机设备
CN109783712B (zh) * 2018-12-14 2023-10-17 平安科技(深圳)有限公司 一种基于微博用户的社交网络分析方法及装置
CN110134876B (zh) * 2019-01-29 2021-10-26 国家计算机网络与信息安全管理中心 一种基于群智传感器的网络空间群体性事件感知与检测方法
CN114143571B (zh) * 2019-03-19 2024-01-19 广州虎牙信息科技有限公司 一种用户处理方法、装置、设备和存储介质
CN110069689B (zh) * 2019-03-21 2022-03-18 中国平安人寿保险股份有限公司 转发链接的统计方法、装置、计算机设备和存储介质
CN110427577B (zh) * 2019-06-26 2022-04-19 五八有限公司 内容的影响评估方法、装置、电子设备和存储介质
CN113434783A (zh) * 2021-07-02 2021-09-24 北京中奥淘数据科技有限公司 网络用户影响力的计算方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617279A (zh) * 2013-12-09 2014-03-05 南京邮电大学 基于Pagerank方法的微博信息传播影响力评估模型的实现方法
CN104035987A (zh) * 2014-05-30 2014-09-10 南京邮电大学 一种微博网络用户影响力排名方法
CN104298767A (zh) * 2014-10-29 2015-01-21 西安交通大学 一种微博网络中用户影响力度量的方法
CN104537096A (zh) * 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于微博消息传播树的微博消息影响力度量方法
CN104657498A (zh) * 2015-03-11 2015-05-27 中国科学院自动化研究所 微博用户影响力的评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617279A (zh) * 2013-12-09 2014-03-05 南京邮电大学 基于Pagerank方法的微博信息传播影响力评估模型的实现方法
CN104035987A (zh) * 2014-05-30 2014-09-10 南京邮电大学 一种微博网络用户影响力排名方法
CN104298767A (zh) * 2014-10-29 2015-01-21 西安交通大学 一种微博网络中用户影响力度量的方法
CN104537096A (zh) * 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于微博消息传播树的微博消息影响力度量方法
CN104657498A (zh) * 2015-03-11 2015-05-27 中国科学院自动化研究所 微博用户影响力的评估方法

Also Published As

Publication number Publication date
CN105205146A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
CN105205146B (zh) 一种计算微博用户影响力的方法
CN103914536B (zh) 一种用于电子地图的兴趣点推荐方法及系统
US20170140058A1 (en) Systems and Methods for Identifying Influencers and Their Communities in a Social Data Network
CN103678613B (zh) 一种计算影响力数据的方法与装置
CN103458042B (zh) 一种微博广告用户检测方法
CN103793489B (zh) 一种在线社交网络中社群话题的发现方法
Zhang et al. 5Ws model for big data analysis and visualization
CN103106285B (zh) 一种基于信息安全专业社交网络平台的推荐算法
EP2506522B1 (en) Method and device for pushing data
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
CN104298767B (zh) 一种微博网络中用户影响力度量的方法
CN106168953B (zh) 面向弱关系社交网络的博文推荐方法
Chen et al. Influencerank: An efficient social influence measurement for millions of users in microblog
CN104008184A (zh) 信息的推送方法和装置
CN104394118A (zh) 一种用户身份识别方法及系统
CN101510856A (zh) 一种sns网络中成员关系圈的提取方法和装置
CN105989074A (zh) 一种通过移动设备信息进行推荐冷启动的方法和装置
CN107404408A (zh) 一种虚拟身份关联识别方法及装置
CN104951542A (zh) 识别社交短文本类别的方法、分类模型训练方法及装置
CN103179198A (zh) 基于多关系网络的话题影响力个体挖掘方法
CN110197404A (zh) 可降低流行度偏差的个性化长尾商品推荐方法和系统
CN105391614A (zh) 消息的处理方法和装置
CN103188348A (zh) 一种基于文件分享的联系人管理方法
CN107220745A (zh) 一种意图行为数据的识别方法、系统及设备
CN104506394B (zh) 一种移动互联网流量统计方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant