CN102609460B - 微博客数据采集方法及系统 - Google Patents

微博客数据采集方法及系统 Download PDF

Info

Publication number
CN102609460B
CN102609460B CN201210011178.7A CN201210011178A CN102609460B CN 102609460 B CN102609460 B CN 102609460B CN 201210011178 A CN201210011178 A CN 201210011178A CN 102609460 B CN102609460 B CN 102609460B
Authority
CN
China
Prior art keywords
user
message
type
data
close attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210011178.7A
Other languages
English (en)
Other versions
CN102609460A (zh
Inventor
程学旗
房伟伟
李静远
陈根宝
邢国亮
张凯
金波
方滨兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201210011178.7A priority Critical patent/CN102609460B/zh
Publication of CN102609460A publication Critical patent/CN102609460A/zh
Application granted granted Critical
Publication of CN102609460B publication Critical patent/CN102609460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于用户分类的微博客数据采集方法。该方法首先初始化用户进行用户分类的数据;对获得的用户特征进行提取,取得可用于进行用户确定的特征数据;对提取出的数据进行过滤,多过滤后的数据根据特征之间的关系进行用户类型确定;对不同类别的用户采用不同的策略进行数据采集。该方法能够保证微博客数据采集的完整性和实时性,并能进行自适应的调整,以适应网络数据的变化。

Description

微博客数据采集方法及系统
技术领域
本发明涉及数据采集,尤其涉及微博客环境中的数据采集。
背景技术
微博客是一种互联网应用服务。它利用无线网络、有线网络、通信技术进行即时通讯,允许用户将自己的最新动态和想法以短信形式发送给手机和个性化网站群,而不仅仅是发送给个人。与一般的社交网络不同的是,微博客对每次发送的消息长度进行了限制,一般为140字节,降低了对用户语言编排组织的要求,之言片语的内容也方便用户及时更新自己的个人信息。国外的Twitter,国内的新浪微博、腾讯微博等都提供微博客的服务。
随着网络和移动设备的革新,微博客也进入了一个高速发展的阶段。国外的Twitter从2006年3月建立,至2011年9月,活跃用户的数量已经超过了1亿,每日消息发布量超过2.5亿条。国内的新浪微博也与2011年8月达到了2亿用户量,每日消息数量也达到了数千万。微博客迅速发展中产生的消息,包含着大量的研究和商业价值,那么,如何高效的获取微博客的消息成为每个研究者和公司首先要解决的问题。
微博客作为一种新型的社交网络,有其自身的独特特点,这些特点帮助微博客快速发展的同时也为数据采集增加了困难:
·单条信息短小,不足140字,但更新频繁;
·消息数量巨大,有价值的消息比例小;
·少部分活跃用户产生了大部分消息;
·用户总量高达数亿,用户类型多样;
·用户之间为单向联系,关注某人不需经对方同意,用户之间的关系极具跳跃性,一般社交网络的关系模型不能准确描述。
面对微博客的这些特点,现有的在整个因特网和传统社交网络的采集方法在应用到微博客数据采集时存在以下限制:
第一,传统的面向整个因特网的网页爬虫技术,采集周期较长,不能保证采集的实时性。在采集过程中,并不对用户进行区分,而微博客中消息量巨大但有价值的消息比例小,并且是由少部分活跃用户产生了大部分消息。因此将该方法应用于微博客数据采集时会导致采集时大量的资源浪费在价值不大的非活跃用户上。
第二,传统的使用微博服务提供商提供的第三方API的采集策略,由于对API调用次数存在限制,所以无法做到在大规模用户上实现高效、实时的采集。
另外,微博客页面是动态的,且更新频率很快,且数据量巨大,传统的采集方法,在保证数据完整性上存在困难,也就是其很难采集到反映微博当前状况的全部数据。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种微博客数据采集方法,对大规模微博客用户的数据进行高效、实时、完整的采集。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种微博客数据采集方法,该方法包括:
步骤1)采集初始的用户数据;
步骤2)从用户数据中提取用户特征;
步骤3)根据用户特征来确定用户的类型;
步骤4)对不同类型的用户的消息使用不同的采集策略进行实时采集。
上述方法中,还包括步骤5)定期地从经步骤4)采集的用户数据中提取用户特征,并基于所提取的用户特征重新确定用户的类型,以及响应于用户类型的变化来更新对该用户的采集策略。
上述方法中,用户特征可以包括:
1)、账户注册时间和最近登录微博客时间;
2)、关注数量与被关注数量;
3)、发送、转发和评论的消息的数量;
4)、发送的消息被评论和转发的数量;
上述方法中,步骤3)可以包括以下步骤:将其关注数量大于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为意见领袖;
将其关注数量小于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为聊天者;
将其余用户的类型确定为浏览者。
上述方法中,步骤3)还可以包括:将聊天者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为意见领袖;
将浏览者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为聊天者。
上述方法中,步骤3)还可以包括根据所提取的用户特征对用户进行过滤的步骤。
上述方法中,过滤掉的用户为已失效账户、新注册的账户和长时间未登录微博客系统的账户。
上述方法中,步骤4)对属于意见领袖类型的用户采用群组API进行采集;对属于聊天者类型的用户采用批量采集API进行采集;对属于浏览者类型的用户进行周期性地采集。
上述方法中,还可以包括监控和控制对API的调用频率的步骤。
上述方法中,还可以包括对所采集的消息进行过滤以消除重复的消息的步骤。
又一方面,本发明还提供了一种微博客数据采集系统,该系统包括:
用户数据采集模块,用于采集该系统初始所需要的用户数据;
用户特征提取模块,用于从用户数据采集模块所采集的用户数据中提取用户特征;
用户类型确定模块,用于根据用户特征来确定用户的类型;
分类用户消息采集模块,用于对不同类型的用户的消息使用不同的采集策略进行实时采集。
上述系统中,用户数据采集模块还可以用于采集新用户的用户数据。用户特征提取模块还可以用于定期地从分类用户消息采集模块所采集的用户数据提取用户特征。用户类型确定模块还可以用于定期地根据所提取用户特征,重新确定用户的类型。分类用户消息采集模块还可以用于响应于用户类型的变化来更新对该用户的采集策略。
上述系统中,用户类型确定模块还可以用于根据所提取的用户特征对用户进行过滤,其可以过滤掉已失效账户、新注册的账户和长时间未登录微博客系统的账户。
上述系统中,用户类型确定模块将其关注数量大于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为意见领袖;将其关注数量小于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为聊天者;将其余用户的类型确定为浏览者。还可以将聊天者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为意见领袖;将浏览者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为聊天者。
上述系统中,分类用户消息采集模块对属于意见领袖类型的用户采用群组API进行采集;对属于聊天者类型的用户采用批量采集API进行采集;对属于浏览者类型的用户采用周期性地进行采集。
上述系统中,还可以包括频率控制模块,用于监控和控制对API的调用频率。所述系统还可以包括内存过滤模块,用于消除所采集的重复的消息。
与现有技术相比,本发明的优点在于:
通过对用户类型进行判断,能够反映出微博客用户在采集问题上的特点;在用户分类的基础上进行微博客用户数据采集,使采集资源利用更充分,保证了采集的完整、高效。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的微博客数据采集方法流程图;
图2为根据本发明实施例的根据所提取的特征来确定用户类型的流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了更好地理解本发明,首先对微博进行简单介绍。微博,即微博客,是一种基于用户关系的信息分享、传播以及获取平台。微博的消息非常短,不超过140字。微博发展了一种称为“追随”(follow)的社交关系,微博用户可以任意关注感兴趣的用户而不需要获得对方的许可。微博用户发布的所有消息都会广播给他所有的“粉丝”(follower)。最早也是最著名的微博系统是美国的Twitter,根据公开的数据目前Twitter有超过2亿的活跃用户;在国内,新浪微博和腾讯微博是最热门的微博系统,目前据公开数据,新浪有超过2亿的注册用户,腾讯微博有超过3亿的注册用户。微博的盛行,给互联网带来更丰富的信息资源,微博不仅是社交网络,更成为一种传播媒体。对微博提供检索,已经在商业、政治等领域具有重要意义。
微博客所提供的基本功能包括:用户功能、消息功能、群组功能和批量采集功能。用户功能包含关注、被关注。消息功能有发送、评论、转发。群组功能包括建立群组,加入多个用户进行同时关注,对多个用户的所有消息进行采集。批量采集功能是指微博客平台会提供批量采集API,可以使用该API对多个用户的最新消息进行批量采集。在下面的实施例中以提供基本功能的微博客为例,对本发明的方法进行说明。
图1为根据本发明的一个实施例的微博客数据采集方法的流程图。该方法从最初采集的用户数据中提取用户特征,根据用户特征对用户进行分类,在分类用户的基础上进行进一步的数据采集。更具体地,该方法主要包括下列步骤:
步骤S101,采集初始的用户数据。
通常可以用网页爬虫或服务商提供的第三方API来采集初始的用户数据,这是因为是在初始化的过程中,对消息采集的实时性等没有要求。其中,初始的用户数据可以包括用户的基本信息,用户的朋友关系,用户发送、转发、评论的消息数量,用户在给定的一段时间内发送的消息被转发和评论的次数等信息。可以将采集到的数据存储在日志服务器。
步骤S102,提取用户特征。
也就是从所采集的用户数据中提取用户特征。例如,分析用户的个人信息,提取其中诸如所在地、兴趣等能反映其关注领域的特征;分析用户的朋友(关注)关系,提取其朋友(关注)的职业等分布特征,判断用户的关注领域;分析用户消息,提取发送、转发和评论的数目、内容特征,发送、转发和评论的对象特征等。在一个实施例中,可以将对应于每个用户的特征保存到特征数据库。用户特征例如可以包括注册时间、最近一次访问时间、发送消息数目、收到的转发和回复数目、关注数量、被关注数量等属性。例如表1所示的是典型的几行用户特征数据片段(以用户ID为关键字):
表1
步骤S103,确定用户类型。
也就是根据所提取出的用户特征来确定每个用户的类型。根据微博客的用户行为,可以将微博客用户分为三类:意见领袖、聊天者和浏览者。意见领袖会对某一领域或某一事件进行深入思考并积极发表意见,他们发布的消息影响力大,关注他的人数一般大于他关注的人数;聊天者会对微博客中的各类事件都进行评论,但并不对事件进行持久关注,也不专注于某一领域,影响力比意见领袖要小,他们关注的人数一般多于关注他们的人数;浏览者使用微博客的主要目的是浏览信息,他们并不对事件进行评论,他们关注的人数和关注他们的人数大致相等。
图2给出了根据本发明的一个实施例的利用所提取的用户特征确定用户类型的流程示意图。在该实施例中,首先获取用户特征数据,然后根据初始分类条件对用户进行初始分类,其中初始分类条件采用的用户特征是“用户关注的人数和关注该用户的人数”,即表1中的关注数量与被关注数量。例如,对关注数量与被关注数量做差,使用初始分类阈值进行判断:结果为正,并且该差值的绝对值超过初始分类阈值,判断该用户类型为意见领袖;结果为负,并且该差值的绝对值超过初始分类阈值,则判断该用户类型为聊天者;其他情况,则暂时判断该用户类型为浏览者。其次,对初始分类结果中的聊天者和浏览者进行进一步的判断,其中二次分类条件所采用的用户特征是“发送消息数目与收到的转发和回复数目”。例如,对发送消息数目与收到的转发和回复数目进行做差,使用二次分类阈值进行判断:聊天者中结果为负,并且该差值的绝对值超过二次分类阈值的升级为意见领袖;浏览者中结果为负,并且该差值的绝对值超过二次分类阈值的升级的聊天者;其余用户为浏览者。可以将分类结果存入分类用户数据库中。对分类结果进行保存,目的在于在后续步骤中的分类采集以及结果中进行优化。这里需要注意的是用户不一定是一个真正的人,也可以是某个单位或组织。
应指出在其他实施例中,还可以利用不同的用户特征作为上述的分类条件来对用户进行分类。例如,可以选择账户注册时间和最近登录微博客时间;关注与被关注朋友的数量;发送、转发和评论的消息的数量;发送的消息被评论和转发的数量等这些特征作为分类条件来对用户进行分类。
在又一个实施例中,在对用户分类之前,还可以先利用所提取的用户特征来对用户进行过滤,过滤掉其中不合理的用户。不合理的用户包括已失效账户、新注册的账户、长时间未登录微博客系统的账户。例如,有效账号注册时间不超过一周(新注册的账户),认为可用信息不足,不进行判断。有效账号被删除,则放弃此用户(已失效账户)。有效账号在所设阈值时间内没有再次登陆微博客,认为该用户已经放弃使用该微博客,不再进行判断(长时间未登录微博客系统的账户)。例如,利用注册时间和最近一次访问时间对用户进行过滤:注册时间小于注册时间阈值,认为该用户的数据不足,不对其进行采集;最近一次访问时间小于访问时间阈值,认为账户活跃度不足,不对其进行采集。过滤后,对剩余用户确定类型确,这样可以提高该方法的效率。
步骤S104,分类采集用户消息
对于不同类型的用户,使用不同的采集策略来对用户消息进行实时采集。
(1)对意见领袖的数据采集。
此类用户是需要重点关注的,他们的意见在微博客中得到广泛的传播,对其所在领域内的微博客用户有很大的影响。可以使用微博客服务商提供的群组功能,如Twitter提供的群组API,来对该类用户的数据进行采集。通过群组API可以一次性获取整个群组内所有用户的消息包括转发的消息。但是由于微博客服务商对API的调用次数和每个群组API的最大用户数量(例如,100个用户)进行了限制,所以当意见领袖类型的用户很多时,可以基于群组API的最大用户数量的限制将意见领域类型的用户平均分为各个用户群组(例如,每99个或98个用户为一个群组),对每个用户群组使用一个群组API来进行数据采集。这种调用方式的优势在于保证采集的完整、实时的同时,最大限度的减少了API的调用次数。
(2)对聊天者的数据采集。
此类用户的意见虽然不会造成广泛的影响,但他们确实微博客中的中坚力量,他们的意见中反映了微博客中的真实情感导向。所以也是要进行采集的对象。鉴于聊天者的特点,他们对微博客中的各种事件都会进行关注,并且不会对特定事件进行持续性关注,每天发出的评论的内容十分有限,因此只要采集此类用户最新更新的消息即可。可以对此类用户进行批量采集。微博服务商提供的批量采集API可以一次性采集到多个用户最新更新的消息。当然如果此类用户的数量超过批量采集API所允许的最大用户数量时,可以对此类用户进行分组,分别对每个组的用户使用批量采集API来进行数据采集。对大量此类用户进行批量采集,实现高效、实时,同时由于其发布的消息频率低,两次采集间隔内,发布消息的数量一般小于等于1(发布消息数量超过1的可以进行单独采集),故而此种采集方式可以保证采集的完整性。
(3)对浏览者的数据采集。
此类用户基本不发表自己的意见,他们并不是活跃度非常高的用户群,发送消息的频率很低,使用微博客的主要目的是为了获取信息。对此类用户发明采用的采集策略可以是周期性采集。通过对预定周期进行设定,周期性的对浏览者的消息进行采集。在一个预定周期内,只对该类用户进行一遍采集。针对浏览者的特点,预定周期可设置为相对较长的时间,如一周。可以使用上述提到的群组API或者批量采集API来对此类用户进行数据采集。或者也可以使用传统的采集方法如网络爬虫技术来对此类用户进行数据采集。
该方法还可以包括定期地对经分类采集所得到的用户数据重新提取用户特征、重新确定用户类型,响应于用户类型的变化来更新对该用户的采集策略的步骤(S105)。这样,可以保证分类的准确性,同时也能保证能够实时监测到微博客用户的变化,及时更换采集策略,保证采集系统的高效。
在该方法中,当有新用户添加到微博客系统时,可以先通过传统采集方法来获得用户数据,并基于所获得的用户数据提取用户特征,根据用户特征来对确定该用户的类型,然后可以根据其类型来采用相应的采集策略。
由于微博客服务商都对API的使用频率进行了限制,虽然本发明在最大限度上减少了API的调用,但由于网络及采集的用户量等问题,仍可能发生API调用频率超过微博客服务商的限制。所以在又一个实施例中,还可以包括监控和控制对API的调用频率的步骤。因此可以通过监控API调用的频率来保证该方法高效地运行。微博客服务商提供的API一般分为两种,一种不需认证可直接调用,第二种必须利用通过认证后的用户才能调用。故而,其具体的限制也分为两个方面:对第一种API,限制每个独立IP每小时的调用次数;第二种API,限制每个用户每小时的调用次数。所以可以对每小时每个采集账户及独立IP上调用的API数量进行检测,如果API调用次数超过了该时间段内微博客服务商允许的上限,则等待相应时间。
由于使用微博客自身的特性,同样的消息可能会被不断的发送,而采集过程并没有对这种情况进行限制,导致采集结果中会包含一定量的重复数据。为了最大限度上减小数据库的压力,同时避免数据冗余,在又一个实施例中,还可以包括对所采集的消息进行过滤的步骤。可以通过使用内存过滤算法来实现消息过滤。例如,使用BloomFilter算法,对每条消息的消息ID使用5个Hash函数进行计算,得到该条消息的指纹,判断某条消息是否已经存在时,只需对消息ID的指纹进行计算然后进行比对即可。该算法存在将某条不存在的消息过滤掉的可能,但该错误率在数据采集应用中是可以容忍的,BloomFilter通过极少的错误换取了存储空间的极大节省。本领域技术人员应理解在其他实施例中,可以使用现有的各种过滤算法来对消息进行过滤,例如Hashing和Bit-map。
上述方法可以适用于具有微博客特点的各类网络服务中,例如Twitter、新浪微博和腾讯微博等。
在本发明的又一个实施例中,提供了一种微博客数据采集系统。该系统包括用户数据采集模块、用户特征提取模块、用户类型确定模块和分类用户消息采集模块。其中,用户数据采集模块用于收集该系统初始所需要的用户数据。例如用户的基本信息,用户的朋友关系,用户发送、转发、评论的消息数量,用户在采集周期内发送的消息被转发和评论的次数等信息。可以将采集到的数据存储在日志服务器。通常可以用网页爬虫或服务商提供的第三方API来采集初始数据,这是因为是在系统初始化的过程中,对消息采集的实时性等没有要求。
用户特征提取模块用于从用户数据采集模块所收集的数据中提取用户特征。例如表1所示的,用户特征可以包括注册时间、最近一次访问时间、发送消息数目、收到的转发和回复数目、关注数量、被关注数量等属性。
用户类型确定模块,用于根据用户特征提取模块中所提取出的用户特征数据来确定每个用户的类型。根据微博客的用户行为,可以将微博客用户分为三类:意见领袖、聊天者和浏览者。例如,首先根据用户关注与被关注的用户量对用户进行初始分类。其次,根据发送消息数目与收到的转发和回复数目对初始分类结果中的聊天者和浏览者进行二次分类。可以将分类结果存入分类用户服务器。在一个实施例中,用户类型确定模块还可以对从用户特征提取模块中所提取出的用户特征数据进行选择,利用不同的特征来对用户进行分类。例如,可以选择账户注册时间和最近登录微博客时间;关注与被关注朋友的数量;发送、转发和评论的消息的数量;发送的消息被评论和转发的数量等这些特征来对用户进行分类。在又一个实施例中,在对用户进行分类之前,用户类型确定模块还可以先利用提取的特征来对用户特征数据进行过滤,过滤掉其中不合理的用户。不合理的用户包括已失效账户、新注册的账户、长时间未登录微博客系统的账户。过滤后,对剩余用户进行类型确定。
分类用户消息采集模块用于根据不同类型的用户,使用不同的采集策略来对用户消息进行实时采集。
在该系统中,用户数据采集模块主要是在该系统初始化过程中或在有新用户添加到系统时执行,通过传统采集方法来获得用户数据,而这些方法采集的数据在完整性上无法保证。分类用户消息采集模块是在对用户分类的基础上进行数据的采集。另外,用户特征提取模块和用户类型确定模块可以定期地对分类用户消息采集模块所采集的数据进行处理,提取用户特征并更新用户类型。如此进行反复计算,保证了分类的准确性,同时也能保证能够实时监测到微博客用户的变化,及时更换采集策略,保证采集的完整性。
在又一个实施例中,该系统还可以包括频率控制模块,用于监控和控制对API的调用频率。在又一个实施例中,该系统还可以包括内存过滤模块,用于消除所采集的重复的消息。在又一个实施例中,该系统还可以包括数据存储模块,通过使用非关系数据库和关系数据库的结合,实现了数据的高效存储。数据存储模块将具有强结构性的数据,比如用户之间的关系,存入关系型数据库,将结构性不强且数据量非常大的数据存入非关系数据库。另外,在对数据库进行写入时,否定了即采即写的策略,而是将采集到的数据缓存起来,当数据量超过所设阈值(该数值的设定与系统的硬件条件有关)时进行一次性的写入。这样不仅提高了I/O操作的效率,而且提升了整个系统的性能。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims (14)

1.一种微博客数据采集方法,该方法包括:
步骤1)采集初始的用户数据;
步骤2)从用户数据中提取用户特征;
步骤3)根据用户特征来确定用户的类型;
步骤4)对不同类型的用户的消息使用不同的采集策略进行实时采集;
其中用户特征包括:
1)、账户注册时间和最近登录微博客时间;
2)、关注数量与被关注数量;
3)、发送、转发和评论的消息的数量;
4)、发送的消息被评论和转发的数量;
所述步骤3)包括以下步骤:将其关注数量大于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为意见领袖;
将其关注数量小于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为聊天者;
将其余用户的类型确定为浏览者;
所述步骤3)还包括:将聊天者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为意见领袖;以及将浏览者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为聊天者;
所述步骤4)包括:对属于意见领袖类型的用户采用群组API进行采集;对属于聊天者类型的用户采用批量采集API进行采集;对属于浏览者类型的用户进行周期性地采集。
2.根据权利要求1所述的方法,还包括步骤5)定期地从经步骤4)采集的用户数据中提取用户特征,并基于所提取的用户特征重新确定用户的类型,以及响应于用户类型的变化来更新对该用户的采集策略。
3.根据权利要求1所述的方法,步骤3)还包括根据所提取的用户特征对用户进行过滤的步骤。
4.根据权利要求3所述的方法,其中过滤掉的用户为已失效账户、新注册的账户和长时间未登录微博客系统的账户。
5.根据权利要求1所述的方法,还包括监控和控制对API的调用频率的步骤。
6.根据权利要求5所述的方法,还包括对所采集的消息进行过滤以消除重复的消息的步骤。
7.一种微博客数据采集系统,该系统包括:
用户数据采集模块,用于采集初始的用户数据;
用户特征提取模块,用于从用户数据采集模块所采集的用户数据中提取用户特征;其中用户特征包括:
1)、账户注册时间和最近登录微博客时间;
2)、关注数量与被关注数量;
3)、发送、转发和评论的消息的数量;
4)、发送的消息被评论和转发的数量;
用户类型确定模块,用于根据用户特征来确定用户的类型,其被配置为:
将其关注数量大于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为意见领袖;
将其关注数量小于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为聊天者;
将其余用户的类型确定为浏览者;
将聊天者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为意见领袖;以及
将浏览者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为聊天者;
分类用户消息采集模块,用于对不同类型的用户的消息使用不同的采集策略进行实时采集,其被配置为:对属于意见领袖类型的用户采用群组API进行采集;对属于聊天者类型的用户采用批量采集API进行采集;以及对属于浏览者类型的用户采用周期性地进行采集。
8.根据权利要求7所述的系统,其中用户特征提取模块还用于定期地从分类用户消息采集模块所采集的用户数据提取用户特征。
9.根据权利要求8所述的系统,其中用户类型确定模块还用于定期地基于所提取的用户特征,重新确定用户的类型。
10.根据权利要求9所述的系统,其中分类用户消息采集模块还用于响应于用户类型的变化来更新对该用户的采集策略。
11.根据权利要求7所述的系统,其中用户类型确定模块还用于根据所提取的用户特征对用户进行过滤。
12.根据权利要求11所述的系统,其中用户类型确定模块过滤掉已失效账户、新注册的账户和长时间未登录微博客系统的账户。
13.根据权利要求7所述的系统,还包括频率控制模块,用于监控和控制对API的调用频率。
14.根据权利要求7所述的系统,还包括内存过滤模块,用于消除所采集的重复的消息。
CN201210011178.7A 2012-01-13 2012-01-13 微博客数据采集方法及系统 Active CN102609460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210011178.7A CN102609460B (zh) 2012-01-13 2012-01-13 微博客数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210011178.7A CN102609460B (zh) 2012-01-13 2012-01-13 微博客数据采集方法及系统

Publications (2)

Publication Number Publication Date
CN102609460A CN102609460A (zh) 2012-07-25
CN102609460B true CN102609460B (zh) 2015-02-04

Family

ID=46526832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210011178.7A Active CN102609460B (zh) 2012-01-13 2012-01-13 微博客数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN102609460B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416982A (zh) * 2021-01-25 2021-02-26 北京轻松筹信息技术有限公司 一种实时用户特征的计算方法及装置

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780652B (zh) * 2012-07-23 2018-04-20 上海量明科技发展有限公司 即时通信中对信息进行归类采集的方法及系统
CN102880698B (zh) * 2012-09-21 2015-08-05 新浪网技术(中国)有限公司 一种抓取网站确定方法及装置
CN103116605B (zh) * 2013-01-17 2016-02-10 上海交通大学 一种基于监测子网的微博热点事件实时检测方法及系统
CN103150333B (zh) * 2013-01-26 2016-01-13 安徽博约信息科技有限责任公司 微博媒体中的意见领袖识别方法
JP5961320B2 (ja) * 2013-03-12 2016-08-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ
CN103150383B (zh) * 2013-03-15 2015-07-29 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN103279484B (zh) * 2013-04-23 2016-03-30 中国科学院计算技术研究所 一种面向微博客系统中未来意见领袖的创建方法及系统
CN103345535B (zh) * 2013-07-26 2017-03-29 人民搜索网络股份公司 一种微博用户挖掘方法及装置
CN103366018B (zh) * 2013-08-02 2017-11-03 人民搜索网络股份公司 一种微博信息抓取方法及装置
CN104009970A (zh) * 2013-09-17 2014-08-27 宁波公众信息产业有限公司 一种网络信息采集方法
CN103631949B (zh) * 2013-12-11 2016-01-27 中国科学院计算技术研究所 一种社交网络数据采集方法及系统
CN103795613B (zh) * 2014-01-16 2017-02-01 西北工业大学 一种在线社交网络中朋友关系预测的方法
CN103810283A (zh) * 2014-02-20 2014-05-21 东莞中国科学院云计算产业技术创新与育成中心 一种基于用户关联关系的微博数据采集方法
CN105281971A (zh) * 2014-07-23 2016-01-27 江苏威盾网络科技有限公司 一种基于可信度的网络账号异常检测方法
CN106570699A (zh) * 2015-10-08 2017-04-19 平安科技(深圳)有限公司 客户联系信息挖掘方法及服务器
CN105704689A (zh) * 2016-01-12 2016-06-22 深圳市深讯数据科技股份有限公司 一种短信行为的大数据采集与分析方法及系统
EP3331202A4 (en) 2016-04-15 2018-08-22 Huawei Technologies Co., Ltd. Message presentation method, device, and system
CN106295701A (zh) * 2016-08-11 2017-01-04 五八同城信息技术有限公司 用户识别方法及装置
CN106599060B (zh) * 2016-11-16 2020-04-07 竹间智能科技(上海)有限公司 获取用户画像的方法及系统
CN108334651B (zh) * 2018-02-08 2021-10-01 北京小米移动软件有限公司 收集用户端数据实现预设需求的方法、装置及存储介质
CN108536866B (zh) * 2018-04-24 2021-02-23 中国人民解放军战略支援部队信息工程大学 基于话题转移熵的微博隐蔽关键用户分析方法
CN111368131B (zh) * 2020-03-06 2023-08-18 咪咕音乐有限公司 用户关系识别方法、装置、电子设备及存储介质
CN111858702B (zh) * 2020-06-28 2022-02-11 西安工程大学 一种用于动态画像的用户行为数据采集和加权方法
CN118037422A (zh) * 2024-01-30 2024-05-14 深圳信钛数科科技有限公司 一种用于银行业的线上大数据智慧风控系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202966A (zh) * 2007-11-29 2008-06-18 华为软件技术有限公司 一种用户信息的收集方法、系统及设备
CN101334792A (zh) * 2008-07-10 2008-12-31 中国科学院计算技术研究所 一种个性化服务推荐系统和方法
CN102281309A (zh) * 2010-06-11 2011-12-14 腾讯科技(深圳)有限公司 网络信息的发布方法和网络信息的发布系统及客户端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082701B (zh) * 2009-12-01 2013-08-07 中兴通讯股份有限公司 网元位置信息存储方法及装置
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202966A (zh) * 2007-11-29 2008-06-18 华为软件技术有限公司 一种用户信息的收集方法、系统及设备
CN101334792A (zh) * 2008-07-10 2008-12-31 中国科学院计算技术研究所 一种个性化服务推荐系统和方法
CN102281309A (zh) * 2010-06-11 2011-12-14 腾讯科技(深圳)有限公司 网络信息的发布方法和网络信息的发布系统及客户端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416982A (zh) * 2021-01-25 2021-02-26 北京轻松筹信息技术有限公司 一种实时用户特征的计算方法及装置
CN112416982B (zh) * 2021-01-25 2021-09-21 北京轻松筹信息技术有限公司 一种实时用户特征的计算方法及装置

Also Published As

Publication number Publication date
CN102609460A (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN102609460B (zh) 微博客数据采集方法及系统
CN103428164B (zh) 用户社交网络关系圈划分方法和系统
US10496654B2 (en) Systems and methods for social media data mining
Sankaranarayanan et al. Twitterstand: news in tweets
CN101257671B (zh) 基于内容的大规模垃圾短信实时过滤方法
US11334636B2 (en) Real-time event detection on social data streams
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN105677842A (zh) 基于Hadoop大数据处理技术的日志分析系统
CN103607705B (zh) 垃圾短信过滤方法及引擎
CN102750326A (zh) 一种基于精简策略的集群系统的日志管理优化方法
CN103116605A (zh) 一种基于监测子网的微博热点事件实时检测方法及系统
CN103064731A (zh) 一种提高消息队列系统性能的装置及其方法
JP2008107867A (ja) コミュニティ抽出方法、コミュニティ抽出処理装置
Kamath et al. Transient crowd discovery on the real-time social web
WO2017016084A1 (zh) 告警信息通知方法、装置及告警信息过滤设备
CN102253988A (zh) 网络文本服务中敏感词过滤的方法
CN103457836A (zh) 即时通信文件夹的实现方法及客户端
CN103279483B (zh) 一种面向微博客的话题流行范围评估方法及系统
CN103167086A (zh) 一种清理手机无效联系人的系统及方法
CN102801548A (zh) 一种智能预警的方法、装置及信息系统
US20170229118A1 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
CN101882290A (zh) 互联网环境下基于情境本体的服务集成方法
López-Ramírez et al. Geographical aggregation of microblog posts for LDA topic modeling
CN102521379A (zh) 基于主动推技术的互联网信息采集方法和装置
CN201403204Y (zh) 基于互联网的移动通讯录管理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Cheng Xueqi

Inventor after: Fang Weiwei

Inventor after: Li Jingyuan

Inventor after: Chen Genbao

Inventor after: Xing Guoliang

Inventor after: Zhang Kai

Inventor after: Jin Bo

Inventor after: Fang Binxing

Inventor before: Cheng Xueqi

Inventor before: Fang Weiwei

Inventor before: Li Jingyuan

Inventor before: Chen Genbao

Inventor before: Xing Guoliang

Inventor before: Zhang Kai

Inventor before: Fang Binxing

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: CHENG XUEQI FANG WEIWEI LI JINGYUAN CHEN GENBAO XING GUOLIANG ZHANG KAI FANG BINXING TO: CHENG XUEQI FANG WEIWEI LI JINGYUAN CHEN GENBAO XING GUOLIANG ZHANG KAI JIN BO FANG BINXING

C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120725

Assignee: Branch DNT data Polytron Technologies Inc

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2018110000033

Denomination of invention: Method and system for microblog data acquisition

Granted publication date: 20150204

License type: Common License

Record date: 20180807

EE01 Entry into force of recordation of patent licensing contract