CN104735138B - 一种面向用户生成内容的分布式采集方法与系统 - Google Patents

一种面向用户生成内容的分布式采集方法与系统 Download PDF

Info

Publication number
CN104735138B
CN104735138B CN201510102980.0A CN201510102980A CN104735138B CN 104735138 B CN104735138 B CN 104735138B CN 201510102980 A CN201510102980 A CN 201510102980A CN 104735138 B CN104735138 B CN 104735138B
Authority
CN
China
Prior art keywords
collection
acquisition tasks
acquisition
page
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510102980.0A
Other languages
English (en)
Other versions
CN104735138A (zh
Inventor
张勇东
吴波
曹娟
郭俊波
李锦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201510102980.0A priority Critical patent/CN104735138B/zh
Publication of CN104735138A publication Critical patent/CN104735138A/zh
Application granted granted Critical
Publication of CN104735138B publication Critical patent/CN104735138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向用户生成内容的分布式采集方法,包括:1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务根据采集量和采集难度将多个同类型的采集页面划入;2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。本发明还提供了相应的分布式采集系统,包括主控节点和多个子节点,主控节点用于构建并维护采集任务队列;各个所述子节点用于并发地执行采集任务。本发明的采集速度快,显著地提高了UGC新闻采集的实时性;可以适用于各种不同类型页面的采集,执行多样化的采集任务;能够规避采集对象的监控措施。

Description

一种面向用户生成内容的分布式采集方法与系统
技术领域
本发明涉及信息采集技术领域,具体地说,本发明涉及一种面向用户生成内容的分布式采集方法与系统。
背景技术
用户生成内容简称为UGC(User Generated Content)。UGC新闻是在社会媒体(例如微博、博客、社交网络等)中用户们自发上传或分享的新闻事件信息。UGC内容由于其具有反应及时、传播快等特点,也成为传统媒体的一个主要信息来源。目前,随着互联网技术的深入人心和WEB2.0技术的蓬勃发展,普通用户成为互联网上的内容的主要生产者。然而,由于UGC新闻的门槛低,任何用户都可以向互联网上传内容,UGC新闻缺乏有效监管,其中存在着大量的虚假新闻。
基于UGC的新闻认证预警是基于互联网中的海量数据进行分析并对新闻信息进行真实程度预警的自动化认证方案。其基础就是对海量数据的深度采集和结构化组织。由于新闻认证预警是一项实时性任务并且需要针对特定但多样的信息页面,因而对数据采集系统的高效性、复杂性和分析能力都有很高的要求。
从国内外技术进展来看,一方面,已有的分布式采集方案并不注重效率,而是注重持续性和稳定性,因而已有的分布式采集方案并不能满足新闻认证预警对系统实时性的要求;另一方面,目前的采集任务需求集中于面向单一页面采集,每个子节点通常采集一个页面,这种方案不能满足新闻认证预警中特定但多样的页面采集需求。总之,新闻认证预警需要收集的UGC信息类型复杂、实时性要求高,目前还没有相应的数据解决方案。
发明内容
因此,本发明的任务是克服现有技术的不足,提供一种具有高实时性的UGC新闻分布式采集解决方案。
本发明提供了一种面向用户生成内容的分布式采集方法,包括下列步骤:
1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务是根据采集量和采集难度将多个同类型的采集页面划入同一采集任务所形成的采集任务;
2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。
其中,所述步骤1)还包括:根据采集量和采集难度将部分采集任务进一步划分为多个子任务并将子任务加入所述采集队列;
所述步骤2)还包括:并发地从所述采集任务队列取出所述子任务,执行该子任务并返回所采集的信息。
其中,所述步骤1)中,所述采集难度包括页面对采集频率的限制,以及是否需要身份认证确定。
本发明还提供了一种面向用户生成内容的分布式采集系统,包括采集集群,所述采集集群包括主控节点和多个子节点,所述主控节点用于构建并维护采集任务队列,根据所接收的采集页面的采集量和采集难度划分页面类型,然后基于页面类型构建采集任务并加入所述采集队列,其中采集任务包括所述复合采集任务;各个所述子节点用于并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。
其中,所述主控节点还用于根据采集量和采集难度将所述采集任务队列中部分采集任务划分为多个子任务,所述子节点还用于并发地从所述采集任务队列取出所述子任务,执行该子任务并返回所采集的信息。
其中,所述分布式采集系统还包括登陆管理模块,所述登陆管理模块用于管理并向各个所述子节点提供各常用新闻采集网站的登陆信息。
其中,登录管理模块还用于维护可用账号池,完成账号的分配,回收,异常处理和新添;所述采集子节点还用于向登录管理模块申请可用账号,完成账号的模拟登录,将登录异常的账号和使用过程中出现异常的账号汇报给登录管理模块,向登录管理模块申请添加账号等功能。
其中,其特征在于还包括反监控模块,所述反监控模块用于通过预设的采集策略来实现反监控,所述预设的采集策略包括:将任务分配至多个采集子节点上采集,单个采集子节点采用多个账号轮循采集,根据不同的采集页面设定相应的采集间隔和并发采集量中一项或多项。
本发明还提供了一种基于前述的分布式采集系统的分布式采集方法,其特征在于,包括下列步骤:
1)主控节点根据所接收的采集页面的采集量和采集难度划分页面类型,然后构建相应的采集任务;
2)主控节点根据页面类型和采集难度,将所构建的采集任务加入任务队列,所述采集任务包括所述复合采集任务,主控节点还根据根据页面类型和采集难度将所构建的采集任务细分,将细分后的子任务加入任务队列;
3)各子节点并发地从任务队列获取采集任务或者子任务,执行该采集任务后者子任务并返回所采集的信息。
其中,所述步骤3)还包括:各子节点一旦空闲就去竞争获得分布式锁,如果获得分布式锁,则立即去任务队列取任务,任务完成后采集子节点将采集结果放入约定好的临时存储空间,并通知主控节点。
其中,其特征在于还包括步骤:
4)当同批次的子任务完成后,主控节点完成采集结果的合并;如果在约定时间内,所有同批次采集任务还未完全返回,采集主节点则丢弃返回的部分结果,对本次任务做超时处理。
其中,所述步骤3)还包括,在子节点执行采集任务时,所述子节点还从所采集的页面中抽取出表征页面监控措施的状态信息,所述分布式采集系统根据所述表征页面监控措施的状态信息调整用于反监控的采集策略,所述用于反监控的采集策略包括:将任务分配至多个采集子节点上采集,单个采集子节点采用多个账号轮循采集,根据不同的采集页面设定相应的采集间隔和并发采集量中的一项或多项。
与现有技术相比,本发明具有下列技术效果:
1、本发明的采集速度快,显著地提高了UGC新闻采集的实时性。
2、本发明可以适用于各种不同类型页面的采集,可执行多样化的采集任务。
3、对于采取了监控措施的采集对象,本发明能够进行规避并顺利完成相应的新闻采集任务。
4、本发明可应用于多种对信息采集实时性要求较高的领域,例如新闻认证预警,多层次的舆情信息挖掘服务,以及热点事件分析服务等。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1示出了本发明一个实施例的UGC新闻分布式采集系统的框架图。
具体实施方式
图1示出了本发明一个实施例的UGC新闻分布式采集系统的框架图,包括:线索预处理模块,采集实体选取模块,采集集群,存储管理模块,登陆管理模块以及反封堵管理模块。下面分别介绍这些模块。
1、线索预处理模块
线索预处理模块用于对采集线索进行预处理。采集线索包括新闻的简短描述或短语、新闻可能发生的起始时间、终止时间等。它包含各种新闻要素,但往往不适合直接作为后续数据处理的输入。所以线索预处理模块对采集线索进行分词、关键词提取、无效词过滤、语义实体识别等预处理,提取其中的新闻要素。这些新闻要素将为采集任务的分配和定向采集提供参考。
2、采集实体选取模块
采集实体选取模块用于根据输入的新闻要素得到相应的采集页面。该模块根据线索预处理的结果,获取相关关键词、相关新闻内容地址(例如与采集线索相关的微博、博客、社交网络等UGC新闻地址)、相关用户地址等信息构成采集目标候选集合。进一步地,还可以通过对目标候选集合中目标的重要性对各类采集目标(即采集实体)进行排序,选取排序前n个对象作为最终的采集目标,如关键微博、关键用户等。在确定采集目标后,可得到相应的采集页面。本实施例中,采集实体选取模块有助于尽可能快地采集新闻相关的网络信息,以及尽可能减少信息采集量。
3、采集集群
采集集群包括主控节点和多个子节点,通过主控节点和多个子节点的交互实现采集任务分配与采集调度。其中,主控节点用于建立采集任务并构建和维护采集队列。子节点用于通过分布式锁机制有序地从采集队列获取采集任务,获取到采集任务后从链接池中获取链接客户端模拟浏览器进行页面的采集,并使用预设的模板对返回的页面进行信息抽取。
在一个实施例中,主控节点根据新闻认证预警的采集需求对采集任务进行划分,并充分利用各类型任务的特点实施高并发、高并行的采集策略。主控节点获得一个采集页面时,需要对该采集页面的采集量,采集难度进行评估,然后构建相应的采集任务。比如,对于采集量大,采集难度高的的采集页面,可以构建一个采集任务,然后再将该采集任务划分为多个子任务。划分可以采用不同的维度进行,比如将时间段划分为更细粒度的时间片,或者将翻页任务按页面划分。
在一个实施例中,采集集群作为分布式的采集系统,主控节点构建后维护一个分发任务的队列,保证采集主节点分配的采集任务有序地分发,同时还设计了一个锁机制来保证多个采集子节点协调有序地到任务队列中获取采集任务以避免冲突。该采集集群的调度策略为:主控节点接收到采集页面后,构建相应的采集任务,然后将任务细分,细分后的采集任务放入任务等待队列,各采集子节点一旦空闲就去任务等待队列取任务,在取任务之前,采集子节点要先竞争获得分布式锁,任务完成后采集子节点将采集结果放入约定好的临时存储空间,并通知主节点,当同批次的子任务完成后,采集主节点完成采集结果的合并。如果在约定时间内,所有同批次采集任务还未完全返回,采集主节点则丢弃返回的部分结果,对本次任务做超时处理。为了保证持续可用性,当一个采集子节点出现故障时,则将未完成的任务返还到任务分发队列中,以便让其他的采集子节点去完成该采集任务。另外,当所接收的采集页面的采集量较小且采集难度较低时,主控节点可以直接将该采集页面作为单个采集任务加入任务队列;对于采集任务量更小的页面,还可以将同类型的多个采集页面划入一个采集任务(这类采集任务可称为复合采集任务),采集任务的类型根据采集量和采集难度划分,所述采集难度根据页面对采集频率的限制,是否需要身份认证等方面确定。本实施例的采集集群及任务构建和分配方式能够高效地利用各个子节点的计算资源和带宽资源,显著地提高UGC新闻采集的实时性。
由于采集集群专门针对新闻数据进行采集,因此要采集的域名地址是有限的。所以在一个实施例中,要采集的域名地址预先设置。并且,为了提高效率,子节点维持一个对应于各个常用的要采集的域名地址的链接池,子节点获取采集任务(或子任务)后直接从连接池中获取可用链接,完成任务的采集,采集任务结束后将链接放回链接池,以减少底层建立TCP连接的开销。链接池是一种常用的加速技术,各个子节点通过与待访问服务器维持多个可用连接,当有新的访问任务到来时,子节点可直接从链接池中获取已建立的可用连接,完成对服务器的访问,然后再将链接回收到链接池中,而不是释放并断掉该链接,这样就可以减少建立链接的时间。在短时间需要大量http请求时,子节点维持对应于各个常用的要采集的域名的链接池,能够显著地降低完成采集任务所需的时间开销。
另外,在一个实施例中,由于不同页面的采集量、采集频率限制、采集条件不同,故对不同的采集页面进行区分,通过设定特定的采集间隔、并发采集量、是否需要使用cookie信息等配置,有针对性地使用不同的采集策略。
在一个实施例中,采集集群的信息抽取包含采集集群的目标信息的抽取和被采集网站的状态信息抽取。具体来说,对于目标信息,本实施例的各个子节点模拟浏览器行为进行页面的采集,得到的页面包含大量网页标签等无用信息,节点根据预先对不同采集页面设定的不同模板,抽取出需要的信息,按照一定的组织方式进行存储;另一方面,出于对自己信息和网络资源的保护,网站往往会对爬虫、密集访问等行为做限制,采集子节点分析返回页面,抽取出有用的表征访问限制的状态信息,如提示输入验证码等,根据抽取得到的状态信息自动调整采集策略,如更换cookie信息继续访问该网站,或者返还采集任务进入短暂休眠状态等。
在一个实施例中,主控节点完成采集任务的细分和采集结果的数据合并,采集子节点将采集到的数据放在约定好的临时存储空间中,当所有任务完成后,子采集通知主节点采集任务完成,主节点则从该临时存储空间中获取所有的数据片进行合并,删除临时空间,并将合并后的数据存入永久存储空间中。为了避免混淆不同采集任务结果,由主节点对每个采集主任务生成唯一的令牌(token),所有子任务都携带该token,主节点通过该token信息,将同一个采集主任务下的子任务采集结果进行合并。
4、存储管理模块
存储管理模块应当满足密集型实时采集任务的需要。密集型实时采集任务采集数据量比较大,并有频繁的数据交互、存储、读取,故选择高效的key-value数据库来实现存储管理模块。同时,新闻有明显的时间特性,使用数据缓存对数据的重复利用有很好的效果,因此存储管理模块使用高性能的key-value缓存数据库来进行数据存储。
5、登陆管理模块
登陆管理模块用于管理并向各个子节点提供各常用新闻采集网站的登陆信息。出于数据保护的目的,很多网站的一些数据需要登录后才可以访问,这就为采集带来了新的问题。为了解决这个问题,采集子节点需实现模拟登录,之后才可以获取到所需要的数据。一个实施例中,登录管理模块负责维护可用账号池,完成账号的分配、回收,异常处理、新添等任务。采集子节点则实现向登录管理模块申请可用账号,完成账号的模拟登录,将登录异常的账号和使用过程中出现异常的账号汇报给登录管理模块,向登录管理模块申请添加账号等功能。
6、反封堵管理模块
由于目标网站往往设计了反爬取策略,而本采集系统需要采集大量且密集的数据。所以为了保证系统的持续可用性,在一个优选实施例中,采集系统还增设了反封堵管理模块(也可称为反监控模块)。反监控模块通过预设的采集策略来实现反监控,具体策略有:将任务分配至多个采集子节点上采集(众所周知,不同采集子节点具有不同的IP地址,因此将任务分配至多个采集子节点能够避开一部分目标网站的反爬取策略)、单个采集子节点采用多个账号轮循采集、根据不同的采集页面设定相应的采集间隔和并发采集量。这种多个采集子节点协同采集、多种采集任务并发进行的策略不仅保证本系统的持续可用性,同时也保证了本采集系统的采集速度。
进一步地,基于上述分布式采集系统,本发明的一个实施例中还提供了相应的分布式采集方法,包括下列步骤:
1)主控节点根据所接收的采集页面的采集量和采集难度划分页面类型,然后构建相应的采集任务。在一个实施例中,采集难度根据网页的访问频率限制,以及是否需要身份认证来确定。例如,可以将不需要身份认证,且访问频率限制和采集量均大致相同的多个网页作为同一个页面类型,将需要身份认证,且访问频率限制和采集量均大致相同的多个网页作为同一个页面类型。多个同类型网页的采集可以合并为一个任务。子节点执行该任务时,可以循环地依次访问各个网页,这样就可以同时满足所有网页的采集频率限制,又能够避免子节点的计算资源闲置,提高了采集具有访问频率限制网页信息时的子节点利用率。上述根据采集量和采集难度划分待采集网页类型的方法仅是示例,通常来说,基于采集量,是否需要身份认证,访问频率限制这三个维度,将页面类型相同的待采集网页合并为同一任务,即可在一定程度上提高采集子节点的利用率。而用采集量,是否需要身份认证,访问频率限制划分网页类型的具体方法还有多种,可以根据实际情况进行设计和选择,这里不再一一赘述。
2)根据页面类型,主控节点直接将所构建的采集任务加入任务队列,将所构建的多个同类型的采集任务进行合并,将合并后的采集任务加入任务队列,或者将所构建的采集任务细分,将细分后的子任务加入任务队列。
3)各子节点并发地从任务队列获取任务,执行该采集任务并返回所采集的信息。在一个实施例中,各子节点一旦空闲就去竞争获得分布式锁,如果获得分布式锁,则立即去任务队列取任务,任务完成后采集子节点将采集结果放入约定好的临时存储空间,并通知主控节点。
在一个优选实施例中,子节点执行采集任务时,还从所采集的页面中抽取出表征页面监控措施的状态信息,所述分布式采集系统根据所述表征页面监控措施的状态信息调整用于反监控的采集策略,所述用于反监控的采集策略包括:将任务分配至多个采集子节点上采集,单个采集子节点采用多个账号轮循采集,根据不同的采集页面设定相应的采集间隔和并发采集量中的一项或多项。
4)在采集任务细分时,当同批次的子任务完成后,主控节点完成采集结果的合并;如果在约定时间内,所有同批次采集任务还未完全返回,采集主节点则丢弃返回的部分结果,对本次任务做超时处理。
利用上述方法,能够显著地提高UGC新闻采集的实时性,且可以适用于各种不同类型页面的采集,可执行多样化的采集任务,并且对于采取了监控措施的采集对象,也能够进行规避并顺利完成相应的新闻采集任务。
需要补充的是,上述UGC分布式采集方法虽然基于特定的分布式系统(即主节点-子节点模式的机群系统)实现,但本发明的UGC分布式采集方法并不仅仅适用于该类集群系统,其中主节点和子节点也可以用软件实体替代,例如在上述步骤1)~4)中,将主控节点替换为超级计算机的一个主线程,而子节点替换为超级计算机的子线程,可得到一种分布式采集方法的变形的实施例,该实施例也可执行多样化的采集任务,并且对于采取了监控措施的采集对象,也能够进行规避并顺利完成相应的新闻采集任务。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其它的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (12)

1.一种面向用户生成内容的分布式采集方法,包括下列步骤:
1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集任务队列;其中,所述采集任务包括复合采集任务,所述复合采集任务是根据采集量和采集难度将多个同类型的采集页面划入同一采集任务所形成的采集任务;
2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。
2.根据权利要求1所述的面向用户生成内容的分布式采集方法,其特征在于,所述步骤1)还包括:根据采集量和采集难度将部分采集任务进一步划分为多个子任务并将子任务加入所述采集任务队列;
所述步骤2)还包括:并发地从所述采集任务队列取出所述子任务,执行该子任务并返回所采集的信息。
3.根据权利要求2所述的面向用户生成内容的分布式采集方法,其特征在于,所述步骤1)中,所述采集难度包括页面对采集频率的限制,以及是否需要身份认证确定。
4.一种面向用户生成内容的分布式采集系统,包括采集集群,所述采集集群包括主控节点和多个子节点,所述主控节点用于构建并维护采集任务队列,根据所接收的采集页面的采集量和采集难度划分页面类型,然后基于页面类型构建采集任务并加入所述采集任务队列,其中采集任务包括复合采集任务,所述复合采集任务是根据采集量和采集难度将多个同类型的采集页面划入同一采集任务所形成的采集任务;各个所述子节点用于并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。
5.根据权利要求4所述的分布式采集系统,其特征在于,所述主控节点还用于根据采集量和采集难度将所述采集任务队列中部分采集任务划分为多个子任务,所述子节点还用于并发地从所述采集任务队列取出所述子任务,执行该子任务并返回所采集的信息。
6.根据权利要求5所述的分布式采集系统,其特征在于,还包括登录管理模块,所述登录管理模块用于管理并向各个所述子节点提供各常用新闻采集网站的登录信息。
7.根据权利要求6所述的分布式采集系统,其特征在于,登录管理模块还用于维护可用账号池,完成账号的分配,回收,异常处理和新添;所述子节点还用于向登录管理模块申请可用账号,完成账号的模拟登录,将登录异常的账号和使用过程中出现异常的账号汇报给登录管理模块,向登录管理模块申请添加账号功能。
8.根据权利要求4所述的分布式采集系统,其特征在于还包括反监控模块,所述反监控模块用于通过预设的采集策略来实现反监控,所述预设的采集策略包括:将任务分配至多个子节点上采集,单个子节点采用多个账号轮循采集,根据不同的采集页面设定相应的采集间隔和并发采集量中一项或多项。
9.一种基于权利要求4所述的分布式采集系统的分布式采集方法,其特征在于,包括下列步骤:
1)主控节点根据所接收的采集页面的采集量和采集难度划分页面类型,然后构建相应的采集任务;
2)主控节点根据页面类型和采集难度,将所构建的采集任务加入任务队列,所述采集任务包括所述复合采集任务,主控节点还根据页面类型和采集难度将所构建的采集任务细分,将细分后的子任务加入任务队列;
3)各子节点并发地从任务队列获取采集任务或者子任务,执行该采集任务或者子任务并返回所采集的信息。
10.根据权利要求9所述的分布式采集方法,其特征在于,所述步骤3)还包括:各子节点一旦空闲就去竞争获得分布式锁,如果获得分布式锁,则立即去任务队列取任务,任务完成后子节点将采集结果放入约定好的临时存储空间,并通知主控节点。
11.根据权利要求10所述的分布式采集方法,其特征在于还包括步骤:
4)当同批次的子任务完成后,主控节点完成采集结果的合并;如果在约定时间内,所有同批次采集任务还未完全返回,主控节点则丢弃返回的部分结果,对本次任务做超时处理。
12.根据权利要求9所述的分布式采集方法,其特征在于,所述步骤3)还包括,在子节点执行采集任务时,所述子节点还从所采集的页面中抽取出表征页面监控措施的状态信息,所述分布式采集系统根据所述表征页面监控措施的状态信息调整用于反监控的采集策略,所述用于反监控的 采集策略包括:将任务分配至多个子节点上采集,单个子节点采用多个账号轮循采集,根据不同的采集页面设定相应的采集间隔和并发采集量中的一项或多项。
CN201510102980.0A 2015-03-09 2015-03-09 一种面向用户生成内容的分布式采集方法与系统 Active CN104735138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510102980.0A CN104735138B (zh) 2015-03-09 2015-03-09 一种面向用户生成内容的分布式采集方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510102980.0A CN104735138B (zh) 2015-03-09 2015-03-09 一种面向用户生成内容的分布式采集方法与系统

Publications (2)

Publication Number Publication Date
CN104735138A CN104735138A (zh) 2015-06-24
CN104735138B true CN104735138B (zh) 2018-01-09

Family

ID=53458564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510102980.0A Active CN104735138B (zh) 2015-03-09 2015-03-09 一种面向用户生成内容的分布式采集方法与系统

Country Status (1)

Country Link
CN (1) CN104735138B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656727B (zh) * 2015-10-29 2019-12-10 中国电信股份有限公司 在社交网络中对用户信息处理的方法和装置
CN105550280A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 登录类型网站的数据采集系统
CN105656932A (zh) * 2016-03-01 2016-06-08 中国传媒大学 一种面向用户生成内容的突发事件新闻采集方法与系统
CN106874094A (zh) * 2017-02-17 2017-06-20 广州爱九游信息技术有限公司 定时任务处理方法、装置及计算设备
CN107222564A (zh) * 2017-07-04 2017-09-29 贵州数据宝网络科技有限公司 数据采集方法及装置
CN107679076A (zh) * 2017-08-28 2018-02-09 国网上海市电力公司 一种电力数据的采集分析系统
CN107818130A (zh) * 2017-09-15 2018-03-20 深圳市电陶思创科技有限公司 一种搜索引擎的建立方法及系统
CN108763279B (zh) * 2018-04-11 2020-12-15 北京中科闻歌科技股份有限公司 一种网页数据分布式模板采集方法及系统
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN109213912A (zh) * 2018-08-16 2019-01-15 北京神州泰岳软件股份有限公司 一种抓取网络数据的方法及网络数据抓取调度装置
CN109586947B (zh) * 2018-10-11 2020-12-22 上海交通大学 分布式设备信息采集系统和方法
CN109460299B (zh) * 2018-11-08 2022-04-15 中山大学 一种分布式并行多源社交网络数据采集系统和方法
CN109542642A (zh) * 2018-11-15 2019-03-29 网宿科技股份有限公司 一种前端任务处理的方法及装置
CN109857563B (zh) * 2019-02-18 2021-04-27 重庆西部汽车试验场管理有限公司 任务执行方法、装置和任务执行系统
CN110046658B (zh) * 2019-03-30 2021-08-20 华为技术服务有限公司 远程操作设备的方法和相关装置
CN111309830A (zh) * 2019-07-10 2020-06-19 浙江商安信息科技有限公司 基于电子地图获取订餐商铺信息的方法、系统及存储介质
CN110442766A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 网页数据采集方法、装置、设备及存储介质
CN110895489A (zh) * 2019-11-18 2020-03-20 北京达佳互联信息技术有限公司 一种任务处理方法、装置及存储介质
CN110955508B (zh) * 2019-11-28 2021-04-13 广州鼎甲计算机科技有限公司 基于分布式架构的异步任务调度方法、装置和计算机设备
CN111083136B (zh) * 2019-12-12 2022-03-08 北京百分点科技集团股份有限公司 账号资源管理装置、方法及数据采集系统、方法
CN111428176A (zh) * 2020-03-04 2020-07-17 北京明略软件系统有限公司 用户行为的获取方法和装置
CN111638964A (zh) * 2020-06-09 2020-09-08 武汉虹旭信息技术有限责任公司 一种集中式互联网数据采集系统及采集方法
CN112667901B (zh) * 2020-12-31 2024-04-26 中国电子信息产业集团有限公司第六研究所 一种社交媒体数据的获取方法及系统
CN114363883B (zh) * 2022-01-19 2023-07-25 东方通信股份有限公司 一种漫游号功能分布式部署系统
CN115225719B (zh) * 2022-08-31 2023-01-10 中建电子商务有限责任公司 一种分布式定向网络数据采集解析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101981590A (zh) * 2008-03-31 2011-02-23 雅虎公司 利用社交网络访问受信任的用户生成的内容
CN102073683A (zh) * 2010-12-22 2011-05-25 四川大学 一种分布式的实时新闻信息采集系统
WO2011139552A3 (en) * 2010-04-26 2012-03-01 Yahoo! Inc. Searching a user's online world
CN103678488A (zh) * 2013-11-12 2014-03-26 德比软件(上海)有限公司 分布式大批量动态任务引擎及采用其处理数据的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101981590A (zh) * 2008-03-31 2011-02-23 雅虎公司 利用社交网络访问受信任的用户生成的内容
WO2011139552A3 (en) * 2010-04-26 2012-03-01 Yahoo! Inc. Searching a user's online world
CN102073683A (zh) * 2010-12-22 2011-05-25 四川大学 一种分布式的实时新闻信息采集系统
CN103678488A (zh) * 2013-11-12 2014-03-26 德比软件(上海)有限公司 分布式大批量动态任务引擎及采用其处理数据的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向网络科技监测的分布式定向资源精确采集研究和应用;谢靖等;《现代图书情报技术 2011年》;20111231(第Z1期);全文 *

Also Published As

Publication number Publication date
CN104735138A (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN104735138B (zh) 一种面向用户生成内容的分布式采集方法与系统
US11487735B2 (en) Combinators
Liu et al. A task scheduling algorithm based on classification mining in fog computing environment
Hu et al. Toward an SDN-enabled big data platform for social TV analytics
Zheng et al. Real-time intelligent big data processing: technology, platform, and applications
US8918365B2 (en) Dedicating disks to reading or writing
CN105224606B (zh) 一种用户标识的处理方法及装置
Shi et al. Event detection and identification of influential spreaders in social media data streams
Amini et al. A Fast Density‐Based Clustering Algorithm for Real‐Time Internet of Things Stream
Erlandsson et al. Crawling online social networks
Zheng et al. KDE based outlier detection on distributed data streams in multimedia network
Taxidou et al. Realtime analysis of information diffusion in social media
CN108875091A (zh) 一种统一管理的分布式网络爬虫系统
Xiao et al. ORHRC: Optimized recommendations of heterogeneous resource configurations in cloud-fog orchestrated computing environments
Xia et al. Optimizing an index with spatiotemporal patterns to support GEOSS Clearinghouse
You et al. SNES: Social-Network-Oriented Public Opinion Monitoring Platform Based on ElasticSearch.
CN112231481A (zh) 网址的分类方法、装置、计算机设备和存储介质
Cai et al. A recommendation-based parameter tuning approach for Hadoop
Lee et al. Detecting anomaly teletraffic using stochastic self-similarity based on Hadoop
Xhafa et al. Using bi-clustering algorithm for analyzing online users activity in a virtual campus
CN110442614A (zh) 元数据的搜索方法及装置、电子设备、存储介质
Slaninová et al. User segmentation based on finding communities with similar behavior on the web site
Fang et al. Parallelized user clicks recognition from massive HTTP data based on dependency graph model
Chaffai et al. Real-Time Analysis of Students’ Activities on an E-Learning Platform based on Apache Spark
Shi et al. Event detection and key posts discovering in social media data streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant