CN105447088A - 一种基于志愿者计算的多租户专业云爬虫 - Google Patents

一种基于志愿者计算的多租户专业云爬虫 Download PDF

Info

Publication number
CN105447088A
CN105447088A CN201510751538.0A CN201510751538A CN105447088A CN 105447088 A CN105447088 A CN 105447088A CN 201510751538 A CN201510751538 A CN 201510751538A CN 105447088 A CN105447088 A CN 105447088A
Authority
CN
China
Prior art keywords
reptile
user
load information
resource
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510751538.0A
Other languages
English (en)
Other versions
CN105447088B (zh
Inventor
徐精忠
刘凯枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou encryption Matrix Technology Co., Ltd
Original Assignee
Hangzhou Jueshu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jueshu Technology Co Ltd filed Critical Hangzhou Jueshu Technology Co Ltd
Priority to CN201510751538.0A priority Critical patent/CN105447088B/zh
Publication of CN105447088A publication Critical patent/CN105447088A/zh
Application granted granted Critical
Publication of CN105447088B publication Critical patent/CN105447088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及网络信息采集领域,提供了一种基于志愿者计算的多租户专业云爬虫,包括用户管理客户端,定义爬虫任务,提交爬虫任务,设定爬虫参数,查看爬虫运行情况及获取爬取回来的数据,还包括爬虫服务端,实现爬虫任务的调度和爬取回来的数据处理;爬虫采集客户端,采集互联网站点数据,收集运行主机的网络带宽速率的信息;爬虫服务端包括分布式调度和分布式处理,分布式调度,实现爬虫任务的调度、爬虫客户端资源的管理及接收爬虫客户端返回来的数据;分布式处理,分布式数据处理器实时的去消费消息队列里面的数据,以流式的方式处理数据。本发明提高了用户闲置资源的利用率,节约了用户开发爬虫系统的成本,实现了资源的公平共享。

Description

一种基于志愿者计算的多租户专业云爬虫
技术领域
本发明涉及网络信息采集领域,尤其涉及一种基于志愿者计算的多租户专业云爬虫。
背景技术
如今已经进入了一个数据爆炸的时代,随着互联网、移动互联网技术的发展,Web已经变成数据分享的平台,那么,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难。
在这样的情形下,通用搜索引擎(Google,Bing,百度等等)成为大家快速找到目标信息的最好途径。在用户对自己需求相对明确的时候,用通用搜索引擎很方便的通过关键字搜索很快的找到自己需要的信息。但通用搜索引擎并不能完全满足用户对信息发现的需求,那是因为在很多情况下,一是由于通用搜索引擎本身存在网络覆盖率低、漏检率高等局限性,不能为用户提供精确全面的信息;其次用户的需求很难用简单的关键字来表述。由于通用搜索引擎的以上不足,用户为了获取特定的主题信息,必须自己构建不同的主题爬虫来采集互联网特定信息。但是对于普通用户,构建一个易于扩展、稳定的网络爬虫并不是一件容易的事,因为要考虑到URL去重,动态网页采集、网页内容解析、实时增量更新、爬虫IP资源,爬虫调度、反爬等问题,如果爬取的目标网页内容很多,还需要考虑海量数据存储问题。鉴于通用搜索引擎的不足及普通用户构建爬虫所面临的难点,提出一种基于志愿者计算的多租户专业云爬虫实现方法来克服。
志愿者计算是通过互联网让全球的普通大众志愿提供空闲的PC时间,参与科学计算或数据分析的一种计算方式。志愿者计算模式当前主要运用在科学计算等一些基础性领域。
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
多租户的概念最早起源于软件领域,指一个软件实例服务于多个用户的架构。每个用户称为一个租户。利用多租户技术,可以实现资源的高度共享,从而提高资源利用率,降低单位资源成本。多租户也是云计算的基本属性之一,云计算的三种服务层次—SaaS、PaaS和IaaS均体现了对多租户不同的支持。
互联网信息采集问题是一个比较通用的需求,大到百度、腾讯、阿里等这样的互联网公司,小到开发天气预报APP的公司都有爬取数据的需求,目前对互联网信息采集的解决方案主要是每个用户根据自己的需求,开发构建一套爬虫系统,对那些中小企业客户也不例外。而构建一个爬虫系统,不仅面临上文所说的普通用户构建网络爬虫所面临的难点,而且还需要网络带宽、服务器等硬件资源。而对中小企业客户来说,由于大部分爬取的站点比较少且不频繁,导致企业很多带宽和服务器资源空闲。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于志愿者计算的多租户专业云爬虫,帮助用户特别是中小企业用户高效快速采集互联网信息,解决了现有技术中存在的问题,本发明通过以下技术方案达到上述目的:一种基于志愿者计算的多租户专业云爬虫,包括用户管理客户端,所述用户管理客户端是用户管理的门户,向用户提供WEB接口及RESTAPI服务,用户通过管理门户,定义爬虫任务,提交爬虫任务,设定爬虫参数,查看爬虫运行情况及获取爬取回来的数据,还包括爬虫服务端,爬虫采集客户端,所述爬虫服务端实现爬虫任务的调度和爬取回来的数据处理;所述爬虫采集客户端由连接在互联网上的各种相对空闲主机组成,采集互联网站点数据,收集运行主机的网络带宽速率的信息,用于爬虫任务的调度管理;所述爬虫服务端包括分布式调度和分布式处理,所述分布式调度实现爬虫任务的调度、爬虫采集客户端资源的管理及接收爬虫采集客户端返回来的数据;所述分布式处理接收爬虫采集客户端返回的数据,立即将数据进入分布式消息队列,实时的去消费消息队列里面的数据,以流式的方式处理数据。
进一步的,所述分布式调度包括调度器、爬取任务信息汇报器、用户信息汇报器、爬虫节点负载信息汇报器及爬虫集群负载信息收集器,爬虫节点负载信息汇报器收集爬虫采集客户端的负载信息,并将负载信息定期发送给爬虫集群负载信息收集器,调度器在负载均衡的过程中通过爬虫集群负载信息收集器获得所有爬虫采集客户端的负载信息,并根据用户信息汇报器和爬虫任务信息汇报器做出负载均衡决策。
进一步的,所述调度器收集各种信息的主要步骤包括:
(1)爬虫节点负载信息汇报器到爬虫集群负载信息收集器注册,爬虫节点负载信息汇报器发送节点的IP和主机名到爬虫集群负载信息收集器,爬虫集群负载信息收集器对爬虫节点的IP进行注册,创建该爬虫节点负载信息对象,该爬虫节点负载信息汇报器发送的负载信息都将存在该对象中;
(2)爬虫节点负载信息汇报器获得爬虫节点网络带宽的利用率,上述爬虫节点负载信息汇报器获得爬虫节点网络带宽的利用率的实现过程为:
a)计算最近一次间隔时间内平均网络带宽利用率,计算公式如下:
b)计算最近一次间隔时间内平均可提供网络带宽速率,计算公式如下:
平均可提供网络带宽速率=最大可提供网络带宽速率-平均已使用网络带宽速率;
c)估计爬虫节点执行任务期间可提供网络带宽速率,以此作为爬虫节点负载信息,为爬虫节点负载信息汇报器启动时刻记为t0,间隔时间记为t,t0+t时刻记为t1,依次类推,t0+n×t时刻记为tn,(tn-1,tn)时间间隔内的平均网络带宽速率记为rn(n≥1),rn可以由步骤(a)到步骤(c)得到,任务完成时刻记为tf,(tn,tf)时间内的平均网络带宽速率记为Rn,则Rn的预估公式如下:
R n = r 1 n = 1 ( 1 - α ) R n - 1 + αr n n > 1 , 其中,α∈(0,1);
(3)爬虫节点负载信息汇报器将节点执行任务期间可提供网络带宽速率作为负载信息发送到爬虫集群负载信息收集器,所有机器上的爬虫节点负载信息汇报器均需要定时将负载信息报告给爬虫集群负载信息收集器,时间间隔根据系统规模来确定。
进一步的,所述调度器在获得各个爬虫采集客户端负载信息情况后,构建一个两层结构的资源池对爬虫采集客户端资源进行管理,调度器在调度任务时,以用户为单位来分配资源,具体算法如下所示:
当出现一个空闲爬虫采集客户端时,调度器会将此爬虫采集客户端分配给缺额最大的爬虫用户,系统每隔500毫秒更新一次信息,包括:用户缺额、用户权重、最小共享量、公平共享量;
(1)用户权重计算方法;
默认情况下,用户权重是基于用户等级的,但也可以基于用户所拥有爬虫任务的多少,用户权重的计算方法如下:
根据用户等级计算用户权重:
用户权重=默认用户权重×用户等级
(2)更新用户权重
每个已经有爬虫作业运行的用户权重更新公式:
(3)初始缺额计算
每个用户的初始资源缺额设置为0
(4)更新用户的最小共享量
在每个资源池中,将其拥有的爬虫采集客户端按用户的权重分配给各个用户(由步骤a)完成),分完之后将剩余的爬虫采集客户端按用户的权重和缺额分配给仍需爬虫采集客户端的用户(由步骤b)),如果还有爬虫采集客户端资源剩余,则将这些客户端资源共享给其他用户资源池,具体步骤如下所示:
初始化:当前所有用户资源的最小共享量置零;
重复以下几步,直到资源池剩余资源为零:
计算每个用户的最小共享量
首先计算该用户可获得的共享值:
根据当前资源池中的剩余资源数,调整该共享值:
获取资源数=min{min{剩余资源数,用户尚需资源数与正运行资源数之和-最小共享量},最小资源保证量}
资源剩余量=资源剩余量-获得资源数
如果此轮循环中,资源剩余值未变,即没有资源分给任何作业,则将剩余的资源共享给资源池中所有用户,即,执行b)c)并结束算法;
将资源池中的用户按权重和缺额排序;
按顺序依次计算每个用户的最小资源共享量
首先计算该作业可获得的共享值:
根据当前资源池中的剩余资源数,调整该共享值:
获取资源数=min{min{剩余资源数,用户尚需资源数与正运行资源数之和-最小共享量},最小资源保证量}
资源剩余量=资源剩余量-用户获得资源数
需要注意的是,当执行完b)、c)后,资源剩余量可能仍大于0,这时候会将剩余的资源剩余量共享给其他用户资源池;
(5)更新公平共享量
具体步骤如下所示:
初始化:当前所有用户的公平共享量置零;资源剩余量为系统中空闲的爬虫采集客户端资源;
遍历系统活动用户集合中的所有用户,计算每个用户的公平共享量:
如果作业的最小共享量大于公平共享量,则将最小共享量作为公平共享量赋值给用户,同时将此用户从活动用户集合中删除;
将剩下的爬虫采集客户端资源按权重比例赋给活动用户集合中剩余的用户:
将公平共享量赋值给用户;
(6)更新缺额
用户资源缺额=用户资源缺额+(公平共享量-活动用户数)×两次信息更新的时间间隔;
(7)资源分配
当系统中产生一个空闲爬虫采集客户端资源时,将此资源分配给缺额最大的用户。
本发明的有益效果:本发明针对现有的爬虫解决方案遇到诸如资源利用率低、开发爬虫系统成本高及效率低等问题,提出了新的一种基于志愿者计算的多租户专业云爬虫解决方案,本发明的优点包括:
1)利用志愿者计算方式提高用户闲置资源的利用率;
通过志愿者计算方式把用户在互联网上闲散的大规模计算资源聚集并作为采集客户端利用起来,从而为构建多租户专业云爬虫对采集客户端计算资源需求较多的难题提供了一种行之有效的解决途径。对于多租户专业云爬虫平台,志愿者计算意味着近乎免费且无限的采集资源;而就志愿者而言,他们可以得到一个免费或者很便宜的互联网信息采集服务。
2)利用云服务的形式向用户提供互联网信息采集服务,不仅提高资源利用率,还节约了用户开发爬虫系统的成本;
本发明把数据处理和数据爬取分离,数据处理端以专有云的形式部署在Hadoop,Spark分布式计算框架之上,具备准实时数据处理、可扩展和可维护等特性;数据采集采用志愿者共享计算资源模式;并用SAAS(软件即服务)的方式向用户提供互联网数据采集服务,用户只要提供爬取的目标站点及需要返回的数据格式等,多租户专业云爬虫就能把用户对应的数据爬取回来;
3)基于用户等级的分布式公平调度器,不仅考虑了资源的公平共享,还考虑了用户信息等因素,提高了资源的利用率及用户采集任务的响应时间;
本发明提出的分布式调度器,利用两级资源池的方式来管理资源,具有支持多用户多任务、资源公平共享(公平共享量由用户等级决定)、保证最小共享量、支持时间片抢占、响应及时等特性;有效的为用户按需提供低成本、高可靠性、规模可伸缩的数据采集资源及服务。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例整体架构图;
图2是本发明实施例中数据爬取流程图;
图3是本发明实施例中调度信息收集流程图;
图4是本发明实施例中调度资源管理流程图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
本发明的爬虫平台采用基于志愿者计算的分布式系统结构,由爬虫服务端、爬虫采集客户端和用户管理客户端组成,整个系统相互配合协同工作,其整体架构见附图1。即本发明由以下几个部分组成:
1、用户管理客户端
用户管理客户端是用户管理的门户,向用户提供WEB接口及RESTAPI服务,用户通过管理门户,定义爬虫任务,提交爬虫任务,设定爬虫参数,查看爬虫运行情况及获取爬取回来的数据。用户向平台提交一个采集任务,到任务调度运行并返回结果如附图2所示,其步骤为:
1)首先用户A通过管理门户提交一个爬虫任务1,管理门户会将爬虫任务1相关信息存储到Mysql数据库表,并将爬虫任务1的种子URL列表和其对应的状态信息存储到Hbase调度表;
2)分布式的读取Hbase调度表里的URL记录和其状态信息,判断读取的URL记录是否要处理,如果不满足设定的要求,本次则不处理,反之跳到3);
3)判断URL记录对应网页内容是否存在及已爬取时间是否符合要求,如果符合要求,则跳到4),反之则跳到5);
4)根据URL记录去Hbase数据存储表获取对应URL记录的站点数据,用当前用户信息、爬虫任务信息和站点数据生成一条用户A爬虫任务1的记录数据,进入数据处理队列;等待6)处理。
5)根据用户信息和爬虫采集客户端负载情况等信息,调度分发对应URL记录到某一爬虫采集客户端去采集,并返回采集来的站点数据,并根据用户信息、爬虫任务信息和站点数据生成一条记录数据,进入数据处理队列,等待6)处理
6)读取数据队列里的记录,并用对应规则解析网页内容、提取外链及数据抽取器的学习,生成对应记录的索引并把原始数据及解析的数据存储到Hbase数据表里。
7)更新Hbase调度表对应URL记录的状态信息。
8)用户可以通过门户站点或RESTAPI服务获取爬取回来的数据;
2、爬虫采集客户端
爬虫采集客户端是由连接在互联网上的各种相对空闲主机组成,最主要的功能就是采集互联网站点数据,爬虫采集客户端一般可以采集两种类型的数据即静态网页数据和动态网页数据(DeepWeb);静态网页数据相对来说比较容易采集,而动态网页数据一般比较难采集,因此这两类数据采集分别用不同的采集引擎实现,从而提高采集效率。静态数据采集引擎用Apache下面的HttpClient实现,动态网页数据一般是通过JavaScript生成的,因此动态网页数据采集引擎必须有能够解析执行JavaScript脚本的功能,目前采用HtmlUnit实现。爬虫采集客户端除了采集数据,还需收集运行主机的网络带宽速率的信息(当前阶段没有考虑CPU、内存等其他负载信息),用于爬虫任务的调度管理。
3、爬虫服务端
爬虫服务端是整个平台的中枢,由分布式调度和分布式处理组成,分别实现爬虫任务的调度和爬取回来的数据处理。将爬虫调度和数据处理部分分离,通过分布式数据存储及分布式消息中间件来进行连接,增强了平台的可扩展性和可维护性。
1)分布式调度;
分布式调度是整个平台的控制中心,主要实现爬虫任务的调度、爬虫采集客户端资源的管理及接收爬虫采集客户端返回来的数据。为了高效的调度爬虫任务,调度器需要收集各种信息作为调度分发的依据,调度器整个信息收集如附图3所示,爬虫节点负载信息汇报器收集爬虫采集客户端的负载信息,并将负载信息定期发送给爬虫集群负载信息收集器。调度器在负载均衡的过程中通过爬虫集群负载信息收集器获得所有爬虫采集客户端的负载信息,并根据用户信息汇报器和爬虫任务汇报器做出负载均衡决策。
爬虫节点负载信息收集部分的主要步骤包括:
(1)爬虫节点负载信息汇报器到爬虫集群负载信息收集器注册;
爬虫节点负载信息汇报器发送节点的IP和主机名到爬虫集群负载信息收集器,爬虫集群负载信息收集器对爬虫节点的IP进行注册,创建该爬虫节点负载信息对象。该爬虫节点负载信息汇报器发送的负载信息都将存在该对象中。
(2)爬虫节点负载信息汇报器获得爬虫节点网络带宽的利用率,具体流程如下;
a)计算最近一次间隔时间内平均网络带宽利用率;
例如,在Linux操作系统下获取网络带宽利用率的相关信息的方法为:cat/proc/net/dev(从/proc文件系统获取网络使用情况)。该过程每隔一段时间执行一次,时间间隔根据系统规模来确定,设置较大的时间间隔能减少网络通信量,减轻爬虫集群负载信息收集器和爬虫节点负载信息汇报器的工作频率,反之能获得更多的平均已使用网络带宽速率,可以更精确的估计爬虫节点执行任务期间平均可提供网络带宽速率。最近一次间隔时间内平均已使用网络带宽速率的计算公式如下:
b)计算最近一次间隔时间内平均可提供网络带宽速率,公式如下:
平均可提供网络带宽速率=最大可提供网络带宽速率-平均已使用网络带宽速率
c)估计爬虫节点执行任务期间可提供网络带宽速率,以此作为爬虫节点负载信息。
为爬虫节点负载信息汇报器启动时刻记为t0,间隔时间记为t,t0+t时刻记为t1,依次类推,t0+n×t时刻记为tn。(tn-1,tn)时间间隔内的平均网络带宽速率记为rn(n≥1),rn可以由步骤(a)到步骤(c)得到。任务完成时刻记为tf。(tn,tf)时间内的平均网络带宽速率记为Rn,则Rn的预估公式如下:
R n = r 1 n = 1 ( 1 - α ) R n - 1 + αr n n > 1
其中,α∈(0,1)。α越接近0表示网络带宽速率的历史情况对任务执行期间网络带宽速率影响越大,α越接近1表示最近的网络带宽速率对任务执行期间网络带宽速度影响越大。具体的α值,可以根据系统规模进行调优。
(3)爬虫节点负载信息汇报器将节点执行任务期间可提供网络带宽速率作为负载信息发送到爬虫集群负载信息收集器。
所有机器上的爬虫节点负载信息汇报器均需要定时将负载信息报告给爬虫集群负载信息收集器。时间间隔根据系统规模来确定。设置较大的时间间隔能减少网络通信量,减轻爬虫集群负载信息收集器和爬虫节点负载信息汇报器的工作频率,反之,能获得更精确的爬虫各节点负载信息。
爬虫调度器在获得各个爬虫采集客户端负载信息情况后,构建一个两层结构的资源池对爬虫采集客户端资源进行管理,流程如附图4所示,爬虫调度器在调度任务时,是以用户为单位来分配资源的,具体算法如下所示:
当出现一个空闲爬虫采集客户端时,公平调度器会将此爬虫采集客户端分配给缺额最大的爬虫用户。系统每隔500毫秒更新一次信息(有一个专门的更新线程对用户信息进行更新),包括:用户缺额(用户的其他属性,如用户权重、最小共享量、公平共享量等,均是为计算缺额服务的)、用户权重、最小共享量、公平共享量等。
(1)用户权重计算方法;
a)默认情况下,权重是基于用户等级的,但也可以基于用户所拥有爬虫任务的多少,权重的计算方法如下:
b)根据用户等级计算用户权重:
用户权重=默认用户权重×用户等级
(注:后面的用户权重为系统默认的用户权重,一般为1;前面的用户权重是根据用户等级计算出来的用户权重)
(2)更新用户权重
每个已经有爬虫作业运行的用户权重更新公式:
注:资源池权重一般由系统设定,默认为1;后面的用户权重为更新前权重,前面的用户权重为更新后的权重
(3)初始缺额计算
每个用户的初始资源缺额设置为0。
(4)更新用户的最小共享量
在每个资源池中,将其拥有的爬虫采集客户端按用户的权重分配给各个用户(由步骤a)完成),分完之后将剩余的爬虫采集客户端按用户的权重和缺额分配给仍需爬虫采集客户端的用户(由步骤b)),如果还有爬虫采集客户端资源剩余,则将这些客户端资源共享给其他用户资源池。具体步骤如下所示:
初始化:当前所有用户资源的最小共享量置零;
重复以下几步,直到资源池剩余资源为零:
a)计算每个用户的最小共享量
首先计算该用户可获得的共享值:
根据当前资源池中的剩余资源数,调整该共享值:
获取资源数=min{min{剩余资源数,用户尚需资源数与正运行资源数之和-最小共享量},最小资源保证量}
资源剩余量=资源剩余量-获得资源数
如果此轮循环中,资源剩余值未变,即没有资源分给任何作业,则将剩余的资源共享给资源池中所有用户,即,执行b)c)并结束算法:
b)将资源池中的用户按权重和缺额排序
c)按顺序依次计算每个用户的最小资源共享量
首先计算该作业可获得的共享值:
根据当前资源池中的剩余资源数,调整该共享值:
获取资源数=min{min{剩余资源数,用户尚需资源数与正运行资源数之和-最小共享量},最小资源保证量}
资源剩余量=资源剩余量-用户获得资源数
需要注意的是,当执行完b)、c)后,资源剩余量可能仍大于0,这时候会将剩余的资源剩余量共享给其他用户资源池。
(5)更新公平共享量
主要思想:基于用户权重和最小共享量计算公平共享量。首先,根据权重分配可用爬虫采集客户端资源数,如果用户的最小共享量大于公平共享量,先要满足最小共享量,更新可用爬虫采集客户端数,重复以上步骤,直到所有用户的最小共享量小于或等于公平共享量,这样,每个用户的最小共享量都得到了满足,最后,所有用户平分剩下的爬虫采集客户端数。
算法实现:
初始化:当前所有用户的公平共享量置零;资源剩余量为系统中空闲的爬虫采集客户端资源;
a)遍历系统活动用户集合中的所有用户,计算每个用户的公平共享量:
如果作业的最小共享量大于公平共享量,则将最小共享量作为公平共享量赋值给用户。同时将此用户从活动用户集合中删除。
b)将剩下的爬虫采集客户端资源按权重比例赋给活动用户集合中剩余的用户:
将公平共享量赋值给用户。
(6)更新缺额
用户资源缺额=用户资源缺额+(公平共享量-活动用户数)×两次信息更新的时间间隔
(7)资源分配
当系统中产生一个空闲爬虫采集客户端资源时,将此资源分配给缺额最大的用户。
2)分布式处理;
分布式调度器接收到爬虫采集客户端返回的数据后,立即将数据进入分布式消息队列,分布式数据处理器实时的去消费消息队列里面的数据,以流式的方式处理数据。网页数据的处理分为两种情况,一种是通用的数据处理方法,一种是根据用户配置的模板来处理数据;通用方法利用基于特征模型的自学习文本数据挖掘技术进行数据的提取和分析,基于用户模板的方法会根据模板定义的规则去提取数据;数据处理完成后,生成对应数据的索引,更新对应的URL记录状态,并存储数据到Hbase数据表里,同时将生成的外链插入到Hbase调度表里,等待调度分发、爬取和处理。
本发明未详细阐述部分属于本领域公知技术。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.一种基于志愿者计算的多租户专业云爬虫,包括用户管理客户端,所述用户管理客户端是用户管理的门户,向用户提供WEB接口及RESTAPI服务,用户通过管理门户,定义爬虫任务,提交爬虫任务,设定爬虫参数,查看爬虫运行情况及获取爬取回来的数据,其特征在于:还包括爬虫服务端,爬虫采集客户端,所述爬虫服务端实现爬虫任务的调度和爬取回来的数据处理;所述爬虫采集客户端由连接在互联网上的各种相对空闲主机组成,采集互联网站点数据,收集运行主机的网络带宽速率的信息,用于爬虫任务的调度管理;所述爬虫服务端包括分布式调度和分布式处理,所述分布式调度实现爬虫任务的调度、爬虫采集客户端资源的管理及接收爬虫采集客户端返回来的数据;所述分布式处理接收爬虫采集客户端返回的数据,立即将数据进入分布式消息队列,实时的去消费消息队列里面的数据,以流式的方式处理数据。
2.根据权利要求1所述的基于志愿者计算的多租户专业云爬虫,其特征在于:所述分布式调度包括调度器、爬取任务信息汇报器、用户信息汇报器、爬虫节点负载信息汇报器及爬虫集群负载信息收集器,爬虫节点负载信息汇报器收集爬虫采集客户端的负载信息,并将负载信息定期发送给爬虫集群负载信息收集器,调度器在负载均衡的过程中通过爬虫集群负载信息收集器获得所有爬虫采集客户端的负载信息,并根据用户信息汇报器和爬虫任务信息汇报器做出负载均衡决策。
3.根据权利要求2所述的基于志愿者计算的多租户专业云爬虫,其特征在于:所述调度器收集各种信息的主要步骤包括:
S1.爬虫节点负载信息汇报器到爬虫集群负载信息收集器注册,爬虫节点负载信息汇报器发送节点的IP和主机名到爬虫集群负载信息收集器,爬虫集群负载信息收集器对爬虫节点的IP进行注册,创建该爬虫节点负载信息对象,该爬虫节点负载信息汇报器发送的负载信息都将存在该对象中;
S2.爬虫节点负载信息汇报器获得爬虫节点网络带宽的利用率,述爬虫节点负载信息汇报器获得爬虫节点网络带宽的利用率的实现过程为:
a)计算最近一次间隔时间内平均网络带宽利用率,计算公式如下:
b)计算最近一次间隔时间内平均可提供网络带宽速率,计算公式如下:
平均可提供网络带宽速率=最大可提供网络带宽速率-平均已使用网络带宽速率;
c)估计爬虫节点执行任务期间可提供网络带宽速率,以此作为爬虫节点负载信息,为爬虫节点负载信息汇报器启动时刻记为t0,间隔时间记为t,t0+t时刻记为t1,依次类推,t0+n×t时刻记为tn,(tn-1,tn)时间间隔内的平均网络带宽速率记为rn(n≥1),rn可以由步骤(a)到步骤(c)得到,任务完成时刻记为tf,(tn,tf)时间内的平均网络带宽速率记为Rn,则Rn的预估公式如下:
R n = r 1 n = 1 ( 1 - α ) R n - 1 + αr n n > 1 , 其中,α∈(0,1);
S3.爬虫节点负载信息汇报器将节点执行任务期间可提供网络带宽速率作为负载信息发送到爬虫集群负载信息收集器,所有机器上的爬虫节点负载信息汇报器均需要定时将负载信息报告给爬虫集群负载信息收集器,时间间隔根据系统规模来确定。
4.根据权利要求3所述的基于志愿者计算的多租户专业云爬虫,其特征在于;所述调度器在获得各个爬虫采集客户端负载信息情况后,构建一个两层结构的资源池对爬虫采集客户端资源进行管理,调度器在调度任务时,以用户为单位来分配资源,具体算法如下所示:当出现一个空闲爬虫采集客户端时,调度器会将此爬虫采集客户端分配给缺额最大的爬虫用户,系统每隔500毫秒更新一次信息,包括:用户缺额、用户权重、最小共享量、公平共享量;
(1)用户权重计算方法:
a)默认情况下,用户权重是基于用户等级的,但也可以基于用户所拥有爬虫任务的多少,用户权重的计算方法如下:
b)根据用户等级计算用户权重:
用户权重=默认用户权重×用户等级
(2)更新用户权重
每个已经有爬虫作业运行的用户权重更新公式:
(3)初始缺额计算
每个用户的初始资源缺额设置为0
(4)更新用户的最小共享量
在每个资源池中,将其拥有的爬虫采集客户端按用户的权重分配给各个用户(由步骤a)完成),分完之后将剩余的爬虫采集客户端按用户的权重和缺额分配给仍需爬虫采集客户端的用户(由步骤b)),如果还有爬虫采集客户端资源剩余,则将这些客户端资源共享给其他用户资源池,具体步骤如下所示:
初始化:当前所有用户资源的最小共享量置零;
重复以下几步,直到资源池剩余资源为零:
a)计算每个用户的最小共享量
首先计算该用户可获得的共享值:
根据当前资源池中的剩余资源数,调整该共享值:
获取资源数=min{min{剩余资源数,用户尚需资源数与正运行资源数之和-最小共享量},最小资源保证量}
资源剩余量=资源剩余量-获得资源数
如果此轮循环中,资源剩余值未变,即没有资源分给任何作业,则将剩余的资源共享给资源池中所有用户,即,执行b)c)并结束算法;
b)将资源池中的用户按权重和缺额排序;
c)按顺序依次计算每个用户的最小资源共享量
首先计算该作业可获得的共享值:
根据当前资源池中的剩余资源数,调整该共享值:
获取资源数=min{min{剩余资源数,用户尚需资源数与正运行资源数之和-最小共享量},最小资源保证量}
资源剩余量=资源剩余量-用户获得资源数
需要注意的是,当执行完b)、c)后,资源剩余量可能仍大于0,这时候会将剩余的资源剩余量共享给其他用户资源池;
(5)更新公平共享量
具体步骤如下所示:
初始化:当前所有用户的公平共享量置零;资源剩余量为系统中空闲的爬虫采集客户端资源;
a)遍历系统活动用户集合中的所有用户,计算每个用户的公平共享量:
如果作业的最小共享量大于公平共享量,则将最小共享量作为公平共享量赋值给用户,同时将此用户从活动用户集合中删除;
b)将剩下的爬虫采集客户端资源按权重比例赋给活动用户集合中剩余的用户:
将公平共享量赋值给用户;
(6)更新缺额
用户资源缺额=用户资源缺额+(公平共享量-活动用户数)×两次信息更新的时间间隔;
(7)资源分配
当系统中产生一个空闲爬虫采集客户端资源时,将此资源分配给缺额最大的用户。
CN201510751538.0A 2015-11-06 2015-11-06 一种基于志愿者计算的多租户专业云爬虫系统 Active CN105447088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510751538.0A CN105447088B (zh) 2015-11-06 2015-11-06 一种基于志愿者计算的多租户专业云爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510751538.0A CN105447088B (zh) 2015-11-06 2015-11-06 一种基于志愿者计算的多租户专业云爬虫系统

Publications (2)

Publication Number Publication Date
CN105447088A true CN105447088A (zh) 2016-03-30
CN105447088B CN105447088B (zh) 2019-04-09

Family

ID=55557266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510751538.0A Active CN105447088B (zh) 2015-11-06 2015-11-06 一种基于志愿者计算的多租户专业云爬虫系统

Country Status (1)

Country Link
CN (1) CN105447088B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326447A (zh) * 2016-08-26 2017-01-11 北京量科邦信息技术有限公司 一种众包网络爬虫抓取数据的检测方法及系统
CN107071009A (zh) * 2017-03-28 2017-08-18 江苏飞搏软件股份有限公司 一种负载均衡的分布式大数据爬虫系统
CN107241319A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
CN108874925A (zh) * 2018-05-31 2018-11-23 深圳市酷达通讯有限公司 一种分布式垂直爬虫方法及终端设备
CN110020066A (zh) * 2017-07-31 2019-07-16 北京国双科技有限公司 一种往爬虫平台注任务的方法及装置
CN110188300A (zh) * 2019-05-30 2019-08-30 吉林大学 一种面向汽车领域的采购信息的处理方法及装置
CN110290013A (zh) * 2019-07-10 2019-09-27 无锡华云数据技术服务有限公司 一种云平台网络带宽的自动均衡方法及其系统
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN110516139A (zh) * 2019-09-05 2019-11-29 上海携程商务有限公司 爬虫系统及方法
CN111092921A (zh) * 2018-10-24 2020-05-01 北大方正集团有限公司 数据采集方法、装置及存储介质
CN111406249A (zh) * 2017-06-05 2020-07-10 平衡媒体技术有限责任公司 用于协作处理计算任务的平台
CN111522654A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 分布式爬虫的调度处理方法、装置及设备
CN111538590A (zh) * 2020-04-17 2020-08-14 姜海强 一种基于cs架构的分布式数据采集方法及系统
CN111538593A (zh) * 2020-04-21 2020-08-14 夏邦泽 一种基于工业互联网操作系统的数据采集方法
CN111580954A (zh) * 2020-04-01 2020-08-25 中国科学院信息工程研究所 一种可扩展的分布式数据采集方法和系统
CN111753169A (zh) * 2020-06-29 2020-10-09 金电联行(北京)信息技术有限公司 一种基于互联网的数据采集系统
CN112181984A (zh) * 2020-09-28 2021-01-05 平安数字信息科技(深圳)有限公司 渠道服务管理方法、装置、设备及介质
CN112765438A (zh) * 2021-01-25 2021-05-07 北京星汉博纳医药科技有限公司 一种基于微服务的自动爬虫管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692267A (zh) * 2009-09-15 2010-04-07 北京大学 一种大规模恶意网页检测方法及系统
CN103139256A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 一种多租户网络舆情监控方法及系统
CN104767757A (zh) * 2015-04-17 2015-07-08 国家电网公司 基于web业务的多维度安全监测方法和系统
CN104765682A (zh) * 2015-03-30 2015-07-08 微梦创科网络科技(中国)有限公司 跨站脚本漏洞的线下检测方法和系统
US20150288678A1 (en) * 2011-09-09 2015-10-08 Kingston Digital, Inc. Private cloud routing server connection mechanism for use in a private communication architecture

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692267A (zh) * 2009-09-15 2010-04-07 北京大学 一种大规模恶意网页检测方法及系统
US20150288678A1 (en) * 2011-09-09 2015-10-08 Kingston Digital, Inc. Private cloud routing server connection mechanism for use in a private communication architecture
CN103139256A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 一种多租户网络舆情监控方法及系统
CN104765682A (zh) * 2015-03-30 2015-07-08 微梦创科网络科技(中国)有限公司 跨站脚本漏洞的线下检测方法和系统
CN104767757A (zh) * 2015-04-17 2015-07-08 国家电网公司 基于web业务的多维度安全监测方法和系统

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326447A (zh) * 2016-08-26 2017-01-11 北京量科邦信息技术有限公司 一种众包网络爬虫抓取数据的检测方法及系统
CN107071009A (zh) * 2017-03-28 2017-08-18 江苏飞搏软件股份有限公司 一种负载均衡的分布式大数据爬虫系统
CN107241319B (zh) * 2017-05-26 2020-06-02 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
CN107241319A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
CN111406249B (zh) * 2017-06-05 2023-09-22 平衡媒体技术有限责任公司 用于协作处理计算任务的平台
CN111406249A (zh) * 2017-06-05 2020-07-10 平衡媒体技术有限责任公司 用于协作处理计算任务的平台
CN110020066A (zh) * 2017-07-31 2019-07-16 北京国双科技有限公司 一种往爬虫平台注任务的方法及装置
CN108874925A (zh) * 2018-05-31 2018-11-23 深圳市酷达通讯有限公司 一种分布式垂直爬虫方法及终端设备
CN111092921A (zh) * 2018-10-24 2020-05-01 北大方正集团有限公司 数据采集方法、装置及存储介质
CN111092921B (zh) * 2018-10-24 2022-05-10 北大方正集团有限公司 数据采集方法、装置及存储介质
CN110188300A (zh) * 2019-05-30 2019-08-30 吉林大学 一种面向汽车领域的采购信息的处理方法及装置
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN110457556B (zh) * 2019-07-04 2023-11-14 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN110290013A (zh) * 2019-07-10 2019-09-27 无锡华云数据技术服务有限公司 一种云平台网络带宽的自动均衡方法及其系统
CN110516139A (zh) * 2019-09-05 2019-11-29 上海携程商务有限公司 爬虫系统及方法
CN110516139B (zh) * 2019-09-05 2023-07-07 上海携程商务有限公司 爬虫系统及方法
CN111522654A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 分布式爬虫的调度处理方法、装置及设备
CN111580954A (zh) * 2020-04-01 2020-08-25 中国科学院信息工程研究所 一种可扩展的分布式数据采集方法和系统
CN111538590A (zh) * 2020-04-17 2020-08-14 姜海强 一种基于cs架构的分布式数据采集方法及系统
CN111538593A (zh) * 2020-04-21 2020-08-14 夏邦泽 一种基于工业互联网操作系统的数据采集方法
CN111753169B (zh) * 2020-06-29 2021-10-19 金电联行(北京)信息技术有限公司 一种基于互联网的数据采集系统
CN111753169A (zh) * 2020-06-29 2020-10-09 金电联行(北京)信息技术有限公司 一种基于互联网的数据采集系统
CN112181984A (zh) * 2020-09-28 2021-01-05 平安数字信息科技(深圳)有限公司 渠道服务管理方法、装置、设备及介质
CN112765438A (zh) * 2021-01-25 2021-05-07 北京星汉博纳医药科技有限公司 一种基于微服务的自动爬虫管理方法
CN112765438B (zh) * 2021-01-25 2024-03-26 北京星汉博纳医药科技有限公司 一种基于微服务的自动爬虫管理方法

Also Published As

Publication number Publication date
CN105447088B (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN105447088A (zh) 一种基于志愿者计算的多租户专业云爬虫
CN111367187B (zh) 用于改进对分布式网络中的传感器流数据的处理的方法
US20190102411A1 (en) Rule-based autonomous database cloud service framework
US8826277B2 (en) Cloud provisioning accelerator
Liu et al. Resource preprocessing and optimal task scheduling in cloud computing environments
CN109284430A (zh) 基于分布式架构的可视化主题网页内容爬取系统及方法
Tao et al. Dynamic resource allocation algorithm for container-based service computing
CN103092683A (zh) 用于数据分析的基于启发式的调度
You et al. A load-aware scheduler for MapReduce framework in heterogeneous cloud environments
CN112579273B (zh) 任务调度方法及装置、计算机可读存储介质
CN104050042A (zh) Etl作业的资源分配方法及装置
CN103116525A (zh) 一种Internet环境下MapReduce计算方法
CN113407649A (zh) 数据仓库建模方法、装置、电子设备及存储介质
US20210263718A1 (en) Generating predictive metrics for virtualized deployments
Rizvandi et al. On modeling dependency between mapreduce configuration parameters and total execution time
Liu et al. KubFBS: A fine‐grained and balance‐aware scheduling system for deep learning tasks based on kubernetes
Malathy et al. Performance improvement in cloud computing using resource clustering
CN113722141B (zh) 数据任务的延迟原因确定方法、装置、电子设备及介质
CN110267717B (zh) 在多租户环境中按不同单独租户自动生成自动缩放呼叫规则的方法及装置
CN113010296B (zh) 基于形式化模型的任务解析与资源分配方法及系统
CN110879753A (zh) 基于自动化集群资源管理的gpu加速性能优化方法和系统
He et al. Queuing-oriented job optimizing scheduling in cloud mapreduce
Rizvandi et al. Preliminary results on modeling CPU utilization of mapreduce programs
CN113296913A (zh) 基于单集群的数据处理方法、装置、设备及存储介质
Liu A Programming Model for the Cloud Platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191218

Address after: 310013 station 9, floor 2, building 6, Xixi new building, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou encryption Matrix Technology Co., Ltd

Address before: 1526, room 789, block D, Cambridge commune, No. 310000 Shenhua Road, Zhejiang, Hangzhou

Patentee before: HANGZHOU JUESHU TECHNOLOGY CO., LTD.