CN109492149B - 爬虫任务处理方法及装置 - Google Patents
爬虫任务处理方法及装置 Download PDFInfo
- Publication number
- CN109492149B CN109492149B CN201811441550.1A CN201811441550A CN109492149B CN 109492149 B CN109492149 B CN 109492149B CN 201811441550 A CN201811441550 A CN 201811441550A CN 109492149 B CN109492149 B CN 109492149B
- Authority
- CN
- China
- Prior art keywords
- task
- crawler
- target
- priority
- queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例提供了一种爬虫任务处理方法及装置,涉及数据处理技术领域。方法包括:获得爬虫任务;根据爬虫任务的优先级,将爬虫任务加入到至少两个任务队列中与优先级对应的目标任务队列;从至少两个任务队列中选择出目标任务队列以待处理爬虫任务,其中,目标任务队列对应的优先级越高使得目标任务队列被选择出的概率越大。故在保证各任务基于优先级而有序被处理的情况下,不会对设备性能要求很高,实现低成本的设备也可以良好执行爬虫任务。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种爬虫任务处理方法及装置。
背景技术
爬虫系统可以进行一些爬虫任务,即通过这些爬虫任务对响应网页上数据的爬取,而获得需要的数据。但目前,爬虫系统对爬虫任务的执行为同步执行,这样的好处是可以快速完成对任务的执行并获得爬取结果,但这会对设备的性能要求很高,导致设备的投入成本也很高。
发明内容
本申请在于提供一种爬虫任务处理方法及装置,以实现低成本的设备也可以良好执行爬虫任务。
第一方面,本申请实施例提供了一种爬虫任务处理方法,所述方法包括:
获得爬虫任务;
根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列;
从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
结合第一方面,在一些可选地的实现方式中,根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列,包括:
根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大;
对应的,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,包括:
根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
结合第一方面,在一些可选地的实现方式中,在从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务之后,所述方法还包括:
根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征;
根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据;
从所述网页原始数据中提取出需要获得的数据。
结合第一方面,在一些可选地的实现方式中,根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据,包括:
根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;
根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
结合第一方面,在一些可选地的实现方式中,在根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列之后,所述方法还包括:
响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理;
若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户。
第二方面,本申请实施例提供了一种爬虫任务处理装置,所述装置包括:
任务获得模块,用于获得爬虫任务。
队列加入模块,用于根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列。
队列选择模块,用于从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
结合第二方面,在一些可选地的实现方式中,
所述队列加入模块,还用于根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大。
所述队列选择模块,还用于根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
结合第二方面,在一些可选地的实现方式中,所述装置还包括:
特征获得模块,用于根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征。
数据爬取模块,用于根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据。
数据提取模块,用于从所述网页原始数据中提取出需要获得的数据。
结合第二方面,在一些可选地的实现方式中,
所述数据爬取模块,还用于根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
结合第二方面,在一些可选地的实现方式中,所述装置还包括:
任务交互模块,用于响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理。
信息反馈模块,用于若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器、总线和通信接口,所述存储器和所述通信接口通过所述总线与所述处理器连接;
所述存储器用于存储程序;
所述处理器用于读取并执行所述程序以执行如第一方面,以及第一方面的任一种可能实现的方式所述的爬虫任务处理方法。
第四方面,本申请实施例提供了一种具有计算机可执行的非易失程序代码的计算机可读储存介质,所述程序代码使所述计算机执行如第一方面,以及第一方面的任一种可能实现的方式所述的爬虫任务处理方法。
本申请的有益效果包括:
由于可以根据爬虫任务的优先级,将其加入到至少两个任务队列中与该优先级对应的目标任务队列,而目标任务队列对应的优先级越高使得目标任务队列被选择出并对其任务进行处理的概率越大。故使得优先级越高的爬虫任务越容易被优先处理,反之则会延后处理。故在保证各任务基于优先级而有序被处理的情况下,不会对设备性能要求很高,实现低成本的设备也可以良好执行爬虫任务。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种电子设备的结构框图;
图2示出了本申请实施例提供的一种爬虫任务处理方法的第一流程图;
图3示出了本申请实施例提供的一种爬虫任务处理方法的第二流程图;
图4示出了本申请实施例提供的一种爬虫任务处理装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
请参阅图1,本申请一些实施例提供了一种电子设备10,电子设备10可以是终端或者服务器。
终端可以是个人电脑、智能手机、平板电脑或笔记本电脑等。
服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。在一些实施例中,服务器可以是本地的、也可以是远程的。作为另一示例,服务器存储的信息和/或数据可以被客户端访问。在一些实施例中,服务器可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。本实施例中,电子设备10可以与其它设备交互而执行爬虫任务处理方法。
本实施例中,电子设备10可以包括连接到网络的网络端口11、用于执行程序指令的一个或多个处理器12、通信总线13、和不同形式的存储介质14,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备10还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口15。
为了便于说明,在电子设备10中仅描述了一个处理器。然而,应当注意,本申请中的电子设备10还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备10的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
请参阅图2,本申请的一些实施例提供了一种爬虫任务处理方法,该爬虫任务处理方法应用于电子设备,该爬虫任务处理方法可以包括:步骤S100、步骤S200和步骤S300。
步骤S100:获得爬虫任务。
步骤S200:根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列。
步骤S300:从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
以下将对爬虫任务处理方法的各流程进行详细地说明。
步骤S100:获得爬虫任务。
在需要去爬取某一网址的数据时,用户可以通过与电子设备的交互,使得电子设备响应用户的交互操作而建立用于爬取该网址数据的爬虫任务。这样,电子设备相应的就获得了该爬虫任务。
其中,在用户在执行交互操作时,用户可以根据自己的需求选择建立的该爬虫任务是同步任务还是异步任务。若爬虫任务是同步任务,那么电子设备则马上执行该爬虫任务。而若爬虫任务是异步任务,则用户需要选择该爬虫任务的优先级,使得电子设备根据优先级来执行该爬虫任务。
再者,爬虫任务中还包括需要爬取的网站的网址,以便电子设备基于该网址去访问该网站,从而爬取到该网站的数据。
本实施例中,电子设备在获得该爬虫任务时,电子设备可以确定该爬虫任务是否为重复的任务,若是,则终止该爬虫任务的后续执行流程,若否,则正常执行该爬虫任务。从而可以避免对任务的重复执行。
步骤S200:根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列。
电子设备中预先设置了至少两个任务队列,而针对至少两个任务队列中每个任务队列,电子设备也设置了每个任务队列对应的权重,并也设置了每个权重所关联的优先级。其中,优先级越高则该优先级基于关联关系所对应的目标权重则越大,权重越高则表示该任务队列越是处理优先级高的爬虫任务,而优先级越高的爬虫任务则越是容易被快速处理。
基于此,电子设备则可以根据爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将该爬虫任务加入到至少两个任务队列中目标权重与优先级对应的目标任务队列中,以待电子设备后续能够对该爬虫任务进行处理。
步骤S300:从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
电子设备可以根据每个任务队列的权重来选择对哪一个任务队列中的爬虫任务进行处理。
可选地,电子设备可以根据每个任务队列的权重在至少两个任务队列的至少两个权重之和中所占比值,从至少两个任务队列中选择出目标任务队列。由于权重越大,则越大的权重所占比值则越大,因此,权重越大的任务队列则越容易被选择到。
那么随着电子设备基于此规则对各任务队列中的爬虫任务进行处理,在该爬虫任务位于目标任务队列中的首位时,若电子设备从两个任务队列中选择出目标任务队列,那么便可以对该爬虫任务进行处理。
请参阅图3,在本申请的一些实施例中,在步骤S300之后,爬虫任务处理方法还包括:步骤S400、步骤S500和步骤S600。
步骤S400:根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征。
步骤S500:根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据。
步骤S600:从所述网页原始数据中提取出需要获得的数据。
以下将继续对爬虫任务处理方法的各流程进行详细地说明。
步骤S400:根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征。
电子设备的数据库中预设了的各网页的特征,其中,这些特征可以是该网页的登陆信息、爬起方式、多语言配置以及针对该网页反爬取的破解方式。电子设备需要基于每个网页的特征去访问每个网页,以及数据库中每个网页的特征和每个网页的网址关联关系。
基于此,电子设备就可以根据该爬虫任务需要爬取的待爬取网页的网址,从数据库中确定出该待爬取网页的网址的关联关系,以及再根据该关联关系从数据库预设的各网页的特征中确定出该待爬取网页的特征。
步骤S500:根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据。
电子设备中还预设了针对网页的爬取方式,可选地,电子设备的预设的爬取方式可以包括Html Fetcher和JS Engine Fetcher。
基于此,电子设备基于该待爬取网页的特征去访问该待爬取网页后,电子设备便可以从爬取方式的Html Fetcher和JS Engine Fetcher中选择一种方式来对该待爬取网页的网页原始数据。
本实施例中,选择爬取方式的规则可以是随机选择,或者也可以根据网页的特征进选择。
步骤S600:从所述网页原始数据中提取出需要获得的数据。
电子设备获取到网页原始数据后,电子设备需要对网页原始数据进行提取,以获得网页原始数据中自己需要的数据。
可选地,电子设备中可以设置提取数据的通用规则,即针对爬取到的所有网页的都可以基于此规则来提取出自己需要的数据。而针对一些精确性的提取,电子设备中还可以设置针对特定代码的特征规则,即电子设备基于这些特定规则可以提取出精确性的代码。
本实施例中,在电子设备提取出需要获得的数据后,电子设备便可以将该需要获得的数据存储到相应的存储介质中,并确定该爬虫任务的执行结束,从而可以告知用户该任务结束,以提醒用户查看。
再者,用户也可以根据在确定为异步任务时为该爬虫任务分配的任务ID对该爬虫任务进行查询。从而电子设备便可以响应用户对爬虫任务的查询操作,以判断爬虫任务是否开始处理。若是,电子设备生成表示爬虫任务的正在处理的信息并发送给该用户,若否,生成表示爬虫任务当前在目标任务队列中所在位置的信息并发送给用户。
再者,若在执行该爬虫任务的过程中,对该爬虫任务的执行失败,那么电子设备可以重新执行该爬虫任务。直至该爬虫的失败次数达到预设次数,那么电子设备不再重复执行该爬虫任务,并生成爬取失败的信息告知用户。
请参阅图4,在本申请的一些实施例提供了一种爬虫任务处理装置100,该爬虫任务处理装置100应用于电子设备,该爬虫任务处理装置100可以包括:
任务获得模块110,用于获得爬虫任务。
队列加入模块120,用于根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列。
队列选择模块130,用于从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大。
可选地,所述队列加入模块120,还用于根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大。
所述队列选择模块130,还用于根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
可选地,该爬虫任务处理装置100还可以包括:
特征获得模块140,用于根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征。
数据爬取模块150,用于根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据。
数据提取模块160,用于从所述网页原始数据中提取出需要获得的数据。
可选地,所述数据爬取模块150,还用于根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
可选地,该爬虫任务处理装置100还可以包括:
任务交互模块170,用于响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理。
信息反馈模块180,用于若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户。
需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请一些实施例还提供了一种计算机可执行的非易失的程序代码的计算机可读储存介质,该计算机可读存储介质上存储有程序代码,该程序代码被计算机运行时执行上述任一实施例的爬虫任务处理方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的程序代码被运行时,能够以实现数据处理系统能够快速的对数据进行处理,提高了获得处理结果的实效性。
本申请实施例所提供的爬虫任务处理方法的程序代码产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
综上所述,本申请实施例提供了一种爬虫任务处理方法及装置。方法包括:获得爬虫任务;根据爬虫任务的优先级,将爬虫任务加入到至少两个任务队列中与优先级对应的目标任务队列;从至少两个任务队列中选择出目标任务队列以待处理爬虫任务,其中,目标任务队列对应的优先级越高使得目标任务队列被选择出的概率越大。
由于可以根据爬虫任务的优先级,将其加入到至少两个任务队列中与该优先级对应的目标任务队列,而目标任务队列对应的优先级越高使得目标任务队列被选择出并对其任务进行处理的概率越大。故使得优先级越高的爬虫任务越容易被优先处理,反之则会延后处理。故在保证各任务基于优先级而有序被处理的情况下,不会对设备性能要求很高,实现低成本的设备也可以良好执行爬虫任务。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种爬虫任务处理方法,其特征在于,所述方法包括:
获得爬虫任务;
根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列;
从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大,所述优先级越高的爬虫任务越容易被优先处理,反之则会延后处理;
响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理;
若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户;
其中,所述用户在执行交互操作时,所述用户根据自己的需求选择建立的爬虫任务是同步任务还是异步任务;若所述爬虫任务是同步任务,那么电子设备则马上执行所述爬虫任务,而若所述爬虫任务是异步任务,则需要选择所述爬虫任务的优先级,使得所述电子设备根据所述优先级来执行所述爬虫任务。
2.根据权利要求1所述的爬虫任务处理方法,其特征在于,根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列,包括:
根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大;
对应的,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,包括:
根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
3.根据权利要求1所述的爬虫任务处理方法,其特征在于,在从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务之后,所述方法还包括:
根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征;
根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据;
从所述网页原始数据中提取出需要获得的数据。
4.根据权利要求3所述的爬虫任务处理方法,其特征在于,根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据,包括:
根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;
根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
5.一种爬虫任务处理装置,其特征在于,所述装置包括:
任务获得模块,用于获得爬虫任务;
队列加入模块,用于根据所述爬虫任务的优先级,将所述爬虫任务加入到至少两个任务队列中与所述优先级对应的目标任务队列;
队列选择模块,用于从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务,其中,所述目标任务队列对应的所述优先级越高使得所述目标任务队列被选择出的概率越大,所述优先级越高的爬虫任务越容易被优先处理,反之则会延后处理;
任务交互模块,用于响应用户对所述爬虫任务的查询操作,判断所述爬虫任务是否开始处理;
信息反馈模块,用于若是,生成表示所述爬虫任务的正在处理的信息并发送给所述用户,若否,生成表示所述爬虫任务当前在所述目标任务队列中所在位置的信息并发送给所述用户;
其中,所述用户在执行交互操作时,所述用户根据自己的需求选择建立的爬虫任务是同步任务还是异步任务;若所述爬虫任务是同步任务,那么电子设备则马上执行所述爬虫任务,而若所述爬虫任务是异步任务,则需要选择所述爬虫任务的优先级,使得所述电子设备根据优先级来执行所述爬虫任务。
6.根据权利要求5所述的爬虫任务处理装置,其特征在于,
所述队列加入模块,还用于根据所述爬虫任务的优先级和至少两个任务队列中每个任务队列的权重,将所述爬虫任务加入到所述至少两个任务队列中目标权重与所述优先级对应的目标任务队列,所述优先级越高对应的所述目标权重越大;
所述队列选择模块,还用于根据每个任务队列的权重在所述至少两个任务队列的至少两个权重之和中所占比值,从所述至少两个任务队列中选择出所述目标任务队列以待处理所述爬虫任务。
7.根据权利要求5所述的爬虫任务处理装置,其特征在于,所述装置还包括:
特征获得模块,用于根据所述爬虫任务需要爬取的待爬取网页,从预设的各网页的特征中确定出所述待爬取网页的特征;
数据爬取模块,用于根据所述待爬取网页的特征,获得所述待爬取网页的网页原始数据;
数据提取模块,用于从所述网页原始数据中提取出需要获得的数据。
8.根据权利要求7所述的爬虫任务处理装置,其特征在于,
所述数据爬取模块,还用于根据所述待爬取网页的特征,从至少两种爬取规则中确定出与所述待爬取网页的特征对应的一种目标爬取规则;根据所述目标爬取规则爬取所述待爬取网页,获得所述待爬取网页的网页原始数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811441550.1A CN109492149B (zh) | 2018-11-29 | 2018-11-29 | 爬虫任务处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811441550.1A CN109492149B (zh) | 2018-11-29 | 2018-11-29 | 爬虫任务处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492149A CN109492149A (zh) | 2019-03-19 |
CN109492149B true CN109492149B (zh) | 2021-04-09 |
Family
ID=65698612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811441550.1A Active CN109492149B (zh) | 2018-11-29 | 2018-11-29 | 爬虫任务处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492149B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457556B (zh) * | 2019-07-04 | 2023-11-14 | 重庆金融资产交易所有限责任公司 | 分布式爬虫系统架构、爬取数据的方法和计算机设备 |
CN112488676A (zh) * | 2021-02-05 | 2021-03-12 | 连连(杭州)信息技术有限公司 | 一种项目的进度和质量的自动控制方法、装置及存储介质 |
CN115774564B (zh) * | 2022-11-03 | 2024-06-25 | 北京大学重庆大数据研究院 | 任务处理方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092817A (zh) * | 2013-01-18 | 2013-05-08 | 五八同城信息技术有限公司 | 一种基于脚本引擎的数据采集方法和装置 |
CN103377207A (zh) * | 2012-04-17 | 2013-10-30 | 北京拓尔思信息技术股份有限公司 | 基于脚本引擎的微博用户关系采集方法 |
CN104866517A (zh) * | 2014-12-30 | 2015-08-26 | 智慧城市信息技术有限公司 | 一种抓取网页内容的方法及装置 |
CN107025235A (zh) * | 2016-02-01 | 2017-08-08 | 北京国双科技有限公司 | 爬取网页的方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7043457B1 (en) * | 2000-06-28 | 2006-05-09 | Probuild, Inc. | System and method for managing and evaluating network commodities purchasing |
CN103902365A (zh) * | 2012-12-26 | 2014-07-02 | 华为技术有限公司 | 任务调控方法、装置和系统 |
CN108762903A (zh) * | 2018-05-23 | 2018-11-06 | 四川斐讯信息技术有限公司 | 一种面向海量工作节点的抢占式任务调度方法及系统 |
-
2018
- 2018-11-29 CN CN201811441550.1A patent/CN109492149B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103377207A (zh) * | 2012-04-17 | 2013-10-30 | 北京拓尔思信息技术股份有限公司 | 基于脚本引擎的微博用户关系采集方法 |
CN103092817A (zh) * | 2013-01-18 | 2013-05-08 | 五八同城信息技术有限公司 | 一种基于脚本引擎的数据采集方法和装置 |
CN104866517A (zh) * | 2014-12-30 | 2015-08-26 | 智慧城市信息技术有限公司 | 一种抓取网页内容的方法及装置 |
CN107025235A (zh) * | 2016-02-01 | 2017-08-08 | 北京国双科技有限公司 | 爬取网页的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109492149A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10097623B2 (en) | Method and device for displaying information flows in social network, and server | |
CN109492149B (zh) | 爬虫任务处理方法及装置 | |
KR102454954B1 (ko) | 검색 동작 출력 엘리먼트에 대한 액션 표시자 | |
US20140337699A1 (en) | Method and apparatus for extracting web page content | |
JP2020074193A (ja) | サーチ方法、装置、設備および不揮発性計算機メモリ | |
CN114095567B (zh) | 数据访问请求的处理方法、装置、计算机设备及介质 | |
US11080322B2 (en) | Search methods, servers, and systems | |
US10187264B1 (en) | Gateway path variable detection for metric collection | |
JP6479239B1 (ja) | 情報処理装置、情報処理システム、情報処理方法、およびプログラム | |
CN107766224B (zh) | 测试方法和测试装置 | |
CN109670100B (zh) | 一种页面数据抓取方法及装置 | |
CN110909155B (zh) | 书单生成方法、计算设备及计算机存储介质 | |
EP3667508A1 (en) | Resource search method and related product | |
CN113761565A (zh) | 数据脱敏方法和装置 | |
CN113590447B (zh) | 埋点处理方法和装置 | |
CN110059502B (zh) | 隐私数据感知方法及装置 | |
US9171232B2 (en) | Method and system for a selection of a solution technique for a task | |
JP2021028815A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN111831130A (zh) | 输入内容的推荐方法、终端设备以及存储介质 | |
CN107292750B (zh) | 社交网络的信息收集方法及信息收集装置 | |
CN113010812B (zh) | 信息采集方法、装置、电子设备和存储介质 | |
CN114115648B (zh) | 一种数据请求的处理方法、装置、设备及存储介质 | |
CN114791996B (zh) | 信息处理方法、装置、系统、电子设备及存储介质 | |
CN109547434B (zh) | 分辨爬虫和cc攻击的方法、装置、电子设备及存储介质 | |
CN117251614A (zh) | 链上数字内容的采集方法、装置、介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210322 Address after: Unit 1701e, China energy storage building, 3099 Keyuan South Road, high tech community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000 Applicant after: SHENZHEN DAYU WUXIAN TECHNOLOGY Co.,Ltd. Address before: Unit 2301-l, bicker building, No.9, Keke Road, Gaoxin Middle District, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000 Applicant before: SHENZHEN MOSHI TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |