CN111460254A

CN111460254A - 一种基于多线程的网页爬取方法、装置、存储介质及设备

Info

Publication number: CN111460254A
Application number: CN202010214296.2A
Authority: CN
Inventors: 王家祥; 蓝菊芳; 吴桐
Original assignee: Nanyang Clear Technology Co Ltd
Current assignee: Nanyang Clear Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-28
Anticipated expiration: 2040-03-24
Also published as: CN111460254B

Abstract

本发明实施例公开了一种基于多线程的网页爬取方法、装置、存储介质及设备。所述方法包括：从关键词字典中获取多个待爬取关键词；根据待爬取关键词确定与待爬取关键词对应的链接地址；将与待爬取关键词对应的链接地址添加到队列中；然后采用多线程爬虫方式通过多线程爬虫的各线程爬虫从队列中获取与待爬取关键词对应的链接地址作为待爬取链接地址，根据待爬取链接地址，通过各线程爬虫进行网页爬取及内容解析后得到与待爬取链接地址对应的有效信息，根据与待爬取链接地址对应的有效信息更新关键词字典的有效信息。本发明不需手动搜索，避免提供信息的网站在用户访问高峰期频繁访问专业网站，提供信息的网站的网页中关键词可以得到及时更新。

Description

一种基于多线程的网页爬取方法、装置、存储介质及设备

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种基于多线程的网页爬取方法、装置、存储介质及设备。

背景技术

随着因特网的快速发展，人们越来越多的在计算机网络查找需要的信息，查找到的信息中包括不少关键词，比如，关键词包括专业术语，需要阅读关键词的解释才能看懂整个信息。关键词的解释可以手动通过搜索引擎进行搜索，造成用户体验不好，特别是一个信息中存在多个关键词时，在搜索引擎和显示信息的网页之间来回切换，不利于用户查阅，而且比较耗时；关键词的解释也可以由提供信息的网站提供，但是关键词的解释是由专业网站维护的，从信息解析出关键词，再将关键词从专业网站获取解释，提供信息的网站再将获取的关键词的解释显示给用户，造成提供信息的网站频繁访问专业网站，而且不利于关键词的解释的及时更新。因此，提出一种不需手动搜索、避免频繁访问专业网站、有利于及时更新的基于多线程的网页爬取方法显得尤为重要。

发明内容

基于此，有必要针对上述问题，提出了一种基于多线程的网页爬取方法、装置、存储介质及设备。

第一方面，本发明提出了一种基于多线程的网页爬取方法，所述方法包括：

从关键词字典中获取多个待爬取关键词，所述关键词字典包括关键词、有效信息；

根据所述待爬取关键词确定与所述待爬取关键词对应的链接地址；

将与所述待爬取关键词对应的链接地址添加到队列中；

采用多线程爬虫方式，通过所述多线程爬虫的各线程爬虫从所述队列中获取与所述待爬取关键词对应的链接地址作为待爬取链接地址；

根据所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息；

根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫按预设网页内容解析规则进行内容解析，得到与所述待爬取链接地址对应的有效信息；

根据与所述待爬取链接地址对应的有效信息，通过所述各线程爬虫更新所述关键词字典的有效信息；

判断所述队列是否为空，若否，则从所述队列中获取与所述待爬取关键词对应的链接地址，将获取到的与所述待爬取关键词对应的链接地址作为所述待爬取链接地址，并执行所述通过所述各线程爬虫进行网页爬取的步骤；若是，则确定所述通过所述各线程爬虫更新所述关键词字典的有效信息完成。

在一个实施例中，在所述从关键词字典中获取多个待爬取关键词之前，还包括：

从关键词数据库中获取多个待添加关键词；

根据多个所述待添加关键词更新所述关键词字典的关键词。

在一个实施例中，所述根据所述待爬取关键词确定与所述待爬取关键词对应的链接地址，包括：

获取预设链接地址拼接规则；

根据所述待爬取关键词、所述预设链接地址拼接规则进行链接地址拼接，得到与所述待爬取关键词对应的链接地址。

在一个实施例中，所述根据所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息，包括：

根据所述待爬取链接地址，通过所述各线程爬虫根据所述待爬取链接地址进行网页爬取，得到爬取结果；

当所述爬取结果为成功时，通过所述各线程爬虫将爬取到的网页信息作为与所述待爬取链接地址对应的网页信息；

当所述爬取结果为失败时，通过所述各线程爬虫将所述待爬取链接地址更新到爬取失败列表。

在一个实施例中，所述根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫按预设网页内容解析规则进行内容解析，得到与所述待爬取链接地址对应的有效信息，包括：

根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫获取更新锁，所述更新锁数量只有一个且在同一时刻只能被一个所述各线程爬虫占用；

通过所述各线程爬虫根据所述更新锁、与所述待爬取链接地址对应的有效信息更新所述关键词字典的有效信息，更新完成后释放所述更新锁。

在一个实施例中，所述方法还包括：

获取同一网站最高访问频率；

根据所述同一网站最高访问频率，控制所述各线程爬虫工作，以使得所述各线程爬虫访问同一网站的总频率不高于所述同一网站最高访问频率。

在一个实施例中，控制所述多线程爬虫通过多个代理IP地址进行网页爬取；

所述根据所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息，还包括：

通过所述各线程爬虫获取代理IP地址管理规则；

根据所述代理IP地址管理规则、所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息。

在一个实施例中，所述方法还包括：

获取待标注内容；

根据所述待标注内容按预设分词规则进行分词，得到待标注关键词；

根据所述待标注关键词从所述关键词字典中进行匹配；

当匹配结果为成功时，则获取与所述待标注关键词对应的批注位置，将匹配到的有效信息在与所述待标注关键词对应的批注位置进行展示。

第二方面，本发明还提出了一种基于多线程的网页爬取装置，所述装置包括：

关键词字典模块，用于管理关键词字典；

队列管理模块，用于从关键词字典中获取多个待爬取关键词，所述关键词字典包括关键词、有效信息，根据所述待爬取关键词确定与所述待爬取关键词对应的链接地址，将与所述待爬取关键词对应的链接地址添加到队列中；

多线程网页爬取模块，用于采用多线程爬虫方式，通过所述多线程爬虫的各线程爬虫从所述队列中获取与所述待爬取关键词对应的链接地址作为待爬取链接地址，根据所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息，根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫按预设网页内容解析规则进行内容解析，得到与所述待爬取链接地址对应的有效信息，根据与所述待爬取链接地址对应的有效信息，通过所述各线程爬虫更新所述关键词字典的有效信息，判断所述队列是否为空，若否，则从所述队列中获取与所述待爬取关键词对应的链接地址，将获取到的与所述待爬取关键词对应的链接地址作为所述待爬取链接地址，并执行所述通过所述各线程爬虫进行网页爬取的步骤，若是，则确定所述通过所述各线程爬虫更新所述关键词字典的有效信息完成。

在一个实施例中，所述装置还包括：标注模块；

所述标注模块用于获取待标注内容，根据所述待标注内容按预设分词规则进行分词，得到待标注关键词，根据所述待标注关键词从所述关键词字典中进行匹配，当匹配结果为成功时，则获取与所述待标注关键词对应的批注位置，将匹配到的有效信息在与所述待标注关键词对应的批注位置进行展示。

第三方面，本发明还提出了一种存储介质，存储有计算机指令程序，所述计算机指令程序被处理器执行时，使得所述处理器执行第一方面任一项所述方法的步骤。

第四方面，本发明还提出了一种计算机设备，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行第一方面任一项所述方法的步骤。

综上所述，本发明的基于多线程的网页爬取方法从关键词字典中获取多个待爬取关键词，根据待爬取关键词确定与所述待爬取关键词对应的链接地址，将与所述待爬取关键词对应的链接地址添加到队列中，然后采用多线程爬虫方式从所述队列中获取待爬取链接地址进行网页爬取及内容解析后得到与所述待爬取链接地址对应的有效信息，根据与所述待爬取链接地址对应的有效信息更新关键词字典的有效信息；通过采用多线程爬虫方式，提高了爬取的效率；根据与所述待爬取链接地址对应的有效信息更新关键词字典的有效信息，从而使关键词字典可以作为提供信息的网站的私有关键词数据库，提供信息的网站的网页中关键词的相关有效信息是从私有关键词数据库中获取的，可以避免用户手动搜索关键词，也可以避免提供信息的网站在用户访问高峰期频繁访问专业网站；关键词字典可以采取定期或不定期的更新，只要更新了关键词字典，提供信息的网站的网页中关键词可以得到及时更新，而且减少了逐个网页更新的工作量。因此，本发明不需手动搜索，避免提供信息的网站在用户访问高峰期频繁访问专业网站，提供信息的网站的网页中关键词可以得到及时更新。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中基于多线程的网页爬取方法的流程图；

图2为图1的基于多线程的网页爬取方法的更新关键词字典的关键词的流程图；

图3为图1的基于多线程的网页爬取方法的标注关键字的流程图；

图4为一个实施例中基于多线程的网页爬取转置的结构框图；

图5为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在一个实施例中，提出了一种基于多线程的网页爬取方法，所述方法包括：

S102、从关键词字典中获取多个待爬取关键词，所述关键词字典包括关键词、有效信息；

其中，可以从关键词字典中获取所有所述关键词，将获取到的每个所述关键词作为一个所述待爬取关键词；也可以从关键词字典中按预设更新规则获取所述关键词，将获取到的每个所述关键词作为一个所述待爬取关键词。

所述预设更新规则是指获取待爬取关键词的规则。

可以理解的是，所述关键词字典中的每个关键词对应一个有效信息。

可选的，所述预设更新规则可以是每日定时进行全部更新且分为至少一个批次开展，也可以是每日进行部分更新且分为至少一个批次开展，还可以是获取的用户输入的更新范围及更新启动时间。

所述关键词字典中的关键词可以由所述关键词字典的维护人员手动输入，也可以由维护人员通过导入工具导入文件获取，还可以由实现基于多线程的网页爬取方法的程序从关键词数据库中获取。

所述关键词是指用户不容易理解的词语或具有特定解释的词语，比如，所述关键词包括特定领域的专业术语，在此举例不做具体限定。

所述特定领域包括医疗领域、化工领域、航天航空领域，在此举例不做具体限定。

所述有效信息是对理解关键词有用的信息，每个有效信息对应至少一个字段的数据。比如，所述有效信息包括三个字段的数据，三个字段是名词解释、应用对象、用途，在此举例不做具体限定。

所述关键词数据库是指记录关键词的数据库，所述关键词数据库包括关键词。比如，医疗关键词数据库、化工关键词数据库、航天航空关键词数据库，在此举例不做具体限定。

S104、根据所述待爬取关键词确定与所述待爬取关键词对应的链接地址；

其中，根据所述待爬取关键词进行链接地址拼接，得到与所述待爬取关键词对应的链接地址，通过在每次爬取前进行链接地址拼接，可以获取到最新的且有效的与所述待爬取关键词对应的链接地址。在另一个实施例中，所述关键词字典还包括链接地址，根据所述待爬取关键词从所述关键词字典中进行查找，得到与所述待爬取关键词对应的链接地址，通过把与所述待爬取关键词对应的链接地址存储在关键词字典中，简化了基于多线程的网页爬取方法的步骤，提高了基于多线程的网页爬取方法的执行效率。可以理解的是，在一个实施例中，每次爬取前进行链接地址拼接与把与所述待爬取关键词对应的链接地址存储在关键词字典中两种方式可以结合使用，比如，把属于其中一个网站的链接地址在每次爬取前进行链接地址拼接，且把其他链接地址存储在关键词字典中，在此举例不做具体限定。

可以理解的是，多个与所述待爬取关键词对应的链接地址可以是同一网站的，也可以是不同网站的。

所述链接地址是指包括不同格式、不同属性、不同位置的各项网络资源的网页地址和本地资源的跳转地址。

S106、将与所述待爬取关键词对应的链接地址添加到队列中；

其中，将与所述待爬取关键词对应的链接地址插入所述队列的队尾。

所述队列是一种特殊的线性表，特殊之处在于它只允许在表的前端(front)(即队头)进行删除操作，而在表的后端(rear)(即队尾)进行插入操作，和栈一样，队列是一种操作受限制的线性表。

可选的，所述队列采用安全队列，以用于避免多个各线程爬虫从所述队列中同时获取同一个链接地址。所述安全队列的实现方法可以从现有技术中选择，在此不做赘述。

S108、采用多线程爬虫方式，通过所述多线程爬虫的各线程爬虫从所述队列中获取与所述待爬取关键词对应的链接地址作为待爬取链接地址；

其中，获取预设工作数量、爬虫总数量；当所述预设工作数量为空或者等于0时，则将所述爬虫总数量作为目标工作爬虫数量；当所述预设工作数量大于0时，当所述预设工作数量不大于所述爬虫总数量时则将所述预设工作数量作为目标工作爬虫数量，当所述预设工作数量大于所述爬虫总数量时则将所述爬虫总数量作为目标工作爬虫数量；所述多线程爬虫工作时，所述多线程爬虫同时工作的所述各线程爬虫总数量不大于所述目标工作爬虫数量；需要工作的每个所述各线程爬虫从所述队列的队头获取一个链接地址，将获取到的与所述待爬取关键词对应的链接地址作为待爬取链接地址。

可以理解的是，所述队列中的每个链接地址只能由一个所述各线程爬虫获取到。

所述多线程爬虫包括多个线程的网络爬虫。

所述各线程爬虫是指一个线程的网络爬虫。可以理解的是，所述各线程爬虫的数量不能多于执行基于多线程的网页爬取方法的计算机设备的处理器的内核数。

所述网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

S110、根据所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息；

其中，根据所述待爬取链接地址，通过所述各线程爬虫对与所述待爬取链接地址对应的网页进行整个页面信息的爬取，将爬取到的网页信息作为与所述待爬取链接地址对应的网页信息，且将与所述待爬取链接地址对应的网页信息进行暂存。

可以理解的是，需要工作的所述各线程爬虫数量为多个时，多个所述各线程爬虫可以同时进行网页爬取；爬取结束的所述各线程爬虫不需等待其他所述各线程爬虫的爬取进度，当爬取成功时则下一步步骤S112，当爬取失败时则进入步骤S116。

S112、根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫按预设网页内容解析规则进行内容解析，得到与所述待爬取链接地址对应的有效信息；

其中，对爬取到的与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫按预设网页内容解析规则进行内容解析，得到解析结果，将解析结果作为与所述待爬取链接地址对应的有效信息。

所述预设网页内容解析规则包括对网页信息进行处理以提取到有效信息的规则、对提取出的有效信息中的多于字符进行删除的规则、对提取出的有效信息中的错误字符进行纠正的规则，在此举例不做具体限定。可以理解的是，可以根据需要获取的有效信息设置所述预设网页内容解析规则，详细实现方式在此不做赘述。

S114、根据与所述待爬取链接地址对应的有效信息，通过所述各线程爬虫更新所述关键词字典的有效信息；

其中，根据所述待爬取链接地址，通过所述各线程爬虫确定与所述待爬取链接地址对应的待爬取关键词，将与所述待爬取链接地址对应的有效信息覆盖所述关键词字典中与所述待爬取链接地址对应的待爬取关键词相相同的所述关键词的所述有效信息。

S116、判断所述队列是否为空，若否，则从所述队列中获取与所述待爬取关键词对应的链接地址，将获取到的与所述待爬取关键词对应的链接地址作为所述待爬取链接地址，并执行所述通过所述各线程爬虫进行网页爬取的步骤；若是，则确定所述通过所述各线程爬虫更新所述关键词字典的有效信息完成。

其中，需要工作的所述各线程爬虫数量重复步骤S108至步骤S114直至所述队列为空。

可选的，执行完步骤S102至步骤S106之后，再执行步骤S108至步骤S116。

可选的，执行步骤S102至步骤S106的同时，执行步骤S108至步骤S116，直至完成所有所述待爬取关键词的网页爬取、内容解析及关键词字典的有效信息的更新。

本实施例的基于多线程的网页爬取方法从关键词字典中获取多个待爬取关键词，根据待爬取关键词确定与所述待爬取关键词对应的链接地址，将与所述待爬取关键词对应的链接地址添加到队列中，然后采用多线程爬虫方式从所述队列中获取待爬取链接地址进行网页爬取及内容解析后得到与所述待爬取链接地址对应的有效信息，根据与所述待爬取链接地址对应的有效信息更新关键词字典的有效信息；通过采用多线程爬虫方式，提高了爬取的效率；根据与所述待爬取链接地址对应的有效信息更新关键词字典的有效信息，从而使关键词字典可以作为提供信息的网站的私有关键词数据库，提供信息的网站的网页中关键词的相关有效信息是从私有关键词数据库中获取的，可以避免用户手动搜索关键词，也可以避免提供信息的网站在用户访问高峰期频繁访问专业网站；关键词字典可以采取定期或不定期的更新，只要更新了关键词字典，提供信息的网站的网页中关键词可以得到及时更新，而且减少了逐个网页更新的工作量。

如图2所示，在一个实施例中，还提出了一种基于多线程的网页爬取方法，所述方法包括：

S202、从关键词数据库中获取多个待添加关键词；

其中，手动从关键词数据库中下载关键词列表，所述关键词列表中包括多个待添加关键词。在另一个实施例中，基于多线程的网页爬取方法通过管理关键词数据库的软件系统的下载接口直接下载所述关键词列表。

S204、根据多个所述待添加关键词更新所述关键词字典的关键词；

其中，当手动从关键词数据库中下载关键词列表时，则手动通过基于多线程的网页爬取方法的导入工具将所述关键词列表导入到所述关键词字典；当通过管理关键词数据库的软件系统的下载接口直接下载所述关键词列表时，则由基于多线程的网页爬取方法将所述关键词列表自动更新到所述关键词字典。

可以理解的是，所述待添加关键词在所述关键词字典中已经存在时将不更新，所述待添加关键词在所述关键词字典中不存在时则将所述待添加关键词添加到所述关键词字典的关键字。

S206、从关键词字典中获取多个待爬取关键词，所述关键词字典包括关键词、有效信息；

S208、根据所述待爬取关键词确定与所述待爬取关键词对应的链接地址；

S210、将与所述待爬取关键词对应的链接地址添加到队列中；

S212、采用多线程爬虫方式，通过所述多线程爬虫的各线程爬虫从所述队列中获取与所述待爬取关键词对应的链接地址作为待爬取链接地址；

S214、根据所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息；

S216、根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫按预设网页内容解析规则进行内容解析，得到与所述待爬取链接地址对应的有效信息；

S218、根据与所述待爬取链接地址对应的有效信息，通过所述各线程爬虫更新所述关键词字典的有效信息；

S220、判断所述队列是否为空，若否，则从所述队列中获取与所述待爬取关键词对应的链接地址，将获取到的与所述待爬取关键词对应的链接地址作为所述待爬取链接地址，并执行所述通过所述各线程爬虫进行网页爬取的步骤；若是，则确定所述通过所述各线程爬虫更新所述关键词字典的有效信息完成。

本实施例通过从关键词数据库中获取多个待添加关键词，将所述待添加关键词更新所述关键词字典的关键词，实现了批量的更新，提高了关键词字典的关键词更新的效率，减少了关键词字典的关键词录入的工作量，降低了基于多线程的网页爬取方法的实现成本。

在一个实施例中，所述根据所述待爬取关键词确定与所述待爬取关键词对应的链接地址，包括：获取预设链接地址拼接规则；根据所述待爬取关键词、所述预设链接地址拼接规则进行链接地址拼接，得到与所述待爬取关键词对应的链接地址。

具体而言，可以从数据库中获取所述预设链接地址拼接规则，也可以获取用户输入的所述预设链接地址拼接规则；根据所述待爬取关键词按所述预设链接地址拼接规则进行链接地址拼接，将拼接得到的链接地址作为与所述待爬取关键词对应的链接地址。

所述预设链接地址拼接规则是网站的各个网页的链接地址的编写规则，在此不做具体赘述。

相对把与所述待爬取关键词对应的链接地址存储在关键词字典中的方式，本实施例通过在每次爬取前进行链接地址拼接，可以获取到最新的且有效的与所述待爬取关键词对应的链接地址，在URL变更时可以减少维护关键词字典的工作量，特别是关键词比较多时将大量减少维护URL的工作量将剧增。

在一个实施例中，所述根据所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息，包括：根据所述待爬取链接地址，通过所述各线程爬虫根据所述待爬取链接地址进行网页爬取，得到爬取结果；当所述爬取结果为成功时，通过所述各线程爬虫将爬取到的网页信息作为与所述待爬取链接地址对应的网页信息；当所述爬取结果为失败时，通过所述各线程爬虫将所述待爬取链接地址更新到爬取失败列表。

其中，通过所述各线程爬虫对与所述待爬取链接地址对应的网页进行整个页面信息爬取，得到爬取结果，当完成整个页面信息爬取时则所述爬取结果为成功，当未完成整个页面信息爬取时则所述爬取结果为失败；当所述爬取结果为成功时，通过所述各线程爬虫将爬取到的网页信息作为与所述待爬取链接地址对应的网页信息；当所述爬取结果为失败时，通过所述各线程爬虫将所述待爬取链接地址、爬取失败时间添加到爬取失败列表。所述爬取失败列表包括链接地址、爬取失败时间。

所述爬取失败时间可以是爬取结束时间，也可以是爬取开始时间。

本实施例通过爬取结果为成功时将爬取到的网页信息作为与所述待爬取链接地址对应的网页信息，爬取结果为失败时将所述待爬取链接地址更新到爬取失败列表，不管爬取结果是成功和失败都及时释放所述各线程爬虫，避免所述各线程爬虫长期非正常占用，进一步提高了基于多线程的网页爬取方法的爬取效率；爬取结果为失败时将所述待爬取链接地址更新到爬取失败列表，根据爬取失败列表可以快速确定爬取结果为失败的所述待爬取链接地址，有利于快速定位问题进行纠正。

在一个实施例中，所述根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫按预设网页内容解析规则进行内容解析，得到与所述待爬取链接地址对应的有效信息，包括：根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫获取更新锁，所述更新锁数量只有一个且在同一时刻只能被一个所述各线程爬虫占用；通过所述各线程爬虫根据所述更新锁、与所述待爬取链接地址对应的有效信息更新所述关键词字典的有效信息，更新完成后释放所述更新锁。

其中，所述各线程爬虫排队获取所述更新锁，获取到所述更新锁的所述各线程爬虫将与所述待爬取链接地址对应的有效信息覆盖所述关键词字典中与所述待爬取链接地址对应的待爬取关键词的有效信息。

比如，与所述待爬取链接地址对应的待爬取关键词为肺炎，所述待爬取链接地址是指肺炎对应的链接地址，与所述待爬取链接地址对应的有效信息是指肺炎对应的链接地址的网页信息进行爬取及解析得到的有效信息，将与所述待爬取链接地址对应的有效信息覆盖所述关键词字典中与所述待爬取链接地址对应的待爬取关键词的有效信息是指将根据肺炎对应的链接地址的网页信息进行爬取及解析得到的有效信息覆盖所述关键词字典中肺炎的有效信息，在此举例不做具体限定。

本实施例通过设置所述添加锁，确保在同一时刻只有一个所述各线程爬虫在更新所述关键词字典的有效信息。

在一个实施例中，每个所述各线程爬虫独立工作，以用于提高所述多线程爬虫的爬取效率。所述每个所述各线程爬虫独立工作是指每个所述各线程爬虫可以独立执行步骤S108至步骤S116，每个所述各线程爬虫也可以独立执行步骤S212至步骤S218。本实施例通过每个所述各线程爬虫独立执行步骤d至步骤g，充分利用了每个所述各线程爬虫的工作效率，进一步提高了基于多线程的网页爬取方法的效率。

在一个实施例中，所述方法还包括：获取同一网站最高访问频率；根据所述同一网站最高访问频率，控制所述各线程爬虫工作，以使得所述各线程爬虫访问同一网站的总频率不高于所述同一网站最高访问频率。

其中，可以从数据库中获取所述同一网站最高访问频率，也可以获取用户输入的所述同一网站最高访问频率。当所有所述各线程爬虫访问同一网站的总频率等于所述同一网站最高访问频率时，则在当前统计时段停止增加访问该网站的所述各线程爬虫的数量。

所述同一网站最高访问频率是指单位时间(比如，秒)内访问同一网站的次数。

本实施例通过同一网站最高访问频率控制所有所述各线程爬虫访问同一网站的总频率，从而避免访问频率过高被该网站的反爬取设置识别，从而提高了基于多线程的网页爬取方法的稳定性。

通过所述各线程爬虫获取代理IP地址管理规则；

其中，通过所述各线程爬虫从数据库中获取代理IP地址管理规则；通过所述各线程爬虫从多个代理IP地址中按所述代理IP地址管理规则选择目标代理IP地址，将所述目标代理IP地址作为请求IP，根据所述请求IP对与所述待爬取链接地址对应的网页进行整个页面信息爬取，将爬取到的网页信息作为与所述待爬取链接地址对应的网页信息。

所述代理IP地址管理规则是指多个代理IP地址的分配规则。

可选的，所述代理IP地址管理规则每次选择工作次数最少的代理IP地址，当出现多个工作次数最少的代理IP地址时，则从工作次数最少的代理IP地址中选择停止工作时长最长的代理IP地址作为目标代理IP地址。

可选的，所述代理IP地址管理规则每次选择工作总时长最短的代理IP地址，当出现多个工作总时长最短的代理IP地址时，则从工作总时长最短的代理IP地址中选择停止工作时长最长的代理IP地址作为目标代理IP地址。

可选的，所述代理IP地址管理规则每次选择工作次数最少的代理IP地址，当出现多个工作次数最少的代理IP地址时，则从工作次数最少的代理IP地址中选择工作总时长最短的代理IP地址作为目标代理IP地址。

所述代理IP地址是指代理服务器的IP地址。

所述请求IP是指所述各线程爬虫访问所述待爬取链接地址时发送的IP包中的源IP地址。

本实施例通过设置多个代理IP地址，降低同一IP地址访问同一网站的总频率，从而避免访问频率过高被该网站的反爬取设置识别，从而提高了基于多线程的网页爬取方法的稳定性。

如图3所示，在一个实施例中，所述方法还包括：

S302、获取待标注内容；

其中，从数据库中获取获取待标注内容。

所述待标注内容是指网站用于显示的信息。

S304、根据所述待标注内容按预设分词规则进行分词，得到待标注关键词；

其中，对所述待标注内容按预设分词规则进行分词，将分出的词作为待标注关键词。

所述分词规则可以根据所述待标注内容的语言从现有技术中选择，比如，中文分词规则、英文分词规则，在此举例不做具体限定。

S306、根据所述待标注关键词从所述关键词字典中进行匹配；

其中，将所述待标注关键词在所述关键词字典中进行匹配查找，当在所述关键词字典中查找到关键词与所述待标注关键词相同时则匹配结果为成功，当在所述关键词字典中没有查找到关键词与所述待标注关键词相同时则匹配结果为失败。

S308、当匹配结果为成功时，则获取与所述待标注关键词对应的批注位置，将匹配到的有效信息在与所述待标注关键词对应的批注位置进行展示。

所述与所述待标注关键词对应的批注位置可以是在所述待标注关键词的下一个字符增加括号，也可以是鼠标放在关键字上触发的批注框，还可以是网页中单独显示的批注列表。其中，所述批注列表包括关键词、有效信息。

可选的，即每次打开网页时，执行步骤S302至步骤S308，以使在与所述待标注关键词对应的批注位置展示的有效信息是所述关键词字典中的有效信息。

本实施例通过将匹配到的有效信息在与所述待标注关键词对应的批注位置进行展示，可以避免用户手动搜索关键词，而且根据所述待标注关键词从所述关键词字典中进行匹配，不需每次有用户访问时重新爬取，也可以避免提供信息的网站在用户访问高峰期频繁访问专业网站；关键词字典可以采取定期或不定期的更新，不把有效信息写入网页信息中，只要更新了关键词字典，提供信息的网站的网页中关键词可以得到及时更新，而且减少了逐个网页更新的工作量。

如图4所示，在一个实施例中，提出了一种基于多线程的网页爬取装置，所述装置包括：

关键词字典模块408，用于管理关键词字典；

队列管理模块402，用于从关键词字典中获取多个待爬取关键词，所述关键词字典包括关键词、有效信息，根据所述待爬取关键词确定与所述待爬取关键词对应的链接地址，将与所述待爬取关键词对应的链接地址添加到队列中；

多线程网页爬取模块404，用于采用多线程爬虫方式，通过所述多线程爬虫的各线程爬虫从所述队列中获取与所述待爬取关键词对应的链接地址作为待爬取链接地址，根据所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息，根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫按预设网页内容解析规则进行内容解析，得到与所述待爬取链接地址对应的有效信息，根据与所述待爬取链接地址对应的有效信息，通过所述各线程爬虫更新所述关键词字典的有效信息，判断所述队列是否为空，若否，则从所述队列中获取与所述待爬取关键词对应的链接地址，将获取到的与所述待爬取关键词对应的链接地址作为所述待爬取链接地址，并执行所述通过所述各线程爬虫进行网页爬取的步骤，若是，则确定所述通过所述各线程爬虫更新所述关键词字典的有效信息完成。

本实施例的基于多线程的网页爬取装置从关键词字典中获取多个待爬取关键词，根据待爬取关键词确定与所述待爬取关键词对应的链接地址，将与所述待爬取关键词对应的链接地址添加到队列中，然后采用多线程爬虫方式从所述队列中获取待爬取链接地址进行网页爬取及内容解析后得到与所述待爬取链接地址对应的有效信息，根据与所述待爬取链接地址对应的有效信息更新关键词字典的有效信息；通过采用多线程爬虫方式，提高了爬取的效率；根据与所述待爬取链接地址对应的有效信息更新关键词字典的有效信息，从而使关键词字典可以作为提供信息的网站的私有关键词数据库，提供信息的网站的网页中关键词的相关有效信息是从私有关键词数据库中获取的，可以避免用户手动搜索关键词，也可以避免提供信息的网站在用户访问高峰期频繁访问专业网站；关键词字典可以采取定期或不定期的更新，只要更新了关键词字典，提供信息的网站的网页中关键词可以得到及时更新，而且减少了逐个网页更新的工作量。

在一个实施例中，所述装置还包括：标注模块406；

所述标注模块406用于获取待标注内容，根据所述待标注内容按预设分词规则进行分词，得到待标注关键词，根据所述待标注关键词从所述关键词字典中进行匹配，当匹配结果为成功时，则获取与所述待标注关键词对应的批注位置，将匹配到的有效信息在与所述待标注关键词对应的批注位置进行展示。

图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图5所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于多线程的网页爬取方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于多线程的网页爬取方法。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的一种基于多线程的网页爬取方法可以实现为一种计算机程序的形式，计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成的一种基于多线程的网页爬取装置的各个程序模板。比如，队列管理模块402、多线程网页爬取模块404、标注模块406、关键词字典模块408。

在一个实施例中，提出了一种存储介质，存储有计算机指令程序，所述计算机指令程序被处理器执行时，使得所述处理器执行时实现如下方法步骤：

将与所述待爬取关键词对应的链接地址添加到队列中；

本实施例的方法步骤执行时从关键词字典中获取多个待爬取关键词，根据待爬取关键词确定与所述待爬取关键词对应的链接地址，将与所述待爬取关键词对应的链接地址添加到队列中，然后采用多线程爬虫方式从所述队列中获取待爬取链接地址进行网页爬取及内容解析后得到与所述待爬取链接地址对应的有效信息，根据与所述待爬取链接地址对应的有效信息更新关键词字典的有效信息；通过采用多线程爬虫方式，提高了爬取的效率；根据与所述待爬取链接地址对应的有效信息更新关键词字典的有效信息，从而使关键词字典可以作为提供信息的网站的私有关键词数据库，提供信息的网站的网页中关键词的相关有效信息是从私有关键词数据库中获取的，可以避免用户手动搜索关键词，也可以避免提供信息的网站在用户访问高峰期频繁访问专业网站；关键词字典可以采取定期或不定期的更新，只要更新了关键词字典，提供信息的网站的网页中关键词可以得到及时更新，而且减少了逐个网页更新的工作量。

在一个实施例中，提出了一种计算机设备，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行时实现如下方法步骤：

将与所述待爬取关键词对应的链接地址添加到队列中；

需要说明的是，上述一种基于多线程的网页爬取方法、一种基于多线程的网页爬取装置、存储介质及计算机设备属于一个总的发明构思，一种基于多线程的网页爬取方法、一种基于多线程的网页爬取装置、存储介质及计算机设备实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多线程的网页爬取方法，所述方法包括：

将与所述待爬取关键词对应的链接地址添加到队列中；

2.如权利要求1所述的方法，其特征在于，在所述从关键词字典中获取多个待爬取关键词之前，还包括：

从关键词数据库中获取多个待添加关键词；

根据多个所述待添加关键词更新所述关键词字典的关键词。

3.如权利要求1所述的方法，其特征在于，所述根据所述待爬取关键词确定与所述待爬取关键词对应的链接地址，包括：

获取预设链接地址拼接规则；

4.如权利要求1所述的方法，其特征在于，所述根据所述待爬取链接地址，通过所述各线程爬虫进行网页爬取，得到与所述待爬取链接地址对应的网页信息，包括：

5.如权利要求1所述的方法，其特征在于，所述根据与所述待爬取链接地址对应的网页信息，通过所述各线程爬虫按预设网页内容解析规则进行内容解析，得到与所述待爬取链接地址对应的有效信息，包括：

6.如权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

获取同一网站最高访问频率；

7.如权利要求1至5任一项所述的方法，其特征在于，控制所述多线程爬虫通过多个代理IP地址进行网页爬取；

通过所述各线程爬虫获取代理IP地址管理规则；

8.如权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

获取待标注内容；

根据所述待标注关键词从所述关键词字典中进行匹配；

9.一种基于多线程的网页爬取装置，其特征在于，所述装置包括：

关键词字典模块，用于管理关键词字典；

10.如权利要求9所述的装置，其特征在于，所述装置还包括：标注模块；

11.一种存储介质，存储有计算机指令程序，其特征在于，所述计算机指令程序被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。

12.一种计算机设备，其特征在于，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。