CN112287201A

CN112287201A - 对爬虫的请求去重的方法、装置、介质以及电子设备

Info

Publication number: CN112287201A
Application number: CN202011619066.0A
Authority: CN
Inventors: 周天星
Original assignee: Beijing Precision Communication Media Technology Co ltd
Current assignee: Beijing Precision Communication Media Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-01-29

Abstract

本发明涉及对爬虫的请求去重方法、装置、介质以及电子设备。方法包括：获取用于访问待爬取的目标的http/https请求；根据请求方法的类型，对请求URL、或者对请求URL和请求体数据，进行解析，以生成所述目标的访问特征数据；提取从请求URL的开始字符起直到紧邻所述访问特征数据的字符为止的连续字符串作为所述目标的主URL；基于请求方法、主URL以及访问特征数据，生成所述目标的去重特征值；判断去重特征值是否与数据库中记录的与爬虫队列的各http/https请求相关的去重特征值相匹配，如果是，则忽略所述http/https请求，否则，将该请求记录到所述爬虫队列中。本公开的方法是适用于HTTP/HTTPS主流协议的通用的爬虫去重方法，扩展了去重的范围，提升了去重的有效性。

Description

对爬虫的请求去重的方法、装置、介质以及电子设备

技术领域

本发明涉及计算机网络技术领域，具体涉及一种对爬虫的请求去重的方法、装置、介质以及电子设备。

背景技术

网络爬虫（或简称爬虫），是一种自动抓取互联网上数据的工具。利用爬虫抓取数据时往往从一个或若干初始网页的URL（统一资源定位器，Uniform Resource Locator）开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入爬虫队列，直到满足系统的一定停止条件。在大数据技术领域，大数据的采集是一个重要的基础性环节，网络爬虫可以用于从互联网上自动且高效地爬取目标网站的海量数据，因此得到了广泛应用。然而，利用爬虫爬取数据时，例如多个页面中存在相同的链接，或者多个商品页面上重复推荐了相同的一个或数个商品（对应的商品链接相同或实质相同），爬虫会重复爬取页面数据，当需要爬取的数据的量级较大，如千万级或亿级时，将明显降低爬虫的效率，造成了在对大数据治理过程中进行数据清洗的麻烦。

目前在爬虫领域，主要都是基于HTTP/HTTPS协议（以下统称HTTP协议），且多数爬虫请求都是使用GET请求，这是由于传统的电脑端网页的请求方式大多都要求GET请求。在爬虫去重方面，现有技术多数会对URL进行去重，例如，中国专利申请公布号CN111522847A公开的一种用于分布式爬虫网址去重的方法。

随着技术的发展，尤其移动端的技术发展，除GET请求外的其他请求方式（例如POST、PUT等）也越来越多，且客户端与服务端交互的数据格式，也向更简单轻巧的JSON形式发展，因此能有一个通用的爬虫请求去重方法尤为重要。

发明内容

本发明的目的在于，提供一种对爬虫的请求去重的方法、装置、介质以及电子设备，以解决上述现有技术的缺陷。

根据本发明的一个方案，提供了一种对爬虫的请求去重的方法，包括：获取用于访问待爬取的目标的http/https请求，其中所述http/https请求包括：请求方法、请求URL、请求体数据；根据所述请求方法的类型，对所述请求URL、或者对所述请求URL和所述请求体数据进行解析，以生成所述目标的访问特征数据；提取从所述请求URL的开始字符起直到紧邻所述访问特征数据的字符为止的连续字符串作为所述目标的主URL；基于所述请求方法、所述主URL以及所述访问特征数据，生成所述目标的去重特征值；判断所述去重特征值是否与数据库中记录的与爬虫队列的各http/https请求相关的去重特征值相匹配，如果是，则忽略所述http/https请求，否则，将所述http/https请求记录到所述爬虫队列中。

本发明的再一方案中，还提供一种对爬虫的请求去重的装置，包括：请求获取模块，其配置为获取用于访问待爬取的目标的http/https请求，其中所述http/https请求包括：请求方法、请求URL、请求体数据；访问特征数据生成模块，其配置为：根据所述请求方法的类型，对所述请求URL、或者对所述请求URL和所述请求体数据进行解析，以生成所述目标的访问特征数据；主URL提取模块，其配置为提取从所述请求URL的开始字符起直到紧邻所述访问特征数据的字符为止的连续字符串作为所述目标的主URL；去重特征值生成模块，其配置为：基于所述请求方法、所述主URL以及所述访问特征数据，生成所述目标的去重特征值；去重判断模块，其配置为：判断所述去重特征值是否与数据库中记录的与爬虫队列的各http/https请求相关的去重特征值相匹配，如果是，则忽略所述http/https请求，否则，将所述http/https请求记录到所述爬虫队列中。

本发明的另一方案中，还提供一种非临时性计算机可读介质，包括其上存储有计算机可执行代码，其特征在于，所述计算机可执行代码在被处理器执行时实现根据上述的方法。

本发明的还一方案中，还提供一种电子设备，包括处理器、存储器以及其上存储的计算机可执行代码，其特征在于，当所述处理器执行所述计算机可执行代码时实现上述方法。

本公开的对爬虫的请求去重的方法，在生成访问特征数据的过程中考虑了HTTP/HTTPS协议的请求方法的各个类型，不仅局限于请求URL而是可能考虑请求URL和请求体数据二者作为访问特征数据，并基于请求方法、目标页面的主URL以及访问特征数据计算出的去重特征值进行去重，因此是适用于HTTP/HTTPS主流协议的通用的爬虫去重方法，扩展了去重的范围，提升了去重的有效性。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在类型的视图中描述相似的部件。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本系统或方法的穷尽或排他实施例。

图1是本发明实施例的一种对爬虫的请求去重的方法的原理示意图。

图2是本发明实施例的一种对爬虫的请求去重的方法的流程示意图。

图3是本发明实施例的生成所述目标的访问特征数据的过程的示意图。

图4是在一些实施例中，为了进一步提升去重的效果的示意图。

图5是本发明实施例的一种对爬虫的请求去重的装置的示意图。

具体实施方式

此处参考附图描述本公开的各种方案以及特征。通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

本说明书可使用词组“在一个实施例中”、“在一些实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或类型实施例中的一个或多个。注意的是，在说明书全文中，相同或相近的附图标记指代相同或相似的元件，并省略不必要的重复描述。此外，具体实施例中，以单数形式出现的元件并不排除可以以多个(复数个)形式出现。

图1是本发明实施例的一种对爬虫的请求去重的方法的原理示意图。如图1所示，获取到用于访问（爬取）目标页面的http/https请求后，通过对http/https请求的传输结构进行解构拆分，提取一般影响请求一致性的部分，包括：请求方法、请求URL、以及请求体数据这三部分，根据各拆分部分在HTTP/HTTPS协议中的特性进行解析整理，其中当请求方法是相应请求体数据为空的第一方法，如get方法时，请仅需从请求URL中解析出访问特征数据，当请求方法是具有相应请求体数据的第二方法，如post、put、delete等方法时，需从请求体数据中解析出访问特征数据，此外请求URL中也可能存在访问特征数据。主URL是从所述请求URL的开始字符起直到紧邻所述访问特征数据的字符为止的连续字符串，也即是请求URL中去除了访问特征数据的前半部分。将请求方法、主URL和访问特征数据关联起来，可用于生成与对目标页面的请求特征相关的去重特征值。

基于上述原理，图2给出本发明实施例的一种对爬虫的请求去重的方法（以下简称“去重方法”）的流程示意图。如图2所示，去重方法200包括：

步骤201，获取用于访问待爬取的目标的http/https请求，其中所述http/https请求包括：请求方法、请求URL、请求体数据。

具体而言，该http/https请求是例如从爬虫程序处获得的用于爬取（访问）目标的http/https请求，所述的目标例如为网页、接口等。也可以在步骤201之前，依照爬虫具体业务需求和待爬取页面的服务端的格式要求，封装生成该http/https请求，并且在步骤201中获取该封装生成的http/https请求。比如，在某一网站上爬取查询的汽车数据，则业务需求，keyword（关键词）=汽车，根据该网站页面服务端的要求，当爬取第一页的汽车数据时，page_number=1，另外可能还有其他格式要求，比如需要增加page_size=20等参数。此外，网站要求的请求方法的类型可能为get、post或其他方式，封装时也应将该请求方法的类型填入http/https请求中。

在步骤203，根据所述请求方法的类型，对i）所述请求URL；或ii）所述请求URL和所述请求体数据进行解析，以生成所述目标的访问特征数据。

具体而言，当所述请求方法的类型为相应请求体数据为空的第一方法，如get方法时，对i）所述请求URL进行解析，以生成所述目标的访问特征数据；并且当所述请求方法为具有相应请求体数据的第二方法，如post、put或delete方法时，对ii）所述请求URL和所述请求体数据进行解析，以生成所述目标的访问特征数据。

在一个例子中，请求方法的类型为get方法，则对请求URL进行解析，从所述请求URL中解析出的第一键-值结构型数据作为所述目标的访问特征数据。该示例中，请求URL为https://www.xxx.com.cn/zonghe/q=%B0%C2%&pvarid=3311667，则对URL进行解析后得到该目标的第一键-值结构型数据（访问特征数据）为：q=%B0%C2%；pvarid=3311667。

步骤205，提取从所述请求URL的开始字符起直到紧邻所述访问特征数据的字符为止的连续字符串作为所述目标的主URL；

在上一个示例中，在确定了访问特征数据之后，https://www.xxx.com.cn/zonghe/这一连续字符串作为主URL。

步骤207，基于所述请求方法、所述主URL以及所述访问特征数据，生成所述目标的去重特征值。

在一些实施例中，生成所述目标的去重特征值的步骤具体包括：将所述请求方法、所述主URL以及所述访问特征数据拼接后进行散列计算，生成所述去重特征值。散列计算的算法例如为md5哈希算法或其他的散列算法。

步骤209，判断所述去重特征值是否与数据库中记录的与爬虫队列的各http/https请求相关的去重特征值相匹配，如果是，则忽略所述http/https请求（步骤211），否则，将所述http/https请求记录到所述爬虫队列中（步骤213）。

根据本实施例的去重方法，在生成访问特征数据的过程中考虑了HTTP/HTTPS协议的请求方法的各个类型，不仅局限于请求URL而是可能考虑请求URL和请求体数据二者作为访问特征数据，并基于请求方法、目标页面的主URL以及访问特征数据计算出的去重特征值进行去重，因此是适用于HTTP/HTTPS主流协议的通用的爬虫去重方法，扩展了去重的范围，提升了去重的有效性。

在下面的实施例中，以http/https请求中的请求方法为post方法为例，生成所述目标的访问特征数据的过程如图3所示。

在步骤301，判断从所述请求URL中是否能够解析出第二键-值结构型数据，如果是，则将所述第二键-值结构型数据作为所述目标的访问特征数据的第一部分（步骤303），然后判断从所述请求体数据中是否能够解析出第三键-值结构型数据（步骤305），如果是，则将所述第三键-值结构型数据作为所述目标的访问特征数据的第二部分（步骤307），否则，将所述请求体数据作为所述目标的访问特征数据的第二部分（步骤309）。

在步骤301的判断结果为否时，进入步骤311，判断从所述请求体数据中是否能够解析出所述第三键-值结构型数据，如果是，则将所述第三键-值结构型数据作为所述目标的访问特征数据（步骤313），否则，将所述请求体数据作为所述目标的访问特征数据（步骤315）。

在一些实施例中，键-值结构型数据为key-value结构型数据或JSON数据（包含key-value结构型数据）等。

如图4所示，在一些实施例中，为了进一步提升去重的效果，相比图2的实施例，在步骤203生成了访问特征数据之后，增加了步骤404，将生成的所述访问特征数据中包括的键-值结构型数据按照其中包括的各键值对的键名称的预定顺序进行排序。简单举例来说，当针对某一http请求提取的键-值结构型数据为q=%B0%C2%；pvarid=3311667时，而针对另一http请求提取的键-值结构型数据为pvarid=3311667；q=%B0%C2%时，如果不做排序的处理，则两次提取的键-值结构型数据不一致，去重算法将判定这两个http请求是不同的请求。然而，实质上，这两个http请求是相同的。可以自行设定具体的排序方式，比如按照键名称的首字母进行排序等。这里列举了仅提取出两个键-值对的示例，实际上，根据爬取页面的不同和具体的业务需求，存在从请求URL和请求体数据中提取（解析出）多个键-值对的情况。

在一些实施例中，所述爬虫是分布式爬虫。请求去重作为爬虫分布式化的必要条件，能有一个通用请求去重的方法尤为重要。

在下面的实施例中，如图5所示，一种对爬虫的请求去重的装置500，其特征在于，包括：请求获取模块502、访问特征数据生成模块504、主URL提取模块506、去重特征值生成模块508、去重判断模块510。

请求获取模块502配置为获取用于访问待爬取的目标的http/https请求，其中所述http/https请求包括：请求方法、请求URL、请求体数据；

访问特征数据生成模块504配置为：根据所述请求方法的类型，对i）所述请求URL；或ii）所述请求URL和所述请求体数据进行解析，以生成所述目标的访问特征数据；

该流程还可以包括：对每一款车，重复上述评估过程，并可以将对各车的各年度保值率的评估结果以表的形式存储在汽车行业知识图谱/知识库/数据库中。

主URL提取模块506配置为提取从所述请求URL的开始字符起直到紧邻所述访问特征数据的字符为止的连续字符串作为所述目标的主URL；

去重特征值生成模块508配置为：基于所述请求方法、所述主URL以及所述访问特征数据，生成所述目标的去重特征值；

去重判断模块510配置为：判断所述去重特征值是否与数据库中记录的与爬虫队列的各http/https请求相关的去重特征值相匹配，如果是，则忽略所述http/https请求，否则，将所述http/https请求记录到所述爬虫队列中。

利用本发明的装置实施例，可以不局限于具体的请求方式，实现对https/http请求的通用去重。

在一些实施例中，访问特征数据生成模块504具体配置为当所述请求方法的类型为get方法时，对i）所述请求URL进行解析，以生成所述目标的访问特征数据；并且当所述请求方法的类型为post、put或delete方法时，对ii）所述请求URL和所述请求体数据进行解析，以生成所述目标的访问特征数据。

在一些实施例中，访问特征数据生成模块504进一步具体配置为当所述请求方法为get方法时，将从所述请求URL中解析出的第一键-值结构型数据作为所述目标的访问特征数据。

在一些实施例中，访问特征数据生成模块504进一步配置为当所述请求方法为post、put或delete方法时，判断从所述请求URL中是否能够解析出第二键-值结构型数据：

如果是，则将所述第二键-值结构型数据作为所述目标的访问特征数据的第一部分，并且判断从所述请求体数据中是否能够解析出第三键-值结构型数据，如果是，则将所述第三键-值结构型数据作为所述目标的访问特征数据的第二部分，否则，将所述请求体数据作为所述目标的访问特征数据的第二部分；

如果否，则判断从所述请求体数据中是否能够解析出所述第三键-值结构型数据，如果是，则将所述第三键-值结构型数据作为所述目标的访问特征数据，否则，将所述请求体数据作为所述目标的访问特征数据。

在一些实施例中，为了进一步提升去重的有效性，装置500还包括：访问特征数据排序模块（未图示），其配置为将生成的所述访问特征数据中包括的键-值结构型数据按照其中包括的各键值对的键名称的预定顺序进行排序。

在一些实施例中，去重特征值生成模块508具体配置为：将所述请求方法、所述主URL以及所述访问特征数据拼接后进行散列计算，生成所述去重特征值。在另一些实施例中，去重特征值生成模块508可以具体配置为：将所述请求方法、所述主URL以及所述访问特征数据先单独进行散列计算后拼接，生成所述去重特征值。

在一些实施例中，装置500可以实现为系统、工具、服务、APP、组件或中间件等形式。

对于本发明装置实施例的未详尽描述之处，可参考对应的方法实施例。

本发明一个实施例中，还提供了一种非临时性计算机可读介质，其上存储有计算机可执行代码，计算机可执行代码在被处理器执行时能够实现上述的任一方法实施例。计算机可读介质可以包括磁性的、半导体的、磁带的、光学的、可移动的、不可移动的或其他类型的计算机可读介质或计算机可读存储设备。例如，如所公开的，计算机可读介质可以是其上存储有计算机指令的存储设备或存储器模块。在一些实施例中，计算机可读介质可以是其上存储有计算机指令的盘或闪存驱动器。

本发明实施例还提供一种电子设备，包括处理器、存储器以及其上存储的计算机可执行代码。当处理器执行计算机可执行代码时实现上述的任一方法实施例及其变形。电子设备例如为服务器、桌面计算机等，并且可适用于本发明实施例的对爬虫的请求去重的方法。

这里描述了各种操作或功能，其可以被实现为软件代码或指令或被定义为软件代码或指令。这样的内容可以是可直接执行的源代码或差异代码(“增量”或“块”代码) (“对象”或“可执行”形式)。软件代码或指令可以存储在计算机可读存储介质中，并且当被执行时，可以使机器执行所描述的功能或操作，并且包括用于以机器可访问的形式存储信息的任何机构(例如，计算设备，电子系统等)，诸如可记录或不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质，闪存设备等)。

与“包括”、“包含”或“特征在于”同义的术语“包括”是非排他性的或者开放性的，不排除另外的、未叙述的要素或方法步骤。“包括”是权利要求语言中使用的本领域的术语，其意味着所命名的要素是必要的，但是能够添加其他要素并且仍然形成权利要求书的范围内的结构。

如本文所使用的，当在实体列表的上下文中使用术语“和/或”时，是指单独或组合出现的实体。因此，例如，短语“A、B、C、和/或D”分别包括A、B、C和D，但也包括A、B、C和D的任何和所有组合和子组合。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种对爬虫的请求去重的方法，其特征在于，包括：

获取用于访问待爬取的目标的http/https请求，其中所述http/https请求包括：请求方法、请求URL、请求体数据；

根据所述请求方法的类型，对所述请求URL、或者对所述请求URL和所述请求体数据，进行解析，以生成所述目标的访问特征数据；

提取从所述请求URL的开始字符起直到紧邻所述访问特征数据的字符为止的连续字符串作为所述目标的主URL；

基于所述请求方法、所述主URL以及所述访问特征数据，生成所述目标的去重特征值；

判断所述去重特征值是否与数据库中记录的与爬虫队列的各http/https请求相关的去重特征值相匹配，如果是，则忽略所述http/https请求，否则，将所述http/https请求记录到所述爬虫队列中。

2.根据权利要求1所述的方法，其特征在于，所述的根据所述请求方法的类型，对所述请求URL、或者对所述请求URL和所述请求体数据，进行解析，以生成所述目标的访问特征数据，包括：

当所述请求方法的类型为相应请求体数据为空的第一方法时，对所述请求URL进行解析，以生成所述目标的访问特征数据；并且

当所述请求方法的类型为具有相应请求体数据的第二方法时，对所述请求URL和所述请求体数据进行解析，以生成所述目标的访问特征数据。

3.根据权利要求2所述的方法，其特征在于，当所述请求方法为相应请求体数据为空的第一方法时，将从所述请求URL中解析出的第一键-值结构型数据作为所述目标的访问特征数据。

4.根据权利要求2所述的方法，其特征在于，当所述请求方法为具有相应请求体数据的第二方法时，判断从所述请求URL中是否能够解析出第二键-值结构型数据：

5.根据权利要求3或4所述的方法，其特征在于，还包括，将生成的所述访问特征数据中包括的键-值结构型数据按照其中包括的各键值对的键名称的预定顺序进行排序。

6.根据权利要求1所述的方法，其特征在于，所述基于所述请求方法、所述主URL以及所述访问特征数据，生成所述目标的去重特征值，包括：

将所述请求方法、所述主URL以及所述访问特征数据拼接后进行散列计算，生成所述去重特征值。

7.根据权利要求1所述的方法，其特征在于，所述爬虫是分布式爬虫。

8.一种对爬虫的请求去重的装置，其特征在于，包括：

请求获取模块，其配置为获取用于访问待爬取的目标的http/https请求，其中所述http/https请求包括：请求方法、请求URL、请求体数据；

访问特征数据生成模块，其配置为：根据所述请求方法的类型，对所述请求URL、或者对所述请求URL和所述请求体数据，进行解析，以生成所述目标的访问特征数据；

主URL提取模块，其配置为提取从所述请求URL的开始字符起直到紧邻所述访问特征数据的字符为止的连续字符串作为所述目标的主URL；

去重特征值生成模块，其配置为：基于所述请求方法、所述主URL以及所述访问特征数据，生成所述目标的去重特征值；

去重判断模块，其配置为：判断所述去重特征值是否与数据库中记录的与爬虫队列的各http/https请求相关的去重特征值相匹配，如果是，则忽略所述http/https请求，否则，将所述http/https请求记录到所述爬虫队列中。

9.一种非临时性计算机可读介质，其上存储有计算机可执行代码，其特征在于，所述计算机可执行代码在被处理器执行时实现根据权利要求1~7中任一项所述的方法。

10.一种电子设备，包括处理器、存储器以及其上存储的计算机可执行代码，其特征在于，当所述处理器执行所述计算机可执行代码时实现如权利要求1~7中任一项所述的方法。