CN114117181B

CN114117181B - 网站翻页逻辑的获取、及网站翻页控制方法和装置

Info

Publication number: CN114117181B
Application number: CN202210083041.6A
Authority: CN
Inventors: 隆征帆
Original assignee: Beijing Jindi Technology Co Ltd
Current assignee: Beijing Jindi Technology Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-05-17
Anticipated expiration: 2042-01-25
Also published as: CN114117181A; CN114943023A

Abstract

本公开提供了一种网站翻页逻辑的获取、及网站翻页控制方法和装置，涉及计算机技术和大数据技术领域。具体实现方案为：获取目标网页的URL；通过对目标网页进行网页信息请求，获取目标网页的源码；对源码进行解析，以获取至少一个候选URL；从至少一个候选URL中选取与目标网页的URL相似度最高的URL以作为目标网页的下一页的URL；以及基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑，以便对网站进行信息获取时用于实现网页自动翻页。

Description

网站翻页逻辑的获取、及网站翻页控制方法和装置

技术领域

本公开涉及计算机技术和大数据技术领域，具体涉及一种网站翻页逻辑的获取方法及装置、一种网站翻页控制方法及装置、一种电子设备、一种存储有计算机指令的非瞬时计算机可读存储介质和一种计算机程序产品。

背景技术

在通过网络爬虫获取互联网上的公开信息时，时常碰到所需的信息在多个连续网页上展示的情况，此时需要控制网页实现自动翻页，以利网络爬虫获取这些连续网页上的信息。

发明内容

本公开提供了一种网站翻页逻辑的获取和网站翻页控制方法、装置、设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种网站翻页逻辑的获取方法，包括：获取目标网页的URL；通过对所述目标网页进行网页信息请求，获取所述目标网页的源码；对所述源码进行解析，以获取至少一个候选URL；从所述至少一个候选URL中选取与所述目标网页的URL相似度最高的URL以作为所述目标网页的下一页的URL；以及基于所述目标网页的URL和所述目标网页的下一页的URL，确定并返回所述目标网页所在网站的网站翻页逻辑，以便对所述网站进行信息获取时用于实现网页自动翻页。

根据本公开的一方面，提供了一种网站翻页控制方法，包括：获取网站的网站翻页逻辑，其中，所述网站翻页逻辑是根据本公开实施例所述的网站翻页逻辑的获取方法确定的；以及在访问所述网站的过程中，基于所述网站翻页逻辑，控制所述网站的网页由当前页自动翻至所述当前页的下一页。

根据本公开的另一方面，提供了一种网站翻页逻辑的获取装置，包括：第一获取模块，用于获取目标网页的URL；第二获取模块，用于通过对所述目标网页进行网页信息请求，获取所述目标网页的源码；第三获取模块，用于对所述源码进行解析，以获取至少一个候选URL；选取模块，用于从所述至少一个候选URL中选取与所述目标网页的URL相似度最高的URL以作为所述目标网页的下一页的URL；以及第四获取模块，用于基于所述目标网页的URL和所述目标网页的下一页的URL，确定并返回所述目标网页所在网站的网站翻页逻辑，以便对所述网站进行信息获取时用于实现网页自动翻页。

根据本公开的一方面，提供了一种网站翻页控制装置，包括：第五获取模块，用于获取网站的网站翻页逻辑，其中，所述网站翻页逻辑是根据本公开实施例所述的网站翻页逻辑的获取方法确定的；以及控制模块，用于在访问所述网站的过程中，基于所述网站翻页逻辑，控制所述网站的网页由当前页自动翻至所述当前页的下一页。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A示例性示出了适于本公开实施例的系统架构图；

图1B示例性示出了可以实现本公开实施例的场景图；

图2示例性示出了根据本公开实施例的网站翻页逻辑的获取方法的流程图；

图3示例性示出了根据本公开实施例的网站翻页控制方法的流程图；

图4示例性示出了根据本公开实施例的网站翻页逻辑的获取装置的框图；

图5示例性示出了根据本公开实施例的网站翻页控制装置的框图；以及

图6示例性示出了用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在一个可选的实施例中，对于通过网络爬虫获取多个连续网页上的信息的应用场景，可以依据当前网页的URL（可以是当前网站中的任意一个网页）和当前网页所在网站的网站翻页逻辑构造下一个网页的URL，以便逐个网页爬取相关信息。然而，不同的网站其网站翻页逻辑可能不同，因此面对新的网站时总是需要人工去确定该网站的网站翻页逻辑。但在面临海量网站信息获取场景时，依靠人工确定网站翻页逻辑的方式，繁琐且低效。

针对人工确定网站翻页逻辑存在繁琐且低效的问题，在另一个可选的实施例中，可以构建一个通用的网页翻页器，在面临海量网站信息获取场景时，可以利用该网页翻页器自动为各网站构造或者选取对应的网站翻页逻辑，以克服上述缺陷，同时提高网络爬虫系统的自动化程度。

以下将结合附图和具体实施例详细阐述本公开。

适于本公开实施例的网站翻页逻辑的获取方法、以及网站翻页控制方法和装置的系统架构介绍如下。

图1A示例性示出了适于本公开实施例的系统架构。需要注意的是，图1A所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他环境或场景。

如图1A所示，适于本公开实施例的系统架构100可以包括：客户端101、服务端102和服务端103。

在本公开实施例中，客户端101可以用于作为网站翻页逻辑的获取方法、以及网站翻页控制方法的执行主体，服务端102和服务端103可以配合客户端101，以实现上述方法中的至少之一。

示例性的，客户端101在获取网站的网站翻页逻辑的过程中可以从服务端102获取当前网页的源码以及当前网页的下一页的源码。客户端101在获取到网站的网站翻页逻辑后可以将其更新至服务端103的网站翻页逻辑数据库中。

或者，示例性的，客户端101在获取网站的网站翻页逻辑的过程中还可以直接从服务端103获取已有的且符合当前网站实际的网站翻页逻辑，并在能够获取到符合当前网站实际的网站翻页逻辑的情况下更新服务端103的网站翻页逻辑数据库中关于该网站翻页逻辑的出现频次。

以下将结合具体实施例详细阐述本系统架构。

应该理解，图1A中的客户端101、服务端102和服务端103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端101、服务端102和服务端103。

适于本公开实施例的网站翻页逻辑的获取方法、以及网站翻页控制方法和装置的应用场景介绍如下。

如图1B所示，查询某企业的公开信息时，发现其公开信息在同一网站的多个连续网页中都有展示。因此，利用网络爬虫获取该公开信息时，需要基于该网站的网站翻页逻辑实现自动翻页。此种场景下便可以基于本公开实施例提供的网站翻页逻辑的获取方法来构造或者选取符合该网站实际的网站翻页逻辑。进一步，在获取到符合该网站实际的网站翻页逻辑后，当面临海量网站信息获取场景时，还可以基于本公开实施例提供的网站翻页控制方法，在通过网络爬虫获取该网站上的公开信息的过程中控制网页自动翻页。

根据本公开的实施例，本公开提供了一种网站翻页逻辑的获取方法。

图2示例性示出了根据本公开实施例的网站翻页逻辑的获取方法的流程图。

如图2所示，方法200可以包括操作S210~ S250。

在操作S210，获取目标网页的URL。

在操作S220，通过对目标网页进行网页信息请求，获取目标网页的源码。

在操作S230，对源码进行解析，以获取至少一个候选URL。

在操作S240，从至少一个候选URL中选取与目标网页的URL相似度最高的URL以作为目标网页的下一页的URL。

在操作S250，基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑，以便对网站进行信息获取时用于实现网页自动翻页。

示例性的，如果指定查询并获取某网站的第N至N+1页上的信息，则可以将其中的第N页作为本实施例中的目标网页。

在获取目标网页的URL后，可以生成对应的网页信息请求，以便将其发送给对应的服务端，用于进行网页信息请求，以获取目标网页的源码。

应该理解，如果对指定网页发起HTTP GET请求，则此时网页信息请求可以包括请求方法GET和该网页的URL；如果对指定网页发起HTTP POST请求，则此时网页信息请求不仅可以包括请求方法POST和该网页的URL，还可以包括POST请求传送的form data（表单）或pay load（有效载重、有效载荷）。

还应该理解，网页信息请求不仅限于请求方法、网页的URL、form data 和payload，还可以包括对判断网站翻页逻辑有帮助的、由网络请求协议定义的其它内容，例如请求Headers等，本公开实施例对此不做限定。

在获取目标网页的源码后，可以对源码进行解析，以获取该目标网页的下一页的URL。应该理解，如果目标网页所在的网站由多个网页构成，那么这些网页上可能会有标识页码的页码标识或类似“下一页”的翻页按钮。因此，可以利用正则表达式、CSS Selector、Xpath中的至少之一从目标网页的源码中提取该目标网页的下一页的URL。

需要说明的是，在从网页的源码中提取对应的URL时，正则表达式更加通用，可以用于任意类型的网页；而对于X path而言，不同类型的网页可能需要使用不同的X path。因此，在本公开的一些实施例中，可以采用正则表达式和X path结合的方式解析下一页的URL。

示例性的，可以依据经验确定一些正则表达式和X path匹配模式及其优先级，并依据优先级从高往低，依次进行尝试匹配。如果匹配成功且匹配得到的下一页的URL与目标网页的URL有较大相似度，则循环结束。

应该理解，由于利用正则表达式可能匹配出多个URL，但如果匹配到的URL与目标网页的URL的相似度较低，则大概率要么匹配到了错误的地方，要么目标网页的源码中没有显式地提供下一页的URL。比如，如果网页采用Java Script 生成下一页的URL，则其源码中就不会显式地提供下一页的URL。因此，可以从匹配出的URL中计算出与目标网页相似度最高的一个作为目标网页的下一页的URL，以提高匹配结果的准确度，进而提高最终构造的网站翻页逻辑的准确度。

在获得目标网页的下一页的URL后，可以比较该URL与目标网页的URL之间的差异，并基于该差异确定并返回目标网页所在网站的网站翻页逻辑。

作为一种可选的实施例，网站翻页逻辑可以由以下信息（或变量）中的至少之一刻画：翻页标识（page_mark）、翻页标识与网页页码之间的连接符（contact_char）、起始页码（start_page_no）、首页页码是否省略（has_home_page_no）、相邻页面之间的页码增幅（step）。

在本公开实施例中，通过对比目标网页的URL与该目标网页的下一页的URL之间的差异，可以以一定策略估计出对应的网站翻页逻辑。示例性的，假设首页URL为http://xxxx/list.html 且该首页的下一页的URL为http://xxxx/list_2.html，对比两个URL之间的差异可知，下一页的URL中多了一个“_2”，“_2”前面为“list”，于是“page_mark”可估计为[“list”]，“contact_char”可以估计为 [“_”]，“start_page_no”可估计为 [“1”]，又由于首页上没有出现页码标识，所以has_home_page_no可估计为 [False]。第2页（即首页的下一页）的页码标识为[“2”]，于是“step”可估计为 [“1”]。

应该理解，刻画网站翻页逻辑的信息或变量可依据实际情况作增加、删除和修改，本公开实施例在此不做限定。

相比于通过人工方式确定网站翻页逻辑存在流程繁琐且低效的问题，通过本公开实施例，在进行网络信息获取时，尤其在面临海量网站信息获取场景时，可以基于目标网页的URL和该目标网页的下一页的URL自动为该目标网页所在的网站构造符合其实际的网站翻页逻辑或者从已有的网站翻页逻辑中选取符合其实际的网站翻页逻辑，因而操作和流程更加简洁、高效，同时可以提高网络爬虫系统的自动化程度。

应该理解，从一个网页的源码中不仅可以解析其下一页的URL，还可以解析其它对于判断网站翻页逻辑有帮助的内容，例如还可以解析其下一页的下一页的URL等。因此，在其他实施例中，例如还可以根据一个网页的URL及其下一页的下一页的URL之间的差异，确定并返回该网页所在网站的网站翻页逻辑。

作为一种可选的实施例，该方法还可以包括：在基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑之前，基于目标网页的下一页的URL进行网页信息请求。其中，响应于网页信息请求成功，执行基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑的操作。

由于对一个网页的源码进行解析后匹配获得的该网页的下一页的URL可能是正确的，也可能是不正确的，因而为了确保基于目标网页的URL和目标网页的下一页的URL之间的差异，能够准确地确定并返回目标网页所在网站的网站翻页逻辑，在基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑之前，可以先基于目标网页的下一页的URL进行网页信息请求，以验证基于上述获得的下一页的URL能否请求成功。其中，如果能够请求成功，则表示获得的下一页的URL是正确的，因而可以执行基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑的操作。

进一步，作为一种可选的实施例，该方法还包括如下操作。

响应于网页信息请求失败，基于目标网页的URL和/或目标网页的下一页的URL，预测网站的网站翻页逻辑中的翻页标识。

从网站翻页逻辑数据库中查找翻页标识与预测的翻页标识相同或相似的至少一个候选网站翻页逻辑。

从至少一个候选网站翻页逻辑中查找符合网站的网站翻页逻辑。

应该理解，如果网页信息请求失败，则表示当前获得的下一页的URL是不正确的，因而即使执行基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑的操作，也无法获得正确的网站翻页逻辑。对此，可以直接从已有的网站翻页逻辑中选取符合本网站实际的网站翻页逻辑以用于本网站。

示例性的，在请求失败的情况下，比如目标网页的URL为http://xxxx/list.html，则可以据此预测本网站（即该目标网页所在的网站）的网站翻页逻辑中的翻页标识“page_mark”可能为 [“list”]。由此可以直接从网站翻页逻辑数据库中查找翻页标识为[“list”]的至少一个候选网站翻页逻辑。

进一步，在实现本公开实施例的过程中，发明人发现，网站翻页逻辑存在一定的规律性，并且有许多网站使用同样的网站翻页逻辑，因此在从网站翻页逻辑数据库中查找翻页标识为 [“list”]的至少一个候选网站翻页逻辑时可以选取其中翻页标识为 [“list”]且出现频次为top N（前N名，N大于等于1）的N个候选网站翻页逻辑，由此可以提高匹配效率。

更进一步，在从上述的N个候选网站翻页逻辑中查找符合本网站的网站翻页逻辑的过程中，可以根据这些网站翻页逻辑的出现频率由高到低的顺序，依次尝试，直到找到符合本网站实际的网站翻页逻辑或遍历结束时为止。若找到了，则将表征当前找出的网页翻页逻辑的出现频次的字段值加1，同时结束整个流程并返回所找出的网站翻页逻辑；否则，则发出失败预警。

示例性的，在从候选网站翻页逻辑中查找符合本网站的网站翻页逻辑的过程中，可以根据各翻页逻辑出现频率由高到低的顺序进行遍历，每遍历到一个候选网站翻页逻辑，进而可以根据该翻页逻辑和目标网页的URL构造该目标网页的下一页的URL和/或该目标网页的下一页的URL，并基于构造的URL进行网页信息请求以验证当前的候选网站翻页逻辑是否是符合本网站实际的网站翻页逻辑。

通过本公开实施例，不仅可以根据目标网页的URL和该目标网页的下一页的URL之间的差异确定并返回该目标网页所在网站的网站翻页逻辑，并且在利用上述策略确定翻页逻辑失败的情况下，还可以利用其他策略继续确定该目标网页所在网站的网站翻页逻辑。比如，还可以根据该目标网页的URL和/或该目标网页的下一页的URL中的相关信息预测该目标网页所在网站的网站翻页逻辑中可能包含的翻页标识，进而基于该翻页标识估计该目标网页所在网站的网站翻页逻辑。因而，获取网站翻页逻辑的手段更加多样化。

本实施例借助规则（如很多网站使用相同的或者相似的网站翻页逻辑）与统计（如各网站翻页逻辑的出现频次）相结合的思想，提出了自动获取网站翻页逻辑的方法。其中，规则主要体现在对网站翻页逻辑这一抽象概念的量化上。统计则主要体现在：寻找网站翻页逻辑时从出现概率最高（即出现频次最高）的网站翻页逻辑开始尝试，能够提高发现符合当前网站实际的网站翻页逻辑的效率。但由于实际操作中无法穷尽所有的网站，因而难以精确计算出各网站翻页逻辑出现的概率，但可以使用各网站翻页逻辑出现的频率（即频次）来估计各网站翻页逻辑出现的概率，估计的误差将随着样本量的增加而逐渐降低。并且，随着将本方案不断运用于新的网站，本方案对各种网页翻页逻辑出现的概率的估计将越来越接近于现实情况。

或者，作为一种可选的实施例，该方法还包括：在基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑之前，执行如下操作。

基于目标网页的下一页的URL进行网页信息请求。

响应于网页信息请求成功，获取目标网页的下一页的源码。

确定目标网页的源码描述的页面结构与目标网页的下一页的源码描述的页面结构的相似度是否大于等于对应的相似度阈值。

其中，响应于相似度大于等于对应的相似度阈值，执行基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑的操作。

由于对一个网页的源码进行解析后匹配获得的该网页的下一页的URL可能是正确的，也可能是不正确的，虽然依据上述实施例通过尝试进行网页信息请求可以验证匹配获得的该网页的下一页的URL是正确的还是不正确的，但是通过上述实施例，在验证确定该网页的下一页的URL是正确的情况下，无法进一步验证匹配获得的该网页的下一页的URL是否符合目标网页所在网站的实际情况，如验证匹配获得的该网页的下一页的URL是本网站的相关网页的URL还是其他网站的相关网页的URL。因而，通过上述实施例，有时候也无法确保基于目标网页的URL和目标网页的下一页的URL之间的差异，能够准确地确定并返回目标网页所在网站的网站翻页逻辑。

对此，本公开实施例提供了进一步的解决方案，即在基于目标网页的下一页的URL进行网页信息请求成功的情况下，可以进一步获取该下一页的源码，并基于目标网页的源码及其下一页的源码确定两个网页的页面结构的相似度。如果这两个网页的页面结构的相似度大于等于对应的相似度阈值，则验证认为上述匹配获得的该网页的下一页的URL符合目标网页所在网站的实际；否则，则验证认为上述匹配获得的该网页的下一页的URL不符合目标网页所在网站的实际。

在本公开实施例中，在确定上述相似度大于等于对应的相似度阈值的情况下，执行基于目标网页的URL和目标网页的下一页的URL，确定并返回目标网页所在网站的网站翻页逻辑的操作，因而可以确保基于目标网页的URL和目标网页的下一页的URL之间的差异，能够准确地确定并返回目标网页所在网站的网站翻页逻辑。

进一步，作为一种可选的实施例，该方法还可以包括如下操作。

响应于网页信息请求失败或者相似度小于对应的相似度阈值，基于目标网页的URL和目标网页的下一页的URL，预测网站的网站翻页逻辑中的翻页标识。

应该理解，本公开实施例中，基于目标网页的URL和目标网页的下一页的URL预测目标网页所在网站的网站翻页逻辑中的翻页标识的方法以及基于该翻页标识选取符合本网站实际的网站翻页逻辑的方法与前述实施例中描述的方法对应相同或类似，本公开实施例不再赘述。

进一步，作为一种可选的实施例，该方法还可以包括：在从上述的至少一个候选网站翻页逻辑中能够找出符合网站的网站翻页逻辑的情况下，在对网站进行信息获取时利用当前找出的网站翻页逻辑进行翻页，并在网站翻页逻辑数据库中将表征当前找出的网站翻页逻辑的出现频次的字段值加1。

或者，作为一种可选的实施例，该方法还可以包括：在无法从上述的至少一个候选网站翻页逻辑中找出符合网站的网站翻页逻辑的情况下，发出告警，以便通过人工方式确定网站的网站翻页逻辑。

通过本公开实施例，不仅可以根据目标网页的URL和该目标网页的下一页的URL之间的差异确定并返回该目标网页所在网站的网站翻页逻辑，并且在利用上述策略确定翻页逻辑失败的情况下，还可以利用其他策略继续确定该目标网页所在网站的网站翻页逻辑。比如，还可以根据该目标网页的URL和/或该目标网页的下一页的URL中的相关信息预测该目标网页所在网站的网站翻页逻辑中可能包含的翻页标识，进而基于该翻页标识从已有的网站翻页逻辑中查找符合当前网站实际的网站翻页逻辑。进一步，在基于该翻页标识还是无法找到符合当前网站实际的网站翻页逻辑的情况下，还以告警通知用户通过人工方式确定网站的网站翻页逻辑。因而，获取网站翻页逻辑的手段更加多样化。

作为一种可选的实施例，该方法还可以包括：基于确定并返回的网站的网站翻页逻辑，更新对应的网站翻页逻辑数据库。

示例性的，可以判断该网站翻页逻辑在网站翻页逻辑数据库中是否已存在，若已存在，则将表征该网站翻页逻辑的出现频次的字段值加1；否则，则将该网站翻页逻辑插入到该数据库中，并将表征其出现频次的字段值置为1。

通过本公开实施例，一方面，可以为网络爬虫开发人员提供一套能够自动获得网站翻页逻辑从而快速构建下一页的链接地址的方案，因而可以省去人工确定网站翻页逻辑的步骤，并且在面对海量网站进行网络爬虫开发时，可以大幅提高开发效率；另一方面，通过将本方案不断地应用于新的网站，一些未被考虑的网站翻页逻辑将不断地被新增到网站翻页逻辑数据库中，各种网站翻页逻辑出现概率的估计也将越来越接近于实际情况，本方案因此也将变得越来越通用和智能。

作为一种可选的实施例，该方法还可以包括：在对目标网页的源码进行解析后无法获取到任何候选URL的情况下，可以基于目标网页的URL，预测并返回目标网页所在网站的网站翻页逻辑。

需要说明的是，由于网站自身原因或者匹配模式覆盖不全等原因，操作S230中不能保证一定能获得目标网页的下一页的URL。在此情况下，可以直接基于目标网页的URL中提供的信息，比如其中的翻页标识等，从网站翻页逻辑数据库中查找翻页标识与目标网页的URL中的翻页标识相同的网站翻页逻辑，并利用找出的网站翻页逻辑尝试构造目标网页的下一页URL或该者下一页的下一页的URL，然后验证构造的URL是否符合本网站实际即可。

根据本公开的实施例，本公开提供了一种网站翻页控制方法。

图3示例性示出了根据本公开实施例的网站翻页控制方法的流程图。

如图3所示，方法300可以包括操作S310~ S320。

在操作S310，获取网站的网站翻页逻辑，其中，网站翻页逻辑是根据本公开实施例的网站翻页逻辑的获取方法确定的，本实施例在此不再赘述。

在操作S320，在访问网站的过程中，基于网站翻页逻辑，控制网站的网页由当前页自动翻至当前页的下一页。

其中，操作S320中描述的网站自动翻页方法与前述实施例中描述的网站自动翻页方法相同或相似，本实施例在此不再赘述。

通过本公开实施例，可以提高网络爬虫系统的自动化程度。

根据本公开的实施例，本公开还提供了一种网站翻页逻辑的获取装置。

图4示例性示出了根据本公开实施例的网站翻页逻辑的获取装置的框图。

如图4所示，装置400可以包括：第一获取模块410、第二获取模块420、第三获取模块430、选取模块440和第四获取模块450。

第一获取模块410，用于获取目标网页的URL。

第二获取模块420，用于通过对该目标网页进行网页信息请求，获取该目标网页的源码。

第三获取模块430，用于对该源码进行解析，以获取至少一个候选URL。

选取模块440，用于从该至少一个候选URL中选取与该目标网页的URL相似度最高的URL以作为该目标网页的下一页的URL。

第四获取模块450，用于基于该目标网页的URL和该目标网页的下一页的URL，确定并返回该目标网页所在网站的网站翻页逻辑，以便对该网站进行信息获取时用于实现网页自动翻页。

作为一种可选的实施例，该装置还包括：第一请求模块，用于在基于该目标网页的URL和该目标网页的下一页的URL，确定并返回该目标网页所在网站的网站翻页逻辑之前，基于该目标网页的下一页的URL进行网页信息请求。其中，第四获取模块，还用于响应于网页信息请求成功，执行基于该目标网页的URL和该目标网页的下一页的URL，确定并返回该目标网页所在网站的网站翻页逻辑的操作。

进一步，作为一种可选的实施例，该装置还包括：第一预测模块，用于响应于网页信息请求失败，基于该目标网页的URL和/或该目标网页的下一页的URL，预测该网站的网站翻页逻辑中的翻页标识；第一查找模块，用于从网站翻页逻辑数据库中查找翻页标识与预测的翻页标识相同或相似的至少一个候选网站翻页逻辑；以及第二查找模块，用于从该至少一个候选网站翻页逻辑中查找符合该网站的网站翻页逻辑。

或者，作为一种可选的实施例，该装置还可以包括：第二请求模块，用于在基于该目标网页的URL和该目标网页的下一页的URL，确定并返回该目标网页所在网站的网站翻页逻辑之前，基于该目标网页的下一页的URL进行网页信息请求；第五获取模块，用于响应于网页信息请求成功，获取该目标网页的下一页的源码；确定模块，用于确定该目标网页的源码描述的页面结构与该目标网页的下一页的源码描述的页面结构的相似度是否大于等于对应的相似度阈值。其中，第四获取模块，还用于响应于该相似度大于等于该对应的相似度阈值，执行基于该目标网页的URL和该目标网页的下一页的URL，确定并返回该目标网页所在网站的网站翻页逻辑的操作。

进一步，作为一种可选的实施例，该装置还可以包括：第二预测模块，用于响应于网页信息请求失败或者该相似度小于该对应的相似度阈值，基于该目标网页的URL和该目标网页的下一页的URL，预测该网站的网站翻页逻辑中的翻页标识；第三请求模块，用于从网站翻页逻辑数据库中查找翻页标识与预测的翻页标识相同或相似的至少一个候选网站翻页逻辑；以及第四请求模块，用于从该至少一个候选网站翻页逻辑中查找符合该网站的网站翻页逻辑。

作为一种可选的实施例，该装置还可以包括：处理模块，用于在从该至少一个候选网站翻页逻辑中能够找出符合该网站的网站翻页逻辑的情况下，在对该网站进行信息获取时利用当前找出的网站翻页逻辑进行翻页，并将表征当前找出的网站翻页逻辑的出现频次的字段值加1。

或者，作为一种可选的实施例，该装置还可以包括：告警模块，用于在无法从该至少一个候选网站翻页逻辑中找出符合该网站的网站翻页逻辑的情况下，发出告警，以便通过人工方式确定该网站的网站翻页逻辑。

作为一种可选的实施例，该装置还可以包括：告警模块，用于基于确定并返回的该网站的网站翻页逻辑，更新对应的网站翻页逻辑数据库。

作为一种可选的实施例，该装置还可以包括：第三预测模块，用于在对该源码进行解析后无法获取到任何候选URL的情况下，基于该目标网页的URL，预测并返回该目标网页所在网站的网站翻页逻辑。

作为一种可选的实施例，该网站翻页逻辑由以下信息中的至少之一刻画：翻页标识、翻页标识与网页页码之间的连接符、起始页码、首页页码是否省略、相邻页面之间的页码增幅。

应该理解，本公开的装置实施例与本公开的方法实施例对应相同或类似，本公开实施例在此不再赘述。

根据本公开的实施例，本公开还提供了一种网站翻页控制装置。

图5示例性示出了根据本公开实施例的网站翻页控制装置的框图。

如图5所示，装置500可以包括：第五获取模块510和控制模块520。

第五获取模块510，用于获取网站的网站翻页逻辑，其中，该网站翻页逻辑是根据本公开实施例该的网站翻页逻辑的获取方法确定的。

控制模块520，用于在访问该网站的过程中，基于该网站翻页逻辑，控制该网站的网页由当前页自动翻至该当前页的下一页。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如网站翻页逻辑的获取方法（或者网站翻页控制方法）。例如，在一些实施例中，网站翻页逻辑的获取方法（或者网站翻页控制方法）可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的网站翻页逻辑的获取方法（或者网站翻页控制方法）的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行网站翻页逻辑的获取方法（或者网站翻页控制方法）。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种网站翻页逻辑的获取方法，包括：

获取目标网页的URL；

通过对所述目标网页进行网页信息请求，获取所述目标网页的源码，并对所述源码进行解析，以获取至少一个候选URL；

从对所述源码进行解析获取的所述至少一个候选URL中选取与所述目标网页的URL相似度最高的URL以作为所述目标网页的下一页的URL；

基于所述目标网页的下一页的URL进行网页信息请求；

响应于网页信息请求成功，基于所述目标网页的URL和所述目标网页的下一页的URL之间的差异，确定并返回所述目标网页所在网站的网站翻页逻辑，以便对所述网站进行信息获取时用于实现网页自动翻页；或者

响应于网页信息请求失败，基于所述目标网页的URL和/或所述目标网页的下一页的URL，预测所述网站的网站翻页逻辑中的翻页标识；

从网站翻页逻辑数据库中查找翻页标识与预测的翻页标识相同或相似的至少一个候选网站翻页逻辑；以及

从所述至少一个候选网站翻页逻辑中查找符合所述网站的网站翻页逻辑。

2.根据权利要求1所述的方法，还包括：在基于所述目标网页的URL和所述目标网页的下一页的URL之间的差异，确定并返回所述目标网页所在网站的网站翻页逻辑之前，

基于所述目标网页的下一页的URL进行网页信息请求；

响应于网页信息请求成功，获取所述目标网页的下一页的源码；

确定所述目标网页的源码描述的页面结构与所述目标网页的下一页的源码描述的页面结构的相似度是否大于等于对应的相似度阈值，

其中，响应于所述相似度大于等于所述对应的相似度阈值，执行基于所述目标网页的URL和所述目标网页的下一页的URL之间的差异，确定并返回所述目标网页所在网站的网站翻页逻辑的操作。

3.根据权利要求2所述的方法，还包括：

响应于网页信息请求失败或者所述相似度小于所述对应的相似度阈值，基于所述目标网页的URL和所述目标网页的下一页的URL，预测所述网站的网站翻页逻辑中的翻页标识；

4.根据权利要求1或3所述的方法，还包括：

在从所述至少一个候选网站翻页逻辑中能够找出符合所述网站的网站翻页逻辑的情况下，在对所述网站进行信息获取时利用当前找出的网站翻页逻辑进行翻页，并将表征当前找出的网站翻页逻辑的出现频次的字段值加1。

5.根据权利要求1或3所述的方法，还包括：

在无法从所述至少一个候选网站翻页逻辑中找出符合所述网站的网站翻页逻辑的情况下，发出告警，以便通过人工方式确定所述网站的网站翻页逻辑。

6.根据权利要求1所述的方法，还包括：

基于确定并返回的所述网站的网站翻页逻辑，更新对应的网站翻页逻辑数据库。

7.根据权利要求1所述的方法，还包括：在对所述源码进行解析后无法获取到任何候选URL的情况下，基于所述目标网页的URL，预测并返回所述目标网页所在网站的网站翻页逻辑。

8.根据权利要求1所述的方法，其中，所述网站翻页逻辑由以下信息中的至少之一刻画：翻页标识、翻页标识与网页页码之间的连接符、起始页码、首页页码是否省略、相邻页面之间的页码增幅。

9.一种网站翻页控制方法，包括：

获取网站的网站翻页逻辑，其中，所述网站翻页逻辑是根据权利要求1-8中任一项所述的方法确定的；以及

在访问所述网站的过程中，基于所述网站翻页逻辑，控制所述网站的网页由当前页自动翻至所述当前页的下一页。

10.一种网站翻页逻辑的获取装置，包括：

第一获取模块，用于获取目标网页的URL；

第二获取模块，用于通过对所述目标网页进行网页信息请求，获取所述目标网页的源码；

第三获取模块，用于对所述源码进行解析，以获取至少一个候选URL；

选取模块，用于从对所述源码进行解析获取的所述至少一个候选URL中选取与所述目标网页的URL相似度最高的URL以作为所述目标网页的下一页的URL；以及

第四获取模块，用于

基于所述目标网页的下一页的URL进行网页信息请求；

11.一种网站翻页控制装置，包括：

第五获取模块，用于获取网站的网站翻页逻辑，其中，所述网站翻页逻辑是根据权利要求1-8中任一项所述的方法确定的；以及

控制模块，用于在访问所述网站的过程中，基于所述网站翻页逻辑，控制所述网站的网页由当前页自动翻至所述当前页的下一页。

12.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。