CN111241370B

CN111241370B - 分布式爬取内容的方法、装置及存储介质

Info

Publication number: CN111241370B
Application number: CN202010019149.XA
Authority: CN
Inventors: 黄勇; 周彦辉
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2023-10-13
Anticipated expiration: 2040-01-08
Also published as: CN111241370A

Abstract

本公开是关于一种分布式爬取内容方法、分布式爬取内容装置及存储介质。分布式爬取内容方法包括：检测针对爬虫页面的输入信息，输入信息包括待爬取内容标识；响应于检测到输入信息，爬取待爬取内容标识对应的爬取内容信息；在爬虫页面显示爬取内容信息。通过本公开，可以简单、易操作地爬取互联网公开数据。

Description

分布式爬取内容的方法、装置及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及分布式爬取内容的方法、装置及存储介质。

背景技术

随着网络技术的发展，在互联网上每天都会产生海量公开数据，这些公开数据对各行各业都具有一定的参考价值和使用价值。为了快速地获取大量互联网公开数据，催生了获取互联网公开数据的爬虫技术。

目前，由于爬虫技术的门槛比较高，在利用爬虫技术获取互联网公开数据时，需要大量具有技术功底以及技术积累的专业人员通过编写和利用爬虫程序，在指定网站中搜索相关页面才能实现，爬虫技术不易操作。

有鉴于此，如何实现对互联网公开数据进行简单、易操作的爬虫，是目前急需解决的问题。

发明内容

为克服相关技术中存在的问题，本公开提供一种分布式爬取内容的方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种分布式爬取内容的方法，分布式爬取内容的方法包括：

检测针对爬虫页面的输入信息，输入信息包括待爬取内容标识；响应于检测到输入信息，爬取待爬取内容标识对应的爬取内容信息；在爬虫页面显示爬取内容信息。

在一示例中，待爬取内容标识包括：待爬取目标网站信息；或者，待爬取内容标识包括：待爬取目标网站信息、待爬取主题以及待爬取主题中需要统计的信息。

在一示例中，响应于检测到所述输入信息，爬取待爬取内容标识对应的爬取内容信息，包括：根据待爬取内容标识，从互联网协议IP池中分配与待爬取内容标识对应的IP地址；通过IP地址，递归爬取目标网站信息；或者递归爬取目标网站信息、待爬取主题和与待爬取主题关联的统计信息。

在一示例中，在爬虫页面显示爬取内容信息，包括：在爬虫页面显示爬取到的爬取主题以及与爬取主题关联的统计信息，以及在爬虫页面显示爬取到的爬取主题的访问链接，和爬取到统计信息的访问子链接。

在一示例中，分布式爬取内容的方法还包括：在接收到从目标网站返回的状态码时，确定IP地址为无效IP地址，状态码表征爬取待爬取主题和与待爬取主题关联的统计信息失败。

根据本公开实施例的第二方面，提供一种分布式爬取内容的装置，分布式爬取内容的装置，包括：

检测单元，被配置为检测针对爬虫页面的输入信息，输入信息包括待爬取内容标识；爬取单元，被配置为响应于检测到输入信息，爬取待爬取内容标识对应的爬取内容信息；显示单元，被配置为在爬虫页面显示爬取内容信息。

在一示例中，爬取单元响应于检测到输入信息，采用如下方式爬取待爬取内容标识对应的爬取内容信息：根据待爬取内容标识，从互联网协议IP池中分配与待爬取内容标识对应的IP地址；通过IP地址，递归爬取目标网站信息；或者递归爬取目标网站信息、待爬取主题和与待爬取主题关联的统计信息。

在一示例中，显示单元采用如下方式在爬虫页面显示爬取内容信息：在爬虫页面显示爬取到的爬取主题以及与爬取主题关联的统计信息，以及在爬虫页面显示爬取到的爬取主题的访问链接，和爬取到统计信息的访问子链接。

在一示例中，检测单元还被配置为：在接收到从目标网址返回的状态码时，确定IP地址为无效IP地址，状态码表征爬取待爬取主题和与待爬取主题关联的统计信息失败。

根据本公开的第三方面，提供了一种非临时性计算机可读存储介质，非临时性计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行前述第一方面或者第一方面中任意一示例中的分布式爬取内容的方法。

根据本公开的第四方面，提供了一种分布式爬取内容的装置，分布式爬虫装置包括：存储器，配置用于存储指令。以及处理器，配置用于调用指令执行前述第一方面或者第一方面中任意一示例中的分布式爬取内容的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过检测爬虫页面中输入的包括待爬取内容标识的信息，响应于检测到输入信息，爬取与待爬取内容标识对应的爬取内容信息，并在爬虫页面显示爬取内容信息，使得爬取内容时，不需要根据爬取的内容，编写对应的爬虫程序，爬取内容更加简单，易操作。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图。

图2是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图。

图3是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图。

图4是根据一示例性实施例示出的一种分布式爬取内容的过程示意图。

图5是根据一示例性实施例示出的一种分布式爬取内容的装置的框图。

图6是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的示例性实施例的技术方案可以应用于对目标网站进行分布式爬虫的应用场景。在该场景中，分布式爬取内容的方法的执行主体可以是分布式爬虫装置，该分布式爬虫装置可以是计算机，移动终端等终端，本公开实施例不做限定。

图1是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图，如图1所示，分布式爬取内容的方法包括以下步骤。

在步骤S11中，检测针对爬虫页面的输入信息，输入信息包括待爬取内容标识。

本公开中，爬虫页面为用户输入的待爬取内容标识的页面。在爬取页面中，用户可以根据爬取页面中预设的爬取选项选择待爬取内容标识，用户也可以通过自定义的方式将待爬取内容标识输入到爬取页面。其中，待爬取内容标识可以包括：待爬取目标网站信息。或者是待爬取目标网站信息、待爬取主题以及待爬取主题中需要统计的信息。

例如，待爬取目标网站信息可以是待爬取目标网站的链接。待爬取主题以及待爬取主题中需要统计的信息例如可以是一个新闻的主题，以及该新闻中需要统计的转发量和阅读量。

在步骤S12中，响应于检测到输入信息，爬取待爬取内容标识对应的爬取内容信息。

一种实施方式中，可根据检测到用户输入的待爬取的目标网站信息后的点击确认操作，确定检测到输入信息。或者根据检测到用户输入的待爬取的目标网站信息、待爬取主题以及与待爬取主题关联的统计信息后的点击确认操作，确定检测到输入信息。

另外，为了使爬虫页面更加通用，方便多个业务类型通过爬虫页面均可以爬取到适合该业务领域的爬取内容，在爬虫页面中，还可以预先设置业务类型的选项。基于用户选择或者输入的业务类型，在爬虫页面可针对性的爬取与业务类型对应的目标网站。并且，针对不同业务类型爬取内容信息时，可根据不同业务类型的重要程度，预设业务类型的优先级顺序。当有多个业务类型提交爬取任务时，可根据业务类型的优先级顺序依次执行多个业务的爬取任务。

本公开中，根据获取的输入信息中的待爬取内容标识，爬取待爬取内容标识对应的爬取内容信息。

本公开中，根据待爬取内容标识进行爬取时，用户可以将待爬取目标网站信息、待爬取主题以及待爬取主题中需要统计的信息，全部输入爬取页面后，开始执行爬取任务。用户也可以输入待爬取目标网站信息对目标网站进行爬取，根据从目标网站返回的爬取内容，在爬虫页面进一步选择和/或输入需要爬取的内容。

在步骤S13中，在爬虫页面显示爬取内容信息。

本公开中，根据获取的待爬取内容标识，请求与待爬取内容标识相对应的目标网站，并从目标网站爬取爬取内容信息之后，可以将目标网站爬取得到的爬取内容信息进行显示。

在本公开的示例性实施例中，通过检测爬虫页面中输入的包括待爬取内容标识的信息，响应于检测到输入信息，爬取与待爬取内容标识对应的爬取内容信息，并在爬虫页面显示爬取内容信息，使得爬取内容时，不再需要根据爬取的内容，编写对应的爬虫程序，爬取内容更加简单，易操作。

图2是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图，如图2所示，分布式爬取内容的方法包括以下步骤。

在步骤S21中，检测针对爬虫页面的输入信息，输入信息包括待爬取内容标识。

在步骤S22中，根据待爬取内容标识，从互联网协议IP池中分配与待爬取内容标识对应的IP地址。

本公开中，IP池可以是存储有大量可访问目标网站的IP地址的IP地址资源池。

在实际应用中，为了能够高效的爬取内容，需要对目标网站进行高频次的访问。并且由于目标网站对访问IP地址的请求频率有设置阈值，在请求目标网站时，需要大量的可访问目标网站的IP地址，以及需要定期对访问目标网站的IP地址进行更换。由此需要从存储有大量可访问目标网站IP地址的IP池中获取与目标网站信息对应的IP地址，并动态更新。

并且，为了保证爬虫时爬取目标网站的IP地址不会被目标网站封禁，保证IP池中IP地址的高可用性，在实际爬虫中可通过请求IP代理转发到目标网站，以此防止访问目标网站的IP地址被封禁的风险，保证IP池中IP地址的高可用性。

在步骤S23中，通过分配的与目标网站信息对应的IP地址，递归爬取目标网站信息，或者递归爬取目标网站信息、待爬取主题和与待爬取主题关联的统计信息。

本公开中，为了方便技术人员对爬取的内容做进一步的分析，根据待爬取内容标识，可通过机器分类算法递归爬取爬取内容信息，并对爬取后得到的爬取内容信息进行存储以及导出。具体地，针对目标网站访问链接例如可按照目标网站首页/待爬取主题的列表页/待爬取主题中需要统计的信息的详情页的方式进行爬取。针对待爬取主题和与待爬取主题关联的统计信息，例如可按照待爬取主题/待爬取主题的转发量/待爬取主题的阅读量进行爬取。对爬取得到的爬取内容信息可以存储到例如mysql数据库或者hbase数据库等数据库中。

在步骤S24中，在爬虫页面显示爬取内容信息。

本公开中，为了方便用户直观的查看爬取结果，可将爬取到的爬取主题以及与爬取主题关联的统计信息进行显示，以及将爬取到的爬取主题的访问链接，和爬取到统计信息的访问子链接进行显示。

例如，对访问链接以网站首页/待爬取主题的列表页/待爬取主题中需要统计的信息的详情页进行显示，以及对待爬取内容以待爬取主题/待爬取主题的转发量/待爬取主题的阅读量进行显示。

在本公开的示例性实施例中，通过检测爬虫页面中输入的包括待爬取内容标识的信息，响应于检测到输入信息，从互联网协议IP池中动态分配与目标网站信息对应的IP地址，可保证爬虫的成功率，并能减少爬取目标网站的IP地址被目标网站封禁的风险，保证爬取目标网站的IP地址的高可用性。通过递归爬取待爬取主题和与待爬取主题关联的统计信息，可将递归爬取得到的内容信息结构化显示，使得用户可以直观清晰地查看爬取得到的内容。

图3是根据一示例性实施例示出的一种分布式爬取内容的方法的流程图，如图3所示，分布式爬取内容的方法包括以下步骤。

在步骤S31中，检测针对爬虫页面的输入信息，输入信息包括待爬取内容标识。

在步骤S32中，根据待爬取内容标识，从互联网协议IP池中分配与待爬取内容标识对应的IP地址。

在步骤S33中，通过与目标网站信息对应的IP地址，递归爬取目标网站信息，或者递归爬取目标网站信息、待爬取主题和与待爬取主题关联的统计信息。

在步骤S34中，在接收到从目标网站返回的状态码时，确定访问目标网站的IP地址为无效IP地址。

本公开中，状态码可以表征爬取待爬取主题和与待爬取主题关联的统计信息失败。

一种实施方式中，为了实时掌握IP池中IP地址访问目标网站的可用性，可根据接收的目标网站返回的状态码，来判断访问目标网站的IP地址是否为可用IP。

例如，根据待爬取内容标识，请求与待爬取内容标识相对应的目标网站后，目标网站返回状态码“404”，则表示未能访问到目标网站，由此可以判断出访问目标网站的IP地址不可用。

并且，为了实时掌握通过IP池中IP地址，是否能正确的爬取到爬取内容信息时，可根据接收到的从目标网站返回的访问目标网站的IP地址与请求目标网站的IP地址的一致性，进行判断。例如针对待爬取主题为“女性娱乐话题”进行爬取，请求可爬取到“女性娱乐话题”目标网站后，从目标网站返回的访问目标网站的统一资源定位符(Uniform ResourceLocator，URL)为请求“时事新闻”的主题页面的URL，即访问目标网站的IP地址与请求目标网站的IP地址不一致，由此可以判断出目标网站针对访问主题“女性娱乐话题”的链接为死链，通过访问目标网站的IP地址不能正确的爬取到爬取内容信息，访问目标网站的IP地址与爬取内容信息不匹配。

在步骤S35中，在爬虫页面显示爬取内容信息。

在本公开的示例性实施例中，通过可访问目标网站的IP地址访问目标网站时，可接收到从目标网站返回的状态码，并根据接收的状态码，可确定IP地址为无效IP地址。进而可以实时掌握IP池中IP地址访问目标网站的可用性，提高爬虫效率。

以下将结合实际应用，对本公开实施例提供的分布式爬取内容的方法进行详细说明。

图4是根据一示例性实施例示出的一种应用本公开实施例提供的分布式爬取内容的方法的爬取内容的过程示意图。如图4所示，分布式爬取内容的过程中，提供用户可视化操作功能、调度功能、查看访问链接信息功能、递归爬取功能、存储功能、通知爬取结果功能以及显示功能的等。

在图4中，可视化操作界面为用户提供可视化操作功能，用户可以输入待爬取内容标识，分布式爬虫系统获取到用户输入的待爬取内容标识后，通过调度功能，从IP池中调度与待爬取目标网站信息对应的IP地址。通过递归爬取功能，根据访问目标网站的IP地址分布式访问目标网站，并通过机器分类算法递归爬取待爬取主题以及待爬取主题中需要统计的信息。通过查看访问链接信息功能，可查看接收到的从目标网站返回的状态码，或者查看接收到的从目标网站返回的访问目标网站的IP地址，与请求目标网站的IP地址进行对比，判断是否能访问到目标网站。得到爬取的爬取内容信息后，为了方便技术人员对爬取的内容做进一步的分析，通过存储功能可对爬取后的内容进行存储。并且，在得到爬取的爬取内容信息后，通过通知爬取结果功能将爬取的爬取内容信息通知给用户。并通过显示功能在可视化操作界面显示爬取内容信息。

由此，通过本公开实施例提供的分布式爬取内容的方法爬取内容时，不需要根据爬取的内容，编写对应的爬虫程序，可实现对互联网公开数据进行简单、易操作的爬虫，提升用户体验。

基于相同的发明构思，本公开还提供一种分布式爬取内容的装置。

可以理解的是，本公开实施例提供的应用控制装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图5是根据一示例性实施例示出的一种分布式爬取内容的装置框图100。参照图5，分布式爬取内容的装置包括：

检测单元101，被配置为检测针对爬虫页面的输入信息，输入信息包括待爬取内容标识；

爬取单元102，被配置为响应于检测到输入信息，爬取待爬取内容标识对应的爬取内容信息；

显示单元103，被配置为在爬虫页面显示爬取内容信息。

在一示例中，待爬取内容标识包括：待爬取目标网站信息。

在一示例中，待爬取内容标识包括：待爬取目标网站信息、待爬取主题以及待爬取主题中需要统计的信息。

在一示例中，爬取单元102采用如下方式爬取待爬取内容标识对应的爬取内容信息：根据待爬取内容标识，从互联网协议IP池中分配与待爬取内容标识对应的IP地址；通过IP地址，递归爬取目标网站信息；或者递归爬取目标网站信息、待爬取主题和与待爬取主题关联的统计信息。

在一示例中，显示单元103采用如下方式在爬虫页面显示爬取得到的信息：在爬虫页面显示爬取到的爬取主题以及与爬取主题关联的统计信息，以及在爬虫页面显示爬取到的爬取主题的访问链接，和爬取到统计信息的访问子链接。

在一示例中，检测单元101还被配置为：在接收到从目标网址返回的状态码时，确定IP地址为无效IP地址，状态码表征爬取待爬取主题和与待爬取主题关联的统计信息失败。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于分布式爬取内容的装置600的框图。例如，装置600可以被提供为一服务器。参照图6，装置600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述方法。

装置600还可以包括一个电源组件626被配置为执行装置600的电源管理，一个有线或无线网络接口660被配置为将装置600连接到网络，和一个输入输出(I/O)接口668。装置600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

进一步可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种分布式爬取内容的方法，其特征在于，所述方法包括：

检测针对爬虫页面的输入信息，所述输入信息包括待爬取内容标识，所述待爬取内容标识包括目标网站信息；

响应于检测到所述输入信息，爬取待爬取内容标识对应的爬取内容信息；

响应于接收到的从目标网站返回的访问目标网站的IP地址与请求目标网站的IP地址不一致，确定所述访问目标网站的IP地址为无效IP地址；

在所述爬虫页面显示所述爬取内容信息。

2.根据权利要求1所述的方法，其特征在于，

所述待爬取内容标识还包括：待爬取主题和所述待爬取主题中需要统计的信息。

3.根据权利要求2所述的方法，其特征在于，所述响应于检测到所述输入信息，爬取待爬取内容标识对应的爬取内容信息，包括：

根据所述待爬取内容标识，从互联网协议IP池中分配与所述待爬取内容标识对应的IP地址；

通过所述IP地址，递归爬取所述目标网站信息；或者

递归爬取所述目标网站信息、所述待爬取主题和与所述待爬取主题关联的统计信息。

4.根据权利要求3所述的方法，其特征在于，所述在所述爬虫页面显示所述爬取内容信息，包括：

在所述爬虫页面显示爬取到的爬取主题以及与所述爬取主题关联的统计信息，以及

在所述爬虫页面显示爬取到的所述爬取主题的访问链接，和爬取到所述统计信息的访问子链接。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在接收到状态码时，确定所述IP地址为无效IP地址，所述状态码表征爬取所述待爬取主题和与所述待爬取主题关联的统计信息失败。

6.一种分布式爬取内容的装置，其特征在于，所述装置包括：

检测单元，被配置为检测针对爬虫页面的输入信息，所述输入信息包括待爬取内容标识，所述待爬取内容标识包括目标网站信息；

爬取单元，被配置为响应于检测到所述输入信息，爬取待爬取内容标识对应的爬取内容信息；

所述检测单元单元，还被配置为响应于接收到的从目标网站返回的访问目标网站的IP地址与请求目标网站的IP地址不一致，确定所述访问所述目标网站的地址为无效IP地址；

显示单元，被配置为在所述爬虫页面显示所述爬取内容信息。

7.根据权利要求6所述的分布式爬虫装置，其特征在于，

所述待爬取内容标识还包括：待爬取主题以及所述待爬取主题中需要统计的信息。

8.根据权利要求7所述的分布式爬虫装置，其特征在于，所述爬取单元响应于检测到所述输入信息，采用如下方式爬取待爬取内容标识对应的爬取内容信息：

通过所述IP地址，递归爬取所述目标网站信息；或者

9.根据权利要求8所述的装置，其特征在于，所述显示单元采用如下方式在所述爬虫页面显示所述爬取内容信息：

10.根据权利要求8所述的分布式爬虫装置，其特征在于，所述检测单元还被配置为：

在接收到从所述目标网址返回的状态码时，确定所述IP地址为无效IP地址，所述状态码表征爬取所述待爬取主题和与所述待爬取主题关联的统计信息失败。

11.一种分布式爬取内容的装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1-5中任一项所述的分布式爬取内容的方法。

12.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-5中任意一项所述的分布式爬取内容的方法。