CN110968752A

CN110968752A - 数据采集方法、装置、存储介质及电子设备

Info

Publication number: CN110968752A
Application number: CN201811141123.1A
Authority: CN
Inventors: 李春光; 张诗茹; 仲丽君; 孙秀丹; 何珊
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2020-04-07

Abstract

本申请涉及数据采集方法、装置、存储介质及电子设备，属于网页数据采集技术领域。本申请通过获取目标网页的网页结构，根据网页结构对目标网页的页面内容进行选择采集，能够准确地采集用户需要的数据，使得采集到的数据在准确性和可靠性方面能够满足用户的需求。

Description

数据采集方法、装置、存储介质及电子设备

技术领域

本申请属于网页数据采集技术领域，具体涉及数据采集方法、装置、存储介质及电子设备。

背景技术

互联网作为人类历史最大的知识仓库，随着开放API(Application ProgrammingInterface缩写，应用程序编程接口)、SOA(Service Oriented Architecture缩写，面向服务的架构)越来越普及，越来越多的信息向我们开放，以供人们根据需求进行采集。比如，在相关技术中，可通过网络爬虫实现网页数据的自动化收集，收集时，网络爬虫一端不断解析网页，以聚合互联网上的数据，另一端则向各种各样的应用输送数据。虽然网络爬虫可以爬取大量的网页数据，但是却存在着如下问题，爬虫爬取的数据中携带有大量用户不需要的数据，导致数据的准确度和可靠性难以满足用户要求。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供数据采集方法、装置、存储介质及电子设备，以能够准确地采集用户需要的数据。

为实现以上目的，本申请采用如下技术方案：

第一方面，

本申请提供了一种数据采集方法，包括：

获取目标网页的网页结构；

根据所述网页结构，对所述目标网页的页面内容进行选择采集。

进一步地，

所述获取目标网页的网页结构，包括：

获取所述目标网页的网页源码；

对所述网页源码进行处理并得到所述网页结构。

进一步地，

所述对所述网页源码进行处理并得到所述网页结构，具体包括：

通过基于视觉的网页分割算法，将所述网页源码分割成多个视觉块；

将所述多个视觉块输入至预先训练好的机器学习模型，以使所述机器学习模型对所述多个视觉块的类型进行判断，并根据判断出的所述多个视觉块的类型输出所述网页结构。

进一步地，

根据所述网页源码，建立所述目标网页的Dom树结构；

根据所述Dom树结构生成所述网页结构。

进一步地，

所述根据所述网页结构，对所述目标网页的页面内容进行选择采集，包括：

基于指定的标签类别，确定出所述网页结构中属于所述指定的标签类别的标签；

通过网络爬虫采集所述标签对应的页面内容。

进一步地，

所述通过网络爬虫采集所述标签对应的页面内容之前，所述方法还包括：

获取所述网页结构中指定内容的路径，检测所述路径，如果所述路径不为空，则将所述路径发送至所述网络爬虫，以使所述网络爬虫采集所述标签对应的页面内容。

进一步地，

如果所述路径为空，则在间隔指定时间后，重新获取所述路径。

进一步地，

如果重新获取的所述路径仍为空，则发送提示信息。

进一步地，

所述指定内容为标题。

进一步地，

将采集到的页面内容重新组合，并将重新组合后的页面内容添加到预设页面模板上，以形成新页面。

第二方面，

本申请提供了一种数据采集装置，包括：

获取模块，用于获取目标网页的网页结构；

采集模块，用于根据所述网页结构，对所述目标网页的页面内容进行选择采集。

进一步地，

所述获取模块，包括：

获取子模块，用于获取所述目标网页的网页源码；

处理子模块，用于对所述网页源码进行处理并得到所述网页结构。

进一步地，

所述处理子模块，具体用于：

进一步地，

所述处理子模块，具体用于：

根据所述网页源码，建立所述目标网页的Dom树结构；

根据所述Dom树结构生成所述网页结构。

进一步地，

所述采集模块包括：

确定子模块，用于基于指定的标签类别，确定出所述网页结构中属于所述指定的标签类别的标签；

采集子模块，用于通过网络爬虫采集所述标签对应的页面内容。

进一步地，

所述采集模块还包括：

检测子模块，用于获取所述网页结构中指定内容的路径，检测所述路径，如果所述路径不为空，则将所述路径发送至所述网络爬虫，以使所述网络爬虫采集所述标签对应的页面内容。

进一步地，

所述检测子模块，还用于：如果所述路径为空，则在间隔指定时间后，重新获取所述路径。

进一步地，

所述检测子模块，还用于：如果重新获取的所述路径仍为空，则发送提示信息。

进一步地，

所述指定内容为标题。

进一步地，所述装置还包括：

重组模块，用于将采集到的页面内容重新组合，并将重新组合后的页面内容添加到预设页面模板上，以形成新页面。

第三方面，

本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述的方法。

第四方面，

本申请提供了一种电子设备，包括：

如上述所述的计算机可读存储介质；以及

一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。

本申请采用以上技术方案，至少具备以下有益效果：

本申请通过获取网页结构，根据网页结构对网页的页面内容进行选择采集，能够准确地采集用户需要的数据，使得采集到的数据在准确性和可靠性方面能够满足用户的需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的数据采集方法的流程示意图；

图2为本申请一个实施例提供的获取目标网页的网页结构的流程示意图；

图3为本申请一个实施例提供的对所述网页源码进行处理并得到所述网页结构的流程示意图；

图4为本申请另一个实施例提供的对所述网页源码进行处理并得到所述网页结构的流程示意图；

图5为本申请一个实施例提供的根据所述网页结构，对所述目标网页的页面内容进行选择采集的流程示意图；

图6为本申请另一个实施例提供的根据所述网页结构，对所述目标网页的页面内容进行选择采集的流程示意图；

图7为本申请另一个实施例提供的数据采集方法的流程示意图；

图8为本申请一个实施例提供的数据采集装置的结构示意图；

图9为本申请一个实施例提供的获取模块的结构示意图；

图10为本申请一个实施例提供的采集模块的结构示意图；

图11为本申请另一个实施例提供的采集模块的结构示意图；

图12为本申请另一个实施例提供的数据采集装置的结构示意图；

图13为本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

图1为本申请一个实施例提供的数据采集方法的流程示意图，如图1所示，该数据采集方法包括如下步骤：

步骤S101、获取目标网页的网页结构。

该步骤中，得到目标网页的网页结构可实现对目标网页的不同部分内容进行的结构化展示，比如，网页的标题区、网页的正文区等等，进而可以利用网页结构实现准确定位到用户需求的内容。

图2为本申请一个实施例提供的获取目标网页的网页结构的流程示意图，如图2所示，该获取目标网页的网页结构包括如下步骤：

步骤S201、获取所述目标网页的网页源码。

在一个实施例中，网页源码可以是HTML源码。HTML，HyperText Markup Language缩写，超级文本标记语言，通过HTML能实现网页页面包含图片、链接，甚至音乐、程序等非文字元素。

在具体应用中，可以通过相关的网页源码采集工具获取网页源码。

步骤S202、对所述网页源码进行处理并得到所述网页结构。

以下通过相关具体实施例对上述步骤获取网页结构进行进一步说明。

图3为本申请一个实施例提供的对所述网页源码进行处理并得到所述网页结构的流程示意图，如图3所示，对所述网页源码进行处理并得到所述网页结构包括如下步骤：

步骤S301、通过基于视觉的网页分割算法，将所述网页源码分割成多个视觉块。

多个视觉块体现网页内容在展现上的视觉特征，能够脱离网页源码语法结构的束缚，对于语法结构复杂的网页源码来说，通过基于视觉的网页分割算法，将所述网页源码分割成多个视觉块，能够实现化繁为简。

步骤S302、将所述多个视觉块输入至预先训练好的机器学习模型，以使所述机器学习模型对所述多个视觉块的类型进行判断，并根据判断出的所述多个视觉块的类型输出所述网页结构。

可以理解的是，在将所述网页源码分割成多个视觉块后，存在的问题是，各个视觉块的类型是需要确定，比如，需要确定视觉块的类型是标题，还是正文，还是发布时间等待。

通过预先训练好的机器学习模型则可解决对视觉块类型的判断，并且根据对输入视觉块类型的判断，输出网页结构。

对于预先训练好的机器学习模型，可以事先配置好具体类型的视觉块，然后对机器学习模型进行训练获得。

综上，通过上述实施例方案获得的网页结构体现的是视觉方面的网页结构，根据网页结构中确定好类型的各个视觉块，能够简单准确地定位到用户需要采集的内容。

图4为本申请另一个实施例提供的对所述网页源码进行处理并得到所述网页结构的流程示意图，如图4所示，对所述网页源码进行处理并得到所述网页结构包括如下步骤：

步骤S401、根据所述网页源码，建立所述目标网页的Dom树结构；

步骤S402、根据所述Dom树结构生成所述网页结构。

上述实施例方案中，关于Dom，Document Object Model简称，中文为：文档对象模型。

实际应用中，从页面元素优化方面考虑，可利用抓包工具将对网页先进行动态渲染，再根据网页的网页源码建立Dom树结构，然后根据Dom树结构的层次来动态生成网页的结构。

步骤S102、根据所述网页结构，对所述目标网页的页面内容进行选择采集。

通过网页结构可实现将网页进行结构化处理，通过网页结构对网页的页面内容进行选择采集，能够实现用户对自己需求内容的准确定位下载。

图5为本申请一个实施例提供的根据所述网页结构，对所述目标网页的页面内容进行选择采集的流程示意图，如图5所示，所述根据所述网页结构，对所述目标网页的页面内容进行选择采集，包括如下步骤：

步骤S501、基于指定的标签类别，确定出所述网页结构中属于所述指定的标签类别的标签；

步骤S502、通过网络爬虫采集所述标签对应的页面内容。

在具体应用中，指定的标签类别为用户需要采集内容的标签类别。

下述以HTML网页为例，对上述实施例方案进行进一步说明。

HTML标签包括标题标签<h1>，段落标签<p>，链接标签<a>等等。

在一个应用场景中，所述网页结构是通过步骤S301和步骤S302获得，是视觉上的网页结构，所述网页结构中的各个视觉部分具有相应的标签，比如，标题对应有标题标签<h1>，正文对应有段落标签<p>，链接对应有链接标签<a>等等。

如果用户需要采集的内容是标题和正文，相应地，指定的标签类别为<h1>和<p>。然后通过网络爬虫采集标签类别为<h1>和<p>对应的页面内容，采集到的内容及为用户想要的内容。

图6为本申请另一个实施例提供的根据所述网页结构，对所述目标网页的页面内容进行选择采集的流程示意图，如图6所示，所述根据所述网页结构，对所述目标网页的页面内容进行选择采集，还包括如下步骤：

步骤S500、获取所述网页结构中指定内容的路径，检测所述路径，如果所述路径不为空，则将所述路径发送至所述网络爬虫，以使所述网络爬虫采集所述标签对应的页面内容。

通过上述实施例步骤方案，在数据采集前，通过检测指定内容的路径，对数据是否能够采集到进行验证。

在一个实施例中，所述指定内容为标题。对网页内容来说，标题具有普适性，每个网页都会具有标题。首先对标签的路径进行检测，如果检测的路径不为空，则说明能够对相应的网页内容进行采集。

根据对指定内容的路径的检测结果进行采集页面内容，可避免因网页内容无法被采集，导致出现一直采集该网页内容的死循环发生，进而实现了对采集方案上的优化。

在一个实施例中，如果所述路径为空，则在间隔指定时间后，重新获取所述路径。

通过上述实施例方案，实现对所述路径是否真的为空进行验证。

在一个实施例中，如果重新获取的所述路径仍为空，则发送提示信息。

在具体应用中，该提示信息为采集数据过程中的异常信息，根据该提示信息可以对数据采集过程中的异常情况进行核对。

综上，通过获取网页结构，根据网页结构对网页的页面内容进行选择采集，能够准确地采集用户需要的数据，使得采集到的数据在准确性和可靠性方面能够满足用户的需求。

图7为本申请另一个实施例提供的数据采集方法的流程示意图，如图7所示，该数据采集方法还包括如下步骤：

步骤103、将采集到的页面内容重新组合，并将重新组合后的页面内容添加到预设页面模板上，以形成新页面。

通过上述实施例方案，将采集内容进行重新组合，形成新页面，该新页面用于展示给用户进行查看，用户可查看到自己所需要的数据，该数据准确可靠，能减少用户对数据筛选的工作量，进而实现为用户提供便利。

图8为本申请一个实施例提供的数据采集装置的结构示意图，如图8所示，该数据采集装置8包括：

获取模块81，用于获取目标网页的网页结构；

采集模块82，用于根据所述网页结构，对所述目标网页的页面内容进行选择采集。

图9为本申请一个实施例提供的获取模块的结构示意图，如图9所示，该获取模块81包括：

获取子模块811，用于获取所述目标网页的网页源码；

处理子模块812，用于对所述网页源码进行处理并得到所述网页结构。

进一步地，

所述处理子模块812，具体用于：

进一步地，

所述处理子模块812，具体用于：

根据所述网页源码，建立所述目标网页的Dom树结构；

根据所述Dom树结构生成所述网页结构。

图10为本申请一个实施例提供的采集模块的结构示意图，如图10所示，该采集模块82包括：

确定子模块821，用于基于指定的标签类别，确定出所述网页结构中属于所述指定的标签类别的标签；

采集子模块822，用于通过网络爬虫采集所述标签对应的页面内容。

图11为本申请另一个实施例提供的采集模块的结构示意图，如图11所示，该采集模块82还包括：

检测子模块820，用于获取所述网页结构中指定内容的路径，检测所述路径，如果所述路径不为空，则将所述路径发送至所述网络爬虫，以使所述网络爬虫采集所述标签对应的页面内容。

进一步地，

所述检测子模块820，还用于：如果所述路径为空，则在间隔指定时间后，重新获取所述路径。

进一步地，

所述检测子模块820，还用于：如果重新获取的所述路径仍为空，则发送提示信息。

进一步地，

所述指定内容为标题。

图12为本申请另一个实施例提供的数据采集装置的结构示意图，如图12所示，该数据采集装置8还包括：

重组模块83，用于将采集到的页面内容重新组合，并将重新组合后的页面内容添加到预设页面模板上，以形成新页面。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一示例性实施例中，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述的方法。

关于上述实施例中的计算机可读存储介质，其存储的计算机程序执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13为本申请一个实施例提供的电子设备的结构示意图，如图13所示，该电子设备13包括：

如上述所述的计算机可读存储介质1301；以及

一个或者多个处理器1302，用于执行所述计算机可读存储介质1301中的程序。

关于上述实施例中的电子设备，其处理器执行所述计算机可读存储介质中的程序的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据采集方法，其特征在于，包括：

获取目标网页的网页结构；

2.根据权利要求1所述的方法，其特征在于，

所述获取目标网页的网页结构，包括：

获取所述目标网页的网页源码；

对所述网页源码进行处理并得到所述网页结构。

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求2所述的方法，其特征在于，

根据所述网页源码，建立所述目标网页的Dom树结构；

根据所述Dom树结构生成所述网页结构。

5.根据权利要求1所述的方法，其特征在于，

通过网络爬虫采集所述标签对应的页面内容。

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

如果重新获取的所述路径仍为空，则发送提示信息。

9.根据权利要求6-8任一项所述的方法，其特征在于，

所述指定内容为标题。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.一种数据采集装置，其特征在于，包括：

获取模块，用于获取目标网页的网页结构；

12.根据权利要求11所述的装置，其特征在于，

所述获取模块，包括：

获取子模块，用于获取所述目标网页的网页源码；

13.根据权利要求12所述的装置，其特征在于，

所述处理子模块，具体用于：

14.根据权利要求12所述的装置，其特征在于，

所述处理子模块，具体用于：

根据所述网页源码，建立所述目标网页的Dom树结构；

根据所述Dom树结构生成所述网页结构。

15.根据权利要求11所述的装置，其特征在于，

所述采集模块包括：

16.根据权利要求15所述的装置，其特征在于，

所述采集模块还包括：

17.根据权利要求16所述的装置，其特征在于，

18.根据权利要求17所述的装置，其特征在于，

19.根据权利要求16-18任一项所述的装置，其特征在于，

所述指定内容为标题。

20.根据权利要求17所述的装置，其特征在于，所述装置还包括：

21.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-10任一项所述的方法。

22.一种电子设备，其特征在于，包括：

如权利要求21中所述的计算机可读存储介质；以及