CN113741766A

CN113741766A - 一种面向网页代码的可视化采集工具

Info

Publication number: CN113741766A
Application number: CN202111311548.4A
Authority: CN
Inventors: 朱春华; 王涛; 刘超; 曾繁诚; 张恒振
Original assignee: Shandong Jerei Digital Technology Co Ltd
Current assignee: Shandong Jerei Digital Technology Co Ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2021-12-03
Anticipated expiration: 2041-11-08
Also published as: CN113741766B

Abstract

本发明涉及电数字数据处理技术领域，具体涉及一种面向网页代码的可视化采集工具，包括web客户端，web客户端包括能加载于任一网页的可视化操作页面和任务配置页面，可视化操作页面包括新建任务按钮，拟采集网页显示区，悬浮于拟采集网页显示区域内、当鼠标移动至拟采集网页上可点选区域后高亮显示的若干个拟采集区域，显示拟采集区域拟采集结果的数据预览区域，对拟采集区域的拟采集结果满意欲保存拟采集结果的保存按钮，对拟采集区域的拟采集结果不满意欲放弃该拟采集结果的取消按钮；数据预览区域又分为文本预览区、URL预览区和XPath预览区。与现有技术相比，本发明能有效降低使用者的技能门槛。

Description

一种面向网页代码的可视化采集工具

技术领域

本发明涉及电数字数据处理技术领域，具体涉及一种面向网页代码的可视化采集工具。

背景技术

随着信息化技术的普及，数据采集和分析已经成为搜索引擎、数据分析师、自媒体等从业人员的工作常态。

目前已有的采集方法及工具是通过指定网址，使用代码开发设置采集内容区域的正则、HTML标签前后缀截取等方式采集页面中的内容，进一步的在代码中设置分页或添加调度任务，最终完成整站的内容采集。由于不同网站，网页代码的差异性，需要持续的进行分析和代码调整，数据采集效率较低；同时因为网页代码的不规范性，常规标准化的采集配置也无法保证数据精准采集，大概率出现数据不匹配的情况。

所以目前已有的采集工具，均需依赖掌握网页代码的专业技术人员来进行操作实施，对于非专业技术人员来说，并不是很便利。对于非专业技术人员而言，需花费大量的时间学习网页代码相关技术后才能够进行操作，因此仍是一种存在门槛的使用工具，这对于有数据采集需求的相关从业人员来说，达不到数据采集的快速配置和准确采集的效果。

发明内容

为克服现有技术的缺陷或缺陷之一，解决并达到数据采集快速配置、数据采集精准化以及降低数据采集的技术门槛，本发明提供一种面向网页的可视化采集工具，与现有技术不同的是，包括web客户端，web客户端包括能加载于任一网页的可视化操作页面和任务配置页面，可视化操作页面包括新建任务按钮，拟采集网页显示区，悬浮于拟采集网页显示区域内、当鼠标移动至拟采集网页上可点选区域后高亮显示的若干个拟采集区域，显示拟采集区域拟采集结果的数据预览区域，对拟采集区域的拟采集结果满意欲保存拟采集结果的保存按钮，对拟采集区域的拟采集结果不满意欲放弃该拟采集结果的取消按钮；数据预览区域又分为文本预览区、URL预览区和XPath预览区。

进一步地，还包括任务管理服务器和数据采集服务器； web客户端与任务管理服务器互联，任务管理服务器与数据采集服务器互联；并通过如下流程进行采集：

S1. web客户端新建基础采集任务，配置并发送拟采集网页的URL及各采集任务参数到任务管理服务器；

S2. 任务管理服务器接收拟采集网页的URL经预处理得到网页的HTML源代码，HTML源代码清洗后生成唯一ID标识并返回给web客户端；

S3. web客户端根据接收到的HTML源代码和唯一ID标识进入可视化操作页面配置采集规则；

S4. web客户端在采集规则配置完成后，发送唯一ID标识和完整的采集规则至任务管理服务器保存；

S5.数据采集服务器从任务管理服务器获得唯一ID标识和采集规则，据此执行采集任务；

S6.数据采集服务器将执行采集任务产生的数据写入数据库和内存中，并将该数据以文件形式传送给web客户端。

S1的详细过程是：web客户端启动后首先进入可视化操作页面，点击可视化操作页面上的新建任务按钮，进入任务配置页面，任务配置页面显示拟采集任务表单，拟采集任务表单必填的基础参数包括：拟采集任务自定义名称、拟采集网站的URL、页面类型，选填参数包括自定义COOKIE、分页规则；拟采集任务表单填写完成后点击下一步，所述web客户端将上述各项参数值发送至所述任务管理服务器。

S2的详细过程是：任务管理服务器接收所述web客户端的各项的基础参数后，对拟采集网站的URL进行预处理，得到拟采集网站的HTML源代码，然后对拟采集网站的HTML源代码进行清洗，清洗HTML源代码中的标签及加入事先定义的脚本、样式文件，并把清洗后的HTML源代码和拟采集任务基础参数写入数据库，基础参数写入数据库后生成的唯一ID标识，并把唯一ID标识和清洗后的HTML源代码响应给所述web客户端。

S3的详细过程是： web客户端接收到返回的清洗后的HTML源代码和唯一ID标识后， web客户端跳转进入可视化操作页面并使用<iframe>标签嵌入清洗后的HTML源代码，嵌入HTML源代码后，在可视化操作页面中的拟采集网页显示区展现原网页的页面内容；在拟采集网页显示区使用鼠标点选的方式选择原网页的页面中的拟采集区域。

S4的详细过程是：每个拟采集区域点选后，在数据预览区域的文本预览区、URL预览区和XPath预览区展示拟采集区域的文本、链接和XPath规则，并以递归循环HTML源代码DOM结构的方式，找到XPath规则节点相似组并在拟采集区域中高亮显示；若展示的结果符合采集者的要求，按保存按钮将XPath规则和唯一ID标识作为采集任务发送至任务管理服务器，否则点击取消按钮结束任务；

任务管理服务器接收唯一ID标识和XPath规则，从其数据库中查询唯一ID标识指向的采集任务，并将XPath规则写入到采集任务数据中并将成功信息响应返回给web客户端的可视化操作页面；

web客户端的可视化操作页面接收到成功响应后，页面跳转至任务配置页面，并提示使用者立即执行还是延后执行采集任务；

选择立即执行，任务配置页面携带该任务的唯一ID标识异步发送请求至任务管理服务器，并提示任务已启动；选择延后执行，在延后时间到来后任务配置页面携带该任务的唯一ID标识异步发送请求至任务管理服务器，并提示任务已启动；

重复流程S1- S4，管理服务器可以得到多个任务。

S5的详细过程是：所述任务管理服务器接收任务的唯一ID标识，并根据唯一ID标识从数据库中获取任务完整配置信息，发送数据至数据采集服务器，数据采集服务器启用异步线程机制执行采集任务。

S6的详细过程是：数据采集服务器接收任务完整配置信息后，获取并预处理配置信息中的拟采集URL得到网页HTML源代码；根据配置信息中的XPath规则，循环递归HTML源代码DOM结构得到节点相似组列表，并以特征处理得到节点相似组列表中的URL、文本信息并写入内存、数据库；采集任务执行期间，如果配置信息中分页规则非空，则循环预处理采集URL并以不同页数预处理不同页数的HTML源代码，最终以获取到重复数据为任务停止信号，任务停止后在数据采集服务器本地生成新文件，并将内存数据取出写入文件返回文件路径至任务管理服务器，任务管理服务器根据文件路径生成在线预览/下载URL返回web客户端。

与现有技术相比，本发明的有益效果在于：

1、本发明提供一种面向网页代码的可视化采集工具，配置采集任务的主要方式为鼠标点选网页中需要采集的区域，能够有效降低使用者的技能门槛。

2、本发明提供的可视化采集工具中的鼠标点选配置采集规则，能够解决市面上大部分的采集工具使用模型特征处理，由于特征样本缺失，导致特征处理无效或失效的问题，提高对不同网页代码识别的兼容性。

附图说明

图1是具体实施例中拟采集网页的示意图。

图2是本发明web客户端加载于图1所示拟采集网页后的可视化操作页面的示意图。

具体实施方式

以附图1的拟采集网页为例，图1中新闻1-5是需要的采集的数据区域。常规采集方法使用HTML标签正则、HTML标签前后缀截取的方式采集区域数据，使用者仍需具备一定的编码基础才能使用此类方法。还有一部分技术是使用节点特征获取、比对的采集方法，但是对页面中出现的“Section”、“新闻”、“Feature”三种节点相似组并存的情况下极有可能出现误判，采集到的并不是最终需要的“新闻”节点相似组内容。

另，部分网站使用<li>作为数据的列表节点标签，还有的网站是用<div>、<a>、<span>、<p>等作为数据的列表节点标签，使得不同网站的代码标签无法达成统一，即使是特征匹配也会存在样本缺失导致采集失败的状况。

综上所述，对于采集存在的部分问题，目前已有的正则匹配、标签截取、页面模型特征等采集方式都不能有效解决。

本发明提供一种面向网页的可视化采集工具，不论是否具备编程基础能力的使用者均可“傻瓜式”采集网页数据。

下面将结合俯图对本发明作进一步详细描述，以下实施例仅用于说明本发明，但不能用来限制本发明的范围。

本实施例的面向网页的可视化采集工具包括web客户端、任务管理服务器、数据采集服务器。所述web客户端与任务管理服务器互联，任务管理服务器与数据采集服务器互联。

web客户端提供了一系列面向网页的可视化采集工具页面，其中包含任务配置页面和可视化操作页面。如图2所示，可视化操作页面包括新建任务按钮600，拟采集网页显示区100，悬浮于拟采集网页显示区域100内、当鼠标移动至拟采集网页上可点选区域后高亮显示的若干个拟采集区域200，显示拟采集区域200拟采集结果的数据预览区域300，对拟采集区域的拟采集结果满意欲保存拟采集结果的保存按钮400，对拟采集区域的拟采集结果不满意欲放弃该拟采集结果的取消按钮500；数据预览区域300又分为文本预览区301、URL预览区302和XPath预览区303。

web客户端启动后首先进入可视化操作页面，点击可视化操作页面上的新建任务按钮600，进入任务配置页面，任务配置页面显示拟采集任务表单，拟采集任务表单必填的基础参数包括：拟采集任务自定义名称、拟采集网站的URL、页面类型，选填参数包括自定义COOKIE、分页规则；拟采集任务表单填写完成后点击下一步，所述web客户端将上述各项参数值发送至所述任务管理服务器。

其中，参数项中的COOKIE为可选项，如果网页需要在请求头携带特定的COOKIE才可以访问，则需要提供相对应的COOKIE键值对。

另外，分页规则目的是，大量网站网页中的数据存在多个页数的情况，此时可按照网页URL的翻页规则使用${page}占位符的方式替代URL中的页数，以此来获取单个页面多个页数的数据，例：http://www.网址.com/news/list-${page}.html。

另外，页面类型为多类型单选项，提供列表页和内容页两种类型。其中，列表页如图1所是一种包含多个数据列表的网页，有多个列表相似数据并存。内容页则是没有数据列表，更多是对不同字段的分散采集。

本采集方法将以图1的新闻列表页作为采集任务为例进行详细描述。

参数项填写后，所述web客户端将参数值以form表单形式发送至任务管理服务器。

任务管理服务器接收所述web客户端的各项的基础参数后，对拟采集网站的URL进行预处理，得到拟采集网站的HTML源代码，然后对拟采集网站的HTML源代码进行清洗，清洗HTML源代码中的标签及加入事先定义的脚本、样式文件，并把清洗后的HTML源代码和拟采集任务基础参数写入数据库，基础参数写入数据库后生成的唯一ID标识，并把唯一ID标识和清洗后的HTML源代码响应给所述web客户端。

预处理期间如参数值COOKIE不为空，则在预处理上述网页URL时，在请求头添加所填COOKIE键值对。

为使图2中的可视化操作页面中具备可视化鼠标点选效果，所以针对预处理得到的HTML源代码进行代码清洗及加入自定义脚本和样式文件。

代码清洗部分是使用正则匹配所有<a>超链接标签并修改href属性为s-href，目的是禁止在图2的拟采集网页显示区域100显示的拟采集网页中点击任意<a>超链接标签触发跳转事件。

为所有<a>超链接标签增加自定义class类名，如原<a>超链接标签中包含class属性为“link”，那么清洗后的结果为“link data-link”。

完整清洗示例如下：

原标签：<a class=”link” href=”/news/detail/101.html” target=”_blank”>title</a>

清洗后结果为：<a class=”link data-link” s-href=”/news/detail/101.html”target=”_blank”>title</a>

进一步的，使用正则匹配替换的方式在上述HTML源代码中的<head>...</head>代码间增加自定义javascript脚本和style样式文件，其中，javascript脚本中包含如下事件：

①图2可视化操作页面的拟采集网页显示区域100中点击节点获取节点标签“s-link”属性中的链接、节点文本并把数据写入到图2顶部数据预览区域300中展示；

②图2可视化操作页面的拟采集网页显示区域100中点击节点获取节点XPath，并根据XPath全路径匹配节点相似组，并为所有节点相似组增加自定义class属性“select-link”。

其中，style样式文件包含样式：

①图2可视化操作页面具备鼠标点击<a>标签时触发的选中样式，包括标签区域块加入深色背景色值、标签区域块边框。

②为上述javascript事件中节点相似组增加的“select-link”属性增加选中样式，具体样式同前。

web客户端中的任务配置页面接收上述HTML源代码和唯一ID标识数据，并携带上述数据跳转至可视化操作页面。

使用<iframe>标签嵌入上述HTML源代码，嵌入上述HTML源代码后，在可视化操作页面拟采集网页显示区域100中展现拟采集的网页原网页的页面内容，具体实现效果如图2中标号为100的区域。

基于加入的脚本和样式文件，使用者可以通过鼠标点选的方式选择页面中拟采集数据的区域。

在鼠标点击选择后，基于上述为HTML源代码加入的自定义脚本事件，触发递归并获取当前选择区域的DOM节点完整 XPath路径的事件，得到完整XPath路径，如：/html/body/section/div/div/div[3]/ul/li[1]/a，为取得用户选择采集数据的相似节点组。如图2，通过鼠标点击选择新闻1节点并取得节点链接、节点标题。

为取得新闻2-5的节点，根据上述完整XPtah路径，依次从后往前去除最后一位XPath节点索引、节点标签，并在每次去除后查找页面中是否存在节点相似组，假设在去除至/html/body/section/div/div/div[3]/ul/li时读取到页面中存在多个节点相似组并且节点特征、节点属性相似则停止并触发此时读取到的所有节点的click事件，为节点依次增加class属性为“select-link”的属性值并增加选中样式。

将上述经过去除得到最终的XPath规则暂存，以及将节点相似组中提取出的链接、文本展示在图2顶部的数据预览区域300中。

确认无误后选择保存，可视化操作页面拟采集网页显示区域100将暂存的XPtah规则和上述唯一ID标识请求并发送至任务管理服务器。

任务管理服务器接收上述web客户端发送的唯一ID标识、XPath规则，从数据库中查询唯一ID标识指向的采集任务，并将XPath规则写入到采集任务数据中并将成功信息响应返回给web客户端的可视化操作页面。

所述web客户端中可视化操作页面的拟采集网页显示区域100接收到成功响应，将页面跳转回任务配置页面，并提示使用者是否执行采集任务。

选择立即执行，任务配置页面携带该任务的唯一ID标识异步发送请求至任务管理服务器，并提示任务已启动；

选择延后执行，在延后时间到来后任务配置页面携带该任务的唯一ID标识异步发送请求至任务管理服务器，并提示任务已启动；

若要采集其他网页，可重复上述流程，管理服务器可以得到多个任务。

任务管理服务器接收任务唯一ID标识，并根据唯一ID标识从数据库中获取任务完整配置信息，发送数据至数据采集服务器，数据采集服务器启用异步线程机制执行采集任务。

数据采集服务器接收任务完整配置信息后，获取并预处理配置信息中的拟采集URL得到网页HTML源代码；根据配置信息中的XPath规则，循环递归HTML源代码DOM结构得到节点相似组列表，并以特征处理得到节点相似组列表中的URL、文本信息并写入内存、数据库；采集任务执行期间，如果配置信息中分页规则非空，则循环预处理采集URL并以不同页数预处理不同页数的HTML源代码，最终以获取到重复数据为任务停止信号，任务停止后在数据采集服务器本地生成新文件，并将内存数据取出写入文件返回文件路径至任务管理服务器，任务管理服务器根据文件路径生成在线预览/下载URL返回web客户端。

任务执行完成后，优先从内存中取出执行采集的数据，并以列表形式依次生成并写入到log日志文件、Excel表格中并返回数据文件的预览地址和下载地址。

以上实施例仅为本发明的技术方案而非对其限制，应当指出，对于本技术领域的技术人员来说，在不脱离本发明技术原理的前提下，还可以对本发明的具体实施方式进行修改或等同替换，而未脱离本发明精神和范围的任何修改或等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向网页的可视化采集工具，其特征在于：包括web客户端，web客户端包括能加载于任一网页的可视化操作页面和任务配置页面，可视化操作页面包括新建任务按钮（600），拟采集网页显示区（100），悬浮于拟采集网页显示区域（100）内、当鼠标移动至拟采集网页上可点选区域后高亮显示的若干个拟采集区域（200），显示拟采集区域（200）拟采集结果的数据预览区域（300），对拟采集区域的拟采集结果满意欲保存拟采集结果的保存按钮（400），对拟采集区域的拟采集结果不满意欲放弃该拟采集结果的取消按钮（500）；数据预览区域（300）又分为文本预览区（301）、URL预览区（302）和XPath预览区（303）。

2.根据权利要求1所述的一种面向网页的可视化采集工具，其特征在于：还包括任务管理服务器和数据采集服务器；所述web客户端与任务管理服务器互联，任务管理服务器与数据采集服务器互联，并通过如下流程进行采集：

S1.web客户端新建基础采集任务，配置并发送拟采集网页的URL及各采集任务参数到任务管理服务器；

S2.任务管理服务器接收拟采集网页的URL经预处理得到网页的HTML源代码，HTML源代码清洗后生成唯一ID标识并返回给web客户端；

S3.web客户端根据接收到的HTML源代码和唯一ID标识进入可视化操作页面配置采集规则；

S4.web客户端在采集规则配置完成后，发送唯一ID标识和完整的采集规则至任务管理服务器保存；

3.根据权利要求2所述的一种面向网页的可视化采集工具，其特征在于：S1的详细过程是：web客户端启动后首先进入可视化操作页面，点击可视化操作页面上的新建任务按钮（600），进入任务配置页面，任务配置页面显示拟采集任务表单，拟采集任务表单必填的基础参数包括：拟采集任务自定义名称、拟采集网站的URL、页面类型，选填参数包括自定义COOKIE、分页规则；拟采集任务表单填写完成后点击下一步，所述web客户端将上述各项参数值发送至所述任务管理服务器。

4.根据权利要求2所述的一种面向网页的可视化采集工具，其特征在于：S2的详细过程是：任务管理服务器接收所述web客户端的各项的基础参数后，对拟采集网站的URL进行预处理，得到拟采集网站的HTML源代码，然后对拟采集网站的HTML源代码进行清洗，清洗HTML源代码中的标签及加入事先定义的脚本、样式文件，并把清洗后的HTML源代码和拟采集任务基础参数写入数据库，基础参数写入数据库后生成的唯一ID标识，并把唯一ID标识和清洗后的HTML源代码响应给所述web客户端。

5.根据权利要求2所述的一种面向网页的可视化采集工具，其特征在于：S3的详细过程是： web客户端接收到返回的清洗后的HTML源代码和唯一ID标识后， web客户端跳转进入可视化操作页面并使用<iframe>标签嵌入清洗后的HTML源代码，嵌入HTML源代码后，在可视化操作页面中的拟采集网页显示区（100）展现原网页的页面内容；在拟采集网页显示区（100）使用鼠标点选的方式选择原网页的页面中的拟采集区域（200）。

6.根据权利要求2所述的一种面向网页的可视化采集工具，其特征在于：S4的详细过程是：每个拟采集区域（200）点选后，在数据预览区域（300）的文本预览区（301）、URL预览区（302）和XPath预览区（303）展示拟采集区域（200）的文本、链接和XPath规则，并以递归循环HTML源代码DOM结构的方式，找到XPath规则节点相似组并在拟采集区域（200）中高亮显示；若展示的结果符合采集者的要求，按保存按钮（400）将XPath规则和唯一ID标识作为采集任务发送至任务管理服务器，否则点击取消按钮（500）结束任务；

重复流程S1- S4，管理服务器可以得到多个任务。

7.根据权利要求2所述的一种面向网页的可视化采集工具，其特征在于：S5的详细过程是：所述任务管理服务器接收任务的唯一ID标识，并根据唯一ID标识从数据库中获取任务完整配置信息，发送数据至数据采集服务器，数据采集服务器启用异步线程机制执行采集任务。

8.根据权利要求2所述的一种面向网页的可视化采集工具，其特征在于：S6的详细过程是：数据采集服务器接收任务完整配置信息后，获取并预处理配置信息中的拟采集URL得到网页HTML源代码；根据配置信息中的XPath规则，循环递归HTML源代码DOM结构得到节点相似组列表，并以特征处理得到节点相似组列表中的URL、文本信息并写入内存、数据库；采集任务执行期间，如果配置信息中分页规则非空，则循环预处理采集URL并以不同页数预处理不同页数的HTML源代码，最终以获取到重复数据为任务停止信号，任务停止后在数据采集服务器本地生成新文件，并将内存数据取出写入文件返回文件路径至任务管理服务器，任务管理服务器根据文件路径生成在线预览/下载URL返回web客户端。