CN113836450A

CN113836450A - 一种基于可视化操作获取xpath的数据接口生成方法

Info

Publication number: CN113836450A
Application number: CN202111436066.1A
Authority: CN
Inventors: 刘绍军; 邓明亮; 刘亚欧
Original assignee: Leizhi Technology Group Sichuan Co ltd
Current assignee: Leizhi Technology Group Sichuan Co ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2021-12-24
Anticipated expiration: 2041-11-30
Also published as: CN113836450B

Abstract

本发明公开了一种基于可视化操作获取XPATH的数据接口生成方法，涉及XPATH获取技术领域，解决现有技术不能适用于不同网页结构的问题，包括以下步骤：依据输入的目标网页地址下载该网页的数据结构，并将其在系统的可视化界面进行展示；在可视化界面的参数配置页面添加要抓取的数据，并录入数据类型,数据类型为列表类型或数值类型或字符串类型；在可视化界面展示目标网页，光标移动到要抓取的数据的位置后得到标签，点击标签获取数据的XPATH地址；基于要抓取的数据的XPATH根据要抓取的值属性完成数据抓取，并生成对外的API接口地址；本发明可视化且适用性广的优点。

Description

一种基于可视化操作获取XPATH的数据接口生成方法

技术领域

本发明涉及XPATH获取技术领域，更具体的是涉及基于可视化操作获取XPATH的数据接口生成方法。

背景技术

XPATH即为XML路径语言，它是一种用来确定XML文档中某部分位置的语言。XPATH基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPATH的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型，但是XPATH很快的被开发者采用来当作小型查询语言。XPATH 使用路径表达式来选取 XML文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。路径表达式是从一个XML节点，即当前的上下文节点到另一个节点、或一组节点的书面步骤顺序，这些步骤以“/”字符分开。

目前各行业大数据应用实现的第一步是从众多信息系统和数据库系统中获取基础数据。目前主流的采集方式有接口调用采集、数据包获取采集和网页信息采集。基于传统的数据采集方式，建设过程中需要使用原系统的数据接口，过程中出现了众多问题，如原系统数据接口不开放、数据无接口、原开发厂商不配合、协调周期长等，这直接增大了数据融合的难度。随着网络爬虫技术的发展，虽可以实现对系统数据的精准抓取，但针对不同的系统需要定制化的开发，增加了开发的人力和时间成本。

因为不同的系统有不同的网页结构，需要获取的数据的XPATH各不相同。而每一个XPATH都需要专业的技术人员利用专用的工具对网页的XPATH进行定位获取，然后搜集该系统的XPATH进行定制化开发。

发明内容

本发明的目的在于：解决现有技术不能适用于不同网页结构的问题。为了解决上述技术问题，本发明提供一种基于可视化操作获取XPATH的数据接口生成方法。

本发明为了实现上述目的具体采用以下技术方案：

一种基于可视化操作获取XPATH的数据接口生成方法，包括以下步骤：

步骤S1：依据输入的目标网页地址下载该网页的数据结构，并将其在系统的可视化界面进行展示；

步骤S2：在可视化界面的参数配置页面添加要抓取的数据，并录入数据类型，数据类型为列表类型或数值类型或字符串类型；

步骤S3：在可视化界面展示目标网页，光标移动到要抓取的数据的位置后得到标签，点击标签获取数据的XPATH地址；

步骤S4：根据要抓取的数据的值属性和XPATH完成数据抓取，并生成对外的API接口地址。

优选地，在所述步骤S1中下载该网页的数据结构前判断目标网页是否需要配置登录模板，若是则配置登录模板，若否则不进行配置;登录模板包括用于目标网页登录的用户名和密码。

优选地，所述配置登录模板具体包括以下步骤：

步骤S11：在登录模板配置页面中输入目标系统的用户名和密码；

步骤S12：在登录模板配置页面中输入目标系统的用户名控件和密码控件的XPATH地址；

步骤S13：在登录模板配置页面中输入登录按钮的XPATH地址；

步骤S14：将用户名和密码传入selenium中完成模拟登陆；

步骤S15：保存cookies到数据库。

优选地，在步骤S2的录入操作前判断是否需要登录，若是则采用所述登录模板执行登录操作，若否则不执行登录操作。

优选地，在所述步骤S2中采用所述登录模板执行登录操作的具体方法为：通过对应的所述登录模板，使用所述cookies并加载到当前selenium中。

优选地，在所述步骤S2中，录入的数据类型不是列表类型，所述步骤S3中，获取数据的XPATH地址的方法具体包括以下步骤：

步骤S301：获取被点击的标签及其父标签；

步骤S302：递归获取父标签的父标签，直至获取顶层的<html>标签，得到要抓取的数据的XPATH。

优选地，在所述步骤S2中，录入的数据类型是列表类型，所述步骤S3中，获取数据的XPATH地址的方法具体包括以下步骤：

步骤S311：获取被点击的标签及其父标签；

步骤S312：递归获取父标签的父标签，直至获取顶层的<html>标签，得到数据所在行的行XPATH，所述行XPATH为所述目标网页中每一行数据的初始XPATH；

步骤S313：获取所述目标网页中每一个数据所在的行数和列数，获取第一行数据中每一列数据的列标签；

步骤S314：获取每个数据的XPATH，具体方法为，在初始XPATH后拼接数据所在行的行数，得到数据带行数的XPATH；在数据带行数的XPATH后拼接该数据对应列标签，得到数据的XPATH，所述对应列标签为第一行数据中该数据所在列的数据的列标签。

优选地，所述步骤S4中数据抓取的具体方法为：在所述要抓取的数据的XPATH后添加所述值属性的取值操作。

优选地，所述值属性包括文本属性、超链接属性和标题属性；文本属性的所述取值操作为/text()；超链接属性的所述取值操作为/@href；标题属性的所述取值操作为/@title。

本发明的有益效果如下：

本发明的适用范围广，可以通过该系统可实现按需获取XPATH并对目标系统进行数据爬取，极大的提升了数据采集的效率；针对不同的数据类型指定抓取方法，适用范围广，可实现对70%的系统或网站实施XPATH定位和数据的爬取或推送；并且具有可视化界面，方便观察数据抓取的过程以及自定义数据属性；直接在可视化窗口显示目标网页，能对各种结构的网页进行下载展示操作，兼容性强；还降低了数据采集定制化开发的工作量，节省了人力成本和时间成本。

附图说明

图1是本发明的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提供一种基于可视化操作获取XPATH的数据接口生成方法，包括以下步骤：

步骤S2：在可视化界面的参数配置页面添加要抓取的数据，并录入数据类型,数据类型为列表类型或数值类型或字符串类型；

进一步地，在所述步骤S1中下载该网页的数据结构前判断目标网页是否需要配置登录模板，若是则配置登录模板，若否则不进行配置;登录模板包括用于目标网页登录的用户名和密码。

作为本实施例的优选方案，所述配置登录模板操作具体包括以下步骤：

步骤S13：在登录模板配置页面中输入登录按钮的XPATH地址；

步骤S14：将用户名和密码传入selenium中完成模拟登陆；

步骤S15：保存cookies到数据库。

另外，在步骤S2的录入操作前判断是否需要，登录，若是则采用所述登录模板执行登录操作，若否则不执行登录操作。

具体地，在步骤S2中，采用所述登录模板执行登录操作的具体方法为：通过对应的所述登录模板，使用所述cookies并加载到当前selenium中。

此外，在所述步骤S2中，当录入的数据类型不是列表类型的时候，所述步骤S3中，获取数据的XPATH地址的方法具体包括以下步骤：

步骤S301：获取被点击的标签及其父标签；

步骤S302：递归获取父标签的父标签，直至获取顶层的<html>标签；具体为，根据XPATH的属性和定义可知，递归标签按照自顶层标签到被点击的标签的路径顺序依次进行组合即得到要抓取的数据的XPATH。

作为一种优选方案，在所述步骤S2中，录入的数据类型是列表类型，由于列表类型包含的数据可能较多，故在本实施例的所述步骤S3中，获取数据的XPATH地址的方法具体包括以下步骤：

步骤S311：获取被点击的标签及其父标签；

步骤S312：递归获取父标签的父标签，直至获取顶层的<html>标签，得到数据所在行的行XPATH，所述行XPATH为所述目标网页中每一行数据的初始XPATH；具体为，根据XPATH的属性和定义可知，递归标签按照自顶层标签到被点击的标签的路径顺序依次进行组合即得到要抓取的数据的初始XPATH，特别说明的是，由于页面内的每一行数据的标签路径均相同，所以同一页面中每一行数据的初始XPATH相同；

步骤S314：获取每个数据的XPATH，具体方法为，在初始XPATH后拼接数据所在行的行数，得到数据带行数的XPATH；

作为一个案例，/html/body/div/table/tbody/tr 是该页面的初始XPATH，也就是说起初每一行都被赋予了该一个初始XPATH，对第一行的数据进行处理时，则在该初始XPATH后拼接1，/html/body/div/table/tbody/tr[1]这个XPATH末尾的1就代表第一行，以此类推即可；

在数据带行数的XPATH后拼接该数据对应列标签，得到数据的XPATH，所述对应列标签为第一行数据中该数据所在列的数据的列标签。

具体来说，以上步骤可以通过一个循环实现所有数据的XPATH的获取，即先获取总行数，然后从第一行数据开始依次执行，直到执行完最后一行位置，具体地，在本实施例中获取总行数的方法可以是：获取相同初始XPATH的个数，由于每一行对应一个XPATH，同一页中每一行的初始XPATH相同，相同初始XPATH的个数即为本行的行数。

基于以上方案，所述步骤S4中数据抓取的具体方法为：在所述要抓取的数据的XPATH后添加所述值属性的取值操作。

特别地，所述值属性包括文本属性、超链接属性和标题属性；文本属性的所述取值操作为/text()；超链接属性的所述取值操作为/@href；标题属性的所述取值操作为/@title。在此说明，实际的值属性类型还有很多，本实施例采用了其中三种作为取值操作的说明方案，在实际使用中，针对其他值属性，也可以根据各种值属性的取值操作方法将取值操作拼接在要抓取的数据的XPATH后。

针对现有技术存在的缺陷，本发明通过该系统可实现按需获取XPATH并对目标系统进行数据爬取，极大的提升了数据采集的效率。

特别说明的是，XPATH是用于指向XML文档中位置，selenium是一种web应用程序测试的工具，可直接运行于浏览器中，可实现模拟户浏览器操作。

Claims

1.一种基于可视化操作获取XPATH的数据接口生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于可视化操作获取XPATH的数据接口生成方法，其特征在于，在所述步骤S1中下载该网页的数据结构前判断目标网页是否需要配置登录模板，若是则配置登录模板，若否则不进行配置;登录模板包括用于目标网页登录的用户名和密码。

3.根据权利要求2所述的一种基于可视化操作获取XPATH的数据接口生成方法，其特征在于，所述配置登录模板具体包括以下步骤：

步骤S13：在登录模板配置页面中输入登录按钮的XPATH地址；

步骤S14：将用户名和密码传入selenium中完成模拟登陆；

步骤S15：保存cookies到数据库。

4.根据权利要求3所述的一种基于可视化操作获取XPATH的数据接口生成方法，其特征在于，在步骤S2的录入操作前判断是否需要登录，若是则采用所述登录模板执行登录操作，若否则不执行登录操作。

5.根据权利要求4所述的一种基于可视化操作获取XPATH的数据接口生成方法，其特征在于，在所述步骤S2中采用所述登录模板执行登录操作的具体方法为：通过对应的所述登录模板，使用所述cookies并加载到当前selenium中。

6.根据权利要求1所述的一种基于可视化操作获取XPATH的数据接口生成方法，其特征在于，在所述步骤S2中，录入的数据类型不是列表类型，所述步骤S3中，获取数据的XPATH地址的方法具体包括以下步骤：

步骤S301：获取被点击的标签及其父标签；

7.根据权利要求1所述的一种基于可视化操作获取XPATH的数据接口生成方法，其特征在于，在所述步骤S2中，录入的数据类型是列表类型，所述步骤S3中，获取数据的XPATH地址的方法具体包括以下步骤：

步骤S311：获取被点击的标签及其父标签；

8.根据权利要求1所述的一种基于可视化操作获取XPATH的数据接口生成方法，其特征在于，所述步骤S4中数据抓取的具体方法为：在所述要抓取的数据的XPATH后添加所述值属性的取值操作。

9.根据权利要求8所述的一种基于可视化操作获取XPATH的数据接口生成方法，其特征在于，所述值属性包括文本属性、超链接属性和标题属性；文本属性的所述取值操作为/text()；超链接属性的所述取值操作为/@href；标题属性的所述取值操作为/@title。