CN111368241A

CN111368241A - 基于XPath的网页元素识别方法

Info

Publication number: CN111368241A
Application number: CN202010145583.2A
Authority: CN
Inventors: 龚燕玲; 潘宇; 汪玉林
Original assignee: Suzhou Digital Power Education Technology Co ltd
Current assignee: Suzhou Digital Power Education Technology Co ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-03
Anticipated expiration: 2040-03-05
Also published as: CN111368241B

Abstract

本发明公开了一种基于XPath的网页元素识别方法，网页元素识别方法分为三个部分，第一部分最底层元素属性的XPath集合T1，第二部分寻找能找到目标元素的最具有唯一性的层级，并生成这一层级属性的XPath集合T2，第三部分就是将T1和T2里面的XPath结合起来。本发明提供了全新的XPath生成方法，这个方法可以缩小目标元素的范围，增加找到元素的成功率和准确率。同时，也增加了网页测试，流程自动化，数据抓取等作业中的鲁棒性。

Description

基于XPath的网页元素识别方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于XPath的网页元素识别方法。

背景技术

网页元素定位在爬虫抓取网页数据、开发自动化流程、编写网页测试脚本等方面都有重要运用。但是由于网页元素的准确率不高，这些技术的发展受到限制，容易造成数据抓取失败或者自动化流程中断等现象。目前寻找网页元素的方法有以下几种：

1)机器视觉技术：主要用计算机来模拟人的视觉功能，从客观事物的图像中提取信息，进行处理并加以理解，最终用于实际检测、测量和控制。但是如果网页上的图像发生改变，就很可能导致元素识别失败。

2)Link定位：在HTML中寻找特定的文本链接，但是有时候目标元素可能没有链接。

3)class属性定位：根据HTML的class属性去寻找目标元素。但是这种方法找到的元素是一个大类，不唯一，不够精确。

4)name属性定位：根据HTML的name属性去寻找目标元素。但是name属性可以不唯一，也就是说，有时候找到的多个元素name相同，但并不是我们想要的目标元素。

5)属性定位：根据HTML的ID属性去寻找目标元素，因为HTML中的ID必须是唯一的。但它不能解决元素没有ID或者动态ID的情况

实际应用中，网页元素定位大多采用HTML中的id、name以及class等属性来定位元素，但由于动态id、name属性不唯一等原因，往往不能准确地找到目标元素。

发明内容

本发明的目的在于克服传统技术中存在的上述问题，提供一种基于XPath的网页元素识别方法。

为实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现：

一种基于XPath的网页元素识别方法，包括如下步骤：

(1)生成最底层元素属性的XPath；

S101从网页结构最底层提取编程人员选择元素的属性；

S102根据提取出的属性族，生成XPath，根据公式计算生成XPath的总数，

其中C表示组合，n表示总元素数，m表示选择元素数；

S103将此处生成的XPath集合称为T1，共有K条不同的XPath；

(2)寻找能找到目标元素的最具有唯一性的层级，并生成这一层级属性的XPath集合T2；

S104寻找从最底层到第一层出现过的所有属性，并计算每个属性出现的次数；

S105找到出现次数最少属性所在的层级；

S106提取出该层级的所有属性，根据排列组合的方式生成XPath，将此处生成的XPath集合称为T2，共有J条不同的XPath；

(3)将T1和T2里面的XPath结合起来；

S107将T1和T2里面的XPath结合起来，结合之后就有K×J条新的XPath集合；

S108在生成的所有XPath中，删除掉那些不能找到目标元素的XPath，剩下的即为较小的XPath有效集合范围。

进一步地，步骤S101中，属性包括HTML中的id、name、class。

进一步地，步骤S101中，属性的数量≥2个。

进一步地，步骤S105中，该层级出现次数为1。

进一步地，步骤S108中，当XPath有效集合范围内元素数量≥1个时，使用机器视觉识别系统进行校验；当XPath有效集合范围内元素数量为0时，使用机器视觉识别系统作为备用措施，保证流程的继续进行。

进一步地，所述机器视觉识别系统包括查找单元、图像截取单元、识别单元和控件录制单元，GUI控件的属性信息被预先录制并具有唯一标识；GUI控件为非标准控件，且GUI控件的父窗口为可识别的标准控件；

控件录制单元，适于预先录制GUI控件的属性信息，属性信息包括：GUI控件的父窗口的标题和/或类名，GUI控件相对于父窗口的位置坐标以及GUI控件对应的第一图像；控件录制单元在预先录制GUI控件的属性信息时，具体适于：将鼠标移动到所述GUI控件上，指定图像半径后，捕获鼠标相对于父窗口的坐标作为所述GUI控件相对于父窗口的位置坐标，截取以鼠标位置为中心，图像半径范围内的图像作为所述第一图像；

查找单元，适于根据属性信息中的父窗口标题和/或父窗口类名查找GUI控件所在的父窗口；

图像截取单元，适于根据GUI控件相对于父窗口的位置坐标，截取预设尺寸和位置的第二图像；

识别单元，适于计算所述第二图像与第一图像之间的相似度并根据所述相似度对所述GUI控件进行识别。

本发明的有益效果是：

本发明提供了全新的XPath生成方法，这个方法可以缩小目标元素的范围，增加找到元素的成功率和准确率。同时，也增加了网页测试，流程自动化，数据抓取等作业中的鲁棒性。

当然，实施本发明的任一产品并不一定需要同时达到以上的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程框图；

图2为本发明中机器视觉识别系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-2所示，本实施例为一种基于XPath的网页元素识别方法，包括如下步骤：

(1)生成最底层元素属性的XPath；

S101从网页结构最底层提取编程人员选择元素的属性；属性包括HTML中的id、name、class。属性的数量≥2个；

其中C表示组合，n表示总元素数，m表示选择元素数；

S103将此处生成的XPath集合称为T1，共有K条不同的XPath；

S105找到出现次数最少属性所在的层级，该层级出现次数最好为1；

(3)将T1和T2里面的XPath结合起来；

本实施例中，当XPath有效集合范围内元素数量≥1个时，使用机器视觉识别系统进行校验；当XPath有效集合范围内元素数量为0时，使用机器视觉识别系统作为备用措施，保证流程的继续进行。

本实施例中，机器视觉识别系统包括查找单元、图像截取单元、识别单元和控件录制单元，GUI控件的属性信息被预先录制并具有唯一标识；GUI控件为非标准控件，且GUI控件的父窗口为可识别的标准控件；

控件录制单元，适于预先录制GUI控件的属性信息，属性信息包括：GUI控件的父窗口的标题和/或类名，GUI控件相对于父窗口的位置坐标以及GUI控件对应的第一图像；控件录制单元在预先录制GUI控件的属性信息时，具体适于：将鼠标移动到GUI控件上，指定图像半径后，捕获鼠标相对于父窗口的坐标作为GUI控件相对于父窗口的位置坐标，截取以鼠标位置为中心，图像半径范围内的图像作为第一图像；

本实施例的一个具体应用为：本实施例提供了全新的XPath生成方法，这个方法可以缩小目标元素的范围，增加找到元素的成功率和准确率。同时，也增加了网页测试，流程自动化，数据抓取等作业中的鲁棒性。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于XPath的网页元素识别方法，其特征在于，包括如下步骤：

(1)生成最底层元素属性的XPath；

S101从网页结构最底层提取编程人员选择元素的属性；

其中C表示组合，n表示总元素数，m表示选择元素数；

S103将此处生成的XPath集合称为T1，共有K条不同的XPath；

S105找到出现次数最少属性所在的层级；

(3)将T1和T2里面的XPath结合起来；

2.根据权利要求1所述的基于XPath的网页元素识别方法，其特征在于：步骤S101中，属性包括HTML中的id、name、class。

3.根据权利要求1所述的基于XPath的网页元素识别方法，其特征在于：步骤S101中，属性的数量≥2个。

4.根据权利要求1所述的基于XPath的网页元素识别方法，其特征在于：步骤S105中，该层级出现次数为1。

5.根据权利要求1所述的基于XPath的网页元素识别方法，其特征在于：步骤S108中，当XPath有效集合范围内元素数量≥1个时，使用机器视觉识别系统进行校验；当XPath有效集合范围内元素数量为0时，使用机器视觉识别系统作为备用措施，保证流程的继续进行。

6.根据权利要求5所述的基于XPath的网页元素识别方法，其特征在于：所述机器视觉识别系统包括查找单元、图像截取单元、识别单元和控件录制单元，GUI控件的属性信息被预先录制并具有唯一标识；GUI控件为非标准控件，且GUI控件的父窗口为可识别的标准控件；