CN111459806A

CN111459806A - 一种基于plsa主题模型和em算法确定网页元素主题的方法

Info

Publication number: CN111459806A
Application number: CN202010185732.8A
Authority: CN
Inventors: 杨龙祥; 贾秀秀; 刘玉珍
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-28
Anticipated expiration: 2040-03-17
Also published as: CN111459806B

Abstract

本发明公开了一种基于PLSA主题模型和EM算法确定网页元素主题的方法，该方法包括：(1)选取待测网页的网页元素对应的主题，找出主题关键词集合和主题集合；(2)对待测网页的网页元素进行预处理；(3)根据获取到的所述主题集合，按照PLSA模型公式训练出主题‑词矩阵以及网页元素‑主题矩阵，(4)采用改进的EM算法求解出网页元素中对应概率最大的主题，作为该网页元素的主题；(5)当网页结构或元素属性改变而造成网页状态变化后，重新获取当前DOM，重新对当前网页内的网页元素的主题进行判定，并生成网页元素XPath定位器。本发明根据改进EM算法判定出网页元素的主题，自动生成对应的XPath绝对路径，提高了网页元素定位器在自动化测试中的鲁棒性。

Description

一种基于PLSA主题模型和EM算法确定网页元素主题的方法

技术领域

本发明涉及Web自动化测试中一种网页元素定位技术领域，具体涉及一种基于PLSA主题模型和EM算法确定网页元素主题的方法。

背景技术

Web开发阶段中，为了保证Web应用的质量，测试的手段和方法越来越多。目前很多自动化测试框架和工具在一定程度上实现了自动化，同时在一定程度上提高了整个软件的测试开发效率，但是在此期间也出现了很多亟需解决的问题。

基于用户页面自动化测试中，对于质量良好的Web测试脚本，目前还不能用自动化测试工具完全自动化生成脚本。在生成测试脚本的过程中，需要进行Web网页元素定位，但目前这些自动化测试脚本中很多存在着页面元素定位失效的问题。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于PLSA主题模型和EM 算法确定网页元素主题的方法，对于网页动态页面采用JavaScript、Ajax等技术完成Web 页面的局部刷新，当使用者触发页面中的事件后，将调取此事件绑定的JavaScript代码，接着浏览器解析的DOM结构和内容将动态修改，这造成动态页面元素定位器失效，本方法用于解决该技术问题。

技术方案：本发明提供一种基于PLSA主题模型和EM算法确定网页元素主题的方法，该方法包括：

(1)选取待测网页的网页元素对应的主题，找出主题关键词集合和主题集合；

(2)对待测网页的网页元素进行预处理，生成元素-词的关系；

(3)根据获取到的所述主题集合，按照PLSA模型公式训练出主题-词矩阵以及网页元素-主题矩阵，

(4)采用改进的EM算法求解出网页元素中对应概率最大的主题，作为该网页元素的主题；

(5)当网页结构或元素属性改变而造成网页状态变化后，重新获取当前DOM，重新对当前网页内的网页元素的主题进行判定，并生成网页元素XPath定位器。

进一步地，包括：

所述步骤(1)中，找出主题关键词集合和主题集合包括：

使用网络爬虫技术模拟浏览器获取待测网页的源代码，再进行解析HTML代码，得到网页元素的主题关键词和主题集合，分别为主题集合：T＝{主题t₁，主题t₂…，主题t_n}，主题关键词：主题t₁：{关键词k₁₁，关键词_k12…，关键词_k1p}，主题t₂：{关键词k₂₁，关键词k₂₂…，关键词k_2q}，…，主题t_n：{关键词k_n1，关键词k_n2…，关键词 k_nm}，其中，n为待测网页中主题的总数，p为主题t₁下的主题关键词的总数，q为主题t₂下的主题关键词的总数，m为主题t_n下的主题关键词的总数。

进一步地，包括：

所述步骤(2)，具体包括：

(21)从待测网页的网页元素与主题相关联的属性值中筛选主题关键词集合中的关键词以及网页元素的主题关键词，该主题下的所有网页元素样本关键词组成的集合就是主题关键词集合；

(22)计算各个主题关键词的频率，具体为：待测网页的网页元素e中主题关键词 w出现的频率表示为：

其中，n_w代表网页元素e中关键词w出现的次数，n_e代表网页元素e中全部关键词的出现次数。

进一步地，包括：

所述步骤(3)具体包括：

(31)根据得到的主题关键词集合W，网页元素集合E，主题集合T，根据PLSA 模型公式训练出主题-词P(w_j|t_k)和网页元素-主题P(t_k|e_i)；

(32)计算网页元素中的生成概率，如下式所示：

进一步地，包括：

所述改进的EM算法包括：

(41)计算Q函数：

其中，Ym＝(w_0i,w_1i)：观测数据集，若y_i来自额外的0，记w_0i＝1，否则w_0i＝0；同样的y_i若来自额外1，记w_1i＝1，否则w_1i＝0，这样就可以给出完全数据集，其中 Y₀＝(y_i,X_i,Z_i)为观测数据，X和Z是协变量；β和γ₀,γ₁是回归系数，记

表示在第t步迭代中参数θ估计的当前值；

表示该期望值的计算是在条件分布下算出的；

分别表示数据中过多的0、1和2所占总体数据的比例；

而且有：

(42)将观测数据集分为子集Y₀₁,Y₀₂，划分的规则：把每个观测随机的分到两个子集Y₀₁,Y₀₂的两者的任意一个中去；

(43)接下来在两个样本集Y₀₁,Y₀₂将Q函数极大化，可以利用条件极大化的办法实现；利用迭代方程得到：

具体的如下：

令

则

同样的

重复(42)和(43)步，直到算法收敛得到全局最优解。

进一步地，包括：

所述步骤(4)中，采用改进的EM算法求解出网页元素中对应概率最大的主题，具体包括：

(44)对θ进行迭代进行极大似然估计，如下式所示：

其中，n为迭代θ的次数，L为网页元素样本集的词分布的对数似然函数；

(45)主题-词P(w_j|t_k)的概率和等于1，网页元素-主题P(tk|ei)的概率和等于1：

(46)由于关键词之间相互独立，所以网页元素的词分布如下式所示：，

故网页元素样本集的词分布的对数似然函数，如下式所示：

其中，n(e_i)代表网页元素e中全部关键词的出现次数，其有取值范围，每次取的值不同，会有一个编号来表示，M、N、K就是取值的最大值，n(e_i)就是从1取到这个最大值，这三个值大小可以是相同也可以是不同，n(w_j,e_i)表示词w_j在网页元素e_i中出现的次数、P(e_i,w_j)是词w_j在网页元素e_i中的词频率；

(47)接下来将网页元素样本集的词分布对数似然函数l(θ)代入式(7)中，通过条件极大化的方法对L(θ)函数极大化，得到在第k步迭代中参数θ随机部的估计当前值，也即是参数θ随机部的全局最优解。

(44)计算此时t的后验概率，利用贝叶斯公式，得到如下：

(48)将计算得到的t代入式(8)，求解相应的P(w_j|t_k)和P(t_k|e_i)

由于n(e_i)∝P(e_i)，简化公式(17)，由于式(15)得到参数θ随机部的全局最优解，接下来的计算max l(θ)就转化为一个优化问题；

对应的目标函数为：

约束条件为：

(49)采用拉格朗日乘数法，可以估算得到P(w_j|t_k)和P(t_k|e_i)。

(410)把P(w_j|t_k)和P(t_k|e_i)再代入公式(16)，循环迭代得到隐变量主题t的后验概率P(t_k|e_i,w_j)

其中，P(t_k|e_i)代表网页元素的主题分布，进而把网页元素e_i对应概率最大的主题t_k作为该网页元素的主题。

有益效果：本发明与现有技术相比，其显著优点是：本发明根据PLSA模型公式和改进的EM算法判定出网页元素的主题，自动生成对应的XPath绝对路径，在一定程度上的提高了网页元素定位器在自动化测试中的鲁棒性；并且，本发明所提出的基于PLSA 主题模型和改进后的EM算法确定网页元素主题方法，在Web静态页面的应用，具有需要的样本较少，速度较快，准确率较高等特点；在Web动态页面的应用中，将普遍使用的文本PLSA主题模型结合EM改进算法进行求解，有效实现了动态页面的网页元素主题确定，相对于传统的元素定位方法，该方法能够有效的判定网页元素主题，增强网页元素的定位能力，同时也在一定程度上提高了Web测试效率。

附图说明

图1为本发明所述的方法流程图；

图2为特征词提取算法；

图3为PLSA模型图；

图4为基于网页元素主题识别的Xpath定位器生成算法框架。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

本发明在windows7系统Web页面上进行实现，使用Python语言，采取Selenium 结合WebDriver的方式模拟浏览器获取网页源代码，主要流程图如图1所示，动态页面元素定位主要包括四个步骤：

步骤一：选取待测的Web应用网页的网页元素主题，找出主题关键词集合。具体包括以下子步骤：

第1步：确定form表单中的网页元素主题。

第2步：使用网络爬虫技术模拟浏览器获取待测网页的源代码，再进行解析HTML代码，得到网页元素的主题关键词和主题集合，分别为主题集合：T＝{主题t₁，主题t₂…，主题t_n}，主题关键词：主题t₁：{关键词k₁₁，关键词_k12…，关键词_k1p}，主题t₂：{关键词k₂₁，关键词k₂₂…，关键词k_2q}，…，主题t_n：{关键词k_n1，关键词k_n2…，关键词k_nm}，其中，n为待测网页中主题的总数，p为主题t₁下的主题关键词的总数，q为主题t₂下的主题关键词的总数，m为主题t_n下的主题关键词的总数。

步骤二：对待测网页的网页元素进行预处理，生成元素-词的矩阵。具体包括以下子步骤：

第1步：从网页元素与主题相关联的属性值中筛选主题关键词集合中的词和网页元素的重要属性值，其是为了筛选和确定网页元素的关键词。

爬虫脚本得到的这些关键词不是全部一致的，但是是相近的，所以可以用确定关键词去统一代替。该主题下的所有网页元素样本关键词组成的集合就是主题关键词集合。算法如图2所示。

第2步：计算主题关键词的频率次数，并替换网页元素属性值中的缩写词，避免影响PLSA模型判定网页元素的主题。

网页元素e中关键词w出现的频率：

其中，n_w代表网页元素e中关键词w的次数；n_e代表网页元素e中全部关键词的出现次数。

步骤三：如图3所示，根据获取到的所述主题集合，按照PLSA模型公式训练出主题-词以及网页元素-主题。通过EM算法求解出网页元素中对应概率最大的主题，PLSA 模型如图3所示。具体包括以下子步骤：

第1步：由步骤一得到的词集合W，网页元素集合E，主题集合T，根据PLSA模型公式训练出主题-词P(w_j|t_k)、网页元素-主题P(t_k|e_i)。

1)计算

其中，P(w_j|e_i)是根据步骤二计算得到的关键词频率。关键词w_j在网页元素e_i中出现的次数n(w_j,e_i)和网页元素e_i中获取到的关键词已知，通过以下公式计算得到。

2)计算网页元素中的生成概率，如下式所示。

因P(e_i)为常量，P(w_j|t_k)与P(t_k|e_i)是未知量，故θ＝(P(w_j|t_k)，P(t_k|e_i))就是需要估计的参数值，并且最大化θ值。

第2步：对EM算法改进：

传统EM算法的缺陷会使θ估计收敛到局部极大值，因此本发明在传统的算法中进行改进，使得EM算法能够找到全局最优解，也即是在确定网页元素主题过程中找到最适用于模型中的最优解。因为随机EM算法的随机部，使得估计结果每次都会收敛到不一样的极大似然估计上，对求出的全局最优解提供了保证，具体算法包括三个大步骤：

1)计算Q函数：

其中，Q函数就是Q(θ,θ_i)，是求解em算法公式常见的表示，是完全数据(观测变量，隐变量)的对数似然函数关于在给定观测数据[公式]和当前参数[公式]下对未观测数据的条件概率分布的期望，不需要注释；

Ym＝(w_0i,w_1i)：观测数据集，若y_i来自额外的0，记w_0i＝1，否则w_0i＝0；同样的y_i若来自额外1，记w_1i＝1，否则w_1i＝0，这样就可以给出完全数据集，其中 Y₀＝(y_i,X_i,Z_i)为观测数据，X和Z是协变量；β和γ₀,γ₁是回归系数，记

其中，

表示在第t步迭代中参数θ估计的当前值；

表示该期望值的计算是在条件分布下算出的。

分别表示数据中过多的0、1和2所占总体数据的比例。

而且有：

2)将观测数据集分为子集Y₀₁,Y₀₂，划分的规则：把每个观测随机的分到两个子集Y₀₁,Y₀₂的两者的任意一个中去。

3)接下来在两个样本集Y₀₁,Y₀₂将Q函数极大化，可以利用条件极大化的办法实现。利用迭代方程得到：

具体的如下：

令

则

同样的

重复(2)(3)步，直到算法收敛得到全局最优解。

第3步：对于待估计参数中的隐变量主题t，将采用上文中改进的EM算法，对θ进行迭代进行极大似然估计，如下式所示(并没有看出下文采用了上述改进的EM算法，需如有进行标注和说明：之前用文字代替了，可能不能直接看出来，现在新增了步骤，)。

1)主题-词P(w_j|t_k)的概率和等于1，网页元素-主题概率和等于1：

2)因为关键词之间相互独立，所以网页元素的词分布如下式所示：

故网页元素样本集的词分布的对数似然函数，如下式所示：

3)接下来将网页元素样本集的词分布对数似然函数l(θ)代入式(7)中，通过条件极大化的方法对L(θ)函数极大化，得到在第k步迭代中参数θ随机部的估计当前值，也即是参数θ随机部的全局最优解。

4)计算此时t的后验概率，利用贝叶斯公式，得到如下：

5)将计算得到的t代入式(14)，求解相应的P(w_j|t_k)和P(t_k|e_i)

由于n(e_i)∝P(e_i)，因此公式(17)有部分可以舍去，由于式(15)得到参数θ随机部的全局最优解，接下来的计算max l(θ)就转化为一个优化问题。

6)目标函数为：

约束条件为：

7)采用拉格朗日乘数法，可以估算得到P(w_j|t_k)和P(t_k|e_i)。

8)把P(w_j|t_k)和P(t_k|e_i)再代入公式(16)，循环迭代得到P(t_k|e_i,w_j)

其中，P(t_k|e_i)代表网页元素的主题分布，本文把网页元素e_i对应概率最大的主题t_k作为该网页元素的主题。

步骤四：当网页结构或元素属性改变而造成网页状态变化后，重新获取当前DOM，重新对当前网页内的网页元素主题进行判定，并生成网页元素XPath定位器。如图4所示。

Claims

1.一种基于PLSA主题模型和EM算法确定网页元素主题的方法，其特征在于，该方法包括：

(2)对待测网页的网页元素进行预处理，生成元素-词的关系；

2.根据权利要求1所述的基于PLSA主题模型和EM算法确定网页元素主题的方法，其特征在于，所述步骤(1)中，找出主题关键词集合和主题集合包括：

使用网络爬虫技术模拟浏览器获取待测网页的源代码，再进行解析HTML代码，得到网页元素的主题关键词和主题集合，分别为主题集合：T＝{主题t₁，主题t₂…，主题t_n}，主题关键词：主题t₁：{关键词k₁₁，关键词_k12…，关键词_k1p}，主题t₂：{关键词k₂₁，关键词k₂₂…，关键词k_2q}，…，主题t_n：{关键词k_n1，关键词k_n2…，关键词k_nm}，其中，n为待测网页中主题的总数，p为主题t₁下的主题关键词的总数，q为主题t₂下的主题关键词的总数，m为主题t_n下的主题关键词的总数。

3.根据权利要求1所述的基于PLSA主题模型和EM算法确定网页元素主题的方法，其特征在于，所述步骤(2)，具体包括：

(22)计算各个主题关键词的频率，具体为：待测网页的网页元素e中主题关键词w出现的频率表示为：