CN111459806A - 一种基于plsa主题模型和em算法确定网页元素主题的方法 - Google Patents

一种基于plsa主题模型和em算法确定网页元素主题的方法 Download PDF

Info

Publication number
CN111459806A
CN111459806A CN202010185732.8A CN202010185732A CN111459806A CN 111459806 A CN111459806 A CN 111459806A CN 202010185732 A CN202010185732 A CN 202010185732A CN 111459806 A CN111459806 A CN 111459806A
Authority
CN
China
Prior art keywords
topic
webpage
theme
web page
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010185732.8A
Other languages
English (en)
Other versions
CN111459806B (zh
Inventor
杨龙祥
贾秀秀
刘玉珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010185732.8A priority Critical patent/CN111459806B/zh
Publication of CN111459806A publication Critical patent/CN111459806A/zh
Application granted granted Critical
Publication of CN111459806B publication Critical patent/CN111459806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于PLSA主题模型和EM算法确定网页元素主题的方法,该方法包括:(1)选取待测网页的网页元素对应的主题,找出主题关键词集合和主题集合;(2)对待测网页的网页元素进行预处理;(3)根据获取到的所述主题集合,按照PLSA模型公式训练出主题‑词矩阵以及网页元素‑主题矩阵,(4)采用改进的EM算法求解出网页元素中对应概率最大的主题,作为该网页元素的主题;(5)当网页结构或元素属性改变而造成网页状态变化后,重新获取当前DOM,重新对当前网页内的网页元素的主题进行判定,并生成网页元素XPath定位器。本发明根据改进EM算法判定出网页元素的主题,自动生成对应的XPath绝对路径,提高了网页元素定位器在自动化测试中的鲁棒性。

Description

一种基于PLSA主题模型和EM算法确定网页元素主题的方法
技术领域
本发明涉及Web自动化测试中一种网页元素定位技术领域,具体涉及一种基于PLSA主题模型和EM算法确定网页元素主题的方法。
背景技术
Web开发阶段中,为了保证Web应用的质量,测试的手段和方法越来越多。目前很多自动化测试框架和工具在一定程度上实现了自动化,同时在一定程度上提高了整个软件的测试开发效率,但是在此期间也出现了很多亟需解决的问题。
基于用户页面自动化测试中,对于质量良好的Web测试脚本,目前还不能用自动化测试工具完全自动化生成脚本。在生成测试脚本的过程中,需要进行Web网页元素定位,但目前这些自动化测试脚本中很多存在着页面元素定位失效的问题。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于PLSA主题模型和EM 算法确定网页元素主题的方法,对于网页动态页面采用JavaScript、Ajax等技术完成Web 页面的局部刷新,当使用者触发页面中的事件后,将调取此事件绑定的JavaScript代码,接着浏览器解析的DOM结构和内容将动态修改,这造成动态页面元素定位器失效,本方法用于解决该技术问题。
技术方案:本发明提供一种基于PLSA主题模型和EM算法确定网页元素主题的方法,该方法包括:
(1)选取待测网页的网页元素对应的主题,找出主题关键词集合和主题集合;
(2)对待测网页的网页元素进行预处理,生成元素-词的关系;
(3)根据获取到的所述主题集合,按照PLSA模型公式训练出主题-词矩阵以及网页元素-主题矩阵,
(4)采用改进的EM算法求解出网页元素中对应概率最大的主题,作为该网页元素的主题;
(5)当网页结构或元素属性改变而造成网页状态变化后,重新获取当前DOM,重新对当前网页内的网页元素的主题进行判定,并生成网页元素XPath定位器。
进一步地,包括:
所述步骤(1)中,找出主题关键词集合和主题集合包括:
使用网络爬虫技术模拟浏览器获取待测网页的源代码,再进行解析HTML代码,得到网页元素的主题关键词和主题集合,分别为主题集合:T={主题t1,主题t2…,主题tn},主题关键词:主题t1:{关键词k11,关键词k12…,关键词k1p},主题t2:{关键词k21,关键词k22…,关键词k2q},…,主题tn:{关键词kn1,关键词kn2…,关键词 knm},其中,n为待测网页中主题的总数,p为主题t1下的主题关键词的总数,q为主题t2下的主题关键词的总数,m为主题tn下的主题关键词的总数。
进一步地,包括:
所述步骤(2),具体包括:
(21)从待测网页的网页元素与主题相关联的属性值中筛选主题关键词集合中的关键词以及网页元素的主题关键词,该主题下的所有网页元素样本关键词组成的集合就是主题关键词集合;
(22)计算各个主题关键词的频率,具体为:待测网页的网页元素e中主题关键词 w出现的频率表示为:
Figure BDA0002414107280000021
其中,nw代表网页元素e中关键词w出现的次数,ne代表网页元素e中全部关键词的出现次数。
进一步地,包括:
所述步骤(3)具体包括:
(31)根据得到的主题关键词集合W,网页元素集合E,主题集合T,根据PLSA 模型公式训练出主题-词P(wj|tk)和网页元素-主题P(tk|ei);
(32)计算网页元素中的生成概率,如下式所示:
Figure BDA0002414107280000022
其中,P(ei)为待测网页中某网页元素ei的概率,P(wj|tk)为主题关键词wj在给定的主题tk中出现的概率,P(tk|ei)为主题tk在给定的网页元素ei中出现的概率;n为待测网页中主题的总数,P(tk|ei)和P(wj|tk)是未知量,故θ=(P(wj|tk),P(tk|ei))就是需要估计的参数值,并且使得最大化θ值。
进一步地,包括:
所述改进的EM算法包括:
(41)计算Q函数:
Figure BDA0002414107280000031
其中,Ym=(w0i,w1i):观测数据集,若yi来自额外的0,记w0i=1,否则w0i=0;同样的yi若来自额外1,记w1i=1,否则w1i=0,这样就可以给出完全数据集,其中 Y0=(yi,Xi,Zi)为观测数据,X和Z是协变量;β和γ01是回归系数,记
Figure BDA0002414107280000032
Figure BDA0002414107280000033
表示在第t步迭代中参数θ估计的当前值;
Figure BDA0002414107280000034
表示该期望值的计算是在条件分布下算出的;
Figure BDA0002414107280000035
分别表示数据中过多的0、1和2所占总体数据的比例;
而且有:
Figure BDA0002414107280000036
(42)将观测数据集分为子集Y01,Y02,划分的规则:把每个观测随机的分到两个子集Y01,Y02的两者的任意一个中去;
(43)接下来在两个样本集Y01,Y02将Q函数极大化,可以利用条件极大化的办法实现;利用迭代方程得到:
Figure BDA0002414107280000037
具体的如下:
Figure BDA0002414107280000038
Figure BDA0002414107280000039
Figure BDA0002414107280000041
同样的
Figure BDA0002414107280000042
重复(42)和(43)步,直到算法收敛得到全局最优解。
进一步地,包括:
所述步骤(4)中,采用改进的EM算法求解出网页元素中对应概率最大的主题,具体包括:
(44)对θ进行迭代进行极大似然估计,如下式所示:
Figure BDA0002414107280000043
其中,n为迭代θ的次数,L为网页元素样本集的词分布的对数似然函数;
(45)主题-词P(wj|tk)的概率和等于1,网页元素-主题P(tk|ei)的概率和等于1:
Figure BDA0002414107280000044
(46)由于关键词之间相互独立,所以网页元素的词分布如下式所示:,
Figure BDA0002414107280000045
故网页元素样本集的词分布的对数似然函数,如下式所示:
Figure BDA0002414107280000046
其中,n(ei)代表网页元素e中全部关键词的出现次数,其有取值范围,每次取的值不同,会有一个编号来表示,M、N、K就是取值的最大值,n(ei)就是从1取到这个最大值,这三个值大小可以是相同也可以是不同,n(wj,ei)表示词wj在网页元素ei中出现的次数、P(ei,wj)是词wj在网页元素ei中的词频率;
(47)接下来将网页元素样本集的词分布对数似然函数l(θ)代入式(7)中,通过条件极大化的方法对L(θ)函数极大化,得到在第k步迭代中参数θ随机部的估计当前值,也即是参数θ随机部的全局最优解。
Figure BDA0002414107280000051
(44)计算此时t的后验概率,利用贝叶斯公式,得到如下:
Figure BDA0002414107280000052
(48)将计算得到的t代入式(8),求解相应的P(wj|tk)和P(tk|ei)
Figure BDA0002414107280000053
由于n(ei)∝P(ei),简化公式(17),由于式(15)得到参数θ随机部的全局最优解,接下来的计算max l(θ)就转化为一个优化问题;
对应的目标函数为:
Figure BDA0002414107280000054
约束条件为:
Figure BDA0002414107280000055
(49)采用拉格朗日乘数法,可以估算得到P(wj|tk)和P(tk|ei)。
Figure BDA0002414107280000056
(410)把P(wj|tk)和P(tk|ei)再代入公式(16),循环迭代得到隐变量主题t的后验概率P(tk|ei,wj)
Figure BDA0002414107280000061
其中,P(tk|ei)代表网页元素的主题分布,进而把网页元素ei对应概率最大的主题tk作为该网页元素的主题。
有益效果:本发明与现有技术相比,其显著优点是:本发明根据PLSA模型公式和改进的EM算法判定出网页元素的主题,自动生成对应的XPath绝对路径,在一定程度上的提高了网页元素定位器在自动化测试中的鲁棒性;并且,本发明所提出的基于PLSA 主题模型和改进后的EM算法确定网页元素主题方法,在Web静态页面的应用,具有需要的样本较少,速度较快,准确率较高等特点;在Web动态页面的应用中,将普遍使用的文本PLSA主题模型结合EM改进算法进行求解,有效实现了动态页面的网页元素主题确定,相对于传统的元素定位方法,该方法能够有效的判定网页元素主题,增强网页元素的定位能力,同时也在一定程度上提高了Web测试效率。
附图说明
图1为本发明所述的方法流程图;
图2为特征词提取算法;
图3为PLSA模型图;
图4为基于网页元素主题识别的Xpath定位器生成算法框架。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
本发明在windows7系统Web页面上进行实现,使用Python语言,采取Selenium 结合WebDriver的方式模拟浏览器获取网页源代码,主要流程图如图1所示,动态页面元素定位主要包括四个步骤:
步骤一:选取待测的Web应用网页的网页元素主题,找出主题关键词集合。具体包括以下子步骤:
第1步:确定form表单中的网页元素主题。
第2步:使用网络爬虫技术模拟浏览器获取待测网页的源代码,再进行解析HTML代码,得到网页元素的主题关键词和主题集合,分别为主题集合:T={主题t1,主题t2…,主题tn},主题关键词:主题t1:{关键词k11,关键词k12…,关键词k1p},主题t2:{关键词k21,关键词k22…,关键词k2q},…,主题tn:{关键词kn1,关键词kn2…,关键词knm},其中,n为待测网页中主题的总数,p为主题t1下的主题关键词的总数,q为主题t2下的主题关键词的总数,m为主题tn下的主题关键词的总数。
步骤二:对待测网页的网页元素进行预处理,生成元素-词的矩阵。具体包括以下子步骤:
第1步:从网页元素与主题相关联的属性值中筛选主题关键词集合中的词和网页元素的重要属性值,其是为了筛选和确定网页元素的关键词。
爬虫脚本得到的这些关键词不是全部一致的,但是是相近的,所以可以用确定关键词去统一代替。该主题下的所有网页元素样本关键词组成的集合就是主题关键词集合。算法如图2所示。
第2步:计算主题关键词的频率次数,并替换网页元素属性值中的缩写词,避免影响PLSA模型判定网页元素的主题。
网页元素e中关键词w出现的频率:
Figure BDA0002414107280000071
其中,nw代表网页元素e中关键词w的次数;ne代表网页元素e中全部关键词的出现次数。
步骤三:如图3所示,根据获取到的所述主题集合,按照PLSA模型公式训练出主题-词以及网页元素-主题。通过EM算法求解出网页元素中对应概率最大的主题,PLSA 模型如图3所示。具体包括以下子步骤:
第1步:由步骤一得到的词集合W,网页元素集合E,主题集合T,根据PLSA模型公式训练出主题-词P(wj|tk)、网页元素-主题P(tk|ei)。
1)计算
Figure BDA0002414107280000072
其中,P(wj|ei)是根据步骤二计算得到的关键词频率。关键词wj在网页元素ei中出现的次数n(wj,ei)和网页元素ei中获取到的关键词已知,通过以下公式计算得到。
Figure BDA0002414107280000073
2)计算网页元素中的生成概率,如下式所示。
Figure BDA0002414107280000074
因P(ei)为常量,P(wj|tk)与P(tk|ei)是未知量,故θ=(P(wj|tk),P(tk|ei))就是需要估计的参数值,并且最大化θ值。
其中,P(ei)为待测网页中某网页元素ei的概率,P(wj|tk)为主题关键词wj在给定的主题tk中出现的概率,P(tk|ei)为主题tk在给定的网页元素ei中出现的概率;n为待测网页中主题的总数,P(tk|ei)和P(wj|tk)是未知量,故θ=(P(wj|tk),P(tk|ei))就是需要估计的参数值,并且使得最大化θ值。
第2步:对EM算法改进:
传统EM算法的缺陷会使θ估计收敛到局部极大值,因此本发明在传统的算法中进行改进,使得EM算法能够找到全局最优解,也即是在确定网页元素主题过程中找到最适用于模型中的最优解。因为随机EM算法的随机部,使得估计结果每次都会收敛到不一样的极大似然估计上,对求出的全局最优解提供了保证,具体算法包括三个大步骤:
1)计算Q函数:
Figure BDA0002414107280000081
其中,Q函数就是Q(θ,θi),是求解em算法公式常见的表示,是完全数据(观测变量,隐变量)的对数似然函数关于在给定观测数据[公式]和当前参数[公式]下对未观测数据的条件概率分布的期望,不需要注释;
Ym=(w0i,w1i):观测数据集,若yi来自额外的0,记w0i=1,否则w0i=0;同样的yi若来自额外1,记w1i=1,否则w1i=0,这样就可以给出完全数据集,其中 Y0=(yi,Xi,Zi)为观测数据,X和Z是协变量;β和γ01是回归系数,记
Figure BDA0002414107280000082
其中,
Figure BDA0002414107280000083
表示在第t步迭代中参数θ估计的当前值;
Figure BDA0002414107280000084
表示该期望值的计算是在条件分布下算出的。
Figure BDA0002414107280000085
分别表示数据中过多的0、1和2所占总体数据的比例。
而且有:
Figure BDA0002414107280000091
2)将观测数据集分为子集Y01,Y02,划分的规则:把每个观测随机的分到两个子集Y01,Y02的两者的任意一个中去。
3)接下来在两个样本集Y01,Y02将Q函数极大化,可以利用条件极大化的办法实现。利用迭代方程得到:
Figure BDA0002414107280000092
具体的如下:
Figure BDA0002414107280000093
Figure BDA0002414107280000094
Figure BDA0002414107280000095
同样的
Figure BDA0002414107280000096
重复(2)(3)步,直到算法收敛得到全局最优解。
第3步:对于待估计参数中的隐变量主题t,将采用上文中改进的EM算法,对θ进行迭代进行极大似然估计,如下式所示(并没有看出下文采用了上述改进的EM算法,需如有进行标注和说明:之前用文字代替了,可能不能直接看出来,现在新增了步骤,)。
Figure BDA0002414107280000097
1)主题-词P(wj|tk)的概率和等于1,网页元素-主题概率和等于1:
Figure BDA0002414107280000101
2)因为关键词之间相互独立,所以网页元素的词分布如下式所示:
Figure BDA0002414107280000102
故网页元素样本集的词分布的对数似然函数,如下式所示:
Figure BDA0002414107280000103
3)接下来将网页元素样本集的词分布对数似然函数l(θ)代入式(7)中,通过条件极大化的方法对L(θ)函数极大化,得到在第k步迭代中参数θ随机部的估计当前值,也即是参数θ随机部的全局最优解。
Figure BDA0002414107280000104
4)计算此时t的后验概率,利用贝叶斯公式,得到如下:
Figure BDA0002414107280000105
5)将计算得到的t代入式(14),求解相应的P(wj|tk)和P(tk|ei)
Figure BDA0002414107280000106
由于n(ei)∝P(ei),因此公式(17)有部分可以舍去,由于式(15)得到参数θ随机部的全局最优解,接下来的计算max l(θ)就转化为一个优化问题。
6)目标函数为:
Figure BDA0002414107280000107
约束条件为:
Figure BDA0002414107280000111
7)采用拉格朗日乘数法,可以估算得到P(wj|tk)和P(tk|ei)。
Figure BDA0002414107280000112
8)把P(wj|tk)和P(tk|ei)再代入公式(16),循环迭代得到P(tk|ei,wj)
Figure BDA0002414107280000113
其中,P(tk|ei)代表网页元素的主题分布,本文把网页元素ei对应概率最大的主题tk作为该网页元素的主题。
步骤四:当网页结构或元素属性改变而造成网页状态变化后,重新获取当前DOM,重新对当前网页内的网页元素主题进行判定,并生成网页元素XPath定位器。如图4所示。

Claims (6)

1.一种基于PLSA主题模型和EM算法确定网页元素主题的方法,其特征在于,该方法包括:
(1)选取待测网页的网页元素对应的主题,找出主题关键词集合和主题集合;
(2)对待测网页的网页元素进行预处理,生成元素-词的关系;
(3)根据获取到的所述主题集合,按照PLSA模型公式训练出主题-词矩阵以及网页元素-主题矩阵,
(4)采用改进的EM算法求解出网页元素中对应概率最大的主题,作为该网页元素的主题;
(5)当网页结构或元素属性改变而造成网页状态变化后,重新获取当前DOM,重新对当前网页内的网页元素的主题进行判定,并生成网页元素XPath定位器。
2.根据权利要求1所述的基于PLSA主题模型和EM算法确定网页元素主题的方法,其特征在于,所述步骤(1)中,找出主题关键词集合和主题集合包括:
使用网络爬虫技术模拟浏览器获取待测网页的源代码,再进行解析HTML代码,得到网页元素的主题关键词和主题集合,分别为主题集合:T={主题t1,主题t2…,主题tn},主题关键词:主题t1:{关键词k11,关键词k12…,关键词k1p},主题t2:{关键词k21,关键词k22…,关键词k2q},…,主题tn:{关键词kn1,关键词kn2…,关键词knm},其中,n为待测网页中主题的总数,p为主题t1下的主题关键词的总数,q为主题t2下的主题关键词的总数,m为主题tn下的主题关键词的总数。
3.根据权利要求1所述的基于PLSA主题模型和EM算法确定网页元素主题的方法,其特征在于,所述步骤(2),具体包括:
(21)从待测网页的网页元素与主题相关联的属性值中筛选主题关键词集合中的关键词以及网页元素的主题关键词,该主题下的所有网页元素样本关键词组成的集合就是主题关键词集合;
(22)计算各个主题关键词的频率,具体为:待测网页的网页元素e中主题关键词w出现的频率表示为:
Figure FDA0002414107270000011
其中,nw代表网页元素e中关键词w出现的次数,ne代表网页元素e中全部关键词的出现次数。
4.根据权利要求1所述的基于PLSA主题模型和EM算法确定网页元素主题的方法,其特征在于,所述步骤(3)具体包括:
(31)根据得到的主题关键词集合W,网页元素集合E,主题集合T,根据PLSA模型公式训练出主题-词P(wj|tk)和网页元素-主题P(tk|ei);
(32)计算网页元素中的生成概率,如下式所示:
Figure FDA0002414107270000021
其中,P(ei)为待测网页中某网页元素ei的概率,P(wj|tk)为主题关键词wj在给定的主题tk中出现的概率,P(tk|ei)为主题tk在给定的网页元素ei中出现的概率;n为待测网页中主题的总数,P(tk|ei)和P(wj|tk)是未知量,故θ=(P(wj|tk),P(tk|ei))就是需要估计的参数值,并且使得最大化θ值。
5.根据权利要求1所述的基于PLSA主题模型和EM算法确定网页元素主题的方法,其特征在于,所述改进的EM算法包括:
(41)计算Q函数:
Figure FDA0002414107270000022
其中,Ym=(w0i,w1i):观测数据集,若yi来自额外的0,记w0i=1,否则w0i=0;同样的yi若来自额外1,记w1i=1,否则w1i=0,这样就可以给出完全数据集,其中Y0=(yi,Xi,Zi)为观测数据,X和Z是协变量;β和γ01是回归系数,记
Figure FDA0002414107270000023
Figure FDA0002414107270000024
表示在第t步迭代中参数θ估计的当前值;
Figure FDA0002414107270000025
表示该期望值的计算是在条件分布下算出的;
Figure FDA0002414107270000026
分别表示数据中过多的0、1和2所占总体数据的比例;
而且有:
Figure FDA0002414107270000027
(42)将观测数据集分为子集Y01,Y02,划分的规则:把每个观测随机的分到两个子集Y01,Y02的两者的任意一个中去;
(43)接下来在两个样本集Y01,Y02将Q函数极大化,可以利用条件极大化的办法实现;利用迭代方程得到:
Figure FDA0002414107270000031
具体的如下:
Figure FDA0002414107270000032
Figure FDA0002414107270000033
Figure FDA0002414107270000034
同样的
Figure FDA0002414107270000035
重复(42)和(43)步,直到算法收敛得到全局最优解。
6.根据权利要求5所述的基于PLSA主题模型和EM算法确定网页元素主题的方法,其特征在于,所述步骤(4)中,采用改进的EM算法求解出网页元素中对应概率最大的主题,具体包括:
(44)对θ进行迭代进行极大似然估计,如下式所示:
Figure FDA0002414107270000036
其中,n为迭代θ的次数,L为网页元素样本集的词分布的对数似然函数;
(45)主题-词P(wj|tk)的概率和等于1,网页元素-主题P(tk|ei)的概率和等于1:
Figure FDA0002414107270000037
(46)由于关键词之间相互独立,所以网页元素的词分布如下式所示:,
Figure FDA0002414107270000038
故网页元素样本集的词分布的对数似然函数,如下式所示:
Figure FDA0002414107270000041
其中,n(ei)代表网页元素e中全部关键词的出现次数,其有取值范围,每次取的值不同,会有一个编号来表示,M、N、K就是取值的最大值,n(ei)就是从1取到这个最大值,这三个值大小可以是相同也可以是不同,n(wj,ei)表示词wj在网页元素ei中出现的次数、P(ei,wj)是词wj在网页元素ei中的词频率;
(47)接下来将网页元素样本集的词分布对数似然函数l(θ)代入式(7)中,通过条件极大化的方法对L(θ)函数极大化,得到在第k步迭代中参数θ随机部的估计当前值,也即是参数θ随机部的全局最优解。
Figure FDA0002414107270000042
(44)计算此时t的后验概率,利用贝叶斯公式,得到如下:
Figure FDA0002414107270000043
(48)将计算得到的t代入式(8),求解相应的P(wj|tk)和P(tk|ei)
Figure FDA0002414107270000044
由于n(ei)∝P(ei),简化公式(17),由于式(15)得到参数θ随机部的全局最优解,接下来的计算max l(θ)就转化为一个优化问题;
对应的目标函数为:
Figure FDA0002414107270000045
约束条件为:
Figure FDA0002414107270000051
(49)采用拉格朗日乘数法,可以估算得到P(wj|tk)和P(tk|ei)。
Figure FDA0002414107270000052
(410)把P(wj|tk)和P(tk|ei)再代入公式(16),循环迭代得到隐变量主题t的后验概率P(tk|ei,wj)
Figure FDA0002414107270000053
其中,P(tk|ei)代表网页元素的主题分布,进而把网页元素ei对应概率最大的主题tk作为该网页元素的主题。
CN202010185732.8A 2020-03-17 2020-03-17 一种基于plsa主题模型和em算法确定网页元素主题的方法 Active CN111459806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010185732.8A CN111459806B (zh) 2020-03-17 2020-03-17 一种基于plsa主题模型和em算法确定网页元素主题的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010185732.8A CN111459806B (zh) 2020-03-17 2020-03-17 一种基于plsa主题模型和em算法确定网页元素主题的方法

Publications (2)

Publication Number Publication Date
CN111459806A true CN111459806A (zh) 2020-07-28
CN111459806B CN111459806B (zh) 2022-09-23

Family

ID=71683187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010185732.8A Active CN111459806B (zh) 2020-03-17 2020-03-17 一种基于plsa主题模型和em算法确定网页元素主题的方法

Country Status (1)

Country Link
CN (1) CN111459806B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701167A (zh) * 2015-12-31 2016-06-22 北京工业大学 基于煤矿安全事件主题相关性判别方法
CN109766486A (zh) * 2018-12-06 2019-05-17 重庆邮电大学 一种基于变异思想改进粒子群算法的主题爬虫系统及方法
CN110532450A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于改进鲨鱼搜索的主题爬虫方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701167A (zh) * 2015-12-31 2016-06-22 北京工业大学 基于煤矿安全事件主题相关性判别方法
CN109766486A (zh) * 2018-12-06 2019-05-17 重庆邮电大学 一种基于变异思想改进粒子群算法的主题爬虫系统及方法
CN110532450A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于改进鲨鱼搜索的主题爬虫方法

Also Published As

Publication number Publication date
CN111459806B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN112182219A (zh) 一种基于日志语义分析的在线服务异常检测方法
US8321418B2 (en) Information processor, method of processing information, and program
CN108959474B (zh) 实体关系提取方法
Le et al. Log parsing with prompt-based few-shot learning
US7203882B2 (en) Clustering-based approach for coverage-directed test generation
Lei Adaptive global testing for functional linear models
CN114818891B (zh) 小样本多标签文本分类模型训练方法及文本分类方法
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110502742A (zh) 一种复杂实体抽取方法、装置、介质及系统
Falessi et al. The impact of dormant defects on defect prediction: A study of 19 apache projects
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN112818110A (zh) 文本过滤方法、设备及计算机存储介质
CN110750297A (zh) 一种基于程序分析和文本分析的Python代码参考信息生成方法
CN110991193A (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
CN116955210B (zh) 一种测试用例的生成方法、装置、电子设备及存储介质
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN111459806B (zh) 一种基于plsa主题模型和em算法确定网页元素主题的方法
Kirinuki et al. NLP-assisted web element identification toward script-free testing
CN115185920A (zh) 一种日志类型的检测方法、装置及设备
CN113268673B (zh) 互联网行动类信息线索分析的方法和系统
Bolfarine et al. Decoupling Shrinkage and Selection in Gaussian Linear Factor Analysis
CN117643036A (zh) 基于人工智能的认知测试脚本生成
CN110162629B (zh) 一种基于多基模型框架的文本分类方法
JP6884945B2 (ja) 訓練用データ生成装置、最適パラメータ取得装置、訓練用データ生成方法、および最適パラメータ取得方法
CN111339289B (zh) 一种基于商品评论的主题模型推断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210000

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant