CN109344355A - 针对网页变化的自动回归检测与块匹配自适应方法和装置 - Google Patents

针对网页变化的自动回归检测与块匹配自适应方法和装置 Download PDF

Info

Publication number
CN109344355A
CN109344355A CN201811124012.XA CN201811124012A CN109344355A CN 109344355 A CN109344355 A CN 109344355A CN 201811124012 A CN201811124012 A CN 201811124012A CN 109344355 A CN109344355 A CN 109344355A
Authority
CN
China
Prior art keywords
webpage
block
matching
web evolution
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811124012.XA
Other languages
English (en)
Other versions
CN109344355B (zh
Inventor
张颖
杨威
徐经纬
苏星
黄罡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenqi Digital Co ltd
Original Assignee
Beijing Yinte Rui Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yinte Rui Software Co Ltd filed Critical Beijing Yinte Rui Software Co Ltd
Priority to CN201811124012.XA priority Critical patent/CN109344355B/zh
Publication of CN109344355A publication Critical patent/CN109344355A/zh
Application granted granted Critical
Publication of CN109344355B publication Critical patent/CN109344355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种针对网页变化的自动回归检测与块匹配的自适应方法及装置,能够动态地检测目标网页变化,并给出修改建议。所述针对网页变化的自动回归检测与块匹配的自适应方法的特征在于包括如下步骤:检测网页变化,用于检测新旧目标系统的网页是否发生变化并给出报告;进行内容块匹配,接收检测到变化的报告后对网页进行分析,找出新目标系统的网页与旧目标系统的网页对应的内容块部分,内容块匹配包括:文字分析步骤,获得语义信息与文字区域;图形界面分析步骤,获得图形区域;映射步骤,对以上获得的语义信息、文字区域和图形区域进行相似度匹配,然后基于对应的内容块部分的变化,给出针对现有网页数据提取系统工具的代码修改建议。

Description

针对网页变化的自动回归检测与块匹配自适应方法和装置
技术领域
本发明涉及网页数据提取技术领域,具体涉及针对网页变化的自动回归检测与块匹配的自适应方法和装置。
背景技术
随着Web技术的发展以及大数据时代的到来,网页系统开始包含着越来越多的信息,这使得各式各样的从网页系统中提取数据(信息的载体)的技术发展起来。而要从网页中将数据提取出来首先就需要对网页中需要的数据进行定位,常见的网页内元素的定位技术包括基于XPath(XML Path Language,XML路径语言)的定位,基于CSS(Cascading StyleSheets,层叠样式表)选择器的定位,以及其他简单的根据id属性、name属性的定位等。这些定位技术都非常依赖于网页的结构,在网页结构发生变化后,利用这些方法开发出的数据提取工具有着极大的失效可能性,因此需要人工重新进行开发维护,这一过程是非常耗费人力和时间成本的。
为了解决网页变化导致已有数据提取工具失效的问题,最重要的就是要找出新旧版本网页之间内容块以及数据节点的映射关系,因此如果可以通过程序自动寻找这些映射关系,就可以极大降低人工的投入,并节省时间成本。针对这一问题,目前已经有部分技术方案被提出,它们基本可以分为三个方向:一、基于DOM(Document Object Model,文本对象模型)的结构;二、基于数据项的特征;三、基于机器学习。
基于DOM结构的方法首先将新旧两个版本的网页解析成DOM树,然后利用计算树的相似度的算法,在新版本的DOM树中寻找与旧版本的目标子树结构最为接近的子树,该子树就被当做新版本网页中与旧版本网页对应的内容块。然而树的相似度计算方法的复杂度偏高,在网页愈渐复杂的趋势下,整体性能不高;同时,仅仅依据DOM信息所得出的结果并不是非常准确。
基于数据项特征的方法是基于这样的假设,尽管网页结构发生了变化,但是实际需要提取的数据的部分特征(如语法特性、超链接、注解信息等)大概率是不变的。因此,可以在确保提取的数据是正确的情况下找出这些特征,在网页发生变化后,利用这些特征在新版本的页面中匹配出实际的数据项,然后根据用户提供的一份配置,重新生成数据提取工具。该方法需要用户首先给出一份对数据格式的配置文件,该配置较为复杂繁琐;同时,该方法对数据提取工具的生成方式做了限制,通用性不高。
最后,基于机器学习的方法是通过对大量网页的分析,提取出网页的特征,从而对各种不同的网页进行分类,每个类别的网页被认为数据提取方式是相似的。通过该机器学习方法,当页面变化后,只需要重新对新版本的网页进行一次分析便可以自动生成新的数据提取工具。不过该方法需要大量数据的支持,同时对设备的计算能力有较高要求。
发明内容
本发明要解决的技术问题
鉴于上述情况,本发明所要解决的技术问题在于提供一种针对网页变化的自动回归检测与块匹配的自适应方法和自适应装置,通过该自适应方法或自适应装置,能够动态地检测目标网页系统(以下有时也简称为“目标系统”)的变化,并能够动态地根据目标系统的变化来调整已有的数据提取工具,使其仍然能够从新版本的目标网页系统中提取出正确的数据。
解决技术问题的技术手段
为了解决上述技术问题,本发明的发明人开发了一种针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于包括如下步骤:检测网页变化,用于检测新旧目标系统的网页(以下有时也称为“新旧版本网页”)是否发生变化并给出报告;进行内容块(即网页上某一个版块部分)匹配,接收检测到变化的报告后对网页进行分析,找出新目标系统的网页(以下有时也称为“新版本网页”)与旧目标系统的网页(以下有时也称为“旧版本网页”)对应的内容块部分,内容块匹配包括:文字分析步骤,获得语义信息与文字区域;图形界面分析步骤,获得图形区域;映射步骤,对以上获得的语义信息、文字区域和图形区域进行相似度匹配,然后基于对应的内容块部分的变化,给出针对现有数据提取系统或工具的代码修改建议。
本发明的上述检测网页变化的步骤优选进一步包括:当未检测到新旧目标系统的网页发生变化时,给出不变化的报告,并对再次输入的新旧目标系统的网页检测网页变化。
优选地是,在本发明的上述检测网页变化的步骤中,所述网页可以分为数据获取类网页和数据提交类网页。
在本发明的上述检测网页变化的步骤中,检测所述数据获取类网页是否发生变化的方法优选为,将新旧版本网页的html代码解析成DOM树结构后,根据所输入的需要检测部分的定位信息获取到需要检测部分对应的子树,然后对比子树结构是否发生变化。
此时,对比子树结构是否发生变化的方法优选为,按照节点的id、class和tag的顺序对比id、class和tag属性值,如果其中有一个值是相同的,就认为这两个节点对应,然后对比另两个属性的值,判断它们是否发生变化。
在本发明的上述检测网页变化的步骤中,优选地是,检测所述数据提交类网页是否发生变化的方法为,将新旧版本网页的html代码解析成DOM树结构后,根据所输入的需要检测部分的定位信息获取到需要检测部分对应的子树,然后对比来自于新旧版本网页的子树结构是否发生变化。
此时,对比来自于新旧版本网页的子树结构是否发生变化的方法优选为,对于新旧版本网页的子树结构,按照其节点的id、class和tag的顺序对比id、class和tag属性值,如果其中有一个值是相同的,就认为这两个节点对应,进而比较节点中其它所有属性的值,同时比较这两个对应节点里的文本信息,判断它们是否发生变化。
在本发明的上述检测网页变化的步骤中,优选地是,检测所述数据提交类网页是否发生变化的方法还可以是,将新旧版本网页的html代码解析成DOM树结构后,不需要输入需要检测部分的定位信息,通过提取DOM中全部的form表单、输入标签来对比它们是否发生变化。
在本发明的上述图形界面分析步骤中,优选地是,通过图形处理获得多个矩形框,按照矩形框的包含关系得出矩形框的层级结构,并结合DOM的结构生成树结构的图形区域。
本发明的针对网页变化的自动回归检测与块匹配的自适应装置包括如下单元:网页变化检测单元,用于检测新旧目标系统的网页是否发生变化并给出报告;内容块匹配单元,用于接收检测到变化的报告后对网页进行分析,找出新目标系统的网页与旧目标系统的网页对应的内容块部分,内容块匹配单元包括:文字分析模块,用于获得语义信息与文字区域;图形界面分析模块,用于获得图形区域;映射模块,用于对以上获得的语义信息、文字区域和图形区域进行相似度匹配,然后基于对应的内容块部分的变化,给出针对现有数据提取系统或工具的代码修改建议。
发明效果
通过本发明的针对网页变化的自动回归检测与块匹配的自适应方法或自适应装置,能够及时检测出网页产生的变化,并向相关人员报警;针对产生的变化自动进行分析,最终给予相关的开发人员如何对现有数据提取系统或工具的代码进行修改的提示与建议。因此,本发明能够使得网页的变化被及时发现,降低由于现有的数据提取工具失效所产生的经济损失;同时极大地减少了对数据提取工具进行调整的人力与时间成本,降低了开发人员对工具进行维护的门槛;并且不需要大量数据的收集,对设备计算能力没有太大要求。
附图说明
图1为本发明的一个实施方式针对网页变化的自动回归检测与块匹配的自适应方法的流程图。
图2为本发明的一个实施方式检测网页变化的步骤的流程图。
图3为本发明的一个实施方式进行内容块匹配的步骤的流程图。
图4为本发明的一个实施方式中,文字分析模板在确认文字的位置以及结构时,按不同粒度对文字进行区分所得到的示意图。
图5为本发明的一个实施方式中,图形界面分析模块在确认图形界面的位置以及结构时,对图形界面进行各阶段处理所得到的示意图。
图6为本发明的一个实施方式中检测到变化的新旧版本网页中对应的内容块。
具体实施方式
下面结合附图对本发明的具体实施方式进行说明。
本发明的针对网页变化的自动回归检测与块匹配的自适应方法如图1所示,包括如下步骤:检测网页变化,用于检测新旧目标系统的网页是否发生变化并给出报告;进行内容块匹配,接收检测到变化的报告后对网页进行分析,找出新目标系统的网页与旧目标系统的网页对应的内容块部分,然后基于对应的内容块部分的变化,给出针对现有数据提取系统或工具的代码修改建议。
本发明的针对网页变化的自动回归检测与块匹配的自适应装置包括如下单元:网页变化检测单元,用于检测新旧目标系统的网页是否发生变化并给出报告;内容块匹配单元,用于接收检测到变化的报告后对网页进行分析,找出新目标系统的网页与旧目标系统的网页对应的内容块部分,然后基于对应的内容块部分的变化,给出针对现有数据提取系统或工具代码的修改建议。
本发明通过采用上述针对网页变化的自动回归检测与块匹配的自适应方法或自适应装置,能够检测网页结构变化,并自动匹配新旧目标系统的网页中对应的内容块与具体数据项,从而自动基于变化给出修改建议。
由上述可知,本发明的针对网页变化的自动回归检测与块匹配的自适应方法相当于包括网页变化检测部分和内容块匹配部分。下面对这两个部分进行进一步说明。
1.网页变化检测部分
网页变化检测部分即网页变化检测单元,用于执行检测网页变化的步骤,主要用于检测新旧两个版本网页是否发生了变化。所述新旧两个版本网页例如可以是五分钟前的网页与五分钟后的网页,具体时间间隔可以调整。
为了进行检测,可以选取各种方法,例如比较数据项特征或计算DOM树结构相似度等方法。在本发明的针对网页变化的自动回归检测与块匹配的自适应方法或装置中,优选在目标系统中提取DOM来表示客户系统的整体结构的变化检测方法。
例如,如图2所示,将DOM转化成一个树状结构DOM树(DOM tree),那么系统中状态的变化会通过系统执行中这个DOM树的变化体现出来。如果检测到变化,网页变化检测部分会启动之后的内容块匹配部分来完成自适应的调整。如果没有检测到变化,网页变化检测部分可以直接汇报无变化的结果并等待下一个版本的网页输入后再次进行检测。
这一部分负责检测网页的某一部分是否发生了变化。首先对变化做出一定的解释,这里的变化是网页的DOM树结构的变化,或者是DOM节点的某些属性的变化,对于一些特定类型的网页,还包括页面内容的变化。
作为具体的检测方式,可以根据网页的功能,将网页分为两个大的类别:数据获取类和数据提交类。针对不同的类别,采取不同的检测方法,如图3所示。
对于数据获取类网页,可以输入旧版本网页的html(HyperText MarkupLanguage,超文本标记语言)代码,新版本网页的html代码,以及需要检测的部分对应的网页定位信息,可用于进行网页节点定位的信息包括XPath,CSS选择器,id属性,name属性等。该方法首先用HtmlCleaner(Java语言的Html文档解析器)工具将旧版本网页的html代码解析成DOM树结构,然后根据输入的定位信息获取到需要检测部分对应的子树。接着对新版本网页的html代码做同样的操作,这里可能遇到两种情况:第一种是新版本网页的html代码生成的DOM树中不能根据输入的定位信息找到所指定的子树,或者找到了多个对应的子树,这时就直接给出“找不到对应块”或“找到多个对应块”的报告,等待后续内容块匹配模块的处理;另一种是新版本网页的DOM树中可以找到唯一的子树,这就开始后续对子树内部结构的对比算法。
要对比来自于新旧版本网页的子树的结构如何发生变化,就先要确定两个子树中的节点如何对应。可以基于所述节点的id、class和tag属性,按照id、class和tag的顺序,如果有一个值是相同的,就认为这两个节点是对应的节点。找到对应的节点(以下有时也称为节点对)之后,就可以对比该节点对的其他属性值是否相同。对于数据获取类的网页,可以仅对比id、class和tag属性是否发生变化,如果变化则给出属性变化的结果,这是对于对应节点属性值的检测。至于树结构上的变化,如节点的增加和删除,可以采用如下的算法:仅仅对树的相同层级进行对比,也不考虑同一层级节点的重新排列的情况,对于同一层级的节点,借用求两个字符串编辑距离的思想,求出如何通过节点的增删和修改使得一个节点序列变为另一个节点序列,这一过程需要判断两个给定的节点是否相等,判断的依据也就是按照前面描述的节点找对应的方法。
对于数据提交类网页,可以提供两种检测策略,其中一种(数据提交类网页变化检测方式一)与数据获取类网页的检测策略基本相同,首先,在新旧版本网页的子树结构中,按照其节点的id、class和tag的顺序对比id、class和tag属性值,如果其中有一个值是相同的,就认为这两个节点对应,然后对比该节点对的其他全部属性值是否相同,所述全部属性值包括href、placeholder、value、name等,不仅仅是id,class,tag这三个属性;同时也会比较网页具体的文本信息。另一种策略(数据提交类网页变化检测方式二),其输入仅仅是新旧版本的html代码,算法会自动识别需要检测变化的部分,算法详细描述如下。
首先仍然是利用HtmlCleaner将新旧版本的网页转化为DOM树,因为是数据提交类的网页,所以需要检测是否发生的内容就是form表单和一系列的输入标签,如input、select。算法会首先遍历旧版本网页对应的DOM树,提取出全部的form,input和select标签,分别形成form列表和input列表。对于form列表,先根据id、name、tag属性找出节点的对应关系,方法为按照上述属性的顺序,有一个属性值相等就认为是对应的节点,然后对比对应节点对的action,entype和method属性,检测是否存在变化,如果是,则报出对应的变化。列表中没有找到对应的节点则分别报“添加节点”或“删除节点”的变化。Input列表的对比则首先会根据tag信息、type属性以及部分文本信息(比如前一个节点中的文本,或者是placeholder属性中的文本)找到节点对应关系,之后的处理也是类似的检测属性值的变化和节点的增删。
2.内容块匹配部分
内容块匹配部分即内容块匹配单元,是本发明的自适应系统的核心,其用于执行内容块匹配的步骤,主要功能是找到旧版本网页上的一些不太会发生变化的特征,并以此作为标准进行新旧版本网页的匹配,从而定位客户系统中何处发生了变化,以及发生了怎样的变化。只有获取了这两个信息,才能够在新版本网页中找到相应区域,获取或提交所需要的信息,并根据匹配内容块的网页变化给出修改提示。
内容块匹配部分分三个模块:文字分析模块,界面布局分析模块,映射模块,映射模块还可以进一步针对以上两个模块的分析结果分为语义映射模块和区域映射模块,如图3所示。
本发明通过文字分析模块,利用OCR(Optical Character ReCognition,光学字符识别)技术确认文字的位置以及结构。这一步得到的结果按不同粒度区分,如词,句,段等,如图4所示。
通过文字分析模块,可以得到界面上所有的方框以及方框四个角的坐标,图中的一个个方框就是识别出来的网页中包含文字的块,即文字区域;还可以进一步对网页中的文字进行语义分析。
具体的语义分析算法就是在一系列没有报出页面变化的html代码中找出不变(内容和位置都不变)的文本信息。例如,一个包含新闻标题列表的页面,每天的新闻不同,所以列表的内容也不同,但是该页面可能包含类似“XX新闻”这样的标题,它在不同页面中位置和文本都是一样的,这些不变的信息表明了网页不同块所表达的语义。
本发明通过图形界面分析模块确认图形界面的位置以及结构,如图5所示。
图形界面分析模块进行处理都是利用OpenCV(开源计算机视觉库)工具包完成。首先使用OpenCV中提供的Canny算法对原图做一次边缘识别;之后对识别出的边缘进行模糊化处理,使前一步中可能没有连接起来的边缘连接在一块,得到每个区域的轮廓图;然后进行方格轮廓处理,对每一个轮廓求它的外接矩形;最后进行容器化处理,分析每个矩形,通过图形处理获得多个矩形框,按照矩形框的包含关系得出矩形框的层级结构,并结合DOM的结构生成树结构的图形区域,这些图形区域与网页上的图片或文字区域相对应。
接下来,结合文字分析模块以及图形界面分析模块计算出的数据作为特征来进行新旧版本网页的比较。例如,对于语义信息,通过语义映射模块进行语义相似度匹配;对于文字区域和图形区域,通过区域映射模块进行结构相似度匹配。由此定位到新版本网页获取及提交信息的区域,完成内容块匹配,并根据其中的网页变化给出修改提示。
下面结合一个网页实例对内容块匹配的具体方法进行说明,对于其他网页,也视实际情况采取适当的具体方法。在众多网页中,以图6所示检测到新旧版本网页变化的某游记网页为例,左边为旧版本网页,右边为新版本网页,黑框内部分为需要关注的内容,即内容块。
对于在变化检测步骤中检测到变化的新旧版本网页,通过文字分析模块获取其文字区域和语义信息。利用OCR(Optical Character ReCognition,光学字符识别)技术确认文字的位置以及结构,将所得结果按不同粒度区分,如词、句、段等,得到网页中包含文字的块,即文字区域。同时获取语义信息。对于图6所示网页游记中的文本,像“热门游记”、“最新发表”、“按时间”这些,以及每条游记有自己的标题、作者、摘要等,因为每一条游记部分是动态变化的,有新发表的游记的话其文本内容就会变化,所以不适合作为文本特征;而像“热门游记”这些文本一般不会变成完全不一样的内容,它其实是反应了这个网页内容块的语义信息,所以它就适合做为特征文本信息。找出这些特征文本信息的具体方法为,首先提取一系列旧版本网页全部的文本信息,然后将这些文本拼接成一个字符串,求得出的多个字符串的最长公共子序列,得出的结果就是网页中包含的不变的特征文本信息,这些特征之后会用于在映射模块中进行内容块的匹配。除了文本信息,链接信息(如a标签的href属性)通常也不会变化,因为这是与网站的文件结构相关的,而一个网站的文件结构在网页变化前后也会很大程度上保持不变。
另一方面,通过图形界面分析模块获取图形区域。由于一个网页上包含的内容的结构一般变化不大,如图6所示游记网页,每一条游记都是一张图片、一个标题、一段摘要,以及其他的一些数据,而整个内容块基本就是由一系列的游记构成的。所以这一不变的结构特征就可以用于在映射模块中进行内容块的匹配。这些结构信息可以从两个途径获取——DOM树和图像分析。DOM树本身是一个层次化的结构,且通过每个标签可以知道每一个节点的内容是图片、标题或是其他文本,同时也可以很方便的识别出列表。但是DOM树存在一个问题,按照它的节点进行切分的话粒度太细,比如可能把摘要部分切分成了多个节点,这样会将结构的某些语义方面的信息丢失;而基于图像分析,可以得到比较大的区域,比如摘要部分的话就会维持成一个整体,这样每个区域的语义信息可以得到完整的保持。所以结合两者可以得到一个更加完善的网页结构信息,从而极大地提高了后续相似度计算的准确率。
然后是映射模块。得到上述特征信息后,相似度的计算就是在两个结构(即区域)中,如果有一个相同的匹配的部分(如都有图片,都有标题文本),则将其评分增加某个加权的值(图片、标题和一般文本权重可能不同),最后匹配程度最高的那个部分就是新版本页面中需要找到的内容块。首先找到一个相对比较大的匹配的部分。但是这一内容块内部的结构也可能发生了某些变化,比如图6中两个对应内容块页面是有变化的。接着找出内容块内部每个数据项(就是需要提取的信息,比如网页中每条游记的标题、作者、摘要等信息)之间的映射关系。具体的方式是基于每条数据项的统计特征,比如文本长度、数字密度、字符密度、是否为一些特殊的模式(比如表示气温的℃这样极具特征的文本)等,在新版本页面中寻找与这些统计特征最为接近的那一个数据项,以之作为与原来的数据项相对应的一项。
当定位到新版本网页获取及提交信息的区域后,可以对此区域产生的变化向部署人员提出修改建议,然后人工进行修改。例如,若基于Xpath进行定位,则当定位到新版本网页中的区域后,可以获得每个数据项在新版本网页中具有的新的XPath。然后,扫描当前数据提取工具已有的代码,分析其中可能包含XPath的语句(这块具体的方法是检查代码每一句是否包含与进行XPath计算有关函数调用,比如预设一些函数名字像evaluateXPath),然后提示代码这一句里的XPath应该要被修改为新版本网页中的XPath。
因此,通过本发明所述针对网页变化的自动回归检测与块匹配的自适应方法或自适应装置,能够及时准确地检测出网页产生的变化向相关人员报警且自动给出修改建议,极大地降低了人力与时间成本。

Claims (10)

1.一种针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于包括如下步骤:
检测网页变化,用于检测新旧目标系统的网页是否发生变化并给出报告;
进行内容块匹配,接收检测到变化的报告后对网页进行分析,找出新目标系统的网页与旧目标系统的网页对应的内容块部分,内容块匹配包括:文字分析步骤,获得语义信息与文字区域;图形界面分析步骤,获得图形区域;映射步骤,对以上获得的语义信息、文字区域和图形区域进行相似度匹配,然后基于对应的内容块部分的变化,给出针对现有数据提取系统或工具的代码修改建议。
2.根据权利要求1所述的针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于,检测网页变化的步骤进一步包括:当未检测到新旧目标系统的网页发生变化时,给出不变化的报告,并对再次输入的新旧目标系统的网页检测网页变化。
3.根据权利要求1或2所述的针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于,检测网页变化的步骤中,所述网页分为数据获取类网页和数据提交类网页。
4.根据权利要求3所述的针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于,检测所述数据获取类网页是否发生变化的方法为,将新旧目标系统的网页的html代码解析成DOM树结构后,根据所输入的需要检测部分的定位信息获取到需要检测部分对应的子树,然后对比子树结构是否发生变化。
5.根据权利要求4所述的针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于,对比子树结构是否发生变化的方法为,按照节点的id、class和tag的顺序对比id、class和tag属性值,如果其中有一个值是相同的,就认为这两个节点对应,然后对比另两个属性的值,判断它们是否发生变化。
6.根据权利要求3所述的针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于,检测所述数据提交类网页是否发生变化的方法为,将新旧目标系统的网页的html代码解析成DOM树结构后,根据所输入的需要检测部分的定位信息获取到需要检测部分对应的子树,然后对比来自于新旧目标系统的网页的子树结构是否发生变化。
7.根据权利要求6所述的针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于,对比来自于新旧目标系统的网页的子树结构是否发生变化的方法为,对于新旧目标系统的网页的子树结构,按照其节点的id、class和tag的顺序对比id、class和tag属性值,如果其中有一个值是相同的,就认为这两个节点对应,进而比较节点中其它所有属性的值,同时比较这两个对应节点里的文本信息,判断它们是否发生变化。
8.根据权利要求3所述的针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于,检测所述数据提交类网页是否发生变化的方法为,将新旧目标系统的网页的html代码解析成DOM树结构后,不需要输入需要检测部分的定位信息,仅通过提取DOM中全部的form表单、输入标签来对比它们是否发生变化。
9.根据权利要求1或2所述的针对网页变化的自动回归检测与块匹配的自适应方法,其特征在于,在图形界面分析步骤中,通过图形处理获得多个矩形框,按照矩形框的包含关系得出矩形框的层级结构,并结合DOM的结构生成树结构的图形区域。
10.一种针对网页变化的自动回归检测与块匹配的自适应装置,其特征在于包括如下单元:
网页变化检测单元,用于检测新旧目标系统的网页是否发生变化并给出报告;
内容块匹配单元,用于接收检测到变化的报告后对网页进行分析,找出新目标系统的网页与旧目标系统的网页对应的内容块部分,内容块匹配单元包括:文字分析模块,用于获得语义信息与文字区域;图形界面分析模块,用于获得图形区域;映射模块,用于对以上获得的语义信息、文字区域和图形区域进行相似度匹配,然后基于对应的内容块部分的变化,给出针对现有数据提取系统或工具的代码修改建议。
CN201811124012.XA 2018-09-26 2018-09-26 针对网页变化的自动回归检测与块匹配自适应方法和装置 Active CN109344355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811124012.XA CN109344355B (zh) 2018-09-26 2018-09-26 针对网页变化的自动回归检测与块匹配自适应方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811124012.XA CN109344355B (zh) 2018-09-26 2018-09-26 针对网页变化的自动回归检测与块匹配自适应方法和装置

Publications (2)

Publication Number Publication Date
CN109344355A true CN109344355A (zh) 2019-02-15
CN109344355B CN109344355B (zh) 2022-03-15

Family

ID=65306539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811124012.XA Active CN109344355B (zh) 2018-09-26 2018-09-26 针对网页变化的自动回归检测与块匹配自适应方法和装置

Country Status (1)

Country Link
CN (1) CN109344355B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968761A (zh) * 2019-11-29 2020-04-07 福州大学 一种网页结构化数据自适应提取方法
CN111079043A (zh) * 2019-12-05 2020-04-28 北京数立得科技有限公司 一种关键内容定位方法
CN111158973A (zh) * 2019-12-05 2020-05-15 北京大学 一种web应用动态演化监测方法
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN112887381A (zh) * 2021-01-15 2021-06-01 中国地质大学(武汉) 用于面向特定网络入口的新内容检测和汇聚方法及装置
CN113626028A (zh) * 2020-05-07 2021-11-09 腾讯科技(深圳)有限公司 一种页面元素的映射方法及装置

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001268674B2 (en) * 2000-06-22 2007-04-26 Microsoft Technology Licensing, Llc Distributed computing services platform
CN101026503A (zh) * 2006-02-24 2007-08-29 国际商业机器公司 Web服务业务流程的单元测试的方法和设备
CN101127044A (zh) * 2007-06-08 2008-02-20 北京大学 动态网页的分块方法
CN101141449A (zh) * 2007-10-22 2008-03-12 珠海金山软件股份有限公司 实现Web客户端软件自适应运行的装置和方法
CN101174899A (zh) * 2007-11-26 2008-05-07 中兴通讯股份有限公司 用于ason网络中的业务保护与恢复的自动测试方法
CN101178708A (zh) * 2006-11-07 2008-05-14 北京酷讯科技有限公司 针对结构化网页的自动模板信息定位方法
CN101207639A (zh) * 2007-12-03 2008-06-25 华为技术有限公司 对用户进行分类的方法与装置
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
US20080281834A1 (en) * 2007-05-09 2008-11-13 Microsoft Corporation Block tracking mechanism for web personalization
CN101408877A (zh) * 2007-10-10 2009-04-15 英业达股份有限公司 树节点加载系统及其方法
CN101477571A (zh) * 2009-01-07 2009-07-08 华天清 网络内容语义结构标注的方法和装置
CN101546261A (zh) * 2008-10-10 2009-09-30 华中科技大学 多策略支持的安全网页标签库系统
CN101593184A (zh) * 2008-05-29 2009-12-02 国际商业机器公司 自适应地定位动态网页元素的系统和方法
CN101655862A (zh) * 2009-08-11 2010-02-24 华天清 信息对象搜索的方法和装置
US20100287132A1 (en) * 2009-05-05 2010-11-11 Paul A. Lipari System, method and computer readable medium for recording authoring events with web page content
CN102004805A (zh) * 2010-12-30 2011-04-06 上海交通大学 基于最大相似性匹配的网页去噪系统及其去噪方法
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
CN102662969A (zh) * 2012-03-11 2012-09-12 复旦大学 一种基于网页结构语义的互联网信息对象定位方法
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN102955854A (zh) * 2012-11-06 2013-03-06 北京中娱在线网络科技有限公司 一种基于html5协议的网页展现方法及装置
US20130332451A1 (en) * 2012-06-06 2013-12-12 Fliptop, Inc. System and method for correlating personal identifiers with corresponding online presence
US20140123186A1 (en) * 2002-05-10 2014-05-01 Convergent Media Solutions Llc Method and apparatus for browsing using alternative linkbases
CN108345687A (zh) * 2018-03-09 2018-07-31 沈文策 一种3d网页展示方法和装置

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001268674B2 (en) * 2000-06-22 2007-04-26 Microsoft Technology Licensing, Llc Distributed computing services platform
US20140123186A1 (en) * 2002-05-10 2014-05-01 Convergent Media Solutions Llc Method and apparatus for browsing using alternative linkbases
CN101026503A (zh) * 2006-02-24 2007-08-29 国际商业机器公司 Web服务业务流程的单元测试的方法和设备
CN101178708A (zh) * 2006-11-07 2008-05-14 北京酷讯科技有限公司 针对结构化网页的自动模板信息定位方法
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
US20080281834A1 (en) * 2007-05-09 2008-11-13 Microsoft Corporation Block tracking mechanism for web personalization
CN101127044A (zh) * 2007-06-08 2008-02-20 北京大学 动态网页的分块方法
CN101408877A (zh) * 2007-10-10 2009-04-15 英业达股份有限公司 树节点加载系统及其方法
CN101141449A (zh) * 2007-10-22 2008-03-12 珠海金山软件股份有限公司 实现Web客户端软件自适应运行的装置和方法
CN101174899A (zh) * 2007-11-26 2008-05-07 中兴通讯股份有限公司 用于ason网络中的业务保护与恢复的自动测试方法
CN101207639A (zh) * 2007-12-03 2008-06-25 华为技术有限公司 对用户进行分类的方法与装置
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101593184A (zh) * 2008-05-29 2009-12-02 国际商业机器公司 自适应地定位动态网页元素的系统和方法
CN101546261A (zh) * 2008-10-10 2009-09-30 华中科技大学 多策略支持的安全网页标签库系统
CN101477571A (zh) * 2009-01-07 2009-07-08 华天清 网络内容语义结构标注的方法和装置
US20100287132A1 (en) * 2009-05-05 2010-11-11 Paul A. Lipari System, method and computer readable medium for recording authoring events with web page content
CN101655862A (zh) * 2009-08-11 2010-02-24 华天清 信息对象搜索的方法和装置
CN102004805A (zh) * 2010-12-30 2011-04-06 上海交通大学 基于最大相似性匹配的网页去噪系统及其去噪方法
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN102662969A (zh) * 2012-03-11 2012-09-12 复旦大学 一种基于网页结构语义的互联网信息对象定位方法
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
US20130332451A1 (en) * 2012-06-06 2013-12-12 Fliptop, Inc. System and method for correlating personal identifiers with corresponding online presence
CN102955854A (zh) * 2012-11-06 2013-03-06 北京中娱在线网络科技有限公司 一种基于html5协议的网页展现方法及装置
CN108345687A (zh) * 2018-03-09 2018-07-31 沈文策 一种3d网页展示方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN110968761A (zh) * 2019-11-29 2020-04-07 福州大学 一种网页结构化数据自适应提取方法
WO2021103557A1 (zh) * 2019-11-29 2021-06-03 福州大学 一种网页结构化数据自适应提取方法
CN110968761B (zh) * 2019-11-29 2022-07-08 福州大学 一种网页结构化数据自适应提取方法
CN111079043A (zh) * 2019-12-05 2020-04-28 北京数立得科技有限公司 一种关键内容定位方法
CN111158973A (zh) * 2019-12-05 2020-05-15 北京大学 一种web应用动态演化监测方法
CN111158973B (zh) * 2019-12-05 2021-06-18 北京大学 一种web应用动态演化监测方法
CN111079043B (zh) * 2019-12-05 2023-05-12 北京数立得科技有限公司 一种关键内容定位方法
CN113626028A (zh) * 2020-05-07 2021-11-09 腾讯科技(深圳)有限公司 一种页面元素的映射方法及装置
CN112887381A (zh) * 2021-01-15 2021-06-01 中国地质大学(武汉) 用于面向特定网络入口的新内容检测和汇聚方法及装置
CN112887381B (zh) * 2021-01-15 2022-07-19 中国地质大学(武汉) 用于面向特定网络入口的新内容检测和汇聚方法及装置

Also Published As

Publication number Publication date
CN109344355B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN109344355A (zh) 针对网页变化的自动回归检测与块匹配自适应方法和装置
US5794257A (en) Automatic hyperlinking on multimedia by compiling link specifications
US8799772B2 (en) System and method for gathering, indexing, and supplying publicly available data charts
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
Kovbasistyi et al. Method for detection of non-relevant and wrong information based on content analysis of web resources
US8676814B2 (en) Automatic face annotation of images contained in media content
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
WO2008021561A2 (en) Joint optimization of wrapper generation and template detection
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
Papadakis et al. Stavies: A system for information extraction from unknown web data sources through automatic web wrapper generation using clustering techniques
CN106960058B (zh) 一种网页结构变更检测方法及系统
US20080172220A1 (en) Incorrect Hyperlink Detecting Apparatus and Method
US20090019015A1 (en) Mathematical expression structured language object search system and search method
CN102955848A (zh) 一种基于语义的三维模型检索系统和方法
CN103810251B (zh) 一种文本提取方法及装置
CN111079043A (zh) 一种关键内容定位方法
US20100185684A1 (en) High precision multi entity extraction
US20120304051A1 (en) Automation Tool for XML Based Pagination Process
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
CN107015907A (zh) 一种自动准确定位页面元素的系统和方法
CN111158973B (zh) 一种web应用动态演化监测方法
US20080015843A1 (en) Linguistic Image Label Incorporating Decision Relevant Perceptual, Semantic, and Relationships Data
CN114238735B (zh) 一种互联网数据智能采集方法
Liu et al. An automated algorithm for extracting website skeleton
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: No. 826, building 12345, Phoenix legend, Hanbang, Jingyue Development Zone, Changchun City, Jilin Province

Patentee after: Intel Technology Co.,Ltd.

Address before: No. 826, building 12345, Phoenix legend, Hanbang, Jingyue Development Zone, Changchun City, Jilin Province

Patentee before: Changchun interui Software Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 826, building 12345, Phoenix legend, Hanbang, Jingyue Development Zone, Changchun City, Jilin Province

Patentee after: Changchun interui Software Co.,Ltd.

Address before: Room 1626, No. 65, North Fourth Ring West Road, Haidian District, Beijing 100080

Patentee before: BEIJING INTERNETWARE Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 130117, 30th floor, Building A2, Mingyu Plaza, No. 3777 Ecological Street, Jingyue High tech Industrial Development Zone, Changchun City, Jilin Province

Patentee after: Shenqi Digital Co.,Ltd.

Country or region after: China

Address before: No. 826, building 12345, Phoenix legend, Hanbang, Jingyue Development Zone, Changchun City, Jilin Province

Patentee before: Intel Technology Co.,Ltd.

Country or region before: China