CN104216904A - 监控网站模板变化的方法及装置 - Google Patents

监控网站模板变化的方法及装置 Download PDF

Info

Publication number
CN104216904A
CN104216904A CN201310216472.6A CN201310216472A CN104216904A CN 104216904 A CN104216904 A CN 104216904A CN 201310216472 A CN201310216472 A CN 201310216472A CN 104216904 A CN104216904 A CN 104216904A
Authority
CN
China
Prior art keywords
page
content
website form
extracts
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310216472.6A
Other languages
English (en)
Other versions
CN104216904B (zh
Inventor
高健
赵文琦
郑鑫
张欣
杨欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310216472.6A priority Critical patent/CN104216904B/zh
Publication of CN104216904A publication Critical patent/CN104216904A/zh
Application granted granted Critical
Publication of CN104216904B publication Critical patent/CN104216904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开监控网站模板变化的方法,包括:侦测到监控触发指令时,获取预先设置的网站模板对应的每个测试链接对应的页面;利用网站模板对应的抽取模板对所获取的页面进行页面抽取,获得当前页面抽取内容;将当前页面抽取内容与预期页面抽取内容进行比较,以判断对应的网站模板是否发生变化。本发明对应还公开监控网站模板变化的装置。本发明实施例通过预先设置页面的预期页面抽取内容,并将该页面抽取而获得的实际页面抽取内容与预期页面抽取内容进行比较,从而根据比较结果可以判断网站模板是否发生变化。该实施例及时监控网站模板的变化,以便及时调整相应的抽取模板,提高页面抽取的准确率。

Description

监控网站模板变化的方法及装置
技术领域
本发明涉及监控领域,尤其涉及一种监控网站模板变化的方法及装置。
背景技术
网站模板是指已经做好的页面框架,一个网站对应至少一个网站模板。在网站开发时,设计人员将网站模板制作好后,相应的负责人员则将网站模板上原有的内容替换为自己的内容后再发布。由于网站模板具有一定的规律,因此通过分析网站模板的html代码即可生成网站的抽取模板,从而可以快速提取由网站模板生成的页面的内容。但是当网站模板发生变化时,则利用原有的抽取模板将无法准确地提取页面内容。
现有技术中常用的方法是:第一,人工定时检查相应的页面,以判断网站模板是否发生变化;其缺点是人工成本较高,而且容易出错,无法有效地发现网站模板的变化。第二,使用抽取模板对页面进行抽取,然后再根据抽取的页面内容判断网站模板是否发生变化;其缺点是当页面的内容发生变化,将无法抽取到准确的页面内容。
综上,亟需一种高效、及时地检测网站模板的变化的方法。
发明内容
本发明实施例的主要目的是提供一种监控网站模板变化的方法及装置,旨在及时、有效地发现发生变化的网站模板,以便根据变化的网站模板调整抽取模板,提高页面内容抽取的准确性。
为实现以上目的,本发明实施例提供了一种监控网站模板变化的方法,包括以下步骤:
侦测到监控触发指令时,获取预先设置的网站模板对应的每个测试链接对应的页面;
利用网站模板对应的抽取模板对所获取的页面进行页面抽取,获得当前页面抽取内容;
将当前页面抽取内容与预期页面抽取内容进行比较,以判断对应的网站模板是否发生变化。
对应地,本发明实施例还提供了一种监控网站模板变化的装置,包括:
测试链接集设置模块,用于预先设置网站模板对应的多个页面链接作为测试链接集;
测试链接页面获取模块,用于侦测到监控触发指令时,获取预先设置的网站模板对应的每个测试链接对应的页面;
测试链接页面抽取模块,用于利用网站模板对应的抽取模板对所获取的页面进行页面抽取,获得当前页面抽取内容;
抽取内容比较模块,用于将当前页面抽取内容与预期页面抽取内容进行比较,以判断对应的网站模板是否发生变化。
本发明实施例通过预先设置页面的预期页面抽取内容,并将该页面抽取而获得的实际页面抽取内容与预期页面抽取内容进行比较,从而根据比较结果可以判断网站模板是否发生变化。该实施例及时监控网站模板的变化,以便及时调整相应的抽取模板,提高页面抽取的准确率。
附图说明
图1是本发明监控网站模板变化的方法一实施例的流程示意图;
图2是本发明监控网站模板变化的方法中获取测试链接集对应的页面的流程示意图;
图3是本发明监控网站模板变化的方法另一实施例的流程示意图;
图4是本发明预期页面与当前获取的页面对照第一示例的示意图;
图5是本发明预期页面与当前获取的页面对照第二示例的示意图;
图6是本发明预期页面与当前获取的页面对照第三示例的示意图;
图7是本发明监控网站模板变化的装置较佳实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
网站是指因特网上一块固定的面向全世界发布消息的地方,由域名和网站空间构成。一般包括主页面和其他具有超链接文件的页面。以新浪新闻“http://news.sina.com.cn/”的网站为例,其包括新浪新闻的主页面及其他具有超链接文件的页面,点击该超链接即可以转到其相应的子页面。例如,点击“科技”则进入相应的页面,而且该“科技”页面上又显示有不同的超链接标题,点击相应的超链接标题即可浏览相应的新闻。网站中的主页面及其他具有超链接文件的页面均对应有网站模板。例如该“科技”页面对应相应的网站模板,一旦该网站模板制作好后,发布人员即可根据该网站模板,添加相应的发布内容,以发布相应的新闻。
当今网络中的信息丰富、繁杂,若要搜索到用户感兴趣的内容,则需要通过页面抽取将页面的内容抽取出来,然后再筛选用户感兴趣的内容页面供用户浏览。因此,为了提高页面抽取的准确效率,本发明提出了一种监控网站模板变化的方法,可以及时监控网站模板是否发生变化,并对变化的网站模板相应地调整页面抽取的抽取模板。如图1所示,该监控网站模板变化的方法包括以下步骤:
步骤S110、预先设置网站模板对应的多个页面链接作为测试链接集;
一个网站将生成多个网站模板,例如新浪新闻“http://news.sina.com.cn/”的网站包括“科技”、“天气”、“财经”等网站模板,而且每个网站模板可对应多个页面,该多个页面均是通过该网站模板进行编辑后发布。该网站模板对应的页面可以从通过该网站模板发布的页面中随机选择,而且数量也不限定。将所选择的链接作为一个测试链接集:{patternA, {urlA1, urlA2, urlA3,…}}, {patternB,{urlB1,urlB2,urlB3,…}},{patternC,{urlC1,urlC2,urlC3, …
}}, …。其中,patternA、patternB、patternC…是各网站模板对应的抽取模板, patternA对应的测试链接集为urlA1, urlA2, urlA3,…;patternB对应的测试链接集为urlB1,urlB2,urlB3,…;patternC对应的测试链接集为urlC1,urlC2,urlC3
, …。
步骤S120、侦测到监控触发指令时,获取网站模板的每个测试链接对应的页面;
一实施例中,监控触发指令可以为监控人员触发产生,当需要检测网站模板是否发生变化时,则发出监控触发指令。另一实施例中,可以设定一定时器,设定监控触发指令产生的周期或具体时间,例如间隔2小时产生监控触发指令,或者每天的上午10:00产生监控触发指令。又一实施例中,监控触发指令由其他的事件触发,例如在该网站模板对应的页面发布时产生。另外,该监控触发指令可以指定网站的所有网站模板,也可以指定网站的特定一个或多个网站模板。
侦测到监控触发指令时,则根据监控触发指令,获取相应的网站模板的每个测试链接对应的页面。若监控触发指令对应的网站模板有多个时,则依次获取每个网站模板对应的测试链接集,并获取测试链接集中每个测试链接对应的页面数据。
步骤S130、利用网站模板对应的抽取模板对所获取的页面进行页面抽取,获得当前页面抽取内容;
获取到网站模板对应的测试链接集中每个测试链接对应的页面后,则利用网站模板对应的抽取模板对页面数据进行页面抽取,以获得页面抽取内容。例如:{patternA, {urlA1, resultA1}, {urlA2, resultA2}, {urlA3, resultA3}, …}, {patternB, {urlB1, resultB1}, {urlB2, resultB2}, {urlB3, resultB3}, …}, {patternC, {urlC1, resultC1}, {urlC2, resultC2}, {urlC3,resultC3}, …}, …。其中,resultA1是利用patternA对测试链接urlA1对应的页面进行抽取后获得的页面抽取内容。该页面抽取内容对应抽取模板所包括的内容不同。例如页面抽取内容包括标题、浏览次数、发布者、正文等标签在页面中的位置以及标签对应的内容等等。利用抽取模板对页面进行抽取的工作原理为现有技术,在此就不再赘述。
步骤S140、将当前页面抽取内容与预期页面抽取内容进行比较,以判断对应的网站模板是否发生变化。
预期页面抽取内容可以是预先设置的,并对应存储在存储介质中,其是利用网站模板对应的抽取模板对所获取的页面进行页面抽取而获得的页面抽取内容。该预期页面抽取内容也可以是前一次通过步骤S120进行页面抽取获得后对应存储在存储介质中。通过将当前页面抽取内容与预期页面抽取内容进行比较后,可以判断其对应的网站模板是否发生变化。以一网站模板A为例,其对应的抽取模板为patternA,该网站模板A对应的测试集及前一次页面抽取的页面内容为:{urlA1, resultA1′}, {urlA2, resultA2′}, {urlA3, resultA3′}, …。该网站模板A对应的测试集及当前页面抽取的页面内容为:{urlA1, resultA1}, {urlA2, resultA2}, {urlA3, resultA3}, …。然后,再分别将resultA1′与resultA1、resultA2′与resultA2、resultA3′与resultA3…进行比较,以根据比较结果判断对应的网站模板是否发生变化。根据变化的网站模板,相应地调整抽取模板,即可提高页面抽取的准确率。
本发明实施例通过预先设置页面的预期页面抽取内容,并将该页面抽取而获得的实际页面抽取内容与预期页面抽取内容进行比较,从而根据比较结果可以判断网站模板是否发生变化。该实施例及时监控网站模板的变化,以便及时调整相应的抽取模板,提高页面抽取的准确率。
参照图2,上述步骤S120具体包括:
步骤S121、侦测到监控触发指令时,根据监控触发指令获取网站模板对应的测试链接集;
在侦测到监控触发指令时,获取监控触发指令中指定的网站模板所对应的测试链接集。例如网站模板A对应的测试链接集为{urlA1, urlA2, urlA3,…}。
步骤S122、将测试链接集中每个测试链接依次发送至服务器,请求获取服务器上对应该测试链接的页面数据。
将网站模板A对应的测试链接集中的测试链接依次发送至服务器,以便获取服务器根据该测试链接查找相应的页面数据。
上述步骤S120的替换方案还可以为:先打开测试链接对应的页面,然后利用页面抓取工具,进行页面数据的抓取。
参照图3,提出本发明监控网站模板变化的方法另一实施例。本发明实施例在上一实施例的步骤S140之后还包括:
步骤S150、在当前页面抽取内容与预期页面抽取内容相同时,判断该网站模板未发生变化;
在比较当前页面抽取内容与预期页面抽取内容后,发现两者相同时,则判断该网站模板未发生变化,结束本流程。
步骤S160、在当前页面抽取内容与预期页面抽取内容不相同时,根据比较结果及预先设置的判断规则进行相应的处理。
在比较当前页面抽取内容与预期页面抽取内容后,发现两者有差异,则根据预先设置的判断规则进行相应的处理。
具体地,该预先设置的判断规则包括:
(1)若当前页面抽取内容与预期页面抽取内容比较后,发现仅标签对应对应的内容发生变化时,则判断该标签是敏感标签还是非敏感标签。若判断是敏感标签,则将当前页面抽取内容替换为预期页面抽取内容;若判断是非敏感标签,则不做处理。该敏感标签与非敏感标签根据用户自定义,敏感标签为用户关注的内容,例如标题、发布者等等;非敏感标签为用户可以忽略的内容,例如数值型、时间型数据,具体表现为浏览次数、发布时间、评论条数等等。
(2)若当前页面抽取内容与预期页面抽取内容比较后,发现当前页面抽取内容因为网络问题导致页面获取失败或者页面抽取失败而出错,则重新进行页面获取或者页面抽取,并重新进行网站模板的差异判断。
(3)若当前页面抽取内容与预期页面抽取内容比较后,发现标签对应的页面内容没有发生变化,则判断网站模板发生变化。并将比较结果输出,以便工作人员根据比较结果,进行抽取模板的相应调整。
基于上述装置实施例,本发明实施例在比较当前页面抽取内容与预期页面抽取内容不同后,则根据不同的比较结果进行相应的处理,从而排除其他原因引起的抽取内容不同,提高了网站模板变化的检测的准确率。
以新浪新闻网站中的“科技”页面为例对上述实施例进行具体描述。
首先,获取该“科技”页面的网站模板所对应的测试链接集,其中包括三个测试链接,第一个测试链接urlA1=“http://tech.sina.com.cn/it/2013-05-29
/01048387376.shtml”、第二个测试链接urlA2= “http://tech.sina.com.cn/it/2013
-05-29/08008389723.shtml”。第三个测试链接urlA3=“http://tech.sina.com.cn/it
/2013-05-29/06078389090.shtml”。
然后,获取每个测试链接对应的预期页面抽取内容。利用网站模板对应的抽取模板对测试链接对应的页面进行页面抽取,获得当前页面抽取内容。再将当前页面抽取内容与预期页面抽取内容进行比较,以判断该网站模板是否发生变化。
以测试链接urlA1为例,其预期页面与当前获取的页面对照可参照图4所示。其中,图4中的上部分表示预期页面,下部分表示当前获取的页面。将图4上部分的预期页面进行页面抽取时获得的预期页面抽取内容与图4下部分的当前获取的页面进行页面抽取时获得的当前页面抽取内容进行比较后,发现两者之间存在差异,但是仅评论条数发生了变化(如图4下部分中的A标记处),则对其不做处理。
以测试链接urlA1为例,其预期页面与当前获取的页面对照可参照图5所示,其中,图5中的上部分表示预期页面,下部分表示当前获取的页面。将图5中上部分的预期页面进行页面抽取时获得的预期页面抽取内容与图5中下部分的当前获取的页面进行页面抽取时获得的当前页面抽取内容进行比较后,发现两者之间存在差异,但是仅页面的标题发生了变化(如图5下部分中的B标记处),则将当前页面抽取内容替换为预期页面抽取内容。
以测试链接urlA1为例,其预期页面与当前获取的页面对照可参照图6所示,其中,图6中的左边表示预期页面,右边表示当前获取的页面。将图6中的预期页面进行页面抽取时获得的预期页面抽取内容与图6中的当前获取的页面进行页面抽取时获得的当前页面抽取内容进行比较后,发现两者之间存在差异,但是其页面内容未发生变化,则判断是网站模板发生了变化。由图6可知,其发生变化的位置为图6下部分中的C标记处。
对应上述方法实施例,参照图7,本发明实施例还提出一种监控网站模板变化的装置,包括:
测试链接集设置模块110,用于预先设置网站模板对应的多个页面链接作为测试链接集;
测试链接页面获取模块120,用于侦测到监控触发指令时,获取预先设置的网站模板对应的每个测试链接对应的页面;
测试链接页面抽取模块130,用于利用网站模板对应的抽取模板对所获取的页面进行页面抽取,获得当前页面抽取内容;
抽取内容比较模块140,用于将当前页面抽取内容与预期页面抽取内容进行比较,以判断对应的网站模板是否发生变化。
上述监控网站模板变化的装置可以嵌入至浏览器中,也可以单独设置并可与服务器通讯。测试链接集设置模块110所设置的测试链接对应的页面均是通过其网站模板进行编辑后发布的页面。该网站模板对应的页面可以从通过该网站模板发布的页面中随机选择,而且数量也不限定。
一实施例中,上述测试链接页面获取模块120用于:
侦测到监控触发指令时,根据监控触发指令获取网站模板对应的测试链接集;将测试链接集中每个测试链接依次发送至服务器,请求获取服务器上对应该测试链接的页面数据。另一实施例中,上述测试链接页面获取模块120用于:依次打开测试链接对应的页面,利用页面抓取工具,进行页面数据的抓取。若监控触发指令对应的网站模板有多个时,则依次获取每个网站模板对应的测试链接集,并获取测试链接集中每个测试链接对应的页面数据。
获取到网站模板对应的测试链接集中每个测试链接对应的页面后,则测试链接页面抽取模块130利用网站模板对应的抽取模板对页面数据进行页面抽取,以获得页面抽取内容。例如:{patternA, {urlA1, resultA1}, {urlA2, resultA2}, {urlA3, resultA3}, …}, {patternB, {urlB1, resultB1}, {urlB2, resultB2}, {urlB3,resultB3}, …}, {patternC, {urlC1, resultC1}, {urlC2,resultC2}, {urlC3, resultC3}, …}, …。其中,resultA1是利用patternA对测试链接urlA1对应的页面进行抽取后获得的页面抽取内容。该页面抽取内容对应抽取模板所包括的内容不同。例如页面抽取内容包括标题、浏览次数、发布者、正文等标签在页面中的位置以及标签对应的内容等等。利用抽取模板对页面进行抽取的工作原理为现有技术,在此就不再赘述。
上述抽取内容比较模块140中,预期页面抽取内容可以是预先设置的,并对应存储在存储介质中,其是利用网站模板对应的抽取模板对所获取的页面进行页面抽取而获得的页面抽取内容。该预期页面抽取内容也可以是前一次通过测试链接页面抽取模块130进行页面抽取获得后对应存储在存储介质中的页面抽取内容。抽取内容比较模块140通过将当前页面抽取内容与预期页面抽取内容进行比较后,可以判断其对应的网站模板是否发生变化。以一网站模板A为例,其对应的抽取模板为patternA,该网站模板A对应的测试集及前一次页面抽取的页面内容为:{urlA1, resultA1′}, {urlA2, resultA2′}, {urlA3, resultA3′}, …。该网站模板A对应的测试集及当前页面抽取的页面内容为:{urlA1, resultA1}, {urlA2, resultA2}, {urlA3, resultA3}, …。然后,再分别将resultA1′与resultA1、resultA2′与resultA2、resultA3′与resultA3…进行比较,以根据比较结果判断对应的网站模板是否发生变化。根据变化的网站模板,相应地调整抽取模板,即可提高页面抽取的准确率。
本发明实施例通过预先设置页面的预期页面抽取内容,并将该页面抽取而获得的实际页面抽取内容与预期页面抽取内容进行比较,从而根据比较结果可以判断网站模板是否发生变化。该实施例及时监控网站模板的变化,以便及时调整相应的抽取模板,提高页面抽取的准确率。
在另一实施例中,上述抽取内容比较模块140还用于:
在当前页面抽取内容与预期页面抽取内容相同时,判断该网站模板未发生变化;在当前页面抽取内容与预期页面抽取内容不相同时,根据比较结果及预先设置的判断规则进行相应的处理。
上述预先设置的判断规则包括:
(1)若当前页面抽取内容与预期页面抽取内容比较后,发现仅标签对应对应的内容发生变化时,则判断该标签是敏感标签还是非敏感标签。若判断是敏感标签,则将当前页面抽取内容替换为预期页面抽取内容;若判断是非敏感标签,则不做处理。该敏感标签与非敏感标签根据用户自定义,敏感标签为用户关注的内容,例如标题、发布者等等;非敏感标签为用户可以忽略的内容,例如数值型、时间型数据,具体表现为浏览次数、发布时间、评论条数等等。
(2)若当前页面抽取内容与预期页面抽取内容比较后,发现当前页面抽取内容因为网络问题导致页面获取失败或者页面抽取失败而出错,则重新进行页面获取或者页面抽取,并重新进行网站模板的差异判断。
(3)若当前页面抽取内容与预期页面抽取内容比较后,发现标签对应的页面内容没有发生变化,则判断网站模板发生变化。并将比较结果输出,以便工作人员根据比较结果,进行抽取模板的相应调整。
基于上述装置实施例,本发明实施例中,抽取内容比较模块140在比较当前页面抽取内容与预期页面抽取内容不同后,则根据不同的比较结果进行相应的处理,从而排除其他原因引起的抽取内容不同,提高了网站模板变化的检测的准确率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制其专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种监控网站模板变化的方法,其特征在于,包括以下步骤:
侦测到监控触发指令时,获取预先设置的网站模板对应的每个测试链接对应的页面;
利用网站模板对应的抽取模板对所获取的页面进行页面抽取,获得当前页面抽取内容;
将当前页面抽取内容与预期页面抽取内容进行比较,以判断对应的网站模板是否发生变化。
2.根据权利要求1所述的监控网站模板变化的方法,其特征在于,所述获取网站模板的每个测试链接对应的页面包括:
侦测到监控触发指令时,根据监控触发指令获取网站模板对应的测试链接集;
将测试链接集中每个测试链接依次发送至服务器,请求获取服务器上对应该测试链接的页面数据。
3.根据权利要求1所述的监控网站模板变化的方法,其特征在于,所述获取网站模板的每个测试链接对应的页面包括:
依次打开测试链接对应的页面;
利用页面抓取工具,进行页面数据的抓取。
4.根据权利要求1所述的监控网站模板变化的方法,其特征在于,所述将当前页面抽取内容与预期页面抽取内容进行比较,以判断对应的网站模板是否发生变化之后还包括:
在当前页面抽取内容与预期页面抽取内容相同时,判断该网站模板未发生变化;
在当前页面抽取内容与预期页面抽取内容不相同时,根据比较结果及预先设置的判断规则进行相应的处理。
5.根据权利要求1所述的监控网站模板变化的方法,其特征在于,所述预先设置的判断规则包括:
若当前页面抽取内容与预期页面抽取内容比较后,发现仅标签对应对应的内容发生变化时,则判断该标签是敏感标签还是非敏感标签;当判断是敏感标签,则将当前页面抽取内容替换为预期页面抽取内容;当判断是非敏感标签,则不做处理;
若当前页面抽取内容与预期页面抽取内容比较后,发现当前页面抽取内容为空,则重新进行页面获取或者页面抽取,并重新进行网站模板的差异判断;
若当前页面抽取内容与预期页面抽取内容比较后,发现标签对应的页面内容没有发生变化,则判断网站模板发生变化。
6.一种监控网站模板变化的装置,其特征在于,包括:
测试链接集设置模块,用于预先设置网站模板对应的多个页面链接作为测试链接集;
测试链接页面获取模块,用于侦测到监控触发指令时,获取预先设置的网站模板对应的每个测试链接对应的页面;
测试链接页面抽取模块,用于利用网站模板对应的抽取模板对所获取的页面进行页面抽取,获得当前页面抽取内容;
抽取内容比较模块,用于将当前页面抽取内容与预期页面抽取内容进行比较,以判断对应的网站模板是否发生变化。
7.根据权利要求6所述的监控网站模板变化的装置,其特征在于,所述测试链接页面获取模块用于:
侦测到监控触发指令时,根据监控触发指令获取网站模板对应的测试链接集;将测试链接集中每个测试链接依次发送至服务器,请求获取服务器上对应该测试链接的页面数据。
8.根据权利要求6所述的监控网站模板变化的装置,其特征在于,所述测试链接页面获取模块用于:
依次打开测试链接对应的页面,利用页面抓取工具,进行页面数据的抓取。
9.根据权利要求6所述的监控网站模板变化的装置,其特征在于,所述抽取内容比较模块还用于:
在当前页面抽取内容与预期页面抽取内容相同时,判断该网站模板未发生变化;在当前页面抽取内容与预期页面抽取内容不相同时,根据比较结果及预先设置的判断规则进行相应的处理。
10.根据权利要求6所述的监控网站模板变化的装置,其特征在于,所述预先设置的判断规则包括:
若当前页面抽取内容与预期页面抽取内容比较后,发现仅标签对应对应的内容发生变化时,则判断该标签是敏感标签还是非敏感标签;当判断是敏感标签,则将当前页面抽取内容替换为预期页面抽取内容;当判断是非敏感标签,则不做处理;
若当前页面抽取内容与预期页面抽取内容比较后,发现当前页面抽取内容为空,则重新进行页面获取或者页面抽取,并重新进行网站模板的差异判断;
若当前页面抽取内容与预期页面抽取内容比较后,发现标签对应的页面内容没有发生变化,则判断网站模板发生变化。
CN201310216472.6A 2013-06-03 2013-06-03 监控网站模板变化的方法及装置 Active CN104216904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310216472.6A CN104216904B (zh) 2013-06-03 2013-06-03 监控网站模板变化的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310216472.6A CN104216904B (zh) 2013-06-03 2013-06-03 监控网站模板变化的方法及装置

Publications (2)

Publication Number Publication Date
CN104216904A true CN104216904A (zh) 2014-12-17
CN104216904B CN104216904B (zh) 2018-09-04

Family

ID=52098407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310216472.6A Active CN104216904B (zh) 2013-06-03 2013-06-03 监控网站模板变化的方法及装置

Country Status (1)

Country Link
CN (1) CN104216904B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095674A (zh) * 2016-06-07 2016-11-09 百度在线网络技术(北京)有限公司 一种网站自动化测试方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060230343A1 (en) * 1998-12-08 2006-10-12 Yodlee.Com, Inc. Method and apparatus for detecting changes in websites and reporting results to web developers for navigation template repair purposes
CN101075320A (zh) * 2006-05-16 2007-11-21 申凌 信息发布、查询系统和方法
CN102457500A (zh) * 2010-10-22 2012-05-16 北京神州绿盟信息安全科技股份有限公司 一种网站扫描设备和方法
CN102651002A (zh) * 2011-02-28 2012-08-29 腾讯科技(深圳)有限公司 一种网页信息抽取方法及其系统
CN102663060A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种识别被篡改网页的方法及装置
CN103077107A (zh) * 2012-12-31 2013-05-01 Tcl集团股份有限公司 一种数据维护方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060230343A1 (en) * 1998-12-08 2006-10-12 Yodlee.Com, Inc. Method and apparatus for detecting changes in websites and reporting results to web developers for navigation template repair purposes
CN101075320A (zh) * 2006-05-16 2007-11-21 申凌 信息发布、查询系统和方法
CN102457500A (zh) * 2010-10-22 2012-05-16 北京神州绿盟信息安全科技股份有限公司 一种网站扫描设备和方法
CN102651002A (zh) * 2011-02-28 2012-08-29 腾讯科技(深圳)有限公司 一种网页信息抽取方法及其系统
CN102663060A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种识别被篡改网页的方法及装置
CN103077107A (zh) * 2012-12-31 2013-05-01 Tcl集团股份有限公司 一种数据维护方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095674A (zh) * 2016-06-07 2016-11-09 百度在线网络技术(北京)有限公司 一种网站自动化测试方法和装置

Also Published As

Publication number Publication date
CN104216904B (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN107766344B (zh) 一种模板渲染的方法、装置及浏览器
CN106095979B (zh) Url合并处理方法和装置
CN103729285A (zh) 一种网页测试方法、设备及系统
CN106066826A (zh) 埋点的自动测试方法、装置以及终端
CN102143016B (zh) 网站自动化测试方法和系统
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN102663000A (zh) 恶意网址数据库的建立方法、恶意网址的识别方法和装置
CN102870118B (zh) 用户行为的获取方法、设备及系统
CN102664925B (zh) 一种展现搜索结果的方法及装置
US8639559B2 (en) Brand analysis using interactions with search result items
CN111090797B (zh) 数据获取方法、装置、计算机设备和存储介质
CN105045620A (zh) 测量网页首屏加载时间的方法及检测设备
CN103246699A (zh) 一种基于浏览器的数据访问控制方法和装置
CN105718533A (zh) 信息推送方法和装置
CN109787974A (zh) 报文数据流生成方法、装置、计算机设备和存储介质
CN109408763B (zh) 一种对不同模板的简历进行管理的方法及系统
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN103678628B (zh) 信息推送方法及系统
CN104317884B (zh) 网站来源页面类型的获取方法和装置
CN105260469A (zh) 一种处理网站地图的方法、装置及设备
CN106446123A (zh) 一种网页中验证码元素识别方法
CN103488675A (zh) 一种多网页新闻评论内容自动精确提取装置
CN100489861C (zh) 数据查找方法、系统及设备
CN112035744A (zh) 一种页面推荐方法、装置、设备及存储介质
CN103617043B (zh) 一种带图片网页数据上传的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant