CN104391953B - 检测网页更新的方法及装置 - Google Patents

检测网页更新的方法及装置 Download PDF

Info

Publication number
CN104391953B
CN104391953B CN201410709349.2A CN201410709349A CN104391953B CN 104391953 B CN104391953 B CN 104391953B CN 201410709349 A CN201410709349 A CN 201410709349A CN 104391953 B CN104391953 B CN 104391953B
Authority
CN
China
Prior art keywords
webpage
history
current accessed
accessed
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410709349.2A
Other languages
English (en)
Other versions
CN104391953A (zh
Inventor
冯鸳鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410709349.2A priority Critical patent/CN104391953B/zh
Publication of CN104391953A publication Critical patent/CN104391953A/zh
Application granted granted Critical
Publication of CN104391953B publication Critical patent/CN104391953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种检测网页更新的方法及装置。该检测网页更新的方法包括:获取待检测网站的历史访问记录;根据历史访问记录确定待检测网站内的历史访问网页;获取待检测网站的当前访问记录;根据待检测网站的当前访问记录获取待检测网站内的当前访问网页;判断当前访问网页是否出现在历史访问网页中;如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页;如果当前访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页,解决了对网页更新情况进行检测时消耗负载比较大的问题,进而通过利用网站的历史访问记录确定当前网页是否为新增网页,达到了在不造成较大负载消耗的情况下对网页更新情况进行检测的效果。

Description

检测网页更新的方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种检测网页更新的方法及装置。
背景技术
网站的内容更新量主要是指网站最新发布或者添加的网页数量,其对于网站优化来说是一个重要的参考指标。目前,很多网站都具备用户行为数据统计功能,换言之,一个网站的用户的行为数据对该网站来说是完备的,而且是有大量历史积累的。网站通常会对用户行为数据进行实时统计。与此同时,鉴于一个网站的内容更新数据的重要性,网站又不得不进行网站内容更新量的统计。这种做法通常会给网站运行带来以下的不利影响:
1、增加网站的运营成本。
2、增加网页加载负担或网站运行负担,影响网站的用户交互。
不管是使用什么方式进行网站内容更新量的统计,都会增加页面加载的负担或者网站运行的负担。例如,采用爬虫爬取的办法会占用服务器带宽;采用检测服务器文件夹的办法会增加服务器硬件运行成本;采用页面脚本文件(例如JavaScript)检测的办法会增加网页每次的加载时间。
3、降低网站的安全性。
安全性的降低主要是由于对外部的依赖关系增多引起的,其中任何一个依赖因素出现异常都可能导致网站不能正常显示。
针对相关技术中在对网页更新情况进行检测时消耗负载比较大的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种检测网页更新的方法及装置,以解决对网页更新量进行检测时消耗负载比较大的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种检测网页更新的方法。
根据本发明的检测网页更新的方法包括:获取待检测网站的历史访问记录,其中,历史访问记录包括待检测网站内被访问过的网页的访问记录;根据历史访问记录确定待检测网站内的历史访问网页;获取待检测网站的当前访问记录;根据待检测网站的当前访问记录获取待检测网站内的当前访问网页;判断当前访问网页是否出现在历史访问网页中;如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页;如果当前访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页。
进一步地,在判断当前访问网页是否出现在历史访问网页中之前,该方法还包括:获取当前访问网页的网页名称;获取当前访问网页的网页名称对应的数值;判断当前访问网页的网页名称对应的数值是否大于预设比较值,其中,如果当前访问网页的网页名称对应的数值不大于预设比较值,则确定当前访问网页不是新增网页,如果当前访问网页的网页名称对应的数值大于预设比较值,则判断当前访问网页是否出现在历史访问网页中。
进一步地,在获取待检测网站的当前访问记录之前,该方法还包括:分别获取历史访问网页的网页名称对应的数值,通过以下方法确定预设比较值:比较历史访问网页的网页名称对应的数值;获取历史访问网页的网页名称对应的数值中的最大值;确定最大值为预设比较值。
进一步地,在确定当前访问网页是新增网页之后,该方法还包括:确定当前访问网页的网页名称对应的数值为预设比较值,或者确定预设时间间隔;经过预设时间间隔之后,获取当前时间之前的历史访问网页的网页名称对应的数值;获取当前时间之前的历史访问网页的网页名称对应的数值的最大值;确定当前时间之前的历史访问网页的网页名称对应的数值的最大值为预设比较值。
进一步地,判断当前访问网页是否出现在历史访问网页中包括:获取目标路径值,其中,目标路径值为当前访问网页的统一资源定位符中包含的路径值;获取路径值集合,其中,路径值集合包括历史访问网页的统一资源定位符中包含的路径值;判断目标路径值是否出现在路径值集合中,其中,如果目标路径值出现在路径值集合中,则确定当前访问网页不是新增网页,如果目标路径值没有出现在路径值集合中,则确定当前访问网页是新增网页。
进一步地,在确定当前访问网页是新增网页之后,该方法还包括:统计新增网页的数量;添加当前访问记录到历史访问记录中。
为了实现上述目的,根据本发明的另一方面,提供了一种检测网页更新的装置。
根据本发明的检测网页更新的装置包括:第一获取单元,用于获取待检测网站的历史访问记录,其中,历史访问记录包括待检测网站内被访问过的网页的访问记录;第一确定单元,用于根据历史访问记录确定待检测网站内的历史访问网页;第二获取单元,用于获取待检测网站的当前访问记录;第三获取单元,用于根据待检测网站的当前访问记录获取待检测网站内的当前访问网页;第一判断单元,用于判断当前访问网页是否出现在历史访问网页中;第二确定单元,用于在当前访问网页出现在历史访问网页中时,确定当前访问网页不是新增网页;第三确定单元,用于在当前访问网页没有出现在历史访问网页中时,确定当前访问网页是新增网页。
进一步地,该装置还包括:第四获取单元,用于获取当前访问网页的网页名称;第五获取单元,用于获取当前访问网页的网页名称对应的数值;第二判断单元,用于判断当前访问网页的网页名称对应的数值是否大于预设比较值,其中,在当前访问网页的网页名称对应的数值不大于预设比较值时,确定当前访问网页不是新增网页,在当前访问网页的网页名称对应的数值大于预设比较值时,判断当前访问网页是否出现在历史访问网页中。
进一步地,该装置还包括:第六获取单元,用于分别获取历史访问网页的网页名称对应的数值,第四确定单元,用于通过以下模块确定预设比较值:比较模块,用于比较历史访问网页的网页名称对应的数值;获取模块,用于获取历史访问网页的网页名称对应的数值中的最大值;确定模块,用于确定最大值为预设比较值。
进一步地,该装置还包括:第五确定单元,用于确定当前访问网页的网页名称对应的数值为预设比较值,或者第六确定单元,用于确定预设时间间隔;第七获取单元,用于经过预设时间间隔之后,获取当前时间之前的历史访问网页的网页名称对应的数值;第八获取单元,用于获取当前时间之前的历史访问网页的网页名称对应的数值的最大值;第七确定单元,用于确定当前时间之前的历史访问网页的网页名称对应的数值的最大值为预设比较值。
通过本发明,采用包括如下步骤的方法:获取待检测网站的历史访问记录,其中,历史访问记录包括待检测网站内被访问过的网页的访问记录;根据历史访问记录确定待检测网站内的历史访问网页;获取待检测网站的当前访问记录;根据待检测网站的当前访问记录获取待检测网站内的当前访问网页;判断当前访问网页是否出现在历史访问网页中;如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页;如果当前访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页,解决了对网页更新情况进行检测时消耗负载比较大的问题,进而通过利用网站的历史访问记录确定当前网页是否为新增网页,达到了在不造成较大负载消耗的情况下对网页更新情况进行检测的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明的检测网页更新的方法的第一实施例的示意图;
图2是根据本发明的检测网页更新的方法的第二实施例的示意图;
图3是根据本发明的检测网页更新的装置的第一实施例的示意图;以及
图4是根据本发明的检测网页更新的装置的第二实施例的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是根据本发明的检测网页更新的方法的第一实施例的示意图。如图1所示,该方法包括如下的步骤S102至步骤S114:
步骤S102,获取待检测网站的历史访问记录,其中,历史访问记录包括待检测网站内被访问过的网页的访问记录。
待检测网站的历史访问记录可以从网站的用户行为数据中获取。网站的用户行为数据包含很多种记录,例如用户的历史访问记录、用户的历史页面点击记录、用户的历史会话记录、用户的历史站内搜索记录等。对于检测网站内容更新情况来说,由于用户的历史访问记录中有被访问网站的访问路径数据(即待检测网站内被访问过的网页的访问记录),因此,只获取用户的历史访问记录即可满足需求。
步骤S104,根据历史访问记录确定待检测网站内的历史访问网页。
网站的历史访问记录中有被用户访问的页面路径,使用这些数据可以获知该网站有哪些网页是已经被用户访问过的,即这些页面为已经存在于该网站中的网页。需要说明的是,如果一个网站的用户行为数据已经累计了一定时间的话,基本可以保证网站中已经存在的网页均为被访问过的网页,换言之,通过该网站的所有用户行为数据解析出的所有被访问过的网页几乎可以涵盖该网站中所有真实存在的网页。
步骤S106,获取待检测网站的当前访问记录。
步骤S108,根据待检测网站的当前访问记录获取待检测网站内的当前访问网页。
同样的道理,通过获取待检测网站的当前访问记录,可以获取待检测网站内的当前访问网页。当前访问网页可能是已经被用户访问过的网页,也可能是网站的新增网页,首次被用户访问。需要说明的是,首次被用户访问的网页可能为网站的最新发布网页,也可能为网站的历史发布网页。对于某些网页来说,由于影响力较小等缘故,自首次发布在网站以来,可能至当前时间才首次被用户访问。
步骤S110,判断当前访问网页是否出现在历史访问网页中。
步骤S112,如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页。
步骤S114,如果当前访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页。
当前访问网页可能为已经被访问过的网页,即在历史访问网页中已经存在。通过将当前访问网页与全部的历史访问网页一一进行对比,可以获知当前访问网页是否已为网站现存的历史访问网页。如果当前访问网页出现在历史访问网页中,则可以确定当前访问网页不是新增网页,而是已被访问过的网页;如果当前访问网页没有出现在历史访问网页中,则可以确定当前访问网页是新增网页。需要说明的是,由于网站的用户访问数据通常是经过了长时间的累积的,因此,可以认为网站的所有现存网页均被用户访问过。于是,在当前访问网页没有出现在历史访问网页中时,可以认为当前访问网页是新增网页。
优选地,可以通过以下方法判断当前访问网页是否出现在历史访问网页中:获取目标路径值,其中,目标路径值为当前访问网页的统一资源定位符中包含的路径值;获取路径值集合,其中,路径值集合包括历史访问网页的统一资源定位符中包含的路径值;判断目标路径值是否出现在路径值集合中,其中,如果目标路径值出现在路径值集合中,则确定当前访问网页不是新增网页,如果目标路径值没有出现在路径值集合中,则确定当前访问网页是新增网页。
需要说明的是,一个网页的统一资源定位符地址包含的路径值是统一资源定位符地址中除域名之外的绝对地址,通常是网页文件在服务器上相对该网站的物理路径。它的特点是,对应同一个网站的多个网页,即使域名不同,但是这些网页的路径值却是同一个路径值。
例如,表1提供了网页的统一资源定位符地址及其包含的目标路径值。如表1所示:
表1
可选地,在确定当前访问网页不是新增网页之后,可以对网站的内容更新页进行统计。网站的内容更新页是一个网站新发布的内容页,由于历史访问页面几乎涵盖了网站已经存在的所有网页,所以可以认为不在历史访问网页中的网页肯定是该网站新发布的网页。并且,由于历史访问记录是从网站用户访问数据中解析出来的访问记录,完全可以保证该记录对应真实的网站页面。于是,按照上述方法可以检测出当前访问网页是否为新增网页,在确定当前访问网页不是新增网页的情况下,可以对网站内容的更新量进行统计,即将网站内容的更新页的数量增加1。
该实施例采取了以下步骤:获取待检测网站的历史访问记录,其中,历史访问记录包括待检测网站内被访问过的网页的访问记录;根据历史访问记录确定待检测网站内的历史访问网页;获取待检测网站的当前访问记录;根据待检测网站的当前访问记录获取待检测网站内的当前访问网页;判断当前访问网页是否出现在历史访问网页中;如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页;如果当前访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页。通过上述步骤,使得网页更新检测过程是基于网站用户行为数据中的用户访问记录的相关数据,即使用的是已有的、成熟的用户访问数据,检测结果的准确性得以保障,同时,不会给网站带来时间和成本上的负担,达到了在不造成较大负载消耗的情况下对网页更新情况进行检测的效果。
图2是根据本发明的检测网页更新的方法的第二实施例的示意图。该实施例可以作为图1所示实施例的一种优选实施方式。如图2所示,该方法包括如下的步骤S201至步骤S210:
步骤S201,获取待检测网站的历史访问记录,其中,历史访问记录包括待检测网站内被访问过的网页的访问记录。
该步骤同步骤S102,这里不再赘述。
步骤S202,根据历史访问记录确定待检测网站内的历史访问网页。
该步骤同步骤S104,这里不再赘述。
步骤S203,获取待检测网站的当前访问记录。
该步骤同步骤S106,这里不再赘述。
步骤S204,根据待检测网站的当前访问记录获取待检测网站内的当前访问网页。
该步骤同步骤S108,这里不再赘述。
步骤S205,获取当前访问网页的网页名称。
步骤S206,获取当前访问网页的网页名称对应的数值。
对一个网站来说,可能存在如下情况:在网站尚未统计用户访问数据之前,网站发布了一个新的内容网页。由于该内容网页的内容比较生僻,一直到当前时间,才首次被访问。因此,在网站的用户访问数据中没有对应该内容网页的历史访问数据。于是,在进行网页更新情况检测时,由于在历史访问页面中不能查找到该内容网页,因此,该网页会被认为是新增网页,进而产生错误的检测结果。
网站每发布一个新的网页都会为该网页指定一个值作为网页名称,该网页名称对应网页路径最后的字符串部分。通常,由于一个网站存在的网页数量巨大,因此,发布网页的机制都是会按照发布时间值或者使用一个增长序列来作为网页名称。越早发布的网页的名称对应的值越小,越晚发布的网页的名称对应的值越大。因此,可以通过比对网页的名称对应的值来检测网站中内容比较生僻的网页。
网页名称类似于文件名称,是网页层级路径之外包含后缀名的字符串部分。例如,表2提供了网页的统一资源定位符及其对应的网页名称。如表2所示:
表2
网页名称中对应的时间值是网页的统一资源定位符中明确表示发布时间的时间字符串,最新的搜索引擎优化标准中表明网页的统一资源定位符中有明确发布日期的字符串。例如,http://www.gov.cn/guowuyuan/2014-11/18/content_2780213.htm中的“/2014-11/18/”即为网页名称中包含的时间值。
增长序列是指网站对发布的内容网页的排序号,一般存在于网页名称中。该排序号遵循网页发布时间越早对应序号越小、网页发布时间越晚对应序号越大的规则。例如,网页统一资源定位符为:http://www.gov.cn/guowuyuan/2014-11/18/content_2780213.htm,其中的2780213即为内容网页的排序号;网页统一资源定位符为:http://www.gov.cn/guowuyuan/2014-11/18/content_2780570.htm,其中的2780570即为内容网页的排序号。这里,排序号为2780570的网页发布时间晚于排序号为2780213的网页,并且二者属于同一天发布(日期均为2014-11-18)。
步骤S207,判断当前访问网页的网页名称对应的数值是否大于预设比较值,其中,如果当前访问网页的网页名称对应的数值不大于预设比较值,则确定当前访问网页不是新增网页,如果当前访问网页的网页名称对应的数值大于预设比较值,则判断当前访问网页是否出现在历史访问网页中。
可选地,在获取待检测网站的当前访问记录之前,还可以进行如下步骤:分别获取历史访问网页的网页名称对应的数值,通过以下方法确定预设比较值:比较历史访问网页的网页名称对应的数值;获取历史访问网页的网页名称对应的数值中的最大值;确定最大值为预设比较值。
在利用网站用户访问数据分析网站更新情况之前,可以以历史访问网页中最晚发布的网页对应的数值为基准,如果历史访问网页中最晚发布的网页对应的数值大于当前访问网页对应的数值,则认为当前访问网页发布在历史访问网页中最晚发布的网页之前,即当前访问网页不是该网站的新增网页;如果历史访问网页中最晚发布的网页对应的数值小于当前访问网页对应的数值,则需要将当前访问网页与历史访问网页进行对比。
步骤S208,判断当前访问网页是否出现在历史访问网页中。
该步骤同步骤S110,这里不再赘述。
步骤S209,如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页。
该步骤同步骤S112,这里不再赘述。
步骤S210,如果当前访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页。
可选地,在确定当前访问网页是新增网页之后,还可以进行如下步骤:确定当前访问网页的网页名称对应的数值为预设比较值,或者进行如下步骤:确定预设时间间隔;经过预设时间间隔之后,获取当前时间之前的历史访问网页的网页名称对应的数值;获取当前时间之前的历史访问网页的网页名称对应的数值的最大值;确定当前时间之前的历史访问网页的网页名称对应的数值的最大值为预设比较值。
在确定当前访问网页是新增网页之后,可以将当前访问网页的网页名称对应的数值设定为预设比较值,在对下一个网页进行更新情况检测时,将下一个网页名称对应的数值与新的预设比较值进行比较。或者,每经过预设时间间隔,获取当前时间点之前的历史访问网页的网页名称对应的数值,并将其最大值设定为新的预设比较值。在下一个预设时间间隔之内出现的待检测网页,都与该新的预设比较值进行比较。第二种方法简便易行,同时,具有更好的时效性。需要说明的是,预设时间间隔可以按照网站需求设置,例如,可以将预设时间间隔设置为24小时等。
需要说明的是,对一个网站的网页内容更新的检测可以即时进行,即每当一个网页被用户访问,立即检测一次该网页是否为新增网页;也可以经过预设时间间隔进行一次检测。例如,每经过1个小时,对这1个小时之内的被访问的网页集中进行检测。这里,需要获取每个被访问的网页被访问的时间,将被访问的网页与该时间之前的历史访问网页进行比对。
可选地,在确定当前访问网页是新增网页之后,还可以进行如下步骤:统计新增网页的数量;添加当前访问记录到历史访问记录中。
在确定当前访问网页是新增网页之后,可以进行新增网页数量的统计。新增网页数量的统计对于网站管理以及优化,具有重要的参考意义。同时,由于该新增网页已经被访问过,因此,应当将当前访问记录添加到历史访问记录中,以免影响后续网页更新检测的准确性。
需要说明的是,对于一个网站而言,能够保证网页更新检测的准确性的前提条件是保证每个新增网页都被记录到历史访问记录中,而且是第一时间被记录。在此条件下,根据本发明,只需利用已有数据,在不给网站的运行和经济成本带来任何负担的情况下,能够准确地统计网站内容的更新量。
该实施例由于采取了以下步骤:获取待检测网站的历史访问记录,其中,历史访问记录包括待检测网站内被访问过的网页的访问记录;根据历史访问记录确定待检测网站内的历史访问网页;获取待检测网站的当前访问记录;根据待检测网站的当前访问记录获取待检测网站内的当前访问网页;获取当前访问网页的网页名称;获取当前访问网页的网页名称对应的数值;判断当前访问网页的网页名称对应的数值是否大于预设比较值,其中,如果当前访问网页的网页名称对应的数值不大于预设比较值,则确定当前访问网页不是新增网页,如果当前访问网页的网页名称对应的数值大于预设比较值,则判断当前访问网页是否出现在历史访问网页中;判断当前访问网页是否出现在历史访问网页中;如果当前访问网页出现在历史访问网页中,则确定当前访问网页不是新增网页;如果当前访问网页没有出现在历史访问网页中,则确定当前访问网页是新增网页,通过将当前访问网页的网页名称对应的数值与预设比较值进行比较,可以避免遗漏存在于网站中、但不存在于网页历史记录中的网页,进而使得网页更新的检测结果准确性更高。
根据本发明的实施例,提供了一种检测网页更新的装置。需要说明的是,本发明实施例的检测网页更新的装置可以用于执行本发明实施例所提供的检测网页更新的方法,本发明实施例的检测网页更新的方法也可以通过本发明实施例所提供的检测网页更新的装置来执行。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图3是根据本发明的检测网页更新的装置的第一实施例的示意图。如图3所示,该装置包括:第一获取单元10、第一确定单元20、第二获取单元30、第三获取单元40、第一判断单元50、第二确定单元60和第三确定单元70。
第一获取单元10,用于获取待检测网站的历史访问记录,其中,历史访问记录包括待检测网站内被访问过的网页的访问记录。
第一确定单元20,用于根据历史访问记录确定待检测网站内的历史访问网页。
第二获取单元30,用于获取待检测网站的当前访问记录。
第三获取单元40,用于根据待检测网站的当前访问记录获取待检测网站内的当前访问网页。
第一判断单元50,用于判断当前访问网页是否出现在历史访问网页中。
第二确定单元60,用于在当前访问网页出现在历史访问网页中时,确定当前访问网页不是新增网页。
第三确定单元70,用于在当前访问网页没有出现在历史访问网页中时,确定当前访问网页是新增网页。
本实施例提供的检测网页更新的装置包括:第一获取单元10、第一确定单元20、第二获取单元30、第三获取单元40、第一判断单元50、第二确定单元60和第三确定单元70。通过该装置,解决了对网页更新情况进行检测时消耗负载比较大的问题,进而通过利用网站的历史访问记录确定当前网页是否为新增网页,达到了在不造成较大负载消耗的情况下对网页更新情况进行检测的效果。
图4是根据本发明的检测网页更新的装置的第二实施例的示意图。图4是图3所示实施例的一种优选实施方式。如图4所示,该装置包括:第一获取单元10、第一确定单元20、第二获取单元30、第三获取单元40、第四获取单元80、第五获取单元90、第二判断单元100、第一判断单元50、第二确定单元60和第三确定单元70。其中,第一获取单元10、第一确定单元20、第二获取单元30、第三获取单元40、第一判断单元50、第二确定单元60和第三确定单元70和图3所示相同,这里不再赘述。
第四获取单元80,用于获取当前访问网页的网页名称。
第五获取单元90,用于获取当前访问网页的网页名称对应的数值。
第二判断单元100,用于判断当前访问网页的网页名称对应的数值是否大于预设比较值,其中,在当前访问网页的网页名称对应的数值不大于预设比较值时,确定当前访问网页不是新增网页,在当前访问网页的网页名称对应的数值大于预设比较值时,判断当前访问网页是否出现在历史访问网页中。
本实施例提供的检测网页更新的装置包括:第一获取单元10、第一确定单元20、第二获取单元30、第三获取单元40、第四获取单元80、第五获取单元90、第二判断单元100、第一判断单元50、第二确定单元60和第三确定单元70。该装置利用第二判断单元100将当前访问网页的网页名称对应的数值与预设比较值进行比较,可以避免遗漏存在于网站中、但不存在于网页历史记录中的网页,进而使得网页更新的检测结果准确性更高。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种检测网页更新的方法,其特征在于,包括:
获取待检测网站的历史访问记录,其中,所述历史访问记录包括所述待检测网站内被访问过的网页的访问记录;
根据所述历史访问记录确定所述待检测网站内的历史访问网页;
获取所述待检测网站的当前访问记录;
根据所述待检测网站的当前访问记录获取所述待检测网站内的当前访问网页;
获取所述当前访问网页的网页名称;
获取所述当前访问网页的网页名称对应的数值;
判断所述当前访问网页的网页名称对应的数值是否大于预设比较值,其中,如果所述当前访问网页的网页名称对应的数值不大于所述预设比较值,则确定所述当前访问网页不是新增网页,如果所述当前访问网页的网页名称对应的数值大于所述预设比较值,则判断所述当前访问网页是否出现在所述历史访问网页中;
如果所述当前访问网页出现在所述历史访问网页中,则确定所述当前访问网页不是新增网页;以及
如果所述当前访问网页没有出现在所述历史访问网页中,则确定所述当前访问网页是新增网页。
2.根据权利要求1所述的方法,其特征在于,
在获取所述待检测网站的当前访问记录之前,所述方法还包括:分别获取所述历史访问网页的网页名称对应的数值,
通过以下方法确定所述预设比较值:
比较所述历史访问网页的网页名称对应的数值;
获取所述历史访问网页的网页名称对应的数值中的最大值;以及
确定所述最大值为所述预设比较值。
3.根据权利要求2所述的方法,其特征在于,在确定所述当前访问网页是新增网页之后,所述方法还包括:
确定所述当前访问网页的网页名称对应的数值为所述预设比较值,或者
确定预设时间间隔;
经过所述预设时间间隔之后,获取当前时间之前的历史访问网页的网页名称对应的数值;
获取所述当前时间之前的历史访问网页的网页名称对应的数值的最大值;以及
确定所述当前时间之前的历史访问网页的网页名称对应的数值的最大值为所述预设比较值。
4.根据权利要求1所述的方法,其特征在于,判断所述当前访问网页是否出现在所述历史访问网页中包括:
获取目标路径值,其中,所述目标路径值为所述当前访问网页的统一资源定位符中包含的路径值;
获取路径值集合,其中,所述路径值集合包括所述历史访问网页的统一资源定位符中包含的路径值;以及
判断所述目标路径值是否出现在所述路径值集合中,
其中,如果所述目标路径值出现在所述路径值集合中,则确定所述当前访问网页不是新增网页,如果所述目标路径值没有出现在所述路径值集合中,则确定所述当前访问网页是新增网页。
5.根据权利要求1所述的方法,其特征在于,在确定所述当前访问网页是新增网页之后,所述方法还包括:
统计所述新增网页的数量;以及
添加所述当前访问记录到所述历史访问记录中。
6.一种检测网页更新的装置,其特征在于,包括:
第一获取单元,用于获取待检测网站的历史访问记录,其中,所述历史访问记录包括所述待检测网站内被访问过的网页的访问记录;
第一确定单元,用于根据所述历史访问记录确定所述待检测网站内的历史访问网页;
第二获取单元,用于获取所述待检测网站的当前访问记录;
第三获取单元,用于根据所述待检测网站的当前访问记录获取所述待检测网站内的当前访问网页;
第四获取单元,用于获取所述当前访问网页的网页名称;
第五获取单元,用于获取所述当前访问网页的网页名称对应的数值;
第二判断单元,用于判断所述当前访问网页的网页名称对应的数值是否大于预设比较值,其中,在所述当前访问网页的网页名称对应的数值不大于所述预设比较值时,确定所述当前访问网页不是新增网页;
第一判断单元,用于在所述当前访问网页的网页名称对应的数值大于所述预设比较值时,判断所述当前访问网页是否出现在所述历史访问网页中;
第二确定单元,用于在所述当前访问网页出现在所述历史访问网页中时,确定所述当前访问网页不是新增网页;以及
第三确定单元,用于在所述当前访问网页没有出现在所述历史访问网页中时,确定所述当前访问网页是新增网页。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第六获取单元,用于分别获取所述历史访问网页的网页名称对应的数值,
第四确定单元,用于通过以下模块确定所述预设比较值:
比较模块,用于比较所述历史访问网页的网页名称对应的数值;
获取模块,用于获取所述历史访问网页的网页名称对应的数值中的最大值;以及
确定模块,用于确定所述最大值为所述预设比较值。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第五确定单元,用于确定所述当前访问网页的网页名称对应的数值为所述预设比较值,或者
第六确定单元,用于确定预设时间间隔;
第七获取单元,用于经过所述预设时间间隔之后,获取当前时间之前的历史访问网页的网页名称对应的数值;
第八获取单元,用于获取所述当前时间之前的历史访问网页的网页名称对应的数值的最大值;以及
第七确定单元,用于确定所述当前时间之前的历史访问网页的网页名称对应的数值的最大值为所述预设比较值。
CN201410709349.2A 2014-11-27 2014-11-27 检测网页更新的方法及装置 Active CN104391953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410709349.2A CN104391953B (zh) 2014-11-27 2014-11-27 检测网页更新的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410709349.2A CN104391953B (zh) 2014-11-27 2014-11-27 检测网页更新的方法及装置

Publications (2)

Publication Number Publication Date
CN104391953A CN104391953A (zh) 2015-03-04
CN104391953B true CN104391953B (zh) 2017-12-19

Family

ID=52609857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410709349.2A Active CN104391953B (zh) 2014-11-27 2014-11-27 检测网页更新的方法及装置

Country Status (1)

Country Link
CN (1) CN104391953B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874298A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN106874300B (zh) * 2015-12-14 2020-05-22 北京国双科技有限公司 网页识别方法及装置和设置率确定方法和装置
CN106874299A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN106874302B (zh) * 2015-12-14 2019-12-24 北京国双科技有限公司 设置率确定方法和装置
CN108369560A (zh) * 2015-12-18 2018-08-03 三菱电机株式会社 数据处理装置、数据处理方法和数据处理程序
CN106649458A (zh) * 2016-09-26 2017-05-10 福建中金在线信息科技有限公司 一种文件更新量检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1437140A (zh) * 2002-02-05 2003-08-20 国际商业机器公司 对尚未访问的网页进行基于路径的排队的方法和系统
CN101782913A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种更新提醒的方法及浏览器
CN103020313A (zh) * 2013-01-08 2013-04-03 北京航空航天大学 一种基于探测网页更新周期的抓取方法
CN103677860A (zh) * 2012-08-30 2014-03-26 百度在线网络技术(北京)有限公司 一种用于更新浏览器的方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101010285B1 (ko) * 2008-11-21 2011-01-24 삼성전자주식회사 단말기의 웹 페이지 히스토리 운용 방법 및 장치
US20120131485A1 (en) * 2010-11-23 2012-05-24 Opera Software Asa System and method for providing interactive tab management in tabbed browsers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1437140A (zh) * 2002-02-05 2003-08-20 国际商业机器公司 对尚未访问的网页进行基于路径的排队的方法和系统
CN101782913A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种更新提醒的方法及浏览器
CN103677860A (zh) * 2012-08-30 2014-03-26 百度在线网络技术(北京)有限公司 一种用于更新浏览器的方法和设备
CN103020313A (zh) * 2013-01-08 2013-04-03 北京航空航天大学 一种基于探测网页更新周期的抓取方法

Also Published As

Publication number Publication date
CN104391953A (zh) 2015-03-04

Similar Documents

Publication Publication Date Title
CN104391953B (zh) 检测网页更新的方法及装置
CN104391979B (zh) 网络恶意爬虫识别方法及装置
CN108304410B (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN103092999B (zh) 一种网页抓取周期调整方法和装置
CN105357195A (zh) web访问的越权漏洞检测方法及装置
CN102932206B (zh) 监测网站访问信息的方法和系统
CN103605715B (zh) 用于多个数据源的数据整合处理方法和装置
CN102724059A (zh) 基于MapReduce的网站运行状态监控与异常检测
WO2012122384A1 (en) Determining preferred categories based on user access attribute values
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN110263070B (zh) 事件上报方法及装置
CN104182548B (zh) 网页更新处理方法及装置
CN104615748B (zh) 基于Watir的物联网Web事件处理方法
CN102831218A (zh) 热力图中的数据确定方法及装置
CN102932207A (zh) 监测网站访问信息的方法及服务器
CA3120833C (en) Identifying equivalent links on a page
CN104252348A (zh) 一种基于浏览器的网页访问统计方法及装置
CN105224691A (zh) 一种信息处理方法及装置
CN104408180A (zh) 内存数据的查询方法和装置
CN103559203A (zh) 网页排序方法、装置和系统
CN106354622B (zh) 测试网页的展示方法和装置
CN106815248A (zh) 网站分析方法及装置
CN106815277B (zh) 搜索引擎优化的评估方法及装置
CN105930385A (zh) 一种数据爬取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for detecting web page updating

Effective date of registration: 20190531

Granted publication date: 20171219

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20171219