CN104182548A - 网页更新处理方法及装置 - Google Patents

网页更新处理方法及装置 Download PDF

Info

Publication number
CN104182548A
CN104182548A CN201410459114.2A CN201410459114A CN104182548A CN 104182548 A CN104182548 A CN 104182548A CN 201410459114 A CN201410459114 A CN 201410459114A CN 104182548 A CN104182548 A CN 104182548A
Authority
CN
China
Prior art keywords
web page
webpage
regular expression
type
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410459114.2A
Other languages
English (en)
Other versions
CN104182548B (zh
Inventor
李新国
冯鸳鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410459114.2A priority Critical patent/CN104182548B/zh
Publication of CN104182548A publication Critical patent/CN104182548A/zh
Application granted granted Critical
Publication of CN104182548B publication Critical patent/CN104182548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种网页更新处理方法及装置,该网页更新处理方法包括:获取待检测网页的网页地址;获取网页地址中用于标识网页更新时间的标识字段;获取预设基准字段,预设基准字段用于表示网页更新统计的开始时间;判断标识字段对应的时间是否晚于预设基准字段对应的时间;以及如果标识字段对应的时间早于预设基准字段对应的时间,则确定待检测网页不是新增页面,如果标识字段对应的时间不早于预设基准字段对应的时间,则确定待检测网页为新增页面。本发明解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题,进而达到了提高网页更新量统计的正确性的效果。

Description

网页更新处理方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网页更新处理方法及装置。
背景技术
网页更新量指的是在一定时间内网站新发布的页面数量,是评价网站绩效的一项重要指标。在通过网站访问日志分析网页更新量时,可能会遇到在网站开始监测之前就发布的网页,由于该网页在该监测期间被用户访问,错误的将该网页认定为新增的网页;或者是在该监测期间新发布的网页,由于在该监测期间该新增的网页从未被访问过,造成该新增网页的漏统计,以上两种情况都影响网页更新量分析的准确性。目前解决上述问题的方案有两种,第一种方案是在网站开始监测之后,人工将站内所有网页都浏览一遍,但该方案耗时耗力,且容易遗漏,仅适用于网页很少的情况;第二种方案是在网站监测之后,通过程序实现自动遍历整个网页,达到清除历史数据对于网页更新量的影响的目的,但是该方案必须由专业的技术人员才能实现,且工作量较大,同时不同网站之间的通用性不强。
针对相关技术中将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页更新处理方法及装置,以解决将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页更新处理方法。
根据本发明的网页更新处理方法包括:获取待检测网页的网页地址;获取网页地址中用于标识网页更新时间的标识字段;获取预设基准字段,预设基准字段用于表示网页更新统计的开始时间;判断标识字段对应的时间是否晚于预设基准字段对应的时间;以及如果标识字段对应的时间早于预设基准字段对应的时间,则确定待检测网页不是新增页面,如果标识字段对应的时间不早于预设基准字段对应的时间,则确定待检测网页为新增页面。
进一步地,获取待检测网页的网页地址包括:从网站访问日志中获取待检测网页访问日志;查找访问日志中标识网页地址的标识符;以及基于标识符获取网页地址。
进一步地,获取网页地址中用于标识网页更新时间的标识字段包括:获取预设正则表达式;以及根据预设正则表达式对网页地址进行正则匹配,得到标识字段。
进一步地,获取预设正则表达式包括:确定网页地址的匹配类型,匹配类型包括日期型、数字序列型和全局唯一标识符型;如果网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为预设正则表达式;如果网页地址的匹配类型为数字序列型,则选择用于匹配数字序列的正则表达式作为预设正则表达式;以及如果网页地址的匹配类型为全局唯一标识符型,则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
进一步地,在确定待检测网页为新增页面之后,该方法还包括:记录标识字段;判断是否获取完毕网站访问日志中的每一条网页访问日志;如果判断出获取完毕网站访问日志中的每一条网页访问日志,则比较记录的所有标识字段对应的时间;以及根据对应最晚时间的标识字段更新预设基准字段。
为了实现上述目的,根据本发明的另一方面,提供了一种网页更新处理装置。
根据本发明的网页更新处理装置包括:第一获取模块,用于获取待检测网页的网页地址;第二获取模块,用于获取网页地址中用于标识网页更新时间的标识字段;第三获取模块,用于获取预设基准字段,预设基准字段用于表示网页更新统计的开始时间;第一判断模块,用于判断标识字段对应的时间是否不早于预设基准字段对应的时间;以及确定模块,用于当标识字段对应的时间早于预设基准字段对应的时间时,则确定待检测网页不是新增页面,当标识字段对应的时间不早于预设基准字段对应的时间时,则确定待检测网页为新增页面。
进一步地,第一获取模块包括:第一获取单元,用于从网站访问日志中获取待检测网页的访问日志;查找单元,用于查找访问日志中标识网页地址的标识符;以及第二获取单元,用于基于标识符获取网页地址。
进一步地,第二获取模块包括:第三获取单元,用于获取预设正则表达式;以及匹配单元,用于根据预设正则表达式对网页地址进行正则匹配,得到标识字段。
进一步地,第三获取单元包括:第一确定单元,用于确定网页地址的匹配类型,匹配类型包括日期型、数字序列型和全局唯一标识符型;以及选择单元,用于当网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为预设正则表达式,当网页地址的匹配类型为数字序列型时,则选择用于匹配数字序列的正则表达式作为预设正则表达式,当网页地址的匹配类型为全局唯一标识符型时,则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
进一步地,在确定待检测网页为新增页面之后,该装置还包括:记录模块,用于记录标识字段;第二判断模块,用于判断是否获取完毕网站访问日志中的每一条网页访问日志;比较模块,用于当判断出获取完毕网站访问日志中的每一条网页访问日志时,比较记录的所有标识字段对应的时间;以及更新模块,用于根据对应最晚时间的标识字段更新预设基准字段。
通过本发明,采用将待检测网页的标识字段对应的时间与预设基准字段对应的时间进行比较来确定待检测页面是否是新增页面,解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题,进而达到了提高网页更新量统计的正确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网页更新处理方法的流程图;
图2是根据本发明第一实施例的网页更新处理装置的示意图;
图3是根据本发明第二实施例的网页更新处理装置的示意图;以及
图4是根据本发明第三实施例的网页更新处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
根据本发明实施,提供了一种网页更新处理方法,图1是根据本发明实施例的网页更新处理方法的流程图。
如图1所示,该方法包括如下的步骤S102至步骤S110:
步骤S102:获取待检测网页的网页地址。
步骤S104:获取网页地址中用于标识网页更新时间的标识字段。
现在网站的网页地址中都会包含一些标识字段,例如日期、数字序列、全局唯一标识符GUID等,通过比较这些标识字段可以知道网页发布的先后顺序。比如一个URL为http://www.gov.cn/guowuyuan/2014-07/31/content_2727857.htm的网页,中间字段2014-07/31即为该网页的发布日期。对于包含数字序列的URL,由于该数字序列的值根据时间递增,所以通过比较两个数字序列值可以得到其对应的网页发布的其先后顺序。同理,对于包含GUID的URL,由于该GUID也是根据时间递增的一个十六进制数数字序列,通过比较两个GUID也可以得到其对应的网页发布的其先后顺序。
步骤S106:获取预设基准字段,预设基准字段用于表示网页更新统计的开始时间。
要判断待检测的网页是否是新发布的网页,需要设定一个基准时间,用于与待检测的网站的发布时间进行比较。例如,对于URL包含日期字段的网页,设定一个日期字段基准值,对于URL包含数字序列的网页,设定一个数字序列字段基准值,对于URL包含GUID字段的网页,则设定一个GUID字段基准值。
步骤S108:判断标识字段对应的时间是否晚于预设基准字段对应的时间。
该标识字段对应的时间即待检测网页的发布时间,该预设基准字段对应的时间即网页更新统计的开始时间。通过比较待检测网页的标识字段和预设基准字段可以判断待检测网页的发布时间是否早于网页更新统计的开始时间。
步骤S110:如果标识字段对应的时间早于预设基准字段对应的时间,则确定待检测网页不是新增网页,如果标识字段对应的时间不早于预设基准字段对应的时间,则确定待检测网页为新增网页。
本发明实施例通过获取待检测网页地址中用于标识网页更新时间的标识字段,将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序,当待检测网页发布时间不早于网页更新统计的开始时间时,则检测网页是新增网页,当待检测网页发布时间早于网页更新统计的开始时间时则检测网页不是新增网页。由于只有待检测网页发布时间不早于网页更新统计的开始时间,该待检测网页才是新增网页,解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。
优选地,为了方便快捷的获取待检测网页的地址,获取待检测网页的网页地址包括:从网站访问日志中获取待检测网页的访问日志;查找访问日志中标识网页地址的标识符;以及基于标识符获取网页地址。
网站访问日志是通过JS代码收集的用户访问网站的数据,JS代码即Java Script语言编写的脚本文件的代码。当用户访问网站某一网页时会生成一条该网页的访问日志,从该网页访问日志中可以清楚的知道用户的访问IP、访问时间、访问网页地址、采用的浏览器等信息。由于一条网页访问日志包含许多的用户访问信息,而在进行网页更新量统计时只需要检测网页地址信息,通过在网页访问日志中设置一个标识符来确定网页地址在网页访问日志中的位置,因此通过查找网页地址的标识符可以找到网页访问日志中的网页地址。
由于网站访问日志记录了被用户访问的所有网页访问日志,为了提高网页更新量统计的效率,通常只获取网页更新量统计时间段内的网站访问日志,再依次对该网站访问日志中的每一条网页访问日志中包含的网页地址进行检测。通过网站访问日志可以方便快捷的获取到网页更新量统计时间段内被用户访问的所有网页地址。
优选地,为了快速准确的获取网页地址中用于标识网页更新时间的标识字段包括:获取预设正则表达式;以及根据预设正则表达式对网页地址进行正则匹配,得到标识字段。
正则表达式,又称正规表示法、常规表示法,英语为Regular Expression,在代码中常简写为regex、regexp或RE,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,就是用预先定义好的特定字符、及这些特定字符的组合,组成一个规则字符串,该规则字符串用来表达对字符串的一种过滤逻辑。例如,给定一个正则表达式和一个字符串,一是判断给定的字符串是否符合正则表达式的过滤逻辑,二是可以通过正则表达式,从给定的字符串中获取我们想要的特定部分。例如,一个用于匹配中国邮政编码的正则表达式为“[1-9]\\d{5}(?!\d)“,待匹配的字符串为“Chinabeijing100081haidian”,则通过该正则表达式可以匹配出待检测字符串中表示邮政编码的字段“100081”。
网站管理员根据网站地址包含的标识字段编写相应的正则表达式,例如,网页地址中包含日期字段的,则编写能够匹配出网页地址中日期字段的正则表达式,对于网页地址中包含数字序列字段的,则编写能够匹配出网页地址中数字序列字段的正则表达式,对于网页地址中包含GUID字段的,则编写能够匹配出网页地址中GUID字段的正则表达式。通过获取预设正则表达式,利用该预设正则表达式可以快速准确的匹配出待检测网页地址中的标识字段。
优选地,获取预设正则表达式包括:确定网页地址的匹配类型,匹配类型包括日期型、数字序列型和全局唯一标识符型;如果网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为预设正则表达式;如果网页地址的匹配类型为数字序列型,则选择用于匹配数字序列的正则表达式作为预设正则表达式;以及如果网页地址的匹配类型为全局唯一标识符型,则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
由于不同的网站的网页地址可能包含不同类型的标识字段。为了适应包含不同类型的标识字段的网页地址,通过预先根据不同表示字段类型编写相应的正则表达式。通过先确定待检测网页地址包含的标识字段类型来选择对应的能够匹配该标识字段的正则表达式。通过预先设置多种能够匹配不同类型的标识字段的正则表达式,能够提高对包含不同类型的标识字段的网页地址进行匹配的适应性。
优选地,为了在确定待检测网页为新增网页之后,方法还包括:记录标识字段;判断是否获取完毕网站访问日志中的每一条网页访问日志;如果判断出获取完毕网站访问日志中的每一条网页访问日志,则比较记录的所有标识字段对应的时间;以及根据对应最晚时间的标识字段更新预设基准字段。
本发明实施例通过依次检测网站访问日志中每一条网页访问日志来统计网页更新量。在网站访问日志中的每一条网页访问日志都被检测后,就可以得到在网页更新量统计时间段内所有新增网页的标识字段。通过比较这些标识字段可以得到一个对应于最晚的网页发布时间的标识字段,将该标识字段作为下一次网页更新量统计的预设基准字段。通常,网站都是按天来统计网页更新量,即统计每一天时间内网站的页面更新量。通过自动更新预设基准字段,从而在统计下一天的网页更新量时,不需要再预先设置基准字段。此外,通过每次网页更新量统计之后自动更新预设基准字段,可以避免人为设置的预设基准字段不准确的问题,从而可以提高下一次网页更新量统计的准确性。但是如果下一次进行网页更新量统计的时间与上一次进行网页更新量统计的时间不连续的话,则需要重新设置预设基准字段,例如,第一次网页更新量统计是统计8月5日新发布的网页数量,而第二次网页更新量统计却是统计8月8日新发布的网页数量,因此在进行第二次网页更新量统计前需要重新设置预设基准字段,但如果第二次网页更新量统计是统计8月6日新发布的网页数量则无须预先设置预设基准字段。
从以上的描述中,可以看出,本发明实现了如下技术效果:
本发明实施例通过正则表达式方便快速的获取待检测网页地址中用于标识网页更新时间的标识字段,将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序,当待检测网页发布时间不早于网页更新统计的开始时间时,则检测网页是新增网页,当待检测网页发布时间早于网页更新统计的开始时间时则检测网页不是新增网页。由于只有待检测网页发布时间不早于网页更新统计的开始时间,该待检测网页才是新增网页,从而可以避免将那些发布时间早于网页更新统计的开始时间的网页作为新增的网页,提高了网页更新量统计结果的准确性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,提供了一种网页更新处理装置,图2是根据本发明第一实施例的网页更新处理装置的示意图。
如图2所示,该网页更新处理装置包括:第一获取模块10,第二获取模块20,第三获取模块30,第一判断模块40和确定模块50。
第一获取模块10,用于获取待检测网页的网页地址。
第二获取模块20,用于获取网页地址中用于标识网页更新时间的标识字段。
现在网站的网页地址中都会包含一些标识字段,例如日期、数字序列、全局唯一标识符GUID等,通过比较这些标识字段可以知道网页发布的先后顺序。比如一个URL为http://www.gov.cn/guowuyuan/2014-07/31/content_2727857.htm的网页,中间字段2014-07/31即为该网页的发布日期。对于包含数字序列的URL,由于该数字序列的值根据时间递增,所以通过比较两个数字序列值可以得到其对应的网页发布的其先后顺序。同理,对于包含GUID的URL,由于该GUID也是根据时间递增的一个十六进制数数字序列,通过比较两个GUID也可以得到其对应的网页发布的其先后顺序。
第三获取模块30,用于获取预设基准字段,预设基准字段用于表示网页更新统计的开始时间;
要判断待检测的网页是否是新发布的网页,需要设定一个基准时间,用于与待检测的网站的发布时间进行比较。例如,对于URL包含日期字段的网页,设定一个日期字段基准值,对于URL包含数字序列的网页,设定一个数字序列字段基准值,对于URL包含GUID字段的网页,则设定一个GUID字段基准值。
第一判断模块40,用于判断标识字段对应的时间是否不早于预设基准字段对应的时间。
标识字段对应的时间即待检测网页的发布时间,预设基准字段对应的时间即网页更新统计的开始时间。通过比较待检测网页的标识字段和预设基准字段可以判断待检测网页的发布时间是否早于网页更新统计的开始时间。
确定模块50,用于当标识字段对应的时间早于预设基准字段对应的时间时,则确定待检测网页不是新增页面,当标识字段对应的时间不早于预设基准字段对应的时间时,则确定待检测网页为新增页面。
本发明第一实施例通过第一获取模块10获取待检测网页的网页地址,通过第二获取模块20获取上述网页地址中用于标识网页更新时间的标识字段,通过第一判断模块40判断该标识字段对应的时间是否晚于第三获取模块30获取的预设基准字段对应的时间,从而来确定待检测网页是否是新增网页。通过将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序来确定待检测网页是否为新增网页,只有待检测网页的发布时间不早于网页更新统计的开始时间时,待检测网页才是新增页面,解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。
图3是根据本发明第二实施例的网页更新处理装置的示意图。如图3所示,该处理装置包括:第一获取模块10,第二获取模块20,第三获取模块30,第一判断模块40和确定模块50,其中第一获取模块10包括第一获取单元101,查找单元102和第二获取单元103。
第一获取单元101,用于从网站访问日志中获取待检测网页的访问日志。
网站访问日志是通过JS代码收集的用户访问网站的数据,JS代码即Java Script语言编写的脚本文件的代码。当用户访问网站某一网页时会生成一条该网页的访问日志,从该网页访问日志中可以清楚的知道用户的访问IP、访问时间、访问网页地址、采用的浏览器等信息。
查找单元102,用于查找访问日志中标识网页地址的标识符。
由于一条网页访问日志包含许多的用户访问信息,而在进行网页更新量统计时只需要检测网页地址信息,通过在网页访问日志中设置一个标识符来确定网页地址在网页访问日志中的位置,因此通过查找网页地址的标识符可以找到网页访问日志中的网页地址。
第二获取单元103,用于基于标识符获取网页地址。
第二获取模块20、第三获取模块30、第一判断模块40和确定模块50同上所述,在此不再赘述。
由于网站访问日志记录了被用户访问的所有网页访问日志,为了提高网页更新量统计的效率,通常只获取网页更新量统计时间段内的网站访问日志,再依次对该网站访问日志中的每一条网页访问日志中包含的网页地址进行检测。通过网站访问日志可以方便快捷的获取到网页更新量统计时间段内被用户访问的所有网页地址。
图4是根据本发明第三实施例的网页更新处理装置的示意图。如图4所示,该处理装置包括:第一获取模块10,第二获取模块20,第三获取模块30,第一判断模块40和确定模块50,其中,第二获取模块20包括第三获取单元201和匹配单元202。
第三获取单元201,用于获取预设正则表达式。
正则表达式,又称正规表示法、常规表示法,英语为Regular Expression,在代码中常简写为regex、regexp或RE,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,就是用预先定义好的特定字符、及这些特定字符的组合,组成一个规则字符串,该规则字符串用来表达对字符串的一种过滤逻辑。例如,给定一个正则表达式和一个字符串,一是判断给定的字符串是否符合正则表达式的过滤逻辑,二是可以通过正则表达式,从给定的字符串中获取我们想要的特定部分。例如,一个用于匹配中国邮政编码的正则表达式为“[1-9]\\d{5}(?!\d)“,待匹配的字符串为“Chinabeijing100081haidian”,则通过该正则表达式可以匹配出待检测字符串中表示邮政编码的字段“100081”。
网站管理员根据网站地址包含的标识字段编写相应的正则表达式,例如,网页地址中包含日期字段的,则编写能够匹配出网页地址中日期字段的正则表达式,对于网页地址中包含数字序列字段的,则编写能够匹配出网页地址中数字序列字段的正则表达式,对于网页地址中包含GUID字段的,则编写能够匹配出网页地址中GUID字段的正则表达式。通过获取预设正则表达式,利用该预设正则表达式可以快速准确的匹配出待检测网页地址中的标识字段。
匹配单元202,用于根据预设正则表达式对网页地址进行正则匹配,得到标识字段。
第一获取模块10、第三获取模块30、第一判断模块40和确定模块50同上所述,在此不再赘述。
优选地,第三获取单元201包括:第一确定单元,用于确定网页地址的匹配类型,匹配类型包括日期型、数字序列型和全局唯一标识符型;以及选择单元,用于当网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为预设正则表达式,当网页地址的匹配类型为数字序列型时,则选择用于匹配数字序列的正则表达式作为预设正则表达式,当网页地址的匹配类型为全局唯一标识符型时,则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
由于不同的网站的网页地址可能包含不同类型的标识字段。为了适应包含不同类型的标识字段的网页地址,通过预先根据不同表示字段类型编写相应的正则表达式。通过先确定待检测网页地址包含的标识字段类型来选择对应的能够匹配该标识字段的正则表达式。通过预先设置多种能够匹配不同类型的标识字段的正则表达式,能够提高对包含不同类型的标识字段的网页地址进行匹配的适应性。
优选地,在确定网页为新增页面之后,该页面更新处理装置还包括:记录模块,用于记录标识字段;第二判断模块,用于判断网站访问日志是否获取完毕;比较模块,用于当网站访问日志获取完毕时,比较记录的所有标识字段对应的时间;以及更新模块,用于根据对应最晚时间的标识字段更新预设基准字段。
本发明实施例通过依次检测网站访问日志中每一条网页访问日志来统计网页更新量。在网站访问日志中的每一条网页访问日志都被检测后,就可以得到在网页更新量统计时间段内所有新增网页的标识字段。通过比较这些标识字段可以得到一个对应于最晚的网页发布时间的标识字段,将该标识字段作为下一次网页更新量统计的预设基准字段。通常,网站都是按天来统计网页更新量,即统计每一天时间内网站的页面更新量。通过自动更新预设基准字段,从而在统计下一天的网页更新量时,不需要再预先设置基准字段。此外,通过每次网页更新量统计之后自动更新预设基准字段,可以避免人为设置的预设基准字段不准确的问题,从而可以提高下一次网页更新量统计的准确性。但是如果下一次进行网页更新量统计的时间与上一次进行网页更新量统计的时间不连续的话,则需要重新设置预设基准字段,例如,第一次网页更新量统计是统计8月5日新发布的网页数量,而第二次网页更新量统计却是统计8月8日新发布的网页数量,因此在进行第二次网页更新量统计前需要重新设置预设基准字段,但如果第二次网页更新量统计是统计8月6日新发布的网页数量则无须预先设置预设基准字段。
综上,本发明实施例通过第一获取模块10获取待检测网页的网页地址,通过第二获取模块20获取上述网页地址中用于标识网页更新时间的标识字段,通过第一判断模块40判断该标识字段对应的时间是否晚于第三获取模块30获取的预设基准字段对应的时间,从而来确定待检测网页是否是新增网页。通过将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序来确定待检测网页是否为新增网页,只有待检测网页的发布时间不早于网页更新统计的开始时间时,待检测网页才是新增页面,解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。此外,第二获取模块20还包括第三获取单元201和匹配单元202,通过第三获取单元201获取预设正则表达式,通过匹配单元202根据预设正则表达式对网页地址进行正则匹配,实现快速获取标识字段。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页更新处理方法,其特征在于,包括:
获取待检测网页的网页地址;
获取所述网页地址中用于标识网页更新时间的标识字段;
获取预设基准字段,所述预设基准字段用于表示网页更新统计的开始时间;
判断所述标识字段对应的时间是否晚于所述预设基准字段对应的时间;以及
如果所述标识字段对应的时间早于所述预设基准字段对应的时间,则确定所述待检测网页不是新增页面,如果所述标识字段对应的时间不早于所述预设基准字段对应的时间,则确定所述待检测网页为新增页面。
2.根据权利要求1所述的网页更新处理方法,其特征在于,获取待检测网页的网页地址包括:
从网站访问日志中获取所述待检测网页访问日志;
查找所述访问日志中标识网页地址的标识符;以及
基于所述标识符获取所述网页地址。
3.根据权利要求2所述的网页更新处理方法,其特征在于,在确定所述待检测网页为新增页面之后,所述方法还包括:
记录所述标识字段;
判断是否获取完毕所述网站访问日志中的每一条网页访问日志;
如果判断出获取完毕所述网站访问日志中的每一条网页访问日志,则比较记录的所有所述标识字段对应的时间;以及
根据对应最晚时间的所述标识字段更新所述预设基准字段。
4.根据权利要求1所述的网页更新处理方法,其特征在于,所述获取所述网页地址中用于标识网页更新时间的标识字段包括:
获取预设正则表达式;以及
根据所述预设正则表达式对所述网页地址进行正则匹配,得到所述标识字段。
5.根据权利要求4所述的网页更新处理方法,其特征在于,所述获取预设正则表达式包括:
确定所述网页地址的匹配类型,所述匹配类型包括日期型、数字序列型和全局唯一标识符型;
如果所述网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为所述预设正则表达式;
如果所述网页地址的匹配类型为数字序列型,则选择用于匹配数字序列的正则表达式作为所述预设正则表达式;以及
如果所述网页地址的匹配类型为全局唯一标识符型,则选择用于匹配全局唯一标识符的正则表达式作为所述预设正则表达式。
6.一种网页更新处理装置,其特征在于,包括:
第一获取模块,用于获取待检测网页的网页地址;
第二获取模块,用于获取所述网页地址中用于标识网页更新时间的标识字段;
第三获取模块,用于获取预设基准字段,所述预设基准字段用于表示网页更新统计的开始时间;
第一判断模块,用于判断所述标识字段对应的时间是否不早于所述预设基准字段对应的时间;以及
确定模块,用于当所述标识字段对应的时间早于所述预设基准字段对应的时间时,则确定所述待检测网页不是新增页面,当所述标识字段对应的时间不早于所述预设基准字段对应的时间时,则确定所述待检测网页为新增页面。
7.根据权利要求6所述的网页更新处理装置,其特征在于,所述第一获取模块包括:
第一获取单元,用于从网站访问日志中获取所述待检测网页的访问日志;
查找单元,用于查找所述访问日志中标识网页地址的标识符;以及
第二获取单元,用于基于所述标识符获取所述网页地址。
8.根据权利要求7所述的网页更新处理装置,其特征在于,在确定所述待检测网页为新增页面之后,所述装置还包括:
记录模块,用于记录所述标识字段;
第二判断模块,用于判断是否获取完毕所述网站访问日志中的每一条网页访问日志;
比较模块,用于当判断出获取完毕所述网站访问日志中的每一条网页访问日志时,比较记录的所有所述标识字段对应的时间;以及
更新模块,用于根据对应最晚时间的所述标识字段更新所述预设基准字段。
9.根据权利要求6所述的网页更新处理装置,其特征在于,所述第二获取模块包括:
第三获取单元,用于获取预设正则表达式;以及
匹配单元,用于根据所述预设正则表达式对所述网页地址进行正则匹配,得到所述标识字段。
10.根据权利要求9所述的网页更新处理装置,其特征在于,所述第三获取单元包括:
第一确定单元,用于确定所述网页地址的匹配类型,所述匹配类型包括日期型、数字序列型和全局唯一标识符型;以及
选择单元,用于当所述网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为所述预设正则表达式,当所述网页地址的匹配类型为数字序列型时,则选择用于匹配数字序列的正则表达式作为所述预设正则表达式,当所述网页地址的匹配类型为全局唯一标识符型时,则选择用于匹配全局唯一标识符的正则表达式作为所述预设正则表达式。
CN201410459114.2A 2014-09-10 2014-09-10 网页更新处理方法及装置 Active CN104182548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410459114.2A CN104182548B (zh) 2014-09-10 2014-09-10 网页更新处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410459114.2A CN104182548B (zh) 2014-09-10 2014-09-10 网页更新处理方法及装置

Publications (2)

Publication Number Publication Date
CN104182548A true CN104182548A (zh) 2014-12-03
CN104182548B CN104182548B (zh) 2017-09-26

Family

ID=51963587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410459114.2A Active CN104182548B (zh) 2014-09-10 2014-09-10 网页更新处理方法及装置

Country Status (1)

Country Link
CN (1) CN104182548B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572976A (zh) * 2014-12-30 2015-04-29 广州唯品会信息科技有限公司 网站数据更新方法和系统
CN106874298A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN106874165A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN106874299A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN107766513A (zh) * 2017-10-23 2018-03-06 林楚莲 一种对网页中内容进行标记提醒的方法及系统
CN108241674A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 网页发布时间的提取方法及装置
WO2020187099A1 (zh) * 2019-03-20 2020-09-24 海信视像科技股份有限公司 页面更新方法及显示设备
US11200294B2 (en) 2019-03-20 2021-12-14 Hisense Visual Technology Co., Ltd. Page updating method and display device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789469A (zh) * 2011-05-20 2012-11-21 腾讯科技(深圳)有限公司 页面更新方法及系统
US20130144928A1 (en) * 2011-12-05 2013-06-06 Microsoft Corporation Minimal download and simulated page navigation features
CN103258017A (zh) * 2013-04-24 2013-08-21 中国科学院计算技术研究所 一种并行的垂直交叉网络数据采集方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789469A (zh) * 2011-05-20 2012-11-21 腾讯科技(深圳)有限公司 页面更新方法及系统
US20130144928A1 (en) * 2011-12-05 2013-06-06 Microsoft Corporation Minimal download and simulated page navigation features
CN103258017A (zh) * 2013-04-24 2013-08-21 中国科学院计算技术研究所 一种并行的垂直交叉网络数据采集方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572976A (zh) * 2014-12-30 2015-04-29 广州唯品会信息科技有限公司 网站数据更新方法和系统
CN104572976B (zh) * 2014-12-30 2018-03-27 广州品唯软件有限公司 网站数据更新方法和系统
CN106874298A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN106874165A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN106874299A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN108241674A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 网页发布时间的提取方法及装置
CN108241674B (zh) * 2016-12-26 2021-11-02 北京国双科技有限公司 网页发布时间的提取方法及装置
CN107766513A (zh) * 2017-10-23 2018-03-06 林楚莲 一种对网页中内容进行标记提醒的方法及系统
WO2020187099A1 (zh) * 2019-03-20 2020-09-24 海信视像科技股份有限公司 页面更新方法及显示设备
US11200294B2 (en) 2019-03-20 2021-12-14 Hisense Visual Technology Co., Ltd. Page updating method and display device

Also Published As

Publication number Publication date
CN104182548B (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN104182548A (zh) 网页更新处理方法及装置
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN109271315B (zh) 脚本代码检测方法、装置、计算机设备及存储介质
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN106156098B (zh) 一种纠错对挖掘方法及系统
CN110008462B (zh) 一种命令序列检测方法及命令序列处理方法
CN103020225B (zh) 一种cpu型号识别方法和硬件检测系统
CN106933916B (zh) Json字符串的处理方法及装置
CN112445997A (zh) 一种提取cms多版本识别特征规则的方法及装置
CN109815337B (zh) 确定文章类别的方法及装置
CN101895517B (zh) 一种脚本语义提取方法和提取装置
CN104391953A (zh) 检测网页更新的方法及装置
CN104156373A (zh) 编码格式检测方法及装置
CN103605744A (zh) 网站搜索引擎流量数据的分析方法及装置
CN111125704B (zh) 一种网页挂马识别方法及系统
CN106528569B (zh) 计算站内搜索有效度的方法及装置
CN107944001A (zh) 热点新闻的检测方法、装置及电子设备
CN109714225B (zh) 一种Elink的自动化测试方法及系统
CN104156458A (zh) 一种信息的提取方法及装置
CN115292571B (zh) 一种App数据采集方法及系统
CN103034719B (zh) Cpu型号识别方法、设备及硬件检测系统
CN105099996B (zh) 网站验证方法及装置
CN114398399A (zh) 管理信息库的检索方法、装置及电子设备
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Webpage updating and processing method and device

Effective date of registration: 20190531

Granted publication date: 20170926

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20170926