发明内容
本发明的主要目的在于提供一种网页更新处理方法及装置,以解决将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页更新处理方法。
根据本发明的网页更新处理方法包括:获取待检测网页的网页地址;获取网页地址中用于标识网页更新时间的标识字段;获取预设基准字段,预设基准字段用于表示网页更新统计的开始时间;判断标识字段对应的时间是否晚于预设基准字段对应的时间;以及如果标识字段对应的时间早于预设基准字段对应的时间,则确定待检测网页不是新增页面,如果标识字段对应的时间不早于预设基准字段对应的时间,则确定待检测网页为新增页面。
进一步地,获取待检测网页的网页地址包括:从网站访问日志中获取待检测网页访问日志;查找访问日志中标识网页地址的标识符;以及基于标识符获取网页地址。
进一步地,获取网页地址中用于标识网页更新时间的标识字段包括:获取预设正则表达式;以及根据预设正则表达式对网页地址进行正则匹配,得到标识字段。
进一步地,获取预设正则表达式包括:确定网页地址的匹配类型,匹配类型包括日期型、数字序列型和全局唯一标识符型;如果网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为预设正则表达式;如果网页地址的匹配类型为数字序列型,则选择用于匹配数字序列的正则表达式作为预设正则表达式;以及如果网页地址的匹配类型为全局唯一标识符型,则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
进一步地,在确定待检测网页为新增页面之后,该方法还包括:记录标识字段;判断是否获取完毕网站访问日志中的每一条网页访问日志;如果判断出获取完毕网站访问日志中的每一条网页访问日志,则比较记录的所有标识字段对应的时间;以及根据对应最晚时间的标识字段更新预设基准字段。
为了实现上述目的,根据本发明的另一方面,提供了一种网页更新处理装置。
根据本发明的网页更新处理装置包括:第一获取模块,用于获取待检测网页的网页地址;第二获取模块,用于获取网页地址中用于标识网页更新时间的标识字段;第三获取模块,用于获取预设基准字段,预设基准字段用于表示网页更新统计的开始时间;第一判断模块,用于判断标识字段对应的时间是否不早于预设基准字段对应的时间;以及确定模块,用于当标识字段对应的时间早于预设基准字段对应的时间时,则确定待检测网页不是新增页面,当标识字段对应的时间不早于预设基准字段对应的时间时,则确定待检测网页为新增页面。
进一步地,第一获取模块包括:第一获取单元,用于从网站访问日志中获取待检测网页的访问日志;查找单元,用于查找访问日志中标识网页地址的标识符;以及第二获取单元,用于基于标识符获取网页地址。
进一步地,第二获取模块包括:第三获取单元,用于获取预设正则表达式;以及匹配单元,用于根据预设正则表达式对网页地址进行正则匹配,得到标识字段。
进一步地,第三获取单元包括:第一确定单元,用于确定网页地址的匹配类型,匹配类型包括日期型、数字序列型和全局唯一标识符型;以及选择单元,用于当网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为预设正则表达式,当网页地址的匹配类型为数字序列型时,则选择用于匹配数字序列的正则表达式作为预设正则表达式,当网页地址的匹配类型为全局唯一标识符型时,则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
进一步地,在确定待检测网页为新增页面之后,该装置还包括:记录模块,用于记录标识字段;第二判断模块,用于判断是否获取完毕网站访问日志中的每一条网页访问日志;比较模块,用于当判断出获取完毕网站访问日志中的每一条网页访问日志时,比较记录的所有标识字段对应的时间;以及更新模块,用于根据对应最晚时间的标识字段更新预设基准字段。
通过本发明,采用将待检测网页的标识字段对应的时间与预设基准字段对应的时间进行比较来确定待检测页面是否是新增页面,解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题,进而达到了提高网页更新量统计的正确性的效果。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
根据本发明实施,提供了一种网页更新处理方法,图1是根据本发明实施例的网页更新处理方法的流程图。
如图1所示,该方法包括如下的步骤S102至步骤S110:
步骤S102:获取待检测网页的网页地址。
步骤S104:获取网页地址中用于标识网页更新时间的标识字段。
现在网站的网页地址中都会包含一些标识字段,例如日期、数字序列、全局唯一标识符GUID等,通过比较这些标识字段可以知道网页发布的先后顺序。比如一个URL为http://www.gov.cn/guowuyuan/2014-07/31/content_2727857.htm的网页,中间字段2014-07/31即为该网页的发布日期。对于包含数字序列的URL,由于该数字序列的值根据时间递增,所以通过比较两个数字序列值可以得到其对应的网页发布的其先后顺序。同理,对于包含GUID的URL,由于该GUID也是根据时间递增的一个十六进制数数字序列,通过比较两个GUID也可以得到其对应的网页发布的其先后顺序。
步骤S106:获取预设基准字段,预设基准字段用于表示网页更新统计的开始时间。
要判断待检测的网页是否是新发布的网页,需要设定一个基准时间,用于与待检测的网站的发布时间进行比较。例如,对于URL包含日期字段的网页,设定一个日期字段基准值,对于URL包含数字序列的网页,设定一个数字序列字段基准值,对于URL包含GUID字段的网页,则设定一个GUID字段基准值。
步骤S108:判断标识字段对应的时间是否晚于预设基准字段对应的时间。
该标识字段对应的时间即待检测网页的发布时间,该预设基准字段对应的时间即网页更新统计的开始时间。通过比较待检测网页的标识字段和预设基准字段可以判断待检测网页的发布时间是否早于网页更新统计的开始时间。
步骤S110:如果标识字段对应的时间早于预设基准字段对应的时间,则确定待检测网页不是新增网页,如果标识字段对应的时间不早于预设基准字段对应的时间,则确定待检测网页为新增网页。
本发明实施例通过获取待检测网页地址中用于标识网页更新时间的标识字段,将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序,当待检测网页发布时间不早于网页更新统计的开始时间时,则检测网页是新增网页,当待检测网页发布时间早于网页更新统计的开始时间时则检测网页不是新增网页。由于只有待检测网页发布时间不早于网页更新统计的开始时间,该待检测网页才是新增网页,解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。
优选地,为了方便快捷的获取待检测网页的地址,获取待检测网页的网页地址包括:从网站访问日志中获取待检测网页的访问日志;查找访问日志中标识网页地址的标识符;以及基于标识符获取网页地址。
网站访问日志是通过JS代码收集的用户访问网站的数据,JS代码即Java Script语言编写的脚本文件的代码。当用户访问网站某一网页时会生成一条该网页的访问日志,从该网页访问日志中可以清楚的知道用户的访问IP、访问时间、访问网页地址、采用的浏览器等信息。由于一条网页访问日志包含许多的用户访问信息,而在进行网页更新量统计时只需要检测网页地址信息,通过在网页访问日志中设置一个标识符来确定网页地址在网页访问日志中的位置,因此通过查找网页地址的标识符可以找到网页访问日志中的网页地址。
由于网站访问日志记录了被用户访问的所有网页访问日志,为了提高网页更新量统计的效率,通常只获取网页更新量统计时间段内的网站访问日志,再依次对该网站访问日志中的每一条网页访问日志中包含的网页地址进行检测。通过网站访问日志可以方便快捷的获取到网页更新量统计时间段内被用户访问的所有网页地址。
优选地,为了快速准确的获取网页地址中用于标识网页更新时间的标识字段包括:获取预设正则表达式;以及根据预设正则表达式对网页地址进行正则匹配,得到标识字段。
正则表达式,又称正规表示法、常规表示法,英语为Regular Expression,在代码中常简写为regex、regexp或RE,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,就是用预先定义好的特定字符、及这些特定字符的组合,组成一个规则字符串,该规则字符串用来表达对字符串的一种过滤逻辑。例如,给定一个正则表达式和一个字符串,一是判断给定的字符串是否符合正则表达式的过滤逻辑,二是可以通过正则表达式,从给定的字符串中获取我们想要的特定部分。例如,一个用于匹配中国邮政编码的正则表达式为“[1-9]\\d{5}(?!\d)“,待匹配的字符串为“Chinabeijing100081haidian”,则通过该正则表达式可以匹配出待检测字符串中表示邮政编码的字段“100081”。
网站管理员根据网站地址包含的标识字段编写相应的正则表达式,例如,网页地址中包含日期字段的,则编写能够匹配出网页地址中日期字段的正则表达式,对于网页地址中包含数字序列字段的,则编写能够匹配出网页地址中数字序列字段的正则表达式,对于网页地址中包含GUID字段的,则编写能够匹配出网页地址中GUID字段的正则表达式。通过获取预设正则表达式,利用该预设正则表达式可以快速准确的匹配出待检测网页地址中的标识字段。
优选地,获取预设正则表达式包括:确定网页地址的匹配类型,匹配类型包括日期型、数字序列型和全局唯一标识符型;如果网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为预设正则表达式;如果网页地址的匹配类型为数字序列型,则选择用于匹配数字序列的正则表达式作为预设正则表达式;以及如果网页地址的匹配类型为全局唯一标识符型,则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
由于不同的网站的网页地址可能包含不同类型的标识字段。为了适应包含不同类型的标识字段的网页地址,通过预先根据不同表示字段类型编写相应的正则表达式。通过先确定待检测网页地址包含的标识字段类型来选择对应的能够匹配该标识字段的正则表达式。通过预先设置多种能够匹配不同类型的标识字段的正则表达式,能够提高对包含不同类型的标识字段的网页地址进行匹配的适应性。
优选地,为了在确定待检测网页为新增网页之后,方法还包括:记录标识字段;判断是否获取完毕网站访问日志中的每一条网页访问日志;如果判断出获取完毕网站访问日志中的每一条网页访问日志,则比较记录的所有标识字段对应的时间;以及根据对应最晚时间的标识字段更新预设基准字段。
本发明实施例通过依次检测网站访问日志中每一条网页访问日志来统计网页更新量。在网站访问日志中的每一条网页访问日志都被检测后,就可以得到在网页更新量统计时间段内所有新增网页的标识字段。通过比较这些标识字段可以得到一个对应于最晚的网页发布时间的标识字段,将该标识字段作为下一次网页更新量统计的预设基准字段。通常,网站都是按天来统计网页更新量,即统计每一天时间内网站的页面更新量。通过自动更新预设基准字段,从而在统计下一天的网页更新量时,不需要再预先设置基准字段。此外,通过每次网页更新量统计之后自动更新预设基准字段,可以避免人为设置的预设基准字段不准确的问题,从而可以提高下一次网页更新量统计的准确性。但是如果下一次进行网页更新量统计的时间与上一次进行网页更新量统计的时间不连续的话,则需要重新设置预设基准字段,例如,第一次网页更新量统计是统计8月5日新发布的网页数量,而第二次网页更新量统计却是统计8月8日新发布的网页数量,因此在进行第二次网页更新量统计前需要重新设置预设基准字段,但如果第二次网页更新量统计是统计8月6日新发布的网页数量则无须预先设置预设基准字段。
从以上的描述中,可以看出,本发明实现了如下技术效果:
本发明实施例通过正则表达式方便快速的获取待检测网页地址中用于标识网页更新时间的标识字段,将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序,当待检测网页发布时间不早于网页更新统计的开始时间时,则检测网页是新增网页,当待检测网页发布时间早于网页更新统计的开始时间时则检测网页不是新增网页。由于只有待检测网页发布时间不早于网页更新统计的开始时间,该待检测网页才是新增网页,从而可以避免将那些发布时间早于网页更新统计的开始时间的网页作为新增的网页,提高了网页更新量统计结果的准确性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,提供了一种网页更新处理装置,图2是根据本发明第一实施例的网页更新处理装置的示意图。
如图2所示,该网页更新处理装置包括:第一获取模块10,第二获取模块20,第三获取模块30,第一判断模块40和确定模块50。
第一获取模块10,用于获取待检测网页的网页地址。
第二获取模块20,用于获取网页地址中用于标识网页更新时间的标识字段。
现在网站的网页地址中都会包含一些标识字段,例如日期、数字序列、全局唯一标识符GUID等,通过比较这些标识字段可以知道网页发布的先后顺序。比如一个URL为http://www.gov.cn/guowuyuan/2014-07/31/content_2727857.htm的网页,中间字段2014-07/31即为该网页的发布日期。对于包含数字序列的URL,由于该数字序列的值根据时间递增,所以通过比较两个数字序列值可以得到其对应的网页发布的其先后顺序。同理,对于包含GUID的URL,由于该GUID也是根据时间递增的一个十六进制数数字序列,通过比较两个GUID也可以得到其对应的网页发布的其先后顺序。
第三获取模块30,用于获取预设基准字段,预设基准字段用于表示网页更新统计的开始时间;
要判断待检测的网页是否是新发布的网页,需要设定一个基准时间,用于与待检测的网站的发布时间进行比较。例如,对于URL包含日期字段的网页,设定一个日期字段基准值,对于URL包含数字序列的网页,设定一个数字序列字段基准值,对于URL包含GUID字段的网页,则设定一个GUID字段基准值。
第一判断模块40,用于判断标识字段对应的时间是否不早于预设基准字段对应的时间。
标识字段对应的时间即待检测网页的发布时间,预设基准字段对应的时间即网页更新统计的开始时间。通过比较待检测网页的标识字段和预设基准字段可以判断待检测网页的发布时间是否早于网页更新统计的开始时间。
确定模块50,用于当标识字段对应的时间早于预设基准字段对应的时间时,则确定待检测网页不是新增页面,当标识字段对应的时间不早于预设基准字段对应的时间时,则确定待检测网页为新增页面。
本发明第一实施例通过第一获取模块10获取待检测网页的网页地址,通过第二获取模块20获取上述网页地址中用于标识网页更新时间的标识字段,通过第一判断模块40判断该标识字段对应的时间是否晚于第三获取模块30获取的预设基准字段对应的时间,从而来确定待检测网页是否是新增网页。通过将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序来确定待检测网页是否为新增网页,只有待检测网页的发布时间不早于网页更新统计的开始时间时,待检测网页才是新增页面,解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。
图3是根据本发明第二实施例的网页更新处理装置的示意图。如图3所示,该处理装置包括:第一获取模块10,第二获取模块20,第三获取模块30,第一判断模块40和确定模块50,其中第一获取模块10包括第一获取单元101,查找单元102和第二获取单元103。
第一获取单元101,用于从网站访问日志中获取待检测网页的访问日志。
网站访问日志是通过JS代码收集的用户访问网站的数据,JS代码即Java Script语言编写的脚本文件的代码。当用户访问网站某一网页时会生成一条该网页的访问日志,从该网页访问日志中可以清楚的知道用户的访问IP、访问时间、访问网页地址、采用的浏览器等信息。
查找单元102,用于查找访问日志中标识网页地址的标识符。
由于一条网页访问日志包含许多的用户访问信息,而在进行网页更新量统计时只需要检测网页地址信息,通过在网页访问日志中设置一个标识符来确定网页地址在网页访问日志中的位置,因此通过查找网页地址的标识符可以找到网页访问日志中的网页地址。
第二获取单元103,用于基于标识符获取网页地址。
第二获取模块20、第三获取模块30、第一判断模块40和确定模块50同上所述,在此不再赘述。
由于网站访问日志记录了被用户访问的所有网页访问日志,为了提高网页更新量统计的效率,通常只获取网页更新量统计时间段内的网站访问日志,再依次对该网站访问日志中的每一条网页访问日志中包含的网页地址进行检测。通过网站访问日志可以方便快捷的获取到网页更新量统计时间段内被用户访问的所有网页地址。
图4是根据本发明第三实施例的网页更新处理装置的示意图。如图4所示,该处理装置包括:第一获取模块10,第二获取模块20,第三获取模块30,第一判断模块40和确定模块50,其中,第二获取模块20包括第三获取单元201和匹配单元202。
第三获取单元201,用于获取预设正则表达式。
正则表达式,又称正规表示法、常规表示法,英语为Regular Expression,在代码中常简写为regex、regexp或RE,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,就是用预先定义好的特定字符、及这些特定字符的组合,组成一个规则字符串,该规则字符串用来表达对字符串的一种过滤逻辑。例如,给定一个正则表达式和一个字符串,一是判断给定的字符串是否符合正则表达式的过滤逻辑,二是可以通过正则表达式,从给定的字符串中获取我们想要的特定部分。例如,一个用于匹配中国邮政编码的正则表达式为“[1-9]\\d{5}(?!\d)“,待匹配的字符串为“Chinabeijing100081haidian”,则通过该正则表达式可以匹配出待检测字符串中表示邮政编码的字段“100081”。
网站管理员根据网站地址包含的标识字段编写相应的正则表达式,例如,网页地址中包含日期字段的,则编写能够匹配出网页地址中日期字段的正则表达式,对于网页地址中包含数字序列字段的,则编写能够匹配出网页地址中数字序列字段的正则表达式,对于网页地址中包含GUID字段的,则编写能够匹配出网页地址中GUID字段的正则表达式。通过获取预设正则表达式,利用该预设正则表达式可以快速准确的匹配出待检测网页地址中的标识字段。
匹配单元202,用于根据预设正则表达式对网页地址进行正则匹配,得到标识字段。
第一获取模块10、第三获取模块30、第一判断模块40和确定模块50同上所述,在此不再赘述。
优选地,第三获取单元201包括:第一确定单元,用于确定网页地址的匹配类型,匹配类型包括日期型、数字序列型和全局唯一标识符型;以及选择单元,用于当网页地址的匹配类型为日期型,则选择用于匹配日期的正则表达式作为预设正则表达式,当网页地址的匹配类型为数字序列型时,则选择用于匹配数字序列的正则表达式作为预设正则表达式,当网页地址的匹配类型为全局唯一标识符型时,则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
由于不同的网站的网页地址可能包含不同类型的标识字段。为了适应包含不同类型的标识字段的网页地址,通过预先根据不同表示字段类型编写相应的正则表达式。通过先确定待检测网页地址包含的标识字段类型来选择对应的能够匹配该标识字段的正则表达式。通过预先设置多种能够匹配不同类型的标识字段的正则表达式,能够提高对包含不同类型的标识字段的网页地址进行匹配的适应性。
优选地,在确定网页为新增页面之后,该页面更新处理装置还包括:记录模块,用于记录标识字段;第二判断模块,用于判断网站访问日志是否获取完毕;比较模块,用于当网站访问日志获取完毕时,比较记录的所有标识字段对应的时间;以及更新模块,用于根据对应最晚时间的标识字段更新预设基准字段。
本发明实施例通过依次检测网站访问日志中每一条网页访问日志来统计网页更新量。在网站访问日志中的每一条网页访问日志都被检测后,就可以得到在网页更新量统计时间段内所有新增网页的标识字段。通过比较这些标识字段可以得到一个对应于最晚的网页发布时间的标识字段,将该标识字段作为下一次网页更新量统计的预设基准字段。通常,网站都是按天来统计网页更新量,即统计每一天时间内网站的页面更新量。通过自动更新预设基准字段,从而在统计下一天的网页更新量时,不需要再预先设置基准字段。此外,通过每次网页更新量统计之后自动更新预设基准字段,可以避免人为设置的预设基准字段不准确的问题,从而可以提高下一次网页更新量统计的准确性。但是如果下一次进行网页更新量统计的时间与上一次进行网页更新量统计的时间不连续的话,则需要重新设置预设基准字段,例如,第一次网页更新量统计是统计8月5日新发布的网页数量,而第二次网页更新量统计却是统计8月8日新发布的网页数量,因此在进行第二次网页更新量统计前需要重新设置预设基准字段,但如果第二次网页更新量统计是统计8月6日新发布的网页数量则无须预先设置预设基准字段。
综上,本发明实施例通过第一获取模块10获取待检测网页的网页地址,通过第二获取模块20获取上述网页地址中用于标识网页更新时间的标识字段,通过第一判断模块40判断该标识字段对应的时间是否晚于第三获取模块30获取的预设基准字段对应的时间,从而来确定待检测网页是否是新增网页。通过将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序来确定待检测网页是否为新增网页,只有待检测网页的发布时间不早于网页更新统计的开始时间时,待检测网页才是新增页面,解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。此外,第二获取模块20还包括第三获取单元201和匹配单元202,通过第三获取单元201获取预设正则表达式,通过匹配单元202根据预设正则表达式对网页地址进行正则匹配,实现快速获取标识字段。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。