CN101414308A

CN101414308A - 一种对海量热点页面筛选排序的算法

Info

Publication number: CN101414308A
Application number: CNA2008101978139A
Authority: CN
Inventors: 敖伟成; 叶猛; 李磊
Original assignee: HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Current assignee: HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Priority date: 2008-11-24
Filing date: 2008-11-24
Publication date: 2009-04-22

Abstract

本发明公开了一种对海量热点页面(URL)筛选排序的算法，属于计算机数据处理领域。本算法总模块，包括排名模块(3)，设置有统计采样模块(1)和筛选模块(2)；该算法按照统计采样模块(1)、筛选模块(2)、排名模块(3)依次进行；所述的统计采样模块(1)包括统计子模块(1.1)和采样子模块(1.2)；所述的筛选模块(2)包括依次进行的预估子模块(2.1)、首次筛选子模块(2.2)、再次筛选子模块(2.3)和调整筛选子模块(2.4)。运用此算法可以高效实现从现网的站点页面中按排名要求筛选出相应的热点站点页面，并在此基础上对选中的站点页面进行排序。

Description

一种对海量热点页面筛选排序的算法

技术领域

本发明属于计算机数据处理领域，尤其涉及一种对海量热点页面(URL)筛选排序的算法。运用此算法可以高效实现从现网的站点页面中按排名要求(如访问次数最多的前100名)筛选出相应的热点站点页面，并在此基础上对选中的站点页面进行排序。

背景技术

随着互联网应用的快速发展，对网站的相关指标进行统计分析，从而掌握各种业务的开展情况已成为运营商开展WAP(无线应用协议)业务的有用工具；然而实现从现网中的URL中过滤出访问次数最多的前100名之类的统计和排名，从目前来看，一般的实现方法是对网络中所有的站点页面的访问次数进行排名，然后取出排名最靠前的100名。

这种排名算法看起来直观、易于实现，并且在站点页面数量不是很大的情况下，可以保证排序的效率。但是，目前网络应用空前扩展，站点页面数量成指数倍增长，这种排名算法的效率已与网络技术的发展速度不相适应，已远远不能满足实际的需要。

发明内容

本发明的目的是针对目前的排名算法在处理站点页面数量较多的最值排名中效率不高的问题，提供一种对海量热点页面筛选排序的算法，即采用一些算法和技术，使在这种情况的排名可以在对URL访问次数过滤的基础上进行，排除排名对象数量多少对排名效率的影响，极大地提高了排名的效率和运行的稳定性。

本发明的目的是这样实现的：

本发明主要包括一种统计表组织结构、一种统计采样算法和一种筛选算法。

一、一种用于记录统计信息的统计表组织结构

统计表使用hash+rb_tree构造，即主表是hash，在每个bucket中使用一个rb_tree来组织统计节点，用于保存总的统计指标信息及各统计项的关键信息。

二、一种统计采样算法

主要是设定最低采样门限，根据站点页面查找(或创建)统计节点，当在统计表中有与该站点页面对应的统计节点时，统计表中的“1小时内累计点击总数”加1且与该站点页面对应的采集节点中的“节点创建以来的点击次数”加1；反之，若统计表中没有与该站点页面对应的统计节点，则在“记录表中统计节点的总数目”小于最低采样门限的情况下，直接在统计表中添加新的采集节点，否则启动节点采样过程，使采样节点的增长速度减缓，确保排序的效率和精度。

三、一种筛选算法

主要是设定最低筛选门限，当统计表内节点数目大于最低筛选门限时，筛选过程启动。筛选过程首先预估有效节点数目、预估点击次数、合理选择筛选因子，然后在对上述指标简单运算的基础上，合理确定筛选条件，开始筛选。若一次筛选完成后，尚未达到筛选要求，则在上一次筛选的基础上，基于上一次的经验，对筛选条件适当修正，从而不断缩小筛选目标。如此反复筛选，直到满足筛选要求。

本发明具有下列优点和积极效果：

1、本发明通过对统计表的组织结构和统计节点的组织结构的设计，可以简明、实用地记录URL的统计信息；

2、通过高效的采集及筛选算法的设计，在对站点页面访问次数过滤的基础上进行排名，即使在站点页面数量较多的情况下，也能实现高效、精确排名，极大地提高了排名的效率；

3、该思想的扩展也可应用于统计目标数量大而只要求对最前或最后N名排名的情况。

附图说明

图1是本算法的总体模块结构图；

图2是统计采样模块的工作流程图；

图3是预估子模块的工作流程图；

图4是首次筛选子模块的工作流程图；

图5是再次筛选模块的工作流程图；

图6是调整筛选子模块的工作流程图。

其中：

1—统计采样模块，

1.1—统计子模块，

1.1—采样子模块；

2—筛选模块，

2.1—预估子模块，

2.2—首次筛选子模块，

2.3—再次筛选子模块，

2.4—调整筛选子模块；

3—排名模块。

英译汉：

URL—Uniform Resource Locator，WWW上用来标识一信息页的语法形式，本文译为海量热点页面；

WAP—Wireless Application Protocol，无线应用协议。

具体的实施方式

以下结合附图和实施例详细说明：

一、统计表组织结构

前述，统计表使用hash+rb_tree构造，即主表是hash，在每个bucket中使用一个rb_tree来组织统计节点，用于保存总的统计指标信息及各统计项的关键信息。

在hash主表中维护如下数据：统计起始时间、统计结束时间、1小时内累计点击总数、记录表中统计节点的总数目；

rb_tree节点中维护如下数据：网站url、节点创建以来的点击次数、节点的预估点击次数、节点的创建时间。

参见表1，它描述了统计表的组织结构。

表1：统计表的组织结构

start_time

end_time

total_count

nodes_num

节点1

节点2

节点3

......

节点n

统计表中各字段的意义如下：

start_time 统计起始时间(以秒为单位)；

end_time 统计结束时间；

total_count 1小时内累计点击总数；

nodes_num 记录表中统计节点的总数目。

参见表2，它描述了统计表中统计节点的组织结构。

表2：统计表中统计节点的组织结构

url

xtotal_count

xv_count

xstart_time

统计节点中各字段的意义如下：

url 站点地址；

xtotal_count 节点创建以来的点击次数；

xv_count 节点的预估点击次数(根据节点点击速率，节点最大寿命计算)；

xstart_time 记录节点的创建时间。

二、对海量热点页面筛选排序算法的总体模块结构

参见图1，对海量热点页面筛选排序算法的总体模块结构包括现有技术的排名模块3，设置有统计采样模块1和筛选模块2；该算法按照统计采样模块1、筛选模块2、排名模块3依次进行；

所述的统计采样模块1包括统计子模块1.1和采样子模块1.2；

所述的筛选模块2包括依次进行的预估子模块2.1、首次筛选子模块2.2、再次筛选子模块2.3和调整筛选子模块2.4。

具体地说：

①对海量热点页面统计、采样1

该算法首先对现网中所有的站点页面进行统计1.1，当统计的指标达到一定的限度后，启动采样流程1.2，以减小系统的处理压力，并确保统计的精确度。

②对采样后的页面进行筛选2

对于采样之后的页面，该算法确定筛选条件对这些页面进行预估筛选2.1，又进行首次筛选2.2，在筛选之后仍不能满足排名要求的情况下，重新确定筛选规则，进行再次筛选2.3，在不符合重新确定筛选规则的条件下，进行调整筛选2.4。

③对候选页面进行排名3

在筛选出符合排名要求的页面之后，启动排名流程，对页面进行排名。

三、模块的工作流程

1、统计采样模块1的工作流程

参见图2，统计采样模块1的工作流程包括下列步骤：

①模块开始初始化10

模块初始化全局变量XX，设定最低采样门限sample_enable_lowlimit和最低筛选门限filter_enable_lowlimit；

②判断当前是否存在于统计表中11

是则将统计表中的total_count加1，同时将统计表中与该站点页面对应的统计节点中的字段x_total_count加1 12；

否则跳转到步骤③，进入采样流程；

③判断节点数目nodes_num是否大于设定的最低采样门限sample_enable_lowlimit 13，

是则跳转到步骤④，构造采样模型，为采样做准备；

否则，在统计表中创建新的采集节点，并将统计表中的nodes_num字段加116。

④构造抽样模型

当nodes_num大于sample_enable_lowlimit，为提高统计的精度和效率，构造抽样模型；

构造抽样模型的过程通过如下三个步骤实现14：

z＝(nodes_num-sample_enable_lowlimit)/2000；

sample_module＝z*z+2；

xx++；

⑤站点页面采样

利用步骤④构建的采样模型，通过(xx mod sample_module)对站点页面采样15：

当(xx mod sample_module)＝＝0时，在统计表中创建新的采集节点，并将统计表中的nodes_num字段加1 16；

否则，抛弃该站点页面，以减小统计负荷，提高统计效率和精度；

⑥判断统计表中统计节点的数目nodes_num是否大于最低筛选门限filter_enable_lowlimit 17；

若nodes_num大于filter_enable_lowlimit，则激活站点页面筛选流程，

否则，返回，进入下一个统计流程。

2、筛选模块2的工作流程

(1)预估子模块2.1的工作流程

参见图3，预估子模块2.1(为首次筛选子模块2.2做准备的)的工作流程包括下列步骤：

①模块开始初始化：

模块获取当前时间current_time并设定最小统计时间20；

②判断current_time是否大于统计结束时间end_time 21；

若current_time大于end_time，则先使current_time等于end_time，然后对该统计节点计算remain_time和deta_time；

否则，直接对该统计节点计算remain_time和deta_time，

remain_time和deta_time的计算方法22如下：

remain_time＝(end_time-xstart_time)

deta_time＝(current_time-xstart_time)

③判断步骤②计算的deta_time是否大于等于最小统计时间23；

若deta_time大于等于最小统计时间，则该节点为有效节点，同时计算该节点的xv_count＝(xtotal_count/deta_time)*remain_time；

否则，该节点为无效节点，不参与该次预估；

④判断步骤③刚刚处理的节点是否是统计表中的最后一个节点24；

若是刚刚处理的节点是统计表中的最后一个节点，则汇总所有有效节点的xv_count值，得到总体的预估点击次数v_count，和有效节点数目v_nodes；

反之，则跳转到步骤②，开始下一次预估流程。

(2)首次筛选子模块2.2

参见图4，首次筛选子模块2.2的工作流程包括下列步骤：

①模块开始初始化

模块从预估流程得到总体的预估点击次数v_count和有效节点数目v_nodes 30；

②判断有效节点数目是否小于100(排名要求)31；

若有效节点数目小于100，则直接返回，不需对节点进行筛选；

否则，则跳转到步骤③，进入筛选流程；

③初始化筛选流程

筛选流程首先设定筛选因子factor，初始化v_share和v_share_nodes；然后通过v_rule＝(v_count/vnodes)*factor、v_rule2＝(v_count/100)设置初始的筛选指标(32、33)；

④根据筛选条件，逐个筛选统计节点

对于统计表中的每一个统计节点：

首先判断xv_count是否小于v_rule(34)。

若xv_count小于v_rule，则该节点成为待筛选节点；

否则，该节点是候选节点；

然后判断上述节点中的xv_count>是否大于v_rule2 35；

若xv_count大于v_rule2，则先执行v_share+＝xv_count、v_share_nodes++，然后跳转到步骤⑤；

反之，则直接跳转到步骤⑤；

⑤判断刚刚处理的节点是否是统计表中的最后一个节点36；

若刚刚处理的节点是统计表中的最后一个节点，则跳转到步骤⑥，结束此论筛选；

否则，则跳转到步骤④，对统计表中该节点之后的节点进行筛选；

⑥判断侯选节点的数目是否小于100 37；

若侯选节点的数目小于100，则不能满足“前100名”的要求，跳转到步骤

⑥，调整筛选指标，在待筛选节点中增补侯选节点；

反之，则结束筛选流程，对所有侯选节点排序。

步骤⑦，判断v_share是否大于0，重新确定筛选指标37；

如果v_share大于0，则按照规则重新确定筛选指标，对所有待筛选节点进行遍历筛选，以增补侯选节点310；

反之，则调小factor，重新确定筛选指标，对所有待筛选节点进行遍历筛选，以增补侯选节点(39)。

(3)再次筛选子模块2.3

参见图5，再次筛选子模块2.3的工作流程包括下列步骤：

①模块开始初始化

基于前述统计和筛选流程，模块得到总体的预估点击次数v_count(v_count＝v_count-v_share)，并在此基础上，重新设置新的筛选指标v_rule＝(v_count/v_nodes)*factor、v_rule2＝(v_count/100)51、52；

②遍历所有待筛选节点，增补侯选节点

模块根据步骤①确定的筛选规则，遍历所有待筛选节点，根据条件缩小待筛选节点数目，即：

若xv_count小于v_rule，则该节点成为待筛选节点；否则该节点是候选节点53；

若xv_count大于v_rule2，则v_share+＝xv_count，v_share_nodes++54、55；

③判断当前处理节点是否是待筛选节点中的最后一个节点，

若当前节点是待筛选节点中的最后一个节点，则结束该筛选流程；

否则跳转到步骤②，对下一个节点进行筛选。

(4)调整筛选子模块2.4

参见图6，调整筛选子模块2.4的工作流程包括下列步骤：

①模块开始初始化

基于前述统计、采样和筛选流程，调小factor，并在此基础上，重新设置新的筛选指标v_rule＝(v_count/v_nodes)*factor41、42；

②遍历所有待筛选节点，增补侯选节点

模块根据步骤①确定的筛选规则，遍历所有待筛选节点，根据条件缩小待筛选节点数目43，即：

若xv_count小于v_rule，该节点成为待筛选节点；

否则，该节点是侯选节点；

③判断当前处理节点是否是待筛选节点中的最后一个节点，

否则跳转到步骤②，对下一个节点进行筛选。

Claims

1、一种用于记录统计信息的统计表组织结构，其特征在于：

2、按权利要求1所述的统计表组织结构，其特征在于：

3、一种基于权利要求1所述的统计表组织结构的对海量热点页面筛选排序的算法总模块，包括排名模块(3)，其特征在于：

设置有统计采样模块(1)和筛选模块(2)；该算法按照统计采样模块(1)、筛选模块(2)、排名模块(3)依次进行；

所述的统计采样模块(1)包括统计子模块(1.1)和采样子模块(1.2)；

所述的筛选模块(2)包括依次进行的预估子模块(2.1)、首次筛选子模块(2.2)、再次筛选子模块(2.3)和调整筛选子模块(2.4)。

4、按权利要求3所述的算法总模块，其特征在于：

统计采样模块(1)的工作流程如图2。

5、按权利要求3所述的算法总模块，其特征在于：

预估子模块(2.1)的工作流程如图3。

6、按权利要求3所述的算法总模块，其特征在于：

首次筛选子模块(2.2)的工作流程如图4。

7、按权利要求3所述的算法总模块，其特征在于：

再次筛选子模块(2.3)的工作流程如图5。

8、按权利要求3所述的算法总模块，其特征在于：

调整筛选子模块(2.4)的工作流程如图6。