CN102393849A

CN102393849A - 一种Web日志数据的预处理方法

Info

Publication number: CN102393849A
Application number: CN2011102006155A
Authority: CN
Inventors: 孙健; 隆克平; 李志�; 谢发川; 黄悦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2011-07-18
Filing date: 2011-07-18
Publication date: 2012-03-28

Abstract

本发明针对Web日志挖掘系统，提出了一种Web日志数据的预处理方法，首先采用缺省的规则库对无用信息，即不需要的记录进行删除，并通过对规则库的修正来完成Web日志数据清理；然后利用启发式规则来解决代理和防火墙带来的用户识别难题，并结合对首页和导航页的综合考虑来完成对用户的会话识别；最后，用基于网站页面参引关系对访问路径进行补充，得到最终的各用户访问Web页面的页面访问序列，完成Web日志数据的预处理。与传统的以简单时间阀值会话识别相比，本发明明显提高对用户访问行为挖掘的精确度和可信度。

Description

一种Web日志数据的预处理方法

技术领域

本发明属于计算机网络中的人工智能技术领域，更为具体地讲，涉及一种Web日志挖掘系统中Web日志数据的预处理方法。

背景技术

为解决科技高速发展所带来的信息过载等问题，数据挖掘技术应运而生。进入二十一世纪，Intemet已经遍及世界各地。在网络环境下具体需求的驱动下，于是产生了一个新的研究领域——Web挖掘。根据Web挖掘的目的和数据源不同，可以将现有Web挖掘技术分为Web内容挖掘，Web结构挖掘，Web使用挖掘。

Web日志挖掘是现在最普遍应用的一种Web使用挖掘技术。Web日志挖掘便是运用数据挖掘的思想来对Web服务器日志进行分析处理。以此来优化Web站点的组织结构，发现用户浏览站点的共同行为，对不同的客户群进行分类以提供个性化的服务等。但是，直接在Web日志数据上进行挖掘有以下几方面的困难：

1、Web日志挖掘可能只对Web日志数据中的部分有用数据进行挖掘，为此，需要抽取有用的数据，想办法消除Web日志数据中的噪声；

2、多个用户通过代理的请求在日志中具有相同的标示，即代理服务器的IP地址，导致Web日志数据不准确；

3、公司为内部的局域网设置防火墙，不同的用户请求在Web服务器日志中记录的是防火墙的IP地址。

现有的Web日志挖掘系统一般要求输入的Web日志数据是有意义的用户访问行为序列。因此，尽管Web日志挖掘类似于数据库中的数据挖掘，但要充分利用Web日志数据，从中挖掘出有用的用户访问行为信息，Web日志数据的预处理工作是必不可少的。

发明内容

本发明的目的在于克服现有技术的不足，提供一种Web日志数据的预处理方法，使供Web日志挖掘系统使用的Web日志数据得以规范，进而提高对用户访问行为挖掘的准确度与可信度。

为实现上述目的，本发明Web日志数据的预处理方法，其特征在于，包括以下步骤：

(1)、建立一个缺省的规则库来帮助删除Web日志数据不需要的记录；

缺省的规则库对网站类型进行简单分类，不同类型的站点对应不同的规则；

(2)、确定需要进行Web日志挖掘的网站属于哪一类，然后按照网站类型在缺省规则库中找到对应的规则，对Web日志数据进行相应的清理，如果遇到缺省规则库中没有的网站类型，返回第(1)步进行新类型规则添加；

(3)、利用IP地址、操作系统、浏览器组建一个启发式规则来进行用户识别，将Web日志数据的各条访问记录按照不同的用户进行分组，得到各个用户的页面访问序列；

(4)、对每个用户的页面访问序列以网站的首页作为新会话开始的标记，结合用户直接通过各导航页访问感兴趣页面的情况来进行用户的会话识别，得到用户一次或多次会话的页面访问序列；

(5)、用基于网站页面参引关系对用户一次会话的页面访问序列进行访问路径补充，得到最终的各用户访问Web页面的一次或多次会话的页面访问序列，完成Web日志数据的预处理。

本发明的发明目的是这样实现的：

附图说明

图1是本发明Web日志数据的预处理方法具体实施方式总体框架图；

图2是图1所示数据清理步骤的具体实施方式的流程图；

图3是图1所示用户识别步骤的具体实施方式的流程图；

图4是图1所示会话识别步骤的具体实施方式的流程图。

图5是路径补充步骤的具体实例图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明Web日志数据的预处理方法具体实施方式总体框架图。

如图1所示，用户通过互联网对网站进行访问，网站服务器将用户的访问信息作为Web日志数据存入Web日志数据库中。在本实施例中，首先采用缺省的规则库对Web日志数据中进行清理，将无用信息即不需要的记录进行删除，并通过对缺省规则库的修正来完成规则的更新；然后利用启发式规则来进行用户识别，将Web日志数据按照不同的用户进行分组；最后结合对首页和导航页的综合考虑来完成对用户的会话识别，并进行了必要的路径补充得到最终的各用户访问Web页面的会话序列，完成Web日志数据的预处理。

在本实施例中，所述的简单分类为：文字内容网站、图片网站、音视频网站；以挖掘用户访问模式为目的条件下，1.用户访问文字内容网站页面时，与这个网页有关的图片、音频等信息会自动下载，并记录在Web日志数据库中，这些信息对挖掘来说显然用处不大，可以把日志文件中后缀为.gif、jpg、jpeg、.swf、.css的记录删除；2.用户访问图片网站页面时，Web日志数据中的图形文件可能代表了用户的显式请求，此时就不能将图形文件记录删除；3.用户访问音视频网站页面时，日志中的音视频文件可能代表了用户的显式请求，此时就应将音视频文件记录保留。

此外，后缀名为cgi、js和JS等的脚本文件因对后面的分析处理不造成任何影响，所以应该删除。用户请求访问失败的记录，这类访问的返回代码为404(没有找到)、301(永久删除)或500(内部服务器错误)等也可以删除。常见的请求方法有GET、POST和HEAD，但只有GET方法反映了用户的访问行为，所以用户请求方法不是GET的记录也应该可以删除。

图2是图1所示Web日志数据清理步骤的具体实施方式的流程图。

首先建立一个缺省的规则库来帮助删除一些不需要的记录，接着判断需要进行Web日志挖掘的网站属于哪一类，然后顺序读取网站服务器中存储的Web日志数据中的记录，按照该类的规则对进行Web日志数据清理，删除不需要的记录，如果遇到缺省规则中没有的网站类型，返回进行新类型规则添加，更新缺省规则库。

在本实施例中，缺省规则库定义如下：

1.无论网站属于哪一种类型都必须默认删除的记录有：

①删除扩展名为cgi、js和JS的脚本文件的索引日志记录；

②删除返回代码为404(未找到)、301(永久删除)或500(内部服务器错误)等用户请求访问失败的记录；

③删除用户请求方法不是GET的记录；

④删除扩展名为.css的页面外观布局文件。

2.网站类型为文字内容网站：

①删除1中规定的默认删除记录；

②删除扩展名为.gif、.jpg、.jpeg、.swf、.mp3、.mp4、.wma、.amr、.avi、.rmvb、.wmv、.flv的日志记录。

3.网站类型为图片网站：

①删除1中规定的默认删除记录；

②删除扩展名为.mp3、.mp4、.wma、.amr、.avi、.rmvb、.wmv、.flv的日志记录。

4.网站类型为音视频网站：

①删除1中规定的默认删除记录；

②删除扩展名为.gif、.jpg、.jpeg的日志记录。

图3是图1所示的用户识别步骤的具体实施方式的流程图。

在本实施例中，如图3所示，使用如下启发式规则来进行用户识别：

①不同的IP地址代表着不同的用户；

②在IP地址相同时，默认的操作系统或浏览器不同代表不同的用户。

图4是图1所示的会话识别步骤的具体实施方式的流程图。

一次用户会话为用户从进入站点到离开站点期间所访问的一系列页面序列集合，可以表示为：

<SessionID，{(Pid₁，t₁)...(Pid_k，t_k)...(Pid_n，t_n)}>

其中SessoID是会话标识，{(Pid₁，t₁)...(Pid_k，t_k)...(Pid_n，t_n)}是此次用户会话的页面访问序列，Pid是访问页面的标识，t是访问该页面的时刻。(Pid₁，t₁)表示用户此次会话访问的第一个页面和时刻，(Pid_n，t_n)表示此次会话访问的最后一个页面和时刻。

要准确地识别出用户的一次会话，关键在于识别出两次相邻会话的分割点。在本实施例中，如图4所示，以访问站点的首页作为新会话开始的标记，结合用户直接通过各导航页访问感兴趣页面的情况来进行用户的会话识别，具体方法如下：

①首先用户页面访问序列中的第一条访问记录是第一次会话的开始，置入第一次会话的页面访问序列中；

②读取用户页面访问序列中的下一条访问记录，直至序列中所有记录都处理完毕；

③判断访问页面是否是站点的首页，若是首页，则当前会话结束，新会话开始，将该条访问记录置入下一次会话的页面访问序列中，然后转步骤②处理下一条访问记录，否则，转步骤④；

④设定一次会话的最大时间阀值为T，若当前访问记录的访问时间t_n与本次会话的第一访问记录的访问时间t₁之差小于T，转步骤⑤；若大于等于T，则当前会话结束，新会话开始，将该次访问置入新会话的页面访问序列中，返回步骤②处理下一条访问记录。

⑤判断当前访问记录的访问页面是否是站点的导航页之一，若不是，即该页面为内容页，则将当前访问记录置入当前会话的访问序列中，然后转步骤②继续处理下一条访问记录；否则，若该访问页面是导航页之一，转步骤⑥判断它的上一条访问记录；

⑥判断上一条访问记录，若上一条访问记录的访问页面是首页，则当前访问记录和上次访问记录同属一个会话；若上一条访问记录访问的页面不是首页，则当前访问访问为新会话的开始，将其置入新会话的页面访问序列中，转步骤②，处理下一条访问记录。

图5是图1所示的路径补充过程的网站页面参引关系的一具体实例图。

由于用户客户端缓存的存在，用户访问过程中会不断访问到缓存中间已经存在的页面，而当用户用浏览器上“Back”按钮调用已访问过的页面时，将直接从本地或代理的缓存中提取，Web日志数据中则没有对这些页面进行记录。所以前面的步骤只是从Web日志中区分出了一个个用户访问服务器的会话区间，其中没有完全包含所有用户访问过的页面，需要进行路径补充。

在本实施例中，采用一种推断的方法。总体思路是判断会话中两个相邻的访问页面Pid_i和Pid_i+1之间是否存在直接参引关系，所谓参引关系，就是指从一个页面上的链接可以访问到另一个页面。若这两个页面没有直接参引关系，则此两个页面间需要路径补充。设Pid_i和Pid_i+1所在的会话为集合Session，推断方法如下：

①判断用户一次会话的页面访问序列的相邻两个访问记录中的访问页面Pid_i、Pid_i+1是否有直接参引关系，如果有直接参引关系则不需要路径补充，否则转到步骤②；

②找出以访问页面Pid_i为参引页面的页面集Q₁；

③找出以访问页面Pid_i+1为参引页面的页面集Q₂；

④寻找页面集Q₁与页面集Q₂的交集页面，根据参引关系，将访问页面Pid_i到交集页面再到访问页面Pid_i+1补充到用户访问页面路径中，得到最终的用户访问Web页面的一次或多次会话的页面访问序列。

如图5所示，在本实施例中，用户一次会话的页面访问序列为：

SessionID＝{(A，t₁)，(B，t₂)，(C，t₃)，(D，t₄)，(C，t₅)，(E，t₆)，(F，t₇)，(G，t₈)}即用户访问页面路径为ABCDCEFG。通过上述方法就可以补上用户从客户端缓存中访问的页面。根据图5，我们知道C，E页面之间不存在直接参引关系，通过寻找C，E页面的参引页面的交集-B，可以推断出用户在访问C与E页面之间，可能通过客户端的缓存访问到了B页面，由B页面上的链接转到了E页面。同样道理，我们可以推断出用户在访问F页面之前可能通过客户端的缓存访问到了B和A页面，由A页面上的链接转到了F页面。所以实际访问路径应该为ABCDCBEBAFG。

至此，完成了数据清理，用户识别，会话识别和路径补充四个环节，Web日志数据的预处理结束。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种Web日志数据的预处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的Web日志数据的预处理方法，其特征在于，所述的简单分类为：文字内容网站、图片网站、音视频网站；

缺省的规则库的规则为：

a、无论网站属于哪一种类型都必须默认删除的记录有：

①删除扩展名为cgi、js和JS的脚本文件的索引日志记录；

③删除用户请求方法不是GET的记录；

④删除扩展名为.css的页面外观布局文件；

b、网站类型为文字内容网站：

①删除1中规定的默认删除记录；

②删除扩展名为.gif、.jpg、.jpeg、.swf、.mp3、.mp4、.wma、.amr、.avi、.rmvb、.wmv、.flv的日志记录；

c、网站类型为图片网站：

①删除1中规定的默认删除记录；

②删除扩展名为.mp3、.mp4、.wma、.amr、.avi、.rmvb、.wmv、.flv的日志记录；

d、网站类型为音视频网站：

①删除1中规定的默认删除记录；

②删除扩展名为.gif、.jpg、.jpeg的日志记录。

3.根据权利要求1所述的Web日志数据的预处理方法，其特征在于，所述的用户识别为：

①不同的IP地址代表着不同的用户；

4.根据权利要求1所述的的Web日志数据的预处理方法，其特征在于，所述的用户会话为用户从进入站点到离开站点期间所访问的一系列页面序列集合；

所述的会话识别为：

④设定一次会话的最大时间阀值为T，若当前访问记录的访问时间t_n与本次会话的第一访问记录的访问时间t₁之差小于T，转步骤⑤；若大于等于T，则当前会话结束，新会话开始，将该次访问置入新会话的页面访问序列中，返回步骤②处理下一条访问记录；

5.根据权利要求1所述的的Web日志数据的预处理方法，其特征在于，所述的路径补充为：

②找出以访问页面Pid_i为参引页面的页面集Q₁；

③找出以访问页面Pid_i+1为参引页面的页面集Q₂；