CN105701237A

CN105701237A - Web访问日志处理方法

Info

Publication number: CN105701237A
Application number: CN201610099558.9A
Authority: CN
Inventors: 董恒; 孙丙宇; 王伟; 汪六三; 李文波
Original assignee: Anhui Z-Hope Technology Co Ltd; Wuxi Zhongke Funong Internet Of Things Technology Co Ltd; Jiangsu IoT Research and Development Center
Current assignee: Anhui Z-Hope Technology Co Ltd; Wuxi Zhongke Funong Internet Of Things Technology Co Ltd; Jiangsu IoT Research and Development Center
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2016-06-22

Abstract

本发明提供一种Web访问日志处理方法，包括下述步骤：步骤S1，首先从Web服务器端读取Web日志文件，使用正则表达式获取Web日志文件格式结构中的信息，从而将得到的Web日志文件格式化；步骤S2，进行Web日志清理；步骤S3，进行用户识别：步骤S4，进行用户会话识别，在用户会话识别后，参考referrer属性形成带有用户访问操作顺序的序列，即用户访问操作序列；步骤S5，进行路径补充；对于用户通过返回按钮返回前一页时，缺失的日志记录补充完整；步骤S6，进行事务识别。本发明提高了日志分析的效率，使得日志处理更即时，更全面；满足了分析人员更全面的需求。

Description

Web访问日志处理方法

技术领域

本发明涉及计算机软件处理方法，尤其是一种Web访问日志处理方法。

背景技术

Web日志是记录Web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件，确切的讲，应该是服务器日志。本文所使用的是访问日志。Web日志最大的意义是记录网站运营中比如空间的运营情况，被访问请求的记录。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面，是否访问成功。因此通过对数以万计的Web日志的挖掘分析，可以为访问农资电子商务网站的大量用户提供个性化的推荐服务，增强农资电子商务网站的信息服务质量，也为网站管理员改进站点结构，性能等提供依据。

Web日志处理是Web日志数据挖掘的基础，为了把Web日志文件转变成实际可用的，格式化的，适合进行数据挖掘的可存储的数据库文件。目前有很多日志处理的工具，如：WebLogReader,IISLogViews等，或是只具有简单的日志查看功能，或者处理后的粒度过于粗糙，缺乏一种处理后直接适用于数据挖掘的日志处理系统。

发明内容

本发明的目的在于克服现有技术中存在的不足，提供一种Web访问日志处理方法，提供了更完善的日志分析功能，为数据挖掘打下来较好的基础。本发明采用的技术方案是：

一种Web访问日志处理方法，包括下述步骤：

步骤S1，首先从Web服务器端读取Web日志文件，使用正则表达式获取Web日志文件格式结构中的信息，从而将得到的Web日志文件格式化；

步骤S2，进行Web日志清理；

步骤S3，进行用户识别：

步骤S4，进行用户会话识别，在用户会话识别后，参考referrer属性形成带有用户访问操作顺序的序列，即用户访问操作序列；

步骤S5，进行路径补充；对于用户通过返回按钮返回前一页时，缺失的日志记录补充完整；

步骤S6，进行事务识别。

进一步地，所述步骤S2中包括：

S2.1，清除爬虫所产生的日志条目；

S2.2，清除path属性值后缀名是GIF、JPG、JPEG、PNG、MIDI、MP3、AVI、CSS、JS的日志条目；

S2.3，清除客户请求不成功的日志条目，即status号码属性值不为2XX的日志条目：

S2.4，清除请求方式不是GET和POST的日志条目。

进一步地，所述步骤S3则用户识别规则为：

(a)IP地址不同则不是同一个用户；

(b)在IP地址相同的情况下，如果使用的浏览器或者操作系统不同，则用户不同；

(c)如果IP地址相同且浏览器和操作系统也相同，就根据引用页进行区别；如果引用页为空，就认为是一个新的站点用户；如果引用页不为空并且多个用户都包含这个引用页，则将该引用页划为时间上最近访问用户，然后不同的引用页对应不同的用户。

进一步地，步骤S4中，会话识别的规则为：如果用户访问两个页面请求的时间差超过一定阈值，就认为用户开始了一个新的会话。

进一步地，步骤S6中，采用最大前向参引模型的方法进行事务识别。

本发明的优点在于：本方法提供了更完善的日志分析功能，提高了日志处理的精度，提高了日志分析的效率，使得日志处理更即时，更全面。满足了分析人员更全面的需求。

附图说明

图1为本发明的系统结构示意图。

图2为本发明的处理流程图。

图3为本发明的Web日志的一个条目示例图。

图4为本发明格式化示例图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

如图1所示，本发明的Web访问日志处理方法具体在一个Web访问日志处理系统上实现，该系统包括Web服务器端、Web访问日志处理模块和存储端；

Web服务器端为各类带有Web访问日志记录系统的Web服务器；

Web访问日志处理模块用于进行下列处理：Web日志格式化，日志清理，用户识别，会话识别，路径补充，事务识别；

存储端为各类可以格式化存储文件的数据库；

一种Web访问日志处理方法，包括下述步骤：

步骤S1，首先从Web服务器端读取Web日志文件，使用正则表达式获取Web日志文件中的信息，从而将得到的Web日志文件格式化；

Web日志的一个条目如图3所示，Web日志的格式如表一所示；目前常见的web日志格式主要有两类，一类是Apache的NCSA日志格式，另一类是IIS的W3C日志格式。NCSA格式又分为普通日志格式(CLF)和NCSA扩展日志格式(ECLF)两类，目前最常用的是NCSA扩展日志格式(ECLF)，本文以ECLF为例；

表一

Web日志信息格式化后的示例如图4所示；

步骤S2，进行Web日志清理：

S2.1，清除爬虫所产生的日志条目；

S2.2，清除path属性值后缀名是GIF、JPG、JPEG、PNG、MIDI、MP3、AVI、CSS、JS等的日志条目；

状态码值为1XX表示请求已接收，但是需要继续处理；2XX表示请求已成功；3XX表示请求需要客户端机一部操作；4XX表示请求错误；5XX表示服务器错误或者异常；

S2.4，清除请求方式不是GET和POST的日志条目；

步骤S3，进行用户识别：

用户识别，用户识别过程描述如下：

(a)IP地址不同则不是同一个用户；

(c)如果IP地址相同且浏览器和操作系统也相同，就根据引用页进行区别；如果引用页为空，就认为是一个新的站点用户；如果引用页不为空并且多个用户都包含这个引用页，则将该引用页划为时间上最近访问用户，然后不同的引用页对应不同的用户；

经过识别用户后用户访问日志记录UAL(useracesslog)＝<userid,ip,url,time,referrer>；其中userid是经过用户识别后给予每个用户唯一的标识码；url为请求的资源(即表一中的path)。

步骤S4，进行用户会话识别：

因为在跨度时间大的web日志中，用户可能多次访问了这个站点，会话识别的作用就是将用户访问日志记录分为单个的会话；

会话识别的规则为：如果用户访问两个页面请求的时间差超过一定阈值，就认为用户开始了一个新的会话，此处使用20分钟阈值；

在用户会话识别后，参考referrer属性形成带有用户访问操作顺序的序列，即用户访问操作序列；

步骤S5，进行路径补充：由于本地缓存的存在，当用户通过返回按钮返回前一页时，所访问到的信息是本地缓存中的信息，这些信息在不会出现在web日志中，比如用户访问页面路径为A-B-C，用户在C页面时点击了返回按钮，那么实际路径应为A-B-C-B，然而用户对页面B的访问请求是没有记录在访问日志中的，路径补充的作用就是将日志中没有记录的补充完整；

步骤S6，进行事务识别：

理论上经过路径补充后的用户访问操作序列已经可以进行数据挖掘，但是其实际粒度还是太过粗糙，仍然需要利用分割算法将其转化为更小的事务模式，事务(transaction)又称为浏览过程，就是对每一次的用户访问操作序列进行语义分组后所得到的页面序列；

目前用于事务识别的方法主要有两种(a)最大前向参引模型(b)引用长度，前者基于假设：用户访问的过程中只有改变兴趣取向时，才会访问之前访问过的页面，以跳转到另外的页面。意思为若某页面不在当前的用户会话集中，后向指向的页面已在当前用户会话集中。本文所使用的就是此种方法来辨别出用户访问的事务。

最后将处理后的结果存储到数据库中。

Claims

1.一种Web访问日志处理方法，其特征在于，包括下述步骤：

步骤S2，进行Web日志清理；

步骤S3，进行用户识别：

步骤S6，进行事务识别。

2.如权利要求1所述的Web访问日志处理方法，其特征在于：

所述步骤S2中包括：

S2.1，清除爬虫所产生的日志条目；

S2.4，清除请求方式不是GET和POST的日志条目。

3.如权利要求1所述的Web访问日志处理方法，其特征在于：

所述步骤S3中用户识别规则为：

（a）IP地址不同则不是同一个用户；

（b）在IP地址相同的情况下，如果使用的浏览器或者操作系统不同，则用户不同；

（c）如果IP地址相同且浏览器和操作系统也相同，就根据引用页进行区别；如果引用页为空，就认为是一个新的站点用户；如果引用页不为空并且多个用户都包含这个引用页，则将该引用页划为时间上最近访问用户，然后不同的引用页对应不同的用户。

4.如权利要求1所述的Web访问日志处理方法，其特征在于：

步骤S4中，会话识别的规则为：如果用户访问两个页面请求的时间差超过一定阈值，就认为用户开始了一个新的会话。

5.如权利要求1所述的Web访问日志处理方法，其特征在于：

步骤S6中，采用最大前向参引模型的方法进行事务识别。