CN105701237A - Web访问日志处理方法 - Google Patents

Web访问日志处理方法 Download PDF

Info

Publication number
CN105701237A
CN105701237A CN201610099558.9A CN201610099558A CN105701237A CN 105701237 A CN105701237 A CN 105701237A CN 201610099558 A CN201610099558 A CN 201610099558A CN 105701237 A CN105701237 A CN 105701237A
Authority
CN
China
Prior art keywords
user
web
processing method
log
log processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610099558.9A
Other languages
English (en)
Inventor
董恒
孙丙宇
王伟
汪六三
李文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Z-Hope Technology Co Ltd
Wuxi Zhongke Funong Internet Of Things Technology Co Ltd
Jiangsu IoT Research and Development Center
Original Assignee
Anhui Z-Hope Technology Co Ltd
Wuxi Zhongke Funong Internet Of Things Technology Co Ltd
Jiangsu IoT Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Z-Hope Technology Co Ltd, Wuxi Zhongke Funong Internet Of Things Technology Co Ltd, Jiangsu IoT Research and Development Center filed Critical Anhui Z-Hope Technology Co Ltd
Priority to CN201610099558.9A priority Critical patent/CN105701237A/zh
Publication of CN105701237A publication Critical patent/CN105701237A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种Web访问日志处理方法,包括下述步骤:步骤S1,首先从Web服务器端读取Web日志文件,使用正则表达式获取Web日志文件格式结构中的信息,从而将得到的Web日志文件格式化;步骤S2,进行Web日志清理;步骤S3,进行用户识别:步骤S4,进行用户会话识别,在用户会话识别后,参考referrer属性形成带有用户访问操作顺序的序列,即用户访问操作序列;步骤S5,进行路径补充;对于用户通过返回按钮返回前一页时,缺失的日志记录补充完整;步骤S6,进行事务识别。本发明提高了日志分析的效率,使得日志处理更即时,更全面;满足了分析人员更全面的需求。

Description

Web访问日志处理方法
技术领域
本发明涉及计算机软件处理方法,尤其是一种Web访问日志处理方法。
背景技术
Web日志是记录Web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件,确切的讲,应该是服务器日志。本文所使用的是访问日志。Web日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。因此通过对数以万计的Web日志的挖掘分析,可以为访问农资电子商务网站的大量用户提供个性化的推荐服务,增强农资电子商务网站的信息服务质量,也为网站管理员改进站点结构,性能等提供依据。
Web日志处理是Web日志数据挖掘的基础,为了把Web日志文件转变成实际可用的,格式化的,适合进行数据挖掘的可存储的数据库文件。目前有很多日志处理的工具,如:WebLogReader,IISLogViews等,或是只具有简单的日志查看功能,或者处理后的粒度过于粗糙,缺乏一种处理后直接适用于数据挖掘的日志处理系统。
发明内容
本发明的目的在于克服现有技术中存在的不足,提供一种Web访问日志处理方法,提供了更完善的日志分析功能,为数据挖掘打下来较好的基础。本发明采用的技术方案是:
一种Web访问日志处理方法,包括下述步骤:
步骤S1,首先从Web服务器端读取Web日志文件,使用正则表达式获取Web日志文件格式结构中的信息,从而将得到的Web日志文件格式化;
步骤S2,进行Web日志清理;
步骤S3,进行用户识别:
步骤S4,进行用户会话识别,在用户会话识别后,参考referrer属性形成带有用户访问操作顺序的序列,即用户访问操作序列;
步骤S5,进行路径补充;对于用户通过返回按钮返回前一页时,缺失的日志记录补充完整;
步骤S6,进行事务识别。
进一步地,所述步骤S2中包括:
S2.1,清除爬虫所产生的日志条目;
S2.2,清除path属性值后缀名是GIF、JPG、JPEG、PNG、MIDI、MP3、AVI、CSS、JS的日志条目;
S2.3,清除客户请求不成功的日志条目,即status号码属性值不为2XX的日志条目:
S2.4,清除请求方式不是GET和POST的日志条目。
进一步地,所述步骤S3则用户识别规则为:
(a)IP地址不同则不是同一个用户;
(b)在IP地址相同的情况下,如果使用的浏览器或者操作系统不同,则用户不同;
(c)如果IP地址相同且浏览器和操作系统也相同,就根据引用页进行区别;如果引用页为空,就认为是一个新的站点用户;如果引用页不为空并且多个用户都包含这个引用页,则将该引用页划为时间上最近访问用户,然后不同的引用页对应不同的用户。
进一步地,步骤S4中,会话识别的规则为:如果用户访问两个页面请求的时间差超过一定阈值,就认为用户开始了一个新的会话。
进一步地,步骤S6中,采用最大前向参引模型的方法进行事务识别。
本发明的优点在于:本方法提供了更完善的日志分析功能,提高了日志处理的精度,提高了日志分析的效率,使得日志处理更即时,更全面。满足了分析人员更全面的需求。
附图说明
图1为本发明的系统结构示意图。
图2为本发明的处理流程图。
图3为本发明的Web日志的一个条目示例图。
图4为本发明格式化示例图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示,本发明的Web访问日志处理方法具体在一个Web访问日志处理系统上实现,该系统包括Web服务器端、Web访问日志处理模块和存储端;
Web服务器端为各类带有Web访问日志记录系统的Web服务器;
Web访问日志处理模块用于进行下列处理:Web日志格式化,日志清理,用户识别,会话识别,路径补充,事务识别;
存储端为各类可以格式化存储文件的数据库;
一种Web访问日志处理方法,包括下述步骤:
步骤S1,首先从Web服务器端读取Web日志文件,使用正则表达式获取Web日志文件中的信息,从而将得到的Web日志文件格式化;
Web日志的一个条目如图3所示,Web日志的格式如表一所示;目前常见的web日志格式主要有两类,一类是Apache的NCSA日志格式,另一类是IIS的W3C日志格式。NCSA格式又分为普通日志格式(CLF)和NCSA扩展日志格式(ECLF)两类,目前最常用的是NCSA扩展日志格式(ECLF),本文以ECLF为例;
表一
Web日志信息格式化后的示例如图4所示;
步骤S2,进行Web日志清理:
S2.1,清除爬虫所产生的日志条目;
S2.2,清除path属性值后缀名是GIF、JPG、JPEG、PNG、MIDI、MP3、AVI、CSS、JS等的日志条目;
S2.3,清除客户请求不成功的日志条目,即status号码属性值不为2XX的日志条目:
状态码值为1XX表示请求已接收,但是需要继续处理;2XX表示请求已成功;3XX表示请求需要客户端机一部操作;4XX表示请求错误;5XX表示服务器错误或者异常;
S2.4,清除请求方式不是GET和POST的日志条目;
步骤S3,进行用户识别:
用户识别,用户识别过程描述如下:
(a)IP地址不同则不是同一个用户;
(b)在IP地址相同的情况下,如果使用的浏览器或者操作系统不同,则用户不同;
(c)如果IP地址相同且浏览器和操作系统也相同,就根据引用页进行区别;如果引用页为空,就认为是一个新的站点用户;如果引用页不为空并且多个用户都包含这个引用页,则将该引用页划为时间上最近访问用户,然后不同的引用页对应不同的用户;
经过识别用户后用户访问日志记录UAL(useracesslog)=<userid,ip,url,time,referrer>;其中userid是经过用户识别后给予每个用户唯一的标识码;url为请求的资源(即表一中的path)。
步骤S4,进行用户会话识别:
因为在跨度时间大的web日志中,用户可能多次访问了这个站点,会话识别的作用就是将用户访问日志记录分为单个的会话;
会话识别的规则为:如果用户访问两个页面请求的时间差超过一定阈值,就认为用户开始了一个新的会话,此处使用20分钟阈值;
在用户会话识别后,参考referrer属性形成带有用户访问操作顺序的序列,即用户访问操作序列;
步骤S5,进行路径补充:由于本地缓存的存在,当用户通过返回按钮返回前一页时,所访问到的信息是本地缓存中的信息,这些信息在不会出现在web日志中,比如用户访问页面路径为A-B-C,用户在C页面时点击了返回按钮,那么实际路径应为A-B-C-B,然而用户对页面B的访问请求是没有记录在访问日志中的,路径补充的作用就是将日志中没有记录的补充完整;
步骤S6,进行事务识别:
理论上经过路径补充后的用户访问操作序列已经可以进行数据挖掘,但是其实际粒度还是太过粗糙,仍然需要利用分割算法将其转化为更小的事务模式,事务(transaction)又称为浏览过程,就是对每一次的用户访问操作序列进行语义分组后所得到的页面序列;
目前用于事务识别的方法主要有两种(a)最大前向参引模型(b)引用长度,前者基于假设:用户访问的过程中只有改变兴趣取向时,才会访问之前访问过的页面,以跳转到另外的页面。意思为若某页面不在当前的用户会话集中,后向指向的页面已在当前用户会话集中。本文所使用的就是此种方法来辨别出用户访问的事务。
最后将处理后的结果存储到数据库中。

Claims (5)

1.一种Web访问日志处理方法,其特征在于,包括下述步骤:
步骤S1,首先从Web服务器端读取Web日志文件,使用正则表达式获取Web日志文件格式结构中的信息,从而将得到的Web日志文件格式化;
步骤S2,进行Web日志清理;
步骤S3,进行用户识别:
步骤S4,进行用户会话识别,在用户会话识别后,参考referrer属性形成带有用户访问操作顺序的序列,即用户访问操作序列;
步骤S5,进行路径补充;对于用户通过返回按钮返回前一页时,缺失的日志记录补充完整;
步骤S6,进行事务识别。
2.如权利要求1所述的Web访问日志处理方法,其特征在于:
所述步骤S2中包括:
S2.1,清除爬虫所产生的日志条目;
S2.2,清除path属性值后缀名是GIF、JPG、JPEG、PNG、MIDI、MP3、AVI、CSS、JS的日志条目;
S2.3,清除客户请求不成功的日志条目,即status号码属性值不为2XX的日志条目:
S2.4,清除请求方式不是GET和POST的日志条目。
3.如权利要求1所述的Web访问日志处理方法,其特征在于:
所述步骤S3中用户识别规则为:
(a)IP地址不同则不是同一个用户;
(b)在IP地址相同的情况下,如果使用的浏览器或者操作系统不同,则用户不同;
(c)如果IP地址相同且浏览器和操作系统也相同,就根据引用页进行区别;如果引用页为空,就认为是一个新的站点用户;如果引用页不为空并且多个用户都包含这个引用页,则将该引用页划为时间上最近访问用户,然后不同的引用页对应不同的用户。
4.如权利要求1所述的Web访问日志处理方法,其特征在于:
步骤S4中,会话识别的规则为:如果用户访问两个页面请求的时间差超过一定阈值,就认为用户开始了一个新的会话。
5.如权利要求1所述的Web访问日志处理方法,其特征在于:
步骤S6中,采用最大前向参引模型的方法进行事务识别。
CN201610099558.9A 2016-02-23 2016-02-23 Web访问日志处理方法 Pending CN105701237A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610099558.9A CN105701237A (zh) 2016-02-23 2016-02-23 Web访问日志处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610099558.9A CN105701237A (zh) 2016-02-23 2016-02-23 Web访问日志处理方法

Publications (1)

Publication Number Publication Date
CN105701237A true CN105701237A (zh) 2016-06-22

Family

ID=56223048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610099558.9A Pending CN105701237A (zh) 2016-02-23 2016-02-23 Web访问日志处理方法

Country Status (1)

Country Link
CN (1) CN105701237A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108512704A (zh) * 2018-04-09 2018-09-07 网易(杭州)网络有限公司 日志的处理方法及装置
CN109359263A (zh) * 2018-10-16 2019-02-19 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110167A (zh) * 2011-03-01 2011-06-29 上海奈凯电子科技有限公司 数控系统中实现日志信息管理的方法
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
US20140081983A1 (en) * 2004-03-09 2014-03-20 Versata Development Group, Inc. Session-Based Processing Method and System
CN104283719A (zh) * 2014-10-28 2015-01-14 北京国双科技有限公司 一种日志的处理方法、装置及服务器
CN104714946A (zh) * 2013-12-11 2015-06-17 田鹏 一种基于NoSQL的大规模Web日志分析系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140081983A1 (en) * 2004-03-09 2014-03-20 Versata Development Group, Inc. Session-Based Processing Method and System
CN102110167A (zh) * 2011-03-01 2011-06-29 上海奈凯电子科技有限公司 数控系统中实现日志信息管理的方法
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN104714946A (zh) * 2013-12-11 2015-06-17 田鹏 一种基于NoSQL的大规模Web日志分析系统
CN104283719A (zh) * 2014-10-28 2015-01-14 北京国双科技有限公司 一种日志的处理方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程博: "基于日志的Web挖掘相关技术研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108512704A (zh) * 2018-04-09 2018-09-07 网易(杭州)网络有限公司 日志的处理方法及装置
CN109359263A (zh) * 2018-10-16 2019-02-19 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统

Similar Documents

Publication Publication Date Title
US20210397777A1 (en) System and method for deep linking and search engine support for web sites integrating third party application and components
US9448999B2 (en) Method and device to detect similar documents
US20130185429A1 (en) Processing Store Visiting Data
CN104426713A (zh) 网络站点访问效果数据的监测方法和装置
CN105824744A (zh) 一种基于b2b平台的实时日志采集分析方法
CN101609399B (zh) 基于建模的智能化网站开发系统及方法
TWI592807B (zh) Method and device for web style address merge
CN102750326A (zh) 一种基于精简策略的集群系统的日志管理优化方法
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN103488732A (zh) 一种静态页面生成方法及装置
US10762095B2 (en) Validation of log formats
US8713368B2 (en) Methods for testing OData services
CN109284435B (zh) 面向互联网的用户交互痕迹捕获、存储和检索系统及方法
CN112486708B (zh) 页面操作数据的处理方法和处理系统
CN1801817A (zh) 日志文件的生成方法和系统
US9069681B1 (en) Real-time log joining on a continuous stream of events that are approximately ordered
CN102880679B (zh) 一种网页信息存储方法和装置
CN105721578A (zh) 一种用户行为数据采集方法和系统
CN101188521B (zh) 一种挖掘用户行为数据的方法和网站服务器
EP2281246A1 (en) Generating sitemaps
Raju et al. Knowledge discovery from web usage data: Complete preprocessing methodology
CN112764795A (zh) 一种面向服务的跨平台跨终端信息发布系统和方法
CN105701237A (zh) Web访问日志处理方法
US11615164B2 (en) Dynamic website creation system and method
US9092338B1 (en) Multi-level caching event lookup

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160622

RJ01 Rejection of invention patent application after publication