CN105069087B

CN105069087B - 基于Web日志数据挖掘的网站优化方法

Info

Publication number: CN105069087B
Application number: CN201510466542.2A
Authority: CN
Inventors: 唐雪飞; 陈科; 刘明鸣; 吴亚骏
Original assignee: CHENGDU COMSYS INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHENGDU COMSYS INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-08-03
Filing date: 2015-08-03
Publication date: 2019-03-26
Anticipated expiration: 2035-08-03
Also published as: CN105069087A

Abstract

本发明公开了一种基于Web日志数据挖掘的网站优化方法；其包括以下步骤：获取Web日志数据，对Web日志数据进行预处理，对预处理后的Web日志数据进行数据挖掘得到用户访问模式集合，对用户访问模式集合进行筛选并对网站进行优化。本发明通过得到用户访问规律及模式，从而对网站结构进行调整及页面内容进行优化，改善了网站的设计，提高了用户的访问及浏览兴趣。

Description

基于Web日志数据挖掘的网站优化方法

技术领域

本发明属于网络站点优化技术领域，尤其涉及一种基于Web日志数据挖掘的网站优化方法。

背景技术

近年来,网络技术迅速发展,随着科技的突飞猛进,以及生活水平的日益提高,越来越多的人喜欢到网上了解和搜索自己感兴趣的东西,网络已经成为了人们沟通交流的重要途径之一。同时,网站作为一种新的信息平台,受到了越来越多的公司、企业甚至个人的重视。企业网站按照功能大致可以分为企业形象展示、公司产品推广、信息发布和数字商务类型。无论哪一类型的网站,最终目的还是要吸引客户访问,从而提升公司形象,促成产品交易。企业网站的结构设计、页面信息等因素将会直接影响浏览者对企业网站整体乃至整个企业的印象。

但是，公司网站在运行时,不能直观地反映出用户的访问习惯和访问要求，因而公司管理者不能很好的了解公司网站的运行情况对网站结构进行优化，提升用户满意度，为公司带来效益。

发明内容

本发明的发明目的是：为了解决现有技术中Web日志不能很好的使得网站得到优化等问题，本发明提出了一种基于Web日志数据挖掘的网站优化方法。

本发明的技术方案是：一种基于Web日志数据挖掘的网站优化方法，包括以下步骤：

A、从站点服务器获取Web日志数据；

B、对步骤A中获取的Web日志数据进行预处理，得到用户的访问序列；

C、对步骤B中得到的用户访问序列进行数据挖掘，得到用户访问模式集合；

D、对步骤C中得到的用户访问模式集合进行筛选，根据筛选得到的用户访问模式对网站进行优化。

进一步地，所述Web日志数据包括IP地址、请求时间、GET方法、被请求文件的URL、HTTP版本号、返回码、传输字节数、被请求文件的页面和代理。

进一步地，所述步骤B对Web日志数据进行预处理，具体包括以下分步骤：

B1、对Web日志数据进行清洗，删除无效及错误数据并对Web日志数据进行分类；

B2、根据Web日志数据和站点拓扑结构将用户及请求访问网页进行关联，并对用户进行识别；

B3、将用户的原始访问序列划分为若干个单次访问序列；

B4、判断用户请求访问页面和对应页面请求有无链接关系；若用户请求访问页面和对应页面请求有链接关系，则进行下一步骤；若用户请求访问页面和对应页面请求无链接关系，则利用站点拓扑结构将请求页面补充完整；

B5、根据用户访问第一个页面至回退前访问的一个页面的访问路径，得到用户的访问序列。

进一步地，所述步骤B2中对用户进行识别，具体包括以下分步骤：

B21、根据Web日志数据获取用户IP地址、代理和操作系统，并对用户集进行初始化；

B22、判断用户IP地址是否相同，若用户IP地址不相同，则将该用户加入到用户集；若用户IP地址相同，则进行下一步骤；

B23、判断代理或者操作系统是否相同，若代理或者操作系统不同，则将该用户加入到用户集；若代理或者操作系统都相同，则进行下一步骤；

B24、根据站点拓扑结构判定用户请求访问页面能否从已访问所有页面到达，若用户请求访问页面能够从已访问所有页面到达，则操作结束；若用户请求访问页面不能从已访问所有页面到达，则将该用户加入到用户集。

进一步地，所述步骤C具体为：根据预处理后的Web日志数据，利用统计分析方法，得到流量分析、低层次错误分析、网站出入口分析及用户来源分析数据；并利用关联规则挖掘方法，得到用户访问序列模式。

本发明的有益效果是：本发明的基于Web日志数据挖掘的网站优化方法，通过对Web日志数据进行预处理，再利用统计分析方法和关联规则挖掘方法对预处理后的Web日志数据进行挖掘，得到用户访问规律及模式，从而对网站结构进行调整及页面内容进行优化，改善了网站的设计，提高了用户的访问及浏览兴趣。

附图说明

图1是本发明的基于Web日志数据挖掘的网站优化方法流程示意图。

图2是本发明实施例中站点拓扑结构示意图。

图3是本发明实施例中频繁项挖掘过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明的基于Web日志数据挖掘的网站优化方法流程示意图。一种基于Web日志数据挖掘的网站优化方法，包括以下步骤：

A、从站点服务器获取Web日志数据；

在步骤A中，服务器是最直接的数据来源，不管静态还是动态网站，只要客户端访问站点就会在服务器上产生相应的数据，包括服务器日志，数据库日志等。本发明从站点Apache Tomcat服务器运行日志中获取Web日志数据，日志文件记录每个从客户端发起的请求信息。这里的Web日志数据包括IP地址、请求时间、GET方法、被请求文件的URL(统一资源定位符)、HTTP(Hyper Text Transfer Protocol，超文本传输协议)版本号、返回码、传输字节数、被请求文件的页面和代理。如下表1所示，为本发明获取的Web日志数据。

表1、本发明获取的Web日志数据

在步骤B中，由于网络环境的复杂性和用户环境的多样性，Web访问日志中很多数据是不能使用的或者是错误的数据，因此需要对步骤A中获取的Web日志数据进行预处理，具体包括以下分步骤：

B3、将用户的原始访问序列划分为若干个单次访问序列；

在步骤B1中，本发明对Web日志数据进行清洗包括对无效及错误数据进行删除及对删除处理后得到的Web日志数据进行分类。本发明通过删除无效或者错误的数据，减少数据量，缩小挖掘对象，提高数据挖掘的效率。这里删除无效或者错误的数据具体包括以下分步骤：

B11、删除Web日志数据中以jpg、jpeg、JPG、JPEG、gif、GIF和css、js等结尾的记录数据。

以上记录数据是用户非显示请求的站点图形文件和页面样式文件，这些文件通常是站点根据请求页面中的连接自动下载的。

B12、删除返回代码404(没有找到)、301(永久删除)或500(内部服务器错误)。

以上数据为用户请求访问失败的记录。

B13、删除用户请求方法中不是GET方法的记录。

如下表2所示，为本发明对Web日志数据进行清洗后得到的Web日志数据。

表2、本发明对Web日志数据进行清洗后得到的Web日志数据

在步骤B2中，用户识别是将用户和请求的页面相关联的过程，其中主要针对多个用户通过代理服务器或防火墙访问站点的情况。本发明根据Web日志数据和站点拓扑结构将用户及请求访问网页进行关联，并对用户进行识别。这里对用户进行识别，具体包括以下分步骤：

B22、判断用户IP地址是否相同，若用户IP地址不相同，即不同的IP地址代表不同的用户，则将该用户加入到用户集；若用户IP地址相同，则将该用户加入到用户集中的同一用户中，进行下一步骤；

B23、判断代理或者操作系统是否相同，若代理或者操作系统不同，即不同的代理或者操作系统代表不同的用户，则将该用户加入到用户集；若代理或者操作系统都相同，则进行下一步骤；

B24、根据站点拓扑结构判定用户请求访问页面能否从已访问所有页面到达，若用户请求访问页面能够从已访问所有页面到达，则操作结束；若用户请求访问页面不能从已访问所有页面到达，即说明该用户为新用户，则将该用户加入到用户集。

如表2所示，第1-9、11、13条具有相同的IP地址，第10、12、14条具有相同的IP地址，根据IP地址的不同，可以得到这是两个用户的日志访问记录，其浏览路径分别为：A-B-G-C-A-F-J-H-D-K-E和F-G-I。其中，第5、6、8、11条记录的代理为Mozilla(Linux2.2.15-3i686)，同其它的代理Mozilla(WindowsNT5.0)不相同，而恰恰这4条记录包含在当初认为的一个用户的记录中，这就说明至少有三个用户，其浏览路径为分别是：A-B-G-C-J-D-E，A-F-H-K和F-G-I。如图2所示，为本发明实施例中站点拓扑结构示意图。这三个用户的IP地址和操作系统都一致，根据图2对用户进行识别，如果用户请求访问的某个页面不能从已访问的任何页面到达，则判断这是又一个新的用户。将所有的日志记录和站点的拓扑结构结合，构造用户的浏览路径。其中，G页不能从A或B直接到达，并且I页只可以从G到达，这就说明存在有一个新用户使用了相同的IP地址。对表2进行用户识别后，发现有四个用户，其浏览路径分别是：A-B-C-D-E，G-J，A-F-H-K和F-G-I。

在步骤B3中，本发明对用户会话进行识别，即将用户的原始访问序列划分为若干个单次访问序列。由于步骤B2中得到的用户访问序列，用户可能是间隔了数个小时之后才完成的，并且用户在这段时间里，可能多次访问了这个网站。因此为了将用户的多次访问分开，本发明采取使用时间间隔的方法。通过设置时间间隔，当用户访问任意两个相关联的页面的间隔时间大于设置的时间间隔时，则判断该用户进行了一次新的访问。这里设置的时间间隔一般为20-30分钟。

本发明设定时间间隔为20分钟，在表2中针对10、12、14日志记录的用户，最后2个请求比前面第10个记录个晚了近1个小时，因此，可以得到该用户进行了一次新的访问，所以该用户的访问记录可以分为2个会话。因此，总共得到5个用户会话，其浏览路径分别为：A-B-C-D-E，G-J，A-F-H-K和F，G-I。

在步骤B4中，本发明通过路径补充将由于本地或是代理服务器缓存而遗漏的请求页补充完整。即判断用户请求访问页面和对应页面请求有无链接关系；若用户请求访问页面和对应页面请求有链接关系，则进行下一步骤；若用户请求访问页面和对应页面请求无链接关系，则利用站点拓扑结构将请求页面补充完整。

结合表2和图2，可以得到D页不能由C页直接到达，对D的请求是通过B，即用户请求D前可能使用“后退”按钮回退到B，所以B应当添加到用户的会话文件中(用户不可能直接输入D的URL，对D的访问是通过点击B中的超链接进行的)，因此进行路径补充后的结果是：A-B-C-B-D-E，G-J，A-F-H-K和F，G-I。

在步骤B5中，本发明通过事务识别对用户会话进行分析，并通过语义进行分组。这里的事务识别是指将用户会话划分为用户访问页面的序列，即用户浏览行为的基本模式。用户在浏览页面时会根据页面中的超链接或者需要进行向前或者向后的浏览，本发明使用最大向前路径得到用户的访问序列。这里的最大向前路径是指从用户会话的第一个页面开始，直到用户回退前访问的一个页面为止。

对步骤B4得出的会话结果使用最大向前路径方法对该会话进行分割运算,得到的事务集合是为{ABC，ABDE，GJ，AFHK，F，GI}。

在步骤C中，利用Web挖掘算法从Web日志数据中挖掘出有价值的信息，并以图标，报表等形式表现出来。本发明利用统计分析分析出用户来源、访问量、常访问的网页等，并使用关联规则和序列模式得到用户的访问模式规律，从而可以在一定程度上预测用户未来访问的页面，进而为完善站点结构提供指导意见。

首先根据预处理后的Web日志数据，利用统计分析方法，得到流量分析、低层次错误分析、网站出入口分析及用户来源分析数据。

其中，流量分析可以通过求出现率、求平均、求中值等，统计用户最常访问的网页，每页平均访问的时间，浏览路径的平均长度等，以获得用户访问网站的基本信息；低层次错误分析可以通过检测未授权入口点，找出最常见不变的URL；网站出入口分析可以得出用户在哪里进入网站，浏览了那些网页，是否是通过搜索引擎直接进入感兴趣的页，从哪里离开网站等信息；用户来源分析可以得出用户来自的国家、地区、网站以及最重要的用户来源等信息。

然后利用关联规则挖掘方法，得到用户访问序列模式。

其中，关联规则是通过分析用户访问网页间的潜在联系而归纳出的一种规则，这些页面之间并没有顺序关系。其数学表达为：设I＝{i₁，i₂，…，i_m}是项的集合，设与任务相关的数据集D是数据库事务的集合，其中每个事务T是项的集合，使得每一个事务有一个标识符，称作TID(Transaction ID，事务ID)。设A是一个项集，若事务T包含A，当且仅当关联规则是形如的蕴涵式，其中并且规则在事务集D中的支持度表示为s，s代表D中事务包含(A和B同时发生)的概率，用概率表示。规则在事务集D中的置信度表示为c，指的是事务D中包含A事务的同时也包含B的百分比，即条件概P(B|A)。可信度说明了蕴涵的强度，而支持度说明了规则中所出现模式的频率，即：

给定最小支持度阀值(min-sup)和最小置信度阀值(min-conf)，能够同时满足最小支持度阀值和最小置信度阀值的规则称为强规则。给定一个事务集D，对其进行关联规则挖掘，主要问题就是发现支持度和可信度都大于用户给定的最小支持度阀值和最小可信度阀值的关联规则，即产生强关联规则。

项集(itemset)就是指项的集合。包含k项的项集称为k-项集。例如，集合{A,B}是一个2-项集。项集的出现频率是指包含项集的事务数，简称为项集的计数或支持计数。项集满足最小支持度(min-sup)，则称它为频繁项集(FrequentItemsets)。即如果项集的计数大于或等于min-sup与D中事务总数的乘积，那么该项集就是频繁项集，频繁k-项集的集合通常记作L_k。

关联规则挖掘方法具体为：

首先从数据集中找出所有的频繁项目集，即从原始数据集中取得数据，在原始数据集中，找出所有大于给定的最小值支持度(min-sup)的频繁项，即找到所有支持度不小于最小支持度(min-sup)的项目集，具体包括以下分步骤：

S1、设定最小支持度和最小置信度，对原始数据集进行扫描，一次选取一条数据；

S2、判断选取的数据是否为最后一条数据；若选取的数据不是最后一条数据，则操作结束；若选取的数据是最后一条数据，则进行下一步骤；

S3、判断选取的数据是否能产生候选项；若选取的数据不能产生候选项，则操作结束；若选取的数据能够产生候选项，则生成候选项集并进行修剪，删除支持度小于最小支持度阈值的项集，生成频繁项目集。

然后利用频繁项目集产生关联规则，即设定最小置信度min_conf，对于每个频繁项集l，产生其所有非空真子集，再对于每个非空真子集s，如果support_count(l)/support_count(s)≥min_conf，则输出s→(l-s)，产生关联规则。

如图3所示，为本发明实施例中频繁项挖掘过程示意图。对步骤B5中得到的事务集T{ABC，ABDE，GJ，AFHK，F，GI}进行关联规则挖掘。假设用户给定支持度阀值为2，首先得到从事务集项目集T得到构造项集C1{{A,3},{B,2},{C,1},{D,1},{E,1},{F,2},{G,2},{H,1},{I,1},{J,1},{K,1}}，其中A出现了3次，因而支持度计数为3，B出现了2次，因而支持度计数为2，依次类推得到C～J的支持度计数，然后根据支持度阀值，删除小于其值的项，得到L1{{A,3},{B,2},{F,2},{G,2}}。再有L1生成构造项集C2{{{A,B},2},{{A,F},1},{{A,G},0},{{B,F},0},{{B,G},0},{{F,G},0}}，参照上一过程，删除小于支持度阀值的项集得到L2{{A,B},2}，L2即为频繁项集。

频繁集L2的非空子集为{{A}，{B}}，则置信度为：

由此，我们得到用户访问规律：用户浏览A页面后浏览B页面的概率为66.7％，用户浏览了B页面发生的情况下发生A的概念为100％，即为用户浏览了B页面肯定浏览了A页面。

利用关联规则挖掘方法得到用户访问序列模式，依据序列模式可以分析出用户的浏览趋势，即在访问某一个页面之后很有可能访问的另外一个页面，从而可以预测未来的访问模式，这将有助于针对特别用户群安排特定内容。

因此可以得到用户的访问序列为A-B。

在步骤D中，由于经过数据挖掘得到的结果很少是用户所感兴趣或对用户来时是有价值的，大量的访问模式是网站本身所具有的特性知识或是常识性的知识，另外，用户对挖掘到的模式经常会感到难以理解。因此，本发明对发现的知识进行模式分析，利用不同领域不同学科的知识以及其他可用的工具或标准来分析模式，从而，剔除大部分对用户而言没有利用价值的模式，并将有价值的模式和规则解释为用户容易接受的知识，从而从挖掘得到的模式集合中筛选出有用的模式，根据筛选得到的用户访问模式对网站结构进行调整及页面内容进行优化，改善了网站的设计，提高了用户的访问及浏览兴趣。

本发明由步骤C中得到的用户访问序列为A-B，再由置信度可以得到用户浏览A页面再浏览B页面的概率为66.7％，根据步骤C中统计分析得到的流量分析数据可以得出所有用户访问B页面的概率，即根据所有用户访问B页面的概率对用户访问序列进行筛选；若所有用户访问B页面的概率小于或等于用户浏览A页面再浏览B页面的概率，则说明该用户访问序列为没有利用价值的访问模式，并将该用户访问序列剔除；若所有用户访问B页面的概率大于用户浏览A页面再浏览B页面的概率，则说明该用户访问序列为有用的访问模式，即可以将B页面提前到父级页面，从而改善网站设计，提高用户的访问。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于Web日志数据挖掘的网站优化方法，其特征在于，包括以下步骤：

A、从站点服务器获取Web日志数据；

B、对步骤A中获取的Web日志数据进行预处理，得到用户的访问序列；具体包括以下分步骤：

B3、将用户的原始访问序列划分为若干个单次访问序列；

B5、根据用户访问第一个页面至回退前访问的一个页面的访问路径，得到用户的访问序列；

C、对步骤B中得到的用户访问序列进行数据挖掘，得到用户访问模式集合，具体为：根据预处理后的Web日志数据，利用统计分析方法，得到流量分析、低层次错误分析、网站出入口分析及用户来源分析数据；并利用关联规则挖掘方法，得到用户访问序列模式；所述关联规则挖掘方法具体为：

S3、判断选取的数据是否能产生候选项；若选取的数据不能产生候选项，则操作结束；若选取的数据能够产生候选项，则生成候选项集并进行修剪，删除支持度小于最小支持度阈值的项集，生成频繁项目集；

2.如权利要求1所述的基于Web日志数据挖掘的网站优化方法，其特征在于，所述Web日志数据包括IP地址、请求时间、GET方法、被请求文件的URL、HTTP版本号、返回码、传输字节数、被请求文件的页面和代理。

3.如权利要求1所述的基于Web日志数据挖掘的网站优化方法，其特征在于，所述步骤B2中对用户进行识别，具体包括以下分步骤：