CN103823883B

CN103823883B - 一种网站用户访问路径的分析方法及系统

Info

Publication number: CN103823883B
Application number: CN201410080027.6A
Authority: CN
Inventors: 房鹏展; 徐晓冬; 陈静
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2014-03-06
Filing date: 2014-03-06
Publication date: 2015-06-10
Anticipated expiration: 2034-03-06
Also published as: CN103823883A

Abstract

本发明公开了一种网站用户访问路径的分析方法及系统，解决目前在大数据环境下如何利用网站用户访问路径分析来进行网站优化的问题。本发明的一种网站用户访问路径的分析方法及系统，提供了访问路径树生成及频繁路径挖掘方法，提及的用户访问路径分析是对这些访问站点的信息加以分析，从中对用户行为加以分析，分析各个环节的来源、转化、退出等等，来发现网站结构及页面内容中存在的缺陷与瓶颈，并从用户实际需要来加以改善，最终提升用户浏览转化率，提高用户体验与满意度。

Description

一种网站用户访问路径的分析方法及系统

技术领域

本发明涉及网站分析领域，特别是一种网站用户访问路径的分析方法及系统。

背景技术

在互联网产业高速发展的大环境下，各个网站之间竞争日趋激烈，数据以爆炸式的速度产生，能够将这些大数据转变为有价值的知识对于网站来说是至关重要的。

对于网站来说，每天都有大量的用户点击网站的各个页面，这些点击行为一般被apache等服务器软件记录下来，保存于文本或数据库等数据源中。现在越来越多企业开始重视网站分析，根据分析结果来改进网站的建设，达到更好的效果。

在这方面，积累了一些解决方案。专利“一种网站访问分析的系统”（申请专利号:CN200910082358.2），它是直接针对每个访问用户实时的交互引导，从而将用户访问的倾向实时分析出来，并根据预定的规则将用户分成不同群体，直接推进从用户到购买者的进程。

专利“一种网站分析系统及方法和装置”（申请专利号:CN201210279722.6），它是提供一种基于“旁路镜像”的模式完成网站分析的数据采集，可以获得用户访问网站的原始数据包信息，经过有效的数据清理、筛选，获得完整的网站分析的数据报告。

以上两个专利，一个是介绍日志采集的方法，一个是分析用户的点击行为，在用户访问路径这一方面尚未涉及，因此上述2种专利提出的方法在网站建设成熟后，无法再凭经验去做一些深层次的优化。

在当今互联网飞速发展的今天，对网站访问者的访问行为越来越重视，因为访问者的访问行为中隐含有访问者的兴趣、爱好、习惯等因素，如果能正确的把握这些因素，对互联网发展是非常有帮助的。而对用户访问路径的分析是获取访问者访问行为的一个非常关键的途径。

发明内容

本发明在此背景下，提及的用户访问路径分析是对这些访问站点的信息加以分析，从中对用户行为加以分析，分析各个环节的来源、转化、退出等等，来发现网站结构及页面内容中存在的缺陷与瓶颈，并从用户实际需要来加以改善，最终提升用户浏览转化率，提高用户体验与满意度。发明人经过实践最终总结出一种网站用户访问路径的分析方法及系统。

本发明提供一种网站用户访问路径的分析方法及系统，解决目前在大数据环境下如何利用网站用户访问路径分析来进行网站优化的问题。

本发明采用的技术方案为：一种网站用户访问路径的分析方法，其特征在于提供了访问路径树生成及频繁路径挖掘方法，包括：

步骤一：从业务系统、文本等相关数据源将数据抽取出来，去除掉其中的噪音异常数据，保留用户点击数据。

步骤二：一般日志中每次点击都会包含referer与request，request记录为每次点击对应的请求页面，而referer指点是每次点击是从哪个页面链接过来的。对于清洗后的数据，由于访问来源referer与当前请求request的记录格式并不一致，后期直接匹配难以进行，因而需要转化，可以以referer的格式为基准，将request转化为完整的url格式，这样后期可以直接将referer与request进行匹配。

另外，为了可以支持后续不同粒度的分析，可以按照页面的类型将访问页面划分为首页、搜索页面、目录页面、产品页面等等。

步骤三：由于用户浏览网站时不一定都在登录状态，这时对用户身份的识别是非常重要的。根据用户访问网站时的email、cookie、ip等信息，对每一个访问的用户进行身份识别，识别的依据权重为email>cookie>ip，将每一条访问记录对应到某个用户，最终将用户身份识别的数据存储到数据仓库中。

步骤四：在最大向前路径算法的基础上，结合数据库在处理、匹配数据方面的特性，通过改写最大向前路径算法，将用户访问网站的点击数据生成路径树，步骤如下：

1）先将访问记录按照用户、点击时间进行排序，对于每个用户来，其首次点击作为一颗新树的树根，节点值为request的值；

2）依照时间顺序读取后面的referer_i与request_i，将referer_i与已生成的树中节点request进行匹配，匹配上的作为该匹配节点的子节点，子节点值为request_i的值；

3）若referer_i与树中所有的request都无法匹配，则重新生成一颗新树，该次点击作为该新树的根，值为request_i的值；

4）重复2）-3）步，直到该用户所有点击记录都循环一遍；

5）依此最终生成该用户访问网站的路径树，将树存储到数据仓库中，可以加以利用，分析各个环节间的转化率。

步骤五：对于生成的树，为方便进行重点路径分析，在Apriori算法的基础上，加入节点之间的序列特性，通过改写Apriori算法，可以进一步挖掘出用户访问的频繁路径图，步骤如下：

1）找到包含2个页面的频繁路径集

2）循环：通过k频繁集之间的关联串接，生成k-1频繁集。

这样可以得到用户访问的频繁路径图，可以分析得到网站的主要路径，结合路径上各个环节的转化率，就可以对网站的结构、内容等进行优化。其中，转化率指某一页面到另一页面的访问次数，与某一页面被访问总次数的比率。

步骤六：从频繁路径出发，寻找转化率较低的环节，分析不足的原因：

●中间环节的页面存在的必要性低，影响访问者不断深入的访问；

●页面布局不突出，造成访问者寻找目标困难；

●内容组织不合理，导致访问者无兴趣进一步访问；

●页面缺乏符合访问者兴趣的个性化推荐链接，增加了访问者寻找目标的代价。

根据具体的原因，可以指导网站建设者有针对性的解决问题，提高网站的品质。

本发明公开一种网站用户访问路径分析系统，包括：数据源模块、网站日志预处理模块、访问路径树生成模块、频繁路径图挖掘模块、网站优化机会发现模块。

所述数据源模块，用于记录用户访问网站时留下的基础数据，作为整个路径分析系统的数据来源，主要是网站用户访问日志，还包括来自于业务系统、文本文件或其它数据结构源。

所述网站日志预处理模块，用于对数据源中基础数据进行清洗、格式转换、识别等处理，最终存放到数据仓库中。其中包括三个子模块：数据清洗子模块、格式转换子模块、用户识别子模块。所述数据清洗子模块，对基础数据中的噪音异常进行处理，包括爬虫数据、被动请求链接（图片）、异常IP访问数据等等。所述格式转换子模块，用于对访问来源referer与当前请求request进行格式转化与分类，便于后续路径树的生成与支持不同粒度的分析。所述用户识别子模块，用户浏览网站时无论登录与否，都能识别出其唯一的身份，一般通过其cookie、ip或其所留的手机、邮箱等进行识别。

所述访问路径树生成模块，用于将预处理完成的数据转化为访问路径树，存储到数据仓库中。

所述频繁路径图挖掘模块，用于从访问路径树中挖掘出用户的频繁访问路径，存储到数据仓库中。

所述网站优化机会发现模块，从访问路径树与频繁访问路径图中，分析网站各内容及各个环节的转化率，优先从主要路径出发，针对转化率低的，不断从网站结构与页面内容上对网站进行优化。

本发明的有益结果如下：

（1）通过改写最大向前路径算法，从用户访问日志中提取用户访问路径树结构，可以通过路径树中节点间转化率高低，分析网站结构及页面内容中存在的缺陷与瓶颈，结合用户实际需求，对网站进行优化，不断提高用户体验及满意度，提升流量转化。

（2）对于提取出的路径树，通过改写Apriori算法，可以进一步挖掘出用户访问的频繁路径图，也就是用户访问的主要路径，得出的频繁路径图反映了访问用户共性的访问特征，作为指导，优先从共性特征入手，快速定位，进行网站优化。

附图说明

图1是本发明实施例中的用户访问路径生成及挖掘的流程示意图。

图2是本发明实施例中的用户访问路径分析系统的结构示意图。

图3是本发明实施例中的从访问日志生成路径树的流程示意图。

图4是本发明实施例中的生成访问路径树图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

在本发明中，通过对网站日志进行一系列处理，最终生成可以直接分析的路径树与频繁路径图，帮助网站不断进行优化。

参阅图1所示，本发明实施例的数据处理流程，具体步骤为：

步骤11：从业务系统、文本等相关数据源将数据抽取出来，去除掉其中的噪音异常数据，只需保留用户点击相关数据。其中，需清洗的数据包括爬虫数据、被动请求链接（图片）、异常IP访问数据等等。

步骤12：对于清洗后的数据，一般referer为正常url格式，而request的格式为：GET/××××HTTP/1.1（有前后缀，且不包括域名），这时可以以referer为基准，去除request的‘GET/’前缀与‘HTTP/1.1’后缀，并加上域名，这样两者能够进行匹配。同时对每个访问页面进行分类，可以分为首页、搜索页、目录页、产品页等等，也可以细到专题页甚至具体某个产品，这样可以支持后续不同粒度的分析。

步骤13：由于用户浏览网站时不一定都在登录状态，这时对用户身份的识别是非常重要的。目前我们根据用户访问网站时的email、cookie、ip等信息，对每一个访问的用户进行身份识别，识别的依据权重为email>cookie>ip，将每一条访问记录对于到某个用户，最终将用户身份数据储存到数据仓库中。

步骤14：根据用户每一次访问的来源及请求，将来源和请求逐个匹配，匹配上的作为子叶，否则作为一颗新的树根，最终生成该用户访问网站的路径树，将树存储到数据仓库中，可直接用于分析，具体流程详见图3。

步骤15：对于生成的树，通过关联算法可以进一步挖掘出用户访问的频繁路径图，可以优先从用户访问主要路径上进行网站优化。这里是通过改写Apriori算法，得到用户访问的频繁路径。算法如下：

输入：事务数据库，最小支持度minsup

输出：频繁路径集F

步骤：

1）找到长度（包含的页面数）为2的频繁路径集F2

删除F中计数小于minsup的路径，所得结果集为频繁路径集F2；

2）循环生成长度为k（k>2）的频繁路径集Fk，

例如，路径树如下所示：

P1-P2-P3-P4
	P1-P2-P3-P5-P6
P1-P2-P7-P8
	P1-P2-P3-P9
P1-P2-P3-P5-P10
	P1-P2-P11-P12
P1-P2-P11-P12-P13

假设最小支持度为2，则可以得到

F2=｛P1-P2，P2-P3，P3-P5，P2-P11，P11-P12｝

F3=｛P1-P2-P3，P1-P2-P11，P2-P3-P5，P2-P11-P12｝

F4=｛P1-P2-P3-P5，P1-P2-P11-P12｝

通过以上处理，从获得的频繁路径出发，寻找转化率较低的环节，分析不足的原因：

●页面布局不突出，造成访问者寻找目标困难；

●内容组织不合理，导致访问者无兴趣进一步访问；

参阅图2所示，本发明实施例的系统结构，包括：

数据源模块21、网站日志预处理模块22、访问路径树生成模块23、频繁路径图挖掘模块24、网站优化机会发现模块25。

数据源模块21，用于记录用户访问网站时留下的基础数据，作为整个路径分析系统的数据来源，主要是网站用户访问日志，可能来自于业务系统、文本文件或其它数据结构源。

网站日志预处理模块22，对数据源中基础数据进行清洗、格式转换、识别等处理，最终存放到数据仓库中。其中包括三个子模块：数据清洗子模块221、格式转换子模块222、用户识别子模块223。

数据清洗子模块221，对基础数据中的噪音异常进行处理，包括爬虫数据、被动请求链接（图片）、异常IP访问数据等等。

格式转换子模块222，用户对访问来源referer与当前请求request进行格式转化与分类，便于后续路径树的生成与支持不同粒度的分析。

用户识别子模块223，用户浏览网站时无论登录与否，都能识别出其唯一的身份，一般通过其cookie、ip或其所留的手机、邮箱等进行识别。

访问路径树生成模块23，用于将预处理完成的数据转化为访问路径树，存储到数据仓库中。

频繁路径图挖掘模块24，用于从访问路径树中挖掘出用户的频繁访问路径，存储到数据仓库中。

网站优化机会发现模块25，从访问路径树与频繁访问路径图中发现网站瓶颈与优化机会，不断优化网站结构。

参阅图3所示，本发明实施例的访问路径树生成流程，通过改写最大向前路径算法，从访问日志中提取路径树，具体步骤为：

步骤31：从数据仓库中获取经过相关预处理后的用户访问日志数据。

步骤32：按照用户、点击时间顺序依次读取每一条referer_i与request_i，每个用户单独开始下面的建树过程。

步骤33：各用户首次点击作为第一颗树的树根，节点值为request_1的值。

步骤34：将待匹配记录中的referer_i与该用户已生成的树中节点进行匹配，若匹配上则进入步骤35，否则进去步骤36。

步骤35：referer_i与树中某节点一致，将该记录作为匹配节点的子节点，节点值为request_i的值。

步骤36：referer_i与树中任一节点不一致，则生成新树，节点值为request_i的值。

不断循环步骤34、35、36，直至该用户所有记录均匹配完成，最终得到该用户的访问路径树，将其存到数据仓库中。

改写最大向前路径算法如下：

输入：某用户按时间顺序访问站点的request及referer

输出：最大向前路径集合{MFPi，F(i,j)}

步骤：

这样得到最大向前路径集合，其中MFPi为树中每一条路径，F(i,j)为节点共用标记，节点首次出现记为1，后续被共用时记为0，这样通过将标记为0的节点自动合并，就最终生成访问路径树，可用于后续的分析与挖掘。例如，某用户按时间顺序访问如下：

Referrer	Request
		-	P1
P1	P2
		P2	P3
P2	P4
		P4	P5
P3	P6

则识别后应划分为2个事务：

P1(1)-P2(1)-P3(1)-P6(1)，P1(0)-P2(0)-P4(1)-P5(1)，括号数字为共用标记。生成的路径树如图4所示：

以上所述仅为本发明专利的一种实施例而已，并不用以限制本发明专利，凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等，均以包含在本发明专利的保护范围之内。

Claims

1.一种网站用户访问路径的分析方法，它提供了访问路径树生成及频繁路径挖掘方法，其特征在于，具体步骤包括：

步骤一、从业务系统、文本相关数据源将数据抽取出来，去除掉其中的噪音异常数据，保留用户点击数据；

步骤二、一般日志中每次点击都会包含referer与request， request记录为每次点击对应的请求页面，而referer指的是每次点击是从哪个页面链接过来的；对于清洗后的数据，以referer的格式为基准，将request转化为完整的url格式，以便后期将referer与request进行匹配；

步骤三：根据用户访问网站时的email、cookie、ip信息，对每一个访问的用户进行身份识别，识别的依据权重为email>cookie>ip，将每一条访问记录对应到某个用户，最终将用户身份识别的数据存储到数据仓库中；

步骤四：在最大向前路径算法的基础上，结合数据库在处理、匹配数据方面的特性，通过改写最大向前路径算法，将用户访问网站的点击数据生成路径树；

具体步骤为：

步骤4.1 先将访问记录按照用户、点击时间进行排序，对于每个用户来，其首次点击作为一颗新树的树根，节点值为request的值；

步骤4.2 依照时间顺序读取后面的referer_i与request_i，将referer_i与已生成的树中节点request进行匹配，匹配上的作为该匹配节点的子节点，子节点值为request_i的值；

步骤4.3 若referer_i与树中所有的request都无法匹配，则重新生成一颗新树，该次点击作为该新树的根，值为request_i的值；

步骤4.4 重复步骤4.2和步骤4.3，直到该用户所有点击记录都循环一遍；

步骤4.5 依此最终生成该用户访问网站的路径树，将树存储到数据仓库中，加以利用，分析各个环节间的转化率；

步骤五：对于生成的路径树，在Apriori算法的基础上，加入节点之间的序列特性，通过改写Apriori算法，进一步挖掘出用户访问的频繁路径图；

具体步骤为：

步骤5.1 找到包含两个页面的频繁路径集；

步骤5.2 循环：通过k频繁集之间的关联串接，生成k-1频繁集；

得到用户访问的频繁路径图，分析得到网站的主要路径，结合路径上各个环节的转化率，对网站的结构、内容进行优化；

步骤六：从频繁路径出发，寻找转化率低的环节，分析不足的原因；根据具体的原因，指导网站建设者有针对性的解决问题，提高网站的品质。

2.根据权利要求1所述的网站用户访问路径的分析方法，其特征在于：步骤一中，噪音异常数据包括爬虫数据、被动请求链接、被动请求图片、异常IP访问数据。

3.根据权利要求1所述的网站用户访问路径的分析方法，其特征在于：步骤二中，按照页面的类型将访问页面划分为首页、搜索页面、目录页面、产品页面、专题页面、具体产品页面。

4.根据权利要求1所述的网站用户访问路径的分析方法，其特征在于：所述转化率指某一页面到另一页面的访问次数，与某一页面被访问总次数的比率。

5.根据权利要求1所述的网站用户访问路径的分析方法，其特征在于，步骤六中，原因分类如下：

中间环节的页面存在的必要性低，影响访问者不断深入的访问；

页面布局不突出，造成访问者寻找目标困难；

内容组织不合理，导致访问者无兴趣进一步访问；

页面缺乏符合访问者兴趣的个性化推荐链接，增加了访问者寻找目标的代价。