CN108334646A

CN108334646A - 一种基于频繁浏览序列的网站结构优化方法

Info

Publication number: CN108334646A
Application number: CN201810320764.7A
Authority: CN
Inventors: 王森; 朱国丞; 王婷; 房鹏展
Original assignee: Southeast University; Focus Technology Co Ltd
Current assignee: Southeast University; Focus Technology Co Ltd
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-07-27

Abstract

一种基于频繁浏览序列的网站优化方法，通过从Web日志数据中挖掘频繁浏览序列，发现从起始页面到目标页面之间的冗余无关的点击行为，达到网站结构优化；1)基于Spark平台，完成日志数据的预处理，获取用户访问序列；2)将频繁序列模式挖掘算法进行并行化改写，挖掘用户的频繁浏览行为；3)从频繁浏览序列出发，给出网站结构优化意见，从挖掘出的用户频繁浏览序列出发，寻找优化网站的线索；针对挖掘出的某一频繁浏览序列，理解为绝大多数用户按照这条路径搜索到目标页面，发现访问路径从起始页到目标页之间的冗余链接，将目标页面前移，优化网站的结构从而提升用户访问体验。

Description

一种基于频繁浏览序列的网站结构优化方法

技术领域

本发明属于大规模网站日志分析领域，具体根据网站用户的频繁浏览序列对网站的结构实施优化的技术。

背景技术

网站结构的好坏直接影响用户的访问体验，尤其是对于电商网站，良好的网站结构对流量变现具有关键作用。因此，网站结构的优化问题成为近年来广泛关注的热点。目前常用的网站结构的优化策略主要有两种：基于站点模型方法和基于用户行为分析方法。基于站点模型的方法根据网站设计者的先验知识进行手动调整优化。这种主观性的优化方法往往与用户的实际浏览行为习惯存在着差异。基于用户行为分析的方法从蕴含用户访问偏好和意图的Web日志数据出发，通过关联规则、聚类算法和序列模式算法窥探用户访问意图和规律，优化网站结构。这类方法从用户浏览行为入手，一定程度上迎合了用户访问需求。但随着互联网的发展和大数据时代的来临，各大网站积累了大量的日志数据，传统的单机用户行为分析算法时间和空间效率上存在瓶颈，难以完成大规模日志数据的分析任务。近年来，随着分布式技术在提升算法的时空效率方面取得了显著效果，利用分布式计算进行用户行为分析，完成网站结构优化是一个很好的方法。

发明内容

本发明的目的是，为克服大规模日志数据场景下，基于用户行为分析优化网站结构所遇到的时间和空间瓶颈问题，凭借基于内存模型的分布式计算平台Spark，充分利用内存计算和集群计算的优势，在多台廉价的PC机上，完成对大规模日志数据的处理和频繁浏览序列的挖掘任务，通过用户的频繁浏览序列，指导网站结构的优化。

本发明解决网站结构优化问题所使用的技术方案为：一种基于频繁浏览序列的网站优化方法。通过从Web日志数据中挖掘频繁浏览序列，发现从起始页面到目标页面之间的冗余无关的点击行为，达到网站结构优化的目的。主要包括三大模块：基于Spark平台，完成日志数据的预处理，获取用户访问序列；将频繁序列模式挖掘算法进行并行化改写，挖掘用户的频繁浏览行为；从频繁浏览序列出发，给出网站结构优化意见。

对网站服务器日志数据的预处理，实现网站服务器日志数据的采集、过滤、提取和生成用户点击流序列功能，为提高效率，该过程基于Spark集群实现并行处理。具体过程如下：

步骤一、使用Flume进行日志数据采集，保存至HDFS中。

步骤二、编写Spark程序，完成日志数据的过滤、会话识别和事务识别并行处理，并将经预处理后的用户点击流数据进行持久化，步骤如下：

1)首先需要进行日志数据进行过滤，用户在网站请求页面时，服务器日志记录了请求页面信息脚本、样式表等其他冗余数据。需要根据日志数据的格式进行关键字过滤，删除后缀名为css、js、jpg、gif和请求状态码异常以及请求方式非GET的日志记录。

2)然后进行会话识别，使用时间阈值切分(设为30min)和参照页(referer)混合方法，将过滤后的日志数据划分成在规定时间内的一组访问序列。

3)最后使用最大向前引用算法(Maximal Forward Reference)将会话切分成在语义或功能上具有相关性、能表示一次访问意图的点击序列。

4)将经预处理生成的用户点击流序列持久化到HDFS中。

步骤三、为优化网站结构，需要从生成的用户点击流序列中挖掘频繁浏览路径，基于Spark平台，将序列模式挖掘算法AprioriAll进行并行化改写，将需进行迭代计算的频繁-k序列持久化到RDD中，提升迭代计算的效率。并优化频繁序列的自连接策略，减少候选频繁序列的生成空间，具体步骤如下：

1)首先从HDFS中加载经预处理之后的用户点击流序列数据集，分布到Spark的RDD中，并根据所设定最小支持度，经过滤生成频繁1序列，并持久化到内存，为提升后续迭代计算的效率，也需要将用户点击流数据集持久化到内存。

2)接着通过生成的频繁k序列，进行自连接操作获得候选频繁(k+1)序列，然后扫描用户点击了数据集，过滤不满足最小支持度的序列，得到频繁(k+1)序列，不断执行上述迭代过程，直至没有新的频繁k序列生成为止，值得注意的是，为提高内存资源的利用率，当频繁k序列生成后，需释放持久化到内存中频繁(k-1)序列的RDD。

3)为减少频繁序列通过自连接生成过多的候选序列，采用以下连接策略：对于频繁k序列集中的S1和S2两个序列，仅当S1的前k-1项和S2的后k-1项一样时，才将S1序列的第k项加到S2的结尾生成新的候选k+1序列。

步骤四、从挖掘出的用户频繁浏览序列出发，寻找优化网站的线索。针对挖掘出的某一频繁浏览序列，可理解为绝大多数用户按照这条路径搜索到目标页面，发现访问路径从起始页到目标页之间的冗余链接，根据频繁浏览序列，将目标页移植起始页后面，减少用户搜索实现，从而达到网站结构优化的目的。

本发明的有益效果：

1)本发明设计了一种基于flume+HDFS+Spark的集服务器日志数据采集、存储和分析处理为一体的系统架构，完成用户频繁浏览序列的挖掘任务为网站结构优化提供数据支持。

2)对于生成的用户点击流序列，优化AprioriAll算法的自连接策略，减少生成候选序列的数量，节省了内存空间，同时基于Spark将AprioriAll算法进行并行化改写，高效地完成大规模日志数据的频繁序列模式挖掘任务。

3)以频繁浏览序列解释用户在网站中的访问以及搜索习惯，找出网站结构中的冗余链接，将目标页面前移，能够有效地减少用户在网站中的搜索时间，提升用户体验。

附图说明

图1为系统架构图；

图2为Web日志数据预处理流程图；

图3为Web日志数据过滤流程图；

图4为会话识别流程图；

图5为AprioriAll并行化算法第一阶段；

图6为AprioriAll并行化算法第二阶段。

具体实施方式

下面结合附图对本发明进一步说明，如图1所示，具体的实施可分为日志数据采集、日志数据预处理、频繁浏览序列挖掘和数据持久化四部分。

数据采集和预处理：首先使用flume从web服务器中采集日志数据，然后经数据预处理获取用户点击流序列，日志数据预处理的过程如图2所示。在日志数据预处理时，需要根据我们设定的关键字进行过滤，剔除与用户访问序列无关的冗余日志记录，具体的过滤策略流程图如图3所示。接着进行会话识别，采用参照页和时间阈值混合策略，首先判断当前会话是否包含请求页面，若不是，则建立新的会话，读取下一条记录；若是，则继续判断请求页面与该请求页面的参照页的访问间隔是否超过30min，若是，则建立新的会话，否则将请求页插入当前会话，算法执行流程图如图4所示。最后，采用最大向前引用算法，将用户会话切分成不同的事务序列，获取最终的用户点击流序列。

频繁浏览序列挖掘和网站优化意见：首先基于Spark平台，对生成的最终用户点击流序列应用AprioriAll算法，挖掘频繁浏览序列。算法的第一阶段如图5所示，生成频繁1序列。算法的第二阶段为迭代过程，通过不断迭代最终生成频繁k序列，具体过程如图6所示。最后，针对所生成的能够反映用户访问习惯的频繁浏览序列，发现访问路径从起始页到目标页之间的冗余链接，将目标页进行前移，以优化网站结构从而提升用户访问体验。

本发明并不限于上述实施方式，采用与本发明上述实施实例相同或近似的结构，而得到的其它结构设计，均在本发明的保护范围之内。

Claims

1.一种基于频繁浏览序列的网站优化方法，其特征是，通过从Web日志数据中挖掘频繁浏览序列，发现从起始页面到目标页面之间的冗余无关的点击行为，达到网站结构优化；

1)基于Spark平台，完成日志数据的预处理，获取用户访问序列；

对网站服务器日志数据的预处理，实现网站服务器日志数据的采集、过滤、提取和生成用户点击流序列功能，为提高效率，该过程基于Spark平台集群实现并行处理，具体过程如下：

步骤一、使用Flume进行日志数据采集，保存至HDFS中；

a)首先需要进行日志数据进行过滤，用户在网站请求页面时，服务器日志记录了请求页面信息脚本、样式表等其他冗余数据；需要根据日志数据的格式进行关键字过滤，删除后缀名为css、js、jpg、gif和请求状态码异常以及请求方式非GET的日志记录；

b)然后进行会话识别，使用时间阈值切分(设为30min)和参照页(referer)混合方法，将过滤后的日志数据划分成在规定时间内的一组访问序列；

c)最后使用最大向前引用算法(Maximal Forward Reference)将会话切分成在语义或功能上具有相关性、能表示一次访问意图的点击序列；

d)将经预处理生成的用户点击流序列持久化到HDFS(Hadoop分布式文件系统)中；

2)将频繁序列模式挖掘算法进行并行化改写，挖掘用户的频繁浏览行为；

为优化网站结构，需要从生成的用户点击流序列中挖掘频繁浏览路径，基于Spark平台，将序列模式挖掘算法AprioriAll进行并行化改写，将需进行迭代计算的频繁-k序列持久化到RDD(弹性分布式数据集)中，提升迭代计算的效率；并优化频繁序列的自连接策略，减少候选频繁序列的生成空间，具体步骤如下：

a)首先从HDFS中加载经预处理之后的用户点击流序列数据集，分布到Spark的RDD中，并根据所设定最小支持度，经过滤生成频繁1序列，并持久化到内存，为提升后续迭代计算的效率，也需要将用户点击流数据集持久化到内存。

b)接着通过生成的频繁k序列，进行自连接操作获得候选频繁(k+1)序列，然后扫描用户点击了数据集，过滤不满足最小支持度的序列，得到频繁(k+1)序列，不断执行上述迭代过程，直至没有新的频繁k序列生成为止，为提高内存资源的利用率，当频繁k序列生成后，需释放持久化到内存中频繁(k-1)序列的RDD；

c)为减少频繁序列通过自连接生成过多的候选序列，采用以下连接策略：对于频繁k序列集中的S1和S2两个序列，仅当S1的前k-1项和S2的后k-1项一样时，才将S1序列的第k项加到S2的结尾生成新的候选k+1序列；

3)从频繁浏览序列出发，给出网站结构优化意见，从挖掘出的用户频繁浏览序列出发，寻找优化网站的线索；针对挖掘出的某一频繁浏览序列，理解为绝大多数用户按照这条路径搜索到目标页面，发现访问路径从起始页到目标页之间的冗余链接，将目标页面前移，优化网站的结构从而提升用户访问体验。

2.根据权利要求1所述的基于频繁浏览序列的网站优化方法，其特征是日志数据的预处理前：首先使用flume从web服务器中采集日志数据，然后经数据预处理获取用户点击流序列；在日志数据预处理时，需要根据设定的关键字进行过滤，剔除与用户访问序列无关的冗余日志记录；接着进行会话识别，采用参照页和时间阈值混合策略，首先判断当前会话是否包含请求页面，若不是，则建立新的会话，读取下一条记录；若是，则继续判断请求页面与该请求页面的参照页的访问间隔是否超过30min，若是，则建立新的会话，否则将请求页插入当前会话；最后，采用最大向前引用算法，将用户会话切分成不同的事务序列，获取最终的用户点击流序列。

3.根据权利要求1所述的基于频繁浏览序列的网站优化方法，其特征是频繁浏览序列挖掘和网站优化意见：首先基于Spark平台，对生成的最终用户点击流序列应用AprioriAll算法，挖掘频繁浏览序列，AprioriAll算法通过不断迭代最终生成频繁k序列；最后，针对所生成的能够反映用户访问习惯的频繁浏览序列，发现访问路径从起始页到目标页之间的冗余链接，将目标页进行前移，以优化网站结构从而提升用户访问体验。