CN108153870A

CN108153870A - 一种用户访问路径预测方法

Info

Publication number: CN108153870A
Application number: CN201711422976.8A
Authority: CN
Inventors: 刘明鸣; 胡涛
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-06-12

Abstract

本发明涉及计算机软件领域，公开了一种用户访问路径预测方法，用于更好的预测用户的访问路径。本发明首先从日志文件构造出用户访问序列集，然后在该序列集上，使用改进的PLWAP算法做频繁路径挖掘得到频繁访问路径，从而预测用户下一步访问的页面，为页面推荐、网站拓扑结构调整提供建议。本发明适用于用户访问路径预测。

Description

一种用户访问路径预测方法

技术领域

本发明涉及计算机软件领域，特别涉及一种用户访问路径预测方法。

背景技术

用户在网站时所产生的页面点击序列称为用户访问路径。对每位用户的访问路径进行频繁模式挖掘，从而达到预测用户行为。对网站结构优化、网页推荐WEB挖掘是对服务器产生的日志数据进行数据挖掘，挖掘出有用模式。

基于频繁路径挖掘的PLWAP算法将数据压缩在一棵树中，但是使用二进制对树中节点的位置进行编码，存在数据量过大时，二进制位置编码的长度将变得无法想象的长，以及编码的个数也将呈现2的指数级趋势升高的缺陷。

发明内容

本发明要解决的技术问题是：提供一种用户访问路径预测方法，用于更好的预测用户的访问路径。

为解决上述问题，本发明采用的技术方案是：一种用户访问路径预测方法，包括以下步骤：

A、从站点服务器获取日志数据进行数据预处理，构造用户访问序列集；

B、对于用户访问序列集，删除每个序列中的非频繁项，得到频繁访问序列集；

C、根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中；所述改进编码模式包括：以先序遍历方式遍历整个树，对每个访问到的节点从0开始编号；如果某节点为叶子节点，则其desPreOrderID等于该节点的preOrderID；如果某节点有子孙节点，则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值；其中，preOrderID为先序遍历序号，desPreOrderID为子孙节点的先序遍历序号；

D、在改进的PLWAP-树上使用挖掘算法进行频繁路径递归挖掘，得到用户访问模式集合；

E、对步骤D中得到的用户访问模式集合进行模式分析，从而对用户访问路径进行预测。

进一步的，步骤A对日志数据进行预处理，具体包括以下分步骤：

A1、对日志文件进行数据清洗，去除无效数据和非用户主动访问的项目；

A2、根据日志数据和站点拓扑结构将用户及请求访问网页进行关联，并对用户进行识别；

A3、将用户的原始访问序列划分为若干个单次访问序列；

A4、若用户请求访问页面和对应页面请求无链接关系，则利用站点拓扑结构将请求页面补充完整。

进一步的，步骤C根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中具体包括：

依次取出频繁序列集的一条序列L1，对于L1中一个频繁项ei，1)如果ei不存在，从根节点起，先序遍历该树，由1开始依次递增对每个节点的preOrderID进行编码，并置desPreOrderID＝0，同时将同形结点加入头结点链中，然后再从根节点开始，后序遍历树，根据节点的desPreOrderID定义，设置每个节点的desPreOrderID；2)如果ei存在，并且当前节点有子节点，ei属于当前节点子节点的其中一个，则子节点计数值加1；3)如果ei存在，并且当前节点有子节点，但ei不属于当前节点子节点的其中一个，则将ei作为新的节点(ei:1)插入至树中，支持度计数为1；4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中，支持度计数为1。

进一步的，步骤D一次递归挖掘的步骤具体包括：

判断频繁项ei后缀树集R是否为空，1)如果后缀树集R为空，则算法结束；2)如果不为空，对于每个频繁项ei，获取ei后缀树集R，获取ei的第一结点S，并将S插入后缀树集R’，后缀树集R’用于下次递归；3)对于ei-结点链的每个同形结点eij和后缀树集R的每个节点Ri，判断他们的关系：3.1)如果Ri是eij的祖先节点且eij不是S的子孙节点，累加计算eij计数值C，并将eij插入后缀树集R’，第一节点改成eij；3.2)如果Ri是eij的左兄弟节点，则继续读取下一个后缀树集R中节点；3.3)如果Ri是eij的右兄弟节点或是子孙节点，则继续读取ei-结点链的下一个节点；4)当后缀树集R中再无节点时，且当前计数值C大于最小支持度，则将该频繁项添加入频繁集F’集中，并将同形节点加入且后缀数集R’中；5)将本次获取的后缀数集R’和频繁集F’作为下次挖掘的条件继续挖掘。

本发明的有益效果是：本发明对现有的分析方法提出了改进，通过对PLWAP算法中对叶子的位置编码模式进行改进、以及对挖掘算法进行改进，，能够更好的预测用户的访问路径，为网站运营商提供有效的辅助性意见，从而对网站运营提供针对性帮助，提高了分析效率。

附图说明

图1是本发明的流程图。

图2是本发明改进的PLWAP-树节点编码示意图。

图3是实施例中配合表1获取频繁访问序列集步骤的示意图。

图4是实施例中建立改进的PLWAP-树过程示意图。

图中编号：N为事件名称，H为链接点。

具体实施方式

本发明首先从日志文件构造出用户访问序列集，然后在该序列集上，使用改进的PLWAP算法做频繁路径挖掘得到频繁访问路径，从而预测用户下一步访问的页面，为页面推荐、网站拓扑结构调整提供建议。如图1所示，包括以下步骤：

步骤S1：构造用户访问序列集

该步骤是从收集到的服务器日志进行数据预处理，从而形成有效的用户访问路径，其过程具体为：首先对日志文件进行数据清洗工作，去除无效数据和非用户主动访问的项目(例如图片信息)，在此只关心用户主动请求的信息，而非用户主动请求的项目则可以去除。然后根据日志数据和站点拓扑结构将用户及请求访问网页进行关联，并对用户进行识别，得到每个用户的访问集，再将访问集分解成一次次的访问序列，最后若用户请求访问页面和对应页面请求无链接关系，则利用站点拓扑结构将请求页面补充完整再进行路补充，得到用户访问序列集。

步骤S2：频繁路径挖掘

频繁路径挖掘采用改进的PLWAP算法，主要包含3个步骤，一是获取频繁访问序列集，二是构建改进的PLWAP-树，三是在改进的PLWAP-树上递归挖掘得到频繁模式。

步骤S2.1：获取频繁访问序列集

判定一个页面是否是频繁的，需要指定一个最小支持度阈值λ，如果一个页面出现的频率大于λ则可认定该页面是频繁页面。对访问序列集中的每个序列除去非频繁页面即可得到频繁序列，所有的频繁序列所形成的集合称为频繁序列集。

步骤S2.2：构建改进的PLWAP-树

得到频繁访问序列集后，需对频繁访问序列集中的每条序列依次读取建立树形结构。建立树形结构最重要的是节点的存储方式，未改进的PLWAP算法对节点采用三元组<频繁项:支持度计数值:位置编码>进行存储。其中，支持度计数值代表每个访问页面的次数，位置编码采用二进制方式存储节点位置信息，但当数据量不断增加时，也就是树的高度也不断增高时，二进制位置编码的长度将变得无法想象的长，以及编码的个数也将呈现2的指数级趋势升高，这对于计算机内存和cpu计算量面临巨大的挑战，这也将会大大降低算法的效率。介于此种情况，本发明在PLWAP算法的基础上，针对PLWAP算法中的二进制位置编码缺陷提出了一种改进的节点编码模式。其位置编码利用先序遍历顺序序列号对每个节点的位置进行编码，编码形式如图2所示。

为方便阐述，简单记为“事件名称:支持计数值(preOrderID，desPreOrderID)”。其中，preOrderID称为先序遍历序号，表示以先序遍历方式遍历整个树，对给每个访问到的节点从0开始编号。desPreOrderID称为子孙节点的先序遍历序号，desPreOrderID的定义是建立在preOrderID上的，具体如下：

1)如果该节点为叶子节点，则其desPreOrderID等于该节点的preOrderID；

2)否则，如果该节点有子孙节点，则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值。

改进的PLWAP-树算法建立过程：依次取出频繁序列集的一条序列L1，对于L1中一个频繁项ei，1)如果ei不存在，从根节点起，先序遍历该树，由1开始依次递增对每个节点的preOrderID进行编码，并置desPreOrderID＝0，同时将同形结点加入头结点链中，然后再从根节点开始，后序遍历树，根据节点的desPreOrderID定义，设置每个节点的desPreOrderID。2)如果ei存在，并且当前节点有子节点，ei属于当前节点子节点的其中一个，则子节点计数值加1；3)如果ei存在，并且当前节点有子节点，但ei不属于当前节点子节点的其中一个，则将ei作为新的节点(ei:1)插入至树中，支持度计数为1；4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中，支持度计数为1。

步骤S2.3：递归挖掘

挖掘过程主要是从头结点表中的第一个频繁项开始，通过重复产生后缀树集，不断“扩充”公共前缀模式，进而获得所有频繁模式。一次递归挖掘的具体过程包括：如果后缀树集R为空，则算法结束；2)如果不为空，对于每个频繁项ei，获取ei后缀树集R，获取ei的第一结点S(对于某节点e，如果在其后缀树中，它的祖先节点中没有与它同形的节点，则称e为第一节点)，并将S插入后缀树集R’，后缀树集R’用于下次递归；3)对于ei-结点链的每个同形结点eij和后缀树集R的每个节点Ri，判断他们的关系：3.1)如果Ri是eij的祖先节点且eij不是S的子孙节点，累加计算eij计数值C，并将eij插入后缀树集R’，第一节点改成eij；3.2)如果Ri是eij的左兄弟节点，则继续读取下一个后缀树集R中节点；3.3)如果Ri是eij的右兄弟节点或是子孙节点，则继续读取ei-结点链的下一个节点；4)当后缀树集R中再无节点时，且当前计数值C大于最小支持度，则将该频繁项添加入频繁集F’集中，并将同形节点加入且后缀数集R’中；5)将本次获取的后缀数集R’和频繁集F’作为下次挖掘的条件继续挖掘。

步骤S3：模式分析

最后对得到频繁模式进行模式分析，除去不必要的模式得到有用的模式，最终得到用户频繁访问路径。

实施例

现在对某日志文件做数据预处理后得到用户的访问序列集，如表1第2栏所示，在此指定最小支持度阈值λ＝0.75，其中，a、b、c、d、e、f代表用户请求的页面，访问序列从左至右代表了用户按时间先后顺序依次请求的页面序列。

表1λ＝0.75的用户访问序列集

首先，得到频繁访问序列集：扫描访问序列集，统计访问序列集中每个访问页面出现的次数，如图3左侧所示。由于最小支持度阈值λ＝0.75，于是次数大于或等于最小支持度阈值*访问序列集个数(4*0.75，即3)才能算是频繁项(或称频繁访问页面)，删除次数小于3的非频繁项，得到频繁访问序列集，如图3右侧所示。接着，对于访问序列集中的每个访问序列，剔除非频繁项得到频繁访问序列集，如表1的第3栏所示。

然后在频繁访问序列集上构建改进PLWAP-树。首先，将第一条频繁访问序列abac插入只有一个根节点(root)的树，节点(a:1)作为root的子节点插入到树中，并在头结点表(Header Table)添加同形节点链。由此，创建由该节点开始的一条分支“(a:1)->(b:1)->(a:1)->(c:1)”。然后插入第二条序列abcac，从root开始，由于root已经有了一个(a:1)子节点，因此只需增加a的支持度计数即可，此时节点变为(a:2)，同样地，(b:1)变为(b:2)。到事件c时，b的子节点并无c节点，因此，创建一个新的节点并赋予计数值为1，即(c:1)，并在Header Table添加同形节点链。余下的序列同样如此地在PLWAP-Tree中添加节点。最后先序、后序遍历树添上位置编码信息。构造好了的改进的PLWAP-树如图4所示。

现对图4中改进的PLWAP-tree进行频繁模式挖掘，对于Header Table中的第一个事件a，沿着a的结点链，此时后缀树根节点集R＝{Root}且F＝{}，在后缀树根节点集R中查找a的第一节点<a:1(1,8)>，将第一节点<a:1(1,8)>添加到R’中，并计入总计数值。然后继而沿着a结点链，找到下一个a的同形点节点<a:2(3,5)>，虽然节点<a:2(3,5)>是R的子孙节点，但是也是第一节点<a:1(1,8)>的子孙节点，不满足条件，继续沿着a的结点链找到的下一个节点<a:1(7,8)>同样不满足条件，最后找到节点<a:1(10,13)>满足条件：R的子孙节点但却不是第一节点的子孙节点，于是将节点<a:1(10,13)>加入R’中，并计入中计数值，现在第一节点集为{<a:3(1,8)>，<a:1(10,13)>},由于这两个节点的计数值之和(等于4)大于最小支持度计数3(|WASD|*λ，4*0.75)，因此将事件a作为频繁模式添加入F集中，F’＝{a}，且后缀数根节点集R变为R’＝{<a:3(1,8)>和<a:1(10,13)>}，然后将R’，F’作为下一次挖掘的条件。

在第二次递归中，从Header Table的a-结点链开始，此时R＝{<a:3(1,8)>和<a:1(10,13)>}找到a的第一节点<a:2(3,5)>，添加至R’中并计入总计数值，沿着结点链找到第二个符合条件的节点<a:1(7,8)>(节点<a:1(7,8)即是后缀树<a:3(1,8)>的子孙节点，又非第一节点<a:2(3,5)>的子孙节点>，满足条件)，添加至R’中并计入总计数值，但是到了节点<a:1(10,13)>，由于该节点是现后缀树集中节点<a:3(1,8)>的右兄弟节点，因此现后缀树集节点变为下一个节点<a:1(10,13)>，因而找到满足条件节点<a:1(12,13)>，添加至R’中并计入总计数值，此时，R’＝{<a:2(3,5)>，<a:1(7,8)>，<a:1(12,13)>}，其总计数值4大于最小支持计数值，视事件a为频繁项，加入F中，得到频繁模式集F’＝{a，aa}，将本次递归所得到R’和F’作为下一次递归的条件。像这样依次递归挖掘下去，最终我们得到挖掘结果F＝{a，aa，aac，ab，aba，abac，abc，ac，b，ba，bac，bc，c}。

最后对挖掘得到频繁结果F＝{a，aa，aac，ab，aba，abac，abc，ac，b，ba，bac，bc，c}进行模式分析，除去无意义项，得到F＝{ab，aba，abac，abc，ac，ba，bac，bc}，从而可以预测用户下次访问页面，例如{ab，aba，abac，abc，ac}，说明大多数用户在访问a页面后会访问c页面，因此可以在a页面给用户推荐c页面。也可以对网站拓扑结构调整做出建议，例如{ab，aba，abac，abc，ac}，说明有部分用户在访问c页面需要经过b页面，因此可以考虑将c页面的级别在b页面前面，提高用户查找目标页面c的效率。

以上描述了本发明的基本原理和主要的特征，说明书的描述只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种用户访问路径预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种用户访问路径预测方法，其特征在于，步骤A对日志数据进行预处理，具体包括以下分步骤：

A3、将用户的原始访问序列划分为若干个单次访问序列；

3.如权利要求1所述的一种用户访问路径预测方法，其特征在于，步骤C根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中具体包括：

4.如权利要求1所述的一种用户访问路径预测方法，其特征在于，步骤D一次递归挖掘的步骤具体包括：