CN108509640A

CN108509640A - 一种基于序列预测的网页布局优化方法

Info

Publication number: CN108509640A
Application number: CN201810320772.1A
Authority: CN
Inventors: 张�杰; 郑钰婷; 房鹏展; 王婷
Original assignee: Southeast University; Focus Technology Co Ltd
Current assignee: Southeast University; Focus Technology Co Ltd
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-09-07

Abstract

一种基于序列预测的网页布局优化方法，利用用户的访问日志数据，使用深度递归神经网络来训练得到序列预测模型，使用序列预测模型模拟用户访问模式，通过比较现有网站结构网页超链布局与用户访问模式的匹配程度，对网站的结构和网页的布局进行改进；包括以下步骤：数据预处理，序列预测模型训练，网站结构优化：首先对用户的web日志数据进行预处理：在原始数据上删除一些无关的、错误的数据、提取出有用的域，将数据转换为后续算法要求的数据格式。序列预测模型训练：构建一个深层的递归生成网络作为序列预测网络，使用序列数据训练模型，得到序列预测模型；获得序列预测模型后，使用模型模拟用户访问。

Description

一种基于序列预测的网页布局优化方法

技术领域

本发明是一种网页内容布局优化的技术方法，主要应用于电商网站信息结构评估和优化领域。

背景技术

随着互联网、电子商务的兴起，越来愈多的人通过互联网获取服务合知识。在信息时代，互联网上每天产生数以亿计的内容，如何对这些内容进行有效组织是互联网服务提供者面临的一个重要挑战。对于一个电商网站而言便是如何组织网站的层次结构，使得网站商品组织更加清晰明确。

目前大部分网站遵循的是一种检索加导航的方案进行网站内容组织。高效准确的检索有利于目标明确的用户快速定位商品，而商品导航则对目标不明确者提供了商品路径导航服务，挖掘潜在购物需求。好的商品路径组织，可以使用户毫不费力的跳转到另一个相关页面，这需要对网站页面超链接进行精细化调整，然而目前并太多好的技术方法。基于序列模式挖掘是一种有效的解决办法，序列模式挖掘技术旨在发现时间上具有先后顺序的数据项，在web日志挖掘中主要寻找用户会话中在时间上有先后关系的页面请求，通过此方法，web服务提供者可以预测未来的访问模式，捕捉常用的导航路径，然后改进网站的组织结构。

传统的基于序列挖掘的方法旨在找到用户经常访问的具有前后顺序的页面，实质上是寻找频繁序列的过程，然后根据频繁序列对网站结构进行优化。

发明内容

本发明目的是，从另一种角度解决网站组织结构优化问题，相较于获得频繁序列的方式挖掘频繁模式，本发明基于序列数据预测方法，即给定用户访问序列寻找预测其下一个最可能的被访问的页面，然后通过比较当前页面中超链是否包含最可能访问的页面来判断页面超链是否合理，以及提供改进意见。

本发明解决网站结构以及页面布局优化的技术方案为：基于序列预测的网页布局优化方法，利用用户的访问日志数据，使用深度递归神经网络来训练得到序列预测模型，使用序列预测模型模拟用户访问模式，通过比较现有网站结构网页超链布局与用户访问模式的匹配程度，对网站的结构和网页的布局进行改进。

整个方案主要包括以下步骤：数据预处理，序列预测模型训练，网站结构优化等。

首先需要对用户的web日志数据进行预处理：在原始数据上删除一些无关的、错误的数据、提取出有用的域，将数据转换为后续算法要求的数据格式；

Web日志数据预处理细分为数据清洗、用户识别、会话识别、数据规范化等过程。其中数据清洗过程是去除掉用户访问日志中错误的无关的数据，去除不相关的数据字段仅保留有价值信息；用户识别则是从web日志数据中识别出不同的用户；会话识别是将每个用户的访问日志按照每次会话分割成一个个会话子集；数据规范化是将每个网页按出现频率排序，并用id进行表示，将访问序列变为id序列，便于后续序列预测模型使用。

数据预处理阶段将从web日志中提取出用户按会话按时间访问的页面序列，作为训练数据。

序列预测模型训练：本方案构建一个深层的递归生成网络作为序列预测网络，使用序列数据训练模型，得到序列预测模型。本方案使用的是一个5层的长短时记忆网络(Long Short-Term Memory Networks)，用来预测序列的下一个页面的概率分布，其中概率值的大小反映了日志数据中用户在当前访问序列下访问下一个页面的可能程度。

获得序列预测模型后，使用模型模拟用户访问，比较访问模式与网站结构的匹配程度优化网站结构。具体的实施方案为：1)随机选取一个起始页面，预测下一个页面的访问概率分布。2)比较当前页面中超链接是否包含预测页面概率top100的页面，以及这些top100页面超链接在当前网页中的位置，改进当前页面布局。3)从下一跳预测结果中随机选取一个进行访问，重复1,2.

具体的，对网站结构和页面进行优化的策略，本方案会统计当前访问页面中出现了多少预测结果中top100的页面超链，根据结果将本页面链接到一些高概率的页面。同时对于页面布局，本方案会对当前页面超链按预测概率排序，根据排序结果改进页面布局，将高概率页面放置于显眼位置。

本发明的有益效果：基于每天产生的大量用户日志数据，通过深度递归神经网络可获得一个网页序列的预测模型，这个预测模型编码了用户访问网站的访问模式；通过这个预测模型，我们可以方便的对一些重点页面，例如网站首页、导航页，以及一些个性化页面，如具体商品页面进行结构评估和优化。同时通过对不同时段数据分别训练预测模型，能够获知不同时间段网站的访问模式变化。

附图说明

图1为本发明实施例的总体框架即网站及页面优化总体流程。

图2为本发明实施例的日志数据预处理流程。

图3为本发明实施例的网站结构优化流程。

图4为本发明实施例的网页布局优化流程。

具体实施方式

下面结合附图对本发明作进一步说明。如图1所示，具体的实施分为三个部分。

首先对数据进行预处理，剔除掉无用的数据，只保留cookie_id,session_id,request_url,referer_url,time等有效字段，然后按照会话和时间将日志数据分割为一个个序列数据。为了使数据能有效送入到长短时记忆网络中训练，需要将url序列转换为id序列表示，即<url₁，url₂，..，url_n>转化为<id₁，id₂，...，id_n>,其中每个网页对应一个id数字，同时对于日志中出现频率过低的网页合并为unk类型页面。

然后将处理后的数据送入到长短时记忆网络中训练，得到序列预测模型，用于后续网站优化过程。在训练中我们使用5层的长短时记忆网络，网络中记忆单元向量位200维，最大预测序列长度为30，数据训练100批次。

得到了序列预测模型后，我们分别对网站结构和页面布局进行评估优化。如图3所示，得到了序列模型后，我们筛选一些重点网页，使用序列模型进行访问模拟，得到当前访问序列＜url₁，...，url_i>的下一个访问页面概率分布Pr，然后统计url_i页面中覆盖了多少Pr分布top100的页面超链，作为网站结构是否合理评判依据，同时将高概率访问网页链接添加到当前页面。

如图4所示，在进行序列预测时，我们可以借助预测结果对网页中的各个超链的位置进行重排，将访问概率靠前的网页置于更加显著位置。

本发明并不限于上述实施方式，采用与本发明上述实施实例相同或近似的结构，而得到的其它结构设计，均在本发明的保护范围之内。

Claims

1.一种基于序列预测的网页布局优化方法，其特征是，利用用户的访问日志数据，使用深度递归神经网络来训练得到序列预测模型，使用序列预测模型模拟用户访问模式，通过比较现有网站结构网页超链布局与用户访问模式的匹配程度，对网站的结构和网页的布局进行改进；

包括以下步骤：数据预处理，序列预测模型训练，网站结构优化：

1)首先需要对用户的web日志数据进行预处理：在原始数据上删除一些无关的、错误的数据、提取出有用的域，将数据转换为后续算法要求的数据格式；

Web日志数据预处理细分为数据清洗、用户识别、会话识别、数据规范化等过程；其中数据清洗过程是去除掉用户访问日志中错误的无关的数据，去除不相关的数据字段仅保留有价值信息；用户识别则是从web日志数据中识别出不同的用户；会话识别是将每个用户的访问日志按照每次会话分割成一个个会话子集；数据规范化是将每个网页按出现频率排序，并用id进行表示，将访问序列变为id序列，便于后续序列预测模型使用；

数据预处理阶段将从web日志中提取出用户按会话按时间访问的页面序列数据，作为训练数据；

2)序列预测模型训练：构建一个深层的递归生成网络作为序列预测网络，使用序列数据训练模型，得到序列预测模型；使用一个长短时记忆网络(Long Short-Term MemoryNetworks)，用来预测序列的下一个页面的概率分布，其概率值的大小反映了日志数据中用户在当前访问序列下访问下一个页面的可能程度；

3)获得序列预测模型后，使用模型模拟用户访问，比较访问模式与网站结构的匹配程度优化网站结构；实施方案为：(1)随机选取一个起始页面，预测下一个页面的访问概率分布；(2)比较当前页面中超链接是否包含预测页面概率top100的页面，以及这些top100页面超链接在当前网页中的位置，改进当前页面布局；(3)从下一跳预测结果中随机选取一个进行访问，重复(1)、(2)。

2.根据权利要求1所述的基于序列预测的网页布局优化方法，其特征是，使用一个多层的长短时记忆网络(Long Short-Term Memory Networks)，用来预测序列的下一个页面的概率分布。

3.根据权利要求1所述的基于序列预测的网页布局优化方法，其特征是，对网站结构和页面进行优化的策略，统计当前访问页面中出现了多少预测结果中top100的页面超链，根据结果将本页面链接到一些高概率的页面；同时对于页面布局，对当前页面超链按预测概率排序，根据排序结果改进页面布局，将高概率页面放置于显眼位置。

4.根据权利要求1所述的基于序列预测的网页布局优化方法，其特征是，将处理后的数据送入到长短时记忆网络中训练，得到序列预测模型，用于后续网站优化过程；在训练中们使用5层的长短时记忆网络，网络中记忆单元向量位200维，最大预测序列长度为30，数据训练100批次。

5.根据权利要求1所述的基于序列预测的网页布局优化方法，其特征是，得到序列预测模型后，分别对网站结构和页面布局进行评估优化；使用序列模型进行访问模拟，得到当前访问序列＜url₁，...，url_i>的下一个访问页面概率分布Pr，然后统计url_i页面中覆盖了多少Pr分布top100的页面超链，作为网站结构是否合理评判依据，同时将高概率访问网页链接添加到当前页面。

6.根据权利要求1所述的基于序列预测的网页布局优化方法，其特征是，在进行序列预测时，借助预测结果对网页中的各个超链的位置进行重排，将访问概率靠前的网页置于更加显著位置。

7.根据权利要求1所述的基于序列预测的网页布局优化方法，其特征是，剔除掉无用的数据，只保留cookie_id,session_id,request_url,referer_url,time有效字段，然后按照会话和时间将日志数据分割为一个个序列数据；需要将url序列转换为id序列表示，即＜url₁，url₂，..，url_n＞转化为＜id₁，id₂，...，id_n>,其中每个网页对应一个id数字，同时对于日志中出现频率过低的网页合并为unk类型页面。