CN108509640A - 一种基于序列预测的网页布局优化方法 - Google Patents

一种基于序列预测的网页布局优化方法 Download PDF

Info

Publication number
CN108509640A
CN108509640A CN201810320772.1A CN201810320772A CN108509640A CN 108509640 A CN108509640 A CN 108509640A CN 201810320772 A CN201810320772 A CN 201810320772A CN 108509640 A CN108509640 A CN 108509640A
Authority
CN
China
Prior art keywords
page
data
sequence
prediction
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810320772.1A
Other languages
English (en)
Inventor
张�杰
郑钰婷
房鹏展
王婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Focus Technology Co Ltd
Original Assignee
Southeast University
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University, Focus Technology Co Ltd filed Critical Southeast University
Priority to CN201810320772.1A priority Critical patent/CN108509640A/zh
Publication of CN108509640A publication Critical patent/CN108509640A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种基于序列预测的网页布局优化方法,利用用户的访问日志数据,使用深度递归神经网络来训练得到序列预测模型,使用序列预测模型模拟用户访问模式,通过比较现有网站结构网页超链布局与用户访问模式的匹配程度,对网站的结构和网页的布局进行改进;包括以下步骤:数据预处理,序列预测模型训练,网站结构优化:首先对用户的web日志数据进行预处理:在原始数据上删除一些无关的、错误的数据、提取出有用的域,将数据转换为后续算法要求的数据格式。序列预测模型训练:构建一个深层的递归生成网络作为序列预测网络,使用序列数据训练模型,得到序列预测模型;获得序列预测模型后,使用模型模拟用户访问。

Description

一种基于序列预测的网页布局优化方法
技术领域
本发明是一种网页内容布局优化的技术方法,主要应用于电商网站信息结构评估和优化领域。
背景技术
随着互联网、电子商务的兴起,越来愈多的人通过互联网获取服务合知识。在信息时代,互联网上每天产生数以亿计的内容,如何对这些内容进行有效组织是互联网服务提供者面临的一个重要挑战。对于一个电商网站而言便是如何组织网站的层次结构,使得网站商品组织更加清晰明确。
目前大部分网站遵循的是一种检索加导航的方案进行网站内容组织。高效准确的检索有利于目标明确的用户快速定位商品,而商品导航则对目标不明确者提供了商品路径导航服务,挖掘潜在购物需求。好的商品路径组织,可以使用户毫不费力的跳转到另一个相关页面,这需要对网站页面超链接进行精细化调整,然而目前并太多好的技术方法。基于序列模式挖掘是一种有效的解决办法,序列模式挖掘技术旨在发现时间上具有先后顺序的数据项,在web日志挖掘中主要寻找用户会话中在时间上有先后关系的页面请求,通过此方法,web服务提供者可以预测未来的访问模式,捕捉常用的导航路径,然后改进网站的组织结构。
传统的基于序列挖掘的方法旨在找到用户经常访问的具有前后顺序的页面,实质上是寻找频繁序列的过程,然后根据频繁序列对网站结构进行优化。
发明内容
本发明目的是,从另一种角度解决网站组织结构优化问题,相较于获得频繁序列的方式挖掘频繁模式,本发明基于序列数据预测方法,即给定用户访问序列寻找预测其下一个最可能的被访问的页面,然后通过比较当前页面中超链是否包含最可能访问的页面来判断页面超链是否合理,以及提供改进意见。
本发明解决网站结构以及页面布局优化的技术方案为:基于序列预测的网页布局优化方法,利用用户的访问日志数据,使用深度递归神经网络来训练得到序列预测模型,使用序列预测模型模拟用户访问模式,通过比较现有网站结构网页超链布局与用户访问模式的匹配程度,对网站的结构和网页的布局进行改进。
整个方案主要包括以下步骤:数据预处理,序列预测模型训练,网站结构优化等。
首先需要对用户的web日志数据进行预处理:在原始数据上删除一些无关的、错误的数据、提取出有用的域,将数据转换为后续算法要求的数据格式;
Web日志数据预处理细分为数据清洗、用户识别、会话识别、数据规范化等过程。其中数据清洗过程是去除掉用户访问日志中错误的无关的数据,去除不相关的数据字段仅保留有价值信息;用户识别则是从web日志数据中识别出不同的用户;会话识别是将每个用户的访问日志按照每次会话分割成一个个会话子集;数据规范化是将每个网页按出现频率排序,并用id进行表示,将访问序列变为id序列,便于后续序列预测模型使用。
数据预处理阶段将从web日志中提取出用户按会话按时间访问的页面序列,作为训练数据。
序列预测模型训练:本方案构建一个深层的递归生成网络作为序列预测网络,使用序列数据训练模型,得到序列预测模型。本方案使用的是一个5层的长短时记忆网络(Long Short-Term Memory Networks),用来预测序列的下一个页面的概率分布,其中概率值的大小反映了日志数据中用户在当前访问序列下访问下一个页面的可能程度。
获得序列预测模型后,使用模型模拟用户访问,比较访问模式与网站结构的匹配程度优化网站结构。具体的实施方案为:1)随机选取一个起始页面,预测下一个页面的访问概率分布。2)比较当前页面中超链接是否包含预测页面概率top100的页面,以及这些top100页面超链接在当前网页中的位置,改进当前页面布局。3)从下一跳预测结果中随机选取一个进行访问,重复1,2.
具体的,对网站结构和页面进行优化的策略,本方案会统计当前访问页面中出现了多少预测结果中top100的页面超链,根据结果将本页面链接到一些高概率的页面。同时对于页面布局,本方案会对当前页面超链按预测概率排序,根据排序结果改进页面布局,将高概率页面放置于显眼位置。
本发明的有益效果:基于每天产生的大量用户日志数据,通过深度递归神经网络可获得一个网页序列的预测模型,这个预测模型编码了用户访问网站的访问模式;通过这个预测模型,我们可以方便的对一些重点页面,例如网站首页、导航页,以及一些个性化页面,如具体商品页面进行结构评估和优化。同时通过对不同时段数据分别训练预测模型,能够获知不同时间段网站的访问模式变化。
附图说明
图1为本发明实施例的总体框架即网站及页面优化总体流程。
图2为本发明实施例的日志数据预处理流程。
图3为本发明实施例的网站结构优化流程。
图4为本发明实施例的网页布局优化流程。
具体实施方式
下面结合附图对本发明作进一步说明。如图1所示,具体的实施分为三个部分。
首先对数据进行预处理,剔除掉无用的数据,只保留cookie_id,session_id,request_url,referer_url,time等有效字段,然后按照会话和时间将日志数据分割为一个个序列数据。为了使数据能有效送入到长短时记忆网络中训练,需要将url序列转换为id序列表示,即<url1,url2,..,urln>转化为<id1,id2,...,idn>,其中每个网页对应一个id数字,同时对于日志中出现频率过低的网页合并为unk类型页面。
然后将处理后的数据送入到长短时记忆网络中训练,得到序列预测模型,用于后续网站优化过程。在训练中我们使用5层的长短时记忆网络,网络中记忆单元向量位200维,最大预测序列长度为30,数据训练100批次。
得到了序列预测模型后,我们分别对网站结构和页面布局进行评估优化。如图3所示,得到了序列模型后,我们筛选一些重点网页,使用序列模型进行访问模拟,得到当前访问序列<url1,...,urli>的下一个访问页面概率分布Pr,然后统计urli页面中覆盖了多少Pr分布top100的页面超链,作为网站结构是否合理评判依据,同时将高概率访问网页链接添加到当前页面。
如图4所示,在进行序列预测时,我们可以借助预测结果对网页中的各个超链的位置进行重排,将访问概率靠前的网页置于更加显著位置。
本发明并不限于上述实施方式,采用与本发明上述实施实例相同或近似的结构,而得到的其它结构设计,均在本发明的保护范围之内。

Claims (7)

1.一种基于序列预测的网页布局优化方法,其特征是,利用用户的访问日志数据,使用深度递归神经网络来训练得到序列预测模型,使用序列预测模型模拟用户访问模式,通过比较现有网站结构网页超链布局与用户访问模式的匹配程度,对网站的结构和网页的布局进行改进;
包括以下步骤:数据预处理,序列预测模型训练,网站结构优化:
1)首先需要对用户的web日志数据进行预处理:在原始数据上删除一些无关的、错误的数据、提取出有用的域,将数据转换为后续算法要求的数据格式;
Web日志数据预处理细分为数据清洗、用户识别、会话识别、数据规范化等过程;其中数据清洗过程是去除掉用户访问日志中错误的无关的数据,去除不相关的数据字段仅保留有价值信息;用户识别则是从web日志数据中识别出不同的用户;会话识别是将每个用户的访问日志按照每次会话分割成一个个会话子集;数据规范化是将每个网页按出现频率排序,并用id进行表示,将访问序列变为id序列,便于后续序列预测模型使用;
数据预处理阶段将从web日志中提取出用户按会话按时间访问的页面序列数据,作为训练数据;
2)序列预测模型训练:构建一个深层的递归生成网络作为序列预测网络,使用序列数据训练模型,得到序列预测模型;使用一个长短时记忆网络(Long Short-Term MemoryNetworks),用来预测序列的下一个页面的概率分布,其概率值的大小反映了日志数据中用户在当前访问序列下访问下一个页面的可能程度;
3)获得序列预测模型后,使用模型模拟用户访问,比较访问模式与网站结构的匹配程度优化网站结构;实施方案为:(1)随机选取一个起始页面,预测下一个页面的访问概率分布;(2)比较当前页面中超链接是否包含预测页面概率top100的页面,以及这些top100页面超链接在当前网页中的位置,改进当前页面布局;(3)从下一跳预测结果中随机选取一个进行访问,重复(1)、(2)。
2.根据权利要求1所述的基于序列预测的网页布局优化方法,其特征是,使用一个多层的长短时记忆网络(Long Short-Term Memory Networks),用来预测序列的下一个页面的概率分布。
3.根据权利要求1所述的基于序列预测的网页布局优化方法,其特征是,对网站结构和页面进行优化的策略,统计当前访问页面中出现了多少预测结果中top100的页面超链,根据结果将本页面链接到一些高概率的页面;同时对于页面布局,对当前页面超链按预测概率排序,根据排序结果改进页面布局,将高概率页面放置于显眼位置。
4.根据权利要求1所述的基于序列预测的网页布局优化方法,其特征是,将处理后的数据送入到长短时记忆网络中训练,得到序列预测模型,用于后续网站优化过程;在训练中们使用5层的长短时记忆网络,网络中记忆单元向量位200维,最大预测序列长度为30,数据训练100批次。
5.根据权利要求1所述的基于序列预测的网页布局优化方法,其特征是,得到序列预测模型后,分别对网站结构和页面布局进行评估优化;使用序列模型进行访问模拟,得到当前访问序列<url1,...,urli>的下一个访问页面概率分布Pr,然后统计urli页面中覆盖了多少Pr分布top100的页面超链,作为网站结构是否合理评判依据,同时将高概率访问网页链接添加到当前页面。
6.根据权利要求1所述的基于序列预测的网页布局优化方法,其特征是,在进行序列预测时,借助预测结果对网页中的各个超链的位置进行重排,将访问概率靠前的网页置于更加显著位置。
7.根据权利要求1所述的基于序列预测的网页布局优化方法,其特征是,剔除掉无用的数据,只保留cookie_id,session_id,request_url,referer_url,time有效字段,然后按照会话和时间将日志数据分割为一个个序列数据;需要将url序列转换为id序列表示,即<url1,url2,..,urln>转化为<id1,id2,...,idn>,其中每个网页对应一个id数字,同时对于日志中出现频率过低的网页合并为unk类型页面。
CN201810320772.1A 2018-04-11 2018-04-11 一种基于序列预测的网页布局优化方法 Pending CN108509640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810320772.1A CN108509640A (zh) 2018-04-11 2018-04-11 一种基于序列预测的网页布局优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810320772.1A CN108509640A (zh) 2018-04-11 2018-04-11 一种基于序列预测的网页布局优化方法

Publications (1)

Publication Number Publication Date
CN108509640A true CN108509640A (zh) 2018-09-07

Family

ID=63381576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810320772.1A Pending CN108509640A (zh) 2018-04-11 2018-04-11 一种基于序列预测的网页布局优化方法

Country Status (1)

Country Link
CN (1) CN108509640A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460816A (zh) * 2018-11-16 2019-03-12 焦点科技股份有限公司 一种基于深度学习的用户行为预测方法
CN109901835A (zh) * 2019-01-25 2019-06-18 北京三快在线科技有限公司 布局元素的方法、装置、设备及存储介质
CN111767444A (zh) * 2020-06-22 2020-10-13 北京百度网讯科技有限公司 页面特征构建方法、装置、设备和存储介质
CN113296768A (zh) * 2020-08-28 2021-08-24 阿里巴巴集团控股有限公司 用户界面的生成方法、装置及商家店铺界面的生成方法
CN113988948A (zh) * 2021-11-12 2022-01-28 中国银行股份有限公司 一种满意度收集方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262661A (zh) * 2011-07-18 2011-11-30 南京大学 一种基于k阶混合马尔可夫模型的Web页面访问预测方法
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN105069087A (zh) * 2015-08-03 2015-11-18 成都康赛信息技术有限公司 基于Web日志数据挖掘的网站优化方法
CN107728874A (zh) * 2017-09-06 2018-02-23 阿里巴巴集团控股有限公司 提供用户快捷操作的方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262661A (zh) * 2011-07-18 2011-11-30 南京大学 一种基于k阶混合马尔可夫模型的Web页面访问预测方法
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN105069087A (zh) * 2015-08-03 2015-11-18 成都康赛信息技术有限公司 基于Web日志数据挖掘的网站优化方法
CN107728874A (zh) * 2017-09-06 2018-02-23 阿里巴巴集团控股有限公司 提供用户快捷操作的方法、装置及设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460816A (zh) * 2018-11-16 2019-03-12 焦点科技股份有限公司 一种基于深度学习的用户行为预测方法
CN109901835A (zh) * 2019-01-25 2019-06-18 北京三快在线科技有限公司 布局元素的方法、装置、设备及存储介质
CN111767444A (zh) * 2020-06-22 2020-10-13 北京百度网讯科技有限公司 页面特征构建方法、装置、设备和存储介质
CN111767444B (zh) * 2020-06-22 2024-04-09 北京百度网讯科技有限公司 页面特征构建方法、装置、设备和存储介质
CN113296768A (zh) * 2020-08-28 2021-08-24 阿里巴巴集团控股有限公司 用户界面的生成方法、装置及商家店铺界面的生成方法
CN113988948A (zh) * 2021-11-12 2022-01-28 中国银行股份有限公司 一种满意度收集方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108509640A (zh) 一种基于序列预测的网页布局优化方法
CN108595494B (zh) 答复信息的获取方法及装置
CN108364028A (zh) 一种基于深度学习的互联网网站自动分类方法
Kashef et al. An advanced ACO algorithm for feature subset selection
CN104598611B (zh) 对搜索条目进行排序的方法及系统
Castellano et al. NEWER: A system for NEuro-fuzzy WEb Recommendation
Arora et al. Agribot: a natural language generative neural networks engine for agricultural applications
CN107870964A (zh) 一种应用于答案融合系统的语句排序方法及系统
Ren et al. Where are you settling down: Geo-locating twitter users based on tweets and social networks
CN102222098A (zh) 一种网页预取方法和系统
CN110134788A (zh) 一种基于文本挖掘的微博发布优化方法及系统
CN106354852A (zh) 基于人工智能的搜索方法及装置
Mazumdar et al. Hidden location prediction using check-in patterns in location-based social networks
CN103914534B (zh) 基于专家系统url分类知识库的文本内容分类方法
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
CN110555170B (zh) 一种优化用户体验的系统及方法
Wang et al. Intent mining: A social and semantic enhanced topic model for operation-friendly digital marketing
CN109933741B (zh) 用户网络行为特征提取方法、装置及存储介质
Espín-Noboa et al. Hoprank: How semantic structure influences teleportation in pagerank (A case study on bioportal)
Anitha et al. A web usage mining based recommendation model for learning management systems
Boyapati et al. Phishing web page detection using web scraping
Brank et al. Predictive algorithms for browser support of habitual user activities on the web
Khanchana et al. An efficient web page prediction based on access time-length and frequency
JP4273300B2 (ja) Webアクセスログ解析方法
Zhang et al. [Retracted] Research on Classification Method of Network Resources Based on Modified SVM Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180907

RJ01 Rejection of invention patent application after publication