CN102982166B - 基于时间分片的Web用户浏览访问矩阵的构造方法 - Google Patents

基于时间分片的Web用户浏览访问矩阵的构造方法 Download PDF

Info

Publication number
CN102982166B
CN102982166B CN201210529936.4A CN201210529936A CN102982166B CN 102982166 B CN102982166 B CN 102982166B CN 201210529936 A CN201210529936 A CN 201210529936A CN 102982166 B CN102982166 B CN 102982166B
Authority
CN
China
Prior art keywords
user
access
time
matrix
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210529936.4A
Other languages
English (en)
Other versions
CN102982166A (zh
Inventor
吴家皋
袁堂朋
邹志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201210529936.4A priority Critical patent/CN102982166B/zh
Publication of CN102982166A publication Critical patent/CN102982166A/zh
Application granted granted Critical
Publication of CN102982166B publication Critical patent/CN102982166B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种基于时间分片的Web用户浏览访问矩阵的构造方法,根据用户在服务器的访问记录,采用时间分片的方法,将用户访问记录按访问的月份、星期和每天时段分成三类,分别转换成为三个访问矩阵数组,并为每类访问矩阵赋予相应的权重参数,最终得到一个平均访问矩阵。当用户访问网站的时候,将该平均访问矩阵作为输入,即可利用现有的偏爱路径算法得到用户偏爱浏览路径。本方法反映了不同时间用户的偏爱浏览行为也不同的特点,因而能获得更准确的用户偏爱浏览路径。同时,不同时间访问矩阵的权重参数可调节,增加了本方法的灵活性和适应性。

Description

基于时间分片的Web用户浏览访问矩阵的构造方法
技术领域
本发明涉及如何根据用户浏览网页在服务器端留下的日志记录,得到用户偏爱浏览路径的方法,尤其涉及一种基于时间分片的Web用户浏览访问矩阵的构造方法,属于Web数据挖掘技术领域。
背景技术
近几年来,Web技术的飞速发展,使得网络数据成为全球最大的信息资料源。最近的调查资料表明,全球有超过10亿张的网页数量,而且每天还在有无数的网页不停地增加和删除。如何在这些海量信息中提取出有用的信息,对各个企业和网站都有着重要的巨大的商业价值。
数据挖掘就是研究这种信息挖掘技术的一个领域,它研究如何从大量信息的集合中挖掘出规则模式。作为一个崭新的研究领域,它正逐渐成为许多研究者的兴趣焦点。Web挖掘主要可以分为三类研究方向:1)Web内容挖掘;2)Web结构挖掘;3)Web使用挖掘。Web使用挖掘也叫做Web日志挖掘。Web日志记录和汇聚了用户什么时候请求了什么资源,接收了什么数据的用户访问情况。因此,Web日志挖掘是帮助理解用户访问行为和网站结构的一个有用的方法。很多基于Web的应用都需要针对用户进行信息个性化处理。在电子商务中针对不同用户的浏览行为和喜好,为不同用户提供相应的动态采购建议。
迄今为止,Web日志挖掘方法可以分为以Chen为代表的基于Web事务的方法和以Han为代表的基于数据立方体的方法。
Chen提出了基于Web事务的方法,这种方法主要算法是最大先前序列法。最大向前序列法先将日志中的用户浏览历史记录转换成一个浏览子序列集,然后根据用户折返的特性形成若干浏览子序列,最后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径。这种方法主要有点是能够很好反应用户真实的浏览情况,缺点是不能排除用户的误操作,并且在处理较大的用户数据的过程中开销较大。
Han把Web服务器访问日志集成到数据立方体结构(Data Cubestructure)中,这样就可以对访问日志用OLAP(传统的在线数据分析处理过程)来处理日志数据了。因为其分析主要用的是动态网站日志,因此,他假定客户端的缓存影响不大。这种算法的优越之处在于可以利用OLPA分析数据,比较节省工作,缺点是,客户端的缓存在挖掘过程中的影响不能忽略,并且这种方法没有提出一个有效的区分用户Session的方法。
邢东山在Chen的基础上提出了用户偏爱度的概念。算法主要思想是建立一个矩阵,行坐标是当前网址(Universal Resource Locator,URL),列坐标是引用URL(就是当前的URL的上一个URL),这样构成了一个稀疏访问矩阵,然后对于每一行,系数大于一个给定值即用户浏览偏爱度。为了节约空间,对这个稀疏访问矩阵,转换成一个三元组(行URL,列URL,对应的偏爱度)。利用算法将满足条件的路径加入到用户偏爱浏览路径里面。这种方法没有考虑将用户浏览的时间作为一个标准,因为用户在不同的时间里面可能有不同的偏爱浏览路径。
发明内容
本发明所要解决的技术问题是针对上述背景技术的不足,提供了一种基于时间分片的Web用户浏览访问矩阵的构造方法,因此我们提出一种方法,在用户偏爱路径基础上增加了时间分片的思想,我们知道不同时间用户的偏爱浏览行为时不同的,于是我们按照不同的时间得到的用户浏览访问矩阵也是不同的,按照这个做数据挖掘得到的结果也是不同的。这种方法能够有效地为用户在不同的时间给出不同的推荐页面。从而灵活、有效地为用户推荐偏爱浏览路径。
本方法适合在服务器上面配置了互联网信息服务(Internet Information Service,IIS)的Web站点使用。
本发明为实现上述发明目的采用如下技术方案:
一种基于时间分片的Web用户浏览访问矩阵的构造方法,其特征是:在数据清洗阶段,根据互联网信息服务中的日志文件,建立并存储Web用户的访问记录表,然后,根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度分别为每个Web用户建立三个时间分片的访问矩阵数组,当用户访问网站的时候,按照用户访问时间及权重计算得到一个平均访问矩阵,将该平均访问矩阵作为输入,利用现有的偏爱路径算法得到用户偏爱浏览路径;包括如下步骤:
步骤1,数据清洗阶段,根据互联网信息服务(IIS)中的日志文件,建立并存储Web用户的访问记录表,每条记录表示某个用户在一个访问时间点,从上一个引用页面跳转到当前访问页面的过程。该表的主要结构包括:用户IP地址,用户操作系统,用户浏览器,用户访问时间,引用页面,访问页面,其中,根据用户访问IP地址、用户操作系统和用户浏览器将不同的用户区分开来。
步骤2,建立Web用户浏览访问矩阵:根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度进行时间分片,分别为每个Web用户建立三个时间分片的访问矩阵数组,包括:一个有12个元素的月份访问矩阵数组表示1月~12月;一个有7个元素的星期访问矩阵表示星期一~星期天;一个有3个元素的每天时段访问矩阵表示8:00~12:00、12:00~18:00和18:00~次日8:00三个时段,每个访问矩阵的结构是相同的,行表示引用页面的网址(Universal Resource Locator,URL),列表示当前页面的网址(URL),元素值为支持度,即用户由引用页面跳转到访当前页面路径的访问次数,另外,访问矩阵的行列都要添一个空值(NULL),在行向量里出现表示用户不通过网页链接而是通过直接输入网址(URL)、用书签来访问或从其它网站链接进入当前访问网页;在列向量里出现表示用户在此页结束浏览或链接到其它网站网页;
步骤3,计算平均访问矩阵:当Web用户访问网站时候,系统根据访问时间,计算出该访问时间的月份i、星期j、每天时段k,并从三个访问矩阵数组M,W,D中分别取出相对应的M[i],W[j],D[k]矩阵元素,并用公式(1)求平均访问矩阵N:
N=α·M[i]+β·W[j]+γ·D[k]           (1)
其中,
α,β,γ分别是月份访问矩阵、星期访问矩阵、每天时段访问矩阵的权重参数,且满足:0≤α,β,γ≤1,α+β+γ=1;
步骤4,利用现有的用户偏爱路径算法,以平均访问矩阵N作为输入,得到用户偏爱浏览路径。
通过调节α,β,γ的权值,控制平均访问矩阵,以适应不同的应用环境;具体方法是:取α:β:γ=12:7:3,即 当需要得到月份时间粒度下的用户偏爱浏览路径时,取α=1,β=0,γ=0;当需要得到星期时间粒度下的用户偏爱浏览路径时,取α=0,β=1,γ=0;当需要得到每天时段时间粒度下的用户偏爱浏览路径时,取α=0,β=0,γ=1。
本发明具有以下优点及有益效果:
(1)本方法反映了不同时间用户的偏爱浏览行为也不同的特点,因而能获得更准确的用户偏爱浏览路径;
(2)不同时间分片的访问矩阵的权重参数可调节,增加了本方法的灵活性和适应性。
附图说明
图1基于时间分片的Web用户浏览访问矩阵的构造方法的总流程图。
具体实施方式
下面结合附图对发明的技术方案进行详细说明。
图1是基于时间分片的Web用户浏览访问矩阵的构造方法的总流程图,该方法首先进行数据清洗,建立Web用户访问记录表;接着建立时间分片的Web用户浏览访问矩阵;然后,按照用户访问时间计算平均访问矩阵;最后,以平均访问矩阵输入现有的用户偏爱路径算法即可得到用户偏爱浏览路径。具体包括如下步骤:
步骤1,数据清洗阶段,根据互联网信息服务(IIS)中的日志文件,建立并存储Web用户的访问记录表,每条记录表示某个用户在一个访问时间点,从上一个引用页面跳转到当前访问页面的过程。该表的主要结构包括:用户IP地址,用户操作系统,用户浏览器,用户访问时间,引用页面,访问页面,其中,根据用户访问IP地址、用户操作系统和用户浏览器将不同的用户区分开来。
步骤2,建立Web用户浏览访问矩阵:根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度进行时间分片,分别为每个Web用户建立三个时间分片的访问矩阵数组,包括:一个有12个元素的月份访问矩阵数组表示1月~12月;一个有7个元素的星期访问矩阵表示星期一~星期天;一个有3个元素的每天时段访问矩阵表示8:00~12:00、12:00~18:00和18:00~次日8:00三个时段,每个访问矩阵的结构是相同的,行表示引用页面的网址(Universal Resource Locator,URL),列表示当前页面的网址(URL),元素值为支持度,即用户由引用页面跳转到访当前页面路径的访问次数,另外,访问矩阵的行列都要添一个空值(NULL),在行向量里出现表示用户不通过网页链接而是通过直接输入网址(URL)、用书签来访问或从其它网站链接进入当前访问网页;在列向量里出现表示用户在此页结束浏览或链接到其它网站网页;
步骤3,计算平均访问矩阵:当Web用户访问网站时候,系统根据访问时间,计算出该访问时间的月份i、星期j、每天时段k,并从三个访问矩阵数组M,W,D中分别取出相对应的M[i],W[i],D[k]矩阵元素,并用公式(1)求平均访问矩阵N:
N=α·M[i]+β·W[j]+γ·D[k]    (1)
其中,
α,β,γ分别是月份访问矩阵、星期访问矩阵、每天时段访问矩阵的权重参数,且满足:0≤α,β,γ≤1,α+β+γ=1;
步骤4,利用现有的用户偏爱路径算法,以平均访问矩阵N作为输入,得到用户偏爱浏览路径。
通过调节α,β,γ的权值,控制平均访问矩阵,以适应不同的应用环境;具体方法是:取α:β:γ=12:7:3,即 当需要得到月份时间粒度下的用户偏爱浏览路径时,取α=1,β=0,γ=0;当需要得到星期时间粒度下的用户偏爱浏览路径时,取α=0,β=1,γ=0;当需要得到每天时段时间粒度下的用户偏爱浏览路径时,取α=0,β=0,γ=1。

Claims (2)

1.基于时间分片的Web用户浏览访问矩阵的构造方法,其特征是:在数据清洗阶段,根据互联网信息服务中的日志文件,建立并存储Web用户的访问记录表,然后,根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度分别为每个Web用户建立三个时间分片的访问矩阵数组,当用户访问网站的时候,按照用户访问时间及权重计算得到一个平均访问矩阵,将该平均访问矩阵作为输入,利用现有的偏爱路径算法得到用户偏爱浏览路径;包括如下步骤:
步骤1,数据清洗阶段,根据互联网信息服务中的日志文件,建立并存储Web用户的访问记录表,每条记录表示某个用户在一个访问时间点,从上一个引用页面跳转到当前访问页面的过程;记录表的结构包括:用户IP地址、用户操作系统、用户浏览器、用户访问时间、引用页面、访问页面,其中,根据用户访问IP地址、用户操作系统和用户浏览器将不同的用户区分开来;
步骤2,建立Web用户浏览访问矩阵:根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度进行时间分片,分别为每个Web用户建立三个时间分片的访问矩阵数组,包括:一个有12个元素的月份访问矩阵数组表示1月~12月;一个有7个元素的星期访问矩阵表示星期一~星期天;一个有3个元素的每天时段访问矩阵表示8:00~12:00、12:00~18:00和18:00~次日8:00三个时段,每个访问矩阵的结构是相同的,行表示引用页面的网址,列表示当前页面的网址,元素值为支持度,即用户由引用页面跳转到当前页面的次数,另外,访问矩阵的行列都要添一个空值,在行向量里出现表示用户不通过网页链接而是通过直接输入网址、用书签来访问或从其它网站链接进入当前访问网页;在列向量里出现表示用户在此页结束浏览或链接到其它网站网页;
步骤3,计算平均访问矩阵:当Web用户访问网站时候,系统根据访问时间,计算出该访问时间的月份i、星期j、每天时段k,并从三个访问矩阵数组M,W,D中分别取出相对应的M[i],W[j],D[k]矩阵元素,并用公式(1)求平均访问矩阵N:
N=α·M[i]+β·W[j]+γ·D[k]   (1)
其中,
α,β,γ分别是月份访问矩阵、星期访问矩阵、每天时段访问矩阵的权重参数,且满足:0≤α,β,γ≤1,α+β+γ=1;
步骤4,利用基于访问矩阵的用户偏爱路径算法,以平均访问矩阵N作为输入,得到用户偏爱浏览路径。
2.根据权利要求1所述的基于时间分片的Web用户浏览访问矩阵的构造方法,其特征是:通过调节α,β,γ的权值,控制平均访问矩阵,以适应不同的应用环境;具体方法是:在混合时间粒度情况下,即同时考虑月份、星期和每天时段粒度下的用户偏爱浏览路径时,取α:β:γ=12:7:3,即当需要得到月份时间粒度下的用户偏爱浏览路径时,取α=1,β=0,γ=0;当需要得到星期时间粒度下的用户偏爱浏览路径时,取α=0,β=1,γ=0;当需要得到每天时段时间粒度下的用户偏爱浏览路径时,取α=0,β=0,γ=1。
CN201210529936.4A 2012-12-11 2012-12-11 基于时间分片的Web用户浏览访问矩阵的构造方法 Expired - Fee Related CN102982166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210529936.4A CN102982166B (zh) 2012-12-11 2012-12-11 基于时间分片的Web用户浏览访问矩阵的构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210529936.4A CN102982166B (zh) 2012-12-11 2012-12-11 基于时间分片的Web用户浏览访问矩阵的构造方法

Publications (2)

Publication Number Publication Date
CN102982166A CN102982166A (zh) 2013-03-20
CN102982166B true CN102982166B (zh) 2015-06-17

Family

ID=47856183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210529936.4A Expired - Fee Related CN102982166B (zh) 2012-12-11 2012-12-11 基于时间分片的Web用户浏览访问矩阵的构造方法

Country Status (1)

Country Link
CN (1) CN102982166B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731807B (zh) * 2013-12-20 2018-06-05 北京风行在线技术有限公司 一种统计和分析页面跳转数据的方法及装置
CN105335426B (zh) * 2014-08-07 2019-04-26 腾讯科技(深圳)有限公司 一种海量数据的热点数据的分析方法、系统及相关设备
CN106484715B (zh) * 2015-08-27 2019-12-03 北京国双科技有限公司 用于路径转化的数据剖析方法和装置
CN106055572B (zh) * 2016-05-20 2020-04-28 百度在线网络技术(北京)有限公司 页面转化参数的处理方法及装置
CN107943978B (zh) * 2017-11-29 2020-11-24 北京金堤科技有限公司 用户访问记录的存储方法及装置
CN109409940A (zh) * 2018-09-30 2019-03-01 北京京东尚科信息技术有限公司 基于路径的浏览处理方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254004A (zh) * 2011-07-14 2011-11-23 北京邮电大学 一种网络日志挖掘中的Web建模方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254004A (zh) * 2011-07-14 2011-11-23 北京邮电大学 一种网络日志挖掘中的Web建模方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种挖掘用户浏览模式的新方法;张海玉等;《计算机应用与软件》;20070228;第24卷(第2期);143,144,150 *
从Web日志中挖掘用户浏览偏爱路径;邢东山等;《计算机学报》;20031130;第26卷(第11期);1518-1523 *
基于Web日志挖掘用户的浏览兴趣路径;王思宝等;《计算机应用与软件》;20120131;第29卷(第1期);164-167 *
用户浏览偏爱模式挖掘算法的研究;邢东山等;《西安交通大学学报》;20020430;第36卷(第4期);369-372 *

Also Published As

Publication number Publication date
CN102982166A (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN102982166B (zh) 基于时间分片的Web用户浏览访问矩阵的构造方法
US11487735B2 (en) Combinators
US20240176831A1 (en) Auto-refinement of search results based on monitored search activities of users
US8972412B1 (en) Predicting improvement in website search engine rankings based upon website linking relationships
US8898150B1 (en) Collecting image search event information
US8843610B2 (en) Referred internet traffic analysis system and method
US20150213484A1 (en) System and method for tracking related events
CN107688568A (zh) 基于网页访问行为记录的采集方法及装置
CN104182506A (zh) 日志管理方法
Wang et al. Quantitative analysis of Matthew effect and sparsity problem of recommender systems
CN105069087A (zh) 基于Web日志数据挖掘的网站优化方法
Mokarrama et al. RSF: A recommendation system for farmers
Saravanan et al. Improve efficient keywords searching data retrieval process in cloud server
CN110020273A (zh) 用于生成热力图的方法、装置以及系统
Deka NoSQL web crawler application
CN104376066A (zh) 一种网络特定内容挖掘方法和装置、及一种电子设备
US8370365B1 (en) Tools for predicting improvement in website search engine rankings based upon website linking relationships
Nicholas et al. Evidence of user behaviour: deep log analysis
Tugaonkar et al. Survey on recent methodologies used for recommender system
Phoa et al. Modeling the browsing behavior of world wide web users
Patil et al. A study on Search engine and Search Engine Optimization
Goel et al. Analyzing web logs of an astrological website using key influencers
Kumar et al. Efficient methodologies to overcome the effects of hanging pages in search engine optimisation
Györödi et al. Web page analysis based on HTML DOM and its usage for forum statistics, alerts and geo targeted data retrieval
Umarani et al. Improved Pre-Processing Stages in Web Usage Mining Using Web Log

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130320

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000213

Denomination of invention: Web user browsing access matrix construction method based on time slicing

Granted publication date: 20150617

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000213

Date of cancellation: 20180116

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150617

Termination date: 20211211