CN102982166A - 基于时间分片的Web用户浏览访问矩阵的构造方法 - Google Patents

基于时间分片的Web用户浏览访问矩阵的构造方法 Download PDF

Info

Publication number
CN102982166A
CN102982166A CN 201210529936 CN201210529936A CN102982166A CN 102982166 A CN102982166 A CN 102982166A CN 201210529936 CN201210529936 CN 201210529936 CN 201210529936 A CN201210529936 A CN 201210529936A CN 102982166 A CN102982166 A CN 102982166A
Authority
CN
China
Prior art keywords
user
access
time
access matrix
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201210529936
Other languages
English (en)
Other versions
CN102982166B (zh
Inventor
吴家皋
袁堂朋
邹志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201210529936.4A priority Critical patent/CN102982166B/zh
Publication of CN102982166A publication Critical patent/CN102982166A/zh
Application granted granted Critical
Publication of CN102982166B publication Critical patent/CN102982166B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种基于时间分片的Web用户浏览访问矩阵的构造方法,根据用户在服务器的访问记录,采用时间分片的方法,将用户访问记录按访问的月份、星期和每天时段分成三类,分别转换成为三个访问矩阵数组,并为每类访问矩阵赋予相应的权重参数,最终得到一个平均访问矩阵。当用户访问网站的时候,将该平均访问矩阵作为输入,即可利用现有的偏爱路径算法得到用户偏爱浏览路径。本方法反映了不同时间用户的偏爱浏览行为也不同的特点,因而能获得更准确的用户偏爱浏览路径。同时,不同时间访问矩阵的权重参数可调节,增加了本方法的灵活性和适应性。

Description

基于时间分片的Web用户浏览访问矩阵的构造方法
技术领域
本发明涉及如何根据用户浏览网页在服务器端留下的日志记录,得到用户偏爱浏览路径的方法,尤其涉及一种基于时间分片的Web用户浏览访问矩阵的构造方法,属于Web数据挖掘技术领域。
背景技术
近几年来,Web技术的飞速发展,使得网络数据成为全球最大的信息资料源。最近的调查资料表明,全球有超过10亿张的网页数量,而且每天还在有无数的网页不停地增加和删除。如何在这些海量信息中提取出有用的信息,对各个企业和网站都有着重要的巨大的商业价值。
数据挖掘就是研究这种信息挖掘技术的一个领域,它研究如何从大量信息的集合中挖掘出规则模式。作为一个崭新的研究领域,它正逐渐成为许多研究者的兴趣焦点。Web挖掘主要可以分为三类研究方向:1)Web内容挖掘;2)Web结构挖掘;3)Web使用挖掘。Web使用挖掘也叫做Web日志挖掘。Web日志记录和汇聚了用户什么时候请求了什么资源,接收了什么数据的用户访问情况。因此,Web日志挖掘是帮助理解用户访问行为和网站结构的一个有用的方法。很多基于Web的应用都需要针对用户进行信息个性化处理。在电子商务中针对不同用户的浏览行为和喜好,为不同用户提供相应的动态采购建议。
迄今为止,Web日志挖掘方法可以分为以Chen为代表的基于Web事务的方法和以Han为代表的基于数据立方体的方法。
Chen提出了基于Web事务的方法,这种方法主要算法是最大先前序列法。最大向前序列法先将日志中的用户浏览历史记录转换成一个浏览子序列集,然后根据用户折返的特性形成若干浏览子序列,最后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径。这种方法主要有点是能够很好反应用户真实的浏览情况,缺点是不能排除用户的误操作,并且在处理较大的用户数据的过程中开销较大。
Han把Web服务器访问日志集成到数据立方体结构(Data Cubestructure)中,这样就可以对访问日志用OLAP(传统的在线数据分析处理过程)来处理日志数据了。因为其分析主要用的是动态网站日志,因此,他假定客户端的缓存影响不大。这种算法的优越之处在于可以利用OLPA分析数据,比较节省工作,缺点是,客户端的缓存在挖掘过程中的影响不能忽略,并且这种方法没有提出一个有效的区分用户Session的方法。
邢东山在Chen的基础上提出了用户偏爱度的概念。算法主要思想是建立一个矩阵,行坐标是当前网址(Universal Resource Locator,URL),列坐标是引用URL(就是当前的URL的上一个URL),这样构成了一个稀疏访问矩阵,然后对于每一行,系数大于一个给定值即用户浏览偏爱度。为了节约空间,对这个稀疏访问矩阵,转换成一个三元组(行URL,列URL,对应的偏爱度)。利用算法将满足条件的路径加入到用户偏爱浏览路径里面。这种方法没有考虑将用户浏览的时间作为一个标准,因为用户在不同的时间里面可能有不同的偏爱浏览路径。
发明内容
本发明所要解决的技术问题是针对上述背景技术的不足,提供了一种基于时间分片的Web用户浏览访问矩阵的构造方法,因此我们提出一种方法,在用户偏爱路径基础上增加了时间分片的思想,我们知道不同时间用户的偏爱浏览行为时不同的,于是我们按照不同的时间得到的用户浏览访问矩阵也是不同的,按照这个做数据挖掘得到的结果也是不同的。这种方法能够有效地为用户在不同的时间给出不同的推荐页面。从而灵活、有效地为用户推荐偏爱浏览路径。
本方法适合在服务器上面配置了互联网信息服务(Internet Information Service,IIS)的Web站点使用。
本发明为实现上述发明目的采用如下技术方案:
一种基于时间分片的Web用户浏览访问矩阵的构造方法,其特征是:在数据清洗阶段,根据互联网信息服务中的日志文件,建立并存储Web用户的访问记录表,然后,根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度分别为每个Web用户建立三个时间分片的访问矩阵数组,当用户访问网站的时候,按照用户访问时间及权重计算得到一个平均访问矩阵,将该平均访问矩阵作为输入,利用现有的偏爱路径算法得到用户偏爱浏览路径;包括如下步骤:
步骤1,数据清洗阶段,根据互联网信息服务(IIS)中的日志文件,建立并存储Web用户的访问记录表,每条记录表示某个用户在一个访问时间点,从上一个引用页面跳转到当前访问页面的过程。该表的主要结构包括:用户IP地址,用户操作系统,用户浏览器,用户访问时间,引用页面,访问页面,其中,根据用户访问IP地址、用户操作系统和用户浏览器将不同的用户区分开来。
步骤2,建立Web用户浏览访问矩阵:根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度进行时间分片,分别为每个Web用户建立三个时间分片的访问矩阵数组,包括:一个有12个元素的月份访问矩阵数组表示1月~12月;一个有7个元素的星期访问矩阵表示星期一~星期天;一个有3个元素的每天时段访问矩阵
Figure BDA00002561017500033
表示8:00~12:00、12:00~18:00和18:00~次日8:00三个时段,每个访问矩阵的结构是相同的,行表示引用页面的网址(Universal Resource Locator,URL),列表示当前页面的网址(URL),元素值为支持度,即用户由引用页面跳转到访当前页面路径的访问次数,另外,访问矩阵的行列都要添一个空值(NULL),在行向量里出现表示用户不通过网页链接而是通过直接输入网址(URL)、用书签来访问或从其它网站链接进入当前访问网页;在列向量里出现表示用户在此页结束浏览或链接到其它网站网页;
步骤3,计算平均访问矩阵:当Web用户访问网站时候,系统根据访问时间,计算出该访问时间的月份i、星期j、每天时段k,并从三个访问矩阵数组M,W,D中分别取出相对应的M[i],W[j],D[k]矩阵元素,并用公式(1)求平均访问矩阵N:
N=α·M[i]+β·W[j]+γ·D[k]           (1)
其中,
α,β,γ分别是月份访问矩阵、星期访问矩阵、每天时段访问矩阵的权重参数,且满足:0≤α,β,γ≤1,α+β+γ=1;
步骤4,利用现有的用户偏爱路径算法,以平均访问矩阵N作为输入,得到用户偏爱浏览路径。
通过调节α,β,γ的权值,控制平均访问矩阵,以适应不同的应用环境;具体方法是:取α:β:γ=12:7:3,即
Figure BDA00002561017500034
Figure BDA00002561017500036
当需要得到月份时间粒度下的用户偏爱浏览路径时,取α=1,β=0,γ=0;当需要得到星期时间粒度下的用户偏爱浏览路径时,取α=0,β=1,γ=0;当需要得到每天时段时间粒度下的用户偏爱浏览路径时,取α=0,β=0,γ=1。
本发明具有以下优点及有益效果:
(1)本方法反映了不同时间用户的偏爱浏览行为也不同的特点,因而能获得更准确的用户偏爱浏览路径;
(2)不同时间分片的访问矩阵的权重参数可调节,增加了本方法的灵活性和适应性。
附图说明
图1基于时间分片的Web用户浏览访问矩阵的构造方法的总流程图。
具体实施方式
下面结合附图对发明的技术方案进行详细说明。
图1是基于时间分片的Web用户浏览访问矩阵的构造方法的总流程图,该方法首先进行数据清洗,建立Web用户访问记录表;接着建立时间分片的Web用户浏览访问矩阵;然后,按照用户访问时间计算平均访问矩阵;最后,以平均访问矩阵输入现有的用户偏爱路径算法即可得到用户偏爱浏览路径。具体包括如下步骤:
步骤1,数据清洗阶段,根据互联网信息服务(IIS)中的日志文件,建立并存储Web用户的访问记录表,每条记录表示某个用户在一个访问时间点,从上一个引用页面跳转到当前访问页面的过程。该表的主要结构包括:用户IP地址,用户操作系统,用户浏览器,用户访问时间,引用页面,访问页面,其中,根据用户访问IP地址、用户操作系统和用户浏览器将不同的用户区分开来。
步骤2,建立Web用户浏览访问矩阵:根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度进行时间分片,分别为每个Web用户建立三个时间分片的访问矩阵数组,包括:一个有12个元素的月份访问矩阵数组
Figure BDA00002561017500041
表示1月~12月;一个有7个元素的星期访问矩阵表示星期一~星期天;一个有3个元素的每天时段访问矩阵
Figure BDA00002561017500043
表示8:00~12:00、12:00~18:00和18:00~次日8:00三个时段,每个访问矩阵的结构是相同的,行表示引用页面的网址(Universal Resource Locator,URL),列表示当前页面的网址(URL),元素值为支持度,即用户由引用页面跳转到访当前页面路径的访问次数,另外,访问矩阵的行列都要添一个空值(NULL),在行向量里出现表示用户不通过网页链接而是通过直接输入网址(URL)、用书签来访问或从其它网站链接进入当前访问网页;在列向量里出现表示用户在此页结束浏览或链接到其它网站网页;
步骤3,计算平均访问矩阵:当Web用户访问网站时候,系统根据访问时间,计算出该访问时间的月份i、星期j、每天时段k,并从三个访问矩阵数组M,W,D中分别取出相对应的M[i],W[i],D[k]矩阵元素,并用公式(1)求平均访问矩阵N:
N=α·M[i]+β·W[j]+γ·D[k]    (1)
其中,
α,β,γ分别是月份访问矩阵、星期访问矩阵、每天时段访问矩阵的权重参数,且满足:0≤α,β,γ≤1,α+β+γ=1;
步骤4,利用现有的用户偏爱路径算法,以平均访问矩阵N作为输入,得到用户偏爱浏览路径。
通过调节α,β,γ的权值,控制平均访问矩阵,以适应不同的应用环境;具体方法是:取α:β:γ=12:7:3,即
Figure BDA00002561017500052
Figure BDA00002561017500053
当需要得到月份时间粒度下的用户偏爱浏览路径时,取α=1,β=0,γ=0;当需要得到星期时间粒度下的用户偏爱浏览路径时,取α=0,β=1,γ=0;当需要得到每天时段时间粒度下的用户偏爱浏览路径时,取α=0,β=0,γ=1。

Claims (2)

1.基于时间分片的Web用户浏览访问矩阵的构造方法,其特征是:在数据清洗阶段,根据互联网信息服务中的日志文件,建立并存储Web用户的访问记录表,然后,根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度分别为每个Web用户建立三个时间分片的访问矩阵数组,当用户访问网站的时候,按照用户访问时间及权重计算得到一个平均访问矩阵,将该平均访问矩阵作为输入,利用现有的偏爱路径算法得到用户偏爱浏览路径;包括如下步骤:
步骤1,数据清洗阶段,根据互联网信息服务中的日志文件,建立并存储Web用户的访问记录表,每条记录表示某个用户在一个访问时间点,从上一个引用页面跳转到当前访问页面的过程;记录表的结构包括:用户IP地址、用户操作系统、用户浏览器、用户访问时间、引用页面、访问页面,其中,根据用户访问IP地址、用户操作系统和用户浏览器将不同的用户区分开来;
步骤2,建立Web用户浏览访问矩阵:根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度进行时间分片,分别为每个Web用户建立三个时间分片的访问矩阵数组,包括:一个有12个元素的月份访问矩阵数组
Figure FDA00002561017400011
表示1月~12月;一个有7个元素的星期访问矩阵
Figure FDA00002561017400012
表示星期一~星期天;一个有3个元素的每天时段访问矩阵
Figure FDA00002561017400013
表示8:00~12:00、12:00~18:00和18:00~次日8:00三个时段,每个访问矩阵的结构是相同的,行表示引用页面的网址,列表示当前页面的网址,元素值为支持度,即用户由引用页面跳转到访当前页面路径的访问次数,另外,访问矩阵的行列都要添一个空值,在行向量里出现表示用户不通过网页链接而是通过直接输入网址、用书签来访问或从其它网站链接进入当前访问网页;在列向量里出现表示用户在此页结束浏览或链接到其它网站网页;
步骤3,计算平均访问矩阵:当Web用户访问网站时候,系统根据访问时间,计算出该访问时间的月份i、星期j、每天时段k,并从三个访问矩阵数组M,W,D中分别取出相对应的M[i],W[j],D[k]矩阵元素,并用公式(1)求平均访问矩阵N:
N=α·M[i]+β·W[j]+γ·D[k]     (1)
其中,
α,β,γ分别是月份访问矩阵、星期访问矩阵、每天时段访问矩阵的权重参数,且满足:0≤α,β,γ≤1,α+β+γ=1;
步骤4,利用现有的用户偏爱路径算法,以平均访问矩阵N作为输入,得到用户偏爱浏览路径。
2.根据权利要求1所述的基于时间分片的Web用户浏览访问矩阵的构造方法,其特征是:通过调节α,β,γ的权值,控制平均访问矩阵,以适应不同的应用环境;具体方法是:取α:β:γ=12:7:3,即
Figure FDA00002561017400022
Figure FDA00002561017400023
当需要得到月份时间粒度下的用户偏爱浏览路径时,取α=1,β=0,γ=0;当需要得到星期时间粒度下的用户偏爱浏览路径时,取α=0,β=1,γ=0;当需要得到每天时段时间粒度下的用户偏爱浏览路径时,取α=0,β=0,γ=1。
CN201210529936.4A 2012-12-11 2012-12-11 基于时间分片的Web用户浏览访问矩阵的构造方法 Expired - Fee Related CN102982166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210529936.4A CN102982166B (zh) 2012-12-11 2012-12-11 基于时间分片的Web用户浏览访问矩阵的构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210529936.4A CN102982166B (zh) 2012-12-11 2012-12-11 基于时间分片的Web用户浏览访问矩阵的构造方法

Publications (2)

Publication Number Publication Date
CN102982166A true CN102982166A (zh) 2013-03-20
CN102982166B CN102982166B (zh) 2015-06-17

Family

ID=47856183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210529936.4A Expired - Fee Related CN102982166B (zh) 2012-12-11 2012-12-11 基于时间分片的Web用户浏览访问矩阵的构造方法

Country Status (1)

Country Link
CN (1) CN102982166B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731807A (zh) * 2013-12-20 2015-06-24 北京风行在线技术有限公司 一种统计和分析页面跳转数据的方法及装置
CN105335426A (zh) * 2014-08-07 2016-02-17 腾讯科技(深圳)有限公司 一种海量数据的热点数据的分析方法、系统及相关设备
CN106055572A (zh) * 2016-05-20 2016-10-26 百度在线网络技术(北京)有限公司 页面转化参数的处理方法及装置
CN106484715A (zh) * 2015-08-27 2017-03-08 北京国双科技有限公司 用于路径转化的数据剖析方法和装置
CN107943978A (zh) * 2017-11-29 2018-04-20 北京金堤科技有限公司 用户访问记录的存储方法及装置
CN109409940A (zh) * 2018-09-30 2019-03-01 北京京东尚科信息技术有限公司 基于路径的浏览处理方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254004A (zh) * 2011-07-14 2011-11-23 北京邮电大学 一种网络日志挖掘中的Web建模方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731807A (zh) * 2013-12-20 2015-06-24 北京风行在线技术有限公司 一种统计和分析页面跳转数据的方法及装置
CN104731807B (zh) * 2013-12-20 2018-06-05 北京风行在线技术有限公司 一种统计和分析页面跳转数据的方法及装置
CN105335426A (zh) * 2014-08-07 2016-02-17 腾讯科技(深圳)有限公司 一种海量数据的热点数据的分析方法、系统及相关设备
CN105335426B (zh) * 2014-08-07 2019-04-26 腾讯科技(深圳)有限公司 一种海量数据的热点数据的分析方法、系统及相关设备
CN106484715A (zh) * 2015-08-27 2017-03-08 北京国双科技有限公司 用于路径转化的数据剖析方法和装置
CN106055572A (zh) * 2016-05-20 2016-10-26 百度在线网络技术(北京)有限公司 页面转化参数的处理方法及装置
CN107943978A (zh) * 2017-11-29 2018-04-20 北京金堤科技有限公司 用户访问记录的存储方法及装置
CN107943978B (zh) * 2017-11-29 2020-11-24 北京金堤科技有限公司 用户访问记录的存储方法及装置
CN109409940A (zh) * 2018-09-30 2019-03-01 北京京东尚科信息技术有限公司 基于路径的浏览处理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN102982166B (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
US20210026811A1 (en) Generating file usage information
CN102982166B (zh) 基于时间分片的Web用户浏览访问矩阵的构造方法
US10146421B1 (en) Online information system with per-document selectable items
US9094478B2 (en) Prereading method and system for web browser
US6701362B1 (en) Method for creating user profiles
US8745039B2 (en) Method and system for user guided search navigation
JP5307417B2 (ja) 文書に注釈を付するシステムと方法
US8180782B2 (en) Online ranking metric
US11086888B2 (en) Method and system for generating digital content recommendation
US20080184137A1 (en) Search results clustering in tabbed browsers
EP2904509B1 (en) Improving access to network content
US20140188598A1 (en) Correlating Web Page Visits and Conversions with External References
US20050086606A1 (en) Web playlist system, method, and computer program
US20080065237A1 (en) Dynamic HTML based Multi Tabbed Sortable Results
US20100313149A1 (en) Aggregating dynamic visual content
TW200925970A (en) Customized today module
US9942359B2 (en) Method and system for synchronizing software module hosts
CN103136188A (zh) 用于网络浏览用户的情绪估计的方法和系统
CN102750334A (zh) 一种基于dm的农业信息精准推送的方法
CN102065114A (zh) 一种移动终端访问网页的方法及装置
US20120124070A1 (en) Recommending queries according to mapping of query communities
CN101188521B (zh) 一种挖掘用户行为数据的方法和网站服务器
CN104468720A (zh) 一种确定预览链接并对其提供动态预览信息的方法
US20140280816A1 (en) Browser cookie analysis and targeted content delivery
US20160210336A1 (en) System for interactively searching for and displaying information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130320

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000213

Denomination of invention: Web user browsing access matrix construction method based on time slicing

Granted publication date: 20150617

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000213

Date of cancellation: 20180116

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150617

Termination date: 20211211