CN103001805A - 基于用户行为分析的web用户流量产生方法 - Google Patents

基于用户行为分析的web用户流量产生方法 Download PDF

Info

Publication number
CN103001805A
CN103001805A CN2012105478576A CN201210547857A CN103001805A CN 103001805 A CN103001805 A CN 103001805A CN 2012105478576 A CN2012105478576 A CN 2012105478576A CN 201210547857 A CN201210547857 A CN 201210547857A CN 103001805 A CN103001805 A CN 103001805A
Authority
CN
China
Prior art keywords
page
user
web
model
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105478576A
Other languages
English (en)
Inventor
唐红
于敏昌
徐川
赵国锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN2012105478576A priority Critical patent/CN103001805A/zh
Publication of CN103001805A publication Critical patent/CN103001805A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于用户行为分析的web用户流量产生方法,本方法建立了WUBS模型,该模型除了考虑各请求的时间间隔、浏览时间间隔模型,还通过对用户访问进行聚类分析引入了页面跳转关系的Markov转移矩阵,用于刻画用户的浏览行为、页面受欢迎程度,因此能够更加准确反映最真实的用户请求流量状况,更贴近用户实时请求。

Description

基于用户行为分析的web用户流量产生方法
技术领域
本发明涉及用户行为分析技术及网络流量产生技术,具体是基于用户行为分析的web用户流量产生方法。
背景技术
互联网属于实践性很强的领域,相关的研究成果只有在经过实践验证后才会被广泛接受。因此,研究人员需要网络实验床去验证新的网络体系架构、协议、服务等。作为网络实验床的关键设备,流量发生器主要用于产生逼真的网络流量,其性能指标对实验结果有直接影响。
目前用于产生网络流量的方法主要有两种:一、网络流量回放——利用网络嗅探器对网络进行嗅探并将获取的数据记录在日志文件中,然后根据日志文件中记录的内容产生网络流量;二、模型流量产生——在了解网络特性后对网络流量建立数学模型,并按照数学模型发送数据包,从而产生符合网络特性的网络流量。方法一所产生流量受日志文件约束,流量过于机械;方法二从网络流量整体服从的概率模型入手,产生的网络流量与真实流量在整体上较为接近,但是不能反映单个用户的行为,在很多环境中显得不足。如在面向服务的网络中,服务迁移时往往需要统计单个用户对某一服务的请求次数、喜好程度,以决定是否进行服务迁移,传统方法对此不能有效支持。
目前使用的方法还包括如下集中:SPECweb96(由Standard Performace Evaluation Corp提出,专供检测web服务器特性)、SURGE(美国Boston大学提出,模仿用户访问网络以产生网络流量)、Harpoon(美国Wisconsim-Madison大学提出,模仿用户访问网络以产生网络流量)。以上方法SPEC96仅仅是通过客户机向服务器发送HTTP Get请求产生网络流量,没有考虑到用户Web请求特征(如请求间隔、浏览时间、页面跳转关系等),多用于压力测试等;SURGE、Harpoon虽然加入了部分Web请求特征,但也有其不足之处:1、仅局限于请求发送的时间间隔模型、浏览时间模型等,不能体现出用户浏览页面时各页面跳转关系、页面的访问频率(即页面受喜好程度),所产生流量与真实网络流量相差很大2、所用流量产生模型的参数需事前指定,由于对不同网站各模型参数不同,所以其不具通用性。
发明内容
本发明的目的是提供一种流量产生器使所产生流量能够体现真实用户的上网行为,如流量总体上应具有自相似性;对页面的请求应能正确反应出页面的受喜爱程度;不同页面间的转移与真实用户的浏览网页时的转移概率尽可能相似。还针对不同网站自动产生不同的浏览模型参数,提高系统的通用性。
为解决上述技术问题本发明采用的技术方案是:基于用户行为分析的web用户流量产生方法包括如下步骤:
1)对网站日志文件或tcpdump文件进行处理,建立Markov转移矩阵、Parto模型和ON/OFF模型。
2)根据步骤1)中的网站日志文件或tcpdump文件统计分析得出页面请求时间间隔、页面跳转关系和页面受欢迎程度。
3)将步骤2)的统计结果送入步骤1)中建立的各模型作为初始化参数;
4)根据齐普夫—曼德尔布罗分布确定所浏览网站的首页面。
5)根据步骤3)中送入初始化参数后的Markov转移矩阵确定下一个访问页面P。
6)根据送入初始化参数后的ON/OFF模型随机生成一个访问时间间隔。
7)发送HTTP Get请求步骤5)中的页面P。
8)判断任务是否结束,是则退出,否则转到步骤5)。
具体地,用户利用本发明方法时,可在同一个客户端上通过启用若干个线程来实现对相同或不同网站的访问。
进一步,步骤5)中确定下一个访问页面P的步骤包括:①将网站日志文件中的浏览记录按IP地址进行聚合;②从聚合的网站日志文件中随机抽取N个用户的浏览记录构成学习数据集合U={u1,u2…uN};③利用该学习数据集合,采用极大似然估计估计出Markov转移矩阵中的所有参数,计算方法为:
      
式中:
Figure 473974DEST_PATH_IMAGE002
表示在用户浏览序列中从网页i跳转到页面j的次数,
Figure 2012105478576100002DEST_PATH_IMAGE003
表示网页i转移到页面j的概率,
Figure 803324DEST_PATH_IMAGE004
为Markov矩阵的初始状态分布,即在初始时处于网页i的概率;④根据用户现在所处页面及Markov矩阵预测用户下一个访问页面P。
发明人通过正确分析用户对网络的请求行为之后建立了Web用户行为模型(Web User Behavior Simulation)WUBS模型,该模型除了考虑各请求的时间间隔、浏览时间间隔模型,还通过对用户访问进行聚类分析引入了页面跳转关系的Markov转移矩阵,用于刻画用户的浏览行为、页面受欢迎程度,因此能够更加准确反映最真实的用户请求流量状况,更贴近用户实时请求。发明人对该系统设计了一个参数确定方法,通过该方法可以将服务器端的Web请求日志进行分析,确定上述各浏览模型(请求时间间隔[4] 的ON/OFF模型、浏览时间间隔的Parto模型、页面跳转关系的Markov转移矩阵)的参数。申请人在单个客户机上采用多线程方式,以同时模仿多个用户,协调工作以实现大规模网络流量产生需求。
本发明的基于用户行为分析的web流量产生方法具有以下优点:基于用户行为分析的流量产生方法较传统方法所使产生的网络流量逼真度更高,对网络设备性能测试、网络协议评估提供更好的支持;通过多线程方式可以产生大规模网络流量,也可以实现在一个客户端上对不同网站同时访问,互不影响。
附图说明
图1为流量产生方法流程图;
图2为Markov模型转移矩阵;
图3为 ON/OFF模型描述的用户浏览行为;
图4为Pareto分布中k=1, α=1.3的网络流量图;
图5为Pareto分布中k=1, α=1.3的R/S图;
图6为Pareto分布中k=1, α=1.7的网络流量图;
图7为Pareto分布中k=1, α=1.7的R/S图。
具体实施方式
以下结合附图对本发明的实施作详细描述。
图1是本发明实施例的一种网络流量产生方法的流程图,包括如下步骤:
步骤101,提取要访问网站的日志文件或在本地网络交换设备上用tcpdump抓取要访问网站的数据包,建立Markov转移矩阵、Parto模型和ON/OFF模型。
步骤102,在步骤101的基础上,统计分析得出页面请求时间间隔、页面跳转关系和页面受欢迎程度,确定Markov转移矩阵、Parto模型和ON/OFF模型的参数。对以上模型参数的确定可以分两种情况:(1)在能得到网站访问日志文件的情况下,可以直接对日志文件进行统计分析,计算得出各模型的参数。(2)在无法得到网站日志的情况下,采用在本地网络交换设备做端口映射,用tcpdump抓取访问目标网站的数据包,然后再进行统计分析,计算出各模型参数。
步骤103,在步骤102的基础上,把各模型参数保存在全局变量中以供后面的步骤查询、修改,并存入配置文件中,这样在对同一网站进行访问时就不必重复计算。
步骤104,根据齐普夫—曼德尔布罗分布确定所浏览网站的首页面。页面受欢迎程度——给定一个网站,假设它共包含N(N>0)个web页面,依次为w1,w2,…wn。使用随机变量W表示所请求的web页面,P(W=i)表示页面wi的访问概率。埃达等人发现页面的受欢迎程度满足齐普夫—曼德尔布罗分布,如下:
Figure 2012105478576100002DEST_PATH_IMAGE005
  (公式1)
上式中α(α>0)为偏离因子,决定该分布的偏离情况;q(q≥0)为稳态因子,决定最高排名页面的访问概率。当参数α=1时,齐普夫—曼德尔布罗分布可以简化为Zipf分布,q=0时,可进一步简化为类Zip分布。由于
Figure 2224DEST_PATH_IMAGE006
,可得
设Pmax=max{P(W=1),P(W=2),…P(W=n)},则Pmax为最受欢迎页面本系统采用来决定第一个被浏览的页面。
步骤105,在步聚102所计算的Markov转移矩阵(Markov模型)的基础上,根据转移概率确定下一个要访问的页面P。用Markov模型对用户浏览路径作出预测。Markov模型可以表示为一个三元组MK={W,A,Π}(如图2),其中W是一个离散随机变量,值域为{w1,w2,…,wn}其中每个wi代表一个网页,称为模型的一个状态,A为转移概率矩阵。pij=P{Wt=wj|Wt-1=wi}表示在t-1时间访问网页wi的条件下,在t时间访问网页wj的概率,Π为初始状态分布,每一项为pi=P(Wt=0=wi)。
转移矩阵A及初始状态矩阵Π可由用户事先指定或由模型参数预处理模块从web日志中计算得出。其计算方法描述如下:①将web日志中的浏览记录按IP地址进行聚合;②从聚合的web日志中随机抽取N个用户的浏览记录构成学习数据集合U={u1,u2…un}。利用该学习数据,采用极大似然估计可以估计出Markov模型中的所有参数,计算方法如公式2所示:
Figure 733420DEST_PATH_IMAGE001
      (公式2)
根据用户现在所处页面及Markov模型中的转移矩阵就可以预测用户下一个可能浏览的页面。
步骤106,在得到第一个浏览页面后,我们要确定经过多长时间间隔发送对下一页面的请求,这些我们用传统的ON/OFF模型来描述用户浏览网页的行为,如图3所示。
图3以时间为横作标,用户在时间点1对主页面(URL1)发送HTTP Get请求,得到服务器回应信息,此回应信息包含主页面中n个内嵌页面的URL地址,然后每隔一定的OFF时间发送对URLi(2≤i≤n)的HTTP Get请求,直到时间点2所有数据接收完毕,随后的非活跃OFF时间可理解为用户阅读时间,到时间点3发用户发送对下一页面的HTTP Get请求。
在实际开发中由于活跃OFF时间很短,结合现有web浏览器的开发,发明人采取了对内嵌URL用尽可能快的时间发送HTTP Get请求,这样活跃OFF是一个与客户端机器性能、网络延迟有关的随机数。对于非活跃OFF时间其服从Pareto分布,Pareto分布与公式1所描述的齐普夫??—曼德尔布罗分布拥有相同的偏离因子α。因此页面浏览时间分布可以按如下描述。
给定一个页面,其浏览时间为wi,则wi服从Pareto分布,其概率密度函数为:
     (公式 3)
其中k=Min{wi}(1≤i≤n)为最小浏览时间。
由公式3我们可以求得其累积概率函数:
Figure 2012105478576100002DEST_PATH_IMAGE009
      (公式 4)
这样我们就可以用反函数法生成服从Pareto分布的随机数,其方法为:
Figure 543430DEST_PATH_IMAGE010
           (公式5)
其中U为(0,1]范围内的服从均匀分布的随机数。
步骤107,在等待了一个由步骤106所确定的间隔时间之后,向网站发送新的HTTP Get请求,所请求页面为步骤105所确定。
步骤108,判断此次任务结束条件是否满足,若已达到退出条件,则本算法结束,否则转步骤105继续。
以上方法可以在多个线程上独立执行,互不影响,以达到最大化产生网络流量的目的。
图4-图7分别是按本方法所产生的网络流量图及反应网络流量自相似性的R/S图,可以看出其自相似因子H>0.5,因此本方法所产生网络流量具有极好的自相似性。

Claims (3)

1.基于用户行为分析的web用户流量产生方法,其特征在于,包括如下步骤:
1)对网站日志文件或tcpdump文件进行处理,建立Markov转移矩阵、Parto模型和ON/OFF模型;
2)根据步骤1)中的网站日志文件或tcpdump文件统计分析得出页面请求时间间隔、页面跳转关系和页面受欢迎程度;
3)将步骤2)的统计结果送入步骤1)中建立的各模型作为初始化参数;
4)根据齐普夫—曼德尔布罗分布确定所浏览网站的首页面;
5)根据步骤3)中送入初始化参数后的Markov转移矩阵确定下一个访问页面P;
6)根据送入初始化参数后的ON/OFF模型随机生成一个访问时间间隔;
7)发送HTTP Get请求步骤5)中的页面P;
8)判断任务是否结束,是则退出,否则转到步骤5)。
2.根据权利要求1所述基于用户行为分析的web用户流量产生方法,其特征在于:用户利用所述流量产生方法在同一个客户端上通过启用若干个线程来实现对相同或不同网站的访问。
3.根据权利要求1所述基于用户行为分析的web用户流量产生方法,其特征在于:步骤5)确定下一个访问页面P的步骤包括:①将网站日志文件中的浏览记录按IP地址进行聚合;②从聚合的网站日志文件中随机抽取N个用户的浏览记录构成学习数据集合U={u1,u2…uN};③利用该学习数据集合,采用极大似然估计估计出Markov转移矩阵中的所有参数,计算方法为:
Figure 2012105478576100001DEST_PATH_IMAGE002
      
式中:
Figure 2012105478576100001DEST_PATH_IMAGE004
表示在用户浏览序列中从网页i跳转到页面j的次数,
Figure 2012105478576100001DEST_PATH_IMAGE006
表示网页i转移到页面j的概率,
Figure 2012105478576100001DEST_PATH_IMAGE008
为Markov矩阵的初始状态分布;④根据用户现在所处页面及Markov矩阵预测用户下一个访问页面P。
CN2012105478576A 2012-12-17 2012-12-17 基于用户行为分析的web用户流量产生方法 Pending CN103001805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105478576A CN103001805A (zh) 2012-12-17 2012-12-17 基于用户行为分析的web用户流量产生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105478576A CN103001805A (zh) 2012-12-17 2012-12-17 基于用户行为分析的web用户流量产生方法

Publications (1)

Publication Number Publication Date
CN103001805A true CN103001805A (zh) 2013-03-27

Family

ID=47929964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105478576A Pending CN103001805A (zh) 2012-12-17 2012-12-17 基于用户行为分析的web用户流量产生方法

Country Status (1)

Country Link
CN (1) CN103001805A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737037A (zh) * 2011-04-07 2012-10-17 北京搜狗科技发展有限公司 一种网页预读取的方法、装置及一种浏览器
CN103441902A (zh) * 2013-09-03 2013-12-11 重庆邮电大学 基于流媒体用户行为分析的流量产生方法
CN103678492A (zh) * 2013-11-13 2014-03-26 复旦大学 基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法
CN103905439A (zh) * 2014-03-25 2014-07-02 重庆邮电大学 一种基于家庭网关的加速网页浏览方法
CN104217091A (zh) * 2013-06-05 2014-12-17 北京齐尔布莱特科技有限公司 一种基于历史走势权重的网站访问量预测方法
CN104270373A (zh) * 2014-10-11 2015-01-07 国家电网公司 一种基于时间特征的Web服务器匿名访问流量检测方法
CN104469805A (zh) * 2013-09-13 2015-03-25 同济大学 基于用户行为分析的即时通讯业务流量生成方法
CN104683144A (zh) * 2014-12-03 2015-06-03 北京邮电大学 一种基于马尔可夫模型的物联网设备依赖度评价方法
CN104954195A (zh) * 2015-04-22 2015-09-30 重庆邮电大学 一种基于多种网络数据业务的并发式流量发生系统
CN105873119A (zh) * 2016-05-26 2016-08-17 重庆大学 一种移动网络用户群体流量使用行为的分类方法
CN106130807A (zh) * 2016-08-31 2016-11-16 百势软件(北京)有限公司 一种Nginx日志的提取和分析方法及装置
CN106874337A (zh) * 2016-08-31 2017-06-20 阿里巴巴集团控股有限公司 流量引导关系的统计查询方法及装置
CN108268479A (zh) * 2016-12-30 2018-07-10 上海互联网软件集团有限公司 一种热点信息推送方法
CN109446038A (zh) * 2018-09-03 2019-03-08 平安普惠企业管理有限公司 页面访问时长的统计方法及终端设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729315A (zh) * 2009-12-24 2010-06-09 北京邮电大学 一种基于小波包分解和模糊神经网络的网络流量预测方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729315A (zh) * 2009-12-24 2010-06-09 北京邮电大学 一种基于小波包分解和模糊神经网络的网络流量预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘超慧: "基于Web-Log的网页预测模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2008, no. 10, 15 October 2008 (2008-10-15) *
张烁: "多模式网络流量生成技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2012, no. 02, 15 February 2012 (2012-02-15) *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737037A (zh) * 2011-04-07 2012-10-17 北京搜狗科技发展有限公司 一种网页预读取的方法、装置及一种浏览器
CN104217091B (zh) * 2013-06-05 2016-12-28 北京齐尔布莱特科技有限公司 一种基于历史走势权重的网站访问量预测方法
CN104217091A (zh) * 2013-06-05 2014-12-17 北京齐尔布莱特科技有限公司 一种基于历史走势权重的网站访问量预测方法
CN103441902A (zh) * 2013-09-03 2013-12-11 重庆邮电大学 基于流媒体用户行为分析的流量产生方法
CN103441902B (zh) * 2013-09-03 2016-05-11 重庆邮电大学 基于流媒体用户行为分析的流量产生方法
CN104469805A (zh) * 2013-09-13 2015-03-25 同济大学 基于用户行为分析的即时通讯业务流量生成方法
CN104469805B (zh) * 2013-09-13 2018-04-27 同济大学 基于用户行为分析的即时通讯业务流量生成方法
CN103678492A (zh) * 2013-11-13 2014-03-26 复旦大学 基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法
CN103678492B (zh) * 2013-11-13 2018-01-19 复旦大学 基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法
CN103905439A (zh) * 2014-03-25 2014-07-02 重庆邮电大学 一种基于家庭网关的加速网页浏览方法
CN104270373A (zh) * 2014-10-11 2015-01-07 国家电网公司 一种基于时间特征的Web服务器匿名访问流量检测方法
CN104270373B (zh) * 2014-10-11 2017-07-14 国家电网公司 一种基于时间特征的Web服务器匿名访问流量检测方法
CN104683144B (zh) * 2014-12-03 2018-01-09 北京邮电大学 一种基于马尔可夫模型的物联网设备依赖度评价方法
CN104683144A (zh) * 2014-12-03 2015-06-03 北京邮电大学 一种基于马尔可夫模型的物联网设备依赖度评价方法
CN104954195A (zh) * 2015-04-22 2015-09-30 重庆邮电大学 一种基于多种网络数据业务的并发式流量发生系统
CN104954195B (zh) * 2015-04-22 2018-04-27 重庆邮电大学 一种基于多种网络数据业务的并发式流量发生系统
CN105873119A (zh) * 2016-05-26 2016-08-17 重庆大学 一种移动网络用户群体流量使用行为的分类方法
CN106874337A (zh) * 2016-08-31 2017-06-20 阿里巴巴集团控股有限公司 流量引导关系的统计查询方法及装置
CN106130807A (zh) * 2016-08-31 2016-11-16 百势软件(北京)有限公司 一种Nginx日志的提取和分析方法及装置
CN108268479A (zh) * 2016-12-30 2018-07-10 上海互联网软件集团有限公司 一种热点信息推送方法
CN109446038A (zh) * 2018-09-03 2019-03-08 平安普惠企业管理有限公司 页面访问时长的统计方法及终端设备

Similar Documents

Publication Publication Date Title
CN103001805A (zh) 基于用户行为分析的web用户流量产生方法
US20210174391A1 (en) System and method of providing a platform for managing data content campaign on social networks
CN110462604A (zh) 基于设备使用关联互联网设备的数据处理系统和方法
CN103024017B (zh) 一种社交网络重要目标及社区群体识别方法
Yan et al. Big data driven wireless communications: A human-in-the-loop pushing technique for 5G systems
CN105447147B (zh) 一种数据处理方法及装置
Jun et al. Mining and modelling the dynamic patterns of service providers in cellular data network based on big data analysis
CN107590691B (zh) 一种信息发布方法及装置、存储介质、终端
Tang et al. Modeling and generating realistic streaming media server workloads
CN106487906B (zh) 一种情境感知的移动Web应用协议切换方法
CN111629052B (zh) 基于mec的内容缓存方法、节点、设备及存储介质
Maeng et al. Towards fair federated recommendation learning: Characterizing the inter-dependence of system and data heterogeneity
Wan et al. CAS based clustering algorithm for Web users
Niu et al. Multi-source-driven asynchronous diffusion model for video-sharing in online social networks
Bao et al. User behavior and user experience analysis for social network services
Liu et al. Request dependency graph: A model for web usage mining in large-scale web of things
CN103441902B (zh) 基于流媒体用户行为分析的流量产生方法
Du et al. Enabling AI-generated content services in wireless edge networks
Meiss et al. Agents, bookmarks and clicks: a topical model of web navigation
CN103093377A (zh) 一种广告投放方法和系统
CN107436940A (zh) 基于用户信息行为分析的web前端动态展示数据的方法
Xu et al. A novel model for user clicks identification based on hidden semi-Markov
Wang et al. Enhancing internet-scale video service deployment using microblog-based prediction
Yang et al. Cost-effective user monitoring for popularity prediction of online user-generated content
Li et al. Multimedia cloud content distribution based on interest discovery and integrated utility of user

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130327