CN107193744A - 一种基于日志的Web应用性能测试流量描述方法 - Google Patents

一种基于日志的Web应用性能测试流量描述方法 Download PDF

Info

Publication number
CN107193744A
CN107193744A CN201710380273.7A CN201710380273A CN107193744A CN 107193744 A CN107193744 A CN 107193744A CN 201710380273 A CN201710380273 A CN 201710380273A CN 107193744 A CN107193744 A CN 107193744A
Authority
CN
China
Prior art keywords
web application
daily record
user
performance test
application performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710380273.7A
Other languages
English (en)
Inventor
宋伟
张玉军
贺柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN201710380273.7A priority Critical patent/CN107193744A/zh
Publication of CN107193744A publication Critical patent/CN107193744A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于日志的Web应用性能测试流量描述方法,包括四个步骤:日志数据预处理步骤、用户行为模型构建步骤、用户类型分布信息提取步骤和时间分布特征提取步骤。本发明通过从后台日志中提取包括用户行为特征、用户类型分布特征和强度时间分布特征来共同描述Web应用流量,实现了对Web应用性能测试流量的真实的描述,满足了性能测试对测试流量真实性的需求。

Description

一种基于日志的Web应用性能测试流量描述方法
技术领域
本发明涉及Web应用性能测试领域,尤其涉及Web应用性能 测试流量的描述方法。
背景技术
随着互联网的发展,各种Web应用层出不穷,对人们的工作 和生活产生了深远的影响。Web应用系统基于互联网和面向用户大众 化的特性,导致其用户数量巨大,再加之其典型的B/S架构,使得其 面临着极大的性能挑战。Web应用性能测试是保障Web应用系统质量 的重要手段,就是在时间和空间资源有限的条件下,测试Web应用的 性能表现是否与预期目标一致,判断系统是否存在性能缺陷,通过测 试结果数据查找性能瓶颈,改善优化系统性能的过程。
Web应用流量描述是Web应用性能测试的基础,对测试流量 真实的描述直接决定了Web应用性能测试的成败。对于Web应用流量 描述方法的研究重点集中在如何真实的刻画Web应用系统的流量特 征,来形成有效的性能测试流量。
Web应用流量描述就是描述真实用户与Web应用交互时所具 有的行为特征。用户行为特征包括:浏览路径、请求依赖关系、思考 时间等,对于不同的测试需求需要有针对性的选择具体的用户行为特 征作为描述内容。目前常见的流量描述方法主要有:
URL序列,利用一系列的请求列表来描述流量,最为常见的 应用是录制回放技术,通过记录用户在浏览器端的行为来描述其特征, 方法存在简单直观的优点,但存在脚本可重用性差,路径覆盖不全面, 导致测试的真实性差,有效性低等缺点。
UML模型,在Web应用流量描述中可以利用该模型来对用户 和应用的交互行为进行详细描述,该模型使用前提是具有完善的UML 软件设计文档和规范,具有较大的局限性,基于UML模型的存在通用 性差、抽象性差的缺点,不能描述业务类型复杂的Web应用流量。
Markov模型,马尔科夫链被应用于物理学、统计学、生物 学等领域,在计算机领域应用更加广泛,存在多种变种用于对Web应 用性能测试,是一种统计模型,但构建时有些复杂。
Graph模型,利用图模型来对Web应用流量进行描述,图的 结构多样灵活,对于复杂的应用,多变的功能可以灵活应对,但同样 存在构建、数据获取的困难。
上述方法和模型都存在不同程度的缺陷和不足,其中最主要 的是模型自身描述的流量特征和模型数据获取的不足导致的流量真 实性差的问题,对于Web应用流量描述的关键在于模型的选取和模型 数据的获取。
发明内容
本发明的目的在于克服现有方法的缺陷,提供一种基于日志 的Web应用性能测试流量描述方法,实现对Web应用性能测试流量进 行真实的描述,以满足性能测试对测试流量真实性的需求。
本发明提供了一种基于日志的Web应用性能测试流量描述 方法,包括以下步骤:日志数据预处理步骤、用户行为模型构建步骤、 用户类型分布信息提取步骤、时间分布特征提取步骤。
日志数据预处理步骤具体为:
第一步,过滤掉对session提取无用的脏数据,包括缺失、 error和包含页面内嵌对象;
第二步,对剩下的记录进行结构化并匹配动作,生成结构化 记录,包括标志、类型、时间。
用户行为模型构建步骤具体为:
第一步,对Web应用的业务逻辑进行分析,对页面进行分类, 按照功能特征将相似功能页面划分为一个动作,定义应用动作;
第二步,对预处理后的格式化的记录进行顺序处理,识别属 于同一session的记录;
第三步,对session进行聚类,从session中提取k个用户 行为模型,所述k个用户行为模型即k类用户,不同类用户有不同的 行为特征,k根据用户需要进行自定义。
用户类型分布信息提取步骤具体为:从日志中提取各类用户 的数目,计算各类比例,得到类型分布特征。
时间分布特征提取步骤具体为:
第一步,从日志信息中提取Web应用流量随时间变化的特征;
第二步,将时间分成N个段,统计各段的并发用户数,N根 据用户需要进行自定义;
第三步,获取整个时间过程的流量强度分布特征。
本发明的有益效果是本发明通过从日志中提取流量特征,包 括用户行为特征、用户类型分布特征和强度时间分布特征来共同描述 Web应用流量,克服了对模型自身描述的流量特征和模型数据获取的 不足导致的流量真实性差的问题,使得流量具有典型性和高度真实性, 满足了Web应用性能测试对真实性的需求。
附图说明
图1基于日志的Web应用性能测试流量描述方法的实现步骤。
具体实施方式
具体实施方式一:结合图1“基于日志的Web应用性能测试流量描述方 法的实现步骤”来说明,本实施方式所述的一种基于日志的Web应用性能测试流 量描述方法,包括以下步骤:日志数据预处理步骤、用户行为模型构建步骤、用 户类型分布信息提取步骤、时间分布特征提取步骤。
具体实施方式二:本实施方式是对具体实施方式一的进一步 限定,所述的日志数据预处理步骤具体为:
第一步,过滤掉对session提取无用的脏数据,包括缺失、 error和包含页面内嵌对象;
第二步,对剩下的记录进行结构化并匹配动作,生成结构化 记录,包括标志、类型、时间。
具体实施方式三:本实施方式是对具体实施方式二的进一步 限定,所述的用户行为模型构建步骤具体为:
第一步,对Web应用的业务逻辑进行分析,对页面进行分类, 按照功能特征将相似功能页面划分为一个动作,定义应用动作;
第二步,对预处理后的格式化的记录进行顺序处理,识别属 于同一session的记录;
第三步,对session进行聚类,从session中提取k个用户 行为模型,所述k个用户行为模型即k类用户,不同类用户有不同的 行为特征,k根据用户需要进行自定义。
具体实施方式四:本实施方式是对具体实施方式三的进一步 限定,所述的用户类型分布信息提取步骤具体为:从日志中提取各类 用户的数目,计算各类比例,得到类型分布特征。
具体实施方式五:本实施方式是对具体实施方式四的进一步 限定,所述的时间分布特征提取步骤具体为:
第一步,从日志信息中提取Web应用流量随时间变化的特征;
第二步,将时间分成N个段,统计各段的并发用户数,N根 据用户需要进行自定义;
第三步,获取整个时间过程的流量强度分布特征。
以上所述,仅为本发明的具体实施方式,本发明的保护范围 并不局限于此,对于本领域普通技术人员来说,可以根据上述说明不 加创造性地进行改进或变换,而所有这些改进和变换都应属于本发明 所附权利要求的保护范围。

Claims (5)

1.一种基于日志的Web应用性能测试流量描述方法,其特征在于,所述方法包括以下步骤:日志数据预处理步骤、用户行为模型构建步骤、用户类型分布信息提取步骤、时间分布特征提取步骤。
2.如权利要求1所述的一种基于日志的Web应用性能测试流量描述方法,其特征在于,所述的日志数据预处理步骤为:
第一步,过滤掉对session提取无用的脏数据,包括缺失、error和包含页面内嵌对象;
第二步,对剩下的记录进行结构化并匹配动作,生成结构化记录,包括标志、类型、时间。
3.如权利要求2所述的一种基于日志的Web应用性能测试流量描述方法,其特征在于,所述的用户行为模型构建步骤为:
第一步,对Web应用的业务逻辑进行分析,对页面进行分类,按照功能特征将相似功能页面划分为一个动作,定义应用动作;
第二步,对预处理后的格式化的记录进行顺序处理,识别属于同一session的记录;
第三步,对session进行聚类,从session中提取k个用户行为模型,所述k个用户行为模型即k类用户,不同类用户有不同的行为特征,k根据用户需要进行自定义。
4.如权利要求3所述的一种基于日志的Web应用性能测试流量描述方法,其特征在于,所述的用户类型分布信息提取步骤为:从日志中提取各类用户的数目,计算各类比例,得到类型分布特征。
5.如权利要求4所述的一种基于日志的Web应用性能测试流量描述方法,其特征在于,所述的时间分布特征提取步骤为:
第一步,从日志信息中提取Web应用流量随时间变化的特征;
第二步,将时间分成N个段,统计各段的并发用户数,N根据用户需要进行自定义;
第三步,获取整个时间过程的流量强度分布特征。
CN201710380273.7A 2017-05-25 2017-05-25 一种基于日志的Web应用性能测试流量描述方法 Pending CN107193744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710380273.7A CN107193744A (zh) 2017-05-25 2017-05-25 一种基于日志的Web应用性能测试流量描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710380273.7A CN107193744A (zh) 2017-05-25 2017-05-25 一种基于日志的Web应用性能测试流量描述方法

Publications (1)

Publication Number Publication Date
CN107193744A true CN107193744A (zh) 2017-09-22

Family

ID=59875503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710380273.7A Pending CN107193744A (zh) 2017-05-25 2017-05-25 一种基于日志的Web应用性能测试流量描述方法

Country Status (1)

Country Link
CN (1) CN107193744A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951348A (zh) * 2017-12-21 2019-06-28 北京奇虎科技有限公司 一种验证应用流量的质量的方法、装置及电子设备
WO2021047575A1 (zh) * 2019-09-12 2021-03-18 阿里巴巴集团控股有限公司 负载测试方法、装置、电子设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158365A (zh) * 2011-05-20 2011-08-17 北京邮电大学 一种网络日志挖掘中的用户聚类方法及系统
CN103092751A (zh) * 2012-12-13 2013-05-08 华中科技大学 一种云环境下基于用户行为模型的web应用性能测试系统
CN105069087A (zh) * 2015-08-03 2015-11-18 成都康赛信息技术有限公司 基于Web日志数据挖掘的网站优化方法
CN106021079A (zh) * 2016-05-06 2016-10-12 华南理工大学 一种基于用户频繁访问序列模型的Web应用性能测试方法
CN106210044A (zh) * 2016-07-11 2016-12-07 焦点科技股份有限公司 一种基于访问行为的活跃用户识别方法
CN106446228A (zh) * 2016-10-08 2017-02-22 中国工商银行股份有限公司 一种web页面数据的采集分析方法及装置
CN106776246A (zh) * 2016-11-22 2017-05-31 北京奇虎科技有限公司 一种云平台的性能评价方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158365A (zh) * 2011-05-20 2011-08-17 北京邮电大学 一种网络日志挖掘中的用户聚类方法及系统
CN103092751A (zh) * 2012-12-13 2013-05-08 华中科技大学 一种云环境下基于用户行为模型的web应用性能测试系统
CN105069087A (zh) * 2015-08-03 2015-11-18 成都康赛信息技术有限公司 基于Web日志数据挖掘的网站优化方法
CN106021079A (zh) * 2016-05-06 2016-10-12 华南理工大学 一种基于用户频繁访问序列模型的Web应用性能测试方法
CN106210044A (zh) * 2016-07-11 2016-12-07 焦点科技股份有限公司 一种基于访问行为的活跃用户识别方法
CN106446228A (zh) * 2016-10-08 2017-02-22 中国工商银行股份有限公司 一种web页面数据的采集分析方法及装置
CN106776246A (zh) * 2016-11-22 2017-05-31 北京奇虎科技有限公司 一种云平台的性能评价方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951348A (zh) * 2017-12-21 2019-06-28 北京奇虎科技有限公司 一种验证应用流量的质量的方法、装置及电子设备
WO2021047575A1 (zh) * 2019-09-12 2021-03-18 阿里巴巴集团控股有限公司 负载测试方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN101409690A (zh) 一种互联网用户行为的获取方法和系统
CN101534306A (zh) 一种钓鱼网站的检测方法及装置
CN102761628B (zh) 泛域名识别、处理装置及方法
CN104077415A (zh) 搜索方法及装置
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN104899219A (zh) 伪静态url的筛除方法、系统及网页爬取方法、系统
CN104063475B (zh) 用户自定义列表处理方法和装置
CN104765746A (zh) 用于移动通讯终端浏览器的数据处理方法和装置
CN105824965A (zh) 基于动态爬虫技术的数据源发现方法
CN107193744A (zh) 一种基于日志的Web应用性能测试流量描述方法
CN104268289A (zh) 链接url的失效检测方法和装置
CN101719124A (zh) 基于正则匹配的无限层次多路径采集系统
CN104580109B (zh) 生成点选验证码的方法及装置
CN101470752A (zh) 基于关键词解析调度的搜索引擎方法
Upadhyay et al. Web usage mining has pattern discovery
CN104363309B (zh) 泛域名识别、处理装置及方法
Shaikh Web Usage Mining Using Apriori and FP Growth Alogrithm
Zhao et al. Study and implementation of user behaviour analysis
Andersson Mainstream coverage of alternative media
Lei Modeling and intelligent analysis of web user behavior of web user behavior
Xu et al. The study of content security for mobile internet
Wang et al. Inferring Missing Attributes of Users in Large-Scale Social networks
Tao Dynamic web page graphic design method for internet big data information system
Zhang Practical Thinking on Neural Network Phishing Website Detection Research Based on Decision Tree and Optimal Feature Selection
Janowicz Trust and provenance you cant have one without the other

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922