CN111460004A - 一种融合用户行为及Web页面依赖关系的数据挖掘方法 - Google Patents
一种融合用户行为及Web页面依赖关系的数据挖掘方法 Download PDFInfo
- Publication number
- CN111460004A CN111460004A CN202010262268.8A CN202010262268A CN111460004A CN 111460004 A CN111460004 A CN 111460004A CN 202010262268 A CN202010262268 A CN 202010262268A CN 111460004 A CN111460004 A CN 111460004A
- Authority
- CN
- China
- Prior art keywords
- page
- user
- pages
- access information
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000007418 data mining Methods 0.000 title claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000003993 interaction Effects 0.000 claims description 13
- 241000287196 Asthenes Species 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010367 cloning Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合用户行为及Web页面依赖关系的数据挖掘方法,包括有将用户会话数据进行去除后缀的预处理,然后对用户行为数据分别进行页面执行顺序判断和互用访问信息判断处理,最后选取出同时满足页面执行顺序和访问信息互用的用户行为数据,并生成测试用例。该测试用例扩充至Web应用中,从而划分访问序列,达到提高日志挖掘的效率。
Description
技术领域
本发明涉及网络页面的数据挖掘,更特别地说,是指一种从Web应用的访问日志(access log)中提取测试用例(test case)需要的访问流程和访问数据的挖掘方法,是一种融合多个用户(user)的用户行为(user behavior)及Web页面依赖关系的数据挖掘(datamining)方法。
背景技术
什么是数据挖掘(data mining),简单地说,数据挖掘是从大量数据中提取或“挖掘”知识,数据挖掘是信息技术自然演化的结果。演化过程的见证是数据作业界开发数据收集和数据库创建、数据管理以及数据分析与理解。例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和检索、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统广泛付诸实践,数据分析和理解自然成为下一个目标。
Web页面(web page)是指按照HTML格式组织起来的文件,以信息的形式出现,它可包括图形、文字、声音和/或视频等信息。
和传统的计算机系统相比,Web系统具有大规模、异构、分布、并发和平台无关的特性,使得对Web应用的测试要比传统程序的测试更加困难,对测试用例扩充方法也提出了新的挑战。与此同时,通过对Web系统运行过程和运行结果的分析往往能获得额外的信息,比如会话信息、页面的迁移信息、日志信息等。充分利用这些信息,可以发现访问者的使用方式以及系统中可能存在的问题,从而为进一步开展有针对性的测试提供了有价值的参考。
Web应用在运行过程中会接收到用户的访问从而产生大量的访问日志,日志中携带的数据具有真实、有效、数量多等特征。相比于刻意构造的访问,真实的访问能够反映用户的访问习惯特征,其访问流程和访问数据对于测试而言往往有更高的可用性和有效性。例如当用户访问购物网站时首先会输入用户名和密码登录网站,然后选择商品,最后付款。整个访问流程对于购物这一用户需求而言是有效的、可达的。Web应用的用户往往很多,在运行过程中能够收集到大量用户的访问流程和访问数据,这些信息为测试提供了原始材料。但与此同时由于数据量太大,如何进行信息筛选成为测试人员需要解决的问题。
发明内容
本发明提出的一种从Web应用的访问日志中提取测试需要的访问流程和访问数据的挖掘方法,该方法所要解决的是如何按照日志格式对日志内容进行解析;并提高日志挖掘的效率。
本发明的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于包括有下列步骤:
步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;
在访问时间里,收集页面集MP={page1,page2,…,pagea,…,pageb,…,pageA}中每个页面被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了用户-会话数据集合,记为MUS,且
步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;
在本发明中,后缀是指包含有gif、jpg、jpeg、GIF、JPG或者JPEG的页面文件。
步骤三,采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系;然后执行步骤五;
步骤301,构建一个空的先后执行顺序关系集CRR;
若为同一用户访问的不同页面,因为是一个用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中;
若为不同用户访问的同一页面,因为同一页面不作页面先后执行顺序比较,不记录到先后执行顺序关系集CRR中。
步骤四,采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系,然后执行步骤五;
步骤401,构建一个空的访问信息互用关系集DRR;
访问信息互用关系集DRR用于记录访问时间里、用户使用相同访问信息浏览不同页面产生的日志。
若访问的不同页面不存在访问信息互用,定义为不存在互用访问信息,不记录到访问信息互用关系集DRR中。
步骤五,用户行为数据最小集的获取;
本发明的一种融合用户行为及Web页面依赖关系的数据挖掘方法的优点在于:
①本发明数据挖掘方法通过分析用户会话的特定,定义出用户访问页面的用户行为,并提出方法获得用户行为数据。
②本发明数据挖掘方法通过分析用户会话的特点,定义出用户会话之间的控制依赖关系,如页面执行顺序关系、访问信息互用关系,以及对页面执行顺序和访问信息互用的结合,减少了测试用例出现的信息重叠,提高了数据作业界开发数据收集和数据库创建、数据管理以及数据分析。
③本发明数据挖掘方法利用集合之间存在的包含关系,挖掘出用户会话数据的最小集。
④本发明数据挖掘方法从Web应用的访问日志中提取测试需要的访问流程和访问数据,通过按照日志格式对日志内容进行解析,划分访问序列,从而提高日志挖掘的效率。
附图说明
图1是本发明融合用户行为及Web页面依赖关系的数据挖掘方法流程图。
具体实施方式
下面将结合实施例对本发明做进一步的详细说明。
在本发明中,将Web应用的访问日志(access log)进行访问信息的提取与分析。该访问日志(access log)通常指用户(user)打开浏览器(browser),访问某Web应用的页面(page)直到关闭浏览器退出Web应用的过程(也称为访问时间)。对于日志(log)的提取、克隆Web应用的访问日志到本地,创建一个本地的代码库,然后对日志进行提取。
本发明技术解决问题是:从Web应用的访问日志中提取测试需要的访问流程和访问信息,从而扩充Web应用测试用例。
Web应用中往往包含了多个页面(page),这些页面不是孤立存在的,有些页面的访问满足一定的数据输入条件,有些页面的访问需要依赖某些页面,这说明Web页面间存在联系。
在本发明中,多个用户(user)采用集合形式表示为US,即用户集US={user1,user2,…,userx,…,usery,…,userX};user1表示第一个用户;user2表示第二个用户;userx表示任意用户,下角标x表示用户标识号,x∈X;usery表示另一任意用户,y∈X;且userx与usery表示用户集US中的不同用户;userX表示最后一个用户,下角标X表示总用户数。
在本发明中,Web应用中往往包含了多个页面(page),Web应用中的多个页面采用集合形式表示为MP,即页面集MP={page1,page2,…,pagea,…,pageb,…,pageA};page1表示Web应用中的第一个页面;page2表示Web应用中的第二个页面;pagea表示Web应用中的任意页面;下角标a为页面标识号,a∈A;pageb表示Web应用中的另一任意页面,b∈A;且pagea与pageb表示Web应用页面集MP中的不同页面;pageA表示Web应用中的最后一个页面;下角标A为总页面数。
本发明的一种从Web应用的访问日志中提取测试用例(test case),并将所述测试用例作为下一次需要的访问流程和访问信息的挖掘方法,其处理步骤有:
步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;
步骤101,收集第一个页面page1被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于page1的用户会话数据集合,记为page1_US,且
步骤102,收集第二个页面page2被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于page2的用户会话数据集合,记为page2_US,且
步骤103,收集任意页面pagea被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于pagea的用户会话数据集合,记为pagea_US,且
步骤104,收集另一任意页面pageb被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于pageb的用户会话数据集合,记为pageb_US,且
步骤105,收集最后一个页面pageA被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于pageA的用户会话数据集合,记为pageA_US,且
步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;
在本发明中,后缀是指包含有gif、jpg、jpeg、GIF、JPG或者JPEG的页面文件。
步骤三,采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系;然后执行步骤五;
在本发明中,页面的先后执行顺序是不同用户访问的两个页面之间进行的,一个页面的访问时间在另一个页面之前。同一用户访问的两个页面不比较,不记录到先后执行顺序关系集CRR中。不同用户访问的同一页面不比较,不记录到先后执行顺序关系集CRR中。
在本发明中,相同页面和相同用户作比较时,赋值为0,且不记录到先后执行顺序关系集CRR中。
步骤301,构建一个空的先后执行顺序关系集CRR;
在本发明中,先后执行顺序关系集CRR用于记录访问时间里的日志中页面之间存在的先后执行顺序。
若存在有页面先后执行顺序,记为则将所述添加到先后执行顺序关系集CRR中,则加入所述CRR记录的元素表示为即用户userx访问页面pagea的访问时间位于用户usery访问页面pageb的访问时间之前,这说明与中存在有页面先后执行顺序,形式表达为
若为同一用户访问的不同页面,因为是一个用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中;
若为不同用户访问的同一页面,因为同一页面不作页面先后执行顺序比较,不记录到先后执行顺序关系集CRR中。
为了详细说明添加到先后执行顺序关系集CRR中的各个元素,下面以举例形式进行列举:
若存在有页面先后执行顺序,则将所述页面先后执行顺序添加到先后执行顺序关系集CRR中;
若为同一用户访问的不同页面,因为是一个用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中;
若为不同用户访问的同一页面,因为同一页面不作页面先后执行顺序比较,不记录到先后执行顺序关系集CRR中。
(B)例如,与为不同用户(即user1与user2)访问的不同页面(即page1与page2);若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(C)例如,与为不同用户(即user1与userx)访问的不同页面(即page1与page2);若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(D)例如,与为不同用户(即user1与usery)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(E)例如,与为不同用户(即user1与userX)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(A)例如,与为不同用户(即user2与user1)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在有页面先后执行顺序,放弃记录。
(C)例如,与为不同用户(即user2与userx)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(D)例如,与为不同用户(即user2与usery)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(E)例如,与为不同用户(即user2与userX)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(A)例如,与为不同用户(即userx与user1)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在有页面先后执行顺序,放弃记录。
(B)例如,与为不同用户(即userx与user2)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(D)例如,与为不同用户(即userx与usery)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(E)例如,与为不同用户(即userx与userX)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(A)例如,与为不同用户(即usery与user1)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(B)例如,与为不同用户(即usery与user2)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(C)例如,与为不同用户(即usery与userx)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(E)例如,与为不同用户(即usery与userX)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(A)例如,与为不同用户(即usery与user1)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(B)例如,与为不同用户(即usery与user2)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(C)例如,与为不同用户(即usery与userx)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
(D)例如,与为不同用户(即userX与usery)访问的不同页面(即page1与page2),若与存在有页面先后执行顺序,即则将所述加入到先后执行顺序关系集CRR中表示为若与不存在页面先后执行顺序,放弃记录。
步骤四,采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系,然后执行步骤五;
在本发明中,同一用户应用相同访问信息访问相同页面或者不同页面时,赋值为0,且不记录到访问信息互用关系集DRR中。
步骤401,构建一个空的访问信息互用关系集DRR;
在本发明中,访问信息互用关系集DRR用于记录访问时间里、用户使用相同访问信息浏览不同页面产生的日志。
若存在有相同访问信息,记为则将所述添加到访问信息互用关系集DRR中,则加入所述DRR记录的元素表示为即与中存在着用相同的访问信息对页面pagea和页面pageb进行访问,因此与中有访问信息互用的关系。
若访问的不同页面不存在访问信息互用,定义为不存在互用访问信息,不记录到访问信息互用关系集DRR中。
为了详细说明添加到访问信息互用关系集DRR中的各个元素,下面以举例形式进行列举:
若访问的不同页面存在有访问信息互用,则将所述互用访问信息关系添加到访问信息互用关系集DRR中;
若访问的不同页面不存在访问信息互用,不记录到访问信息互用关系集DRR中。
(B)例如,与为不同用户(即user1与user2)访问的不同页面(即page1与page2);若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(C)例如,与为不同用户(即user1与userx)访问的不同页面(即page1与page2);若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(D)例如,与为不同用户(即user1与usery)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(E)例如,与为不同用户(即user1与userX)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的访问信息互用,放弃记录。
(A)例如,与为不同用户(即user2与user1)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在有页面的互用访问信息,放弃记录。
(C)例如,与为不同用户(即user2与userx)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(D)例如,与为不同用户(即user2与usery)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(E)例如,与为不同用户(即user2与userX)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(A)例如,与为不同用户(即userx与user1)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在有页面的互用访问信息,放弃记录。
(B)例如,与为不同用户(即userx与user2)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(D)例如,与为不同用户(即userx与usery)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(E)例如,与为不同用户(即userx与userX)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(A)例如,与为不同用户(即usery与user1)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(B)例如,与为不同用户(即usery与user2)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(C)例如,与为不同用户(即usery与userx)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(E)例如,与为不同用户(即usery与userX)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(A)例如,与为不同用户(即usery与user1)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(B)例如,与为不同用户(即usery与user2)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(C)例如,与为不同用户(即usery与userx)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
(D)例如,与为不同用户(即userX与usery)访问的不同页面(即page1与page2),若与存在有页面的互用访问信息,即则将所述加入到访问信息互用关系集DRR中表示为若与不存在页面的互用访问信息,放弃记录。
步骤五,用户行为数据最小集的获取;
步骤503,从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面,并生成测试用例集UU;所述测试用例集UU将作为数据库的部分内容,用于实现数据挖掘。所述测试用例集UU记录的元素表示为
实施例1
步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;
步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;
步骤三,采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系;然后执行步骤五;
步骤301,构建一个空的先后执行顺序关系集CRR;
步骤302,比较用户行为数据中的页面是否存在页面先后执行顺序;
对访问日志的分析得到存在有页面先后执行顺序的是:
步骤四,采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系,然后执行步骤五;
步骤401,构建一个空的访问信息互用关系集DRR;
步骤五,用户行为数据最小集的获取;
步骤503,从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面,并生成测试用例集UU;所述测试用例集UU将作为数据库的部分内容,用于实现数据挖掘。
本发明提出的一种融合用户行为及Web页面依赖关系的数据挖掘方法,通过对用户会话数据的预处理,得到用户行为数据。然后采用页面控制依赖关系和访问信息互用关系分别对用户行为数据的处理,并以用户会话之间的顺序-互用数据依赖关系生成测试用例。测试用例将作为数据库的部分内容,用于实现数据挖掘。
Claims (7)
1.一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于包括有下列步骤:
步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;
在访问时间里,收集页面集MP={page1,page2,…,pagea,…,pageb,…,pageA}中每个页面被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了用户-会话数据集合,记为MUS,且
所述用户集US={user1,user2,…,userx,…,usery,…,userX}中;
user1表示第一个用户;
user2表示第二个用户;
userx表示任意用户,下角标x表示用户标识号,x∈X;usery表示另一任意用户,y∈X;且userx与usery表示用户集US中的不同用户;
userX表示最后一个用户,下角标X表示总用户数。
所述页面集MP={page1,page2,…,pagea,…,pageb,…,pageA}中;
page1表示Web应用中的第一个页面;
page2表示Web应用中的第二个页面;
pagea表示Web应用中的任意页面;下角标a为页面标识号,a∈A;pageb表示Web应用中的另一任意页面,b∈A;且pagea与pageb表示Web应用页面集MP中的不同页面;
pageA表示Web应用中的最后一个页面;下角标A为总页面数。
page1_US表示多个用户访问第一页面page1形成的用户会话数据;
page2_US表示多个用户访问第二页面page2形成的用户会话数据;
pagea_US表示多个用户访问任意页面pagea形成的用户会话数据;
pageb_US表示多个用户访问另一任意页面pageb形成的用户会话数据;
pageA_US表示多个用户访问最好一页面pageA形成的用户会话数据;
步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;
在本发明中,后缀是指包含有gif、jpg、jpeg、GIF、JPG或者JPEG的页面文件。
步骤三,采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系;然后执行步骤五;
步骤301,构建一个空的先后执行顺序关系集CRR;
若为同一用户访问的不同页面,因为是一个用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中;
若为不同用户访问的同一页面,因为同一页面不作页面先后执行顺序比较,不记录到先后执行顺序关系集CRR中。
步骤四,采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系,然后执行步骤五;
步骤401,构建一个空的访问信息互用关系集DRR;
访问信息互用关系集DRR用于记录访问时间里、用户使用相同访问信息浏览不同页面产生的日志。
若访问的不同页面不存在访问信息互用,定义为不存在互用访问信息,不记录到访问信息互用关系集DRR中。
步骤五,用户行为数据最小集的获取;
2.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤三中,页面的先后执行顺序是不同用户访问的两个页面之间进行的。
3.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤三中,同一用户访问的两个页面不比较,不记录入先后执行顺序关系集CRR中。
4.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤三中,不同用户访问的同一页面不比较,不记录入先后执行顺序关系集CRR中。
5.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤三中,相同页面和相同用户作比较时,不记录到先后执行顺序关系集CRR中。
6.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤四中,同一用户应用相同访问信息访问相同页面或者不同页面时,赋值为0,且不记录到访问信息互用关系集DRR中。
7.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:生成的测试用例集UU补充到数据作业界开发数据收集和数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010262268.8A CN111460004B (zh) | 2020-04-06 | 2020-04-06 | 一种融合用户行为及Web页面依赖关系的数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010262268.8A CN111460004B (zh) | 2020-04-06 | 2020-04-06 | 一种融合用户行为及Web页面依赖关系的数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460004A true CN111460004A (zh) | 2020-07-28 |
CN111460004B CN111460004B (zh) | 2023-04-14 |
Family
ID=71681627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010262268.8A Active CN111460004B (zh) | 2020-04-06 | 2020-04-06 | 一种融合用户行为及Web页面依赖关系的数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460004B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393849A (zh) * | 2011-07-18 | 2012-03-28 | 电子科技大学 | 一种Web日志数据的预处理方法 |
CN102446222A (zh) * | 2011-12-22 | 2012-05-09 | 华为技术有限公司 | 一种网页内容预加载方法、装置及系统 |
CN103139258A (zh) * | 2011-11-30 | 2013-06-05 | 百度在线网络技术(北京)有限公司 | 一种处理移动终端的页面访问请求的方法、设备与系统 |
WO2014182055A1 (ko) * | 2013-05-07 | 2014-11-13 | 주식회사 시맨틱렙홀딩스 | 객체정보 제공 시스템 및 방법 |
CN105721427A (zh) * | 2016-01-14 | 2016-06-29 | 湖南大学 | 一种从Web日志中挖掘攻击频繁序列模式的方法 |
CN106021079A (zh) * | 2016-05-06 | 2016-10-12 | 华南理工大学 | 一种基于用户频繁访问序列模型的Web应用性能测试方法 |
CN106202251A (zh) * | 2016-06-29 | 2016-12-07 | 泰华智慧产业集团股份有限公司 | 一种基于用户访问的关联页面挖掘方法及系统 |
CN110874325A (zh) * | 2019-10-31 | 2020-03-10 | 北方工业大学 | 一种基于用户会话的Web应用测试用例扩充方法 |
-
2020
- 2020-04-06 CN CN202010262268.8A patent/CN111460004B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393849A (zh) * | 2011-07-18 | 2012-03-28 | 电子科技大学 | 一种Web日志数据的预处理方法 |
CN103139258A (zh) * | 2011-11-30 | 2013-06-05 | 百度在线网络技术(北京)有限公司 | 一种处理移动终端的页面访问请求的方法、设备与系统 |
CN102446222A (zh) * | 2011-12-22 | 2012-05-09 | 华为技术有限公司 | 一种网页内容预加载方法、装置及系统 |
WO2014182055A1 (ko) * | 2013-05-07 | 2014-11-13 | 주식회사 시맨틱렙홀딩스 | 객체정보 제공 시스템 및 방법 |
CN105721427A (zh) * | 2016-01-14 | 2016-06-29 | 湖南大学 | 一种从Web日志中挖掘攻击频繁序列模式的方法 |
CN106021079A (zh) * | 2016-05-06 | 2016-10-12 | 华南理工大学 | 一种基于用户频繁访问序列模型的Web应用性能测试方法 |
CN106202251A (zh) * | 2016-06-29 | 2016-12-07 | 泰华智慧产业集团股份有限公司 | 一种基于用户访问的关联页面挖掘方法及系统 |
CN110874325A (zh) * | 2019-10-31 | 2020-03-10 | 北方工业大学 | 一种基于用户会话的Web应用测试用例扩充方法 |
Non-Patent Citations (2)
Title |
---|
IGOR CADEZ ET AL.: "Model-Based Clustering and Visualization of Navigation Patterns on a Web Site" * |
崔慧超: "Web资源质量信息提取与管理技术的研究与实现" * |
Also Published As
Publication number | Publication date |
---|---|
CN111460004B (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Leno et al. | Robotic process mining: vision and challenges | |
Assunção et al. | Feature location for software product line migration: a mapping study | |
CN109766438A (zh) | 简历信息提取方法、装置、计算机设备和存储介质 | |
Fabbri et al. | Managing Literature Reviews Information through Visualization. | |
Villanes et al. | What are software engineers asking about android testing on stack overflow? | |
CN113076538B (zh) | 一种移动应用apk文件内嵌隐私政策提取方法 | |
Norton | Knowledge discovery in databases | |
Chi et al. | Developing base domain ontology from a reference collection to aid information retrieval | |
Karnalim et al. | Layered similarity detection for programming plagiarism and collusion on weekly assessments | |
US20010025277A1 (en) | Categorisation of data entities | |
CN111460004B (zh) | 一种融合用户行为及Web页面依赖关系的数据挖掘方法 | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
Cantrell et al. | Implementing the automated phases of the partially-automated digital triage process model | |
KR20100090178A (ko) | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 | |
KR100862565B1 (ko) | 사용자 맞춤형 특허정보 데이터베이스 구축시스템 | |
Su et al. | Harvesting information from a library data warehouse | |
Wang et al. | Evaluating student learning effect based on process mining | |
KR20210153912A (ko) | 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법 | |
Ceddia et al. | WAT: a tool for classifying learning activities from a log file | |
CN115203057B (zh) | 低代码测试自动化方法、装置、设备及存储介质 | |
Sidana et al. | Review of web usage of data mining in web mining. | |
Börner et al. | Replicable Science of Science Studies | |
Bianco et al. | Software tool for thematic evolution analysis of scientific publications in spanish | |
JP2010250567A (ja) | 環境情報集計分析システム | |
JP2003058559A (ja) | 文書分類方法、検索方法、分類システム及び検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |