CN111460004A

CN111460004A - 一种融合用户行为及Web页面依赖关系的数据挖掘方法

Info

Publication number: CN111460004A
Application number: CN202010262268.8A
Authority: CN
Inventors: 杨波; 卫新洁; 吴际
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2020-04-06
Filing date: 2020-04-06
Publication date: 2020-07-28
Anticipated expiration: 2040-04-06
Also published as: CN111460004B

Abstract

本发明公开了一种融合用户行为及Web页面依赖关系的数据挖掘方法，包括有将用户会话数据进行去除后缀的预处理，然后对用户行为数据分别进行页面执行顺序判断和互用访问信息判断处理，最后选取出同时满足页面执行顺序和访问信息互用的用户行为数据，并生成测试用例。该测试用例扩充至Web应用中，从而划分访问序列，达到提高日志挖掘的效率。

Description

一种融合用户行为及Web页面依赖关系的数据挖掘方法

技术领域

本发明涉及网络页面的数据挖掘，更特别地说，是指一种从Web应用的访问日志(access log)中提取测试用例(test case)需要的访问流程和访问数据的挖掘方法，是一种融合多个用户(user)的用户行为(user behavior)及Web页面依赖关系的数据挖掘(datamining)方法。

背景技术

什么是数据挖掘(data mining)，简单地说，数据挖掘是从大量数据中提取或“挖掘”知识，数据挖掘是信息技术自然演化的结果。演化过程的见证是数据作业界开发数据收集和数据库创建、数据管理以及数据分析与理解。例如，数据收集和数据库创建机制的早期开发已成为稍后数据存储和检索、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统广泛付诸实践，数据分析和理解自然成为下一个目标。

Web页面(web page)是指按照HTML格式组织起来的文件，以信息的形式出现，它可包括图形、文字、声音和/或视频等信息。

和传统的计算机系统相比，Web系统具有大规模、异构、分布、并发和平台无关的特性，使得对Web应用的测试要比传统程序的测试更加困难，对测试用例扩充方法也提出了新的挑战。与此同时，通过对Web系统运行过程和运行结果的分析往往能获得额外的信息，比如会话信息、页面的迁移信息、日志信息等。充分利用这些信息，可以发现访问者的使用方式以及系统中可能存在的问题，从而为进一步开展有针对性的测试提供了有价值的参考。

Web应用在运行过程中会接收到用户的访问从而产生大量的访问日志，日志中携带的数据具有真实、有效、数量多等特征。相比于刻意构造的访问，真实的访问能够反映用户的访问习惯特征，其访问流程和访问数据对于测试而言往往有更高的可用性和有效性。例如当用户访问购物网站时首先会输入用户名和密码登录网站，然后选择商品，最后付款。整个访问流程对于购物这一用户需求而言是有效的、可达的。Web应用的用户往往很多，在运行过程中能够收集到大量用户的访问流程和访问数据，这些信息为测试提供了原始材料。但与此同时由于数据量太大，如何进行信息筛选成为测试人员需要解决的问题。

发明内容

本发明提出的一种从Web应用的访问日志中提取测试需要的访问流程和访问数据的挖掘方法，该方法所要解决的是如何按照日志格式对日志内容进行解析；并提高日志挖掘的效率。

本发明的一种融合用户行为及Web页面依赖关系的数据挖掘方法，其特征在于包括有下列步骤：

步骤一，从Web应用的访问日志中获取多个用户的用户会话数据，然后执行步骤二；

在访问时间里，收集页面集MP＝{page₁,page₂,…,page_a,…,page_b,…,page_A}中每个页面被用户US＝{user₁,user₂,…,user_x,…,user_y,…,user_X}访问的访问日志，构成了用户－会话数据集合，记为MUS，且

步骤二，采用删除后缀对每个用户的用户会话数据进行预处理，得到后缀去除后的用户行为数据，然后执行步骤三；

对所述用户－会话数据集合

进行去除后缀处理，得到去除后缀处理后的用户行为数据，则构成了用户－行为数据集合，记为FUS，且

在本发明中，后缀是指包含有gif、jpg、jpeg、GIF、JPG或者JPEG的页面文件。

步骤三，采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系；然后执行步骤五；

步骤301，构建一个空的先后执行顺序关系集CRR；

步骤302，比较用户－行为数据集合

中任意用户的任意用户行为数据

与另一任意用户的另一任意用户行为数据

是否存在页面先后执行顺序；

若存在有页面先后执行顺序，记为

则将所述

添加到先后执行顺序关系集CRR中，则加入所述CRR记录的元素表示为

若为同一用户访问的不同页面，因为是一个用户访问Web页面，定义为不存在页面先后执行顺序，不记录到先后执行顺序关系集CRR中；

若为不同用户访问的同一页面，因为同一页面不作页面先后执行顺序比较，不记录到先后执行顺序关系集CRR中。

步骤303，重复执行步骤302使

和

两两比较遍历完成页面之间的先后执行顺序，并将页面之间的先后执行顺序添加到先后执行顺序关系集CRR中。

步骤四，采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系，然后执行步骤五；

步骤401，构建一个空的访问信息互用关系集DRR；

访问信息互用关系集DRR用于记录访问时间里、用户使用相同访问信息浏览不同页面产生的日志。

步骤402，比较用户－行为数据集合

中任意用户的任意用户行为数据

与另一任意用户的另一任意用户行为数据

是否存在相同访问信息；

若存在有相同访问信息，记为

则将所述

添加到访问信息互用关系集DRR中，则加入所述DRR记录的元素表示为

若访问的不同页面不存在访问信息互用，定义为不存在互用访问信息，不记录到访问信息互用关系集DRR中。

步骤403，重复执行步骤402使

和

遍历完成页面之间的互用访问信息，并将页面之间的访问信息互用添加到访问信息互用关系集DRR中。

步骤五，用户行为数据最小集的获取；

步骤501，接收步骤三输出的先后执行顺序关系集CRR，所述CRR记录的元素表示为

执行步骤503；

步骤502，接收步骤四输出的访问信息互用关系集DRR，所述DRR记录的元素表示为

执行步骤503；

步骤503，从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面，并生成测试用例集UU；所述测试用例集UU记录的元素表示为

本发明的一种融合用户行为及Web页面依赖关系的数据挖掘方法的优点在于：

①本发明数据挖掘方法通过分析用户会话的特定，定义出用户访问页面的用户行为，并提出方法获得用户行为数据。

②本发明数据挖掘方法通过分析用户会话的特点，定义出用户会话之间的控制依赖关系，如页面执行顺序关系、访问信息互用关系，以及对页面执行顺序和访问信息互用的结合，减少了测试用例出现的信息重叠，提高了数据作业界开发数据收集和数据库创建、数据管理以及数据分析。

③本发明数据挖掘方法利用集合之间存在的包含关系，挖掘出用户会话数据的最小集。

④本发明数据挖掘方法从Web应用的访问日志中提取测试需要的访问流程和访问数据，通过按照日志格式对日志内容进行解析，划分访问序列，从而提高日志挖掘的效率。

附图说明

图1是本发明融合用户行为及Web页面依赖关系的数据挖掘方法流程图。

具体实施方式

下面将结合实施例对本发明做进一步的详细说明。

在本发明中，将Web应用的访问日志(access log)进行访问信息的提取与分析。该访问日志(access log)通常指用户(user)打开浏览器(browser)，访问某Web应用的页面(page)直到关闭浏览器退出Web应用的过程(也称为访问时间)。对于日志(log)的提取、克隆Web应用的访问日志到本地，创建一个本地的代码库，然后对日志进行提取。

本发明技术解决问题是：从Web应用的访问日志中提取测试需要的访问流程和访问信息，从而扩充Web应用测试用例。

Web应用中往往包含了多个页面(page)，这些页面不是孤立存在的，有些页面的访问满足一定的数据输入条件，有些页面的访问需要依赖某些页面，这说明Web页面间存在联系。

在本发明中，多个用户(user)采用集合形式表示为US，即用户集US＝{user₁,user₂,…,user_x,…,user_y,…,user_X}；user₁表示第一个用户；user₂表示第二个用户；user_x表示任意用户，下角标x表示用户标识号，x∈X；user_y表示另一任意用户，y∈X；且user_x与user_y表示用户集US中的不同用户；user_X表示最后一个用户，下角标X表示总用户数。

在本发明中，Web应用中往往包含了多个页面(page)，Web应用中的多个页面采用集合形式表示为MP，即页面集MP＝{page₁,page₂,…,page_a,…,page_b,…,page_A}；page₁表示Web应用中的第一个页面；page₂表示Web应用中的第二个页面；page_a表示Web应用中的任意页面；下角标a为页面标识号，a∈A；page_b表示Web应用中的另一任意页面，b∈A；且page_a与page_b表示Web应用页面集MP中的不同页面；page_A表示Web应用中的最后一个页面；下角标A为总页面数。

本发明的一种从Web应用的访问日志中提取测试用例(test case)，并将所述测试用例作为下一次需要的访问流程和访问信息的挖掘方法，其处理步骤有：

步骤101，收集第一个页面page₁被用户US＝{user₁,user₂,…,user_x,…,user_y,…,user_X}访问的访问日志，构成了属于page₁的用户会话数据集合，记为page₁_US，且

表示第一个页面page₁被第一个用户user₁访问的日志；

表示第一个页面page₁被第二个用户user₂访问的日志；

表示第一个页面page₁被任意用户user_x访问的日志；

表示第一个页面page₁被另一任意用户user_y访问的日志；

表示第一个页面page₁被最后一个用户user_X访问的日志。

步骤102，收集第二个页面page₂被用户US＝{user₁,user₂,…,user_x,…,user_y,…,user_X}访问的访问日志，构成了属于page₂的用户会话数据集合，记为page₂_US，且

表示第二个页面page₂被第一个用户user₁访问的日志；

表示第二个页面page₂被第二个用户user₂访问的日志；

表示第二个页面page₂被任意用户user_x访问的日志；

表示第二个页面page₂被另一任意用户user_y访问的日志；

表示第二个页面page₂被最后一个用户user_X访问的日志。

步骤103，收集任意页面page_a被用户US＝{user₁,user₂,…,user_x,…,user_y,…,user_X}访问的访问日志，构成了属于page_a的用户会话数据集合，记为page_a_US，且

表示任意页面page_a被第一个用户user₁访问的日志；

表示任意页面page_a被第二个用户user₂访问的日志；

表示任意页面page_a被任意用户user_x访问的日志；

表示任意页面page_a被另一任意用户user_y访问的日志；

表示任意页面page_a被最后一个用户user_X访问的日志。

步骤104，收集另一任意页面page_b被用户US＝{user₁,user₂,…,user_x,…,user_y,…,user_X}访问的访问日志，构成了属于page_b的用户会话数据集合，记为page_b_US，且

表示另一任意页面page_b被第一个用户user₁访问的日志；

表示另一任意页面page_b被第二个用户user₂访问的日志；

表示另一任意页面page_b被任意用户user_x访问的日志；

表示另一任意页面page_b被另一任意用户user_y访问的日志；

表示另一任意页面page_b被最后一个用户user_X访问的日志。

步骤105，收集最后一个页面page_A被用户US＝{user₁,user₂,…,user_x,…,user_y,…,user_X}访问的访问日志，构成了属于page_A的用户会话数据集合，记为page_A_US，且

表示最后一个页面page_A被第一个用户user₁访问的日志；

表示最后一个页面page_A被第二个用户user₂访问的日志；

表示最后一个页面page_A被任意用户user_x访问的日志；

表示最后一个页面page_A被另一任意用户user_y访问的日志；

表示最后一个页面page_A被最后一个用户user_X访问的日志。

步骤106，记录下步骤101至步骤105收集得到的用户会话数据，则构成了用户－会话数据集合，记为MUS，且

步骤201，对

去除后缀处理后，得到属于page₁的用户行为数据集合，记为

且

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据。

步骤202，对

去除后缀处理后，得到属于page₂的用户行为数据集合，记为

且

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据。

步骤203，对

去除后缀处理后，得到属于page_a的用户行为数据集合，记为

且

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；为了方便理解，所述

也称为任意用户的任意用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据。

步骤204，对

去除后缀处理后，得到属于page_b的用户会话数据集合，记为

且

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；为了方便理解，所述

也称为另一任意用户的另一任意用户行为数据；

表示

被去除后缀后的用户行为数据。

步骤205，对

去除后缀处理后，得到属于page_A的用户行为数据集合，记为

且

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据；

表示

被去除后缀后的用户行为数据。

步骤206，记录下步骤201至步骤205去除后缀处理后的用户行为数据，则构成了用户－行为数据集合，记为FUS，且

在本发明中，页面的先后执行顺序是不同用户访问的两个页面之间进行的，一个页面的访问时间在另一个页面之前。同一用户访问的两个页面不比较，不记录到先后执行顺序关系集CRR中。不同用户访问的同一页面不比较，不记录到先后执行顺序关系集CRR中。

在本发明中，相同页面和相同用户作比较时，赋值为0，且不记录到先后执行顺序关系集CRR中。

步骤301，构建一个空的先后执行顺序关系集CRR；

在本发明中，先后执行顺序关系集CRR用于记录访问时间里的日志中页面之间存在的先后执行顺序。

步骤302，比较用户－行为数据集合

中任意用户的任意用户行为数据

与另一任意用户的另一任意用户行为数据

是否存在页面先后执行顺序；

若存在有页面先后执行顺序，记为

则将所述

即用户user_x访问页面page_a的访问时间位于用户user_y访问页面page_b的访问时间之前，这说明

与

中存在有页面先后执行顺序，形式表达为

为了详细说明添加到先后执行顺序关系集CRR中的各个元素，下面以举例形式进行列举：

比较

中的各个元素与

中的各个元素的页面先后执行顺序；

若存在有页面先后执行顺序，则将所述页面先后执行顺序添加到先后执行顺序关系集CRR中；

比较

与

中各个元素的页面之间的先后执行顺序，将存在有页面先后执行顺序的添加到先后执行顺序关系集CRR中：

(A)例如，

与

为同一用户(即user₁)访问的不同页面(即page₁与page₂)，因为是相同用户访问Web页面，定义为不存在页面先后执行顺序，不记录到先后执行顺序关系集CRR中。

(B)例如，

与

为不同用户(即user₁与user₂)访问的不同页面(即page₁与page₂)；若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(C)例如，

与

为不同用户(即user₁与user_x)访问的不同页面(即page₁与page₂)；若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(D)例如，

与

为不同用户(即user₁与user_y)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(E)例如，

与

为不同用户(即user₁与user_X)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

比较

与

(A)例如，

与

为不同用户(即user₂与user₁)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在有页面先后执行顺序，放弃记录。

(B)例如，

与

为同一用户(即user₂)访问的不同页面(即page₁与page₂)，因为是相同用户访问Web页面，定义为不存在页面先后执行顺序，不记录到先后执行顺序关系集CRR中。

(C)例如，

与

为不同用户(即user₂与user_x)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(D)例如，

与

为不同用户(即user₂与user_y)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(E)例如，

与

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

比较

与

(A)例如，

与

为不同用户(即user_x与user₁)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在有页面先后执行顺序，放弃记录。

(B)例如，

与

为不同用户(即user_x与user₂)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(C)例如，

与

为同一用户(即user_x)访问的不同页面(即page₁与page₂)，因为是相同用户访问Web页面，定义为不存在页面先后执行顺序，不记录到先后执行顺序关系集CRR中。

(D)例如，

与

为不同用户(即user_x与user_y)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(E)例如，

与

为不同用户(即user_x与user_X)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

比较

与

(A)例如，

与

为不同用户(即user_y与user₁)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(B)例如，

与

为不同用户(即user_y与user₂)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(C)例如，

与

为不同用户(即user_y与user_x)访问的不同页面(即page₁与page₂)，若

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(D)例如，

与

为同一用户(即user_y)访问的不同页面(即page₁与page₂)，因为是相同用户访问Web页面，定义为不存在页面先后执行顺序，不记录到先后执行顺序关系集CRR中。

(E)例如，

与

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

比较

与

(A)例如，

与

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(B)例如，

与

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(C)例如，

与

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(D)例如，

与

与

存在有页面先后执行顺序，即

则将所述

加入到先后执行顺序关系集CRR中表示为

若

与

不存在页面先后执行顺序，放弃记录。

(E)例如，

与

在本发明中，将

与

中的各个元素分别进行页面之间的先后执行顺序，将存在有页面先后执行顺序的加入到先后执行顺序关系集CRR中表示为

同理可得，比较

中的各个元素与

中的各个元素的页面之间的先后执行顺序，将存在有页面先后执行顺序的加入到先后执行顺序关系集CRR中表示为

同理可得，比较

中的各个元素与

中的各个元素的页面先后执行顺序；将存在有页面先后执行顺序加入到先后执行顺序关系集CRR中表示为

步骤303，重复执行步骤302使

和

在本发明中，同一用户应用相同访问信息访问相同页面或者不同页面时，赋值为0，且不记录到访问信息互用关系集DRR中。

步骤401，构建一个空的访问信息互用关系集DRR；

在本发明中，访问信息互用关系集DRR用于记录访问时间里、用户使用相同访问信息浏览不同页面产生的日志。

步骤402，比较用户－行为数据集合

中任意用户的任意用户行为数据

与另一任意用户的另一任意用户行为数据

是否存在相同访问信息；

若存在有相同访问信息，记为

则将所述

即

与

中存在着用相同的访问信息对页面page_a和页面page_b进行访问，因此

与

中有访问信息互用的关系。

在本发明中，当三个用户行为数据(

和

)存在有互用访问信息时，添加到访问信息互用关系集DRR中的元素表示为

在本发明中，当五个用户行为数据(

和

在本发明的访问时间里，所有的访问信息互用关系集DRR中的元素表示为

为了详细说明添加到访问信息互用关系集DRR中的各个元素，下面以举例形式进行列举：

比较

中的各个元素与

中的各个元素的页面之间是否互用访问信息；

若访问的不同页面存在有访问信息互用，则将所述互用访问信息关系添加到访问信息互用关系集DRR中；

若访问的不同页面不存在访问信息互用，不记录到访问信息互用关系集DRR中。

比较

与

中各个元素的页面之间的互用访问信息，将存在有互用访问信息的页面关系添加到访问信息互用关系集DRR中：

(A)例如，

与

为同一用户(即user₁)访问的不同页面(即page₁与page₂)，因为是同一用户访问Web页面，定义为不存在页面的互用访问信息，不记录到访问信息互用关系集DRR中。

(B)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(C)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(D)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(E)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的访问信息互用，放弃记录。

比较

与

(A)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在有页面的互用访问信息，放弃记录。

(B)例如，

与

为同一用户(即user₂)访问的不同页面(即page₁与page₂)，因为是相同用户访问Web页面，定义为不存在页面的互用访问信息，不记录到访问信息互用关系集DRR中。

(C)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(D)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(E)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

比较

与

中各个元素的页面之间的互用访问信息，将存在有互用访问信息的页面关系添加到互用访问信息关系集DRR中：

(A)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在有页面的互用访问信息，放弃记录。

(B)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(C)例如，

与

为同一用户(即user_x)访问的不同页面(即page₁与page₂)，因为是相同用户访问Web页面，定义为不存在页面的互用访问信息，不记录到访问信息互用关系集DRR中。

(D)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(E)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

比较

与

(A)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(B)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(C)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(D)例如，

与

为同一用户(即user_y)访问的不同页面(即page₁与page₂)，因为是相同用户访问Web页面，定义为不存在页面的互用访问信息，不记录到访问信息互用关系集DRR中。

(E)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

比较

与

(A)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(B)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(C)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(D)例如，

与

与

存在有页面的互用访问信息，即

则将所述

加入到访问信息互用关系集DRR中表示为

若

与

不存在页面的互用访问信息，放弃记录。

(E)例如，

与

在本发明中，比较

中的各个元素与

中的各个元素的页面之间的访问信息互用；将存在有页面的访问信息互用的加入到访问信息互用关系集DRR中表示为

同理可得，若

和

中的各个页面存在有互用访问信息；将存在有页面的访问信息互用加入到访问信息互用关系集DRR中表示为

同理可得，若

与

步骤403，重复执行步骤402使

和

步骤五，用户行为数据最小集的获取；

执行步骤503；

执行步骤503；

步骤503，从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面，并生成测试用例集UU；所述测试用例集UU将作为数据库的部分内容，用于实现数据挖掘。所述测试用例集UU记录的元素表示为

例如，比较先后执行顺序关系集

与访问信息互用关系集

一方面，页面page₁与页面page₂存在有页面执行顺序

且访问页面page₁的是用户user₁，访问页面page₂的是用户user₂；

另一方面，用户行为日志

包含在互用访问信息

中，所述

涉及的页面有page₁,page₂,page_a,page_b,page_A；

则生成的测试用例，记为

例如，比较先后执行顺序关系集

中的

与访问信息互用关系集

一方面，页面page₁与页面page_a存在有页面执行顺序

且访问页面page₁的是用户user₁，访问页面page_a的是用户user₂；

另一方面，用户行为日志

未包含在访问信息互用关系集

中，不能生成测试用例。

当比较

与访问信息互用关系集

一方面，页面page₁与页面page_a存在有页面执行顺序

且访问页面page₁的是用户user₁，访问页面page_a的是用户user_x；

另一方面，用户行为日志

包含在互用访问信息

中，所述

涉及的页面有page₁,page₂,page_a,page_b,page_A；

则生成的测试用例，记为

当比较

与访问信息互用关系集

一方面，页面page₁与页面page_a存在有页面执行顺序

且访问页面page₁的是用户user_x，访问页面page_a的是用户user₁；

另一方面，用户行为日志

未包含在访问信息互用关系集

中，不能生成测试用例。

实施例1

在访问时间里，获取的用户－会话数据集合

对

去除后缀处理后得到的用户－行为数据集合

在步骤一获取的用户会话数据中，

的后缀是jpg，

的后缀是GIF，则剩下了

和

作为用户行为数据，表示为

和

步骤301，构建一个空的先后执行顺序关系集CRR；

步骤302，比较用户行为数据中的页面是否存在页面先后执行顺序；

对实施例1选取的8个用户行为数据

页面两两关联将有(8×8)个页面关联，但不是所有的页面关联都存在页面先后执行顺序。

对访问日志的分析得到存在有页面先后执行顺序的是：

(1)

与

存在有页面先后执行顺序，记为

则将所述

(2)

与

存在有页面先后执行顺序，记为

则将所述

(3)

与

存在有页面先后执行顺序，记为

则将所述

(4)

与

存在有页面先后执行顺序，记为

则将所述

步骤401，构建一个空的访问信息互用关系集DRR；

步骤402，用户－行为数据集合

中存在相同访问信息的有：

(1)

与

存在有相同访问信息，记为

则将所述

(2)

和

存在有互用访问信息时，添加到访问信息互用关系集DRR中的元素表示为

(3)

和

在实施例1的访问信息互用关系集DRR中的元素表示为

步骤五，用户行为数据最小集的获取；

执行步骤503；

执行步骤503；

步骤503，从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面，并生成测试用例集UU；所述测试用例集UU将作为数据库的部分内容，用于实现数据挖掘。

(1)比较

与

一方面，页面page₁与页面page₂存在有页面执行顺序

另一方面，用户行为日志

包含在互用访问信息

中，所述

涉及的页面有page₁,page₂,page_a,page_b,page_A；

则生成的测试用例，记为

(2)比较

与

一方面，页面page₁与页面page_a存在有页面执行顺序

另一方面，用户行为日志

未包含在访问信息互用关系集

中，不能生成测试用例。

(3)比较

与

一方面，页面page_a与页面page₂存在有页面执行顺序

且访问页面page_a的是用户user_X，访问页面page₂的是用户user₂；

另一方面，用户行为日志

未包含在访问信息互用关系集

中，不能生成测试用例。

(4)比较

与

一方面，页面page_a与页面page_b存在有页面执行顺序

且访问页面page_a的是用户user_x，访问页面page_b的是用户user_y；

另一方面，用户行为日志

包含在互用访问信息

中，所述

涉及的页面有page₁,page₂,page_a,page_b,page_A；

则生成的测试用例，记为

统计实施例1中测试用例集中的元素有

本发明提出的一种融合用户行为及Web页面依赖关系的数据挖掘方法，通过对用户会话数据的预处理，得到用户行为数据。然后采用页面控制依赖关系和访问信息互用关系分别对用户行为数据的处理，并以用户会话之间的顺序－互用数据依赖关系生成测试用例。测试用例将作为数据库的部分内容，用于实现数据挖掘。

Claims

1.一种融合用户行为及Web页面依赖关系的数据挖掘方法，其特征在于包括有下列步骤：

所述用户集US＝{user₁,user₂,…,user_x,…,user_y,…,user_X}中；

user₁表示第一个用户；

user₂表示第二个用户；

user_x表示任意用户，下角标x表示用户标识号，x∈X；user_y表示另一任意用户，y∈X；且user_x与user_y表示用户集US中的不同用户；

user_X表示最后一个用户，下角标X表示总用户数。

所述页面集MP＝{page₁,page₂,…,page_a,…,page_b,…,page_A}中；

page₁表示Web应用中的第一个页面；

page₂表示Web应用中的第二个页面；

page_a表示Web应用中的任意页面；下角标a为页面标识号，a∈A；page_b表示Web应用中的另一任意页面，b∈A；且page_a与page_b表示Web应用页面集MP中的不同页面；

page_A表示Web应用中的最后一个页面；下角标A为总页面数。

page₁_US表示多个用户访问第一页面page₁形成的用户会话数据；

page₂_US表示多个用户访问第二页面page₂形成的用户会话数据；

page_a_US表示多个用户访问任意页面page_a形成的用户会话数据；

page_b_US表示多个用户访问另一任意页面page_b形成的用户会话数据；

page_A_US表示多个用户访问最好一页面page_A形成的用户会话数据；

对所述用户－会话数据集合

表示page₁_US被去除后缀后的用户行为数据；

表示page₂_US被去除后缀后的用户行为数据；

表示page_a_US被去除后缀后的用户行为数据；

表示page_b_US被去除后缀后的用户行为数据；

表示page_A_US被去除后缀后的用户行为数据；

步骤301，构建一个空的先后执行顺序关系集CRR；

步骤302，比较用户－行为数据集合

中任意用户的任意用户行为数据

与另一任意用户的另一任意用户行为数据

是否存在页面先后执行顺序；

若存在有页面先后执行顺序，记为

则将所述

步骤303，重复执行步骤302使

和

步骤401，构建一个空的访问信息互用关系集DRR；

步骤402，比较用户－行为数据集合

中任意用户的任意用户行为数据

与另一任意用户的另一任意用户行为数据

是否存在相同访问信息；

若存在有相同访问信息，记为

则将所述

步骤403，重复执行步骤402使

和

步骤五，用户行为数据最小集的获取；

执行步骤503；

执行步骤503；

2.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法，其特征在于：在步骤三中，页面的先后执行顺序是不同用户访问的两个页面之间进行的。

3.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法，其特征在于：在步骤三中，同一用户访问的两个页面不比较，不记录入先后执行顺序关系集CRR中。

4.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法，其特征在于：在步骤三中，不同用户访问的同一页面不比较，不记录入先后执行顺序关系集CRR中。

5.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法，其特征在于：在步骤三中，相同页面和相同用户作比较时，不记录到先后执行顺序关系集CRR中。

6.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法，其特征在于：在步骤四中，同一用户应用相同访问信息访问相同页面或者不同页面时，赋值为0，且不记录到访问信息互用关系集DRR中。

7.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法，其特征在于：生成的测试用例集UU补充到数据作业界开发数据收集和数据库中。