CN111460004A - 一种融合用户行为及Web页面依赖关系的数据挖掘方法 - Google Patents

一种融合用户行为及Web页面依赖关系的数据挖掘方法 Download PDF

Info

Publication number
CN111460004A
CN111460004A CN202010262268.8A CN202010262268A CN111460004A CN 111460004 A CN111460004 A CN 111460004A CN 202010262268 A CN202010262268 A CN 202010262268A CN 111460004 A CN111460004 A CN 111460004A
Authority
CN
China
Prior art keywords
page
user
pages
access information
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010262268.8A
Other languages
English (en)
Other versions
CN111460004B (zh
Inventor
杨波
卫新洁
吴际
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN202010262268.8A priority Critical patent/CN111460004B/zh
Publication of CN111460004A publication Critical patent/CN111460004A/zh
Application granted granted Critical
Publication of CN111460004B publication Critical patent/CN111460004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合用户行为及Web页面依赖关系的数据挖掘方法,包括有将用户会话数据进行去除后缀的预处理,然后对用户行为数据分别进行页面执行顺序判断和互用访问信息判断处理,最后选取出同时满足页面执行顺序和访问信息互用的用户行为数据,并生成测试用例。该测试用例扩充至Web应用中,从而划分访问序列,达到提高日志挖掘的效率。

Description

一种融合用户行为及Web页面依赖关系的数据挖掘方法
技术领域
本发明涉及网络页面的数据挖掘,更特别地说,是指一种从Web应用的访问日志(access log)中提取测试用例(test case)需要的访问流程和访问数据的挖掘方法,是一种融合多个用户(user)的用户行为(user behavior)及Web页面依赖关系的数据挖掘(datamining)方法。
背景技术
什么是数据挖掘(data mining),简单地说,数据挖掘是从大量数据中提取或“挖掘”知识,数据挖掘是信息技术自然演化的结果。演化过程的见证是数据作业界开发数据收集和数据库创建、数据管理以及数据分析与理解。例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和检索、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统广泛付诸实践,数据分析和理解自然成为下一个目标。
Web页面(web page)是指按照HTML格式组织起来的文件,以信息的形式出现,它可包括图形、文字、声音和/或视频等信息。
和传统的计算机系统相比,Web系统具有大规模、异构、分布、并发和平台无关的特性,使得对Web应用的测试要比传统程序的测试更加困难,对测试用例扩充方法也提出了新的挑战。与此同时,通过对Web系统运行过程和运行结果的分析往往能获得额外的信息,比如会话信息、页面的迁移信息、日志信息等。充分利用这些信息,可以发现访问者的使用方式以及系统中可能存在的问题,从而为进一步开展有针对性的测试提供了有价值的参考。
Web应用在运行过程中会接收到用户的访问从而产生大量的访问日志,日志中携带的数据具有真实、有效、数量多等特征。相比于刻意构造的访问,真实的访问能够反映用户的访问习惯特征,其访问流程和访问数据对于测试而言往往有更高的可用性和有效性。例如当用户访问购物网站时首先会输入用户名和密码登录网站,然后选择商品,最后付款。整个访问流程对于购物这一用户需求而言是有效的、可达的。Web应用的用户往往很多,在运行过程中能够收集到大量用户的访问流程和访问数据,这些信息为测试提供了原始材料。但与此同时由于数据量太大,如何进行信息筛选成为测试人员需要解决的问题。
发明内容
本发明提出的一种从Web应用的访问日志中提取测试需要的访问流程和访问数据的挖掘方法,该方法所要解决的是如何按照日志格式对日志内容进行解析;并提高日志挖掘的效率。
本发明的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于包括有下列步骤:
步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;
在访问时间里,收集页面集MP={page1,page2,…,pagea,…,pageb,…,pageA}中每个页面被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了用户-会话数据集合,记为MUS,且
Figure BDA0002439878150000011
步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;
对所述用户-会话数据集合
Figure BDA0002439878150000012
进行去除后缀处理,得到去除后缀处理后的用户行为数据,则构成了用户-行为数据集合,记为FUS,且
Figure BDA0002439878150000021
在本发明中,后缀是指包含有gif、jpg、jpeg、GIF、JPG或者JPEG的页面文件。
步骤三,采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系;然后执行步骤五;
步骤301,构建一个空的先后执行顺序关系集CRR;
步骤302,比较用户-行为数据集合
Figure BDA0002439878150000022
中任意用户的任意用户行为数据
Figure BDA0002439878150000023
与另一任意用户的另一任意用户行为数据
Figure BDA0002439878150000024
是否存在页面先后执行顺序;
若存在有页面先后执行顺序,记为
Figure BDA0002439878150000025
则将所述
Figure BDA0002439878150000026
添加到先后执行顺序关系集CRR中,则加入所述CRR记录的元素表示为
Figure BDA0002439878150000027
若为同一用户访问的不同页面,因为是一个用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中;
若为不同用户访问的同一页面,因为同一页面不作页面先后执行顺序比较,不记录到先后执行顺序关系集CRR中。
步骤303,重复执行步骤302使
Figure BDA0002439878150000028
Figure BDA0002439878150000029
两两比较遍历完成页面之间的先后执行顺序,并将页面之间的先后执行顺序添加到先后执行顺序关系集CRR中。
步骤四,采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系,然后执行步骤五;
步骤401,构建一个空的访问信息互用关系集DRR;
访问信息互用关系集DRR用于记录访问时间里、用户使用相同访问信息浏览不同页面产生的日志。
步骤402,比较用户-行为数据集合
Figure BDA00024398781500000210
中任意用户的任意用户行为数据
Figure BDA00024398781500000211
与另一任意用户的另一任意用户行为数据
Figure BDA00024398781500000212
是否存在相同访问信息;
若存在有相同访问信息,记为
Figure BDA00024398781500000213
则将所述
Figure BDA00024398781500000214
添加到访问信息互用关系集DRR中,则加入所述DRR记录的元素表示为
Figure BDA00024398781500000215
若访问的不同页面不存在访问信息互用,定义为不存在互用访问信息,不记录到访问信息互用关系集DRR中。
步骤403,重复执行步骤402使
Figure BDA00024398781500000216
Figure BDA00024398781500000217
遍历完成页面之间的互用访问信息,并将页面之间的访问信息互用添加到访问信息互用关系集DRR中。
步骤五,用户行为数据最小集的获取;
步骤501,接收步骤三输出的先后执行顺序关系集CRR,所述CRR记录的元素表示为
Figure BDA0002439878150000031
执行步骤503;
步骤502,接收步骤四输出的访问信息互用关系集DRR,所述DRR记录的元素表示为
Figure BDA0002439878150000032
执行步骤503;
步骤503,从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面,并生成测试用例集UU;所述测试用例集UU记录的元素表示为
Figure BDA0002439878150000033
本发明的一种融合用户行为及Web页面依赖关系的数据挖掘方法的优点在于:
①本发明数据挖掘方法通过分析用户会话的特定,定义出用户访问页面的用户行为,并提出方法获得用户行为数据。
②本发明数据挖掘方法通过分析用户会话的特点,定义出用户会话之间的控制依赖关系,如页面执行顺序关系、访问信息互用关系,以及对页面执行顺序和访问信息互用的结合,减少了测试用例出现的信息重叠,提高了数据作业界开发数据收集和数据库创建、数据管理以及数据分析。
③本发明数据挖掘方法利用集合之间存在的包含关系,挖掘出用户会话数据的最小集。
④本发明数据挖掘方法从Web应用的访问日志中提取测试需要的访问流程和访问数据,通过按照日志格式对日志内容进行解析,划分访问序列,从而提高日志挖掘的效率。
附图说明
图1是本发明融合用户行为及Web页面依赖关系的数据挖掘方法流程图。
具体实施方式
下面将结合实施例对本发明做进一步的详细说明。
在本发明中,将Web应用的访问日志(access log)进行访问信息的提取与分析。该访问日志(access log)通常指用户(user)打开浏览器(browser),访问某Web应用的页面(page)直到关闭浏览器退出Web应用的过程(也称为访问时间)。对于日志(log)的提取、克隆Web应用的访问日志到本地,创建一个本地的代码库,然后对日志进行提取。
本发明技术解决问题是:从Web应用的访问日志中提取测试需要的访问流程和访问信息,从而扩充Web应用测试用例。
Web应用中往往包含了多个页面(page),这些页面不是孤立存在的,有些页面的访问满足一定的数据输入条件,有些页面的访问需要依赖某些页面,这说明Web页面间存在联系。
在本发明中,多个用户(user)采用集合形式表示为US,即用户集US={user1,user2,…,userx,…,usery,…,userX};user1表示第一个用户;user2表示第二个用户;userx表示任意用户,下角标x表示用户标识号,x∈X;usery表示另一任意用户,y∈X;且userx与usery表示用户集US中的不同用户;userX表示最后一个用户,下角标X表示总用户数。
在本发明中,Web应用中往往包含了多个页面(page),Web应用中的多个页面采用集合形式表示为MP,即页面集MP={page1,page2,…,pagea,…,pageb,…,pageA};page1表示Web应用中的第一个页面;page2表示Web应用中的第二个页面;pagea表示Web应用中的任意页面;下角标a为页面标识号,a∈A;pageb表示Web应用中的另一任意页面,b∈A;且pagea与pageb表示Web应用页面集MP中的不同页面;pageA表示Web应用中的最后一个页面;下角标A为总页面数。
本发明的一种从Web应用的访问日志中提取测试用例(test case),并将所述测试用例作为下一次需要的访问流程和访问信息的挖掘方法,其处理步骤有:
步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;
步骤101,收集第一个页面page1被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于page1的用户会话数据集合,记为page1_US,且
Figure BDA0002439878150000041
Figure BDA0002439878150000042
表示第一个页面page1被第一个用户user1访问的日志;
Figure BDA0002439878150000043
表示第一个页面page1被第二个用户user2访问的日志;
Figure BDA0002439878150000044
表示第一个页面page1被任意用户userx访问的日志;
Figure BDA0002439878150000045
表示第一个页面page1被另一任意用户usery访问的日志;
Figure BDA0002439878150000046
表示第一个页面page1被最后一个用户userX访问的日志。
步骤102,收集第二个页面page2被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于page2的用户会话数据集合,记为page2_US,且
Figure BDA0002439878150000047
Figure BDA0002439878150000048
表示第二个页面page2被第一个用户user1访问的日志;
Figure BDA0002439878150000049
表示第二个页面page2被第二个用户user2访问的日志;
Figure BDA00024398781500000410
表示第二个页面page2被任意用户userx访问的日志;
Figure BDA00024398781500000411
表示第二个页面page2被另一任意用户usery访问的日志;
Figure BDA00024398781500000412
表示第二个页面page2被最后一个用户userX访问的日志。
步骤103,收集任意页面pagea被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于pagea的用户会话数据集合,记为pagea_US,且
Figure BDA00024398781500000413
Figure BDA00024398781500000414
表示任意页面pagea被第一个用户user1访问的日志;
Figure BDA00024398781500000415
表示任意页面pagea被第二个用户user2访问的日志;
Figure BDA00024398781500000416
表示任意页面pagea被任意用户userx访问的日志;
Figure BDA00024398781500000417
表示任意页面pagea被另一任意用户usery访问的日志;
Figure BDA00024398781500000418
表示任意页面pagea被最后一个用户userX访问的日志。
步骤104,收集另一任意页面pageb被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于pageb的用户会话数据集合,记为pageb_US,且
Figure BDA00024398781500000419
Figure BDA00024398781500000420
表示另一任意页面pageb被第一个用户user1访问的日志;
Figure BDA0002439878150000051
表示另一任意页面pageb被第二个用户user2访问的日志;
Figure BDA0002439878150000052
表示另一任意页面pageb被任意用户userx访问的日志;
Figure BDA0002439878150000053
表示另一任意页面pageb被另一任意用户usery访问的日志;
Figure BDA0002439878150000054
表示另一任意页面pageb被最后一个用户userX访问的日志。
步骤105,收集最后一个页面pageA被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了属于pageA的用户会话数据集合,记为pageA_US,且
Figure BDA0002439878150000055
Figure BDA0002439878150000056
表示最后一个页面pageA被第一个用户user1访问的日志;
Figure BDA0002439878150000057
表示最后一个页面pageA被第二个用户user2访问的日志;
Figure BDA0002439878150000058
表示最后一个页面pageA被任意用户userx访问的日志;
Figure BDA0002439878150000059
表示最后一个页面pageA被另一任意用户usery访问的日志;
Figure BDA00024398781500000510
表示最后一个页面pageA被最后一个用户userX访问的日志。
步骤106,记录下步骤101至步骤105收集得到的用户会话数据,则构成了用户-会话数据集合,记为MUS,且
Figure BDA00024398781500000511
步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;
在本发明中,后缀是指包含有gif、jpg、jpeg、GIF、JPG或者JPEG的页面文件。
步骤201,对
Figure BDA00024398781500000512
去除后缀处理后,得到属于page1的用户行为数据集合,记为
Figure BDA00024398781500000513
Figure BDA00024398781500000514
Figure BDA00024398781500000515
表示
Figure BDA00024398781500000516
被去除后缀后的用户行为数据;
Figure BDA00024398781500000517
表示
Figure BDA00024398781500000518
被去除后缀后的用户行为数据;
Figure BDA00024398781500000519
表示
Figure BDA00024398781500000520
被去除后缀后的用户行为数据;
Figure BDA00024398781500000521
表示
Figure BDA00024398781500000522
被去除后缀后的用户行为数据;
Figure BDA00024398781500000523
表示
Figure BDA00024398781500000524
被去除后缀后的用户行为数据。
步骤202,对
Figure BDA00024398781500000525
去除后缀处理后,得到属于page2的用户行为数据集合,记为
Figure BDA00024398781500000526
Figure BDA0002439878150000061
Figure BDA0002439878150000062
表示
Figure BDA0002439878150000063
被去除后缀后的用户行为数据;
Figure BDA0002439878150000064
表示
Figure BDA0002439878150000065
被去除后缀后的用户行为数据;
Figure BDA0002439878150000066
表示
Figure BDA0002439878150000067
被去除后缀后的用户行为数据;
Figure BDA0002439878150000068
表示
Figure BDA0002439878150000069
被去除后缀后的用户行为数据;
Figure BDA00024398781500000610
表示
Figure BDA00024398781500000611
被去除后缀后的用户行为数据。
步骤203,对
Figure BDA00024398781500000612
去除后缀处理后,得到属于pagea的用户行为数据集合,记为
Figure BDA00024398781500000613
Figure BDA00024398781500000614
Figure BDA00024398781500000615
表示
Figure BDA00024398781500000616
被去除后缀后的用户行为数据;
Figure BDA00024398781500000617
表示
Figure BDA00024398781500000618
被去除后缀后的用户行为数据;
Figure BDA00024398781500000619
表示
Figure BDA00024398781500000620
被去除后缀后的用户行为数据;为了方便理解,所述
Figure BDA00024398781500000621
也称为任意用户的任意用户行为数据;
Figure BDA00024398781500000622
表示
Figure BDA00024398781500000623
被去除后缀后的用户行为数据;
Figure BDA00024398781500000624
表示
Figure BDA00024398781500000625
被去除后缀后的用户行为数据。
步骤204,对
Figure BDA00024398781500000626
去除后缀处理后,得到属于pageb的用户会话数据集合,记为
Figure BDA00024398781500000627
Figure BDA00024398781500000628
Figure BDA00024398781500000629
表示
Figure BDA00024398781500000630
被去除后缀后的用户行为数据;
Figure BDA00024398781500000631
表示
Figure BDA00024398781500000632
被去除后缀后的用户行为数据;
Figure BDA00024398781500000633
表示
Figure BDA00024398781500000634
被去除后缀后的用户行为数据;
Figure BDA00024398781500000635
表示
Figure BDA00024398781500000636
被去除后缀后的用户行为数据;为了方便理解,所述
Figure BDA00024398781500000637
也称为另一任意用户的另一任意用户行为数据;
Figure BDA00024398781500000638
表示
Figure BDA00024398781500000639
被去除后缀后的用户行为数据。
步骤205,对
Figure BDA00024398781500000640
去除后缀处理后,得到属于pageA的用户行为数据集合,记为
Figure BDA0002439878150000071
Figure BDA0002439878150000072
Figure BDA0002439878150000073
表示
Figure BDA0002439878150000074
被去除后缀后的用户行为数据;
Figure BDA0002439878150000075
表示
Figure BDA0002439878150000076
被去除后缀后的用户行为数据;
Figure BDA0002439878150000077
表示
Figure BDA0002439878150000078
被去除后缀后的用户行为数据;
Figure BDA0002439878150000079
表示
Figure BDA00024398781500000710
被去除后缀后的用户行为数据;
Figure BDA00024398781500000711
表示
Figure BDA00024398781500000712
被去除后缀后的用户行为数据。
步骤206,记录下步骤201至步骤205去除后缀处理后的用户行为数据,则构成了用户-行为数据集合,记为FUS,且
Figure BDA00024398781500000713
步骤三,采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系;然后执行步骤五;
在本发明中,页面的先后执行顺序是不同用户访问的两个页面之间进行的,一个页面的访问时间在另一个页面之前。同一用户访问的两个页面不比较,不记录到先后执行顺序关系集CRR中。不同用户访问的同一页面不比较,不记录到先后执行顺序关系集CRR中。
在本发明中,相同页面和相同用户作比较时,赋值为0,且不记录到先后执行顺序关系集CRR中。
步骤301,构建一个空的先后执行顺序关系集CRR;
在本发明中,先后执行顺序关系集CRR用于记录访问时间里的日志中页面之间存在的先后执行顺序。
步骤302,比较用户-行为数据集合
Figure BDA00024398781500000714
中任意用户的任意用户行为数据
Figure BDA00024398781500000715
与另一任意用户的另一任意用户行为数据
Figure BDA00024398781500000716
是否存在页面先后执行顺序;
若存在有页面先后执行顺序,记为
Figure BDA00024398781500000717
则将所述
Figure BDA00024398781500000718
添加到先后执行顺序关系集CRR中,则加入所述CRR记录的元素表示为
Figure BDA00024398781500000719
即用户userx访问页面pagea的访问时间位于用户usery访问页面pageb的访问时间之前,这说明
Figure BDA00024398781500000720
Figure BDA00024398781500000721
中存在有页面先后执行顺序,形式表达为
Figure BDA00024398781500000722
若为同一用户访问的不同页面,因为是一个用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中;
若为不同用户访问的同一页面,因为同一页面不作页面先后执行顺序比较,不记录到先后执行顺序关系集CRR中。
为了详细说明添加到先后执行顺序关系集CRR中的各个元素,下面以举例形式进行列举:
比较
Figure BDA0002439878150000081
中的各个元素与
Figure BDA0002439878150000082
中的各个元素的页面先后执行顺序;
若存在有页面先后执行顺序,则将所述页面先后执行顺序添加到先后执行顺序关系集CRR中;
若为同一用户访问的不同页面,因为是一个用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中;
若为不同用户访问的同一页面,因为同一页面不作页面先后执行顺序比较,不记录到先后执行顺序关系集CRR中。
比较
Figure BDA0002439878150000083
Figure BDA0002439878150000084
中各个元素的页面之间的先后执行顺序,将存在有页面先后执行顺序的添加到先后执行顺序关系集CRR中:
(A)例如,
Figure BDA0002439878150000085
Figure BDA0002439878150000086
为同一用户(即user1)访问的不同页面(即page1与page2),因为是相同用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中。
(B)例如,
Figure BDA0002439878150000087
Figure BDA0002439878150000088
为不同用户(即user1与user2)访问的不同页面(即page1与page2);若
Figure BDA0002439878150000089
Figure BDA00024398781500000810
存在有页面先后执行顺序,即
Figure BDA00024398781500000811
则将所述
Figure BDA00024398781500000812
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500000813
Figure BDA00024398781500000814
Figure BDA00024398781500000815
不存在页面先后执行顺序,放弃记录。
(C)例如,
Figure BDA00024398781500000816
Figure BDA00024398781500000817
为不同用户(即user1与userx)访问的不同页面(即page1与page2);若
Figure BDA00024398781500000818
Figure BDA00024398781500000819
存在有页面先后执行顺序,即
Figure BDA00024398781500000820
则将所述
Figure BDA00024398781500000821
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500000822
Figure BDA00024398781500000823
Figure BDA00024398781500000824
不存在页面先后执行顺序,放弃记录。
(D)例如,
Figure BDA00024398781500000825
Figure BDA00024398781500000826
为不同用户(即user1与usery)访问的不同页面(即page1与page2),若
Figure BDA00024398781500000827
Figure BDA00024398781500000828
存在有页面先后执行顺序,即
Figure BDA00024398781500000829
则将所述
Figure BDA00024398781500000830
加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000091
Figure BDA0002439878150000092
Figure BDA0002439878150000093
不存在页面先后执行顺序,放弃记录。
(E)例如,
Figure BDA0002439878150000094
Figure BDA0002439878150000095
为不同用户(即user1与userX)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000096
Figure BDA0002439878150000097
存在有页面先后执行顺序,即
Figure BDA0002439878150000098
则将所述
Figure BDA0002439878150000099
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500000910
Figure BDA00024398781500000911
Figure BDA00024398781500000912
不存在页面先后执行顺序,放弃记录。
比较
Figure BDA00024398781500000913
Figure BDA00024398781500000914
中各个元素的页面之间的先后执行顺序,将存在有页面先后执行顺序的添加到先后执行顺序关系集CRR中:
(A)例如,
Figure BDA00024398781500000915
Figure BDA00024398781500000916
为不同用户(即user2与user1)访问的不同页面(即page1与page2),若
Figure BDA00024398781500000917
Figure BDA00024398781500000918
存在有页面先后执行顺序,即
Figure BDA00024398781500000919
则将所述
Figure BDA00024398781500000920
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500000921
Figure BDA00024398781500000922
Figure BDA00024398781500000923
不存在有页面先后执行顺序,放弃记录。
(B)例如,
Figure BDA00024398781500000924
Figure BDA00024398781500000925
为同一用户(即user2)访问的不同页面(即page1与page2),因为是相同用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中。
(C)例如,
Figure BDA00024398781500000926
Figure BDA00024398781500000927
为不同用户(即user2与userx)访问的不同页面(即page1与page2),若
Figure BDA00024398781500000928
Figure BDA00024398781500000929
存在有页面先后执行顺序,即
Figure BDA0002439878150000101
则将所述
Figure BDA0002439878150000102
加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000103
Figure BDA0002439878150000104
Figure BDA0002439878150000105
不存在页面先后执行顺序,放弃记录。
(D)例如,
Figure BDA0002439878150000106
Figure BDA0002439878150000107
为不同用户(即user2与usery)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000108
Figure BDA0002439878150000109
存在有页面先后执行顺序,即
Figure BDA00024398781500001010
则将所述
Figure BDA00024398781500001011
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500001012
Figure BDA00024398781500001013
Figure BDA00024398781500001014
不存在页面先后执行顺序,放弃记录。
(E)例如,
Figure BDA00024398781500001015
Figure BDA00024398781500001016
为不同用户(即user2与userX)访问的不同页面(即page1与page2),若
Figure BDA00024398781500001017
Figure BDA00024398781500001018
存在有页面先后执行顺序,即
Figure BDA00024398781500001019
则将所述
Figure BDA00024398781500001020
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500001021
Figure BDA00024398781500001022
Figure BDA00024398781500001023
不存在页面先后执行顺序,放弃记录。
比较
Figure BDA00024398781500001024
Figure BDA00024398781500001025
中各个元素的页面之间的先后执行顺序,将存在有页面先后执行顺序的添加到先后执行顺序关系集CRR中:
(A)例如,
Figure BDA00024398781500001026
Figure BDA00024398781500001027
为不同用户(即userx与user1)访问的不同页面(即page1与page2),若
Figure BDA00024398781500001028
Figure BDA00024398781500001029
存在有页面先后执行顺序,即
Figure BDA00024398781500001030
则将所述
Figure BDA00024398781500001031
加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000111
Figure BDA0002439878150000112
Figure BDA0002439878150000113
不存在有页面先后执行顺序,放弃记录。
(B)例如,
Figure BDA0002439878150000114
Figure BDA0002439878150000115
为不同用户(即userx与user2)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000116
Figure BDA0002439878150000117
存在有页面先后执行顺序,即
Figure BDA0002439878150000118
则将所述
Figure BDA0002439878150000119
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500001110
Figure BDA00024398781500001111
Figure BDA00024398781500001112
不存在页面先后执行顺序,放弃记录。
(C)例如,
Figure BDA00024398781500001113
Figure BDA00024398781500001114
为同一用户(即userx)访问的不同页面(即page1与page2),因为是相同用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中。
(D)例如,
Figure BDA00024398781500001115
Figure BDA00024398781500001116
为不同用户(即userx与usery)访问的不同页面(即page1与page2),若
Figure BDA00024398781500001117
Figure BDA00024398781500001118
存在有页面先后执行顺序,即
Figure BDA00024398781500001119
则将所述
Figure BDA00024398781500001120
加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000121
Figure BDA0002439878150000122
Figure BDA0002439878150000123
不存在页面先后执行顺序,放弃记录。
(E)例如,
Figure BDA0002439878150000124
Figure BDA0002439878150000125
为不同用户(即userx与userX)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000126
Figure BDA0002439878150000127
存在有页面先后执行顺序,即
Figure BDA0002439878150000128
则将所述
Figure BDA0002439878150000129
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500001210
Figure BDA00024398781500001211
Figure BDA00024398781500001212
不存在页面先后执行顺序,放弃记录。
比较
Figure BDA00024398781500001213
Figure BDA00024398781500001214
中各个元素的页面之间的先后执行顺序,将存在有页面先后执行顺序的添加到先后执行顺序关系集CRR中:
(A)例如,
Figure BDA00024398781500001215
Figure BDA00024398781500001216
为不同用户(即usery与user1)访问的不同页面(即page1与page2),若
Figure BDA00024398781500001217
Figure BDA00024398781500001218
存在有页面先后执行顺序,即
Figure BDA00024398781500001219
则将所述
Figure BDA00024398781500001220
加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000131
Figure BDA0002439878150000132
Figure BDA0002439878150000133
不存在页面先后执行顺序,放弃记录。
(B)例如,
Figure BDA0002439878150000134
Figure BDA0002439878150000135
为不同用户(即usery与user2)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000136
Figure BDA0002439878150000137
存在有页面先后执行顺序,即
Figure BDA0002439878150000138
则将所述
Figure BDA0002439878150000139
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500001310
Figure BDA00024398781500001311
Figure BDA00024398781500001312
不存在页面先后执行顺序,放弃记录。
(C)例如,
Figure BDA00024398781500001313
Figure BDA00024398781500001314
为不同用户(即usery与userx)访问的不同页面(即page1与page2),若
Figure BDA00024398781500001315
Figure BDA00024398781500001316
存在有页面先后执行顺序,即
Figure BDA00024398781500001317
则将所述
Figure BDA00024398781500001318
加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000141
Figure BDA0002439878150000142
Figure BDA0002439878150000143
不存在页面先后执行顺序,放弃记录。
(D)例如,
Figure BDA0002439878150000144
Figure BDA0002439878150000145
为同一用户(即usery)访问的不同页面(即page1与page2),因为是相同用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中。
(E)例如,
Figure BDA0002439878150000146
Figure BDA0002439878150000147
为不同用户(即usery与userX)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000148
Figure BDA0002439878150000149
存在有页面先后执行顺序,即
Figure BDA00024398781500001410
则将所述
Figure BDA00024398781500001411
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500001412
Figure BDA00024398781500001413
Figure BDA00024398781500001414
不存在页面先后执行顺序,放弃记录。
比较
Figure BDA00024398781500001415
Figure BDA00024398781500001416
中各个元素的页面之间的先后执行顺序,将存在有页面先后执行顺序的添加到先后执行顺序关系集CRR中:
(A)例如,
Figure BDA0002439878150000151
Figure BDA0002439878150000152
为不同用户(即usery与user1)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000153
Figure BDA0002439878150000154
存在有页面先后执行顺序,即
Figure BDA0002439878150000155
则将所述
Figure BDA0002439878150000156
加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000157
Figure BDA0002439878150000158
Figure BDA0002439878150000159
不存在页面先后执行顺序,放弃记录。
(B)例如,
Figure BDA00024398781500001510
Figure BDA00024398781500001511
为不同用户(即usery与user2)访问的不同页面(即page1与page2),若
Figure BDA00024398781500001512
Figure BDA00024398781500001513
存在有页面先后执行顺序,即
Figure BDA00024398781500001514
则将所述
Figure BDA00024398781500001515
加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000161
Figure BDA0002439878150000162
Figure BDA0002439878150000163
不存在页面先后执行顺序,放弃记录。
(C)例如,
Figure BDA0002439878150000164
Figure BDA0002439878150000165
为不同用户(即usery与userx)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000166
Figure BDA0002439878150000167
存在有页面先后执行顺序,即
Figure BDA0002439878150000168
则将所述
Figure BDA0002439878150000169
加入到先后执行顺序关系集CRR中表示为
Figure BDA00024398781500001610
Figure BDA00024398781500001611
Figure BDA00024398781500001612
不存在页面先后执行顺序,放弃记录。
(D)例如,
Figure BDA00024398781500001613
Figure BDA00024398781500001614
为不同用户(即userX与usery)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000171
Figure BDA0002439878150000172
存在有页面先后执行顺序,即
Figure BDA0002439878150000173
则将所述
Figure BDA0002439878150000174
加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000175
Figure BDA0002439878150000176
Figure BDA0002439878150000177
不存在页面先后执行顺序,放弃记录。
(E)例如,
Figure BDA0002439878150000178
Figure BDA0002439878150000179
为同一用户(即userX)访问的不同页面(即page1与page2),因为是相同用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中。
在本发明中,将
Figure BDA00024398781500001710
Figure BDA00024398781500001711
中的各个元素分别进行页面之间的先后执行顺序,将存在有页面先后执行顺序的加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000181
同理可得,比较
Figure BDA0002439878150000182
中的各个元素与
Figure BDA0002439878150000183
中的各个元素的页面之间的先后执行顺序,将存在有页面先后执行顺序的加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000184
同理可得,比较
Figure BDA0002439878150000191
中的各个元素与
Figure BDA0002439878150000192
中的各个元素的页面先后执行顺序;将存在有页面先后执行顺序加入到先后执行顺序关系集CRR中表示为
Figure BDA0002439878150000193
步骤303,重复执行步骤302使
Figure BDA0002439878150000194
Figure BDA0002439878150000195
两两比较遍历完成页面之间的先后执行顺序,并将页面之间的先后执行顺序添加到先后执行顺序关系集CRR中。
步骤四,采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系,然后执行步骤五;
在本发明中,同一用户应用相同访问信息访问相同页面或者不同页面时,赋值为0,且不记录到访问信息互用关系集DRR中。
步骤401,构建一个空的访问信息互用关系集DRR;
在本发明中,访问信息互用关系集DRR用于记录访问时间里、用户使用相同访问信息浏览不同页面产生的日志。
步骤402,比较用户-行为数据集合
Figure BDA0002439878150000196
中任意用户的任意用户行为数据
Figure BDA0002439878150000197
与另一任意用户的另一任意用户行为数据
Figure BDA0002439878150000198
是否存在相同访问信息;
若存在有相同访问信息,记为
Figure BDA0002439878150000199
则将所述
Figure BDA00024398781500001910
添加到访问信息互用关系集DRR中,则加入所述DRR记录的元素表示为
Figure BDA0002439878150000201
Figure BDA0002439878150000202
Figure BDA0002439878150000203
中存在着用相同的访问信息对页面pagea和页面pageb进行访问,因此
Figure BDA0002439878150000204
Figure BDA0002439878150000205
中有访问信息互用的关系。
若访问的不同页面不存在访问信息互用,定义为不存在互用访问信息,不记录到访问信息互用关系集DRR中。
在本发明中,当三个用户行为数据(
Figure BDA0002439878150000206
Figure BDA0002439878150000207
)存在有互用访问信息时,添加到访问信息互用关系集DRR中的元素表示为
Figure BDA0002439878150000208
在本发明中,当五个用户行为数据(
Figure BDA0002439878150000209
Figure BDA00024398781500002010
)存在有互用访问信息时,添加到访问信息互用关系集DRR中的元素表示为
Figure BDA00024398781500002011
在本发明的访问时间里,所有的访问信息互用关系集DRR中的元素表示为
Figure BDA00024398781500002012
为了详细说明添加到访问信息互用关系集DRR中的各个元素,下面以举例形式进行列举:
比较
Figure BDA00024398781500002013
中的各个元素与
Figure BDA00024398781500002014
中的各个元素的页面之间是否互用访问信息;
若访问的不同页面存在有访问信息互用,则将所述互用访问信息关系添加到访问信息互用关系集DRR中;
若访问的不同页面不存在访问信息互用,不记录到访问信息互用关系集DRR中。
比较
Figure BDA00024398781500002015
Figure BDA00024398781500002016
中各个元素的页面之间的互用访问信息,将存在有互用访问信息的页面关系添加到访问信息互用关系集DRR中:
(A)例如,
Figure BDA00024398781500002017
Figure BDA00024398781500002018
为同一用户(即user1)访问的不同页面(即page1与page2),因为是同一用户访问Web页面,定义为不存在页面的互用访问信息,不记录到访问信息互用关系集DRR中。
(B)例如,
Figure BDA00024398781500002019
Figure BDA00024398781500002020
为不同用户(即user1与user2)访问的不同页面(即page1与page2);若
Figure BDA00024398781500002021
Figure BDA00024398781500002022
存在有页面的互用访问信息,即
Figure BDA00024398781500002023
则将所述
Figure BDA00024398781500002024
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002025
Figure BDA00024398781500002026
Figure BDA0002439878150000211
不存在页面的互用访问信息,放弃记录。
(C)例如,
Figure BDA0002439878150000212
Figure BDA0002439878150000213
为不同用户(即user1与userx)访问的不同页面(即page1与page2);若
Figure BDA0002439878150000214
Figure BDA0002439878150000215
存在有页面的互用访问信息,即
Figure BDA0002439878150000216
则将所述
Figure BDA0002439878150000217
加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000218
Figure BDA0002439878150000219
Figure BDA00024398781500002110
不存在页面的互用访问信息,放弃记录。
(D)例如,
Figure BDA00024398781500002111
Figure BDA00024398781500002112
为不同用户(即user1与usery)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002113
Figure BDA00024398781500002114
存在有页面的互用访问信息,即
Figure BDA00024398781500002115
则将所述
Figure BDA00024398781500002116
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002117
Figure BDA00024398781500002118
Figure BDA00024398781500002119
不存在页面的互用访问信息,放弃记录。
(E)例如,
Figure BDA00024398781500002120
Figure BDA00024398781500002121
为不同用户(即user1与userX)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002122
Figure BDA00024398781500002123
存在有页面的互用访问信息,即
Figure BDA00024398781500002124
则将所述
Figure BDA00024398781500002125
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002126
Figure BDA00024398781500002127
Figure BDA00024398781500002128
不存在页面的访问信息互用,放弃记录。
比较
Figure BDA00024398781500002129
Figure BDA00024398781500002130
中各个元素的页面之间的互用访问信息,将存在有互用访问信息的页面关系添加到访问信息互用关系集DRR中:
(A)例如,
Figure BDA00024398781500002131
Figure BDA00024398781500002132
为不同用户(即user2与user1)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002133
Figure BDA00024398781500002134
存在有页面的互用访问信息,即
Figure BDA00024398781500002135
则将所述
Figure BDA00024398781500002136
加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000221
Figure BDA0002439878150000222
Figure BDA0002439878150000223
不存在有页面的互用访问信息,放弃记录。
(B)例如,
Figure BDA0002439878150000224
Figure BDA0002439878150000225
为同一用户(即user2)访问的不同页面(即page1与page2),因为是相同用户访问Web页面,定义为不存在页面的互用访问信息,不记录到访问信息互用关系集DRR中。
(C)例如,
Figure BDA0002439878150000226
Figure BDA0002439878150000227
为不同用户(即user2与userx)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000228
Figure BDA0002439878150000229
存在有页面的互用访问信息,即
Figure BDA00024398781500002210
则将所述
Figure BDA00024398781500002211
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002212
Figure BDA00024398781500002213
Figure BDA00024398781500002214
不存在页面的互用访问信息,放弃记录。
(D)例如,
Figure BDA00024398781500002215
Figure BDA00024398781500002216
为不同用户(即user2与usery)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002217
Figure BDA00024398781500002218
存在有页面的互用访问信息,即
Figure BDA00024398781500002219
则将所述
Figure BDA00024398781500002220
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002221
Figure BDA00024398781500002222
Figure BDA00024398781500002223
不存在页面的互用访问信息,放弃记录。
(E)例如,
Figure BDA00024398781500002224
Figure BDA00024398781500002225
为不同用户(即user2与userX)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002226
Figure BDA00024398781500002227
存在有页面的互用访问信息,即
Figure BDA0002439878150000231
则将所述
Figure BDA0002439878150000232
加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000233
Figure BDA0002439878150000234
Figure BDA0002439878150000235
不存在页面的互用访问信息,放弃记录。
比较
Figure BDA0002439878150000236
Figure BDA0002439878150000237
中各个元素的页面之间的互用访问信息,将存在有互用访问信息的页面关系添加到互用访问信息关系集DRR中:
(A)例如,
Figure BDA0002439878150000238
Figure BDA0002439878150000239
为不同用户(即userx与user1)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002310
Figure BDA00024398781500002311
存在有页面的互用访问信息,即
Figure BDA00024398781500002312
则将所述
Figure BDA00024398781500002313
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002314
Figure BDA00024398781500002315
Figure BDA00024398781500002316
不存在有页面的互用访问信息,放弃记录。
(B)例如,
Figure BDA00024398781500002317
Figure BDA00024398781500002318
为不同用户(即userx与user2)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002319
Figure BDA00024398781500002320
存在有页面的互用访问信息,即
Figure BDA00024398781500002321
则将所述
Figure BDA00024398781500002322
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002323
Figure BDA0002439878150000241
Figure BDA0002439878150000242
不存在页面的互用访问信息,放弃记录。
(C)例如,
Figure BDA0002439878150000243
Figure BDA0002439878150000244
为同一用户(即userx)访问的不同页面(即page1与page2),因为是相同用户访问Web页面,定义为不存在页面的互用访问信息,不记录到访问信息互用关系集DRR中。
(D)例如,
Figure BDA0002439878150000245
Figure BDA0002439878150000246
为不同用户(即userx与usery)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000247
Figure BDA0002439878150000248
存在有页面的互用访问信息,即
Figure BDA0002439878150000249
则将所述
Figure BDA00024398781500002410
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002411
Figure BDA00024398781500002412
Figure BDA00024398781500002413
不存在页面的互用访问信息,放弃记录。
(E)例如,
Figure BDA00024398781500002414
Figure BDA00024398781500002415
为不同用户(即userx与userX)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002416
Figure BDA00024398781500002417
存在有页面的互用访问信息,即
Figure BDA00024398781500002418
则将所述
Figure BDA00024398781500002419
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002420
Figure BDA00024398781500002421
Figure BDA00024398781500002422
不存在页面的互用访问信息,放弃记录。
比较
Figure BDA00024398781500002423
Figure BDA00024398781500002424
中各个元素的页面之间的互用访问信息,将存在有互用访问信息的页面关系添加到访问信息互用关系集DRR中:
(A)例如,
Figure BDA00024398781500002425
Figure BDA00024398781500002426
为不同用户(即usery与user1)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000251
Figure BDA0002439878150000252
存在有页面的互用访问信息,即
Figure BDA0002439878150000253
则将所述
Figure BDA0002439878150000254
加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000255
Figure BDA0002439878150000256
Figure BDA0002439878150000257
不存在页面的互用访问信息,放弃记录。
(B)例如,
Figure BDA0002439878150000258
Figure BDA0002439878150000259
为不同用户(即usery与user2)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002510
Figure BDA00024398781500002511
存在有页面的互用访问信息,即
Figure BDA00024398781500002512
则将所述
Figure BDA00024398781500002513
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002514
Figure BDA00024398781500002515
Figure BDA00024398781500002516
不存在页面的互用访问信息,放弃记录。
(C)例如,
Figure BDA00024398781500002517
Figure BDA00024398781500002518
为不同用户(即usery与userx)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002519
Figure BDA00024398781500002520
存在有页面的互用访问信息,即
Figure BDA00024398781500002521
则将所述
Figure BDA00024398781500002522
加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000261
Figure BDA0002439878150000262
Figure BDA0002439878150000263
不存在页面的互用访问信息,放弃记录。
(D)例如,
Figure BDA0002439878150000264
Figure BDA0002439878150000265
为同一用户(即usery)访问的不同页面(即page1与page2),因为是相同用户访问Web页面,定义为不存在页面的互用访问信息,不记录到访问信息互用关系集DRR中。
(E)例如,
Figure BDA0002439878150000266
Figure BDA0002439878150000267
为不同用户(即usery与userX)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000268
Figure BDA0002439878150000269
存在有页面的互用访问信息,即
Figure BDA00024398781500002610
则将所述
Figure BDA00024398781500002611
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002612
Figure BDA00024398781500002613
Figure BDA00024398781500002614
不存在页面的互用访问信息,放弃记录。
比较
Figure BDA00024398781500002615
Figure BDA00024398781500002616
中各个元素的页面之间的互用访问信息,将存在有互用访问信息的页面关系添加到访问信息互用关系集DRR中:
(A)例如,
Figure BDA0002439878150000271
Figure BDA0002439878150000272
为不同用户(即usery与user1)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000273
Figure BDA0002439878150000274
存在有页面的互用访问信息,即
Figure BDA0002439878150000275
则将所述
Figure BDA0002439878150000276
加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000277
Figure BDA0002439878150000278
Figure BDA0002439878150000279
不存在页面的互用访问信息,放弃记录。
(B)例如,
Figure BDA00024398781500002710
Figure BDA00024398781500002711
为不同用户(即usery与user2)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002712
Figure BDA00024398781500002713
存在有页面的互用访问信息,即
Figure BDA00024398781500002714
则将所述
Figure BDA00024398781500002715
加入到访问信息互用关系集DRR中表示为
Figure BDA00024398781500002716
Figure BDA0002439878150000281
Figure BDA0002439878150000282
不存在页面的互用访问信息,放弃记录。
(C)例如,
Figure BDA0002439878150000283
Figure BDA0002439878150000284
为不同用户(即usery与userx)访问的不同页面(即page1与page2),若
Figure BDA0002439878150000285
Figure BDA0002439878150000286
存在有页面的互用访问信息,即
Figure BDA0002439878150000287
则将所述
Figure BDA0002439878150000288
加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000289
Figure BDA00024398781500002810
Figure BDA00024398781500002811
不存在页面的互用访问信息,放弃记录。
(D)例如,
Figure BDA00024398781500002812
Figure BDA00024398781500002813
为不同用户(即userX与usery)访问的不同页面(即page1与page2),若
Figure BDA00024398781500002814
Figure BDA00024398781500002815
存在有页面的互用访问信息,即
Figure BDA00024398781500002816
则将所述
Figure BDA00024398781500002817
加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000291
Figure BDA0002439878150000292
Figure BDA0002439878150000293
不存在页面的互用访问信息,放弃记录。
(E)例如,
Figure BDA0002439878150000294
Figure BDA0002439878150000295
为同一用户(即userX)访问的不同页面(即page1与page2),因为是相同用户访问Web页面,定义为不存在页面的互用访问信息,不记录到访问信息互用关系集DRR中。
在本发明中,比较
Figure BDA0002439878150000296
中的各个元素与
Figure BDA0002439878150000297
中的各个元素的页面之间的访问信息互用;将存在有页面的访问信息互用的加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000301
同理可得,若
Figure BDA0002439878150000302
Figure BDA0002439878150000303
Figure BDA0002439878150000304
中的各个页面存在有互用访问信息;将存在有页面的访问信息互用加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000311
同理可得,若
Figure BDA0002439878150000312
Figure BDA0002439878150000313
中的各个页面存在有互用访问信息;将存在有页面的访问信息互用加入到访问信息互用关系集DRR中表示为
Figure BDA0002439878150000321
步骤403,重复执行步骤402使
Figure BDA0002439878150000322
Figure BDA0002439878150000323
遍历完成页面之间的互用访问信息,并将页面之间的访问信息互用添加到访问信息互用关系集DRR中。
步骤五,用户行为数据最小集的获取;
步骤501,接收步骤三输出的先后执行顺序关系集CRR,所述CRR记录的元素表示为
Figure BDA0002439878150000324
执行步骤503;
步骤502,接收步骤四输出的访问信息互用关系集DRR,所述DRR记录的元素表示为
Figure BDA0002439878150000325
执行步骤503;
步骤503,从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面,并生成测试用例集UU;所述测试用例集UU将作为数据库的部分内容,用于实现数据挖掘。所述测试用例集UU记录的元素表示为
Figure BDA0002439878150000326
例如,比较先后执行顺序关系集
Figure BDA0002439878150000327
与访问信息互用关系集
Figure BDA0002439878150000328
一方面,页面page1与页面page2存在有页面执行顺序
Figure BDA0002439878150000329
且访问页面page1的是用户user1,访问页面page2的是用户user2
另一方面,用户行为日志
Figure BDA00024398781500003210
包含在互用访问信息
Figure BDA0002439878150000331
中,所述
Figure BDA0002439878150000332
涉及的页面有page1,page2,pagea,pageb,pageA
则生成的测试用例,记为
Figure BDA0002439878150000333
例如,比较先后执行顺序关系集
Figure BDA0002439878150000334
中的
Figure BDA0002439878150000335
与访问信息互用关系集
Figure BDA0002439878150000336
一方面,页面page1与页面pagea存在有页面执行顺序
Figure BDA0002439878150000337
且访问页面page1的是用户user1,访问页面pagea的是用户user2
另一方面,用户行为日志
Figure BDA0002439878150000338
未包含在访问信息互用关系集
Figure BDA0002439878150000339
中,不能生成测试用例。
当比较
Figure BDA0002439878150000341
与访问信息互用关系集
Figure BDA0002439878150000342
一方面,页面page1与页面pagea存在有页面执行顺序
Figure BDA0002439878150000343
且访问页面page1的是用户user1,访问页面pagea的是用户userx
另一方面,用户行为日志
Figure BDA0002439878150000344
包含在互用访问信息
Figure BDA0002439878150000345
中,所述
Figure BDA0002439878150000346
涉及的页面有page1,page2,pagea,pageb,pageA
则生成的测试用例,记为
Figure BDA0002439878150000347
当比较
Figure BDA0002439878150000348
与访问信息互用关系集
Figure BDA0002439878150000349
一方面,页面page1与页面pagea存在有页面执行顺序
Figure BDA00024398781500003410
且访问页面page1的是用户userx,访问页面pagea的是用户user1
另一方面,用户行为日志
Figure BDA00024398781500003411
未包含在访问信息互用关系集
Figure BDA00024398781500003412
中,不能生成测试用例。
实施例1
步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;
在访问时间里,获取的用户-会话数据集合
Figure BDA0002439878150000351
步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;
Figure BDA0002439878150000352
去除后缀处理后得到的用户-行为数据集合
Figure BDA0002439878150000353
在步骤一获取的用户会话数据中,
Figure BDA0002439878150000354
的后缀是jpg,
Figure BDA0002439878150000355
的后缀是GIF,则剩下了
Figure BDA0002439878150000356
Figure BDA0002439878150000357
作为用户行为数据,表示为
Figure BDA0002439878150000358
Figure BDA0002439878150000359
Figure BDA00024398781500003510
步骤三,采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系;然后执行步骤五;
步骤301,构建一个空的先后执行顺序关系集CRR;
步骤302,比较用户行为数据中的页面是否存在页面先后执行顺序;
对实施例1选取的8个用户行为数据
Figure BDA00024398781500003511
页面两两关联将有(8×8)个页面关联,但不是所有的页面关联都存在页面先后执行顺序。
对访问日志的分析得到存在有页面先后执行顺序的是:
(1)
Figure BDA00024398781500003512
Figure BDA00024398781500003513
存在有页面先后执行顺序,记为
Figure BDA00024398781500003514
则将所述
Figure BDA00024398781500003515
添加到先后执行顺序关系集CRR中,则加入所述CRR记录的元素表示为
Figure BDA00024398781500003516
(2)
Figure BDA00024398781500003517
Figure BDA00024398781500003518
存在有页面先后执行顺序,记为
Figure BDA00024398781500003519
则将所述
Figure BDA00024398781500003520
添加到先后执行顺序关系集CRR中,则加入所述CRR记录的元素表示为
Figure BDA00024398781500003521
(3)
Figure BDA00024398781500003522
Figure BDA00024398781500003523
存在有页面先后执行顺序,记为
Figure BDA00024398781500003524
则将所述
Figure BDA00024398781500003525
添加到先后执行顺序关系集CRR中,则加入所述CRR记录的元素表示为
Figure BDA0002439878150000361
(4)
Figure BDA0002439878150000362
Figure BDA0002439878150000363
存在有页面先后执行顺序,记为
Figure BDA0002439878150000364
则将所述
Figure BDA0002439878150000365
添加到先后执行顺序关系集CRR中,则加入所述CRR记录的元素表示为
Figure BDA0002439878150000366
步骤四,采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系,然后执行步骤五;
步骤401,构建一个空的访问信息互用关系集DRR;
步骤402,用户-行为数据集合
Figure BDA0002439878150000367
中存在相同访问信息的有:
(1)
Figure BDA0002439878150000368
Figure BDA0002439878150000369
存在有相同访问信息,记为
Figure BDA00024398781500003610
则将所述
Figure BDA00024398781500003611
添加到访问信息互用关系集DRR中,则加入所述DRR记录的元素表示为
Figure BDA00024398781500003612
(2)
Figure BDA00024398781500003613
Figure BDA00024398781500003614
存在有互用访问信息时,添加到访问信息互用关系集DRR中的元素表示为
Figure BDA00024398781500003615
(3)
Figure BDA00024398781500003616
Figure BDA00024398781500003617
存在有互用访问信息时,添加到访问信息互用关系集DRR中的元素表示为
Figure BDA00024398781500003618
在实施例1的访问信息互用关系集DRR中的元素表示为
Figure BDA00024398781500003619
步骤五,用户行为数据最小集的获取;
步骤501,接收步骤三输出的先后执行顺序关系集CRR,所述CRR记录的元素表示为
Figure BDA0002439878150000371
执行步骤503;
步骤502,接收步骤四输出的访问信息互用关系集DRR,所述DRR记录的元素表示为
Figure BDA0002439878150000372
执行步骤503;
步骤503,从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面,并生成测试用例集UU;所述测试用例集UU将作为数据库的部分内容,用于实现数据挖掘。
(1)比较
Figure BDA0002439878150000373
Figure BDA0002439878150000374
一方面,页面page1与页面page2存在有页面执行顺序
Figure BDA0002439878150000375
且访问页面page1的是用户user1,访问页面page2的是用户user2
另一方面,用户行为日志
Figure BDA0002439878150000376
包含在互用访问信息
Figure BDA0002439878150000377
中,所述
Figure BDA0002439878150000378
涉及的页面有page1,page2,pagea,pageb,pageA
则生成的测试用例,记为
Figure BDA0002439878150000379
(2)比较
Figure BDA00024398781500003710
Figure BDA0002439878150000381
一方面,页面page1与页面pagea存在有页面执行顺序
Figure BDA0002439878150000382
且访问页面page1的是用户user1,访问页面pagea的是用户user2
另一方面,用户行为日志
Figure BDA0002439878150000383
未包含在访问信息互用关系集
Figure BDA0002439878150000384
中,不能生成测试用例。
(3)比较
Figure BDA0002439878150000385
Figure BDA0002439878150000386
一方面,页面pagea与页面page2存在有页面执行顺序
Figure BDA0002439878150000387
且访问页面pagea的是用户userX,访问页面page2的是用户user2
另一方面,用户行为日志
Figure BDA0002439878150000388
未包含在访问信息互用关系集
Figure BDA0002439878150000389
中,不能生成测试用例。
(4)比较
Figure BDA00024398781500003810
Figure BDA00024398781500003811
一方面,页面pagea与页面pageb存在有页面执行顺序
Figure BDA00024398781500003812
且访问页面pagea的是用户userx,访问页面pageb的是用户usery
另一方面,用户行为日志
Figure BDA0002439878150000391
包含在互用访问信息
Figure BDA0002439878150000392
中,所述
Figure BDA0002439878150000393
涉及的页面有page1,page2,pagea,pageb,pageA
则生成的测试用例,记为
Figure BDA0002439878150000394
统计实施例1中测试用例集中的元素有
Figure BDA0002439878150000395
本发明提出的一种融合用户行为及Web页面依赖关系的数据挖掘方法,通过对用户会话数据的预处理,得到用户行为数据。然后采用页面控制依赖关系和访问信息互用关系分别对用户行为数据的处理,并以用户会话之间的顺序-互用数据依赖关系生成测试用例。测试用例将作为数据库的部分内容,用于实现数据挖掘。

Claims (7)

1.一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于包括有下列步骤:
步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;
在访问时间里,收集页面集MP={page1,page2,…,pagea,…,pageb,…,pageA}中每个页面被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了用户-会话数据集合,记为MUS,且
Figure FDA0002439878140000011
所述用户集US={user1,user2,…,userx,…,usery,…,userX}中;
user1表示第一个用户;
user2表示第二个用户;
userx表示任意用户,下角标x表示用户标识号,x∈X;usery表示另一任意用户,y∈X;且userx与usery表示用户集US中的不同用户;
userX表示最后一个用户,下角标X表示总用户数。
所述页面集MP={page1,page2,…,pagea,…,pageb,…,pageA}中;
page1表示Web应用中的第一个页面;
page2表示Web应用中的第二个页面;
pagea表示Web应用中的任意页面;下角标a为页面标识号,a∈A;pageb表示Web应用中的另一任意页面,b∈A;且pagea与pageb表示Web应用页面集MP中的不同页面;
pageA表示Web应用中的最后一个页面;下角标A为总页面数。
page1_US表示多个用户访问第一页面page1形成的用户会话数据;
page2_US表示多个用户访问第二页面page2形成的用户会话数据;
pagea_US表示多个用户访问任意页面pagea形成的用户会话数据;
pageb_US表示多个用户访问另一任意页面pageb形成的用户会话数据;
pageA_US表示多个用户访问最好一页面pageA形成的用户会话数据;
步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;
对所述用户-会话数据集合
Figure FDA0002439878140000021
进行去除后缀处理,得到去除后缀处理后的用户行为数据,则构成了用户-行为数据集合,记为FUS,且
Figure FDA0002439878140000022
Figure FDA0002439878140000023
表示page1_US被去除后缀后的用户行为数据;
Figure FDA0002439878140000024
表示page2_US被去除后缀后的用户行为数据;
Figure FDA0002439878140000025
表示pagea_US被去除后缀后的用户行为数据;
Figure FDA0002439878140000026
表示pageb_US被去除后缀后的用户行为数据;
Figure FDA0002439878140000027
表示pageA_US被去除后缀后的用户行为数据;
在本发明中,后缀是指包含有gif、jpg、jpeg、GIF、JPG或者JPEG的页面文件。
步骤三,采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系;然后执行步骤五;
步骤301,构建一个空的先后执行顺序关系集CRR;
步骤302,比较用户-行为数据集合
Figure FDA0002439878140000028
中任意用户的任意用户行为数据
Figure FDA0002439878140000029
与另一任意用户的另一任意用户行为数据
Figure FDA00024398781400000210
是否存在页面先后执行顺序;
若存在有页面先后执行顺序,记为
Figure FDA00024398781400000211
则将所述
Figure FDA00024398781400000212
添加到先后执行顺序关系集CRR中,则加入所述CRR记录的元素表示为
Figure FDA00024398781400000213
若为同一用户访问的不同页面,因为是一个用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中;
若为不同用户访问的同一页面,因为同一页面不作页面先后执行顺序比较,不记录到先后执行顺序关系集CRR中。
步骤303,重复执行步骤302使
Figure FDA0002439878140000031
Figure FDA0002439878140000032
两两比较遍历完成页面之间的先后执行顺序,并将页面之间的先后执行顺序添加到先后执行顺序关系集CRR中。
步骤四,采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系,然后执行步骤五;
步骤401,构建一个空的访问信息互用关系集DRR;
访问信息互用关系集DRR用于记录访问时间里、用户使用相同访问信息浏览不同页面产生的日志。
步骤402,比较用户-行为数据集合
Figure FDA0002439878140000033
中任意用户的任意用户行为数据
Figure FDA0002439878140000034
与另一任意用户的另一任意用户行为数据
Figure FDA0002439878140000035
是否存在相同访问信息;
若存在有相同访问信息,记为
Figure FDA0002439878140000036
则将所述
Figure FDA0002439878140000037
添加到访问信息互用关系集DRR中,则加入所述DRR记录的元素表示为
Figure FDA0002439878140000038
若访问的不同页面不存在访问信息互用,定义为不存在互用访问信息,不记录到访问信息互用关系集DRR中。
步骤403,重复执行步骤402使
Figure FDA0002439878140000039
Figure FDA00024398781400000310
遍历完成页面之间的互用访问信息,并将页面之间的访问信息互用添加到访问信息互用关系集DRR中。
步骤五,用户行为数据最小集的获取;
步骤501,接收步骤三输出的先后执行顺序关系集CRR,所述CRR记录的元素表示为
Figure FDA00024398781400000311
执行步骤503;
步骤502,接收步骤四输出的访问信息互用关系集DRR,所述DRR记录的元素表示为
Figure FDA0002439878140000041
执行步骤503;
步骤503,从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面,并生成测试用例集UU;所述测试用例集UU记录的元素表示为
Figure FDA0002439878140000042
2.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤三中,页面的先后执行顺序是不同用户访问的两个页面之间进行的。
3.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤三中,同一用户访问的两个页面不比较,不记录入先后执行顺序关系集CRR中。
4.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤三中,不同用户访问的同一页面不比较,不记录入先后执行顺序关系集CRR中。
5.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤三中,相同页面和相同用户作比较时,不记录到先后执行顺序关系集CRR中。
6.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:在步骤四中,同一用户应用相同访问信息访问相同页面或者不同页面时,赋值为0,且不记录到访问信息互用关系集DRR中。
7.根据权利要求1所述的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于:生成的测试用例集UU补充到数据作业界开发数据收集和数据库中。
CN202010262268.8A 2020-04-06 2020-04-06 一种融合用户行为及Web页面依赖关系的数据挖掘方法 Active CN111460004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010262268.8A CN111460004B (zh) 2020-04-06 2020-04-06 一种融合用户行为及Web页面依赖关系的数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010262268.8A CN111460004B (zh) 2020-04-06 2020-04-06 一种融合用户行为及Web页面依赖关系的数据挖掘方法

Publications (2)

Publication Number Publication Date
CN111460004A true CN111460004A (zh) 2020-07-28
CN111460004B CN111460004B (zh) 2023-04-14

Family

ID=71681627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010262268.8A Active CN111460004B (zh) 2020-04-06 2020-04-06 一种融合用户行为及Web页面依赖关系的数据挖掘方法

Country Status (1)

Country Link
CN (1) CN111460004B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN102446222A (zh) * 2011-12-22 2012-05-09 华为技术有限公司 一种网页内容预加载方法、装置及系统
CN103139258A (zh) * 2011-11-30 2013-06-05 百度在线网络技术(北京)有限公司 一种处理移动终端的页面访问请求的方法、设备与系统
WO2014182055A1 (ko) * 2013-05-07 2014-11-13 주식회사 시맨틱렙홀딩스 객체정보 제공 시스템 및 방법
CN105721427A (zh) * 2016-01-14 2016-06-29 湖南大学 一种从Web日志中挖掘攻击频繁序列模式的方法
CN106021079A (zh) * 2016-05-06 2016-10-12 华南理工大学 一种基于用户频繁访问序列模型的Web应用性能测试方法
CN106202251A (zh) * 2016-06-29 2016-12-07 泰华智慧产业集团股份有限公司 一种基于用户访问的关联页面挖掘方法及系统
CN110874325A (zh) * 2019-10-31 2020-03-10 北方工业大学 一种基于用户会话的Web应用测试用例扩充方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN103139258A (zh) * 2011-11-30 2013-06-05 百度在线网络技术(北京)有限公司 一种处理移动终端的页面访问请求的方法、设备与系统
CN102446222A (zh) * 2011-12-22 2012-05-09 华为技术有限公司 一种网页内容预加载方法、装置及系统
WO2014182055A1 (ko) * 2013-05-07 2014-11-13 주식회사 시맨틱렙홀딩스 객체정보 제공 시스템 및 방법
CN105721427A (zh) * 2016-01-14 2016-06-29 湖南大学 一种从Web日志中挖掘攻击频繁序列模式的方法
CN106021079A (zh) * 2016-05-06 2016-10-12 华南理工大学 一种基于用户频繁访问序列模型的Web应用性能测试方法
CN106202251A (zh) * 2016-06-29 2016-12-07 泰华智慧产业集团股份有限公司 一种基于用户访问的关联页面挖掘方法及系统
CN110874325A (zh) * 2019-10-31 2020-03-10 北方工业大学 一种基于用户会话的Web应用测试用例扩充方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IGOR CADEZ ET AL.: "Model-Based Clustering and Visualization of Navigation Patterns on a Web Site" *
崔慧超: "Web资源质量信息提取与管理技术的研究与实现" *

Also Published As

Publication number Publication date
CN111460004B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
Leno et al. Robotic process mining: vision and challenges
Assunção et al. Feature location for software product line migration: a mapping study
CN109766438A (zh) 简历信息提取方法、装置、计算机设备和存储介质
Fabbri et al. Managing Literature Reviews Information through Visualization.
Villanes et al. What are software engineers asking about android testing on stack overflow?
CN113076538B (zh) 一种移动应用apk文件内嵌隐私政策提取方法
Norton Knowledge discovery in databases
Chi et al. Developing base domain ontology from a reference collection to aid information retrieval
Karnalim et al. Layered similarity detection for programming plagiarism and collusion on weekly assessments
US20010025277A1 (en) Categorisation of data entities
CN111460004B (zh) 一种融合用户行为及Web页面依赖关系的数据挖掘方法
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Cantrell et al. Implementing the automated phases of the partially-automated digital triage process model
KR20100090178A (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템
Su et al. Harvesting information from a library data warehouse
Wang et al. Evaluating student learning effect based on process mining
KR20210153912A (ko) 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법
Ceddia et al. WAT: a tool for classifying learning activities from a log file
CN115203057B (zh) 低代码测试自动化方法、装置、设备及存储介质
Sidana et al. Review of web usage of data mining in web mining.
Börner et al. Replicable Science of Science Studies
Bianco et al. Software tool for thematic evolution analysis of scientific publications in spanish
JP2010250567A (ja) 環境情報集計分析システム
JP2003058559A (ja) 文書分類方法、検索方法、分類システム及び検索システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant