CN103970843B

CN103970843B - 一种Web日志预处理中基于UUID的会话合并方法

Info

Publication number: CN103970843B
Application number: CN201410174533.1A
Authority: CN
Inventors: 陈德华; 沈昌干; 潘乔; 罗昕
Original assignee: SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd; Donghua University
Current assignee: SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd; Donghua University
Priority date: 2014-04-28
Filing date: 2014-04-28
Publication date: 2017-09-19
Anticipated expiration: 2034-04-28
Also published as: CN103970843A

Abstract

本发明涉及一种Web日志预处理中基于UUID的会话合并方法，其特征在于，步骤为：第一步、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称，建立不同网站域名与UUID字段名称之间的对应关系；第二步、在用于Web日志挖掘的数据中，为每一行标记有会话ID的web日志记录增加一个UUID字段；第三步、将含有相同UUID字段值的会话合并至一个会话中。本发明提出了一种Web日志预处理中基于UUID的会话合并方法，创新性地提出了自动识别UUID字段标识符，然后将UUID相同的会话合并成一个大集合的会话。

Description

一种Web日志预处理中基于UUID的会话合并方法

技术领域

本发明涉及Hadoop云计算平台以及web日志预处理中基于通用唯一识别码(Universally Unique Identifier，UUID)的合并会话，属于云计算以及web日志预处理两大领域。

背景技术

云计算是一种基于互联网的计算方式，是处理大数据的非常有效的解决方案。通过云计算这种方式，共享的软硬件资源和信息可以高效率地按需求提供给计算机和其他设备。Hadoop是Apache基金会下的一款开源软件，是一种针对大数据处理和分析的开源分布式计算平台，它实现了包括分布式文件系统和MapReduce框架在内的云计算软件平台的基础架构，并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台，其已成为工业界和学术界进行云计算应用和研究的标准平台。

通常，Web日志挖掘包含三大步骤：数据预处理、模式识别和模式分析，其中数据预处理是关键和首要任务。Web日志挖掘的数据预处理包括数据清洗、用户识别、会话识别，会话合并等步骤，其结果决定着Web日志挖掘的效率和准确性。

会话识别的结果是短时间内具有连续访问特点的日志被分配一个唯一的会话ID(session ID)，同一个用户的所有访问记录往往由多个会话组成，会话合并是重要的预处理步骤，其目的就是将属于同一个用户的会话合并在一起，分配一个相同用户标记字段，使得属于同一个用户的访问记录的用户标记字段相同，不同的用户访问记录的用户标记字段不同。根据方法的不同会话合并可分为基于相同账户的用户识别，基于浏览器UUID的会话合并。

UUID是指web服务器在客户端浏览器在请求服务器资源时生成的用于唯一标识浏览器的数字，它保证对在同一时空中的所有机器浏览器的标识都是唯一的。用户在访问网站时，网站服务器将UUID嵌入到Cookie中以标识同一个浏览器，如果某两条web日志的Cookie中的UUID相同，则说明他们是同一个人在同一个浏览器上访问的web日志。

发明内容

本发明的目的是提供一种基于UUID进行会话合并的方法。

为了达到上述目的，本发明的技术方案是提供了一种Web日志预处理中基于UUID的会话合并方法，其特征在于，步骤为：

第一步、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称，建立不同网站域名与UUID字段名称之间的对应关系：

通过特定浏览器实例访问不同的指定网站，收集每个网站的Cookie数据，对Cookie数据的集合进行UUID预处理，从UUID预处理得到的结果中筛选出符合UUID特征的当前网站Cookie中用于标识UUID的UUID字段名称，获取某一网站S的用于标识UUID的UUID字段名称的具体步骤为：

步骤1.1、用户使用特定浏览器实例循环访问指定的网站S至少N次，N≥2，每次访问时，提取特定浏览器实例中与该网站S相关的Cookie数据组成集合，第i次访问时，提取到的集合记为Ci，则可得到N个集合，C1，…，CN；

步骤1.2、计算得到N个集合的交集D，则有D＝C1∩…∩CN；

步骤1.3、重置特定浏览器实例中的Cookie数据，重新访问网站S，提取该特定浏览器实例中与网站S相关的Cookie数据组成集合Cx；

步骤1.4、计算交集D与集合Cx的差，得到集合E，则有E＝D-Cx；

步骤1.5、获取特定浏览器访问网站S的所有历史Cookie数据的集合CS：

步骤1.6、在集合E中去除集合CS中用户代理UserAgent不同但域值相同的字段域，生成集合E(a)；

步骤1.7、在集合E(a)中去除集合CS中同时存在的相同域值与不同域值的不同部分，生成集合E(b)；

步骤1.8、在集合E(b)中选取生存时间TTL最大且最长的识别串作为与当前网站S的域名相对应的UUID字段名称；

第二步、在用于Web日志挖掘的数据中，为每一行标记有会话ID的web日志记录增加一个UUID字段，其中，为第i行标记有会话ID的web日志记录增加UUID字段的步骤为：

步骤2.1、第i行标记有会话ID的web日志记录的URL字段提取网站域名；

步骤2.2、找到与当前网站域名相对应的UUID字段名称；

步骤2.3、从第i行标记有会话ID的web日志记录的Cookie字段找到步骤2.2得到的UUID字段名称所对应的UUID字段值；

步骤2.4、为第i行标记有会话ID的web日志记录增加一个以步骤2.2得到的UUID字段名称命名的UUID字段，其值为通过步骤2.3获得的UUID字段值；

第三步、将含有相同UUID字段值的会话合并至一个会话中。

优选地，在所述步骤1.8中、在集合E(b)中选取生存时间TTL最大且最长的识别串作为基本UUID字段名，其他识别串作为候选UUID字段名，先将基本UUID字段名与当前网站S的Cookie数据相匹配，若能匹配成功，则将该基本UUID字段名作为与当前网站S的域名相对应的UUID字段名称，否则，将候选UUID字段名与当前网站S的Cookie数据相匹配，若能匹配成功，则将能成功匹配的那个候选UUID字段名作为与当前网站S的域名相对应的UUID字段名称。

优选地，所述第三步的具体步骤为：遍历标识有UUID字段的所有web日志记录，将相同UUID字段值的web日志记录归为同一组web日志记录组，再遍历所有web日志记录组，将同一web日志记录组内的会话ID字段设置为相同的值。

本发明提出了一种Web日志预处理中基于UUID的会话合并方法，创新性地提出了自动识别UUID字段标识符，然后将UUID相同的会话合并成一个大集合的会话。

附图说明

图1为本发明会话合并的流程图；

图2为本发明为Web日志每一行记录标识UUID字段值的流程图；

图3为本发明合并相同UUID到同一个会话的流程图；

图4为本发明第一步骤UUID预处理模块数据流图；

图5为本发明第一步骤UUID筛选模块数据流图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

如图1所示，本发明提供了一种Web日志预处理中基于UUID的会话合并方法，其步骤为：

步骤101、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称，建立不同网站域名与UUID字段名称之间的对应关系：

为了实现本步骤，需要使用到两个模块，一个模块为UUID预处理模块，另一个模块为UUID筛选模块。

结合图4，采用UUID预处理模块对指定网站S进行操作的具体实现步骤为：

步骤1、在域名库中读取指定网站S的域名后，通过特定浏览器实例循环访问指定的网站S一共2次，每次访问时，提取特定浏览器实例中与网站S相关的Cookie数据组成集合，第1次访问时，提取到的集合记为C1，C1＝(a,b,c,d,e)，第2次访问时，提取到的集合记为C2，C2＝(a，b，c，f，g)；

步骤2、计算C1与C2的交集D1，则有D1＝C1∩C2＝(a,b,c)：

步骤3、重置特定浏览器实例中的Cookie数据，重新访问网站S，提取该特定浏览器实例中与网站S相关的Cookie数据组成集合C3＝(b，e，f，g)；

步骤4、计算交集D1与集合C3的差，得到集合E1，则有E1＝D1-C3＝(a,c)：

结合图5，采用UUID筛选模块对指定网站S进行操作的具体实现步骤为：

步骤1、获取特定浏览器访问网站S的所有历史Cookie数据的集合CS1；

步骤2、在集合E1中去除集合CS1中用户代理UserAgent不同但域值相同的字段域，生成集合E1(a)；

步骤3、在集合E1(a)中去除集合CS1中同时存在的相同域值与不同域值的不同部分，生成集合E1(b)；

步骤4、在集合E1(b)中选取生存时间TTL最大且最长的识别串作为基本UUID字段名pUUID，其他识别串作为候选UUID字段名cUUID，先将基本UUID字段名pUUID与当前网站S的Cookie数据相匹配，若能匹配成功，则将该基本UUID字段名pUUID作为与当前网站S的域名相对应的UUID字段名称，否则，将候选UUID字段名cUUID与当前网站S的Cookie数据相匹配，若能匹配成功，则将能成功匹配的那个候选UUID字段名cUUID作为与当前网站S的域名相对应的UUID字段名称。

通过步骤101得到的几个网站域名与其UUID字段名称的对应关系如表1所示。

www.baidu.com

BAIDUID

www.google.com	SID
		www.google.com.hk	SID
WWW.xinhuanet.com	wdcid

表1

步骤102、在用于Web日志挖掘的数据中，为每一行标记有会话ID的web日志记录增加一个UUID字段，每一行标记有会话ID的web日志记录的格式通常如表2所示：

数据字段	以一条web日志数据为例
		sessionID	1
sourceIP	116.237.92.35
		ADSL	096b992c1e7242d6ff81e5cbecb8b147fb286114
Timestamp	1352380710533
		URL	http：//www.baidu.cco/s？word-％CA％AE％CD％F2％B8％F6％CO％E4％DO％A6％BB％BO&tn=site888_pg&1m＝-1
Referer	http：//www.2345.com/？sh01
		UserAgeht	Mozillad4.0(compatible；MSIE8.0；Windows NT5.1；Trident/4.0；GIB7.2；.NET CLR2.0.50727)
destIP	119.75.218.77
		cookie	BAIDUID＝CF162EF9BECC2B48ED5COA835A01AO8D：FG＝1;BDRCYFR[-9-hn3PrUwO]＝IdADGome-nsnWnYPi4WUvY

表2

结合图2，为第i行标记有会话ID的web日志记录增加UUID字段的步骤为：

步骤201、第i行标记有会话ID的web日志记录的URL字段提取网站域名；

步骤202、找到与当前网站域名相对应的UUID字段名称，对于表2所示的web日志记录，其UUID字段名称即为BAIDUID；

步骤203、从第i行标记有会话ID的web日志记录的Cookie字段找到步骤2.2得到的UUID字段名称所对应的UUID字段值，对于表2所示的web日志记录，UUID字段值为CF162EF98BECC2B48ED5COA1A08D：FG＝1：

步骤204、为第i行标记有会话ID的web日志记录增加一个以步骤2.2得到的UUID字段名称命名的UUID字段，其值为通过步骤2.3获得的UUID字段值，对于表2所示的web日志记录，可以得到表3：

数据字段	以一条web日志数据为例
		UUID	CF162EF9BECC2B48ED5COA835AO1A08D：FG＝1
sessionID	1
		sourceIP	116.237.92.35
ADSL	0966992c1e7242d6ff81e5cbecb8b147fb286114
		Timestamp	1352380710533
URL	http：//www.baiducom/s？word=％CA％AE％CD％F2％B8％F6％CO％E4％DO％A6％BB％B0&tn＝site888_pg&1m＝-1
		Referer	http：//www.2345.com/？sh01
UserAgent	Mozilla/4.0(compatible；MSIE8.0，WindowsNT5.1；Trident/4.0；GTB7.2；.NEICLR2.0.50727)
		destIP	119.75.218.77
cookie	BAIDUID＝CF162EF9BECC2B48ED5COA835A01A08D：FG＝1：BDRCVFR[-9-hn3PrUwO]＝IdAnGome-nsnWnYPi4WUvY

表3

步骤103、将含有相同UUID字段值的会话合并至一个会话中，结合图3，其步骤为：

步骤301、遍历标识有UUID字段的所有Web日志记录；

步骤302、将相同UUID字段值的web日志记录归为同一组Web日志记录组；

步骤303、遍历所有Web日志记录组，将同一Web日志记录组内的会话ID字段设置为相同的值。

Claims

1.一种Web日志预处理中基于UUID的会话合并方法，其特征在于，步骤为：

步骤1.1、用户使用特定浏览器实例循环访问指定的网站S至少N次，N≥2，每次访问时，提取特定浏览器实例中与该网站S相关的Cookie数据组成集合，第j次访问时，j＝1,2,…,N，提取到的集合记为Ci，则可得到N个集合，C1,…,CN；

步骤1.2、计算得到N个集合的交集D，则有D＝C1∩…∩CN；

步骤1.4、计算交集D与集合Cx的差，得到集合E，则有E＝D-Cx；

步骤1.5、获取特定浏览器访问网站S的所有历史Cookie数据的集合CS；

步骤2.1、依据第i行标记有会话ID的web日志记录的URL字段提取网站域名；

步骤2.2、找到与当前网站域名相对应的UUID字段名称；

第三步、将含有相同UUID字段值的会话合并至一个会话中。

2.如权利要求1所述的一种Web日志预处理中基于UUID的会话合并方法，其特征在于，在所述步骤1.8中、在集合E(b)中选取生存时间TTL最大且最长的识别串作为基本UUID字段名，其他识别串作为候选UUID字段名，先将基本UUID字段名与当前网站S的Cookie数据相匹配，若能匹配成功，则将该基本UUID字段名作为与当前网站S的域名相对应的UUID字段名称，否则，将候选UUID字段名与当前网站S的Cookie数据相匹配，若能匹配成功，则将能成功匹配的那个候选UUID字段名作为与当前网站S的域名相对应的UUID字段名称。

3.如权利要求1所述的一种Web日志预处理中基于UUID的会话合并方法，其特征在于，所述第三步的具体步骤为：遍历标识有UUID字段的所有web日志记录，将相同UUID字段值的web日志记录归为同一组web日志记录组，再遍历所有web日志记录组，将同一web日志记录组内的会话ID字段设置为相同的值。