CN103970843B - 一种Web日志预处理中基于UUID的会话合并方法 - Google Patents

一种Web日志预处理中基于UUID的会话合并方法 Download PDF

Info

Publication number
CN103970843B
CN103970843B CN201410174533.1A CN201410174533A CN103970843B CN 103970843 B CN103970843 B CN 103970843B CN 201410174533 A CN201410174533 A CN 201410174533A CN 103970843 B CN103970843 B CN 103970843B
Authority
CN
China
Prior art keywords
uuid
web log
session
website
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410174533.1A
Other languages
English (en)
Other versions
CN103970843A (zh
Inventor
陈德华
沈昌干
潘乔
罗昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd
Donghua University
Original Assignee
SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd, Donghua University filed Critical SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410174533.1A priority Critical patent/CN103970843B/zh
Publication of CN103970843A publication Critical patent/CN103970843A/zh
Application granted granted Critical
Publication of CN103970843B publication Critical patent/CN103970843B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种Web日志预处理中基于UUID的会话合并方法,其特征在于,步骤为:第一步、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称,建立不同网站域名与UUID字段名称之间的对应关系;第二步、在用于Web日志挖掘的数据中,为每一行标记有会话ID的web日志记录增加一个UUID字段;第三步、将含有相同UUID字段值的会话合并至一个会话中。本发明提出了一种Web日志预处理中基于UUID的会话合并方法,创新性地提出了自动识别UUID字段标识符,然后将UUID相同的会话合并成一个大集合的会话。

Description

一种Web日志预处理中基于UUID的会话合并方法
技术领域
本发明涉及Hadoop云计算平台以及web日志预处理中基于通用唯一识别码(Universally Unique Identifier,UUID)的合并会话,属于云计算以及web日志预处理两大领域。
背景技术
云计算是一种基于互联网的计算方式,是处理大数据的非常有效的解决方案。通过云计算这种方式,共享的软硬件资源和信息可以高效率地按需求提供给计算机和其他设备。Hadoop是Apache基金会下的一款开源软件,是一种针对大数据处理和分析的开源分布式计算平台,它实现了包括分布式文件系统和MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。
通常,Web日志挖掘包含三大步骤:数据预处理、模式识别和模式分析,其中数据预处理是关键和首要任务。Web日志挖掘的数据预处理包括数据清洗、用户识别、会话识别,会话合并等步骤,其结果决定着Web日志挖掘的效率和准确性。
会话识别的结果是短时间内具有连续访问特点的日志被分配一个唯一的会话ID(session ID),同一个用户的所有访问记录往往由多个会话组成,会话合并是重要的预处理步骤,其目的就是将属于同一个用户的会话合并在一起,分配一个相同用户标记字段,使得属于同一个用户的访问记录的用户标记字段相同,不同的用户访问记录的用户标记字段不同。根据方法的不同会话合并可分为基于相同账户的用户识别,基于浏览器UUID的会话合并。
UUID是指web服务器在客户端浏览器在请求服务器资源时生成的用于唯一标识浏览器的数字,它保证对在同一时空中的所有机器浏览器的标识都是唯一的。用户在访问网站时,网站服务器将UUID嵌入到Cookie中以标识同一个浏览器,如果某两条web日志的Cookie中的UUID相同,则说明他们是同一个人在同一个浏览器上访问的web日志。
发明内容
本发明的目的是提供一种基于UUID进行会话合并的方法。
为了达到上述目的,本发明的技术方案是提供了一种Web日志预处理中基于UUID的会话合并方法,其特征在于,步骤为:
第一步、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称,建立不同网站域名与UUID字段名称之间的对应关系:
通过特定浏览器实例访问不同的指定网站,收集每个网站的Cookie数据,对Cookie数据的集合进行UUID预处理,从UUID预处理得到的结果中筛选出符合UUID特征的当前网站Cookie中用于标识UUID的UUID字段名称,获取某一网站S的用于标识UUID的UUID字段名称的具体步骤为:
步骤1.1、用户使用特定浏览器实例循环访问指定的网站S至少N次,N≥2,每次访问时,提取特定浏览器实例中与该网站S相关的Cookie数据组成集合,第i次访问时,提取到的集合记为Ci,则可得到N个集合,C1,…,CN;
步骤1.2、计算得到N个集合的交集D,则有D=C1∩…∩CN;
步骤1.3、重置特定浏览器实例中的Cookie数据,重新访问网站S,提取该特定浏览器实例中与网站S相关的Cookie数据组成集合Cx;
步骤1.4、计算交集D与集合Cx的差,得到集合E,则有E=D-Cx;
步骤1.5、获取特定浏览器访问网站S的所有历史Cookie数据的集合CS:
步骤1.6、在集合E中去除集合CS中用户代理UserAgent不同但域值相同的字段域,生成集合E(a);
步骤1.7、在集合E(a)中去除集合CS中同时存在的相同域值与不同域值的不同部分,生成集合E(b);
步骤1.8、在集合E(b)中选取生存时间TTL最大且最长的识别串作为与当前网站S的域名相对应的UUID字段名称;
第二步、在用于Web日志挖掘的数据中,为每一行标记有会话ID的web日志记录增加一个UUID字段,其中,为第i行标记有会话ID的web日志记录增加UUID字段的步骤为:
步骤2.1、第i行标记有会话ID的web日志记录的URL字段提取网站域名;
步骤2.2、找到与当前网站域名相对应的UUID字段名称;
步骤2.3、从第i行标记有会话ID的web日志记录的Cookie字段找到步骤2.2得到的UUID字段名称所对应的UUID字段值;
步骤2.4、为第i行标记有会话ID的web日志记录增加一个以步骤2.2得到的UUID字段名称命名的UUID字段,其值为通过步骤2.3获得的UUID字段值;
第三步、将含有相同UUID字段值的会话合并至一个会话中。
优选地,在所述步骤1.8中、在集合E(b)中选取生存时间TTL最大且最长的识别串作为基本UUID字段名,其他识别串作为候选UUID字段名,先将基本UUID字段名与当前网站S的Cookie数据相匹配,若能匹配成功,则将该基本UUID字段名作为与当前网站S的域名相对应的UUID字段名称,否则,将候选UUID字段名与当前网站S的Cookie数据相匹配,若能匹配成功,则将能成功匹配的那个候选UUID字段名作为与当前网站S的域名相对应的UUID字段名称。
优选地,所述第三步的具体步骤为:遍历标识有UUID字段的所有web日志记录,将相同UUID字段值的web日志记录归为同一组web日志记录组,再遍历所有web日志记录组,将同一web日志记录组内的会话ID字段设置为相同的值。
本发明提出了一种Web日志预处理中基于UUID的会话合并方法,创新性地提出了自动识别UUID字段标识符,然后将UUID相同的会话合并成一个大集合的会话。
附图说明
图1为本发明会话合并的流程图;
图2为本发明为Web日志每一行记录标识UUID字段值的流程图;
图3为本发明合并相同UUID到同一个会话的流程图;
图4为本发明第一步骤UUID预处理模块数据流图;
图5为本发明第一步骤UUID筛选模块数据流图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
如图1所示,本发明提供了一种Web日志预处理中基于UUID的会话合并方法,其步骤为:
步骤101、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称,建立不同网站域名与UUID字段名称之间的对应关系:
为了实现本步骤,需要使用到两个模块,一个模块为UUID预处理模块,另一个模块为UUID筛选模块。
结合图4,采用UUID预处理模块对指定网站S进行操作的具体实现步骤为:
步骤1、在域名库中读取指定网站S的域名后,通过特定浏览器实例循环访问指定的网站S一共2次,每次访问时,提取特定浏览器实例中与网站S相关的Cookie数据组成集合,第1次访问时,提取到的集合记为C1,C1=(a,b,c,d,e),第2次访问时,提取到的集合记为C2,C2=(a,b,c,f,g);
步骤2、计算C1与C2的交集D1,则有D1=C1∩C2=(a,b,c):
步骤3、重置特定浏览器实例中的Cookie数据,重新访问网站S,提取该特定浏览器实例中与网站S相关的Cookie数据组成集合C3=(b,e,f,g);
步骤4、计算交集D1与集合C3的差,得到集合E1,则有E1=D1-C3=(a,c):
结合图5,采用UUID筛选模块对指定网站S进行操作的具体实现步骤为:
步骤1、获取特定浏览器访问网站S的所有历史Cookie数据的集合CS1;
步骤2、在集合E1中去除集合CS1中用户代理UserAgent不同但域值相同的字段域,生成集合E1(a);
步骤3、在集合E1(a)中去除集合CS1中同时存在的相同域值与不同域值的不同部分,生成集合E1(b);
步骤4、在集合E1(b)中选取生存时间TTL最大且最长的识别串作为基本UUID字段名pUUID,其他识别串作为候选UUID字段名cUUID,先将基本UUID字段名pUUID与当前网站S的Cookie数据相匹配,若能匹配成功,则将该基本UUID字段名pUUID作为与当前网站S的域名相对应的UUID字段名称,否则,将候选UUID字段名cUUID与当前网站S的Cookie数据相匹配,若能匹配成功,则将能成功匹配的那个候选UUID字段名cUUID作为与当前网站S的域名相对应的UUID字段名称。
通过步骤101得到的几个网站域名与其UUID字段名称的对应关系如表1所示。
www.baidu.com BAIDUID
www.google.com SID
www.google.com.hk SID
WWW.xinhuanet.com wdcid
表1
步骤102、在用于Web日志挖掘的数据中,为每一行标记有会话ID的web日志记录增加一个UUID字段,每一行标记有会话ID的web日志记录的格式通常如表2所示:
数据字段 以一条web日志数据为例
sessionID 1
sourceIP 116.237.92.35
ADSL 096b992c1e7242d6ff81e5cbecb8b147fb286114
Timestamp 1352380710533
URL http://www.baidu.cco/s?word-%CA%AE%CD%F2%B8%F6%CO%E4%DO%A6%BB%BO&tn=site888_pg&1m=-1
Referer http://www.2345.com/?sh01
UserAgeht Mozillad4.0(compatible;MSIE8.0;Windows NT5.1;Trident/4.0;GIB7.2;.NET CLR2.0.50727)
destIP 119.75.218.77
cookie BAIDUID=CF162EF9BECC2B48ED5COA835A01AO8D:FG=1;BDRCYFR[-9-hn3PrUwO]=IdADGome-nsnWnYPi4WUvY
表2
结合图2,为第i行标记有会话ID的web日志记录增加UUID字段的步骤为:
步骤201、第i行标记有会话ID的web日志记录的URL字段提取网站域名;
步骤202、找到与当前网站域名相对应的UUID字段名称,对于表2所示的web日志记录,其UUID字段名称即为BAIDUID;
步骤203、从第i行标记有会话ID的web日志记录的Cookie字段找到步骤2.2得到的UUID字段名称所对应的UUID字段值,对于表2所示的web日志记录,UUID字段值为CF162EF98BECC2B48ED5COA1A08D:FG=1:
步骤204、为第i行标记有会话ID的web日志记录增加一个以步骤2.2得到的UUID字段名称命名的UUID字段,其值为通过步骤2.3获得的UUID字段值,对于表2所示的web日志记录,可以得到表3:
数据字段 以一条web日志数据为例
UUID CF162EF9BECC2B48ED5COA835AO1A08D:FG=1
sessionID 1
sourceIP 116.237.92.35
ADSL 0966992c1e7242d6ff81e5cbecb8b147fb286114
Timestamp 1352380710533
URL http://www.baiducom/s?word=%CA%AE%CD%F2%B8%F6%CO%E4%DO%A6%BB%B0&tn=site888_pg&1m=-1
Referer http://www.2345.com/?sh01
UserAgent Mozilla/4.0(compatible;MSIE8.0,WindowsNT5.1;Trident/4.0;GTB7.2;.NEICLR2.0.50727)
destIP 119.75.218.77
cookie BAIDUID=CF162EF9BECC2B48ED5COA835A01A08D:FG=1:BDRCVFR[-9-hn3PrUwO]=IdAnGome-nsnWnYPi4WUvY
表3
步骤103、将含有相同UUID字段值的会话合并至一个会话中,结合图3,其步骤为:
步骤301、遍历标识有UUID字段的所有Web日志记录;
步骤302、将相同UUID字段值的web日志记录归为同一组Web日志记录组;
步骤303、遍历所有Web日志记录组,将同一Web日志记录组内的会话ID字段设置为相同的值。

Claims (3)

1.一种Web日志预处理中基于UUID的会话合并方法,其特征在于,步骤为:
第一步、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称,建立不同网站域名与UUID字段名称之间的对应关系:
通过特定浏览器实例访问不同的指定网站,收集每个网站的Cookie数据,对Cookie数据的集合进行UUID预处理,从UUID预处理得到的结果中筛选出符合UUID特征的当前网站Cookie中用于标识UUID的UUID字段名称,获取某一网站S的用于标识UUID的UUID字段名称的具体步骤为:
步骤1.1、用户使用特定浏览器实例循环访问指定的网站S至少N次,N≥2,每次访问时,提取特定浏览器实例中与该网站S相关的Cookie数据组成集合,第j次访问时,j=1,2,…,N,提取到的集合记为Ci,则可得到N个集合,C1,…,CN;
步骤1.2、计算得到N个集合的交集D,则有D=C1∩…∩CN;
步骤1.3、重置特定浏览器实例中的Cookie数据,重新访问网站S,提取该特定浏览器实例中与网站S相关的Cookie数据组成集合Cx;
步骤1.4、计算交集D与集合Cx的差,得到集合E,则有E=D-Cx;
步骤1.5、获取特定浏览器访问网站S的所有历史Cookie数据的集合CS;
步骤1.6、在集合E中去除集合CS中用户代理UserAgent不同但域值相同的字段域,生成集合E(a);
步骤1.7、在集合E(a)中去除集合CS中同时存在的相同域值与不同域值的不同部分,生成集合E(b);
步骤1.8、在集合E(b)中选取生存时间TTL最大且最长的识别串作为与当前网站S的域名相对应的UUID字段名称;
第二步、在用于web日志挖掘的数据中,为每一行标记有会话ID的web日志记录增加一个UUID字段,其中,为第i行标记有会话ID的web日志记录增加UUID字段的步骤为:
步骤2.1、依据第i行标记有会话ID的web日志记录的URL字段提取网站域名;
步骤2.2、找到与当前网站域名相对应的UUID字段名称;
步骤2.3、从第i行标记有会话ID的web日志记录的Cookie字段找到步骤2.2得到的UUID字段名称所对应的UUID字段值;
步骤2.4、为第i行标记有会话ID的web日志记录增加一个以步骤2.2得到的UUID字段名称命名的UUID字段,其值为通过步骤2.3获得的UUID字段值;
第三步、将含有相同UUID字段值的会话合并至一个会话中。
2.如权利要求1所述的一种Web日志预处理中基于UUID的会话合并方法,其特征在于,在所述步骤1.8中、在集合E(b)中选取生存时间TTL最大且最长的识别串作为基本UUID字段名,其他识别串作为候选UUID字段名,先将基本UUID字段名与当前网站S的Cookie数据相匹配,若能匹配成功,则将该基本UUID字段名作为与当前网站S的域名相对应的UUID字段名称,否则,将候选UUID字段名与当前网站S的Cookie数据相匹配,若能匹配成功,则将能成功匹配的那个候选UUID字段名作为与当前网站S的域名相对应的UUID字段名称。
3.如权利要求1所述的一种Web日志预处理中基于UUID的会话合并方法,其特征在于,所述第三步的具体步骤为:遍历标识有UUID字段的所有web日志记录,将相同UUID字段值的web日志记录归为同一组web日志记录组,再遍历所有web日志记录组,将同一web日志记录组内的会话ID字段设置为相同的值。
CN201410174533.1A 2014-04-28 2014-04-28 一种Web日志预处理中基于UUID的会话合并方法 Expired - Fee Related CN103970843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410174533.1A CN103970843B (zh) 2014-04-28 2014-04-28 一种Web日志预处理中基于UUID的会话合并方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410174533.1A CN103970843B (zh) 2014-04-28 2014-04-28 一种Web日志预处理中基于UUID的会话合并方法

Publications (2)

Publication Number Publication Date
CN103970843A CN103970843A (zh) 2014-08-06
CN103970843B true CN103970843B (zh) 2017-09-19

Family

ID=51240340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410174533.1A Expired - Fee Related CN103970843B (zh) 2014-04-28 2014-04-28 一种Web日志预处理中基于UUID的会话合并方法

Country Status (1)

Country Link
CN (1) CN103970843B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105049336A (zh) * 2015-08-12 2015-11-11 深圳前海珩昌科技有限公司 即时通信消息的处理方法、服务器、客户端及系统
CN106657184B (zh) * 2015-10-30 2019-09-24 北京国双科技有限公司 日志信息的解析方法及装置
CN106855864A (zh) * 2015-12-09 2017-06-16 北京秒针信息咨询有限公司 一种提取信息的方法和装置
CN105743988B (zh) * 2016-03-30 2019-03-08 新浪网技术(中国)有限公司 网络用户追踪实现方法、装置及系统
CN107426133B (zh) * 2016-05-23 2020-06-30 株式会社理光 一种识别用户身份信息的方法及装置
CN107659602B (zh) * 2016-07-26 2020-12-29 株式会社理光 关联用户访问记录的方法、装置及系统
CN107402980A (zh) * 2017-07-06 2017-11-28 北京亿赛通网络安全技术有限公司 一种基于网络环境下的大数据的处理方法和系统
CN108459939B (zh) * 2018-01-08 2020-06-23 平安科技(深圳)有限公司 一种日志收集方法、装置、终端设备及存储介质
CN109255069A (zh) * 2018-07-31 2019-01-22 阿里巴巴集团控股有限公司 一种离散文本内容风险识别方法和系统
CN111143311B (zh) * 2019-12-13 2023-10-13 东软集团股份有限公司 应用间关联确定、日志关联搜索方法、装置、介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923571A (zh) * 2010-07-29 2010-12-22 中兴通讯股份有限公司 管理终端数据记录的方法及装置
CN103701866A (zh) * 2013-12-06 2014-04-02 乐视致新电子科技(天津)有限公司 一种下载断点续传方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913217A (en) * 1997-06-30 1999-06-15 Microsoft Corporation Generating and compressing universally unique identifiers (UUIDs) using counter having high-order bit to low-order bit

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923571A (zh) * 2010-07-29 2010-12-22 中兴通讯股份有限公司 管理终端数据记录的方法及装置
CN103701866A (zh) * 2013-12-06 2014-04-02 乐视致新电子科技(天津)有限公司 一种下载断点续传方法和装置

Also Published As

Publication number Publication date
CN103970843A (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
CN103970843B (zh) 一种Web日志预处理中基于UUID的会话合并方法
CN104834668B (zh) 基于知识库的职位推荐系统
CN104750704B (zh) 一种网页url地址分类识别方法及装置
CN104486461B (zh) 域名分类方法和装置、域名识别方法和系统
CN107800591B (zh) 一种统一日志数据的分析方法
CN104735138A (zh) 一种面向用户生成内容的分布式采集方法与系统
CN107885777A (zh) 一种基于协作式爬虫的抓取网页数据的控制方法及系统
CN103605715B (zh) 用于多个数据源的数据整合处理方法和装置
CN101370024A (zh) 信息的分布式采集方法及系统
CN106095979A (zh) Url合并处理方法和装置
CN105005600A (zh) 一种访问日志中url的预处理方法
CN102664926A (zh) 用户信息共享方法及系统
CN110417873A (zh) 一种实现记录网页交互操作的网络信息提取系统
CN102253939A (zh) 一种基于云计算技术的搜索方法及系统
CN109583472A (zh) 一种web日志用户识别方法和系统
Sujatha Improved user navigation pattern prediction technique from web log data
CN106776615A (zh) 热力图生成方法和装置
CN104317857B (zh) 一种房屋信息采集服务系统
CN106897196A (zh) 网站页面间访问路径的确定方法及装置
CN109710826A (zh) 一种互联网信息人工智能采集方法及其系统
CN110519263A (zh) 防刷量方法、装置、设备及计算机可读存储介质
CN109710667A (zh) 一种基于大数据平台的多源数据融合共享实现方法及系统
CN104967698B (zh) 一种爬取网络数据的方法和装置
CN103605744B (zh) 网站搜索引擎流量数据的分析方法及装置
CN106959995A (zh) 兼容双向自动化网页内容采集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170919

Termination date: 20200428