CN102393849A - 一种Web日志数据的预处理方法 - Google Patents

一种Web日志数据的预处理方法 Download PDF

Info

Publication number
CN102393849A
CN102393849A CN2011102006155A CN201110200615A CN102393849A CN 102393849 A CN102393849 A CN 102393849A CN 2011102006155 A CN2011102006155 A CN 2011102006155A CN 201110200615 A CN201110200615 A CN 201110200615A CN 102393849 A CN102393849 A CN 102393849A
Authority
CN
China
Prior art keywords
page
website
user
session
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102006155A
Other languages
English (en)
Inventor
孙健
隆克平
李志�
谢发川
黄悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN2011102006155A priority Critical patent/CN102393849A/zh
Publication of CN102393849A publication Critical patent/CN102393849A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明针对Web日志挖掘系统,提出了一种Web日志数据的预处理方法,首先采用缺省的规则库对无用信息,即不需要的记录进行删除,并通过对规则库的修正来完成Web日志数据清理;然后利用启发式规则来解决代理和防火墙带来的用户识别难题,并结合对首页和导航页的综合考虑来完成对用户的会话识别;最后,用基于网站页面参引关系对访问路径进行补充,得到最终的各用户访问Web页面的页面访问序列,完成Web日志数据的预处理。与传统的以简单时间阀值会话识别相比,本发明明显提高对用户访问行为挖掘的精确度和可信度。

Description

一种Web日志数据的预处理方法
技术领域
本发明属于计算机网络中的人工智能技术领域,更为具体地讲,涉及一种Web日志挖掘系统中Web日志数据的预处理方法。
背景技术
为解决科技高速发展所带来的信息过载等问题,数据挖掘技术应运而生。进入二十一世纪,Intemet已经遍及世界各地。在网络环境下具体需求的驱动下,于是产生了一个新的研究领域——Web挖掘。根据Web挖掘的目的和数据源不同,可以将现有Web挖掘技术分为Web内容挖掘,Web结构挖掘,Web使用挖掘。
Web日志挖掘是现在最普遍应用的一种Web使用挖掘技术。Web日志挖掘便是运用数据挖掘的思想来对Web服务器日志进行分析处理。以此来优化Web站点的组织结构,发现用户浏览站点的共同行为,对不同的客户群进行分类以提供个性化的服务等。但是,直接在Web日志数据上进行挖掘有以下几方面的困难:
1、Web日志挖掘可能只对Web日志数据中的部分有用数据进行挖掘,为此,需要抽取有用的数据,想办法消除Web日志数据中的噪声;
2、多个用户通过代理的请求在日志中具有相同的标示,即代理服务器的IP地址,导致Web日志数据不准确;
3、公司为内部的局域网设置防火墙,不同的用户请求在Web服务器日志中记录的是防火墙的IP地址。
现有的Web日志挖掘系统一般要求输入的Web日志数据是有意义的用户访问行为序列。因此,尽管Web日志挖掘类似于数据库中的数据挖掘,但要充分利用Web日志数据,从中挖掘出有用的用户访问行为信息,Web日志数据的预处理工作是必不可少的。
发明内容
本发明的目的在于克服现有技术的不足,提供一种Web日志数据的预处理方法,使供Web日志挖掘系统使用的Web日志数据得以规范,进而提高对用户访问行为挖掘的准确度与可信度。
为实现上述目的,本发明Web日志数据的预处理方法,其特征在于,包括以下步骤:
(1)、建立一个缺省的规则库来帮助删除Web日志数据不需要的记录;
缺省的规则库对网站类型进行简单分类,不同类型的站点对应不同的规则;
(2)、确定需要进行Web日志挖掘的网站属于哪一类,然后按照网站类型在缺省规则库中找到对应的规则,对Web日志数据进行相应的清理,如果遇到缺省规则库中没有的网站类型,返回第(1)步进行新类型规则添加;
(3)、利用IP地址、操作系统、浏览器组建一个启发式规则来进行用户识别,将Web日志数据的各条访问记录按照不同的用户进行分组,得到各个用户的页面访问序列;
(4)、对每个用户的页面访问序列以网站的首页作为新会话开始的标记,结合用户直接通过各导航页访问感兴趣页面的情况来进行用户的会话识别,得到用户一次或多次会话的页面访问序列;
(5)、用基于网站页面参引关系对用户一次会话的页面访问序列进行访问路径补充,得到最终的各用户访问Web页面的一次或多次会话的页面访问序列,完成Web日志数据的预处理。
本发明的发明目的是这样实现的:
本发明针对Web日志挖掘系统,提出了一种Web日志数据的预处理方法,首先采用缺省的规则库对无用信息,即不需要的记录进行删除,并通过对规则库的修正来完成Web日志数据清理;然后利用启发式规则来解决代理和防火墙带来的用户识别难题,并结合对首页和导航页的综合考虑来完成对用户的会话识别;最后,用基于网站页面参引关系对访问路径进行补充,得到最终的各用户访问Web页面的页面访问序列,完成Web日志数据的预处理。与传统的以简单时间阀值会话识别相比,本发明明显提高对用户访问行为挖掘的精确度和可信度。
附图说明
图1是本发明Web日志数据的预处理方法具体实施方式总体框架图;
图2是图1所示数据清理步骤的具体实施方式的流程图;
图3是图1所示用户识别步骤的具体实施方式的流程图;
图4是图1所示会话识别步骤的具体实施方式的流程图。
图5是路径补充步骤的具体实例图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明Web日志数据的预处理方法具体实施方式总体框架图。
如图1所示,用户通过互联网对网站进行访问,网站服务器将用户的访问信息作为Web日志数据存入Web日志数据库中。在本实施例中,首先采用缺省的规则库对Web日志数据中进行清理,将无用信息即不需要的记录进行删除,并通过对缺省规则库的修正来完成规则的更新;然后利用启发式规则来进行用户识别,将Web日志数据按照不同的用户进行分组;最后结合对首页和导航页的综合考虑来完成对用户的会话识别,并进行了必要的路径补充得到最终的各用户访问Web页面的会话序列,完成Web日志数据的预处理。
在本实施例中,所述的简单分类为:文字内容网站、图片网站、音视频网站;以挖掘用户访问模式为目的条件下,1.用户访问文字内容网站页面时,与这个网页有关的图片、音频等信息会自动下载,并记录在Web日志数据库中,这些信息对挖掘来说显然用处不大,可以把日志文件中后缀为.gif、jpg、jpeg、.swf、.css的记录删除;2.用户访问图片网站页面时,Web日志数据中的图形文件可能代表了用户的显式请求,此时就不能将图形文件记录删除;3.用户访问音视频网站页面时,日志中的音视频文件可能代表了用户的显式请求,此时就应将音视频文件记录保留。
此外,后缀名为cgi、js和JS等的脚本文件因对后面的分析处理不造成任何影响,所以应该删除。用户请求访问失败的记录,这类访问的返回代码为404(没有找到)、301(永久删除)或500(内部服务器错误)等也可以删除。常见的请求方法有GET、POST和HEAD,但只有GET方法反映了用户的访问行为,所以用户请求方法不是GET的记录也应该可以删除。
图2是图1所示Web日志数据清理步骤的具体实施方式的流程图。
首先建立一个缺省的规则库来帮助删除一些不需要的记录,接着判断需要进行Web日志挖掘的网站属于哪一类,然后顺序读取网站服务器中存储的Web日志数据中的记录,按照该类的规则对进行Web日志数据清理,删除不需要的记录,如果遇到缺省规则中没有的网站类型,返回进行新类型规则添加,更新缺省规则库。
在本实施例中,缺省规则库定义如下:
1.无论网站属于哪一种类型都必须默认删除的记录有:
①删除扩展名为cgi、js和JS的脚本文件的索引日志记录;
②删除返回代码为404(未找到)、301(永久删除)或500(内部服务器错误)等用户请求访问失败的记录;
③删除用户请求方法不是GET的记录;
④删除扩展名为.css的页面外观布局文件。
2.网站类型为文字内容网站:
①删除1中规定的默认删除记录;
②删除扩展名为.gif、.jpg、.jpeg、.swf、.mp3、.mp4、.wma、.amr、.avi、.rmvb、.wmv、.flv的日志记录。
3.网站类型为图片网站:
①删除1中规定的默认删除记录;
②删除扩展名为.mp3、.mp4、.wma、.amr、.avi、.rmvb、.wmv、.flv的日志记录。
4.网站类型为音视频网站:
①删除1中规定的默认删除记录;
②删除扩展名为.gif、.jpg、.jpeg的日志记录。
图3是图1所示的用户识别步骤的具体实施方式的流程图。
在本实施例中,如图3所示,使用如下启发式规则来进行用户识别:
①不同的IP地址代表着不同的用户;
②在IP地址相同时,默认的操作系统或浏览器不同代表不同的用户。
图4是图1所示的会话识别步骤的具体实施方式的流程图。
一次用户会话为用户从进入站点到离开站点期间所访问的一系列页面序列集合,可以表示为:
<SessionID,{(Pid1,t1)...(Pidk,tk)...(Pidn,tn)}>
其中SessoID是会话标识,{(Pid1,t1)...(Pidk,tk)...(Pidn,tn)}是此次用户会话的页面访问序列,Pid是访问页面的标识,t是访问该页面的时刻。(Pid1,t1)表示用户此次会话访问的第一个页面和时刻,(Pidn,tn)表示此次会话访问的最后一个页面和时刻。
要准确地识别出用户的一次会话,关键在于识别出两次相邻会话的分割点。在本实施例中,如图4所示,以访问站点的首页作为新会话开始的标记,结合用户直接通过各导航页访问感兴趣页面的情况来进行用户的会话识别,具体方法如下:
①首先用户页面访问序列中的第一条访问记录是第一次会话的开始,置入第一次会话的页面访问序列中;
②读取用户页面访问序列中的下一条访问记录,直至序列中所有记录都处理完毕;
③判断访问页面是否是站点的首页,若是首页,则当前会话结束,新会话开始,将该条访问记录置入下一次会话的页面访问序列中,然后转步骤②处理下一条访问记录,否则,转步骤④;
④设定一次会话的最大时间阀值为T,若当前访问记录的访问时间tn与本次会话的第一访问记录的访问时间t1之差小于T,转步骤⑤;若大于等于T,则当前会话结束,新会话开始,将该次访问置入新会话的页面访问序列中,返回步骤②处理下一条访问记录。
⑤判断当前访问记录的访问页面是否是站点的导航页之一,若不是,即该页面为内容页,则将当前访问记录置入当前会话的访问序列中,然后转步骤②继续处理下一条访问记录;否则,若该访问页面是导航页之一,转步骤⑥判断它的上一条访问记录;
⑥判断上一条访问记录,若上一条访问记录的访问页面是首页,则当前访问记录和上次访问记录同属一个会话;若上一条访问记录访问的页面不是首页,则当前访问访问为新会话的开始,将其置入新会话的页面访问序列中,转步骤②,处理下一条访问记录。
图5是图1所示的路径补充过程的网站页面参引关系的一具体实例图。
由于用户客户端缓存的存在,用户访问过程中会不断访问到缓存中间已经存在的页面,而当用户用浏览器上“Back”按钮调用已访问过的页面时,将直接从本地或代理的缓存中提取,Web日志数据中则没有对这些页面进行记录。所以前面的步骤只是从Web日志中区分出了一个个用户访问服务器的会话区间,其中没有完全包含所有用户访问过的页面,需要进行路径补充。
在本实施例中,采用一种推断的方法。总体思路是判断会话中两个相邻的访问页面Pidi和Pidi+1之间是否存在直接参引关系,所谓参引关系,就是指从一个页面上的链接可以访问到另一个页面。若这两个页面没有直接参引关系,则此两个页面间需要路径补充。设Pidi和Pidi+1所在的会话为集合Session,推断方法如下:
①判断用户一次会话的页面访问序列的相邻两个访问记录中的访问页面Pidi、Pidi+1是否有直接参引关系,如果有直接参引关系则不需要路径补充,否则转到步骤②;
②找出以访问页面Pidi为参引页面的页面集Q1
③找出以访问页面Pidi+1为参引页面的页面集Q2
④寻找页面集Q1与页面集Q2的交集页面,根据参引关系,将访问页面Pidi到交集页面再到访问页面Pidi+1补充到用户访问页面路径中,得到最终的用户访问Web页面的一次或多次会话的页面访问序列。
如图5所示,在本实施例中,用户一次会话的页面访问序列为:
SessionID={(A,t1),(B,t2),(C,t3),(D,t4),(C,t5),(E,t6),(F,t7),(G,t8)}即用户访问页面路径为ABCDCEFG。通过上述方法就可以补上用户从客户端缓存中访问的页面。根据图5,我们知道C,E页面之间不存在直接参引关系,通过寻找C,E页面的参引页面的交集-B,可以推断出用户在访问C与E页面之间,可能通过客户端的缓存访问到了B页面,由B页面上的链接转到了E页面。同样道理,我们可以推断出用户在访问F页面之前可能通过客户端的缓存访问到了B和A页面,由A页面上的链接转到了F页面。所以实际访问路径应该为ABCDCBEBAFG。
至此,完成了数据清理,用户识别,会话识别和路径补充四个环节,Web日志数据的预处理结束。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种Web日志数据的预处理方法,其特征在于,包括以下步骤:
(1)、建立一个缺省的规则库来帮助删除Web日志数据不需要的记录;
缺省的规则库对网站类型进行简单分类,不同类型的站点对应不同的规则;
(2)、确定需要进行Web日志挖掘的网站属于哪一类,然后按照网站类型在缺省规则库中找到对应的规则,对Web日志数据进行相应的清理,如果遇到缺省规则库中没有的网站类型,返回第(1)步进行新类型规则添加;
(3)、利用IP地址、操作系统、浏览器组建一个启发式规则来进行用户识别,将Web日志数据的各条访问记录按照不同的用户进行分组,得到各个用户的页面访问序列;
(4)、对每个用户的页面访问序列以网站的首页作为新会话开始的标记,结合用户直接通过各导航页访问感兴趣页面的情况来进行用户的会话识别,得到用户一次或多次会话的页面访问序列;
(5)、用基于网站页面参引关系对用户一次会话的页面访问序列进行访问路径补充,得到最终的各用户访问Web页面的一次或多次会话的页面访问序列,完成Web日志数据的预处理。
2.根据权利要求1所述的Web日志数据的预处理方法,其特征在于,所述的简单分类为:文字内容网站、图片网站、音视频网站;
缺省的规则库的规则为:
a、无论网站属于哪一种类型都必须默认删除的记录有:
①删除扩展名为cgi、js和JS的脚本文件的索引日志记录;
②删除返回代码为404(未找到)、301(永久删除)或500(内部服务器错误)等用户请求访问失败的记录;
③删除用户请求方法不是GET的记录;
④删除扩展名为.css的页面外观布局文件;
b、网站类型为文字内容网站:
①删除1中规定的默认删除记录;
②删除扩展名为.gif、.jpg、.jpeg、.swf、.mp3、.mp4、.wma、.amr、.avi、.rmvb、.wmv、.flv的日志记录;
c、网站类型为图片网站:
①删除1中规定的默认删除记录;
②删除扩展名为.mp3、.mp4、.wma、.amr、.avi、.rmvb、.wmv、.flv的日志记录;
d、网站类型为音视频网站:
①删除1中规定的默认删除记录;
②删除扩展名为.gif、.jpg、.jpeg的日志记录。
3.根据权利要求1所述的Web日志数据的预处理方法,其特征在于,所述的用户识别为:
①不同的IP地址代表着不同的用户;
②在IP地址相同时,默认的操作系统或浏览器不同代表不同的用户。
4.根据权利要求1所述的的Web日志数据的预处理方法,其特征在于,所述的用户会话为用户从进入站点到离开站点期间所访问的一系列页面序列集合;
所述的会话识别为:
①首先用户页面访问序列中的第一条访问记录是第一次会话的开始,置入第一次会话的页面访问序列中;
②读取用户页面访问序列中的下一条访问记录,直至序列中所有记录都处理完毕;
③判断访问页面是否是站点的首页,若是首页,则当前会话结束,新会话开始,将该条访问记录置入下一次会话的页面访问序列中,然后转步骤②处理下一条访问记录,否则,转步骤④;
④设定一次会话的最大时间阀值为T,若当前访问记录的访问时间tn与本次会话的第一访问记录的访问时间t1之差小于T,转步骤⑤;若大于等于T,则当前会话结束,新会话开始,将该次访问置入新会话的页面访问序列中,返回步骤②处理下一条访问记录;
⑤判断当前访问记录的访问页面是否是站点的导航页之一,若不是,即该页面为内容页,则将当前访问记录置入当前会话的访问序列中,然后转步骤②继续处理下一条访问记录;否则,若该访问页面是导航页之一,转步骤⑥判断它的上一条访问记录;
⑥判断上一条访问记录,若上一条访问记录的访问页面是首页,则当前访问记录和上次访问记录同属一个会话;若上一条访问记录访问的页面不是首页,则当前访问访问为新会话的开始,将其置入新会话的页面访问序列中,转步骤②,处理下一条访问记录。
5.根据权利要求1所述的的Web日志数据的预处理方法,其特征在于,所述的路径补充为:
①判断用户一次会话的页面访问序列的相邻两个访问记录中的访问页面Pidi、Pidi+1是否有直接参引关系,如果有直接参引关系则不需要路径补充,否则转到步骤②;
②找出以访问页面Pidi为参引页面的页面集Q1
③找出以访问页面Pidi+1为参引页面的页面集Q2
④寻找页面集Q1与页面集Q2的交集页面,根据参引关系,将访问页面Pidi到交集页面再到访问页面Pidi+1补充到用户访问页面路径中,得到最终的用户访问Web页面的一次或多次会话的页面访问序列。
CN2011102006155A 2011-07-18 2011-07-18 一种Web日志数据的预处理方法 Pending CN102393849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102006155A CN102393849A (zh) 2011-07-18 2011-07-18 一种Web日志数据的预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102006155A CN102393849A (zh) 2011-07-18 2011-07-18 一种Web日志数据的预处理方法

Publications (1)

Publication Number Publication Date
CN102393849A true CN102393849A (zh) 2012-03-28

Family

ID=45861173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102006155A Pending CN102393849A (zh) 2011-07-18 2011-07-18 一种Web日志数据的预处理方法

Country Status (1)

Country Link
CN (1) CN102393849A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724059A (zh) * 2012-03-31 2012-10-10 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测
CN103412901A (zh) * 2013-07-26 2013-11-27 北京奇虎科技有限公司 一种历史记录清理方法及装置
CN103501241A (zh) * 2013-09-18 2014-01-08 华为技术有限公司 垃圾文件清理方法、装置和系统
CN103678666A (zh) * 2013-12-24 2014-03-26 北京国双科技有限公司 用于在线访问的数据处理方法和装置
CN103678667A (zh) * 2013-12-24 2014-03-26 北京国双科技有限公司 用于在线访问的数据处理方法和装置
CN103944995A (zh) * 2014-04-28 2014-07-23 东华大学 一种识别宽带网络中独立用户账户的方法
WO2015154680A1 (zh) * 2014-04-08 2015-10-15 北京奇虎科技有限公司 一种文件处理方法、设备和网络系统
CN105069087A (zh) * 2015-08-03 2015-11-18 成都康赛信息技术有限公司 基于Web日志数据挖掘的网站优化方法
CN105590062A (zh) * 2015-12-16 2016-05-18 国家电网公司 一种可配置的文件客体安全重用方法
CN105701237A (zh) * 2016-02-23 2016-06-22 无锡中科富农物联科技有限公司 Web访问日志处理方法
CN106202251A (zh) * 2016-06-29 2016-12-07 泰华智慧产业集团股份有限公司 一种基于用户访问的关联页面挖掘方法及系统
CN106598832A (zh) * 2015-10-16 2017-04-26 富士通株式会社 在众包测试中处理应用程序的运行上下文的装置和方法
CN106909559A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 堆栈日志处理方法及装置
CN109359263A (zh) * 2018-10-16 2019-02-19 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统
CN110019074A (zh) * 2017-12-30 2019-07-16 中国移动通信集团河北有限公司 访问路径的分析方法、装置、设备及介质
CN111079138A (zh) * 2019-12-19 2020-04-28 北京天融信网络安全技术有限公司 异常访问检测方法、装置、电子设备及可读存储介质
CN111460004A (zh) * 2020-04-06 2020-07-28 北方工业大学 一种融合用户行为及Web页面依赖关系的数据挖掘方法
CN113660238A (zh) * 2021-08-10 2021-11-16 建信金融科技有限责任公司 人机识别方法、装置、系统、设备及可读存储介质
CN114077595A (zh) * 2021-11-25 2022-02-22 中国银行股份有限公司 Web中间件类型容器的日志备份清理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1791022A (zh) * 2005-12-26 2006-06-21 阿里巴巴公司 一种日志分析方法和系统
CN101242307A (zh) * 2008-02-01 2008-08-13 刘峰 用嵌入代码代理日志实现网站访问分析系统与方法
JP4429434B2 (ja) * 1999-11-17 2010-03-10 富士通株式会社 ログ読出し方法、ログ読出し装置、及び記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4429434B2 (ja) * 1999-11-17 2010-03-10 富士通株式会社 ログ読出し方法、ログ読出し装置、及び記録媒体
CN1791022A (zh) * 2005-12-26 2006-06-21 阿里巴巴公司 一种日志分析方法和系统
CN101242307A (zh) * 2008-02-01 2008-08-13 刘峰 用嵌入代码代理日志实现网站访问分析系统与方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程博: "基于日志的Web挖掘相关技术研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724059B (zh) * 2012-03-31 2015-03-11 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测
CN102724059A (zh) * 2012-03-31 2012-10-10 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测
CN103412901A (zh) * 2013-07-26 2013-11-27 北京奇虎科技有限公司 一种历史记录清理方法及装置
CN103501241A (zh) * 2013-09-18 2014-01-08 华为技术有限公司 垃圾文件清理方法、装置和系统
CN103501241B (zh) * 2013-09-18 2017-02-01 华为技术有限公司 垃圾文件清理方法、装置和系统
CN103678666A (zh) * 2013-12-24 2014-03-26 北京国双科技有限公司 用于在线访问的数据处理方法和装置
CN103678667B (zh) * 2013-12-24 2017-10-27 北京国双科技有限公司 用于在线访问的数据处理方法和装置
CN103678667A (zh) * 2013-12-24 2014-03-26 北京国双科技有限公司 用于在线访问的数据处理方法和装置
CN103678666B (zh) * 2013-12-24 2017-02-15 北京国双科技有限公司 用于在线访问的数据处理方法和装置
WO2015154680A1 (zh) * 2014-04-08 2015-10-15 北京奇虎科技有限公司 一种文件处理方法、设备和网络系统
CN103944995A (zh) * 2014-04-28 2014-07-23 东华大学 一种识别宽带网络中独立用户账户的方法
CN103944995B (zh) * 2014-04-28 2017-06-06 东华大学 一种识别宽带网络中独立用户账户的方法
CN105069087A (zh) * 2015-08-03 2015-11-18 成都康赛信息技术有限公司 基于Web日志数据挖掘的网站优化方法
CN106598832A (zh) * 2015-10-16 2017-04-26 富士通株式会社 在众包测试中处理应用程序的运行上下文的装置和方法
CN105590062A (zh) * 2015-12-16 2016-05-18 国家电网公司 一种可配置的文件客体安全重用方法
CN106909559B (zh) * 2015-12-23 2020-10-09 阿里巴巴集团控股有限公司 堆栈日志处理方法及装置
CN106909559A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 堆栈日志处理方法及装置
CN105701237A (zh) * 2016-02-23 2016-06-22 无锡中科富农物联科技有限公司 Web访问日志处理方法
CN106202251A (zh) * 2016-06-29 2016-12-07 泰华智慧产业集团股份有限公司 一种基于用户访问的关联页面挖掘方法及系统
CN110019074B (zh) * 2017-12-30 2021-03-23 中国移动通信集团河北有限公司 访问路径的分析方法、装置、设备及介质
CN110019074A (zh) * 2017-12-30 2019-07-16 中国移动通信集团河北有限公司 访问路径的分析方法、装置、设备及介质
CN109359263B (zh) * 2018-10-16 2020-09-29 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统
CN109359263A (zh) * 2018-10-16 2019-02-19 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统
CN111079138A (zh) * 2019-12-19 2020-04-28 北京天融信网络安全技术有限公司 异常访问检测方法、装置、电子设备及可读存储介质
CN111460004A (zh) * 2020-04-06 2020-07-28 北方工业大学 一种融合用户行为及Web页面依赖关系的数据挖掘方法
CN111460004B (zh) * 2020-04-06 2023-04-14 北方工业大学 一种融合用户行为及Web页面依赖关系的数据挖掘方法
CN113660238A (zh) * 2021-08-10 2021-11-16 建信金融科技有限责任公司 人机识别方法、装置、系统、设备及可读存储介质
CN113660238B (zh) * 2021-08-10 2023-05-16 建信金融科技有限责任公司 人机识别方法、装置、系统、设备及可读存储介质
CN114077595A (zh) * 2021-11-25 2022-02-22 中国银行股份有限公司 Web中间件类型容器的日志备份清理方法及装置

Similar Documents

Publication Publication Date Title
CN102393849A (zh) 一种Web日志数据的预处理方法
US20200236569A1 (en) Cross-channel user tracking systems, methods, and devices
US20190146616A1 (en) Systems And Methods For Remote Tracking And Replay Of User Interaction With A Webpage
US20090282052A1 (en) Tracking implicit trajectory of content sharing
US8880710B2 (en) Website monitoring and cookie setting
US8180376B1 (en) Mobile analytics tracking and reporting
CN105069087B (zh) 基于Web日志数据挖掘的网站优化方法
WO2012148863A2 (en) Targeting advertising based on tracking content sharing
US20090158161A1 (en) Collaborative search in virtual worlds
JP7055153B2 (ja) デジタル通信ネットワーク上の複数のデバイスにわたるデジタルタッチポイントを確立するための分散ノードクラスタ
CN103765858B (zh) 用于在用户在通信网络内的浏览期间监视用户的方法和服务器
Nithya et al. Novel pre-processing technique for web log mining by removing global noise and web robots
US20230368246A1 (en) Method for in-stream aggregation of ad interaction data for a population of users viewing ad content
Mehtaa et al. Web personalization using web mining: concept and research issue
Castellano et al. LODAP: a log data preprocessor for mining web browsing patterns
CN105824902A (zh) 一种数据缓存方法及装置
CN101887463B (zh) 一种基于虚拟域的http还原展示方法
Husin et al. News recommendation based on web usage and web content mining
JP5498072B2 (ja) 画面遷移最適化システム
CN104281581A (zh) 网页的推荐位内容曝光量的监测方法和系统
Shu-yue et al. The study on the preprocessing in web log mining
US11256853B2 (en) Parameterizing network communication paths
WO2014203015A1 (en) Cross-channel user tracking systems, methods and devices
CN104252453A (zh) 网页推荐位内容访问轨迹写操作的检测方法和系统
KR101057538B1 (ko) 웹 페이지 색인 업데이트 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Sun Jian

Inventor after: Huang Yue

Inventor after: Long Keping

Inventor after: Zhou Weiqiang

Inventor after: Li Jianghua

Inventor after: Wang Yanfeng

Inventor after: Lin Wei

Inventor after: Li Chaohong

Inventor after: Li Zhi

Inventor after: Xie Fachuan

Inventor before: Sun Jian

Inventor before: Long Keping

Inventor before: Li Zhi

Inventor before: Xie Fachuan

Inventor before: Huang Yue

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: SUN JIAN LONG KEPING LI ZHI XIE FACHUAN HUANG YUE TO: SUN JIAN LONG KEPINGZHOU WEIQIANG LI JIANGHUA WANG YANFENG LIN WEI LI CHAOHONG LI ZHI XIE FACHUAN HUANG YUE

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120328