CN102999572B - 用户行为模式挖掘系统及其方法 - Google Patents

用户行为模式挖掘系统及其方法 Download PDF

Info

Publication number
CN102999572B
CN102999572B CN201210448617.0A CN201210448617A CN102999572B CN 102999572 B CN102999572 B CN 102999572B CN 201210448617 A CN201210448617 A CN 201210448617A CN 102999572 B CN102999572 B CN 102999572B
Authority
CN
China
Prior art keywords
user
webpage
web page
behavior pattern
class
Prior art date
Application number
CN201210448617.0A
Other languages
English (en)
Other versions
CN102999572A (zh
Inventor
蒋昌俊
陈闳中
闫春钢
丁志军
于汪洋
葛雍龙
Original Assignee
同济大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 同济大学 filed Critical 同济大学
Priority to CN201210448617.0A priority Critical patent/CN102999572B/zh
Publication of CN102999572A publication Critical patent/CN102999572A/zh
Application granted granted Critical
Publication of CN102999572B publication Critical patent/CN102999572B/zh

Links

Abstract

本发明涉及用户行为模式挖掘系统及其方法,整个用户行为模式挖掘系统被部署在服务器端,接受客户端提交的用户浏览日志信息,根据用户近期访问网页日志信息,将用户浏览网页的访问日志记录并完成相应的数据预处理工作,抽取其中的主要的访问行为并构建起行为模式图,将用户行为模式存储下来并作为用户行为证书发布,供客户端下载。本发明方法具有可移植性,配置方便,无需第三方软件支持。本发明系统提高了对用户真实身份的识别率,在用户密码可靠性降低、用户账号密码可能被不法分子盗用的情况下,本发明可以加强防护广大网络用户个人财产安全和利益,保障web应用安全。

Description

用户行为模式挖掘系统及其方法

技术领域

[0001] 本发明涉及针对Web个人用户浏览行为的行为模式挖掘方法及其系统。

背景技术

[0002] 随着网络及电子商务的蓬勃发展,网银、支付宝等网上付费方式逐步成为人们网 上购物的首选。然而,网上付费方式给人们带来方便快捷的体验的同时,也带来了许多网络 安全隐患,给不法分子们提供了可乘之机。随着人们对web应用安全的重视程度日益提高, 单纯从技术角度对于web应用的攻击手段,如跨站脚本攻击等已经很难奏效了。但是由于 web用户的计算机专业知识的普遍缺乏,使得属于社会工程学范畴的网络诈骗,即通过钓鱼 网站骗取web用户的网银账号密码的手法却能够一次次的成功。csdn、人人网等账户的用 户密码泄露,对于电子商务安全更是一次极大的挑战。如何有效地识别一个人的真正身份, 仅仅通过账户的用户名密码显然已经不能满足现在的安全要求了。有效地识别一个用户的 真实,实际上成为了很大的安全问题。由于每个人的行为模式肯定各有不同,也很难被别人 盗用,那么对于用户真实身份的识别率将大大提高。所以通过采集用户平时的上网习惯,收 集其浏览日志,并从中挖掘出每个用户所特有的行为模式,以此达到更有效识别用户真实 身份的目的,减少网络诈骗成功的可能性。

[0003] 本发明面向的情况是在用户密码可靠性降低的、用户账号密码可能被不法分子盗 用的情况。现有的防范技术和手段都无法防止不法分子盗用他人合法账户获取个人利益。

发明内容

[0004] 本发明的目的在于克服上述现有技术的缺陷,通过采集用户平时的上网习惯,收 集其浏览日志,并从中挖掘出每个用户所特有的行为模式,以此达到更有效识别用户真实 身份的目的,减少网络诈骗成功的可能性。

[0005] 本发明是通过以下技术方案实现的:

[0006] -种用户行为模式挖掘方法,其特征在于,整个用户行为模式挖掘系统被部署在 服务器端,接受客户端提交的用户浏览日志信息,根据用户近期访问网页日志信息,将用 户浏览网页的访问日志记录并完成相应的数据预处理工作,抽取其中的主要的访问行为并 构建起行为模式图,将用户行为模式存储下来并作为用户行为证书发布,供客户端下载。

[0007] -种实现上述方法的用户行为模式挖掘系统,其特征在于,整个用户行为模式挖 掘系统被部署在服务器端,整个系统包括网页日志处理模块、网页分类聚类模块、行为模式 图构建模块和行为模式存储模块,其中:

[0008] 所述网页日志处理模块,该模块从过往日常的网页日志信息流中筛选出近期一 段时间的访问日志记录,根据网页日志的XML文件结构对每一条日志记录项抽取相关信 息,并创建一个对应的网页信息对象,从而形成网页信息对象链表;

[0009] 所述网页分类聚类模块,该模块采用依据网页URL层次划分的方法,负责对用户 访问的网页按网站及内容分类聚类;

[0010] 所述行为模式图构建模块,该模块负责提取用户访问的关键网页类并建立网页类 之间的链接关系;

[0011] 所述行为模式存储模块,该模块将构建的用户行为模式图以XML文件形式存储, 作为用户行为证书发布,供客户端下载。

[0012] 所述的网页日志处理模块,其特征在于,网页日志信息通过XML文件进行存储, 在XML文件中存储了过往用户所有的访问日志记录;所述XML文件结构为:

[0013]

Figure CN102999572BD00051

[0014] 每个所述XML文件中有一个根节点pagelogs,所述pagelogs下每个package代表 用户访问的一个网页,其中包含id,该网页在浏览日志中的编号;url,该网页的url信息; referer链入该网页的前继网页的url信息;title,该网页的标题;keywords,该网页的关 键字信息。

[0015] 所述的网页分类聚类模块,其特征在于,遍历网页日志处理模块中的网页信息对 象链表,依据URL划分网页的domainname和classname,对网页按照domainname进行分 类,对网页按照classname进行聚类,将相同domainname和classname且在所述网页信 息对象链表中出现连续的网页聚类成同一个网页类,据此形成网页类链表。

[0016] 所述的行为模式图构建模块,其特征在于,通过对网页分类聚类模块的网页类中 各个网页的referer字段进行处理找出每个网页类的前继网页类集合,逐步推进,最后建 立起所有网页类之间的链接跳转关系形成用户行为模式图。

[0017] 所述行为模式存储模块,其特征在于,所述XML文件结构为:

[0018]

Figure CN102999572BD00052

[0019] 该XML文件结构以Pattern作为根节点,在根节点Pattern以下是所有分类聚类 后的网页类PageClass按时间序排列形成的网页类PageClass的顺序表结构,

[0020] 所述网页类PageClass包含4个属性字段:id字段反映网页类的时间序属性; feature字段:domainname:classname,由所属网站的域名和其自身的类名组成;count 字段表示网页类中的网页个数;OutClassesList字段包含网页类的跳转信息,其中每一个Outclass表明在用户行为模式中,用户访问该类后,接着会跳转到其中的一个Outclass网 页类继续访问,其中的id字段标识了这个Outclass在顺序表中的位置,weight字段表明 跳转的链接个数。

[0021] 本发明是针对个人用户访问整个Internet的行为进行为模式挖掘;采用网页聚 类方式来进行行为模式挖掘;用户行为模式中,不仅包含了网页间的链接关系同时包含了 网页间访问时序关系。本发明方法具有可移植性,配置方便,无需第三方软件支持。本发明 系统提高了对用户真实身份的识别率,在用户密码可靠性降低、用户账号密码可能被不法 分子盗用的情况下,本发明可以加强防护广大网络用户个人财产安全和利益,保障web应 用安全。

附图说明

[0022] 图1为用户行为模式挖掘系统的架构。

[0023] 图2为网页日志处理流程示意图。

[0024] 图3为网页日志XML结构。

[0025] 图4网页分类聚类流程示意图。

[0026] 图5行为模式图构建流程示意图。

[0027] 图6用户行为证书的XML文件结构。

具体实施方式

[0028] 以下结合附图以实施例方式对本发明技术方案作进一步说明。

[0029] 如图1所示的用户行为模式挖掘系统的架构图,整个用户行为模式挖掘系统被部 署在服务器端,接受客户端提交的用户浏览日志信息,挖掘出用户行为模式图,并生成用户 行为证书发布,供客户端下载。

[0030] 用户网页日志处理模块:为了使用户访问互联网所形成的大量网页记录便于维护 和管理,网页日志信息通过XML文件进行存储。所以当需要对这些网页日志信息进行处理 和挖掘的时候,就需要通过数据预处理来解析XML文件以获取这些网页日志信息。同时在 XML文件中存储了过往用户所有的访问日志记录,其中可能包含一年甚至几年的访问信息, 但是由于实时性的考虑,只需要通过该用户最近一个月的访问日志记录进行行为模式挖 掘。所以就需要通过数据预处理来筛选出所需要的访问日志记录。

[0031 ] 所述XML文件结构如图3所示:

[0032]

Figure CN102999572BD00071

[0033] 每个网页日志的XML文件中有一个根节点pagelogs,pagelogs下每个package 代表用户访问的一个网页,其中包含id,该网页在浏览日志中的编号;url,该网页的url信 息;referer链入该网页的前继网页的url信息;title,该网页的标题;keywords,该网页 的关键字信息。

[0034] 网页日志处理流程如图2所示,从过往日常的网页日志信息流中筛选出近期30天 的访问日志记录,根据网页日志的XML文件结构对每一条日志记录项抽取相关信息,并创 建一个对应的网页信息对象,从而形成网页信息对象链表。

[0035] 网页分类聚类模块:在信息爆炸的互联网中,每天都会产生许多新的网页,同时因 为实时性的原因,经过一段时间后,某些旧的网页将会被丢弃。所以想要根据网页本身来刻 画出用户的行为模式是不现实的。但是,用户经常访问的网站和关注的内容大体上是不变 的,所以就需要通过获取的网页信息抽取出其所属的网站以及其中所包含的内容信息。在 网页分类聚类阶段,就是要将网页信息对象按照所属网站进行分类,同时按照其包含的内 容进行网页聚类,最终形成一个个网页类。

[0036] 对于网页的分类和聚类,采用是依据网页URL层次划分的方法。采用这种方法的 好处在于这样的划分方法实现简单,同时代价较小。对于大数据量的网页分类聚类,其时间 代价非常小。

[0037] 依据网页URL划分的三种方式:

[0038] (1)基于Page的划分:与原来相同。

[0039] (2)基于Domain的划分:属于同一个Webdomain的所有页面划为一块。

[0040] (3)基于Host的划分:属于同一个Webhost的所有页面划为一块。

[0041] 基于网页的划分:一个URL就代表了一个网页;基于Host的划分:识别host名, 对于一个URL地址,去掉"http://"和"www. ",一直到第一个反斜杜的部分;如http:// dir.yahoo,com/,dir.yahoo,com京尤是hostname;基于Domain的划分:识别domain名,在 host名里取其domaincore、分类、国家三部分即为domain名;如http://dir.yahoo,com/, domainname是yahoo,com,又如URLhttp://www.uol.com.br/esportes/~index.html, 其domainname是uol.com.br。在这里,本实施例采用的是基于Domain的划分方式对网页 所属网站进行分类。

[0042] 根据网站的组织结构,一般相同内容的网页会存放在相同的目录下,所以本实 施例将hostname去掉domainname的部分加上URL中的二级目录,即第一个反斜杜和 第二个反斜杜之间的内容组成网页类的classname。如http://sports,sina.com.cn/ t/2012-05_30/21556081448.shtml,它的hostname是sports,sina.com.cn,domainname 是sina.com.cn,二级目录是t,所以该网页所属的网站应该是sina.com.cn,而其所属网页 类的classname是sports/t〇

[0043] 考虑到如果将所有的同网站同网页类的网页聚合在一起,最后构建出的行为模式 图就会是强连通的,这样就不能很好的反映出用户特有的访问习惯,所以对于网页聚类的 原则是,只有当具有相同domainname和classname且在网页信息链表中连续的网页聚类 成同一个网页类。网页分类聚类流程,如图4所示:

[0044] 遍历网页日志处理模块中的网页信息对象链表,依据URL划分网页的domain name和classname,对网页按照domainname进行分类,对网页按照classname进行聚类, 将相同domainname和classname且在所述网页信息对象链表中出现连续的网页则聚类 成同一个网页类,据此形成网页类链表。

[0045] 行为模式图构建模块:由于本实施例处理的数据是30天用户访问互联网的网页 日志信息,而最后挖掘出的用户行为模式是用户一天的访问习惯。所以在行为模式挖掘阶 段需要通过30天的用户数据挖掘出用户在一天当中主要的访问习惯。同时行为模式挖掘 还需要通过对网页类中各个网页的referer字段进行处理找出每个网页类的前继网页类 集合,逐步推进,最后建立起所有网页类之间的链接跳转关系形成用户行为模式图,如图5 所示,具体流程:

[0046] 1、选取网页分类聚类模块中近期某段时间生成的网页类链表。

[0047] 2、给每条网页类链表赋予权重。

[0048] 3、抽取用户主要访问的网页类,形成一条新的网页类链表。

[0049] 4、划分每个网页类中各网页的referer字段,形成前继网页类集合。

[0050] 5、反向遍历网页类链表,建立网页类间的访问跳转关系。

[0051] 6、生成用户行为模式图。

[0052] 为了方便存储和管理,本实施例将挖掘出的用户行为模式以XML文件形式存储为 用户行为证书,如图6所示:

[0053]

Figure CN102999572BD00081

[0054] 如图6所示,用户行为模式的XML文件结构以Pattern作为根节点,在根节 点Pattern以下是所有分类聚类后的网页类PageClass按时间序排列形成的网页类 PageClass的顺序表结构。网页类PageClass包含4个属性字段:id字段反映网页类的时 间序属性;feature字段:domainname:classname,由所属网站的域名和其自身的类名 组成;count字段表示网页类中的网页个数;OutClassesList字段包含网页类的跳转信息, 其中每一个Outclass表明在用户行为模式中,用户访问该类后,接着会跳转到其中的一个 Outclass网页类继续访问,其中的id字段标识了这个Outclass在顺序表中的位置,weight字段表明跳转的链接个数。

Claims (2)

1. 一种用户行为模式挖掘方法,其特征在于,整个用户行为模式挖掘系统被部署在服 务器端,接受客户端提交的用户浏览日志信息,根据用户近期访问网页日志信息,将用户浏 览网页的访问日志记录并完成相应的数据预处理工作,抽取其中的主要的访问行为并构建 起行为模式图,将用户行为模式存储下来并作为用户行为证书发布,供客户端下载。
2. -种用户行为模式挖掘系统,其特征在于,整个用户行为模式挖掘系统被部署在服 务器端,整个系统包括网页日志处理模块、网页分类聚类模块、行为模式图构建模块和行为 模式存储模块,其中: 所述网页日志处理模块,该模块从过往日常的网页日志信息流中筛选出近期一段时 间的访问日志记录,根据网页日志的XML文件结构对每一条日志记录项抽取相关信息,并 创建一个对应的网页信息对象,从而形成网页信息对象链表; 所述网页分类聚类模块,该模块采用依据网页URL层次划分的方法,负责对用户访问 的网页按网站及内容分类聚类; 所述行为模式图构建模块,该模块负责提取用户访问的关键网页类并建立网页类之间 的链接关系; 所述行为模式存储模块,该模块将构建的用户行为模式图以XML文件形式存储,作为 用户行为证书发布,供客户端下载; 所述的网页日志处理模块,其特征在于,网页日志信息通过XML文件进行存储,在XML文件中存储了过往用户所有的访问日志记录;所述XML文件结构为:
Figure CN102999572BC00021
每个所述XML文件中有一个根节点pagelogs,所述pagelogs下每个package代表用 户访问的一个网页,其中包含id,该网页在浏览日志中的编号;url,该网页的url信息; referer链入该网页的前继网页的url信息;title,该网页的标题;keywords,该网页的关 键字信息; 所述的网页分类聚类模块,遍历网页日志处理模块中的网页信息对象链表,依据URL划分网页的domainname和classname,对网页按照domainname进行分类,对网页按照 classname进行聚类,将相同domainname和classname且在所述网页信息对象链表中出 现连续的网页聚类成同一个网页类,据此形成网页类链表; 所述的行为模式图构建模块,通过对网页分类聚类模块的网页类中各个网页的referer字段进行处理找出每个网页类的前继网页类集合,逐步推进,最后建立起所有网页 类之间的链接跳转关系形成用户行为模式图; 所述行为模式存储模块,其特征在于,所述XML文件结构为:
Figure CN102999572BC00031
该XML文件结构以Pattern作为根节点,在根节点Pattern以下是所有分类聚类后的 网页类PageClass按时间序排列形成的网页类PageClass的顺序表结构, 所述网页类PageClass包含4个属性字段:id字段反映网页类的时间序属性;feature字段:domainname:classname,由所属网站的域名和其自身的类名组成;count字段表示 网页类中的网页个数;OutClassesList字段包含网页类的跳转信息,其中每一个Outclass 表明在用户行为模式中,用户访问该类后,接着会跳转到其中的一个Outclass网页类继续 访问,其中的id字段标识了这个Outclass在顺序表中的位置,weight字段表明跳转的链 接个数。
CN201210448617.0A 2012-11-09 2012-11-09 用户行为模式挖掘系统及其方法 CN102999572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210448617.0A CN102999572B (zh) 2012-11-09 2012-11-09 用户行为模式挖掘系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210448617.0A CN102999572B (zh) 2012-11-09 2012-11-09 用户行为模式挖掘系统及其方法

Publications (2)

Publication Number Publication Date
CN102999572A CN102999572A (zh) 2013-03-27
CN102999572B true CN102999572B (zh) 2015-11-04

Family

ID=47928140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210448617.0A CN102999572B (zh) 2012-11-09 2012-11-09 用户行为模式挖掘系统及其方法

Country Status (1)

Country Link
CN (1) CN102999572B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838865B (zh) * 2014-03-20 2017-04-05 北京奇虎科技有限公司 用于挖掘时效性种子页的方法及装置
CN104270358B (zh) * 2014-09-25 2018-10-26 同济大学 可信网络交易系统客户端监控器及其实现方法
CN104270359B (zh) * 2014-09-25 2018-04-17 同济大学 网络交易的可信认证系统与方法
CN105516128B (zh) * 2015-12-07 2018-10-30 中国电子技术标准化研究院 一种Web攻击的检测方法及装置
CN106095955B (zh) * 2016-06-16 2019-04-05 杭州电子科技大学 基于业务流程日志和实体轨迹配对的行为模式挖掘方法
CN108574669B (zh) * 2017-03-10 2019-08-06 掌阅科技股份有限公司 用户行为树构建方法及装置
CN107256253A (zh) * 2017-06-09 2017-10-17 郑州云海信息技术有限公司 一种基于XML进行web访问模式挖掘的系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398870A (zh) * 2007-09-24 2009-04-01 广州市百成科技有限公司 一种基于密码分层体系的电子印章系统
CN101582817A (zh) * 2009-06-29 2009-11-18 华中科技大学 网络交互行为模式提取及相似性分析方法
CN102164170A (zh) * 2010-02-22 2011-08-24 阿瓦雅公司 情境性相关引擎
CN102314491A (zh) * 2011-08-23 2012-01-11 杭州电子科技大学 多核环境下基于海量日志的类似行为模式用户识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398870A (zh) * 2007-09-24 2009-04-01 广州市百成科技有限公司 一种基于密码分层体系的电子印章系统
CN101582817A (zh) * 2009-06-29 2009-11-18 华中科技大学 网络交互行为模式提取及相似性分析方法
CN102164170A (zh) * 2010-02-22 2011-08-24 阿瓦雅公司 情境性相关引擎
CN102314491A (zh) * 2011-08-23 2012-01-11 杭州电子科技大学 多核环境下基于海量日志的类似行为模式用户识别方法

Also Published As

Publication number Publication date
CN102999572A (zh) 2013-03-27

Similar Documents

Publication Publication Date Title
Mobasher et al. Web mining: Pattern discovery from world wide web transactions
CN101084496B (zh) 用于选择、分析以及将相关数据库记录可视化为网络的方法
US9135306B2 (en) System for forensic analysis of search terms
Chen Dark web: Exploring and data mining the dark side of the web
US9613149B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
US20060294192A1 (en) Access control systems and methods using visibility tokens with automatic propagation
US20110082848A1 (en) Systems, methods and computer program products for search results management
US20120203733A1 (en) Method and system for personal cloud engine
Suneetha et al. Identifying user behavior by analyzing web server access log file
US20120323627A1 (en) Real-time Monitoring of Public Sentiment
Clifford Neuman Prospero: A tool for organizing internet resources
WO2008064593A1 (fr) Procédé et système d'analyse de journal basés sur un réseau de calcul distribué
BRPI0715701A2 (pt) mÉtodo de coleta de dados em uma rede distribuÍda
Stoilova et al. Givealink: mining a semantic network of bookmarks for web search and recommendation
CN102592067B (zh) 一种网页识别方法、装置及系统
US9300755B2 (en) System and method for determining information reliability
Johansson et al. Estimating citizen alertness in crises using social media monitoring and analysis
Jaseena et al. Issues, challenges, and solutions: big data mining
CN101320373B (zh) 网站支撑数据库安全搜索引擎系统
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN101369276B (zh) 一种Web浏览器缓存数据的取证方法
JP5702555B2 (ja) デジタル資産管理、ターゲットを定めたサーチ、及びデジタル透かしを使用するデスクトップサーチ
US8275789B2 (en) Collaborative bookmarking
Baeza-Yates et al. Next generation Web search
CN101231661B (zh) 对象级知识挖掘的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
C10 Entry into substantive examination
GR01 Patent grant
C14 Grant of patent or utility model