CN108153870A - 一种用户访问路径预测方法 - Google Patents

一种用户访问路径预测方法 Download PDF

Info

Publication number
CN108153870A
CN108153870A CN201711422976.8A CN201711422976A CN108153870A CN 108153870 A CN108153870 A CN 108153870A CN 201711422976 A CN201711422976 A CN 201711422976A CN 108153870 A CN108153870 A CN 108153870A
Authority
CN
China
Prior art keywords
node
user
frequent
collection
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711422976.8A
Other languages
English (en)
Inventor
刘明鸣
胡涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201711422976.8A priority Critical patent/CN108153870A/zh
Publication of CN108153870A publication Critical patent/CN108153870A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及计算机软件领域,公开了一种用户访问路径预测方法,用于更好的预测用户的访问路径。本发明首先从日志文件构造出用户访问序列集,然后在该序列集上,使用改进的PLWAP算法做频繁路径挖掘得到频繁访问路径,从而预测用户下一步访问的页面,为页面推荐、网站拓扑结构调整提供建议。本发明适用于用户访问路径预测。

Description

一种用户访问路径预测方法
技术领域
本发明涉及计算机软件领域,特别涉及一种用户访问路径预测方法。
背景技术
用户在网站时所产生的页面点击序列称为用户访问路径。对每位用户的访问路径进行频繁模式挖掘,从而达到预测用户行为。对网站结构优化、网页推荐WEB挖掘是对服务器产生的日志数据进行数据挖掘,挖掘出有用模式。
基于频繁路径挖掘的PLWAP算法将数据压缩在一棵树中,但是使用二进制对树中节点的位置进行编码,存在数据量过大时,二进制位置编码的长度将变得无法想象的长,以及编码的个数也将呈现2的指数级趋势升高的缺陷。
发明内容
本发明要解决的技术问题是:提供一种用户访问路径预测方法,用于更好的预测用户的访问路径。
为解决上述问题,本发明采用的技术方案是:一种用户访问路径预测方法,包括以下步骤:
A、从站点服务器获取日志数据进行数据预处理,构造用户访问序列集;
B、对于用户访问序列集,删除每个序列中的非频繁项,得到频繁访问序列集;
C、根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中;所述改进编码模式包括:以先序遍历方式遍历整个树,对每个访问到的节点从0开始编号;如果某节点为叶子节点,则其desPreOrderID等于该节点的preOrderID;如果某节点有子孙节点,则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值;其中,preOrderID为先序遍历序号,desPreOrderID为子孙节点的先序遍历序号;
D、在改进的PLWAP-树上使用挖掘算法进行频繁路径递归挖掘,得到用户访问模式集合;
E、对步骤D中得到的用户访问模式集合进行模式分析,从而对用户访问路径进行预测。
进一步的,步骤A对日志数据进行预处理,具体包括以下分步骤:
A1、对日志文件进行数据清洗,去除无效数据和非用户主动访问的项目;
A2、根据日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用户进行识别;
A3、将用户的原始访问序列划分为若干个单次访问序列;
A4、若用户请求访问页面和对应页面请求无链接关系,则利用站点拓扑结构将请求页面补充完整。
进一步的,步骤C根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中具体包括:
依次取出频繁序列集的一条序列L1,对于L1中一个频繁项ei,1)如果ei不存在,从根节点起,先序遍历该树,由1开始依次递增对每个节点的preOrderID进行编码,并置desPreOrderID=0,同时将同形结点加入头结点链中,然后再从根节点开始,后序遍历树,根据节点的desPreOrderID定义,设置每个节点的desPreOrderID;2)如果ei存在,并且当前节点有子节点,ei属于当前节点子节点的其中一个,则子节点计数值加1;3)如果ei存在,并且当前节点有子节点,但ei不属于当前节点子节点的其中一个,则将ei作为新的节点(ei:1)插入至树中,支持度计数为1;4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中,支持度计数为1。
进一步的,步骤D一次递归挖掘的步骤具体包括:
判断频繁项ei后缀树集R是否为空,1)如果后缀树集R为空,则算法结束;2)如果不为空,对于每个频繁项ei,获取ei后缀树集R,获取ei的第一结点S,并将S插入后缀树集R’,后缀树集R’用于下次递归;3)对于ei-结点链的每个同形结点eij和后缀树集R的每个节点Ri,判断他们的关系:3.1)如果Ri是eij的祖先节点且eij不是S的子孙节点,累加计算eij计数值C,并将eij插入后缀树集R’,第一节点改成eij;3.2)如果Ri是eij的左兄弟节点,则继续读取下一个后缀树集R中节点;3.3)如果Ri是eij的右兄弟节点或是子孙节点,则继续读取ei-结点链的下一个节点;4)当后缀树集R中再无节点时,且当前计数值C大于最小支持度,则将该频繁项添加入频繁集F’集中,并将同形节点加入且后缀数集R’中;5)将本次获取的后缀数集R’和频繁集F’作为下次挖掘的条件继续挖掘。
本发明的有益效果是:本发明对现有的分析方法提出了改进,通过对PLWAP算法中对叶子的位置编码模式进行改进、以及对挖掘算法进行改进,,能够更好的预测用户的访问路径,为网站运营商提供有效的辅助性意见,从而对网站运营提供针对性帮助,提高了分析效率。
附图说明
图1是本发明的流程图。
图2是本发明改进的PLWAP-树节点编码示意图。
图3是实施例中配合表1获取频繁访问序列集步骤的示意图。
图4是实施例中建立改进的PLWAP-树过程示意图。
图中编号:N为事件名称,H为链接点。
具体实施方式
本发明首先从日志文件构造出用户访问序列集,然后在该序列集上,使用改进的PLWAP算法做频繁路径挖掘得到频繁访问路径,从而预测用户下一步访问的页面,为页面推荐、网站拓扑结构调整提供建议。如图1所示,包括以下步骤:
步骤S1:构造用户访问序列集
该步骤是从收集到的服务器日志进行数据预处理,从而形成有效的用户访问路径,其过程具体为:首先对日志文件进行数据清洗工作,去除无效数据和非用户主动访问的项目(例如图片信息),在此只关心用户主动请求的信息,而非用户主动请求的项目则可以去除。然后根据日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用户进行识别,得到每个用户的访问集,再将访问集分解成一次次的访问序列,最后若用户请求访问页面和对应页面请求无链接关系,则利用站点拓扑结构将请求页面补充完整再进行路补充,得到用户访问序列集。
步骤S2:频繁路径挖掘
频繁路径挖掘采用改进的PLWAP算法,主要包含3个步骤,一是获取频繁访问序列集,二是构建改进的PLWAP-树,三是在改进的PLWAP-树上递归挖掘得到频繁模式。
步骤S2.1:获取频繁访问序列集
判定一个页面是否是频繁的,需要指定一个最小支持度阈值λ,如果一个页面出现的频率大于λ则可认定该页面是频繁页面。对访问序列集中的每个序列除去非频繁页面即可得到频繁序列,所有的频繁序列所形成的集合称为频繁序列集。
步骤S2.2:构建改进的PLWAP-树
得到频繁访问序列集后,需对频繁访问序列集中的每条序列依次读取建立树形结构。建立树形结构最重要的是节点的存储方式,未改进的PLWAP算法对节点采用三元组<频繁项:支持度计数值:位置编码>进行存储。其中,支持度计数值代表每个访问页面的次数,位置编码采用二进制方式存储节点位置信息,但当数据量不断增加时,也就是树的高度也不断增高时,二进制位置编码的长度将变得无法想象的长,以及编码的个数也将呈现2的指数级趋势升高,这对于计算机内存和cpu计算量面临巨大的挑战,这也将会大大降低算法的效率。介于此种情况,本发明在PLWAP算法的基础上,针对PLWAP算法中的二进制位置编码缺陷提出了一种改进的节点编码模式。其位置编码利用先序遍历顺序序列号对每个节点的位置进行编码,编码形式如图2所示。
为方便阐述,简单记为“事件名称:支持计数值(preOrderID,desPreOrderID)”。其中,preOrderID称为先序遍历序号,表示以先序遍历方式遍历整个树,对给每个访问到的节点从0开始编号。desPreOrderID称为子孙节点的先序遍历序号,desPreOrderID的定义是建立在preOrderID上的,具体如下:
1)如果该节点为叶子节点,则其desPreOrderID等于该节点的preOrderID;
2)否则,如果该节点有子孙节点,则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值。
改进的PLWAP-树算法建立过程:依次取出频繁序列集的一条序列L1,对于L1中一个频繁项ei,1)如果ei不存在,从根节点起,先序遍历该树,由1开始依次递增对每个节点的preOrderID进行编码,并置desPreOrderID=0,同时将同形结点加入头结点链中,然后再从根节点开始,后序遍历树,根据节点的desPreOrderID定义,设置每个节点的desPreOrderID。2)如果ei存在,并且当前节点有子节点,ei属于当前节点子节点的其中一个,则子节点计数值加1;3)如果ei存在,并且当前节点有子节点,但ei不属于当前节点子节点的其中一个,则将ei作为新的节点(ei:1)插入至树中,支持度计数为1;4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中,支持度计数为1。
步骤S2.3:递归挖掘
挖掘过程主要是从头结点表中的第一个频繁项开始,通过重复产生后缀树集,不断“扩充”公共前缀模式,进而获得所有频繁模式。一次递归挖掘的具体过程包括:如果后缀树集R为空,则算法结束;2)如果不为空,对于每个频繁项ei,获取ei后缀树集R,获取ei的第一结点S(对于某节点e,如果在其后缀树中,它的祖先节点中没有与它同形的节点,则称e为第一节点),并将S插入后缀树集R’,后缀树集R’用于下次递归;3)对于ei-结点链的每个同形结点eij和后缀树集R的每个节点Ri,判断他们的关系:3.1)如果Ri是eij的祖先节点且eij不是S的子孙节点,累加计算eij计数值C,并将eij插入后缀树集R’,第一节点改成eij;3.2)如果Ri是eij的左兄弟节点,则继续读取下一个后缀树集R中节点;3.3)如果Ri是eij的右兄弟节点或是子孙节点,则继续读取ei-结点链的下一个节点;4)当后缀树集R中再无节点时,且当前计数值C大于最小支持度,则将该频繁项添加入频繁集F’集中,并将同形节点加入且后缀数集R’中;5)将本次获取的后缀数集R’和频繁集F’作为下次挖掘的条件继续挖掘。
步骤S3:模式分析
最后对得到频繁模式进行模式分析,除去不必要的模式得到有用的模式,最终得到用户频繁访问路径。
实施例
现在对某日志文件做数据预处理后得到用户的访问序列集,如表1第2栏所示,在此指定最小支持度阈值λ=0.75,其中,a、b、c、d、e、f代表用户请求的页面,访问序列从左至右代表了用户按时间先后顺序依次请求的页面序列。
表1λ=0.75的用户访问序列集
首先,得到频繁访问序列集:扫描访问序列集,统计访问序列集中每个访问页面出现的次数,如图3左侧所示。由于最小支持度阈值λ=0.75,于是次数大于或等于最小支持度阈值*访问序列集个数(4*0.75,即3)才能算是频繁项(或称频繁访问页面),删除次数小于3的非频繁项,得到频繁访问序列集,如图3右侧所示。接着,对于访问序列集中的每个访问序列,剔除非频繁项得到频繁访问序列集,如表1的第3栏所示。
然后在频繁访问序列集上构建改进PLWAP-树。首先,将第一条频繁访问序列abac插入只有一个根节点(root)的树,节点(a:1)作为root的子节点插入到树中,并在头结点表(Header Table)添加同形节点链。由此,创建由该节点开始的一条分支“(a:1)->(b:1)->(a:1)->(c:1)”。然后插入第二条序列abcac,从root开始,由于root已经有了一个(a:1)子节点,因此只需增加a的支持度计数即可,此时节点变为(a:2),同样地,(b:1)变为(b:2)。到事件c时,b的子节点并无c节点,因此,创建一个新的节点并赋予计数值为1,即(c:1),并在Header Table添加同形节点链。余下的序列同样如此地在PLWAP-Tree中添加节点。最后先序、后序遍历树添上位置编码信息。构造好了的改进的PLWAP-树如图4所示。
现对图4中改进的PLWAP-tree进行频繁模式挖掘,对于Header Table中的第一个事件a,沿着a的结点链,此时后缀树根节点集R={Root}且F={},在后缀树根节点集R中查找a的第一节点<a:1(1,8)>,将第一节点<a:1(1,8)>添加到R’中,并计入总计数值。然后继而沿着a结点链,找到下一个a的同形点节点<a:2(3,5)>,虽然节点<a:2(3,5)>是R的子孙节点,但是也是第一节点<a:1(1,8)>的子孙节点,不满足条件,继续沿着a的结点链找到的下一个节点<a:1(7,8)>同样不满足条件,最后找到节点<a:1(10,13)>满足条件:R的子孙节点但却不是第一节点的子孙节点,于是将节点<a:1(10,13)>加入R’中,并计入中计数值,现在第一节点集为{<a:3(1,8)>,<a:1(10,13)>},由于这两个节点的计数值之和(等于4)大于最小支持度计数3(|WASD|*λ,4*0.75),因此将事件a作为频繁模式添加入F集中,F’={a},且后缀数根节点集R变为R’={<a:3(1,8)>和<a:1(10,13)>},然后将R’,F’作为下一次挖掘的条件。
在第二次递归中,从Header Table的a-结点链开始,此时R={<a:3(1,8)>和<a:1(10,13)>}找到a的第一节点<a:2(3,5)>,添加至R’中并计入总计数值,沿着结点链找到第二个符合条件的节点<a:1(7,8)>(节点<a:1(7,8)即是后缀树<a:3(1,8)>的子孙节点,又非第一节点<a:2(3,5)>的子孙节点>,满足条件),添加至R’中并计入总计数值,但是到了节点<a:1(10,13)>,由于该节点是现后缀树集中节点<a:3(1,8)>的右兄弟节点,因此现后缀树集节点变为下一个节点<a:1(10,13)>,因而找到满足条件节点<a:1(12,13)>,添加至R’中并计入总计数值,此时,R’={<a:2(3,5)>,<a:1(7,8)>,<a:1(12,13)>},其总计数值4大于最小支持计数值,视事件a为频繁项,加入F中,得到频繁模式集F’={a,aa},将本次递归所得到R’和F’作为下一次递归的条件。像这样依次递归挖掘下去,最终我们得到挖掘结果F={a,aa,aac,ab,aba,abac,abc,ac,b,ba,bac,bc,c}。
最后对挖掘得到频繁结果F={a,aa,aac,ab,aba,abac,abc,ac,b,ba,bac,bc,c}进行模式分析,除去无意义项,得到F={ab,aba,abac,abc,ac,ba,bac,bc},从而可以预测用户下次访问页面,例如{ab,aba,abac,abc,ac},说明大多数用户在访问a页面后会访问c页面,因此可以在a页面给用户推荐c页面。也可以对网站拓扑结构调整做出建议,例如{ab,aba,abac,abc,ac},说明有部分用户在访问c页面需要经过b页面,因此可以考虑将c页面的级别在b页面前面,提高用户查找目标页面c的效率。
以上描述了本发明的基本原理和主要的特征,说明书的描述只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (4)

1.一种用户访问路径预测方法,其特征在于,包括以下步骤:
A、从站点服务器获取日志数据进行数据预处理,构造用户访问序列集;
B、对于用户访问序列集,删除每个序列中的非频繁项,得到频繁访问序列集;
C、根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中;所述改进编码模式包括:以先序遍历方式遍历整个树,对每个访问到的节点从0开始编号;如果某节点为叶子节点,则其desPreOrderID等于该节点的preOrderID;如果某节点有子孙节点,则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值;其中,preOrderID为先序遍历序号,desPreOrderID为子孙节点的先序遍历序号;
D、在改进的PLWAP-树上使用挖掘算法进行频繁路径递归挖掘,得到用户访问模式集合;
E、对步骤D中得到的用户访问模式集合进行模式分析,从而对用户访问路径进行预测。
2.如权利要求1所述的一种用户访问路径预测方法,其特征在于,步骤A对日志数据进行预处理,具体包括以下分步骤:
A1、对日志文件进行数据清洗,去除无效数据和非用户主动访问的项目;
A2、根据日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用户进行识别;
A3、将用户的原始访问序列划分为若干个单次访问序列;
A4、若用户请求访问页面和对应页面请求无链接关系,则利用站点拓扑结构将请求页面补充完整。
3.如权利要求1所述的一种用户访问路径预测方法,其特征在于,步骤C根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中具体包括:
依次取出频繁序列集的一条序列L1,对于L1中一个频繁项ei,1)如果ei不存在,从根节点起,先序遍历该树,由1开始依次递增对每个节点的preOrderID进行编码,并置desPreOrderID=0,同时将同形结点加入头结点链中,然后再从根节点开始,后序遍历树,根据节点的desPreOrderID定义,设置每个节点的desPreOrderID;2)如果ei存在,并且当前节点有子节点,ei属于当前节点子节点的其中一个,则子节点计数值加1;3)如果ei存在,并且当前节点有子节点,但ei不属于当前节点子节点的其中一个,则将ei作为新的节点(ei:1)插入至树中,支持度计数为1;4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中,支持度计数为1。
4.如权利要求1所述的一种用户访问路径预测方法,其特征在于,步骤D一次递归挖掘的步骤具体包括:
判断频繁项ei后缀树集R是否为空,1)如果后缀树集R为空,则算法结束;2)如果不为空,对于每个频繁项ei,获取ei后缀树集R,获取ei的第一结点S,并将S插入后缀树集R’,后缀树集R’用于下次递归;3)对于ei-结点链的每个同形结点eij和后缀树集R的每个节点Ri,判断他们的关系:3.1)如果Ri是eij的祖先节点且eij不是S的子孙节点,累加计算eij计数值C,并将eij插入后缀树集R’,第一节点改成eij;3.2)如果Ri是eij的左兄弟节点,则继续读取下一个后缀树集R中节点;3.3)如果Ri是eij的右兄弟节点或是子孙节点,则继续读取ei-结点链的下一个节点;4)当后缀树集R中再无节点时,且当前计数值C大于最小支持度,则将该频繁项添加入频繁集F’集中,并将同形节点加入且后缀数集R’中;5)将本次获取的后缀数集R’和频繁集F’作为下次挖掘的条件继续挖掘。
CN201711422976.8A 2017-12-25 2017-12-25 一种用户访问路径预测方法 Pending CN108153870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711422976.8A CN108153870A (zh) 2017-12-25 2017-12-25 一种用户访问路径预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711422976.8A CN108153870A (zh) 2017-12-25 2017-12-25 一种用户访问路径预测方法

Publications (1)

Publication Number Publication Date
CN108153870A true CN108153870A (zh) 2018-06-12

Family

ID=62462020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711422976.8A Pending CN108153870A (zh) 2017-12-25 2017-12-25 一种用户访问路径预测方法

Country Status (1)

Country Link
CN (1) CN108153870A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858977A (zh) * 2019-02-26 2019-06-07 维正科技服务有限公司 一种基于自编码的用户行为分析方法和系统
CN110516170A (zh) * 2018-07-06 2019-11-29 北京白山耘科技有限公司 一种检查异常web访问的方法及装置
CN111611508A (zh) * 2020-05-28 2020-09-01 江苏易安联网络技术有限公司 一种用户实际访问网址的识别方法及装置
CN112182017A (zh) * 2020-09-30 2021-01-05 天津大学 一种基于用户交互过程的优化数据探索的方法
CN113590974A (zh) * 2021-09-29 2021-11-02 北京每日优鲜电子商务有限公司 推荐页面配置方法、装置、电子设备和计算机可读介质
WO2024039474A1 (en) * 2022-08-17 2024-02-22 Google Llc Privacy sensitive estimation of digital resource access frequency
WO2024086256A1 (en) * 2022-10-20 2024-04-25 Google Llc Privacy sensitive estimation of digital resource access frequency

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266610A (zh) * 2008-04-25 2008-09-17 浙江大学 一种Web活跃用户网站访问模式的在线挖掘方法
US20140330986A1 (en) * 2013-05-01 2014-11-06 Red Hat, Inc. Compression of content paths in a digital certicate
CN107256253A (zh) * 2017-06-09 2017-10-17 郑州云海信息技术有限公司 一种基于XML进行web访问模式挖掘的系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266610A (zh) * 2008-04-25 2008-09-17 浙江大学 一种Web活跃用户网站访问模式的在线挖掘方法
US20140330986A1 (en) * 2013-05-01 2014-11-06 Red Hat, Inc. Compression of content paths in a digital certicate
CN107256253A (zh) * 2017-06-09 2017-10-17 郑州云海信息技术有限公司 一种基于XML进行web访问模式挖掘的系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑美玉: "Web日志频繁序列模式挖掘算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516170A (zh) * 2018-07-06 2019-11-29 北京白山耘科技有限公司 一种检查异常web访问的方法及装置
CN110516170B (zh) * 2018-07-06 2020-04-28 北京白山耘科技有限公司 一种检查异常web访问的方法及装置
CN109858977A (zh) * 2019-02-26 2019-06-07 维正科技服务有限公司 一种基于自编码的用户行为分析方法和系统
CN109858977B (zh) * 2019-02-26 2023-06-16 维正科技服务有限公司 一种基于自编码的用户行为分析方法和系统
CN111611508A (zh) * 2020-05-28 2020-09-01 江苏易安联网络技术有限公司 一种用户实际访问网址的识别方法及装置
CN111611508B (zh) * 2020-05-28 2020-12-15 江苏易安联网络技术有限公司 一种用户实际访问网址的识别方法及装置
CN112182017A (zh) * 2020-09-30 2021-01-05 天津大学 一种基于用户交互过程的优化数据探索的方法
CN113590974A (zh) * 2021-09-29 2021-11-02 北京每日优鲜电子商务有限公司 推荐页面配置方法、装置、电子设备和计算机可读介质
WO2024039474A1 (en) * 2022-08-17 2024-02-22 Google Llc Privacy sensitive estimation of digital resource access frequency
WO2024086256A1 (en) * 2022-10-20 2024-04-25 Google Llc Privacy sensitive estimation of digital resource access frequency

Similar Documents

Publication Publication Date Title
CN108153870A (zh) 一种用户访问路径预测方法
Niranjan et al. Developing a web recommendation system based on closed sequential patterns
Burattin et al. Control-flow discovery from event streams
CN102289507B (zh) 一种基于滑动窗口的数据流加权频繁模式挖掘方法
CN101266610B (zh) 一种Web活跃用户网站访问模式的在线挖掘方法
KR101105363B1 (ko) 롱 트랜잭션 데이터 스트림을 위한 빈발항목집합 탐색 방법
CN102831193A (zh) 基于分布式多级聚类的话题检测装置及方法
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN110719106B (zh) 一种基于节点分类排序的社交网络图压缩方法及系统
Santoso et al. Close dominance graph: An efficient framework for answering continuous top-$ k $ dominating queries
Singh et al. An efficient algorithm for ranking research papers based on citation network
Chen et al. HyperBSA: A high-performance consortium blockchain storage architecture for massive data
Zhang et al. A survey of key technologies for high utility patterns mining
Tang et al. Reliable community search in dynamic networks
Mallick et al. Incremental mining of sequential patterns: Progress and challenges
Cheng et al. Multi-Query Diversification in Microblogging Posts.
Makker et al. Web server performance optimization using prediction prefetching engine
Han et al. Adaptive and multiple interest-aware user profiles for personalized search in folksonomy: A simple but effective graph-based profiling model
KR101238014B1 (ko) 듀얼 트리 구조를 이용하여 데이터 스트림에서 순차 패턴을 탐사하기 위한 장치 및 그 방법
Veloso et al. Parallel and distributed frequent itemset mining on dynamic datasets
Kumar et al. A New Web Usage Mining Approach for Website Recommendations Using Concept Hierarchy and Website Graph
Rashid et al. A novel algorithm for mining behavioral patterns from wireless sensor networks
Huang et al. A Novel Frequent Pattern Mining Algorithm for Real-time Radar Data Stream.
Cao et al. An algorithm for outlier detection on uncertain data stream
Singh et al. Web pre-fetching at proxy server using sequential data mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612