CN108153870A - 一种用户访问路径预测方法 - Google Patents
一种用户访问路径预测方法 Download PDFInfo
- Publication number
- CN108153870A CN108153870A CN201711422976.8A CN201711422976A CN108153870A CN 108153870 A CN108153870 A CN 108153870A CN 201711422976 A CN201711422976 A CN 201711422976A CN 108153870 A CN108153870 A CN 108153870A
- Authority
- CN
- China
- Prior art keywords
- node
- user
- frequent
- collection
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及计算机软件领域,公开了一种用户访问路径预测方法,用于更好的预测用户的访问路径。本发明首先从日志文件构造出用户访问序列集,然后在该序列集上,使用改进的PLWAP算法做频繁路径挖掘得到频繁访问路径,从而预测用户下一步访问的页面,为页面推荐、网站拓扑结构调整提供建议。本发明适用于用户访问路径预测。
Description
技术领域
本发明涉及计算机软件领域,特别涉及一种用户访问路径预测方法。
背景技术
用户在网站时所产生的页面点击序列称为用户访问路径。对每位用户的访问路径进行频繁模式挖掘,从而达到预测用户行为。对网站结构优化、网页推荐WEB挖掘是对服务器产生的日志数据进行数据挖掘,挖掘出有用模式。
基于频繁路径挖掘的PLWAP算法将数据压缩在一棵树中,但是使用二进制对树中节点的位置进行编码,存在数据量过大时,二进制位置编码的长度将变得无法想象的长,以及编码的个数也将呈现2的指数级趋势升高的缺陷。
发明内容
本发明要解决的技术问题是:提供一种用户访问路径预测方法,用于更好的预测用户的访问路径。
为解决上述问题,本发明采用的技术方案是:一种用户访问路径预测方法,包括以下步骤:
A、从站点服务器获取日志数据进行数据预处理,构造用户访问序列集;
B、对于用户访问序列集,删除每个序列中的非频繁项,得到频繁访问序列集;
C、根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中;所述改进编码模式包括:以先序遍历方式遍历整个树,对每个访问到的节点从0开始编号;如果某节点为叶子节点,则其desPreOrderID等于该节点的preOrderID;如果某节点有子孙节点,则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值;其中,preOrderID为先序遍历序号,desPreOrderID为子孙节点的先序遍历序号;
D、在改进的PLWAP-树上使用挖掘算法进行频繁路径递归挖掘,得到用户访问模式集合;
E、对步骤D中得到的用户访问模式集合进行模式分析,从而对用户访问路径进行预测。
进一步的,步骤A对日志数据进行预处理,具体包括以下分步骤:
A1、对日志文件进行数据清洗,去除无效数据和非用户主动访问的项目;
A2、根据日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用户进行识别;
A3、将用户的原始访问序列划分为若干个单次访问序列;
A4、若用户请求访问页面和对应页面请求无链接关系,则利用站点拓扑结构将请求页面补充完整。
进一步的,步骤C根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中具体包括:
依次取出频繁序列集的一条序列L1,对于L1中一个频繁项ei,1)如果ei不存在,从根节点起,先序遍历该树,由1开始依次递增对每个节点的preOrderID进行编码,并置desPreOrderID=0,同时将同形结点加入头结点链中,然后再从根节点开始,后序遍历树,根据节点的desPreOrderID定义,设置每个节点的desPreOrderID;2)如果ei存在,并且当前节点有子节点,ei属于当前节点子节点的其中一个,则子节点计数值加1;3)如果ei存在,并且当前节点有子节点,但ei不属于当前节点子节点的其中一个,则将ei作为新的节点(ei:1)插入至树中,支持度计数为1;4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中,支持度计数为1。
进一步的,步骤D一次递归挖掘的步骤具体包括:
判断频繁项ei后缀树集R是否为空,1)如果后缀树集R为空,则算法结束;2)如果不为空,对于每个频繁项ei,获取ei后缀树集R,获取ei的第一结点S,并将S插入后缀树集R’,后缀树集R’用于下次递归;3)对于ei-结点链的每个同形结点eij和后缀树集R的每个节点Ri,判断他们的关系:3.1)如果Ri是eij的祖先节点且eij不是S的子孙节点,累加计算eij计数值C,并将eij插入后缀树集R’,第一节点改成eij;3.2)如果Ri是eij的左兄弟节点,则继续读取下一个后缀树集R中节点;3.3)如果Ri是eij的右兄弟节点或是子孙节点,则继续读取ei-结点链的下一个节点;4)当后缀树集R中再无节点时,且当前计数值C大于最小支持度,则将该频繁项添加入频繁集F’集中,并将同形节点加入且后缀数集R’中;5)将本次获取的后缀数集R’和频繁集F’作为下次挖掘的条件继续挖掘。
本发明的有益效果是:本发明对现有的分析方法提出了改进,通过对PLWAP算法中对叶子的位置编码模式进行改进、以及对挖掘算法进行改进,,能够更好的预测用户的访问路径,为网站运营商提供有效的辅助性意见,从而对网站运营提供针对性帮助,提高了分析效率。
附图说明
图1是本发明的流程图。
图2是本发明改进的PLWAP-树节点编码示意图。
图3是实施例中配合表1获取频繁访问序列集步骤的示意图。
图4是实施例中建立改进的PLWAP-树过程示意图。
图中编号:N为事件名称,H为链接点。
具体实施方式
本发明首先从日志文件构造出用户访问序列集,然后在该序列集上,使用改进的PLWAP算法做频繁路径挖掘得到频繁访问路径,从而预测用户下一步访问的页面,为页面推荐、网站拓扑结构调整提供建议。如图1所示,包括以下步骤:
步骤S1:构造用户访问序列集
该步骤是从收集到的服务器日志进行数据预处理,从而形成有效的用户访问路径,其过程具体为:首先对日志文件进行数据清洗工作,去除无效数据和非用户主动访问的项目(例如图片信息),在此只关心用户主动请求的信息,而非用户主动请求的项目则可以去除。然后根据日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用户进行识别,得到每个用户的访问集,再将访问集分解成一次次的访问序列,最后若用户请求访问页面和对应页面请求无链接关系,则利用站点拓扑结构将请求页面补充完整再进行路补充,得到用户访问序列集。
步骤S2:频繁路径挖掘
频繁路径挖掘采用改进的PLWAP算法,主要包含3个步骤,一是获取频繁访问序列集,二是构建改进的PLWAP-树,三是在改进的PLWAP-树上递归挖掘得到频繁模式。
步骤S2.1:获取频繁访问序列集
判定一个页面是否是频繁的,需要指定一个最小支持度阈值λ,如果一个页面出现的频率大于λ则可认定该页面是频繁页面。对访问序列集中的每个序列除去非频繁页面即可得到频繁序列,所有的频繁序列所形成的集合称为频繁序列集。
步骤S2.2:构建改进的PLWAP-树
得到频繁访问序列集后,需对频繁访问序列集中的每条序列依次读取建立树形结构。建立树形结构最重要的是节点的存储方式,未改进的PLWAP算法对节点采用三元组<频繁项:支持度计数值:位置编码>进行存储。其中,支持度计数值代表每个访问页面的次数,位置编码采用二进制方式存储节点位置信息,但当数据量不断增加时,也就是树的高度也不断增高时,二进制位置编码的长度将变得无法想象的长,以及编码的个数也将呈现2的指数级趋势升高,这对于计算机内存和cpu计算量面临巨大的挑战,这也将会大大降低算法的效率。介于此种情况,本发明在PLWAP算法的基础上,针对PLWAP算法中的二进制位置编码缺陷提出了一种改进的节点编码模式。其位置编码利用先序遍历顺序序列号对每个节点的位置进行编码,编码形式如图2所示。
为方便阐述,简单记为“事件名称:支持计数值(preOrderID,desPreOrderID)”。其中,preOrderID称为先序遍历序号,表示以先序遍历方式遍历整个树,对给每个访问到的节点从0开始编号。desPreOrderID称为子孙节点的先序遍历序号,desPreOrderID的定义是建立在preOrderID上的,具体如下:
1)如果该节点为叶子节点,则其desPreOrderID等于该节点的preOrderID;
2)否则,如果该节点有子孙节点,则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值。
改进的PLWAP-树算法建立过程:依次取出频繁序列集的一条序列L1,对于L1中一个频繁项ei,1)如果ei不存在,从根节点起,先序遍历该树,由1开始依次递增对每个节点的preOrderID进行编码,并置desPreOrderID=0,同时将同形结点加入头结点链中,然后再从根节点开始,后序遍历树,根据节点的desPreOrderID定义,设置每个节点的desPreOrderID。2)如果ei存在,并且当前节点有子节点,ei属于当前节点子节点的其中一个,则子节点计数值加1;3)如果ei存在,并且当前节点有子节点,但ei不属于当前节点子节点的其中一个,则将ei作为新的节点(ei:1)插入至树中,支持度计数为1;4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中,支持度计数为1。
步骤S2.3:递归挖掘
挖掘过程主要是从头结点表中的第一个频繁项开始,通过重复产生后缀树集,不断“扩充”公共前缀模式,进而获得所有频繁模式。一次递归挖掘的具体过程包括:如果后缀树集R为空,则算法结束;2)如果不为空,对于每个频繁项ei,获取ei后缀树集R,获取ei的第一结点S(对于某节点e,如果在其后缀树中,它的祖先节点中没有与它同形的节点,则称e为第一节点),并将S插入后缀树集R’,后缀树集R’用于下次递归;3)对于ei-结点链的每个同形结点eij和后缀树集R的每个节点Ri,判断他们的关系:3.1)如果Ri是eij的祖先节点且eij不是S的子孙节点,累加计算eij计数值C,并将eij插入后缀树集R’,第一节点改成eij;3.2)如果Ri是eij的左兄弟节点,则继续读取下一个后缀树集R中节点;3.3)如果Ri是eij的右兄弟节点或是子孙节点,则继续读取ei-结点链的下一个节点;4)当后缀树集R中再无节点时,且当前计数值C大于最小支持度,则将该频繁项添加入频繁集F’集中,并将同形节点加入且后缀数集R’中;5)将本次获取的后缀数集R’和频繁集F’作为下次挖掘的条件继续挖掘。
步骤S3:模式分析
最后对得到频繁模式进行模式分析,除去不必要的模式得到有用的模式,最终得到用户频繁访问路径。
实施例
现在对某日志文件做数据预处理后得到用户的访问序列集,如表1第2栏所示,在此指定最小支持度阈值λ=0.75,其中,a、b、c、d、e、f代表用户请求的页面,访问序列从左至右代表了用户按时间先后顺序依次请求的页面序列。
表1λ=0.75的用户访问序列集
首先,得到频繁访问序列集:扫描访问序列集,统计访问序列集中每个访问页面出现的次数,如图3左侧所示。由于最小支持度阈值λ=0.75,于是次数大于或等于最小支持度阈值*访问序列集个数(4*0.75,即3)才能算是频繁项(或称频繁访问页面),删除次数小于3的非频繁项,得到频繁访问序列集,如图3右侧所示。接着,对于访问序列集中的每个访问序列,剔除非频繁项得到频繁访问序列集,如表1的第3栏所示。
然后在频繁访问序列集上构建改进PLWAP-树。首先,将第一条频繁访问序列abac插入只有一个根节点(root)的树,节点(a:1)作为root的子节点插入到树中,并在头结点表(Header Table)添加同形节点链。由此,创建由该节点开始的一条分支“(a:1)->(b:1)->(a:1)->(c:1)”。然后插入第二条序列abcac,从root开始,由于root已经有了一个(a:1)子节点,因此只需增加a的支持度计数即可,此时节点变为(a:2),同样地,(b:1)变为(b:2)。到事件c时,b的子节点并无c节点,因此,创建一个新的节点并赋予计数值为1,即(c:1),并在Header Table添加同形节点链。余下的序列同样如此地在PLWAP-Tree中添加节点。最后先序、后序遍历树添上位置编码信息。构造好了的改进的PLWAP-树如图4所示。
现对图4中改进的PLWAP-tree进行频繁模式挖掘,对于Header Table中的第一个事件a,沿着a的结点链,此时后缀树根节点集R={Root}且F={},在后缀树根节点集R中查找a的第一节点<a:1(1,8)>,将第一节点<a:1(1,8)>添加到R’中,并计入总计数值。然后继而沿着a结点链,找到下一个a的同形点节点<a:2(3,5)>,虽然节点<a:2(3,5)>是R的子孙节点,但是也是第一节点<a:1(1,8)>的子孙节点,不满足条件,继续沿着a的结点链找到的下一个节点<a:1(7,8)>同样不满足条件,最后找到节点<a:1(10,13)>满足条件:R的子孙节点但却不是第一节点的子孙节点,于是将节点<a:1(10,13)>加入R’中,并计入中计数值,现在第一节点集为{<a:3(1,8)>,<a:1(10,13)>},由于这两个节点的计数值之和(等于4)大于最小支持度计数3(|WASD|*λ,4*0.75),因此将事件a作为频繁模式添加入F集中,F’={a},且后缀数根节点集R变为R’={<a:3(1,8)>和<a:1(10,13)>},然后将R’,F’作为下一次挖掘的条件。
在第二次递归中,从Header Table的a-结点链开始,此时R={<a:3(1,8)>和<a:1(10,13)>}找到a的第一节点<a:2(3,5)>,添加至R’中并计入总计数值,沿着结点链找到第二个符合条件的节点<a:1(7,8)>(节点<a:1(7,8)即是后缀树<a:3(1,8)>的子孙节点,又非第一节点<a:2(3,5)>的子孙节点>,满足条件),添加至R’中并计入总计数值,但是到了节点<a:1(10,13)>,由于该节点是现后缀树集中节点<a:3(1,8)>的右兄弟节点,因此现后缀树集节点变为下一个节点<a:1(10,13)>,因而找到满足条件节点<a:1(12,13)>,添加至R’中并计入总计数值,此时,R’={<a:2(3,5)>,<a:1(7,8)>,<a:1(12,13)>},其总计数值4大于最小支持计数值,视事件a为频繁项,加入F中,得到频繁模式集F’={a,aa},将本次递归所得到R’和F’作为下一次递归的条件。像这样依次递归挖掘下去,最终我们得到挖掘结果F={a,aa,aac,ab,aba,abac,abc,ac,b,ba,bac,bc,c}。
最后对挖掘得到频繁结果F={a,aa,aac,ab,aba,abac,abc,ac,b,ba,bac,bc,c}进行模式分析,除去无意义项,得到F={ab,aba,abac,abc,ac,ba,bac,bc},从而可以预测用户下次访问页面,例如{ab,aba,abac,abc,ac},说明大多数用户在访问a页面后会访问c页面,因此可以在a页面给用户推荐c页面。也可以对网站拓扑结构调整做出建议,例如{ab,aba,abac,abc,ac},说明有部分用户在访问c页面需要经过b页面,因此可以考虑将c页面的级别在b页面前面,提高用户查找目标页面c的效率。
以上描述了本发明的基本原理和主要的特征,说明书的描述只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (4)
1.一种用户访问路径预测方法,其特征在于,包括以下步骤:
A、从站点服务器获取日志数据进行数据预处理,构造用户访问序列集;
B、对于用户访问序列集,删除每个序列中的非频繁项,得到频繁访问序列集;
C、根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中;所述改进编码模式包括:以先序遍历方式遍历整个树,对每个访问到的节点从0开始编号;如果某节点为叶子节点,则其desPreOrderID等于该节点的preOrderID;如果某节点有子孙节点,则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值;其中,preOrderID为先序遍历序号,desPreOrderID为子孙节点的先序遍历序号;
D、在改进的PLWAP-树上使用挖掘算法进行频繁路径递归挖掘,得到用户访问模式集合;
E、对步骤D中得到的用户访问模式集合进行模式分析,从而对用户访问路径进行预测。
2.如权利要求1所述的一种用户访问路径预测方法,其特征在于,步骤A对日志数据进行预处理,具体包括以下分步骤:
A1、对日志文件进行数据清洗,去除无效数据和非用户主动访问的项目;
A2、根据日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用户进行识别;
A3、将用户的原始访问序列划分为若干个单次访问序列;
A4、若用户请求访问页面和对应页面请求无链接关系,则利用站点拓扑结构将请求页面补充完整。
3.如权利要求1所述的一种用户访问路径预测方法,其特征在于,步骤C根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中具体包括:
依次取出频繁序列集的一条序列L1,对于L1中一个频繁项ei,1)如果ei不存在,从根节点起,先序遍历该树,由1开始依次递增对每个节点的preOrderID进行编码,并置desPreOrderID=0,同时将同形结点加入头结点链中,然后再从根节点开始,后序遍历树,根据节点的desPreOrderID定义,设置每个节点的desPreOrderID;2)如果ei存在,并且当前节点有子节点,ei属于当前节点子节点的其中一个,则子节点计数值加1;3)如果ei存在,并且当前节点有子节点,但ei不属于当前节点子节点的其中一个,则将ei作为新的节点(ei:1)插入至树中,支持度计数为1;4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中,支持度计数为1。
4.如权利要求1所述的一种用户访问路径预测方法,其特征在于,步骤D一次递归挖掘的步骤具体包括:
判断频繁项ei后缀树集R是否为空,1)如果后缀树集R为空,则算法结束;2)如果不为空,对于每个频繁项ei,获取ei后缀树集R,获取ei的第一结点S,并将S插入后缀树集R’,后缀树集R’用于下次递归;3)对于ei-结点链的每个同形结点eij和后缀树集R的每个节点Ri,判断他们的关系:3.1)如果Ri是eij的祖先节点且eij不是S的子孙节点,累加计算eij计数值C,并将eij插入后缀树集R’,第一节点改成eij;3.2)如果Ri是eij的左兄弟节点,则继续读取下一个后缀树集R中节点;3.3)如果Ri是eij的右兄弟节点或是子孙节点,则继续读取ei-结点链的下一个节点;4)当后缀树集R中再无节点时,且当前计数值C大于最小支持度,则将该频繁项添加入频繁集F’集中,并将同形节点加入且后缀数集R’中;5)将本次获取的后缀数集R’和频繁集F’作为下次挖掘的条件继续挖掘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422976.8A CN108153870A (zh) | 2017-12-25 | 2017-12-25 | 一种用户访问路径预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422976.8A CN108153870A (zh) | 2017-12-25 | 2017-12-25 | 一种用户访问路径预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108153870A true CN108153870A (zh) | 2018-06-12 |
Family
ID=62462020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711422976.8A Pending CN108153870A (zh) | 2017-12-25 | 2017-12-25 | 一种用户访问路径预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153870A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858977A (zh) * | 2019-02-26 | 2019-06-07 | 维正科技服务有限公司 | 一种基于自编码的用户行为分析方法和系统 |
CN110516170A (zh) * | 2018-07-06 | 2019-11-29 | 北京白山耘科技有限公司 | 一种检查异常web访问的方法及装置 |
CN111611508A (zh) * | 2020-05-28 | 2020-09-01 | 江苏易安联网络技术有限公司 | 一种用户实际访问网址的识别方法及装置 |
CN112182017A (zh) * | 2020-09-30 | 2021-01-05 | 天津大学 | 一种基于用户交互过程的优化数据探索的方法 |
CN113590974A (zh) * | 2021-09-29 | 2021-11-02 | 北京每日优鲜电子商务有限公司 | 推荐页面配置方法、装置、电子设备和计算机可读介质 |
WO2024039474A1 (en) * | 2022-08-17 | 2024-02-22 | Google Llc | Privacy sensitive estimation of digital resource access frequency |
WO2024086256A1 (en) * | 2022-10-20 | 2024-04-25 | Google Llc | Privacy sensitive estimation of digital resource access frequency |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266610A (zh) * | 2008-04-25 | 2008-09-17 | 浙江大学 | 一种Web活跃用户网站访问模式的在线挖掘方法 |
US20140330986A1 (en) * | 2013-05-01 | 2014-11-06 | Red Hat, Inc. | Compression of content paths in a digital certicate |
CN107256253A (zh) * | 2017-06-09 | 2017-10-17 | 郑州云海信息技术有限公司 | 一种基于XML进行web访问模式挖掘的系统及方法 |
-
2017
- 2017-12-25 CN CN201711422976.8A patent/CN108153870A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266610A (zh) * | 2008-04-25 | 2008-09-17 | 浙江大学 | 一种Web活跃用户网站访问模式的在线挖掘方法 |
US20140330986A1 (en) * | 2013-05-01 | 2014-11-06 | Red Hat, Inc. | Compression of content paths in a digital certicate |
CN107256253A (zh) * | 2017-06-09 | 2017-10-17 | 郑州云海信息技术有限公司 | 一种基于XML进行web访问模式挖掘的系统及方法 |
Non-Patent Citations (1)
Title |
---|
郑美玉: "Web日志频繁序列模式挖掘算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516170A (zh) * | 2018-07-06 | 2019-11-29 | 北京白山耘科技有限公司 | 一种检查异常web访问的方法及装置 |
CN110516170B (zh) * | 2018-07-06 | 2020-04-28 | 北京白山耘科技有限公司 | 一种检查异常web访问的方法及装置 |
CN109858977A (zh) * | 2019-02-26 | 2019-06-07 | 维正科技服务有限公司 | 一种基于自编码的用户行为分析方法和系统 |
CN109858977B (zh) * | 2019-02-26 | 2023-06-16 | 维正科技服务有限公司 | 一种基于自编码的用户行为分析方法和系统 |
CN111611508A (zh) * | 2020-05-28 | 2020-09-01 | 江苏易安联网络技术有限公司 | 一种用户实际访问网址的识别方法及装置 |
CN111611508B (zh) * | 2020-05-28 | 2020-12-15 | 江苏易安联网络技术有限公司 | 一种用户实际访问网址的识别方法及装置 |
CN112182017A (zh) * | 2020-09-30 | 2021-01-05 | 天津大学 | 一种基于用户交互过程的优化数据探索的方法 |
CN113590974A (zh) * | 2021-09-29 | 2021-11-02 | 北京每日优鲜电子商务有限公司 | 推荐页面配置方法、装置、电子设备和计算机可读介质 |
WO2024039474A1 (en) * | 2022-08-17 | 2024-02-22 | Google Llc | Privacy sensitive estimation of digital resource access frequency |
WO2024086256A1 (en) * | 2022-10-20 | 2024-04-25 | Google Llc | Privacy sensitive estimation of digital resource access frequency |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108153870A (zh) | 一种用户访问路径预测方法 | |
Niranjan et al. | Developing a web recommendation system based on closed sequential patterns | |
Burattin et al. | Control-flow discovery from event streams | |
CN102289507B (zh) | 一种基于滑动窗口的数据流加权频繁模式挖掘方法 | |
CN101266610B (zh) | 一种Web活跃用户网站访问模式的在线挖掘方法 | |
KR101105363B1 (ko) | 롱 트랜잭션 데이터 스트림을 위한 빈발항목집합 탐색 방법 | |
CN102831193A (zh) | 基于分布式多级聚类的话题检测装置及方法 | |
CN106980651B (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
CN110719106B (zh) | 一种基于节点分类排序的社交网络图压缩方法及系统 | |
Santoso et al. | Close dominance graph: An efficient framework for answering continuous top-$ k $ dominating queries | |
Singh et al. | An efficient algorithm for ranking research papers based on citation network | |
Chen et al. | HyperBSA: A high-performance consortium blockchain storage architecture for massive data | |
Zhang et al. | A survey of key technologies for high utility patterns mining | |
Tang et al. | Reliable community search in dynamic networks | |
Mallick et al. | Incremental mining of sequential patterns: Progress and challenges | |
Cheng et al. | Multi-Query Diversification in Microblogging Posts. | |
Makker et al. | Web server performance optimization using prediction prefetching engine | |
Han et al. | Adaptive and multiple interest-aware user profiles for personalized search in folksonomy: A simple but effective graph-based profiling model | |
KR101238014B1 (ko) | 듀얼 트리 구조를 이용하여 데이터 스트림에서 순차 패턴을 탐사하기 위한 장치 및 그 방법 | |
Veloso et al. | Parallel and distributed frequent itemset mining on dynamic datasets | |
Kumar et al. | A New Web Usage Mining Approach for Website Recommendations Using Concept Hierarchy and Website Graph | |
Rashid et al. | A novel algorithm for mining behavioral patterns from wireless sensor networks | |
Huang et al. | A Novel Frequent Pattern Mining Algorithm for Real-time Radar Data Stream. | |
Cao et al. | An algorithm for outlier detection on uncertain data stream | |
Singh et al. | Web pre-fetching at proxy server using sequential data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180612 |