CN103823883B - 一种网站用户访问路径的分析方法及系统 - Google Patents

一种网站用户访问路径的分析方法及系统 Download PDF

Info

Publication number
CN103823883B
CN103823883B CN201410080027.6A CN201410080027A CN103823883B CN 103823883 B CN103823883 B CN 103823883B CN 201410080027 A CN201410080027 A CN 201410080027A CN 103823883 B CN103823883 B CN 103823883B
Authority
CN
China
Prior art keywords
user
path
access
page
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410080027.6A
Other languages
English (en)
Other versions
CN103823883A (zh
Inventor
房鹏展
徐晓冬
陈静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201410080027.6A priority Critical patent/CN103823883B/zh
Publication of CN103823883A publication Critical patent/CN103823883A/zh
Application granted granted Critical
Publication of CN103823883B publication Critical patent/CN103823883B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网站用户访问路径的分析方法及系统,解决目前在大数据环境下如何利用网站用户访问路径分析来进行网站优化的问题。本发明的一种网站用户访问路径的分析方法及系统,提供了访问路径树生成及频繁路径挖掘方法,提及的用户访问路径分析是对这些访问站点的信息加以分析,从中对用户行为加以分析,分析各个环节的来源、转化、退出等等,来发现网站结构及页面内容中存在的缺陷与瓶颈,并从用户实际需要来加以改善,最终提升用户浏览转化率,提高用户体验与满意度。

Description

一种网站用户访问路径的分析方法及系统
技术领域
本发明涉及网站分析领域,特别是一种网站用户访问路径的分析方法及系统。
背景技术
在互联网产业高速发展的大环境下,各个网站之间竞争日趋激烈,数据以爆炸式的速度产生,能够将这些大数据转变为有价值的知识对于网站来说是至关重要的。
对于网站来说,每天都有大量的用户点击网站的各个页面,这些点击行为一般被apache等服务器软件记录下来,保存于文本或数据库等数据源中。现在越来越多企业开始重视网站分析,根据分析结果来改进网站的建设,达到更好的效果。
在这方面,积累了一些解决方案。专利“一种网站访问分析的系统”(申请专利号:CN200910082358.2),它是直接针对每个访问用户实时的交互引导,从而将用户访问的倾向实时分析出来,并根据预定的规则将用户分成不同群体,直接推进从用户到购买者的进程。
专利“一种网站分析系统及方法和装置”(申请专利号:CN201210279722.6),它是提供一种基于“旁路镜像”的模式完成网站分析的数据采集,可以获得用户访问网站的原始数据包信息,经过有效的数据清理、筛选,获得完整的网站分析的数据报告。
以上两个专利,一个是介绍日志采集的方法,一个是分析用户的点击行为,在用户访问路径这一方面尚未涉及,因此上述2种专利提出的方法在网站建设成熟后,无法再凭经验去做一些深层次的优化。
在当今互联网飞速发展的今天,对网站访问者的访问行为越来越重视,因为访问者的访问行为中隐含有访问者的兴趣、爱好、习惯等因素,如果能正确的把握这些因素,对互联网发展是非常有帮助的。而对用户访问路径的分析是获取访问者访问行为的一个非常关键的途径。
发明内容
本发明在此背景下,提及的用户访问路径分析是对这些访问站点的信息加以分析,从中对用户行为加以分析,分析各个环节的来源、转化、退出等等,来发现网站结构及页面内容中存在的缺陷与瓶颈,并从用户实际需要来加以改善,最终提升用户浏览转化率,提高用户体验与满意度。发明人经过实践最终总结出一种网站用户访问路径的分析方法及系统。
本发明提供一种网站用户访问路径的分析方法及系统,解决目前在大数据环境下如何利用网站用户访问路径分析来进行网站优化的问题。
本发明采用的技术方案为:一种网站用户访问路径的分析方法,其特征在于提供了访问路径树生成及频繁路径挖掘方法,包括:
步骤一:从业务系统、文本等相关数据源将数据抽取出来,去除掉其中的噪音异常数据,保留用户点击数据。
步骤二:一般日志中每次点击都会包含referer与request,request记录为每次点击对应的请求页面,而referer指点是每次点击是从哪个页面链接过来的。对于清洗后的数据,由于访问来源referer与当前请求request的记录格式并不一致,后期直接匹配难以进行,因而需要转化,可以以referer的格式为基准,将request转化为完整的url格式,这样后期可以直接将referer与request进行匹配。
另外,为了可以支持后续不同粒度的分析,可以按照页面的类型将访问页面划分为首页、搜索页面、目录页面、产品页面等等。
步骤三:由于用户浏览网站时不一定都在登录状态,这时对用户身份的识别是非常重要的。根据用户访问网站时的email、cookie、ip等信息,对每一个访问的用户进行身份识别,识别的依据权重为email>cookie>ip,将每一条访问记录对应到某个用户,最终将用户身份识别的数据存储到数据仓库中。
步骤四:在最大向前路径算法的基础上,结合数据库在处理、匹配数据方面的特性,通过改写最大向前路径算法,将用户访问网站的点击数据生成路径树,步骤如下:
1)先将访问记录按照用户、点击时间进行排序,对于每个用户来,其首次点击作为一颗新树的树根,节点值为request的值;
2)依照时间顺序读取后面的referer_i与request_i,将referer_i与已生成的树中节点request进行匹配,匹配上的作为该匹配节点的子节点,子节点值为request_i的值;
3)若referer_i与树中所有的request都无法匹配,则重新生成一颗新树,该次点击作为该新树的根,值为request_i的值;
4)重复2)-3)步,直到该用户所有点击记录都循环一遍;
5)依此最终生成该用户访问网站的路径树,将树存储到数据仓库中,可以加以利用,分析各个环节间的转化率。
步骤五:对于生成的树,为方便进行重点路径分析,在Apriori算法的基础上,加入节点之间的序列特性,通过改写Apriori算法,可以进一步挖掘出用户访问的频繁路径图,步骤如下:
1)找到包含2个页面的频繁路径集
2)循环:通过k频繁集之间的关联串接,生成k-1频繁集。
这样可以得到用户访问的频繁路径图,可以分析得到网站的主要路径,结合路径上各个环节的转化率,就可以对网站的结构、内容等进行优化。其中,转化率指某一页面到另一页面的访问次数,与某一页面被访问总次数的比率。
步骤六:从频繁路径出发,寻找转化率较低的环节,分析不足的原因:
●中间环节的页面存在的必要性低,影响访问者不断深入的访问;
●页面布局不突出,造成访问者寻找目标困难;
●内容组织不合理,导致访问者无兴趣进一步访问;
●页面缺乏符合访问者兴趣的个性化推荐链接,增加了访问者寻找目标的代价。
根据具体的原因,可以指导网站建设者有针对性的解决问题,提高网站的品质。
本发明公开一种网站用户访问路径分析系统,包括:数据源模块、网站日志预处理模块、访问路径树生成模块、频繁路径图挖掘模块、网站优化机会发现模块。
所述数据源模块,用于记录用户访问网站时留下的基础数据,作为整个路径分析系统的数据来源,主要是网站用户访问日志,还包括来自于业务系统、文本文件或其它数据结构源。
所述网站日志预处理模块,用于对数据源中基础数据进行清洗、格式转换、识别等处理,最终存放到数据仓库中。其中包括三个子模块:数据清洗子模块、格式转换子模块、用户识别子模块。所述数据清洗子模块,对基础数据中的噪音异常进行处理,包括爬虫数据、被动请求链接(图片)、异常IP访问数据等等。所述格式转换子模块,用于对访问来源referer与当前请求request进行格式转化与分类,便于后续路径树的生成与支持不同粒度的分析。所述用户识别子模块,用户浏览网站时无论登录与否,都能识别出其唯一的身份,一般通过其cookie、ip或其所留的手机、邮箱等进行识别。
所述访问路径树生成模块,用于将预处理完成的数据转化为访问路径树,存储到数据仓库中。
所述频繁路径图挖掘模块,用于从访问路径树中挖掘出用户的频繁访问路径,存储到数据仓库中。
所述网站优化机会发现模块,从访问路径树与频繁访问路径图中,分析网站各内容及各个环节的转化率,优先从主要路径出发,针对转化率低的,不断从网站结构与页面内容上对网站进行优化。
本发明的有益结果如下:
(1)通过改写最大向前路径算法,从用户访问日志中提取用户访问路径树结构,可以通过路径树中节点间转化率高低,分析网站结构及页面内容中存在的缺陷与瓶颈,结合用户实际需求,对网站进行优化,不断提高用户体验及满意度,提升流量转化。
(2)对于提取出的路径树,通过改写Apriori算法,可以进一步挖掘出用户访问的频繁路径图,也就是用户访问的主要路径,得出的频繁路径图反映了访问用户共性的访问特征,作为指导,优先从共性特征入手,快速定位,进行网站优化。
附图说明
图1是本发明实施例中的用户访问路径生成及挖掘的流程示意图。
图2是本发明实施例中的用户访问路径分析系统的结构示意图。
图3是本发明实施例中的从访问日志生成路径树的流程示意图。
图4是本发明实施例中的生成访问路径树图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。
在本发明中,通过对网站日志进行一系列处理,最终生成可以直接分析的路径树与频繁路径图,帮助网站不断进行优化。
参阅图1所示,本发明实施例的数据处理流程,具体步骤为:
步骤11:从业务系统、文本等相关数据源将数据抽取出来,去除掉其中的噪音异常数据,只需保留用户点击相关数据。其中,需清洗的数据包括爬虫数据、被动请求链接(图片)、异常IP访问数据等等。
步骤12:对于清洗后的数据,一般referer为正常url格式,而request的格式为:GET/××××HTTP/1.1(有前后缀,且不包括域名),这时可以以referer为基准,去除request的‘GET/’前缀与‘HTTP/1.1’后缀,并加上域名,这样两者能够进行匹配。同时对每个访问页面进行分类,可以分为首页、搜索页、目录页、产品页等等,也可以细到专题页甚至具体某个产品,这样可以支持后续不同粒度的分析。
步骤13:由于用户浏览网站时不一定都在登录状态,这时对用户身份的识别是非常重要的。目前我们根据用户访问网站时的email、cookie、ip等信息,对每一个访问的用户进行身份识别,识别的依据权重为email>cookie>ip,将每一条访问记录对于到某个用户,最终将用户身份数据储存到数据仓库中。
步骤14:根据用户每一次访问的来源及请求,将来源和请求逐个匹配,匹配上的作为子叶,否则作为一颗新的树根,最终生成该用户访问网站的路径树,将树存储到数据仓库中,可直接用于分析,具体流程详见图3。
步骤15:对于生成的树,通过关联算法可以进一步挖掘出用户访问的频繁路径图,可以优先从用户访问主要路径上进行网站优化。这里是通过改写Apriori算法,得到用户访问的频繁路径。算法如下:
输入:事务数据库,最小支持度minsup
输出:频繁路径集F
步骤:
1)找到长度(包含的页面数)为2的频繁路径集F2
删除F中计数小于minsup的路径,所得结果集为频繁路径集F2;
2)循环生成长度为k(k>2)的频繁路径集Fk,
例如,路径树如下所示:
P1-P2-P3-P4
P1-P2-P3-P5-P6
P1-P2-P7-P8
P1-P2-P3-P9
P1-P2-P3-P5-P10
P1-P2-P11-P12
P1-P2-P11-P12-P13
假设最小支持度为2,则可以得到
F2={P1-P2,P2-P3,P3-P5,P2-P11,P11-P12}
F3={P1-P2-P3,P1-P2-P11,P2-P3-P5,P2-P11-P12}
F4={P1-P2-P3-P5,P1-P2-P11-P12}
通过以上处理,从获得的频繁路径出发,寻找转化率较低的环节,分析不足的原因:
●中间环节的页面存在的必要性低,影响访问者不断深入的访问;
●页面布局不突出,造成访问者寻找目标困难;
●内容组织不合理,导致访问者无兴趣进一步访问;
●页面缺乏符合访问者兴趣的个性化推荐链接,增加了访问者寻找目标的代价。
根据具体的原因,可以指导网站建设者有针对性的解决问题,提高网站的品质。
参阅图2所示,本发明实施例的系统结构,包括:
数据源模块21、网站日志预处理模块22、访问路径树生成模块23、频繁路径图挖掘模块24、网站优化机会发现模块25。
数据源模块21,用于记录用户访问网站时留下的基础数据,作为整个路径分析系统的数据来源,主要是网站用户访问日志,可能来自于业务系统、文本文件或其它数据结构源。
网站日志预处理模块22,对数据源中基础数据进行清洗、格式转换、识别等处理,最终存放到数据仓库中。其中包括三个子模块:数据清洗子模块221、格式转换子模块222、用户识别子模块223。
数据清洗子模块221,对基础数据中的噪音异常进行处理,包括爬虫数据、被动请求链接(图片)、异常IP访问数据等等。
格式转换子模块222,用户对访问来源referer与当前请求request进行格式转化与分类,便于后续路径树的生成与支持不同粒度的分析。
用户识别子模块223,用户浏览网站时无论登录与否,都能识别出其唯一的身份,一般通过其cookie、ip或其所留的手机、邮箱等进行识别。
访问路径树生成模块23,用于将预处理完成的数据转化为访问路径树,存储到数据仓库中。
频繁路径图挖掘模块24,用于从访问路径树中挖掘出用户的频繁访问路径,存储到数据仓库中。
网站优化机会发现模块25,从访问路径树与频繁访问路径图中发现网站瓶颈与优化机会,不断优化网站结构。
参阅图3所示,本发明实施例的访问路径树生成流程,通过改写最大向前路径算法,从访问日志中提取路径树,具体步骤为:
步骤31:从数据仓库中获取经过相关预处理后的用户访问日志数据。
步骤32:按照用户、点击时间顺序依次读取每一条referer_i与request_i,每个用户单独开始下面的建树过程。
步骤33:各用户首次点击作为第一颗树的树根,节点值为request_1的值。
步骤34:将待匹配记录中的referer_i与该用户已生成的树中节点进行匹配,若匹配上则进入步骤35,否则进去步骤36。
步骤35:referer_i与树中某节点一致,将该记录作为匹配节点的子节点,节点值为request_i的值。
步骤36:referer_i与树中任一节点不一致,则生成新树,节点值为request_i的值。
不断循环步骤34、35、36,直至该用户所有记录均匹配完成,最终得到该用户的访问路径树,将其存到数据仓库中。
改写最大向前路径算法如下:
输入:某用户按时间顺序访问站点的request及referer
输出:最大向前路径集合{MFPi,F(i,j)}
步骤:
这样得到最大向前路径集合,其中MFPi为树中每一条路径,F(i,j)为节点共用标记,节点首次出现记为1,后续被共用时记为0,这样通过将标记为0的节点自动合并,就最终生成访问路径树,可用于后续的分析与挖掘。例如,某用户按时间顺序访问如下:
Referrer Request
- P1
P1 P2
P2 P3
P2 P4
P4 P5
P3 P6
则识别后应划分为2个事务:
P1(1)-P2(1)-P3(1)-P6(1),P1(0)-P2(0)-P4(1)-P5(1),括号数字为共用标记。生成的路径树如图4所示:
以上所述仅为本发明专利的一种实施例而已,并不用以限制本发明专利,凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等,均以包含在本发明专利的保护范围之内。

Claims (5)

1.一种网站用户访问路径的分析方法,它提供了访问路径树生成及频繁路径挖掘方法,其特征在于,具体步骤包括:
步骤一、从业务系统、文本相关数据源将数据抽取出来,去除掉其中的噪音异常数据,保留用户点击数据;
步骤二、一般日志中每次点击都会包含referer与request, request记录为每次点击对应的请求页面,而referer指的是每次点击是从哪个页面链接过来的;对于清洗后的数据,以referer的格式为基准,将request转化为完整的url格式,以便后期将referer与request进行匹配;
步骤三:根据用户访问网站时的email、cookie、ip信息,对每一个访问的用户进行身份识别,识别的依据权重为email>cookie>ip,将每一条访问记录对应到某个用户,最终将用户身份识别的数据存储到数据仓库中;
步骤四:在最大向前路径算法的基础上,结合数据库在处理、匹配数据方面的特性,通过改写最大向前路径算法,将用户访问网站的点击数据生成路径树;
具体步骤为:
步骤4.1 先将访问记录按照用户、点击时间进行排序,对于每个用户来,其首次点击作为一颗新树的树根,节点值为request的值;
步骤4.2 依照时间顺序读取后面的referer_i与request_i,将referer_i与已生成的树中节点request进行匹配,匹配上的作为该匹配节点的子节点,子节点值为request_i的值;
步骤4.3 若referer_i与树中所有的request都无法匹配,则重新生成一颗新树,该次点击作为该新树的根,值为request_i的值;
步骤4.4 重复步骤4.2和步骤4.3,直到该用户所有点击记录都循环一遍;
步骤4.5 依此最终生成该用户访问网站的路径树,将树存储到数据仓库中,加以利用,分析各个环节间的转化率;
步骤五:对于生成的路径树,在Apriori算法的基础上,加入节点之间的序列特性,通过改写Apriori算法,进一步挖掘出用户访问的频繁路径图;
具体步骤为:
步骤5.1 找到包含两个页面的频繁路径集;
步骤5.2 循环:通过k频繁集之间的关联串接,生成k-1频繁集;
得到用户访问的频繁路径图,分析得到网站的主要路径,结合路径上各个环节的转化率,对网站的结构、内容进行优化;
步骤六:从频繁路径出发,寻找转化率低的环节,分析不足的原因;根据具体的原因,指导网站建设者有针对性的解决问题,提高网站的品质。
2.根据权利要求1所述的网站用户访问路径的分析方法,其特征在于:步骤一中,噪音异常数据包括爬虫数据、被动请求链接、被动请求图片、异常IP访问数据。
3.根据权利要求1所述的网站用户访问路径的分析方法,其特征在于:步骤二中,按照页面的类型将访问页面划分为首页、搜索页面、目录页面、产品页面、专题页面、具体产品页面。
4.根据权利要求1所述的网站用户访问路径的分析方法,其特征在于:所述转化率指某一页面到另一页面的访问次数,与某一页面被访问总次数的比率。
5.根据权利要求1所述的网站用户访问路径的分析方法,其特征在于,步骤六中,原因分类如下:
中间环节的页面存在的必要性低,影响访问者不断深入的访问;
页面布局不突出,造成访问者寻找目标困难;
内容组织不合理,导致访问者无兴趣进一步访问;
页面缺乏符合访问者兴趣的个性化推荐链接,增加了访问者寻找目标的代价。
CN201410080027.6A 2014-03-06 2014-03-06 一种网站用户访问路径的分析方法及系统 Expired - Fee Related CN103823883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410080027.6A CN103823883B (zh) 2014-03-06 2014-03-06 一种网站用户访问路径的分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410080027.6A CN103823883B (zh) 2014-03-06 2014-03-06 一种网站用户访问路径的分析方法及系统

Publications (2)

Publication Number Publication Date
CN103823883A CN103823883A (zh) 2014-05-28
CN103823883B true CN103823883B (zh) 2015-06-10

Family

ID=50758947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410080027.6A Expired - Fee Related CN103823883B (zh) 2014-03-06 2014-03-06 一种网站用户访问路径的分析方法及系统

Country Status (1)

Country Link
CN (1) CN103823883B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619525B2 (en) 2010-03-04 2017-04-11 Gshift Labs Inc. Method and system of optimizing a web page for search engines
CN109040073A (zh) * 2018-08-07 2018-12-18 北京神州绿盟信息安全科技股份有限公司 一种万维网异常行为访问的检测方法、装置、介质和设备

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320678A (zh) * 2014-07-10 2016-02-10 苏宁云商集团股份有限公司 用户访问路径的数据采集方法和装置
CN104462288B (zh) * 2014-11-27 2017-10-17 华为技术有限公司 一种路径相似度分析方法以及系统
CN104504136B (zh) * 2014-12-31 2018-05-18 北京国双科技有限公司 网站的访问路径的分析方法和装置
CN105893385B (zh) * 2015-01-04 2020-10-23 伊姆西Ip控股有限责任公司 用于分析用户行为的方法和设备
CN105989019B (zh) * 2015-01-29 2019-08-16 北京秒针信息咨询有限公司 一种清洗数据的方法及装置
US10430721B2 (en) * 2015-07-27 2019-10-01 Pivotal Software, Inc. Classifying user behavior as anomalous
CN106547761B (zh) * 2015-09-18 2020-01-07 北京国双科技有限公司 数据处理方法及装置
CN106610994A (zh) * 2015-10-23 2017-05-03 北京国双科技有限公司 点击路径的统计方法和装置
CN106708841B (zh) * 2015-11-12 2018-09-18 北京国双科技有限公司 网站访问路径的聚合方法和装置
CN105357054B (zh) * 2015-11-26 2019-01-29 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备
CN105488201B (zh) * 2015-12-08 2018-09-21 北京皮尔布莱尼软件有限公司 一种日志查询方法和系统
CN106897297B (zh) * 2015-12-17 2019-12-24 北京国双科技有限公司 网站栏目间访问路径的确定方法及装置
CN106909571B (zh) * 2015-12-23 2021-03-30 北京国双科技有限公司 网站的访问路径的分析方法及装置
CN106933896B (zh) * 2015-12-31 2021-06-22 北京国双科技有限公司 最短访问路径识别方法及装置
CN107241296B (zh) * 2016-03-28 2020-06-05 阿里巴巴集团控股有限公司 一种Webshell的检测方法及装置
CN107622003B (zh) * 2016-07-13 2021-02-02 阿里巴巴集团控股有限公司 一种性能优化结果预测方法及装置
CN107766869A (zh) * 2016-08-22 2018-03-06 富士通株式会社 对象分类方法和对象分类设备
CN108121749A (zh) * 2016-11-30 2018-06-05 北京国双科技有限公司 网站用户行为分析方法及装置
CN106844458B (zh) * 2016-12-20 2020-06-19 北京华宇信息技术有限公司 展示用户网上行为轨迹的方法、计算装置及存储介质
CN108304410B (zh) * 2017-01-13 2022-02-18 阿里巴巴集团控股有限公司 一种异常访问页面的检测方法、装置及数据分析方法
CN108322355A (zh) * 2017-01-18 2018-07-24 北京京东尚科信息技术有限公司 用户流量数据处理方法、处理装置、电子设备和存储介质
CN106909372B (zh) * 2017-01-23 2020-08-18 武汉奇米网络科技有限公司 一种移动端用户购买路径计算方法及系统
CN107277118B (zh) * 2017-05-31 2020-06-30 北京京东尚科信息技术有限公司 生成节点的常用访问路径的方法和装置
CN107256253A (zh) * 2017-06-09 2017-10-17 郑州云海信息技术有限公司 一种基于XML进行web访问模式挖掘的系统及方法
CN107392645A (zh) * 2017-06-20 2017-11-24 小草数语(北京)科技有限公司 用户挖掘方法、装置及其设备
CN107277027B (zh) * 2017-06-30 2020-10-16 北京知道未来信息技术有限公司 一种旁路抢答设备识别方法及流量清洗方法
CN109522203B (zh) * 2017-09-19 2022-02-11 中移(杭州)信息技术有限公司 一种软件产品的评测方法及装置
CN108427700B (zh) * 2017-09-30 2021-08-24 平安科技(深圳)有限公司 电子装置、用户分群的方法及计算机可读存储介质
CN107644100B (zh) * 2017-10-09 2021-02-26 北京京东尚科信息技术有限公司 信息处理方法、装置以及系统和计算机可读存储介质
CN108108495A (zh) * 2018-01-19 2018-06-01 厦门欣旅通科技有限公司 一种识别用户访问轨迹的方法及装置
CN108960908A (zh) * 2018-06-22 2018-12-07 福建南威软件有限公司 一种基于大数据用户行为序列的分析方法
CN109242528A (zh) * 2018-07-26 2019-01-18 焦点科技股份有限公司 一种电商平台自定义路径的漏斗分析方法及装置
CN109284450B (zh) * 2018-08-22 2023-06-20 中国平安人寿保险股份有限公司 订单成单路径的确定方法及装置、存储介质、电子设备
CN109617915B (zh) * 2019-01-15 2020-12-15 成都知道创宇信息技术有限公司 一种基于页面访问拓扑的异常用户挖掘方法
CN110111154A (zh) * 2019-05-13 2019-08-09 重庆八戒传媒有限公司 全域渠道流量转化分析方法、装置、介质和电子设备
CN110457627B (zh) * 2019-07-04 2022-05-17 杭州安恒信息技术股份有限公司 利用web审计优化网站的方法
CN110704779A (zh) * 2019-09-27 2020-01-17 杭州迪普科技股份有限公司 一种网站页面访问合规性检测方法、装置及设备
CN110825943B (zh) * 2019-10-23 2023-10-10 支付宝(杭州)信息技术有限公司 一种生成用户访问路径树数据的方法、系统及设备
CN111382211A (zh) * 2020-02-10 2020-07-07 北京物资学院 一种对数据的概述方法及装置
CN111290805B (zh) * 2020-03-12 2023-08-18 深圳市我能成才企业管理有限公司 一种聚合功能快捷调用方法及系统
CN111538756B (zh) * 2020-04-02 2023-05-02 支付宝(中国)网络技术有限公司 访问路径的融合方法及装置
CN111552905A (zh) * 2020-04-22 2020-08-18 苏宁云计算有限公司 一种用户访问关键路径的获取方法及系统
CN111611508B (zh) * 2020-05-28 2020-12-15 江苏易安联网络技术有限公司 一种用户实际访问网址的识别方法及装置
CN111767435B (zh) * 2020-06-23 2023-08-18 中国工商银行股份有限公司 用户行为分析方法及装置
CN112260988B (zh) * 2020-09-16 2021-09-24 厦门网宿有限公司 一种异常请求处理方法和装置
CN114363941B (zh) * 2020-09-27 2023-07-04 中国移动通信集团广东有限公司 基于分段分析和质差识别的业务满意度分析方法、装置及终端
CN112507213B (zh) * 2020-11-26 2022-09-30 杭州讯酷科技有限公司 一种基于行为大数据分析的推荐优化的系统方案的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236562A (zh) * 2008-02-01 2008-08-06 刘峰 网页屏幕区域点击热点分析方法
CN103530297A (zh) * 2012-07-05 2014-01-22 北京百度网讯科技有限公司 一种自动进行网站分析的方法及装置
CN103605848A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 路径分析方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095644B2 (en) * 2006-12-07 2012-01-10 Capital One Financial Corporation System and method for analyzing web paths

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236562A (zh) * 2008-02-01 2008-08-06 刘峰 网页屏幕区域点击热点分析方法
CN103530297A (zh) * 2012-07-05 2014-01-22 北京百度网讯科技有限公司 一种自动进行网站分析的方法及装置
CN103605848A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 路径分析方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619525B2 (en) 2010-03-04 2017-04-11 Gshift Labs Inc. Method and system of optimizing a web page for search engines
CN109040073A (zh) * 2018-08-07 2018-12-18 北京神州绿盟信息安全科技股份有限公司 一种万维网异常行为访问的检测方法、装置、介质和设备

Also Published As

Publication number Publication date
CN103823883A (zh) 2014-05-28

Similar Documents

Publication Publication Date Title
CN103823883B (zh) 一种网站用户访问路径的分析方法及系统
CN101192227B (zh) 一种基于分布式计算网络的日志文件分析方法和系统
CN100394727C (zh) 一种日志分析方法和系统
Olmedilla et al. Harvesting Big Data in social science: A methodological approach for collecting online user-generated content
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN105005600B (zh) 一种访问日志中url的预处理方法
Nithya et al. Novel pre-processing technique for web log mining by removing global noise and web robots
CN104182506A (zh) 日志管理方法
CN105069087A (zh) 基于Web日志数据挖掘的网站优化方法
CN108052632A (zh) 一种网络信息获取方法、系统及企业信息搜索系统
Aldekhail Application and significance of web usage mining in the 21st century: a literature review
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
Nigam et al. Web scraping: from tools to related legislation and implementation using python
Han et al. Study on web mining algorithm based on usage mining
Eltahir et al. Extracting knowledge from web server logs using web usage mining
US10594809B2 (en) Aggregation of web interactions for personalized usage
Tugaonkar et al. Survey on recent methodologies used for recommender system
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining
KR20220108590A (ko) Sns 플랫폼을 이용한 의료관광 스마트 마켓팅 방법
Sidana et al. Review of web usage of data mining in web mining.
Prasad et al. Face-Based Alumni Tracking on Social Media Using Deep Learning
Chandrama et al. Survey on data preprocessing method of web usage mining
Cociorva Website Performance Measurements and Related Analysis
Kaur et al. Analysis of Web Usage Mining techniques to predict the user behavior from Web Server Log Files.
Chauhan et al. An Extensive Review on Web Scraping Technique using Python

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150610

CF01 Termination of patent right due to non-payment of annual fee