CN103631828B - 确定访问路径的方法和装置、确定页面流失率的方法和系统 - Google Patents

确定访问路径的方法和装置、确定页面流失率的方法和系统 Download PDF

Info

Publication number
CN103631828B
CN103631828B CN201210311662.1A CN201210311662A CN103631828B CN 103631828 B CN103631828 B CN 103631828B CN 201210311662 A CN201210311662 A CN 201210311662A CN 103631828 B CN103631828 B CN 103631828B
Authority
CN
China
Prior art keywords
access
record
network address
target analysis
recorded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210311662.1A
Other languages
English (en)
Other versions
CN103631828A (zh
Inventor
吴伟勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210311662.1A priority Critical patent/CN103631828B/zh
Publication of CN103631828A publication Critical patent/CN103631828A/zh
Application granted granted Critical
Publication of CN103631828B publication Critical patent/CN103631828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请公开了确定访问路径的方法和装置、确定页面流失率的方法和系统,其中确定访问路径的方法包括:在访问日志中获取记录;确定具有相同用户标识的记录集合并确定目标分析记录;根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将该下一目标分析记录作为当前目标分析记录;重复本步骤,直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接;构建网址记录。由于访问路径中包括了完整的访问网页和网页访问顺序,所以访问路径中包括的信息量要远远地大于现有技术中的路径对所包括的信息量,可以直接反映访问用户的访问行为,所以以访问路径为统计依据可以有效地降低网站分析的计算成本。

Description

确定访问路径的方法和装置、确定页面流失率的方法和系统
技术领域
本申请涉及网站分析领域,特别是确定访问路径的方法和装置、确定页面流失率的方法和系统。
背景技术
网站分析是对网站中的访问用户的行为的研究,通过研究网站中访问用户的行为特点,可以反映网站的设计是否存在缺陷。
网站分析的重要的方式为通过采用访问日志中的记录,来提取访问用户在网站中的访问数据。现有技术中,常用的方法是将网站的各个页面按照其树形结构分解为多个网站路径对;举例来说,如图1所示,网站的树状结构示出,网站分为三层,共包括6个页面,可以划分为(首页,产品list),(首页,资讯首页),(产品list,产品detail),(产品list,产品detail),(资讯首页,咨询帖子)共计5个网站路径对;访问用户在访问网站时的每个页面跳转可以作为访问路径对,比如,如果访问用户从首页网页跳转到资讯首页网页,然后跳转至咨询帖子网页,则该访问用户的访问路径对包括(首页,资讯首页)和(资讯首页,咨询帖子)。
在进行网站分析时,提取访问日志中包括有直接跳转链接关系的两个页面的路径对,通过统计分析提取到的路径对,从而可以获取访问用户对网站的访问特性;比如,通过路径对的分析,可以统计出页面的流失率。页面流失率是指网站访问用户在访问网站页面时对某一页面的退出或跳出的比率。通过对各个页面的流失率进行统计,可以为网站的优化,提高网站的访问率提供重要的分析依据。
目前,业界采用的方式一般为,通过判断访问日志中提取的路径对是否包括了需要分析的完整路径的网站路径对,从而可以判断访问用户是否流失,以及是由哪一个网站路径对所对应的网页造成的流失。
具体的,当需要统计访问用户从首页到产品list页面,然后到产品detail页面这一路径的流失率的时候,需要将(首页,产品list)和(产品list,产品detail)这两个网站路径对与每个访问用户的访问路径对进行比较,进而将包括有与访问路径对对应的访问用户统计为非流失,否则将统计为流失。
由于目前大型网站中,自身结构比较复杂,包括的网站路径对数量很大,而且由于访问用户的数量较大,所以访问用户的访问路径对也会数量巨大。
综上所述,现有技术中,以路径对为统计依据的网站分析方法,计算成本巨大,会使得系统资源的耗费较大。
发明内容
有鉴于此,本申请提供了确定访问路径的方法和装置、确定页面流失率的方法和系统,以实现降低计算成本的目的。
本申请的发明内容如下:
一种确定访问路径的方法,包括步骤:
S11、在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录;
S12、确定具有相同用户标识的记录集合,将所述记录集合内最后访问时间的记录确定为目标分析记录;
S13、在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将该下一目标分析记录作为当前目标分析记录;重复本步骤,直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接;
S14、按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录。
优选的,在本申请中,在S 14、按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录之后还包括:
S15、在所述记录集合内尚未被确定为目标分析记录的记录中,将最后访问时间的记录确定为另一目标分析记录;
S16、重复执行步骤S13至S15,至所有记录均被确定为目标分析记录。
优选的,在本申请中,所述在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录,包括:
当所述上一级记录为多个时,确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录。
优选的,在本申请中,所述分别确定具有相同用户标识的记录集合,包括:
将所述记录按照用户标识排序。
优选的,在本申请中,所述上一记录为非有效访问网址链接,包括:
所述上一访问网址记录为空或所述上一访问网址链接无效。
在本申请的另一方面,还提供了一种确定页面流失率的方法,包括步骤:
S21、在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录;
S22、确定具有相同用户标识的记录集合,将所述记录集合内最后访问时间的记录确定为目标分析记录;
S23、在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将该下一目标分析记录作为当前目标分析记录;重复本步骤,直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接;
S24、按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录;
S25、在所述记录集合内尚未被确定为目标分析记录的记录中,将最后访问时间的记录确定为目标分析记录;
S26、重复执行步骤S23至S25,至所有记录均被确定为目标分析记录。
S27、获取所述网址记录的集合中第一访问网址数量和第二访问网址数量,计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率;所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址。
在本申请的另一方面,还提供了一种确定访问路径的装置,其特征在于,包括:
记录获取单元,用于在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录;
目标分析记录确定单元,用于确定具有相同用户标识的记录集合,将所述记录集合内最后访问时间的记录确定为目标分析记录;
下一目标分析记录确定单元,用在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将该下一目标分析记录作为当前目标分析记录;重复本步骤,直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接;
访问网址集合获取单元,用于按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的网址集合。
优选的,在本申请中,所述下一目标分析记录确定单元包括:
时间判定模块,用于当所述上一级记录为多个时,确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录。
优选的,在本申请中,所述目标分析记录确定单元包括:
排序模块,用于将所述记录按照用户标识排序。
优选的,在本申请中,所述上一记录为非有效访问网址链接,包括:
所述上一访问网址记录为空或所述上一访问网址链接无效。
在本申请的另一方面,还提供了一种确定页面流失率的系统,其特征在于,包括上述访问路径的装置,和,
统计单元,用于获取网址记录的集合中第一访问网址数量和第二访问网址数量,计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率;所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址;
通过上述技术方案可以看出,本申请通过访问日志的记录中所包括的上一访问网址,从而可以追踪访问用户在访问网站时的所访问到的网址和访问顺序,进而可以将访问用户的访问行为进行整合,构建该访问用户每次访问过程中所访问的访问网址的集合的网址记录。由于所述网址记录中包括了访问用户在访问网站时的所有访问页面,并将所有访问页面按照访问顺序排列,所以网址记录可以作为访问用户的访问路径;由于访问路径中包括了完整的访问网页和网页访问顺序,所以访问路径中包括的信息量要远远地大于现有技术中的路径对所包括的信息量,可以直接反映访问用户的访问行为,所以以访问路径为统计依据可以有效地降低网站分析的计算成本,从而降低系统资源的耗费。
附图说明
图1为现有技术中所述网站的树状结构示意图;
图2为本申请实施例中所述确定访问路径的方法的流程示意图;
图3为本申请实施例中所述确定页面流失率的方法的流程示意图;
图4为本申请实施例中所述确定访问路径的装置的结构示意图;
图5为本申请实施例中所述确定页面流失率的系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了实现降低计算成本的目的,本申请提供了一种确定页面流失率的方法,如图2所示,包括步骤:
S11、在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录;
在本申请中,访问日志中的记录包括有用户标识、访问网址、访问时间和上一访问网址。具体的访问日志中的记录可以为如下形式:
1,Jack,www.alibaba.com,www.google.com,12:00:01;
2,Mike,www.alibaba.com,www.baidu.com,12:00:02;
3,Jack,www.alibaba.com/offerlist/mp3.html,www.alibaba.com,12:01:01;
4,Jack,www.alibaba.com/offerdetail/123.html,www.alibaba.com/offerlist/mp3.html,12:02:02;
5,Jack,www.alibaba.com/offerdetail/234.html,www.alibaba.com/offerlist/mp3.html,12:03:01;
6,Mike,www.alibaba.com/offerlist/mp3.html,www.alibaba.com,12:04:02
7,Jack,Jack,community.alibaba.com/,www.alibaba.com/,12:04:31;
8,Mike,www.alibaba.com/offerdetail/234.html,www.alibaba.com/offerlist/mp3.html,12:05:31
9,Jack,community.alibaba.com/help.html,community.alibaba.com/,12:06:31
其中,1,2,3—9为每条记录的标识;Jack和Mike为访问用户的标识;与用户标识临近的网址为该记录所记录的用户当前所访问的访问网址,如序号为1的记录中的www.alibaba.com;在当前访问网址后的网址为用户所访问的上一访问网址,即,用户是由上一访问网址跳转至本记录中的当前访问网址的,如序号为1的记录中的www.google.com;也就是说,访问用户在访问网页www.google.com后,由该网址跳转到了网页www.alibaba.com;此外,序号为1的记录中的12:00:01还表示访问www.alibaba.com的时间为12:00:01。
S12、确定具有相同用户标识的记录集合,将所述记录集合内最后访问时间的记录确定为目标分析记录;
为了构建每个用户的每次完整的访问过程中所访问的访问网址的集合的网址记录,需要先建立每个用户的记录集合,这样,每个记录集合中只包括该访问用户的记录。
此外,由于只有从最后访问的网址的记录中追踪上一访问网址才能完整的构建访问用户一次完整的访问过程中所访问的访问网址的集合,所以,在记录集合中将时间为最后的记录作为目标分析记录。
具体的,可以在步骤S11中所列出的各个记录中确定用户标识为Mike的记录集合;然后,在该记录集合中将其中访问时间为最后的记录确定为目标分析记录,从而可以确定记录8,Mike,www.alibaba.com/offerdetail/234.html,www.alibaba.com/offerlist/mp3.html,12:05:31为目标分析记录。
S13、在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将该下一目标分析记录作为当前目标分析记录;重复本步骤,直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接;
在当前目标分析记录中,包括有上一访问网址,根据上一访问网址可以追踪到上一级记录,也就是跳转到当前目标分析记录中的访问网址的来源网址;例如,当前目标分析记录8,Mike,www.alibaba.com/offerdetail/234.html,www.alibaba.com/offerlist/mp3.html,12:05:31中,根据其上一访问网址可以找到该上一访问网址多对应的记录,即,6,Mike,www.alibaba.com/offerlist/mp3.html,www.alibaba.com,12:04:02;也就是说,可以找到以该上一访问网址为访问网址的记录。
优选的,在本申请中,还可以在上一级记录为多个时,确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录;这是因为,很多时候,通过上一访问网址来获取上一级记录会找到多个上一级记录,由于真正的上一级记录一般情况下为距离其下一级记录时间最近的记录,所以,可以通过访问时间来确定真正地上一级记录。
由于访问用户很可能是在网站中通过一次完整的访问路径访问了很多个网页,所以需要重复本步骤直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接,也就是说,要追踪到访问用户初始的访问网址所对应的记录,该初始的访问记录中不会再包括有效的访问网址链接。具体的,非有效访问网址链接可以包括:上一访问网址记录为空或上一访问网址链接无效。比如,步骤S11中所列出的多个记录为例,9,Jack,community.alibaba.com/help.html,community.alibaba.com/,12:06:31的上一级记录为7,Jack,Jack,community.alibaba.com/,www.alibaba.com/,12:04:31;而记录7,Jack,Jack,community.alibaba.com/,www.alibaba.com/,12:04:31;的上一级记录为2,Mike,www.alibaba.com,www.baidu.com,12:00:02;此时,记录2,Mike,www.alibaba.com,www.baidu.com,12:00:02;中的上一访问网址www.baidu.com并没有包含在该用户的记录集合中,为非有效的网址链接,所以此时完成了该用户的一次完整访问的访问路径的追踪。
S14、按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录;
通过对该访问用户的一次完整访问的访问路径中,每次访问网址的顺序排列形成网址记录,从而可以直观的反应该访问用户的网址的访问行为。具体的,可以将步骤S13中的各个当前目标分析记录按照获取顺序排列,得到网址记录:9,Jack,community.alibaba.comhelp.html/|community.alibaba.com/|www.alibaba.com/|www.baidu.com。
在上述网址记录中,包括时间为最后的记录标识9,访问用户标识Jack,以及,访问用户该次访问时的各级网址community.alibaba.com/help.html,community.alibaba.com,www.alibaba.com,www.baidu.com;各级网址之间可以通过符号|来分隔,从而可以被识别为不同的网址。
网址记录的记录内容可以有多种记录方式,只要其中按照访问顺序包括了访问用户的一次访问中的所有访问网页即可,在此并不作限定。
在访问日志中所有的记录均被确定为目标分析记录并构建网址记录后,所构建的多个网址记录集合中,包括了访问日志中的每个访问用户的每次访问的访问路径;由于网址记录中包括了访问用户在访问网站时的所有访问页面,并将所有访问页面按照访问顺序排列,所以网址记录可以作为访问用户的访问路径;由于访问路径中包括了完整的访问网页和网页访问顺序,所以访问路径中包括的信息量要远远地大于现有技术中的路径对所包括的信息量,可以直接反映访问用户的访问行为,所以以访问路径为统计依据可以有效地降低网站分析的计算成本,从而降低系统资源的耗费。
具体的,以计算网页访问的流失率为例,现有技术在分析大型网站的访问网页流失率时,如果网站有1000万人访问,则至少要包括1000万个访问路径,估计要拆分为1亿个路径对,此时如果需要计算1000条路径来进行分析,就需要进行1000亿次的比较计算,可见现有技术中的方式计算量庞大,极其耗费系统资源。而通过本申请中的技术方案,建立网址记录集合是以拼接日志记录的方式,如果还是网站有1000万人访问,包括1000万个访问路径为例,由于网址记录所记录的既是每个用户单次访问网站的访问路径,所以仅需要建立1000万个网址记录即可;在建立网址记录集合后,通过查询语句即可方便的实现,具体的,可以是通过SQL语句分别计算出两个有链接关系的页面在网址记录的集合中的数量,然后计算出两个网页的数量比值即可得到这两个网页之间的访问网页流失率了。从而极大地降低网站分析的计算成本,从而也就降低系统资源的耗费。
进一步的,本申请中,在S14、按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录之后还包括以下步骤:
S15、在所述记录集合内尚未被确定为目标分析记录的记录中,将最后访问时间的记录确定为另一目标分析记录;
为了在构建每个访问用户的每次完整的访问过程中所访问的访问网址的集合的网址记录过程中,避免重复分析记录,所以需要在所述记录集合内尚未被确定为目标分析记录的记录中确定另一目标分析记录,以便以该目标分析记录为基础确定该目标分析记录中的访问网址的上一访问网址,从而建立另一网址记录。
S16、重复执行步骤13至15,至所有记录均被确定为目标分析记录;
为了可以将访问日志中的各个记录都进行分析,以构建每个访问用户每次访问过程中所访问的访问网址的集合的网址记录,需要遍历访问日志中的各个记录来执行步骤13至15。
在本申请中,由于用户标识可以为多个,所以还可以分别确定具有相同用户标识的记录集合,以为各个用户标识的记录均确定记录集合。进一步的,还可以将记录按照用户标识将各个记录集合进行排序。
如图3所示,在本申请中,还提供了一种确定页面流失率的方法,包括步骤:
S21、在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录;
S22、确定具有相同用户标识的记录集合,将所述记录集合内最后访问时间的记录确定为目标分析记录;
S23、在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将该下一目标分析记录作为当前目标分析记录;重复本步骤,直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接;
S24、按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录;
S25、在所述记录集合内尚未被确定为目标分析记录的记录中,将最后访问时间的记录确定为目标分析记录;
S26、重复执行步骤S23至S25,至所有记录均被确定为目标分析记录。
由于本申请中步骤S21至S26与图1所对应的步骤S11至S16内容相同,其原理和作用也相同,所以在此就不再赘述。
S27、获取所述网址记录的集合中第一访问网址数量和第二访问网址数量,计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率;所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址。
在进行网站中的两个页面间流失率的统计时,首先要确认这两个页面的网址之间是可以实现链接跳转的,即通过至少一次链接跳转可以实现访问。具体的可以设进行流失率统计的两个页面分别为第一访问网址和第二访问网址。
由于在构建的网址记录中,包括了所有访问用户的每次完整的访问行为中对网站中的网址的访问记录,所以只要获取网址记录的集合中第一访问网址数量和第二访问网址数量,计算第一访问网址与所述第二访问网址的比值就可以获取第一访问网址到第二访问网址的流失率。
综上所述,本申请通过访问日志的记录中所包括的上一访问网址,从而可以追踪访问用户在访问网站时的所访问到的网址和访问顺序,进而可以将访问用户在访问行为进行整合,构建该访问用户每次访问过程中所访问的访问网址的集合的网址记录。在构建网址记录后,可以通过直接比较网站中的两个访问网址在网址记录集合中的记录数量,即可得到上述两个访问网址间的网页流失率。与现有技术中需要将需要计算网页流失率中的两个访问网址与访问日志中的每个路径对的方式相比,本申请有效的降低了计算成本,提高了网页流失率的统计效率。
如图4所示,在本申请中,还提供了一种确定访问路径的装置,包括:记录获取单元1、目标分析记录确定单元2、下一目标分析记录确定单元3和访问网址集合获取单元4,其中:
记录获取单元1,用于在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录;
在本申请中,访问日志中的记录包括有用户标识、访问网址、访问时间和上一访问网址。具体的访问日志中的记录可以为如下形式:
1,Jack,www.alibaba.com,www.google.com,12:00:01;
2,Mike,www.alibaba.com,www.baidu.com,12:00:02;
3,Jack,www.alibaba.com/offerlist/mp3.html,www.alibaba.com,12:01:01;
4,Jack,www.alibaba.com/offerdetail/123.html,www.alibaba.com/offerlist/mp3.html,12:02:02;
5,Jack,www.alibaba.com/offerdetail/234.html,www.alibaba.com/offerlist/mp3.html,12:03:01;
6,Mike,www.alibaba.com/offerlist/mp3.html,www.alibaba.com,12:04:02
7,Jack,Jack,community.alibaba.com/,www.alibaba.com/,12:04:31;
8,Mike,www.alibaba.com/offerdetail/234.html,www.alibaba.com/offerlist/mp3.html,12:05:31
9,Jack,community.alibaba.com/help.html,community.alibaba.com/,12:06:31
其中,1,2,3—9为每条记录的标识;Jack和Mike为访问用户标识;与用户标识临近的网址为该记录所记录的用户所访问的访问网址,如序号为1的记录中的www.alibaba.com;在访问网址后的网址为用户所访问的上一访问网址,即,用户是由上一访问网址跳转至本记录中的访问网址的,如序号为1的记录中的www.google.com;也就是说,访问用户在访问网页www.google.com后,由该网址跳转到了网页www.alibaba.com;此外,序号为1的记录中的12:00:01还表示访问www.alibaba.com的时间为12:00:01。
目标分析记录确定单元2,用于确定具有相同用户标识的记录集合,在在各个所述记录集合内尚未被确定为目标分析记录的记录中,自最后访问时间的记录开始,确定一目标分析记录;
为了构建每个用户的每次完整的访问过程中所访问的访问网址的集合的网址记录,第一目标分析记录确定单元2需要先将建立每个用户的记录集合,这样,每个记录集合中只包括该访问用户的记录。
为了在构建每个访问用户的每次完整的访问过程中所访问的访问网址的集合的网址记录过程中,避免重复分析记录目标分析记录确定单元2,需要在所述记录集合内尚未被确定为目标分析记录的记录中,将最后访问时间的记录确定为目标分析记录。
此外,由于只有从最后访问的网址的记录中追踪上一访问网址才能完整的构建访问用户一次完整的访问过程中所访问的访问网址的集合,所以,在记录集合中将时间为最后的记录作为目标分析记录。
具体的,可以在上述所列出的各个记录中确定用户标识为Mike的记录集合;然后,在该记录集合中将其中访问时间为最后的记录确定为目标分析记录,从而可以确定记录8,Mike,www.alibaba.com/offerdetail/234.html,www.alibaba.com/offerlist/mp3.html,12:05:31为目标分析记录。
在本申请中,目标分析记录确定单元具体可以包括排序模块,用于将所述记录按照用户标识排序。
下一目标分析记录确定单元3,用于在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将所述下一目标分析记录作为当前目标分析记录;重复进行下一目标分析记录确定,直至所述当前目标分析记录中的上一访问网址记录为非有效访问网址链接;
在当前目标分析记录中,包括有上一访问网址,根据上一访问网址可以追踪到上一级记录,也就是跳转到当前目标分析记录中的访问网址的来源网址;例如,当前目标分析记录8,Mike,www.alibaba.com/offerdetail/234.html,www.alibaba.com/offerlist/mp3.html,12:05:31中,根据其上一访问网址可以找到该上一访问网址多对应的记录,即,6,Mike,www.alibaba.com/offerlist/mp3.html,www.alibaba.com,12:04:02;也就是说,可以找到以该上一访问网址为访问网址的记录。
优选的,在本申请中,下一目标分析记录确定单元3具体可以包括时间判定模块,用于当上一级记录为多个时,确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录。
很多时候,通过上一访问网址来获取上一级记录会找到多个上一级记录,由于真正的上一级记录一般情况下为距离其下一级记录时间最近的记录,所以,可以通过访问时间来确定真正地上一级记录。
由于访问用户很可能是在网站中通过一次完整的访问路径访问了很多个网页,所以需要重复本步骤直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接,也就是说,要追踪到访问用户初始的访问网址所对应的记录,该初始的访问记录中不会在包括有效的访问网址链接。具体的,非有效访问网址链接可以包括:上一访问网址记录为空或上一访问网址链接无效。比如,上述所列出的多个记录为例,9,Jack,community.alibaba.com/help.html,community.alibaba.com/,12:06:31的上一级记录为7,Jack,Jack,community.alibaba.com/,www.alibaba.com/,12:04:31;而记录7,Jack,Jack,community.alibaba.com/,www.alibaba.com/,12:04:31;的上一级记录为2,Mike,www.alibaba.com,www.baidu.com,12:00:02;此时,记录2,Mike,www.alibaba.com,www.baidu.com,12:00:02;中的上一访问网址www.baidu.com并没有包含在该用户的记录集合中,为非有效的网址链接,所以此时完成了该用户的一次完整访问的访问路径的追踪。
访问网址集合获取单元4,用于按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的网址集合。
通过对该访问用户的一次完整访问的访问路径中,每次访问网址的顺序排列形成网址记录,从而可以直观的反应该访问用户的网址的访问行为。具体的,可以将各个当前目标分析记录按照获取顺序排列,得到网址记录:9,Jack,community.alibaba.com/help.html/|community.alibaba.com/|www.alibaba.com/|www.baidu.com。
在上述网址记录中,包括时间为最后的记录标识9,访问用户标识Jack,以及,访问用户该次访问时的各级网址community.alibaba.com/help.html,community.alibaba.com,www.alibaba.com,www.baidu.com;各级网址之间可以通过符号|来分隔,从而可以被识别为不同的网址。
网址记录的记录内容可以有多种记录方式,只要其中按照访问顺序包括了访问用户的一次访问中的所有访问网页即可,在此并不作限定。
在访问日志中所有的记录均被确定为目标分析记录并构建网址记录中后,所构建的多个网址记录集合中,包括了访问日志中的每个访问用户的每次访问的访问路径;由于网址记录中包括了访问用户在访问网站时的所有访问页面,并将所有访问页面按照访问顺序排列,所以网址记录可以作为访问用户的访问路径;由于访问路径中包括了完整的访问网页和网页访问顺序,所以访问路径中包括的信息量要远远地大于现有技术中的路径对所包括的信息量,可以直接反映访问用户的访问行为,所以以访问路径为统计依据可以有效地降低网站分析的计算成本,从而降低系统资源的耗费。
具体的,以计算网页访问的流失率为例,现有技术在分析大型网站的访问网页流失率时,如果网站有1000万人访问,则至少要包括1000万个路径,估计要拆分为1亿个路径对,此时如果需要计算1000条路径来进行分析,就需要进行1000亿次的比较计算,可见现有技术中的方式计算量庞大,极其耗费系统资源。而通过本申请中的技术方案,在建立网址记录集合后,通过查询语句即可方便的实现,具体的,可以是通过SQL语句分别计算出两个有链接关系的页面在网址记录的集合中的数量,然后计算出两个网页的数量比值即可得到这两个网页之间的访问网页流失率了。从而极大地降低网站分析的计算成本,从而也就降低系统资源的耗费。
如图5所示,在本申请中,还提供了一种确定页面流失率的系统,包括图3所对应实施例中的确定访问路径的装置以及统计单元5;
统计单元5用于获取网址记录的集合中第一访问网址数量和第二访问网址数量,计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率;所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址:
由于本申请中确定访问路径的装置与图3所对应的确定访问路径的装置结构相同,其原理和作用也相同,所以在此就不再赘述。
在进行网站中的两个页面间流失率的统计时,首先要确认这两个页面的网址之间是可以实现链接跳转的,即通过至少一次链接跳转可以实现访问。具体的可以设进行流失率的统计两个页面分别为第一访问网址和第二访问网址。
由于在构建的网址记录中,包括了所有访问用户的每次完整的访问行为中对网站中的网址的访问记录,所以统计单元5通过获取网址记录的集合中第一访问网址数量和第二访问网址数量,计算第一访问网址与所述第二访问网址的比值就可以获取第一访问网址到第二访问网址的流失率。
综上所述,本申请通过访问日志的记录中所包括的上一访问网址,从而可以追踪访问用户在访问网站时的所访问到的网址和访问顺序,进而可以将访问用户在访问行为进行整合,构建该访问用户每次访问过程中所访问的访问网址的集合的网址记录。在构建网址记录后,可以通过直接比较网站中的两个访问网址在网址记录集合中的记录数量,即可得到上述两个访问网址间的网页流失率。与现有技术中需要将需要计算网页流失率中的两个访问网址与访问日志中的每个路径对的方式相比,本申请有效的降低了计算成本,提高了网页流失率的统计效率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种确定访问路径的方法,其特征在于,包括:
S11、在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录;
S12、确定具有相同用户标识的记录集合,将所述记录集合内最后访问时间的记录确定为目标分析记录;
S13、在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将该下一目标分析记录作为当前目标分析记录;重复本步骤,直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接;
S14、按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录。
2.根据权利要求1所述确定访问路径的方法,其特征在于,在S14、按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录之后还包括:
S15、在所述记录集合内尚未被确定为目标分析记录的记录中,将最后访问时间的记录确定为另一目标分析记录;
S16、重复执行步骤S13至S15,至所有记录均被确定为目标分析记录。
3.根据权利要求2所述确定访问路径的方法,其特征在于,所述在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录,包括:
当所述上一级记录为多个时,确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录。
4.根据权利要求3所述确定访问路径的方法,其特征在于,所述确定具有相同用户标识的记录集合,包括:
将所述记录按照用户标识排序。
5.根据权利要求4所述确定访问路径的方法,其特征在于,所述上一记录为非有效访问网址链接,包括:
所述上一访问网址记录为空或所述上一访问网址链接无效。
6.一种确定页面流失率的方法,其特征在于,包括:
S21、在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录;
S22、确定具有相同用户标识的记录集合,将所述记录集合内最后访问时间的记录确定为目标分析记录;
S23、在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将该下一目标分析记录作为当前目标分析记录;重复本步骤,直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接;
S24、按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录;
S25、在所述记录集合内尚未被确定为目标分析记录的记录中,将最后访问时间的记录确定为目标分析记录;
S26、重复执行步骤S23至S25,至所有记录均被确定为目标分析记录;
S27、获取所述网址记录的集合中第一访问网址数量和第二访问网址数量,计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率;所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址。
7.一种确定访问路径的装置,其特征在于,包括:
记录获取单元,用于在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录;
目标分析记录确定单元,用于确定具有相同用户标识的记录集合,将所述记录集合内最后访问时间的记录确定为目标分析记录;
下一目标分析记录确定单元,用在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录;将该下一目标分析记录作为当前目标分析记录;重复本步骤,直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接;
访问网址集合获取单元,用于按照目标分析记录的获取顺序排列,构建该访问用户一次访问过程中所访问的访问网址的网址集合。
8.根据权利要求7所述确定访问路径的装置,其特征在于,所述下一目标分析记录确定单元包括:
时间判定模块,用于当所述上一级记录为多个时,确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录。
9.根据权利要求8所述确定访问路径的装置,其特征在于,所述目标分析记录确定单元包括:
排序模块,用于将所述记录按照用户标识排序。
10.根据权利要求9所述确定访问路径的装置,其特征在于,所述上一记录为非有效访问网址链接,包括:
所述上一访问网址记录为空或所述上一访问网址链接无效。
11.一种确定页面流失率的系统,其特征在于,包括如权利要求7中确定访问路径的装置,和,
统计单元,用于获取网址记录的集合中第一访问网址数量和第二访问网址数量,计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率;所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址。
CN201210311662.1A 2012-08-28 2012-08-28 确定访问路径的方法和装置、确定页面流失率的方法和系统 Active CN103631828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210311662.1A CN103631828B (zh) 2012-08-28 2012-08-28 确定访问路径的方法和装置、确定页面流失率的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210311662.1A CN103631828B (zh) 2012-08-28 2012-08-28 确定访问路径的方法和装置、确定页面流失率的方法和系统

Publications (2)

Publication Number Publication Date
CN103631828A CN103631828A (zh) 2014-03-12
CN103631828B true CN103631828B (zh) 2017-05-24

Family

ID=50212891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210311662.1A Active CN103631828B (zh) 2012-08-28 2012-08-28 确定访问路径的方法和装置、确定页面流失率的方法和系统

Country Status (1)

Country Link
CN (1) CN103631828B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426363A (zh) * 2014-05-26 2016-03-23 阿里巴巴集团控股有限公司 一种确定分享转化信息的方法与设备
CN104408156B (zh) * 2014-12-03 2017-12-22 北京国双科技有限公司 网站页面在搜索引擎中收录数量的检测方法和装置
CN106897297B (zh) * 2015-12-17 2019-12-24 北京国双科技有限公司 网站栏目间访问路径的确定方法及装置
CN106897196B (zh) * 2015-12-17 2019-10-25 北京国双科技有限公司 网站页面间访问路径的确定方法及装置
CN106528690B (zh) * 2016-10-31 2019-08-20 维沃移动通信有限公司 一种应用程序访问存储媒介的方法及移动终端
CN108268475B (zh) * 2016-12-30 2021-12-28 北京国双科技有限公司 路径分析图展示方法及装置
CN106909372B (zh) * 2017-01-23 2020-08-18 武汉奇米网络科技有限公司 一种移动端用户购买路径计算方法及系统
CN110020074B (zh) * 2017-10-13 2021-04-23 北京国双科技有限公司 确定网页流失率的方法及装置
CN108134812B (zh) * 2017-11-10 2021-01-05 人人行科技股份有限公司 数据处理方法和装置
CN107943679B (zh) * 2017-11-24 2021-02-26 阿里巴巴(中国)有限公司 路径漏斗的生成方法、装置和服务器
CN108093072B (zh) * 2017-12-27 2021-10-01 广州品唯软件有限公司 站内访问路径的获取方法、装置及存储介质
CN108108495A (zh) * 2018-01-19 2018-06-01 厦门欣旅通科技有限公司 一种识别用户访问轨迹的方法及装置
CN108874909A (zh) * 2018-05-28 2018-11-23 深圳壹账通智能科技有限公司 用户访问路径获取方法、服务器及计算机存储介质
CN110032499B (zh) * 2018-12-03 2023-08-08 创新先进技术有限公司 页面用户流失的分析方法、装置、服务器及可读存储介质
CN109951355B (zh) * 2019-03-13 2022-09-06 苏州洞察云信息技术有限公司 一种用于分布式系统白盒关联路径追踪的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369276A (zh) * 2008-09-28 2009-02-18 杭州电子科技大学 一种Web浏览器缓存数据的取证方法
CN101826104A (zh) * 2010-04-02 2010-09-08 南京邮电大学 一种基于连续时间马尔科夫链的网站导航性实现方法
CN102054004A (zh) * 2009-11-04 2011-05-11 清华大学 一种网页推荐方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7024630B2 (en) * 2002-01-16 2006-04-04 International Business Machines Corporation Method for managing browser display

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369276A (zh) * 2008-09-28 2009-02-18 杭州电子科技大学 一种Web浏览器缓存数据的取证方法
CN102054004A (zh) * 2009-11-04 2011-05-11 清华大学 一种网页推荐方法和装置
CN101826104A (zh) * 2010-04-02 2010-09-08 南京邮电大学 一种基于连续时间马尔科夫链的网站导航性实现方法

Also Published As

Publication number Publication date
CN103631828A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN103631828B (zh) 确定访问路径的方法和装置、确定页面流失率的方法和系统
CN103902653B (zh) 一种构建数据仓库表血缘关系图的方法和装置
CN104504136B (zh) 网站的访问路径的分析方法和装置
CN104537070B (zh) 挖掘旅游目的地景点的方法和设备
CN106933947B (zh) 一种搜索方法及装置、电子设备
CN104063448B (zh) 一种视频领域相关的分布式微博数据抓取系统
CN103605715B (zh) 用于多个数据源的数据整合处理方法和装置
CN102663048B (zh) 一种搜索结果提供方法及装置
CN106294559A (zh) 一种应用流量分析方法及装置
CN102682046A (zh) 社交网络的节点搜索和分析方法及搜索系统
CN103310012A (zh) 一种分布式网络爬虫系统
CN107885777A (zh) 一种基于协作式爬虫的抓取网页数据的控制方法及系统
CN103198161A (zh) 微博水军识别方法与设备
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN102122291A (zh) 一种基于树形日志模式分析的博客好友推荐方法
CN107797894A (zh) App用户行为分析方法和装置
CN110377689A (zh) 试卷智能生成方法、装置、计算机设备及存储介质
CN104317857B (zh) 一种房屋信息采集服务系统
CN104731857B (zh) 一种舆情热度的快速计算方法
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN205845090U (zh) 电力市场主体信用评价系统
CN104298669A (zh) 一种基于社交网络的人员地理信息挖掘模型
CN105242873B (zh) 云计算系统的性能数据的采集与存储方法及装置
CN106021391B (zh) 基于Storm的产品评论信息实时采集方法
CN108399229A (zh) 一种基于大数据的数字图书馆数据库建设方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant