CN103631828B

CN103631828B - 确定访问路径的方法和装置、确定页面流失率的方法和系统

Info

Publication number: CN103631828B
Application number: CN201210311662.1A
Authority: CN
Inventors: 吴伟勋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-08-28
Filing date: 2012-08-28
Publication date: 2017-05-24
Anticipated expiration: 2032-08-28
Also published as: CN103631828A

Abstract

本申请公开了确定访问路径的方法和装置、确定页面流失率的方法和系统，其中确定访问路径的方法包括：在访问日志中获取记录；确定具有相同用户标识的记录集合并确定目标分析记录；根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录；将该下一目标分析记录作为当前目标分析记录；重复本步骤，直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接；构建网址记录。由于访问路径中包括了完整的访问网页和网页访问顺序，所以访问路径中包括的信息量要远远地大于现有技术中的路径对所包括的信息量，可以直接反映访问用户的访问行为，所以以访问路径为统计依据可以有效地降低网站分析的计算成本。

Description

确定访问路径的方法和装置、确定页面流失率的方法和系统

技术领域

本申请涉及网站分析领域，特别是确定访问路径的方法和装置、确定页面流失率的方法和系统。

背景技术

网站分析是对网站中的访问用户的行为的研究，通过研究网站中访问用户的行为特点，可以反映网站的设计是否存在缺陷。

网站分析的重要的方式为通过采用访问日志中的记录，来提取访问用户在网站中的访问数据。现有技术中，常用的方法是将网站的各个页面按照其树形结构分解为多个网站路径对；举例来说，如图1所示，网站的树状结构示出，网站分为三层，共包括6个页面，可以划分为（首页，产品list），（首页，资讯首页），（产品list，产品detail），（产品list，产品detail），（资讯首页，咨询帖子）共计5个网站路径对；访问用户在访问网站时的每个页面跳转可以作为访问路径对，比如，如果访问用户从首页网页跳转到资讯首页网页，然后跳转至咨询帖子网页，则该访问用户的访问路径对包括（首页，资讯首页）和（资讯首页，咨询帖子）。

在进行网站分析时，提取访问日志中包括有直接跳转链接关系的两个页面的路径对，通过统计分析提取到的路径对，从而可以获取访问用户对网站的访问特性；比如，通过路径对的分析，可以统计出页面的流失率。页面流失率是指网站访问用户在访问网站页面时对某一页面的退出或跳出的比率。通过对各个页面的流失率进行统计，可以为网站的优化，提高网站的访问率提供重要的分析依据。

目前，业界采用的方式一般为，通过判断访问日志中提取的路径对是否包括了需要分析的完整路径的网站路径对，从而可以判断访问用户是否流失，以及是由哪一个网站路径对所对应的网页造成的流失。

具体的，当需要统计访问用户从首页到产品list页面，然后到产品detail页面这一路径的流失率的时候，需要将（首页，产品list）和（产品list，产品detail）这两个网站路径对与每个访问用户的访问路径对进行比较，进而将包括有与访问路径对对应的访问用户统计为非流失，否则将统计为流失。

由于目前大型网站中，自身结构比较复杂，包括的网站路径对数量很大，而且由于访问用户的数量较大，所以访问用户的访问路径对也会数量巨大。

综上所述，现有技术中，以路径对为统计依据的网站分析方法，计算成本巨大，会使得系统资源的耗费较大。

发明内容

有鉴于此，本申请提供了确定访问路径的方法和装置、确定页面流失率的方法和系统，以实现降低计算成本的目的。

本申请的发明内容如下：

一种确定访问路径的方法，包括步骤：

S11、在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录；

S12、确定具有相同用户标识的记录集合，将所述记录集合内最后访问时间的记录确定为目标分析记录；

S13、在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录；将该下一目标分析记录作为当前目标分析记录；重复本步骤，直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接；

S14、按照目标分析记录的获取顺序排列，构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录。

优选的，在本申请中，在S 14、按照目标分析记录的获取顺序排列，构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录之后还包括：

S15、在所述记录集合内尚未被确定为目标分析记录的记录中，将最后访问时间的记录确定为另一目标分析记录；

S16、重复执行步骤S13至S15，至所有记录均被确定为目标分析记录。

优选的，在本申请中，所述在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录，包括：

当所述上一级记录为多个时，确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录。

优选的，在本申请中，所述分别确定具有相同用户标识的记录集合，包括：

将所述记录按照用户标识排序。

优选的，在本申请中，所述上一记录为非有效访问网址链接，包括：

所述上一访问网址记录为空或所述上一访问网址链接无效。

在本申请的另一方面，还提供了一种确定页面流失率的方法，包括步骤：

S21、在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录；

S22、确定具有相同用户标识的记录集合，将所述记录集合内最后访问时间的记录确定为目标分析记录；

S23、在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录；将该下一目标分析记录作为当前目标分析记录；重复本步骤，直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接；

S24、按照目标分析记录的获取顺序排列，构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录；

S25、在所述记录集合内尚未被确定为目标分析记录的记录中，将最后访问时间的记录确定为目标分析记录；

S26、重复执行步骤S23至S25，至所有记录均被确定为目标分析记录。

S27、获取所述网址记录的集合中第一访问网址数量和第二访问网址数量，计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率；所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址。

在本申请的另一方面，还提供了一种确定访问路径的装置，其特征在于，包括：

记录获取单元，用于在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录；

目标分析记录确定单元，用于确定具有相同用户标识的记录集合，将所述记录集合内最后访问时间的记录确定为目标分析记录；

下一目标分析记录确定单元，用在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录；将该下一目标分析记录作为当前目标分析记录；重复本步骤，直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接；

访问网址集合获取单元，用于按照目标分析记录的获取顺序排列，构建该访问用户一次访问过程中所访问的访问网址的网址集合。

优选的，在本申请中，所述下一目标分析记录确定单元包括：

时间判定模块，用于当所述上一级记录为多个时，确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录。

优选的，在本申请中，所述目标分析记录确定单元包括：

排序模块，用于将所述记录按照用户标识排序。

所述上一访问网址记录为空或所述上一访问网址链接无效。

在本申请的另一方面，还提供了一种确定页面流失率的系统，其特征在于，包括上述访问路径的装置，和，

统计单元，用于获取网址记录的集合中第一访问网址数量和第二访问网址数量，计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率；所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址；

通过上述技术方案可以看出，本申请通过访问日志的记录中所包括的上一访问网址，从而可以追踪访问用户在访问网站时的所访问到的网址和访问顺序，进而可以将访问用户的访问行为进行整合，构建该访问用户每次访问过程中所访问的访问网址的集合的网址记录。由于所述网址记录中包括了访问用户在访问网站时的所有访问页面，并将所有访问页面按照访问顺序排列，所以网址记录可以作为访问用户的访问路径；由于访问路径中包括了完整的访问网页和网页访问顺序，所以访问路径中包括的信息量要远远地大于现有技术中的路径对所包括的信息量，可以直接反映访问用户的访问行为，所以以访问路径为统计依据可以有效地降低网站分析的计算成本，从而降低系统资源的耗费。

附图说明

图1为现有技术中所述网站的树状结构示意图；

图2为本申请实施例中所述确定访问路径的方法的流程示意图；

图3为本申请实施例中所述确定页面流失率的方法的流程示意图；

图4为本申请实施例中所述确定访问路径的装置的结构示意图；

图5为本申请实施例中所述确定页面流失率的系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了实现降低计算成本的目的，本申请提供了一种确定页面流失率的方法，如图2所示，包括步骤：

在本申请中，访问日志中的记录包括有用户标识、访问网址、访问时间和上一访问网址。具体的访问日志中的记录可以为如下形式：

1，Jack，www.alibaba.com，www.google.com，12:00:01；

2，Mike，www.alibaba.com，www.baidu.com，12:00:02；

3，Jack，www.alibaba.com/offerlist/mp3.html，www.alibaba.com，12:01:01；

4，Jack，www.alibaba.com/offerdetail/123.html，www.alibaba.com/offerlist/mp3.html，12:02:02；

5，Jack，www.alibaba.com/offerdetail/234.html，www.alibaba.com/offerlist/mp3.html，12:03:01；

6，Mike，www.alibaba.com/offerlist/mp3.html，www.alibaba.com，12:04:02

7，Jack，Jack，community.alibaba.com/，www.alibaba.com/，12:04:31；

8，Mike，www.alibaba.com/offerdetail/234.html，www.alibaba.com/offerlist/mp3.html，12:05:31

9，Jack，community.alibaba.com/help.html，community.alibaba.com/，12:06:31

其中，1，2，3—9为每条记录的标识；Jack和Mike为访问用户的标识；与用户标识临近的网址为该记录所记录的用户当前所访问的访问网址，如序号为1的记录中的www.alibaba.com；在当前访问网址后的网址为用户所访问的上一访问网址，即，用户是由上一访问网址跳转至本记录中的当前访问网址的，如序号为1的记录中的www.google.com；也就是说，访问用户在访问网页www.google.com后，由该网址跳转到了网页www.alibaba.com；此外，序号为1的记录中的12:00:01还表示访问www.alibaba.com的时间为12:00:01。

为了构建每个用户的每次完整的访问过程中所访问的访问网址的集合的网址记录，需要先建立每个用户的记录集合，这样，每个记录集合中只包括该访问用户的记录。

此外，由于只有从最后访问的网址的记录中追踪上一访问网址才能完整的构建访问用户一次完整的访问过程中所访问的访问网址的集合，所以，在记录集合中将时间为最后的记录作为目标分析记录。

具体的，可以在步骤S11中所列出的各个记录中确定用户标识为Mike的记录集合；然后，在该记录集合中将其中访问时间为最后的记录确定为目标分析记录，从而可以确定记录8，Mike，www.alibaba.com/offerdetail/234.html，www.alibaba.com/offerlist/mp3.html，12:05:31为目标分析记录。

在当前目标分析记录中，包括有上一访问网址，根据上一访问网址可以追踪到上一级记录，也就是跳转到当前目标分析记录中的访问网址的来源网址；例如，当前目标分析记录8，Mike，www.alibaba.com/offerdetail/234.html，www.alibaba.com/offerlist/mp3.html，12:05:31中，根据其上一访问网址可以找到该上一访问网址多对应的记录，即，6，Mike，www.alibaba.com/offerlist/mp3.html，www.alibaba.com，12:04:02；也就是说，可以找到以该上一访问网址为访问网址的记录。

优选的，在本申请中，还可以在上一级记录为多个时，确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录；这是因为，很多时候，通过上一访问网址来获取上一级记录会找到多个上一级记录，由于真正的上一级记录一般情况下为距离其下一级记录时间最近的记录，所以，可以通过访问时间来确定真正地上一级记录。

由于访问用户很可能是在网站中通过一次完整的访问路径访问了很多个网页，所以需要重复本步骤直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接，也就是说，要追踪到访问用户初始的访问网址所对应的记录，该初始的访问记录中不会再包括有效的访问网址链接。具体的，非有效访问网址链接可以包括：上一访问网址记录为空或上一访问网址链接无效。比如，步骤S11中所列出的多个记录为例，9，Jack，community.alibaba.com/help.html，community.alibaba.com/，12:06:31的上一级记录为7，Jack，Jack，community.alibaba.com/，www.alibaba.com/，12:04:31；而记录7，Jack，Jack，community.alibaba.com/，www.alibaba.com/，12:04:31；的上一级记录为2，Mike，www.alibaba.com，www.baidu.com，12:00:02；此时，记录2，Mike，www.alibaba.com，www.baidu.com，12:00:02；中的上一访问网址www.baidu.com并没有包含在该用户的记录集合中，为非有效的网址链接，所以此时完成了该用户的一次完整访问的访问路径的追踪。

S14、按照目标分析记录的获取顺序排列，构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录；

通过对该访问用户的一次完整访问的访问路径中，每次访问网址的顺序排列形成网址记录，从而可以直观的反应该访问用户的网址的访问行为。具体的，可以将步骤S13中的各个当前目标分析记录按照获取顺序排列，得到网址记录：9，Jack,community.alibaba.comhelp.html/|community.alibaba.com/|www.alibaba.com/|www.baidu.com。

在上述网址记录中，包括时间为最后的记录标识9，访问用户标识Jack，以及，访问用户该次访问时的各级网址community.alibaba.com/help.html，community.alibaba.com，www.alibaba.com，www.baidu.com；各级网址之间可以通过符号|来分隔，从而可以被识别为不同的网址。

网址记录的记录内容可以有多种记录方式，只要其中按照访问顺序包括了访问用户的一次访问中的所有访问网页即可，在此并不作限定。

在访问日志中所有的记录均被确定为目标分析记录并构建网址记录后，所构建的多个网址记录集合中，包括了访问日志中的每个访问用户的每次访问的访问路径；由于网址记录中包括了访问用户在访问网站时的所有访问页面，并将所有访问页面按照访问顺序排列，所以网址记录可以作为访问用户的访问路径；由于访问路径中包括了完整的访问网页和网页访问顺序，所以访问路径中包括的信息量要远远地大于现有技术中的路径对所包括的信息量，可以直接反映访问用户的访问行为，所以以访问路径为统计依据可以有效地降低网站分析的计算成本，从而降低系统资源的耗费。

具体的，以计算网页访问的流失率为例，现有技术在分析大型网站的访问网页流失率时，如果网站有1000万人访问，则至少要包括1000万个访问路径，估计要拆分为1亿个路径对，此时如果需要计算1000条路径来进行分析，就需要进行1000亿次的比较计算，可见现有技术中的方式计算量庞大，极其耗费系统资源。而通过本申请中的技术方案，建立网址记录集合是以拼接日志记录的方式，如果还是网站有1000万人访问，包括1000万个访问路径为例，由于网址记录所记录的既是每个用户单次访问网站的访问路径，所以仅需要建立1000万个网址记录即可；在建立网址记录集合后，通过查询语句即可方便的实现，具体的，可以是通过SQL语句分别计算出两个有链接关系的页面在网址记录的集合中的数量，然后计算出两个网页的数量比值即可得到这两个网页之间的访问网页流失率了。从而极大地降低网站分析的计算成本，从而也就降低系统资源的耗费。

进一步的，本申请中，在S14、按照目标分析记录的获取顺序排列，构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录之后还包括以下步骤：

为了在构建每个访问用户的每次完整的访问过程中所访问的访问网址的集合的网址记录过程中，避免重复分析记录，所以需要在所述记录集合内尚未被确定为目标分析记录的记录中确定另一目标分析记录，以便以该目标分析记录为基础确定该目标分析记录中的访问网址的上一访问网址，从而建立另一网址记录。

S16、重复执行步骤13至15，至所有记录均被确定为目标分析记录；

为了可以将访问日志中的各个记录都进行分析，以构建每个访问用户每次访问过程中所访问的访问网址的集合的网址记录，需要遍历访问日志中的各个记录来执行步骤13至15。

在本申请中，由于用户标识可以为多个，所以还可以分别确定具有相同用户标识的记录集合，以为各个用户标识的记录均确定记录集合。进一步的，还可以将记录按照用户标识将各个记录集合进行排序。

如图3所示，在本申请中，还提供了一种确定页面流失率的方法，包括步骤：

由于本申请中步骤S21至S26与图1所对应的步骤S11至S16内容相同，其原理和作用也相同，所以在此就不再赘述。

在进行网站中的两个页面间流失率的统计时，首先要确认这两个页面的网址之间是可以实现链接跳转的，即通过至少一次链接跳转可以实现访问。具体的可以设进行流失率统计的两个页面分别为第一访问网址和第二访问网址。

由于在构建的网址记录中，包括了所有访问用户的每次完整的访问行为中对网站中的网址的访问记录，所以只要获取网址记录的集合中第一访问网址数量和第二访问网址数量，计算第一访问网址与所述第二访问网址的比值就可以获取第一访问网址到第二访问网址的流失率。

综上所述，本申请通过访问日志的记录中所包括的上一访问网址，从而可以追踪访问用户在访问网站时的所访问到的网址和访问顺序，进而可以将访问用户在访问行为进行整合，构建该访问用户每次访问过程中所访问的访问网址的集合的网址记录。在构建网址记录后，可以通过直接比较网站中的两个访问网址在网址记录集合中的记录数量，即可得到上述两个访问网址间的网页流失率。与现有技术中需要将需要计算网页流失率中的两个访问网址与访问日志中的每个路径对的方式相比，本申请有效的降低了计算成本，提高了网页流失率的统计效率。

如图4所示，在本申请中，还提供了一种确定访问路径的装置，包括：记录获取单元1、目标分析记录确定单元2、下一目标分析记录确定单元3和访问网址集合获取单元4，其中：

记录获取单元1，用于在访问日志中获取包括有访问用户标识、访问网址、访问时间和上一访问网址的记录；

1，Jack，www.alibaba.com，www.google.com，12:00:01；

2，Mike，www.alibaba.com，www.baidu.com，12:00:02；

3，Jack，www.alibaba.com/offerlist/mp3.html，www.alibaba.com，12:01:01；

6，Mike，www.alibaba.com/offerlist/mp3.html，www.alibaba.com，12:04:02

7，Jack，Jack，community.alibaba.com/，www.alibaba.com/，12:04:31；

9，Jack，community.alibaba.com/help.html，community.alibaba.com/，12:06:31

其中，1，2，3—9为每条记录的标识；Jack和Mike为访问用户标识；与用户标识临近的网址为该记录所记录的用户所访问的访问网址，如序号为1的记录中的www.alibaba.com；在访问网址后的网址为用户所访问的上一访问网址，即，用户是由上一访问网址跳转至本记录中的访问网址的，如序号为1的记录中的www.google.com；也就是说，访问用户在访问网页www.google.com后，由该网址跳转到了网页www.alibaba.com；此外，序号为1的记录中的12:00:01还表示访问www.alibaba.com的时间为12:00:01。

目标分析记录确定单元2，用于确定具有相同用户标识的记录集合，在在各个所述记录集合内尚未被确定为目标分析记录的记录中，自最后访问时间的记录开始，确定一目标分析记录；

为了构建每个用户的每次完整的访问过程中所访问的访问网址的集合的网址记录，第一目标分析记录确定单元2需要先将建立每个用户的记录集合，这样，每个记录集合中只包括该访问用户的记录。

为了在构建每个访问用户的每次完整的访问过程中所访问的访问网址的集合的网址记录过程中，避免重复分析记录目标分析记录确定单元2，需要在所述记录集合内尚未被确定为目标分析记录的记录中，将最后访问时间的记录确定为目标分析记录。

具体的，可以在上述所列出的各个记录中确定用户标识为Mike的记录集合；然后，在该记录集合中将其中访问时间为最后的记录确定为目标分析记录，从而可以确定记录8，Mike，www.alibaba.com/offerdetail/234.html，www.alibaba.com/offerlist/mp3.html，12:05:31为目标分析记录。

在本申请中，目标分析记录确定单元具体可以包括排序模块，用于将所述记录按照用户标识排序。

下一目标分析记录确定单元3，用于在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录；将所述下一目标分析记录作为当前目标分析记录；重复进行下一目标分析记录确定，直至所述当前目标分析记录中的上一访问网址记录为非有效访问网址链接；

优选的，在本申请中，下一目标分析记录确定单元3具体可以包括时间判定模块，用于当上一级记录为多个时，确定访问时间为最后的上一级记录中的访问网址对应的记录为下一目标分析记录。

很多时候，通过上一访问网址来获取上一级记录会找到多个上一级记录，由于真正的上一级记录一般情况下为距离其下一级记录时间最近的记录，所以，可以通过访问时间来确定真正地上一级记录。

由于访问用户很可能是在网站中通过一次完整的访问路径访问了很多个网页，所以需要重复本步骤直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接，也就是说，要追踪到访问用户初始的访问网址所对应的记录，该初始的访问记录中不会在包括有效的访问网址链接。具体的，非有效访问网址链接可以包括：上一访问网址记录为空或上一访问网址链接无效。比如，上述所列出的多个记录为例，9，Jack，community.alibaba.com/help.html，community.alibaba.com/，12:06:31的上一级记录为7，Jack，Jack，community.alibaba.com/，www.alibaba.com/，12:04:31；而记录7，Jack，Jack，community.alibaba.com/，www.alibaba.com/，12:04:31；的上一级记录为2，Mike，www.alibaba.com，www.baidu.com，12:00:02；此时，记录2，Mike，www.alibaba.com，www.baidu.com，12:00:02；中的上一访问网址www.baidu.com并没有包含在该用户的记录集合中，为非有效的网址链接，所以此时完成了该用户的一次完整访问的访问路径的追踪。

访问网址集合获取单元4，用于按照目标分析记录的获取顺序排列，构建该访问用户一次访问过程中所访问的访问网址的网址集合。

通过对该访问用户的一次完整访问的访问路径中，每次访问网址的顺序排列形成网址记录，从而可以直观的反应该访问用户的网址的访问行为。具体的，可以将各个当前目标分析记录按照获取顺序排列，得到网址记录：9，Jack,community.alibaba.com/help.html/|community.alibaba.com/|www.alibaba.com/|www.baidu.com。

在访问日志中所有的记录均被确定为目标分析记录并构建网址记录中后，所构建的多个网址记录集合中，包括了访问日志中的每个访问用户的每次访问的访问路径；由于网址记录中包括了访问用户在访问网站时的所有访问页面，并将所有访问页面按照访问顺序排列，所以网址记录可以作为访问用户的访问路径；由于访问路径中包括了完整的访问网页和网页访问顺序，所以访问路径中包括的信息量要远远地大于现有技术中的路径对所包括的信息量，可以直接反映访问用户的访问行为，所以以访问路径为统计依据可以有效地降低网站分析的计算成本，从而降低系统资源的耗费。

具体的，以计算网页访问的流失率为例，现有技术在分析大型网站的访问网页流失率时，如果网站有1000万人访问，则至少要包括1000万个路径，估计要拆分为1亿个路径对，此时如果需要计算1000条路径来进行分析，就需要进行1000亿次的比较计算，可见现有技术中的方式计算量庞大，极其耗费系统资源。而通过本申请中的技术方案，在建立网址记录集合后，通过查询语句即可方便的实现，具体的，可以是通过SQL语句分别计算出两个有链接关系的页面在网址记录的集合中的数量，然后计算出两个网页的数量比值即可得到这两个网页之间的访问网页流失率了。从而极大地降低网站分析的计算成本，从而也就降低系统资源的耗费。

如图5所示，在本申请中，还提供了一种确定页面流失率的系统，包括图3所对应实施例中的确定访问路径的装置以及统计单元5；

统计单元5用于获取网址记录的集合中第一访问网址数量和第二访问网址数量，计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率；所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址：

由于本申请中确定访问路径的装置与图3所对应的确定访问路径的装置结构相同，其原理和作用也相同，所以在此就不再赘述。

在进行网站中的两个页面间流失率的统计时，首先要确认这两个页面的网址之间是可以实现链接跳转的，即通过至少一次链接跳转可以实现访问。具体的可以设进行流失率的统计两个页面分别为第一访问网址和第二访问网址。

由于在构建的网址记录中，包括了所有访问用户的每次完整的访问行为中对网站中的网址的访问记录，所以统计单元5通过获取网址记录的集合中第一访问网址数量和第二访问网址数量，计算第一访问网址与所述第二访问网址的比值就可以获取第一访问网址到第二访问网址的流失率。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种确定访问路径的方法，其特征在于，包括：

2.根据权利要求1所述确定访问路径的方法，其特征在于，在S14、按照目标分析记录的获取顺序排列，构建该访问用户一次访问过程中所访问的访问网址的集合的网址记录之后还包括：

3.根据权利要求2所述确定访问路径的方法，其特征在于，所述在根据当前目标分析记录中的上一访问网址获取的上一级记录中确定下一目标分析记录，包括：

4.根据权利要求3所述确定访问路径的方法，其特征在于，所述确定具有相同用户标识的记录集合，包括：

将所述记录按照用户标识排序。

5.根据权利要求4所述确定访问路径的方法，其特征在于，所述上一记录为非有效访问网址链接，包括：

所述上一访问网址记录为空或所述上一访问网址链接无效。

6.一种确定页面流失率的方法，其特征在于，包括：

S26、重复执行步骤S23至S25，至所有记录均被确定为目标分析记录；

7.一种确定访问路径的装置，其特征在于，包括：

8.根据权利要求7所述确定访问路径的装置，其特征在于，所述下一目标分析记录确定单元包括：

9.根据权利要求8所述确定访问路径的装置，其特征在于，所述目标分析记录确定单元包括：

排序模块，用于将所述记录按照用户标识排序。

10.根据权利要求9所述确定访问路径的装置，其特征在于，所述上一记录为非有效访问网址链接，包括：

所述上一访问网址记录为空或所述上一访问网址链接无效。

11.一种确定页面流失率的系统，其特征在于，包括如权利要求7中确定访问路径的装置，和，

统计单元，用于获取网址记录的集合中第一访问网址数量和第二访问网址数量，计算所述第一访问网址与所述第二访问网址的比值以获取第一访问网址到所述第二访问网址的流失率；所述第二访问网址为由所述第一访问网址通过至少一次链接跳转可以实现访问的访问网址。