CN108874909A

CN108874909A - 用户访问路径获取方法、服务器及计算机存储介质

Info

Publication number: CN108874909A
Application number: CN201810523433.3A
Authority: CN
Inventors: 杨亮吉; 裴阳
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-23

Abstract

本发明公开了一种用户访问路径获取方法，该方法包括：获取网站的访问信息，根据所述访问信息获得目标用户的锚定分析信息，根据所述访问信息及所述锚定分析信息确定所述目标用户的访问路径；按照所述访问路径的发生顺序排序，构建所述目标用户的访问路径表；存储并显示所述访问路径表。本发明还提供一种服务器及计算机可读存储介质。本发明提供的用户访问路径获取方法、服务器及计算机可读存储介质能够快速、方便地获得用户访问网站的访问路径，并能够清晰、直观的反应用户的访问路径。

Description

用户访问路径获取方法、服务器及计算机存储介质

技术领域

本发明涉及数据分析技术领域，尤其涉及一种用户访问路径获取方法、服务器及计算机存储介质。

背景技术

在互联网产业高速发展的大环境下，每天都有大量的用户点击网站的各个页面，对企业来讲，如何对这些点击行为进行分析以了解用户的习惯、喜好，进而改进网站或者产品，成为越来越重要的研究课题。

发明内容

有鉴于此，本发明提出一种用户访问路径获取方法及服务器，以解决上述技术问题。

首先，为实现上述目的，本发明提出一种用户访问路径获取方法，该方法包括步骤：

一种用户访问路径获取方法，应用于服务器，其特征在于，所述方法包括步骤：

获取网站访问信息，根据所述访问信息获得目标用户的锚定分析信息，按照预设规则对所述目标用户的所有访问页面进行整理；

根据所述访问信息及所述锚定分析信息确定所述目标用户的访问路径；

按照所述访问路径的发生顺序排序，构建所述目标用户的访问路径表；及

存储并显示所述访问路径表。

优选地，所述访问信息包括访问用户标识、访问网址、访问时间和上一访问网址访问会话的标识或者cookie的记录。

优选地，所述根据所述访问信息获得目标用户的锚定分析信息的步骤包括：

根据所述访问用户标识确定用户信息集合，所述用户信息集合包括所述用户对该网站进行访问的所有访问信息；及

将所述目标用户的所述用户信息集合中的最后访问时间作为所述锚定分析信息；

其中，所述访问用户标识用于确定所述目标用户的身份。

优选地，所述预设规则为按照所述目标用户访问时间的先后顺序对所述目标用户访问的所有页面按顺序进行排列整理。

优选地，获取所述访问路径包括以下步骤：

根据所述锚定分析信息中的上一访问网址获取的上一级记录中确定下一锚定分析信息；

将所述下一锚定分析信息作为所述锚定分析信息；及

重复执行以上步骤，直至所述锚定分析信息中的所述上一访问网址为非有效访问网址链接；

其中，所述非有效访问网址链接包括所述上一访问网址记录为空或所述上一访问网址链接无效。

优选地，获取所述访问路径包括以下步骤：

优选地，所述方法还包括：

根据所述访问信息获得所述网站的用户活跃率、用户流失率步骤；

获取近一个月内登录所述网站次数大于五次的活跃用户总数及半年内登录所述网站的用户总数，通过计算所述活跃用户总数及用户总数的比值从而获得所述用户活跃率；及

获取流失用户总数及所有登录过网站的用户总数，计算所述流失用户总数计所述用户总数的比值，所述比值为所述用户流失率。

此外，为实现上述目的，本发明还提供一种服务器，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的用户访问路径分析系统，所述用户访问路径分析系统被所述处理器执行时实现如上述的用户访问路径获取方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有用户访问路径分析系统，所述用户访问路径分析系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的用户访问路径获取方法的步骤。

相较于现有技术，本发明所提出的用户访问路径获取方法、服务器及计算机可读存储介质，首先获取网站所有的访问信息，根据所述访问信息获得目标用户的锚定分析信息，按照预设规则对所述目标用户的所有访问页面进行整理；其次，根据所述访问信息及所述锚定分析信息确定所述目标用户的所有长度的访问路径；然后，按照所述所有的访问路径的发生顺序排序，构建所述目标用户的访问路径表；最后，划定预设大小的存储空间存储所述访问路径表，并显示所述访问路径表。采用本发明所提出的用户访问路径获取方法、服务器及计算机可读存储介质可以快速、方便地获得用户访问网站的访问路径，并能够清晰、直观的反应用户的访问路径，相较于现有技术，更加方便、快捷、准确。

附图说明

图1是本发明服务器一可选的硬件架构的示意图；

图2是本发明用户访问路径分析系统第一实施例的程序模块示意图；

图3是本发明用户访问路径分析系统第二实施例的程序模块示意图；

图4是本发明用户访问路径分析系统第三实施例的程序模块示意图；

图5是本发明用户访问路径获取方法第一实施例的流程示意图；

图6是本发明用户访问路径获取方法第二实施例的流程示意图；

图7是本发明用户访问路径获取方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明服务器1一可选的硬件架构的示意图。

本实施例中，所述服务器1可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-13的服务器1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述服务器1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该服务器1可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述服务器1的内部存储单元，例如该服务器1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述服务器1的外部存储设备，例如该服务器1上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述服务器1的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述服务器1的操作系统和各类应用软件，例如用户访问路径分析系统2的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器1的总体操作。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的用户访问路径分析系统2等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述服务器1与其他电子设备之间建立通信连接。

至此，己经详细介绍了本发明相关设备的硬件结构和功能。下面，将基于上述介绍提出本发明的各个实施例。

首先，本发明提出一种用户访问路径分析系统2。

参阅图2所示，是本发明用户访问路径分析系统2第一实施例的程序模块图。

本实施例中，所述用户访问路径分析系统2包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本发明各实施例的用户访问路径分析操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，用户访问路径分析系统2可以被划分为一个或多个模块。例如，在图3中，所述用户访问路径分析系统2可以被分割成预处理模块21、路径获取模块22、排序模块23及存储显示模块24。其中：

所述预处理模块21，用于获取用户的访问信息，根据所述访问信息获得所述目标用户的锚定分析信息，按照预设规则对所述目标用户的所有访问页面进行整理。

具体地，可以在访问日志中获取所述目标用户的访问信息，所述访问信息包括有访问用户标识deviceid、访问网址page_name、访问时间visit_date和上一访问网址访问会话的标识sessionID或者cookie的记录等。例如访问信息的形式可为加表1所示：

sessionID	page_name	visit_date	deviceid
				BB	首页	2017-07-05 08：19：29	tom
BB	金融旗舰店	2017-07-05 08：20：19	tom
				BB	生活商城_生活频道页	2017-07-05 08：21：51	tom
BB	我的	2017-07-05 08：22：43	tom
				BB	财经快讯	2017-07-05 08：22：48	tom
BB	社区首页	2017-07-05 08：22：53	tom
				BB	首页_资产中心	2017-07-05 08：23：24	tom
BB	首页	2017-07-05 08：23：34	tom
				AA	首页	2017-07-05 18：28：40	tom
AA	登录注册_帐密登录页面	2017-07-05 18：29：16	tom
				AA	我的保险_保险列表页	2017-07-05 18：29：19	tom

表1

用户的访问数据带有用户的唯一标识，通过一次会话的时间顺序可以统计用户的页面访问先后顺序。

例如：上面tom这个设备的会话ID：AA一次访问路径应该提取如下格式：

首页＞登录注册_账密登录页面＞我的保险_保险列表页

其中，访问日志中一般包括用户的点击数据，点击数据包括用户每次点击的请求页面及上访问页面，用户标识用于确定访问用户的身份，其来源可以是用户访问网页时的sessionid,deviceid,、cookie、ip等信息，每一访问信息对应唯一的用户。

具体地，可以根据访问用户标识确定用户信息集合，可将所述用户信息集合中的最后访问时间作为所述锚定分析信息。例如，在所述访问信息中将tom的所有访问信息作为一个用户信息集合，将tom的最后访问时间作为锚定分析信息，为了构建每个用户(例如tom)的每次完整的访问过程中所访问的访问网址的集合的网址信息(路径记录)，需要先建立每个用户的信息集合，这样，每个信息集合中只包括该访问用户(例如tom)的访问信息。此外，由于只有从最后访问的网址的访问信息中追踪上一访问网址才能完整的构建访问用户一次完整的访问过程中所访问的访问网址的集合，所以，在记录集合中将时间为最后的记录作为锚定分析信息。

所述路径获取模块22，用于根据所述访问信息及所述锚定分析信息确定所述目标用户的访问路径。

具体地，确定所述访问路径的方法为：

根据当前锚定分析信息中的上一访问网址获取的上一级记录中确定下一锚定分析信息；将该下一锚定分析信息作为当前锚定分析信息；重复以上步骤，直至该当前锚定分析信息中的上一访问网址记录为非有效访问网址链接。

例如，在当前锚定分析信息中，包括有上一访问网址，根据上一访问网址可以追踪到上一级访问信息，也就是跳转到当前锚定分析信息中的访问网址的来源网址；例如，当前目标分析记录(AA,登录注册_账密登录页面

,2017-07-05 18:29:16,tom)中，根据其会话的访问时间，可以找到该上一访问页面多对应的记录，即，“AA，首页，2017-07-05 18:28:40，tom”，也就是说，可以找到以该上一访问页面的记录。

具体地，由于访问用户很可能是在网站会话中通过一次完整的访问路径访问了很多个网页页面，所以需要重复本步骤直至该当前目标分析记录中的上一访问网址记录为非有效访问网址链接，也就是说，要追踪到访问用户初始的访问网址所对应的记录，该初始的访问记录中不会再包括有效的访问网址链接。具体的，非有效访问网址链接可以包括：上一访问网址记录为空或上一访问网址链接无效。

所述排序模块23，用于按照所述所有的访问路径的发生顺序排序，构建所述目标用户的访问路径表。

具体地，将所述目标用户的访问路径以列表的形式构建，可以很清晰、直观的反应所述目标用户的访问行为，方便产品经理及管理人员分析用户行为。

所述存储显示模块24，用于存储所述访问路径表，并显示所述访问路径表。

具体地，存储所述访问路径表，方便调用，通过显示设备显示所述访问路径表供查看。

参阅图3所示，是本发明用户访问路径分析系统2第二实施例的程序模块图。本实施例中，所述的用户访问路径分析系统2除了包括第一实施例中的所述预处理模块21、排序模块23及存储显示模块24之外，将所述路径获取模块22替换为路径计算模块20。

具体地，可以在访问日志中获取所述目标用户的访问信息，所述访问信息包括有访问用户标识deviceid、访问网址page_name、访问时间visit_date和上一访问网址访问会话的标识sessionID或者cookie的记录等。

所述路径计算模块20，用于通过impala系统链接到底层数据，快速计算路径。

具体地，还可以通过impala链接到底层数据，快速计算路径。Impala是一种快速的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。

例如，可以通过impala系统中的UDF函数(自定义函数)对用户的访问路径进行穷举遍历，得到用户的所有访问路径集合。

例如：上述一次访问的1级访问路径如下；

首页1

登录注册_账密登录页面1

我的保险_保险列表页1

2级访问路径如下：

首页＞登录注册_账密登录页面2

登录注册_账密登录页面＞我的保险_保险列表页2

3级访问路径如下：

首页＞登录注册_账密登录页面＞我的保险_保险列表页。

所述存储显示模块24，用于划定预设大小的存储空间存储所述访问路径表，并显示所述访问路径表。

参阅图4所示，是本发明用户访问路径分析系统2第三实施例的程序模块图。本实施例中，所述的用户访问路径分析系统2在第一实施例的基础上，还包括比率计算模块25。

所述比率计算模块25，用于根据所述访问信息及所述锚定分析信息确定所述目标用户的访问路径,根据所述访问信息获得所述网站的用户活跃率、用户流失率。

具体地，可以对活跃用户及流失用户进行统计，以监控网站的发展情况。活跃用户用于衡量网站的运营现状，而流失用户则用于分析网站是否存在被淘汰的风险，以及网站是否有能力留住新用户。

网站用户管理的目标是发掘新用户，保留老用户。但仅仅吸引新用户还不错，还需要保持新用户的活跃度，使其能持久地为网站创造价值；而一旦用户的活跃度下降，很可能用户就会渐渐地远离网站，进而流失。所以基于此，我们可以对用户进行又一个细分——活跃用户和流失用户。

活跃用户，这里是相对于“流失用户”的一个概念，是指那些“存活”着的用户，用户会时不时地光顾下网站，同时为网站带来一些价值。同时，我们还需要知道到底有多少用户可能已经抛弃了我们的网站，不可能再为网站创造任何的价值，也就是所谓的流失用户。

流失用户，是指那些曾经访问过网站或注册过的用户，但由于对网站渐渐失去兴趣后逐渐远离网站，进而彻底脱离网站的那批用户。当然，一个网站一定会存在流失用户，这是网站用户新老交替中不可避免的，但流失用户的比例和变化趋势能够说明网站保留用户的能力及发展趋势。

网站总的流失用户数的计算，以超过1个月未登录即为流失为例，那么总流失用户数就是所有“当前时间点-用户最近一次时间点＞1个月”的用户数量。但是单纯的总流失用户数量对于分析是没有意义的，因为大部分情况下这个数值是一直递增的，我们需要计算总流失用户数占总用户数的比例及新增流失用户数，观察它们的变化趋势。

进一步地，也许网站已经吸引了一批新的访客，如何保留住这些新的用户，让他们持续地为网站带来价值，这就是分析新用户流失率的意义。

我们可认为新用户注册后就完成首次登陆，那么简单地定义新用户流失，就是用户在注册后一段时间内都没有登录过网站，即

当前时间点–用户注册时间点＞流失临界时间间隔

比如我们定义用户的流失临界时间间隔为1个月，也就是在注册后的一个月内未登录的用户意味着已经流失，那么就可以计算每天的新用户流失数，即注册时间为1个月前的那一天，而从注册到当前没有登录过的用户数。这个用户数与1个月前的那一天的总注册用户数的比例就是新用户的流失率：

当天的新用户流失数/当天的总注册用户数＝新用户流失率

计算出每天的新用户流失率，并观察它的变化趋势。

网站能否保留住新用户就在于是否能够不断地降低新用户的流失率。

此外，本发明还提出一种用户访问路径获取方法。

参阅图5所示，是本发明用户访问路径获取方法第一实施例的流程示意图。在本实施例中，根据不同的需求，图5所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S110，获取网站的访问信息，根据所述访问信息获得目标用户的锚定分析信息，按照预设规则对所述目标用户的所有访问页面进行整理。

步骤S120，根据所述访问信息及所述锚定分析信息确定所述目标用户的访问路径。

具体地，根据当前锚定分析信息中的上一访问网址获取的上一级记录中确定下一锚定分析信息；将该下一锚定分析信息作为当前锚定分析信息；重复以上步骤，直至该当前锚定分析信息中的上一访问网址记录为非有效访问网址链接。

步骤S130，按照所述访问路径的发生顺序排序，构建所述目标用户的访问路径表。

具体地，具体地，将所述目标用户的访问路径以列表的形式构建，可以很清晰、直观的反应所述目标用户的访问行为，方便产品经理及管理人员分析用户行为。

步骤S140，存储所述访问路径表，并显示所述访问路径表。

如图6所示，是本发明用户访问路径获取方法的第二实施例的流程示意图。本实施例中，所述用户访问路径获取方法的步骤S210，S230-S248与第一实施例的步骤S110，S130-S140相类似，区别在于该方法步骤S220计算访问路径的方式与步骤S110不同。

该方法包括以下步骤：

步骤S210，获取网站访问信息，根据所述访问信息获得目标用户的锚定分析信息，按照预设规则对所述目标用户的所有访问页面进行整理。

步骤S220，通过impala系统链接到底层数据，快速计算路径。

步骤S230，按照所述所有的访问路径的发生顺序排序，构建所述目标用户的访问路径表。

步骤S240，存储所述访问路径表，并显示所述访问路径表

如图7所示，是本发明用户访问路径获取方法的第三实施例的流程示意图。本实施例中，所述用户访问路径获取方法的步骤S310-S320，S340-S350与第二实施例的步骤S110-S140相类似，区别在于该方法还包括步骤S330。

该方法包括以下步骤：

步骤S310，获取网站访问信息，根据所述访问信息获得目标用户的锚定分析信息，按照预设规则对所述目标用户的所有访问页面进行整理。

步骤S320，根据所述访问信息及所述锚定分析信息确定所述目标用户的访问路径，根据所述访问信息获得所述网站的用户活跃率、用户流失率。

步骤S330，根据所述访问信息及所述锚定分析信息确定所述目标用户的访问路径，根据所述访问信息获得所述网站的用户活跃率、用户流失率

具体地，获取用户活跃率的步骤：

获取一个月内登录所述网站预设次数的活跃用户总数及该月内登录所述网站的用户总数；及

通过计算所述活跃用户总数及用户总数的比值从而获得所述用户活跃率。

具体地，获取用户流失率的步骤：

获取流失用户总数及所有登录过网站的用户总数；及

计算所述流失用户总数计所述用户总数的比值，所述比值为所述用户流失率；

具体地，其中所述流失用户总数计算的步骤为：

获取当前时间点到最近一次登录网站时间点之间的时间大于一个月的所有用户；

计算上述所有用户的数量；及

将所述所有用户的数量作为所述流失用户总数。

步骤S340，按照所述所有的访问路径的发生顺序排序，构建所述目标用户的访问路径表。

步骤S350，，存储所述访问路径表，并显示所述访问路径表。

具体地，该步骤还包括划定存储空间存储所述用户活跃率及用户流失率，并显示以上计算结果。

本发明所提出的用户访问路径获取方法、服务器及计算机可读存储介质，首先获取网站所有的访问信息，根据所述访问信息获得目标用户的锚定分析信息，按照预设规则对所述目标用户的所有访问页面进行整理；其次，根据所述访问信息及所述锚定分析信息确定所述目标用户的所有长度的访问路径；然后，按照所述所有的访问路径的发生顺序排序，构建所述目标用户的访问路径表；最后，划定预设大小的存储空间存储所述访问路径表，并显示所述访问路径表。采用本发明所提出的用户访问路径获取方法、服务器及计算机可读存储介质可以快速、方便地获得用户访问网站的访问路径，并能够清晰、直观的反应用户的访问路径，相较于现有技术，更加方便、快捷、准确。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用户访问路径获取方法，应用于服务器，其特征在于，所述方法包括步骤：

获取网站的访问信息，根据所述访问信息获得目标用户的锚定分析信息，按照预设规则对所述目标用户的所有访问页面进行整理；

存储并显示所述访问路径表。

2.如权利要求1所述的用户访问路径获取方法，其特征在于，所述访问信息包括访问用户标识、访问网址、访问时间和上一访问网址访问会话的标识或者cookie的记录。

3.如权利要求2所述的用户访问路径获取方法，其特征在于，所述根据所述访问信息获得目标用户的锚定分析信息的步骤包括：

其中，所述访问用户标识用于确定所述目标用户的身份。

4.如权利要求3所述的用户访问路径获取方法，其特征在于，所述预设规则为按照所述目标用户访问时间的先后顺序对所述目标用户访问的所有页面进行排列整理。

5.如权利要求1-4所述的用户访问路径获取方法，其特征在于，获取所述访问路径包括以下步骤：

将所述下一锚定分析信息作为所述锚定分析信息；及

6.如权利要求5所述的用户访问路径获取方法，其特征在于，所述方法还包括：

根据所述访问信息获得所述网站的用户活跃率、用户流失率步骤，具体包括：

7.一种服务器，其特征在于，所述服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的用户访问路径分析系统，所述用户访问路径分析系统被所述处理器执行时实现如权利要求1-6中任一项所述的用户访问路径获取方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有用户访问路径分析系统，所述用户访问路径分析系统可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-6中任一项所述的用户访问路径获取方法的步骤。