CN110825943A

CN110825943A - 一种生成用户访问路径树数据的方法、系统及设备

Info

Publication number: CN110825943A
Application number: CN201911013077.1A
Authority: CN
Inventors: 张嵩
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Shanghai Ant Chuangjiang Information Technology Co ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-02-21
Anticipated expiration: 2039-10-23
Also published as: CN110825943B

Abstract

本申请公开了一种生成用户访问路径树数据的方法、系统及设备。本说明书一实施例的方法流程包括：以网站访问日志数据为流数据处理对象，采用流计算方式生成对应的用户访问路径树数据，所述方法包括：判断是否采集到新生成的网站访问日志数据，当采集到新生成的网站访问日志数据时，调用缓存中的用户访问路径树数据，根据所述新生成的网站访问日志数据进行访问路径处理，生成新的用户访问路径树数据，其中，判断是否需要创建新会话，当需要创建新会话时为所述新的用户访问路径树数据分配全新的会话标识；将所述新的用户访问路径树数据保存到所述缓存；将所述新的用户访问路径树数据输出到下游系统。

Description

一种生成用户访问路径树数据的方法、系统及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种生成用户访问路径树数据的方法、系统及设备。

背景技术

用户访问路径树，是指将用户在网站的访问情况以用树形结构表示出来。通过分析用户访问路径树数据，可以获取用户的访问习惯、点击倾向等用户特征，从而为商户或网站的运营活动提供指导。

在现有技术中，用户访问路径树通常是以离线的方式构建，即对一天的访问日志进行分析后，得到用户当天的访问路径分析结果。然而，用离线的方式构建访问路径树，会导致数据产生不及时，通常是第二天产生前一天的数据。这就使得基于用户访问路径树数据的指导行为滞后，无法起到预期的指导效果。例如，对于对实时数据依赖较高的运营活动场景，基于离线数据而生成的用户访问路径树数据就不能够在活动当天为运营方提供有效支持，只能作为活动复盘的依据。

发明内容

有鉴于此，本说明书实施例提供了一种生成用户访问路径树数据的方法、系统及设备，用于解决基于现有方法中用户访问路径树数据生成滞后的问题。

本说明书实施例采用下述技术方案：

本说明书实施例提供一种生成用户访问路径树数据的方法，以网站访问日志数据为流数据处理对象，采用流计算方式生成对应的用户访问路径树数据，所述方法包括：

判断是否采集到新生成的网站访问日志数据，当采集到新生成的网站访问日志数据时，调用缓存中的用户访问路径树数据，根据所述新生成的网站访问日志数据进行访问路径处理，生成新的用户访问路径树数据，其中，判断是否需要创建新会话，当需要创建新会话时为所述新的用户访问路径树数据分配全新的会话标识；

将所述新的用户访问路径树数据保存到所述缓存；

将所述新的用户访问路径树数据输出到下游系统。

在本说明书一实施例中，根据所述新生成的网站访问日志数据进行访问路径处理，包括：

根据所述新生成的网站访问日志数据的访问地址以及跳转地址进行访问路径处理。

在本说明书一实施例中，根据所述新生成的网站访问日志数据的访问地址以及跳转地址进行访问路径处理，包括：

判断所述跳转地址是否为空，当所述跳转地址为空时为所述新的用户访问路径树数据分配全新的访问路径树标识；

和/或，

判断所述跳转地址是否为本站，当所述跳转地址为本站时为所述新的用户访问路径树数据分配全新的访问路径树标识。

根据所述新生成的网站访问日志数据的用户标识判断是否存在新用户，当存在所述新用户时为所述新的用户访问路径树数据分配全新的访问路径树标识。

在本说明书一实施例中，判断是否需要创建新会话，包括：

根据所述新生成的日志数据的访问时间判断是否需要创建新会话，其中，当同一用户连续两次访问时间间隔超过预设时长时，需要针对该用户创建新会话。

在本说明书一实施例中：

采集网站访问日志数据，其中，采集保存在消息队列中的网站访问日志数据；

和/或，

将所述新的用户访问路径树数据输出到下游系统，其中，以消息队列的方式输出所述新的用户访问路径树数据。

在本说明书一实施例中，所述方法还包括，采用一级缓存以及二级缓存来缓存数据，其中：

按照预设时间间隔将所述一级缓存中的缓存数据永久化到二级缓存保存。

在本说明书一实施例中，所述一级缓存为JVM缓存，所述二级缓存为HBASE。

本说明书实施例还提出了一种构建用户访问路径树的系统，所述系统包括：

数据采集模块，其用于采集网站访问日志数据；

缓存模块，其用于保存用户访问路径树数据；

用户访问路径树数据生成模块，其用于当所述数据采集模块采集到新生成的日志数据时，调用所述缓存模块中的用户访问路径树数据，根据所述新生成的日志数据进行访问路径处理，生成所述新的用户访问路径树数据，其中，判断是否需要创建新会话，当需要创建新会话时为所述新的用户访问路径树数据分配全新的会话标识；

数据存储操作模块，其用于将所述新的用户访问路径树数据保存到所述缓存模块；

数据输出模块，其用于将所述新的用户访问路径树数据输出到下游系统。

本说明书实施例还提出了一种用于在访问方设备端信息处理的设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行本说明书实施例所述系统所述的方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：相较于现有技术，根据本发明实施例的方法，可以更加快速及时的生成用户访问路径树数据，从而为运营活动的安排指导提供更加及时有效的数据支持；进一步的，根据本说明书实施例的方法，在生成用户访问路径树数据时基于不同的会话场景标记用户访问路径树数据，使得生成的用户访问路径树数据更便于应用于不同的分析应用场景，从而大大提高了用户访问路径树数据实用性，降低了后续分析所需的计算资源消耗。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例中应用程序的运行方法的流程图；

图2以及图4为本说明书实施例中应用程序的运行方法的部分流程图；

图3为根据本说明书实施例中方法获取到的用户访问路径树举例示意图；

图5为本说明书实施例中系统的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有技术中在现有技术中用户访问路径树数据生成滞后的问题。本说明书实施例提出了一种生成用户访问路径树数据的方法。为了提出本说明书实施例的方法，发明人首先分析当前的应用场景。

在现有技术中，用户访问路径树数据生成滞后的根本原因是用户访问路径树数据根据离线数据生成的，即，用户访问路径树数据时是根据之前一段时间内用户访问情况所生成的，当用户访问路径树数据生成时，其描述的用户访问操作已经发生过一段时间了。因此，针对上述分析，为了解决用户访问路径树数据的生成的滞后性，在本说明书一实施例中，在用户的方法操作发生后，及针对刚刚发生的用户访问操作生成对应的用户访问路径树数据，使得用户访问路径树数据可以及时体现刚发生的用户访问操作。

具体的，在实际应用场景中，流数据(事件流，数据流)可以看成是一组组离散事件集合体，由成千上万个数据源，源源不断的持续生成。流计算则是面向流数据的计算，针对于流计算而言，上游的流数据是实时，且持续的，下游的结果数据也是持续、实时更新的。在网站访问应用场景中，虽然对于单个用户来说，用户访问操作是一个个相对独立的操作，但是，对于网站整体而言，用户对网站的访问可以视为一个长期持续性为，网站访问日志数据可以看作是一个流数据。并且，网站访问日志数据的基本信息足以描述用户的访问操作。

因此，在本说明书一实施例中，将网站访问日志数据作为流数据处理对象，采用流计算方式生成对应的用户访问路径树数据，就可以确保用户访问路径树数据生成的及时性、实时性。

进一步的，在实际应用场景中，虽然每一段用户访问路径树数据对应用户的一个访问操作，但是，各段用户访问路径树数据并不是相互孤立的，用户访问操作间具备关联性(基于其关联性才构成了树形数据)。因此，为了生成访问路径树数据，在以网站访问日志数据作为流数据处理对象的流计算中，处理对象并不能仅仅是当前新生成的网站访问日志数据，而必须调用之前已生成的用户访问路径树数据。因此，在本说明书一实施例中，在生成网站访问日志数据后并不仅仅将数据输出到下游系统，而还要将生成的网站访问日志数据缓存起来，以便在之后的网站访问日志数据生成过程中调用。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

具体的，在本说明书一实施例中，在构建用户访问路径树的方法中，以网站访问日志数据为流数据处理对象，采用流计算方式生成对应的用户访问路径树数据。如图1所示，方法流程包括：

S110，判断是否采集到新生成的网站访问日志数据；

S120，当采集到新生成的网站访问日志数据时，调用缓存中的用户访问路径树数据，根据新生成的网站访问日志数据进行访问路径处理，生成新的用户访问路径树数据；

S130，将新的用户访问路径树数据保存到缓存；

S140，将新的用户访问路径树数据输出到下游系统。

进一步的，为了便于用户访问路径树数据应用于不同的分析应用场景，在本说明书一实施例中，还根据不同的应用场景需求为用户访问路径树数据分类。具体的，基于不同分析需求划分不同的应用场景(会话)，为不同应用场景(会话，session)构造构造不同的用户访问路径树。具体的，在本发明一实施例中，在生成新的用户访问路径树数据的过程中，判断是否需要创建新会话，当需要创建新会话时创建对应新会话的用户访问路径树。

具体的，在本发明一实施例中，在生成所述新的用户访问路径树数据的过程中，判断是否需要创建新会话，当需要创建新会话时为新的用户访问路径树数据分配全新的会话标识。

根据本说明书实施例的方法，在生成用户访问路径树数据时基于不同的会话场景标记用户访问路径树数据，使得生成的用户访问路径树数据更便于应用于不同的分析应用场景，从而大大提高了用户访问路径树数据实用性，降低了后续分析所需的计算资源消耗。

进一步的，在本说明书一实施例中，基于网站访问日志数据中的访问地址(url)和/或跳转地址(refer url)生成对应的用户访问路径树数据，这就确保了本说明书实施例方案有较广泛的适用性，不需要额外改造网站访问日志数据，就可以基于本说明书实施例方案来进行复杂的实时流量指标的计算。

具体的，在本说明书一实施例中，在调用缓存中的用户访问路径树数据，根据新生成的网站访问日志数据的访问地址(url)以及跳转地址(refer url)进行访问路径处理，生成新的用户访问路径树数据的过程中，判断refer url是否为空，当refer url为空时，创建新的用户访问路径树。具体的，在一实施例中，当refer url为空时，为新生成的用户访问路径树分配全新的用户访问路径树标识。

具体的，在本说明书一实施例中，在调用缓存中的用户访问路径树数据，根据新生成的网站访问日志数据的访问地址(url)和/或跳转地址(refer url)进行访问路径处理，生成新的用户访问路径树数据的过程中，根据refer url，在缓存中查找相关数据，判断refer url是否为本站，当refer url为本站时，创建新的用户访问路径树。具体的，在一实施例中，当refer url为本站时，为新生成的用户访问路径树分配全新的用户访问路径树标识。

进一步的，为了便于下游系统根据用户访问路径树数据分析用户的访问习惯等用户属性，在本发明一实施例中，基于不同用户构造不同的用户访问路径树。在生成新的用户访问路径树数据的过程中，根据新生成的网站访问日志数据的用户标识判断是否存在新用户，当存在新用户时创建新的用户访问路径树。

具体的，在本发明一实施例中，在生成新的用户访问路径树数据的过程中，根据新生成的网站访问日志数据的用户标识判断是否存在新用户，当存在新用户时为新的用户访问路径树数据分配全新的访问路径树标识。

具体的，在本说明书一实施例中，如图2所示，在生成新的用户访问路径树数据的过程中：

S220，判断缓存中是否存储有与新生成的网站访问日志数据的用户标识匹配的数据；

如果缓存中没有存储与新生成的网站访问日志数据的用户标识匹配的数据，S221，为新生成的用户访问路径树数据分配全新的访问路径树标识；

如果缓存中存储有与新生成的网站访问日志数据的用户标识匹配的数据，S222，判断refer url是否为空；

如果refer url为空，S221，为新生成的用户访问路径树数据分配全新的访问路径树标识；

如果refer url不为空，S223，判断refer url是否为本站；

如果refer url为本站，S221，为新生成的用户访问路径树数据分配全新的访问路径树标识；

如果refer url不为本站，S224，为新生成的用户访问路径树数据分配用户标识对应匹配的上一用户访问路径树数据的访问路径树标识。

具体的，在一应用场景中，用户访问操作如表1所示，可以获取如图3所示的用户访问路径树。

访问时间	页面URL	Refer URL
			12：00	a.html
12：01	b.html	a.html
			12：02	c.html	a.html
12：03	d.html	b.html

表1

进一步的，在本说明书一实施例中，在生成新的用户访问路径树数据时，可以在多个不同的会话间跳转。即，首先判断是否需要创建新会话，如果需要创建新会话，则创建新的会话标识，为新的用户访问路径树数据分配全新的会话标识。如果不需要创建新会话，则判定会话归属，确定当前网站访问日志数据所对应的会话标识，并将确定了的会话标识加入到新生成的用户访问路径树数据中。

进一步的，在本说明书一实施例中，在生成新的用户访问路径树数据时，并不采用在多个不同的会话间跳转的方式，而是采用分段划分会话的方式，不断创建新的会话。具体的，在生成所述新的用户访问路径树数据的过程中，判断是否需要创建新会话，当需要创建新会话时创建全新的会话标识，为新的用户访问路径树数据分配全新的会话标识；当不需要创建新会话时，为新的用户访问路径树数据添加同一用户的上一用户访问路径树数据所配置的会话标识。

具体的，在本说明书一实施例中，根据操作时间间隔来划分会话。具体的，根据新生成的日志数据的访问时间判断是否需要创建新会话，其中，当同一用户连续两次访问时间间隔超过预设时长时，需要针对该用户创建新会话。

进一步的，在本说明书一实施例中，当存在新用户时，判定需要创建新会话。

进一步的，在本说明书一实施例中，在生成新的用户访问路径树数据的过程中，在同一个会话中，再根据用户每次访问的url以及refer url进行对路径进行处理，得到最终的用户访问路径树数据。

进一步的，在本说明书一实施例中，将判断是否创建新会话的操作时间间隔阈值设置为1天，就可以实现本说明书实施例方案与现有的基于离线数据计算获取的用户访问路径树数据的一致性。

进一步的，在针对流数据进行流计算的过程中，其实现难点之一在于数据的传输消耗以及数据计算消耗，为了保证流计算结果的及时性，需要确保流数据传输的及时稳定并保证流计算的准确快速。这势必对网络数据传输硬件以及数据处理硬件提出了较高的要求。在本说明书一实施例中，由于生成用户访问路径树数据只需要最基本的网站访问日志数据(例如，用户标识、访问时间、url以及refer url)。因此，在本说明书一实施例中，采用消息队列传输生成用户访问路径树数据所需的网站访问日志数据。具体的，在采集网站访问日志数据的过程中，采集保存在消息队列中的网站访问日志数据。由于消息队列占用带宽少、传输稳定，这样就能大大确保流计算结果的及时稳定性。

进一步的，在本说明书一实施例中，为了方便下游系统使用用户访问路径树数据，在将新的用户访问路径树数据输出到下游系统的过程中，以消息队列的方式输出用户访问路径树数据。

进一步的，由于实时处理(流计算)过程中，需要用到缓存信息，在本说明书一实施例中，为了保证处理效率，缓存通常使用HBASE来保存。

具体的，在本说明书一实施例中，HBASE的方案设计为：

行值(rowkey):user_id(用户标识)+url(访问地址)+日期

列值：session_id(会话标识),tree_id(用户访问路径树标识),step(步值),path_level(区域级别)。

进一步的，在本说明书一实施例中，采用storm或者flink流计算引擎进行流计算，生成用户访问路径树数据。

进一步的，在本说明书一实施例中，考虑到需要频繁读写缓存，因此，将内存作为缓存。具体的，在本说明书一实施例中，采用Java虚拟机(JVM)作为缓存。

进一步的，在本说明书一实施例中，考虑到缓存中的数据是不断积累的，为了避免数据的过量积累影响系统运行效率，缓存采用一级缓存以及二级缓存来缓存数据。具体的，新生成的用户访问路径树数据保存到一级缓存，按照预设时间间隔将一级缓存中的缓存数据永久化到二级缓存保存。

具体的，在本说明书一实施例中，一级缓存为内存，二级缓存为磁盘存储器。进一步的，在本说明书一实施例中，一级缓存为JVM缓存，二级缓存为HBASE。

具体的，在本说明书一实施例中，如图4所示：

S400，采集新生成的网站访问日志数据(以消息输入)；

S410，判断内存中是否存储有与新生成的网站访问日志数据的用户标识匹配的数据(判断内存中是否有当前网站访问日志数据的用户信息)；

如果内存中没有存储与新生成的网站访问日志数据的用户标识匹配的数据，S420，判断HBASE中是否存储有与新生成的网站访问日志数据的用户标识匹配的数据(判断HBASE中是否有当前网站访问日志数据的用户信息)；

如果HBASE中没有存储与新生成的网站访问日志数据的用户标识匹配的数据，S421，为新生成的用户访问路径树数据分配全新的访问路径树标识(tree_id)以及全新的会话标识(session_id)；

如果内存或HBASE中存储有与新生成的网站访问日志数据的用户标识匹配的数据，S430，判断当前的网站访问日志数据的访问时间与同一用户下前一网站访问日志数据的访问时间之间的时间间隔是否大于30分钟(min)；

如果大于，S431，为新生成的用户访问路径树数据分配全新的访问路径树标识(tree_id)以及全新的会话标识(session_id)；

如果不大于，S432，为新生成的用户访问路径树数据分配与同一用户下前一网站访问日志数据相同的会话标识(session_id)；

如果不大于，S440，判断当前的网站访问日志数据的refer url是否为空；

如果refer url为空，S441，为新生成的用户访问路径树数据分配全新的访问路径树标识(tree_id)；

如果refer url不为空，S442，判断refer url是否为本站；

如果refer url为本站，S443，为新生成的用户访问路径树数据分配全新的访问路径树标识(tree_id)；

如果refer url不为本站，S444，为新生成的用户访问路径树数据分配与同一用户下前一网站访问日志数据相同的访问路径树标识(tree_id)。

基于本说明书实施例的方法，本说明书实施例还提出了一种构建用户访问路径树的系统。具体的，在本说明书一实施例中，如图5所示，系统包括：

数据采集模块510，其用于采集网站访问日志数据(来自网站500)；

缓存模块520，其用于保存用户访问路径树数据；

用户访问路径树数据生成模块530，其用于当所述数据采集模块采集到新生成的日志数据时，调用缓存模块520中的用户访问路径树数据，根据新生成的日志数据的访问地址以及跳转地址进行访问路径处理，生成所述新的用户访问路径树数据，其中，判断是否需要创建新会话，当需要创建新会话时为所述新的用户访问路径树数据分配全新的会话标识；

数据存储操作模块540，其用于将新的用户访问路径树数据保存到缓存模块520；

数据输出模块550，其用于将新的用户访问路径树数据输出到下游系统501。

进一步的，基于本发明的方法，本发明还提出了一种用于在访问方设备端信息处理的设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行本发明所述的方法。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由访问方对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种生成用户访问路径树数据的方法，以网站访问日志数据为流数据处理对象，采用流计算方式生成对应的用户访问路径树数据，所述方法包括：

将所述新的用户访问路径树数据保存到所述缓存；

将所述新的用户访问路径树数据输出到下游系统。

2.根据权利要求1所述的方法，根据所述新生成的网站访问日志数据进行访问路径处理，包括：

3.根据权利要求2所述的方法，根据所述新生成的网站访问日志数据的访问地址以及跳转地址进行访问路径处理，包括：

和/或，

4.根据权利要求1～3中任一项所述的方法，根据所述新生成的网站访问日志数据进行访问路径处理，包括：

5.根据权利要求4所述的方法，判断是否需要创建新会话，包括：

6.根据权利要求1～5中任一项所述的方法：

和/或，

7.根据权利要求1～6中任一项所述的方法，所述方法还包括，采用一级缓存以及二级缓存来缓存数据，其中：

8.根据权利要求7所述的方法，所述一级缓存为JVM缓存，所述二级缓存为HBASE。

9.一种构建用户访问路径树的系统，所述系统包括：

数据采集模块，其用于采集网站访问日志数据；

缓存模块，其用于保存用户访问路径树数据；

10.一种用于在访问方设备端信息处理的设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行权利要求1至8中任一项所述的方法。