CN110633390A

CN110633390A - 获取用户行为路径的方法和装置

Info

Publication number: CN110633390A
Application number: CN201810553156.0A
Authority: CN
Inventors: 陈成; 郑瑶磊
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2019-12-31
Also published as: WO2019228011A1

Abstract

本申请实施例提供一种自动获取用户行为路径的方法和装置，该方法包括：基于网页行为埋点数据，根据预设时间范围、用户类型等条件提取操作与第一页面相关的页面的操作事件对应的所有用户行为数据，并从所有用户行为数据对应的所有用户中随机提取N个第一用户；对于每个第一用户，将第一用户对应的各用户行为数据按照时间顺序组成有序序列；根据所有有序序列，获取与第一页面相关的页面对应的目标行为矩阵；以目标行为矩阵为计算核心，进行线性优化，从中挖掘出最优用户行为路径。本申请实施例通过从全量用户行为数据中择优筛选出预设数量的样本，进而构造出目标行为矩阵，围绕目标行为矩阵进行线性优化，来获取用户行为路径，该方法能够快速而准确地挖掘出用户行为路径。

Description

获取用户行为路径的方法和装置

技术领域

本发明实施例涉及计算机技术，尤其涉及一种自动获取用户行为路径的方法和装置。

背景技术

对于网页来说，每天都有大量的用户进行访问，点击页面的每个部分，这些点击行为正是代表用户的真实操作行为，隐含着用户的兴趣、习惯、爱好等信息。如果能正确获取用户在页面的行为路径，那就能捕捉到用户的行为习惯，这无论对一个互联网产品的提升以及用户操作的便捷性都是非常用帮助的。

现有技术中一般是基于预设时间范围内所有的用户行为数据，采用机器学习算法或者通过人工配置漏斗的方式，计算得到用户的行为路径；而得到的可以指示用户行为路径的网状图，无法直观清楚地展示用户真正的路径，以及受冗余数据的影响得到的用户行为路径不准确，同时计算时长较长。

发明内容

本发明实施例提供一种自动获取用户行为路径的方法和装置，以克服现有技术中获取的用户行为路径不清楚且不准确的技术问题。

第一方面，本申请实施例提供一种获取用户行为路径的方法，包括：

获取预设时间范围内操作与第一页面相关的页面的操作事件对应的所有用户行为数据，并从所有用户行为数据对应的所有用户中随机提取N个第一用户；

对于每个第一用户，将所述第一用户对应的各用户行为数据，去除无效数据后，按照时间顺序组成有序序列；

根据所有有序序列，获取所述第一页面对应的目标行为矩阵；

根据所述目标行为矩阵，获取用户行为路径。

在一种可能的设计中，所述无效数据包括：

在所述第一用户打开第一页面的操作事件和相应退出第一页面对应的应用程序的操作事件之间的M个连续操作事件对应的M个用户行为数据，M小于等于预设阈值。

在一种可能的设计中，根据所有有序序列，确定所述第一页面对应的目标行为矩阵，包括：

对于所有有序序列包括的所有用户行为数据对应的所有操作事件中任意两个操作事件，根据所有有序序列中的用户行为数据指示的相应操作事件发生的顺序，获取所述两个操作事件中第一操作事件向第二操作事件跳转的次数，以及所述第二操作事件向所述第一操作事件跳转的次数；

根据所有跳转次数，获取所述第一页面对应的目标行为矩阵。

在一种可能的设计中，所述根据所有跳转次数，获取所述第一页面对应的目标行为矩阵，包括：

根据所有跳转次数，得到所述第一页面对应的第一行为矩阵，第一行为矩阵中的第n行第m列为操作事件n向操作事件m跳转的次数；

对第一行为矩阵进行滤波处理，得到目标行为矩阵。

在一种可能的设计中，所述对第一行为矩阵进行滤波处理，得到目标行为矩阵，包括：

对于每个阈值，将所述第一行为矩阵中小于所述阈值的值变更为0，得到第二行为矩阵；所述阈值是所有有序序列的个数的预设倍数，所述预设倍数小于1，所述阈值的个数与所述预设倍数的个数以及所述第二行为矩阵的个数相同；

对于每个第二行为矩阵中的每一行的值，将所述行中不为各目标值的值变更为0，得到目标行为矩阵；所述各目标值为所述行中包括的所有值按照从大到小的顺序排序后得到的序列中的前K的K个值。

在一种可能的设计中，所述方法还包括：

获取预设时间范围内操作与所述第一页面相关的页面的每个操作事件的PV值，所述PV值为所述预设时间范围内所有用户进行相应操作事件的次数；

根据所述目标行为矩阵，获取用户行为路径，包括：

根据所述目标行为矩阵，获取用于指示用户行为路径的桑基图和/或树状图；所述桑基图和/或树状图中的节点对应所述目标行为矩阵不为0的值对应的操作事件；

对于桑基图和/或树状图上的每个节点，在所述桑基图和/或树状图中显示所述节点对应的操作事件的PV值；和/或，

对于桑基图和/或树状图上的每个节点，在所述桑基图和/或树状图中显示所述节点对应的操作事件与所述节点的子节点对应的操作事件之间的PV转化率。

在一种可能的设计中，所述方法还包括：

获取预设时间范围内操作与所述第一页面相关的页面的每个操作事件的UV值，所述UV值为所述预设时间范围进行相应操作事件的用户的数量；

根据所述目标行为矩阵，获取用户行为路径，包括：

对于桑基图和/或树状图上的每个节点，在所述桑基图和/或树状图中显示所述节点对应的操作事件的UV值；和/或，

对于桑基图和/或树状图上的每个节点，在所述桑基图和/或树状图中显示所述节点对应的操作事件与所述节点的子节点对应的操作事件之间的UV转化率。

第二方面，本申请实施例提供一种获取用户行为路径的装置，包括：

提取模块，用于获取预设时间范围内操作与第一页面相关的页面的操作事件对应的所有用户行为数据，并从所有用户行为数据对应的所有用户中随机提取N个第一用户；

行为矩阵获取模块，用于根据所有有序序列，获取所述第一页面对应的目标行为矩阵；

路径获取模块，用于根据所述目标行为矩阵，获取用户行为路径。

在一种可能的设计中，所述无效数据包括：

在一种可能的设计中，所述行为矩阵获取模块，具体用于：

对第一行为矩阵进行滤波处理，得到目标行为矩阵。

在一种可能的设计中，所述行为矩阵获取模块，具体用于：

在一种可能的设计中，所述提取模块还用于：获取预设时间范围内操作与所述第一页面相关的页面的每个操作事件的PV值，所述PV值为所述预设时间范围内所有用户进行相应操作事件的次数；

所述路径获取模块具体用于：

在一种可能的设计中，所述提取模块还用于：获取预设时间范围内操作与所述第一页面相关的页面的每个操作事件的UV值，所述UV值为所述预设时间范围进行相应操作事件的用户的数量；

所述路径获取模块具体用于：

第三方面，本申请实施例提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得处理器执行第一方面以及第一方面任一可能的设计中的方法。

第四方面，本申请实施例一种服务器，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现第一方面以及第一方面任一可能的设计中的方法。

本实施例中通过基于预设时间范围内的与第一页面相关的所有用户行为数据选择一定的数据样本，来获取用户行为路径，且限制用户行为路径中子节点的个数，使得获取的用户行为路径清楚且准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的系统架构图；

图2为本发明提供的获取用户行为路径的方法的流程图；

图3为本申请实施例提供的用于指示用户行为路径的桑基图；

图4为本申请实施例提供的用于指示用户行为路径的树状图；

图5为本申请实施例提供的获取用户行为路径的装置的结构示意图；

图6为本申请实施例提供的服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本申请实施例提供的系统架构图；参加图1，该系统架构包括：终端设备12和服务器11。终端设备12为服务器11提供获取用户行为路径的用户行为数据。

具体地，当用户操作了页面后，终端设备12获取操作事件对应的用户行为数据，并将用户行为数据发送至服务器11。服务器11获取预设时间范围内操作与第一页面相关的页面的操作事件对应的所有用户行为数据，并从所有用户行为数据对应的所有用户中随机提取N个第一用户；对于每个第一用户，将第一用户对应的各用户行为数据，去除无效数据后，按照时间顺序组成有序序列；第一用户对应的各用户行为数据为上述所有用户行为数据中的用户行为数据；根据所有有序序列，获取第一页面对应的目标行为矩阵；根据目标行为矩阵，获取用户行为路径。

本实施例中通过基于预设时间范围内的与第一页面相关的所有用户行为数据选择一定的数据样本，来获取用户行为路径，获取的用户行为路径清楚且准确。

下面采用具体的实施例对本申请的获取用户行为路径的方法进行详细的说明，下面实施例中的执行主体可为图1中的服务器11。

图2为本发明提供的获取用户行为路径的方法的流程图，如图2所示，本实施例的方法可以包括：

步骤S201、获取预设时间范围内操作与第一页面相关的页面的操作事件对应的所有用户行为数据，并从所有用户行为数据对应的所有用户中随机提取N个第一用户；

步骤S202、对于每个第一用户，将所述第一用户对应的各用户行为数据，去除无效数据后，按照时间顺序组成有序序列；

步骤S203、根据所有有序序列，获取第一页面对应的目标行为矩阵；

步骤S204、根据目标行为矩阵，获取用户行为路径。

具体地，在应用程序(Application，简称APP)的每个页面对应的源代码中注入一段或者几段脚本(比如javascript脚本)，这些脚本用于获取用户操作页面的操作事件对应的用户行为数据。可以理解的是，脚本注入位置为用于执行用户对页面的操作事件的源代码之后；比如，执行打开页面这一操作事件的源代码后，可插入脚本，用于获取用户打开页面这一操作事件的用户行为数据；又比如，执行用户点击页面中的按钮的点击事件的这一操作事件的源代码后，可插入脚本，用于获取用户点击事件对应的用户行为数据。

上述在APP中注入脚本的方法，也称为在APP中进行埋点。

可以理解的是，为了使得获取的用户行为路径比较准确，APP中的埋点应该尽可能的多，比如只要用户操作了页面，相应的源代码中就有获取该操作事件对应的用户行为数据的脚本或者埋点。

相应地，对于每个页面而言，当用户操作了该页面，终端设备就会执行相应的埋点或者脚本，获取操作页面的相关操作事件对应的用户行为数据，并将用户行为数据发送至服务器。

对于本实施例中“第一页面”不是从其它页面跳转来的页面，是通过用户打开才能显示的页面。

比如用户打开了第一页面，相当于用户触发了页面曝光的埋点事件，终端设备会将用户打开页面这一操作事件的用户行为数据发送至服务器，该用户行为数据中可包括：操作事件的名称、用户信息、加载页面的时间、第一页面的属性、第一页面的地址、第一页面的域名，用户打开第一页面后在页面停留的时间、用户的标识(用于标识用户，该标识可为在执行脚本时随机生成的，同一个终端设备，该标识相同)等。其中，用户的信息包括用户的账号、密码、会员等级等，页面的属性包括页面文档的高度、宽度等。

终端设备会将用户数据行为数据以JSON格式发送至服务器。其中，每条用户行为数据的键可为操作事件的名称，值可为除了该用户行为数据中除了操作事件的名称外的数据。比如上述打开第一页面这一操作事件的用户行为数据的键可为“页面曝光”，值为“用户信息、加载第一页面的时间(操作事件发生的时间)、第一页面的属性、第一页面的地址、第一页面的来源，用户打开第一页面后在第一页面停留的时间、用户的标识”等等。

可以理解的是，每个操作事件对应的用户行为数据中至少包括操作事件的名称、事件的发生时间、相应的页面的地址、相应的页面的域名。

终端设备上报至服务器中的用户行为数据的数量非常巨大，因此，服务器可采用kafka来处理所有流数据，生成消息队列，由ElasticSearch定时从消息队列中读取数据进行数据储存。

服务器可根据接收到的大量的用户行为数据，获取用户行为路径。

下面对获取用户行为路径的具体方法进行详细的说明。

服务器中的用户行为数据的量很大，每天都会接收大量的用户行为数据，可根据实际的需要分析一段时间范围内用户操作每个页面产生的用户行为数据。

下面以获取一个第一页面对应的用户行为路径来说明获取用户行为路径的方法。

第二用户(这里的第二用户为研发人员)可在辅助设备的用户界面上输入：待分析的页面(可输入第一页面相关的页面的地址或者第一页面的域名)、预设时间范围(比如2018.3.1.00:00～4.1.00:00)，辅助设备接收后，发送至服务器。

若第二用户输入的是页面的地址，则服务器获取预设时间范围内所有用户操作“页面的地址”指示的页面的操作事件对应的所有用户行为数据，此时，第二用户会多次输入不同的页面地址，此处称为第一页面的地址和至少一个第二页面的地址(第一页面相关的页面的地址)，第二页面为打开第一页面后可以直接或者间接跳转至的页面，第一页面的域名与第二页面的域名相同，均为第一页面的域名；比如，用户想分析用户与第一页面A和第二页面B对应的用户行为路径，第二用户会输入第一页面的页面地址，服务器获取预设时间范围内所有用户操作“第一页面的操作事件对应的所有用户行为数据，接着，第二用户删除第一页面的页面地址，输入第二页面A的页面地址，服务器获取预设时间范围内所有用户操作第二页面A的操作事件对应的所有用户行为数据，再次，第二用户删除第二页面A的页面地址，输入第二页面B的页面地址，服务器获取预设时间范围内所有用户操作第二页面B的操作事件对应的所有用户行为数据，得到了预设时间范围内操作与第一页面相关的页面的操作事件对应的所有用户行为数据。

该种方式比较灵活，用户可自由的决定想分析的与第一页面相关的第二页面。

若第二用户输入的是第一页面的域名，则服务器获取包括该“第一页面的域名”，以及包括的“事件发生时间”在预设时间范围内的所有的用户行为数据。由于用户操作与第一页面相关的所有第二页面以及第一页面本身产生的用户行为数据包括相同的域名，均为第一页面的域名，第二页面为打开第一页面后可以直接或者间接跳转至的页面，此时，服务器得到的“预设时间范围内操作与第一页面相关的页面的操作事件对应的所有用户行为数据”为“预设时间范围内操作与第一页面相关的所有页面的操作事件对应的所有用户行为数据”。

“预设时间范围内操作与第一页面相关的页面的操作事件对应的所有用户行为数据”可简称为“预设时间范围内的与第一页面相关的所有用户行为数据”。

综上所述，“预设时间范围内的与第一页面相关的所有用户行为数据”，包括：用户操作第一页面自身产生的行为数据，还包括用户操作第二页面产生的行为数据，第二页面为打开第一页面后可以直接或者间接跳转至的页面，用户操作与第一页面相关的所有第二页面以及第一页面本身产生的用户行为数据包括相同的域名。比如当用户打开“淘宝”App的首页时，“淘宝”的首页可为第一页面，用户点击“购物车”这一按钮后，会进入“购物车”页面，此时，“购物车”页面即为第二页面，用户点击“购物车”页面中某一购买链接后，会接入该购买链接对应的商品的“购买”页面，“购买”页面也为第二页面，点击购买页面中的“规格”，会出现产品的规格参数页面，产品的规格参数页面相当于“购买”页面中被隐藏的页面，即此时用户仍然在操作“购买”页面。

现有技术中采用机器学习算法获取用户行为路径时，是基于某一时间范围内所有的用户行为数据，数据过于冗余，造成获取的用户行为路径杂乱(无法直观的展示用户的行为路径)且不够准确。本实施例中从预设时间范围内的与第一页面相关的所有用户行为数据选择一定的数据样本，来获取用户行为路径，获取的用户行为路径清楚且准确。

具体地，在获取到预设时间范围内的与第一页面相关的所有用户行为数据后，从预设时间范围内的与第一页面相关的所有用户行为数据对应的所有用户中随机提取N个第一用户。

可以理解的是，预设时间范围内的与第一页面相关的所有用户行为数据对应的所有用户与在预设时间范围内打开过第一页面的所有用户是相同的，因为进行第一页面相关的操作，首先需要打开第一页面。

从预设时间范围内的与第一页面相关的所有用户行为数据对应的所有用户中随机提取N个第一用户的具体方法为：若用户打开第一页面的操作事件对应的用户行为数据中的事件名称为“页面曝光”，则从预设时间范围内的与第一页面相关的所有用户行为数据中提取出事件名称为“页面曝光”的多个第一用户行为数据，多个第一用户行为数据中存在用户标识相同的第一用户行为数据，这是因为同一个用户在预设时间范围内多次打开过第一页面，从多个第一用户行为数据中包括的多个用户标识中随机提取N个用户标识，N个用户标识各不相同，N个用户标识指示的N个用户即为N个第一用户。

当第一页面的浏览量(即第一页面被打开的次数)在50万级别时，N可为100000。当然，N的值并不局限于100000，可根据实际情况确定。

获取每个第一用户的有序序列的第一种可实现的方式为：对于每个第一用户，将第一用户对应的各用户行为数据按照时间顺序组成有序序列；第一用户对应的各用户行为数据为预设时间范围内的与第一页面相关的所有用户行为数据中的用户行为数据。

其中，第一用户的有序序列的形式可如下：[A事件名称：(A事件数据)；B事件名称：(B事件数据)；C事件名称：(C事件数据)；D事件名称：(D事件数据)；……；A事件名称：(A事件数据)；C事件名称：(C事件数据)；E事件名称：(E事件数据)；D事件名称：(D事件数据)……；A事件名称：(A事件数据)；F事件名称：(F事件数据)；A事件名称：(A事件数据)……；]。可以理解的是，此处有序序列的形式只是示意性的，并不是有序序列在服务器中存储的实际形式。

其中，A事件名称：(A事件数据)代表A操作事件对应的用户行为数据，A事件名称为键、A事件数据为值，有序序列中其余的与A事件名称：(A事件数据)的含义相似，不再一一赘述。上述有序序列中各用户行为数据是按照该用户行为数据对应的操作事件的发生顺序的时间从早到晚排列的。显然的，A操作事件对应的是打开第一页面这一操作事件，也就是页面曝光事件；可以理解的是，每次出现A事件名称：(A事件数据)代表第一用户重新打开了一次第一页面。

其中，“A事件名称：(A事件数据)；B事件名称：(A事件数据)；C事件名称：(C事件数据)；D事件名称：(D事件数据)”表示第一用户首先进行了A操作事件，接着依次进行B操作事件、C操作事件、D操作事件，即用户打开了第一页面后，依次进行了B操作事件、C操作事件、D操作事件后，直接退出了第一页面对应的应用程序。

可以理解的是，从第一用户打开第一页面到用户退出第一页面对应的应用程序进行的行为代表用户一次连续的用户行为，比如：“A事件名称：(A事件数据)；B事件名称：(A事件数据)；C事件名称：(C事件数据)；D事件名称：(D事件数据)”为一次连续的用户行为对应的用户行为数据，该连续的用户行为对应的用户行为数据具有4个，对应的操作事件具有4件，或者说在第一用户打开第一页面的操作事件和退出第一页面对应的应用程序的操作事件之间对应有4个操作事件，4个操作事件对应4个用户行为数据。

从上述的有序序列可以看出，每次出现A事件名称：(A事件数据)代表一次连续用户行为的开始。

同样的，“A事件名称：(A事件数据)；F事件名称：(F事件数据)”表示用户首先进行了A操作事件，接着进行F操作事件，进行F操作事件后接退出了第一页面对应的应用程序，该连续用户行为的用户行为对应的用户行为数据具有2个，对应的操作事件具有2件，或者说在第一用户打开第一页面的操作事件和退出第一页面对应的应用程序的操作事件之间对应有2个操作事件，2个操作事件对应2个用户行为数据。

若用户一次连续的行为中对应的操作事件太少，说明该次连续行为没有代表性，为了保证最终获取的用户行为路径的准确性，获取有序序列的第二种实施方式为：对于每个第一用户，将第一用户对应的各用户行为数据，去除无效数据后，按照时间顺序组成有序序列。其中，无效数据包括：在第一用户打开第一页面的操作事件和退出第一页面对应的应用程序的操作事件之间对应的M个连续操作事件对应的M个用户行为数据，M小于等于预设阈值，即M个用户行为数据均为无效数据，M个用户行为数据包括第一用户打开第一页面的操作事件对应的用户行为数据；预设阈值可为3。第一种实施方式中的有序序列中的“A事件名称：(A事件数据)；F事件名称：(F事件数据)”便为无效数据，第二中实施方式对应的有序序列中不包括无效数据。

在得到了各第一用户的有序序列后，根据所有有序序列，获取第一页面对应的目标行为矩阵。

下面对获取目标行为矩阵的具体过程进行说明。

根据所有有序序列，确定所述第一页面对应的目标行为矩阵，包括：

a、对于所有有序序列包含的所有用户行为数据对应的所有操作事件中任意两个操作事件，根据所有有序序列中的用户行为数据指示的相应操作事件发生的顺序，获取任意两个操作事件中第一操作事件向两个操作事件中第二操作事件跳转的次数，以及第二操作事件向第一操作事件跳转的次数；

b、根据所有跳转次数，获取第一页面对应的目标行为矩阵：

b1、根据所有跳转次数，得到第一页面对应的第一行为矩阵，第一行为矩阵中的第n行第m列为操作事件n向操作事件m跳转的次数；

b2、对第一行为矩阵进行滤波处理，得到目标行为矩阵。

具体地，若具有M个有序序列，可以理解的是，M≤N，M个有序序列中所有的用户行为数据对应的操作事件具有L个，则第一页面对应的第一行为矩阵为L×L的矩阵，矩阵中的第n行第m列为操作事件n向操作事件m跳转的次数。

比如，M个有序序列中所有的用户行为数据对应的操作事件为A、B、C、D、E、F，则第一行为矩阵可表示如下：

其中，A-B表示操作事件A向操作事件B跳转的次数，A-C表示操作事件A向操作事件C跳转的次数，E-A表示操作事件E向操作事件A跳转的次数等等，不再一一赘述。第一行为矩阵中，操作事件A向操作事件B跳转的次数是所有有序序列对应的所有第一用户进行的操作事件A向操作事件B跳转的总次数，并不是一个第一用户进行的操作事件A向操作事件B跳转的次数。若操作事件A为第一用户打开第一页面，操作事件E向操作事件A跳转是指返回了第一页面。

操作事件A向操作事件B跳转是指进行完操作事件A进行操作事件B，比如，操作事件A为第一用户打开第一页面，第一页面上显示有抽奖的大转盘，用户点击大转盘中的“抽奖”图标的操作事件为操作事件B，用户点击第一页面中的关闭大转盘的图标的操作事件为操作事件C；若第一用户打开第一页面后，点击了大转盘中的“抽奖”图标，则表示操作事件A向操作事件B跳转，若第一用户打开第一页面后，点击了第一页面中的关闭大转盘的图标，则表示操作事件A向操作事件C跳转。

第一行为矩阵获取后，为了最终获取的用户行为路径尽可能的清楚，可对第一行为矩阵进行滤波。

对第一行为矩阵进行滤波即为将第一行为矩阵中不重要的值去除，可以理解的是，若操作事件D向操作事件E跳转次数比较少，说明操作事件D向操作事件E跳转可能性较小，也就是发生频率比较低的用户行为，那么操作事件D向操作事件E跳转次数即为第一行为矩阵中不重要的值。

具体地，对第一行为矩阵进行滤波处理，得到目标行为矩阵，包括：

c1、对于每个阈值，将第一行为矩阵中小于阈值的值变更为0，得到第二行为矩阵；阈值是根据有序序列的个数的预设倍数，预设倍数小于1，阈值的个数与预设倍数的个数相同；

c2、对于每个第二行为矩阵中的每一行的值，将该行中不为各目标值的值变更为0，得到目标行为矩阵；各目标值为该行中包括的所有值按照从大到小的顺序排序后得到的序列中的前K个值。

对于c1，可设置不同的阈值，对于每个阈值，将第一行为矩阵中小于阈值的值变更为0，得到第二行为矩阵。其中，阈值的选取可为有序序列总数的0.25倍、有序序列总数的0.5倍、有序序列总数的0.75倍。

若第一阈值为有序序列总数的0.25倍，则将第一行为矩阵中小于第一阈值的值变更为0，得到第二行为矩阵a；若第二阈值为有序序列总数的0.5倍，则将第一行为矩阵中小于第二阈值的值变更为0，得到第二行为矩阵b；若第三阈值为有序序列总数的0.75倍，则将第一行为矩阵中小于第三阈值的值变更为0，得到第二行为矩阵c。

相对而言，第二行为矩阵a可以指示发生频率为中低频以上的的用户行为，第二行为矩阵b可以指示发生频率为中频以上的用户行为，第二行为矩阵c可以指示发生频率比较高的用户行为。

至于选取几个阈值，各阈值的取值，均可根据实际情况确定，并不局限于上述举例。

对于c2，由操作事件A跳转至操作事件B，则定义操作事件B为子节点，操作事件A为父节点。对于复杂app而言，获取的用户行为路径是非常庞大的，即使做到可视化也是难以看懂，如果不做子节点限制，则无法有效地分析流量的走向，因此需要限制子节点的数量。

对应每个第二行为矩阵，对第二行为矩阵中每一行的各值，将每行中的各值按照从小到大的顺序排序，排序在前K的K个值称为K个目标值，将每行中不为各目标值的值变更为0，得到相应第二行为矩阵对应的目标行为矩阵。可选地，K＝3。

比如，第二行为矩阵a中的第一行是操作事件A分别向其余的操作事件跳转的次数，操作事件A为父节点，其余的操作事件为子节点，第二行为矩阵a对应得到的目标行为矩阵中第一行中有3个值不为0，则说明操作事件对应的父节点具有3个子节点。

若目标行为矩阵中某一行只有两个值不为0，那么该行对应的操作事件的子节点就只有两个。也就是说，目标行为矩阵中的每行中至多有K个值不为0。

可以理解的是，若得到了多个第二行为矩阵，多个第二行为矩阵各自对应的目标行为矩阵存在相同的情况，即若得到了多个第二行为矩阵，则会对应得到至少一个目标行为矩阵。

基于每个目标行为矩阵，便可获取目标行为矩阵对应的用户行为路径。

其中，用户行为路径可为桑基图和/或树状图，桑基图或者树状图是根据目标行为矩阵中不为0的值以及不为0的值对应的操作事件得到的，也就是将目标行为矩阵中不为0的值对应的操作事件(每个值对应两个操作事件)作为桑基图或者树状图的节点，结合各节点对应的操作事件向相应的其他节点对应的操作事件跳转的次数得到。

图3为本申请实施例提供的用于指示用户行为路径的桑基图，图4为本申请实施例提供的用于指示用户行为路径的树状图。

参见图3，桑基图中的节点为相应目标行为矩阵中不为0的值对应的操作事件，两个节点之间连接线的宽度用于指示两个节点中的父节点对应的操作事件向子节点对应的操作事件转化次数占该父节点对应的操作事件向其所有的子节点对应的操作事件转化的总次数的比例，比例越大，宽度约大。

参见图4，树状图中的节点为相应目标行为矩阵中不为0的值对应的操作事件，树状图中的节点1对应的操作事件向节点2对应的操作事件跳转的次数可显示在节点1和节点2之间的连线上。

本领域技术人员应当明白，无论是桑基图还是树状图，第一个节点对应的操作事件为打开第一页面对应的页面曝光事件。

本实施例中通过对第一行为矩阵进行滤波处理，限制获取的用户行为路径中每个父节点的个数，得到的用户行为路径十分清楚，可以直观的显示用户行为路径。且用户行为路径中的节点均为发生频率较高的操作事件(通过保留第二行为矩阵中较大的值，得到目标行为矩阵可推出)，即得到的用户行为路径可以很好的代表用户的行为。

进一步地，为了使得最终得到的用户行为路径能够展示更多的用户行为信息，还可以获取预设时间范围内操作与第一页面相关的页面的每个操作事件的PV值，每个操作事件的PV值是指预设时间范围内所有用户进行相应操作事件的总次数，同一个用户可能进行该操作事件多次。对于某一操作事件，预设时间范围内的与第一页面相关的所有用户行为数据中事件名称为相应操作事件的名称的用户行为数据的数量，即为操作事件的PV值。

此时，根据目标行为矩阵，获取用户行为路径，包括：

根据目标行为矩阵，获取用于指示用户行为路径的桑基图和/或树状图；桑基图和/或树状图中的节点对应目标行为矩阵不为0的值对应的操作事件；

对于桑基图和/或树状图上的每个节点，在桑基图和/或树状图中显示节点对应的操作事件的PV值；和/或，

对于桑基图和/或树状图上的每个节点，在桑基图和/或树状图中显示该节点对应的操作事件与该节点的子节点对应的操作事件之间的PV转化率。

父节点与子节点1之间对应的PV转化率＝父节点对应的操作事件的PV值/子节点1对应的操作事件的PV值。

更进一步地，为了使得最终得到的用户行为路径能够展示更多的用户行为信息，还可以获取预设时间范围内操作与第一页面相关的页面的每个操作事件的UV值，每个操作事件的UV值为预设时间范围进行相应操作事件的用户的数量，即预设时间范围内的与第一页面相关的所有用户行为数据中事件名称均为相应的操作事件的名称的用户行为数据中包括的不同的用户标识的个数。

此时，根据目标行为矩阵，获取用户行为路径，包括：

对于桑基图和/或树状图上的每个节点，在桑基图和/或树状图中显示该节点对应的操作事件的UV值；和/或，

对于桑基图和/或树状图上的每个节点，在桑基图和/或树状图中显示节点对应的操作事件与该节点的子节点对应的操作事件之间的UV转化率。

父节点与子节点1之间对应的UV转化率＝父节点对应的操作事件的UV值/子节点1对应的操作事件的UV值。

上述针对服务器所实现的功能，对本申请实施例提供的方案进行了介绍。可以理解的是，服务器为了实现上述各自的功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本申请中所公开的实施例描述的各示例及步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的技术方案的范围。

本申请实施例可以根据上述方法示例对服务器进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

图5为本申请实施例提供的获取用户行为路径的装置的结构示意图；参见图5，本实施例的装置包括：提取模块51、有序序列获取模块52、行为矩阵获取模块53和路径获取模块54。

其中，所述提取模块51，用于获取预设时间范围内操作与第一页面相关的页面的操作事件对应的所有用户行为数据，并从所有用户行为数据对应的所有用户中提取N个第一用户；

所述有序序列获取模块52，对于每个第一用户，将所述第一用户对应的各用户行为数据，去除无效数据后，按照时间顺序组成有序序列；

所述行为矩阵获取模块53，用于根据所有有序序列，获取所述第一页面对应的目标行为矩阵；

所述路径获取模块54，用于根据所述目标行为矩阵，获取用户行为路径。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一种可能的设计中，所述无效数据包括：所述第一用户打开第一页面的操作事件和相应退出第一页面对应的应用程序的操作事件之间的M个连续操作事件对应的M个用户行为数据，M小于等于预设阈值。

在一种可能的设计中，所述行为矩阵获取模块53，具体用于：

对第一行为矩阵进行滤波处理，得到目标行为矩阵。

在一种可能的设计中，所述提取模块51还用于：获取预设时间范围内操作与所述第一页面相关的页面的每个操作事件的PV值，所述PV值为所述预设时间范围内所有用户进行相应操作事件的次数；

所述路径获取模块54具体用于：

在一种可能的设计中，所述提取模块51还用于：获取预设时间范围内操作与所述第一页面相关的页面的每个操作事件的UV值，所述UV值为所述预设时间范围进行相应操作事件的用户的数量；

所述路径获取模块54具体用于：

本申请实施例提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得处理器执行第一方面以及第一方面任一可能的设计中的方法。

图6为本申请实施例提供的服务器的结构示意图；参见图6，本实施例的服务器包括：存储器61、处理器62和通信总线63；

通信总线63用于各元件之间的连接；

所述存储器61，用于存储程序指令；

所述处理器62，用于调用所述存储器61中存储的所述程序指令以上述方法实施例中的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种获取用户行为路径的方法，其特征在于，包括：

根据所述目标行为矩阵，获取用户行为路径。

2.根据权利要求1所述的方法，其特征在于，所述无效数据包括：

3.根据权利要求1所述的方法，其特征在于，根据所有有序序列，确定所述第一页面对应的目标行为矩阵，包括：

对于所有有序序列包括的所有用户行为数据对应的所有操作事件中的任意两个操作事件，根据所有有序序列中的用户行为数据指示的相应操作事件发生的顺序，获取所述两个操作事件中第一操作事件向第二操作事件跳转的次数，以及所述第二操作事件向所述第一操作事件跳转的次数；

4.根据权利要求3所述的方法，其特征在于，所述根据所有跳转次数，获取所述第一页面对应的目标行为矩阵，包括：

对第一行为矩阵进行滤波处理，得到目标行为矩阵。

5.根据权利要求4所述的方法，其特征在于，所述对第一行为矩阵进行滤波处理，得到目标行为矩阵，包括：

6.根据权利要求1～5任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标行为矩阵，获取用户行为路径，包括：

7.根据权利要求1～5任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标行为矩阵，获取用户行为路径，包括：

8.一种获取用户行为路径的装置，其特征在于，包括：

有序序列获取模块，用于对于每个第一用户，将所述第一用户对应的各用户行为数据，去除无效数据后，按照时间顺序组成有序序列；

9.根据权利要求1所述的装置，其特征在于，所述无效数据包括：

10.根据权利要求1所述的装置，其特征在于，所述行为矩阵获取模块，具体用于：

11.根据权利要求10所述的装置，其特征在于，所述行为矩阵获取模块，具体用于：

对第一行为矩阵进行滤波处理，得到目标行为矩阵。

12.根据权利要求11所述的装置，其特征在于，所述行为矩阵获取模块，具体用于：

13.根据权利要求8～12任一项所述的装置，其特征在于，所述提取模块还用于：获取预设时间范围内操作与所述第一页面相关的页面的每个操作事件的PV值，所述PV值为所述预设时间范围内所有用户进行相应操作事件的次数；

所述路径获取模块具体用于：

14.根据权利要求8～12任一项所述的装置，其特征在于，，所述提取模块还用于：获取预设时间范围内操作与所述第一页面相关的页面的每个操作事件的UV值，所述UV值为所述预设时间范围进行相应操作事件的用户的数量；

所述路径获取模块具体用于：

15.一种计算机存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得处理器执行权利要求1-7任一项所述的方法。

16.一种服务器，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现如权利要求1-7任一项所述的方法。