CN115017392A - 访问路径分析方法、装置、设备及计算机存储介质 - Google Patents
访问路径分析方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN115017392A CN115017392A CN202210675129.7A CN202210675129A CN115017392A CN 115017392 A CN115017392 A CN 115017392A CN 202210675129 A CN202210675129 A CN 202210675129A CN 115017392 A CN115017392 A CN 115017392A
- Authority
- CN
- China
- Prior art keywords
- access
- page
- target user
- user
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及数据分析技术领域,公开了一种访问路径分析方法,该方法包括:获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个;根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。通过上述方式,本发明实施例提高了访问路径分析的效率。
Description
技术领域
本发明实施例涉及数据分析技术领域,具体涉及一种访问路径分析方法、装置、设备以及计算机存储介质。
背景技术
对用户的页面访问路径情况进行分析,根据分析情况优化各个页面入口,可以提升用户体验。目前主流的页面路径分析,一般使用如下几种方式:编写代码在内存中计算、使用mysql,postgrel等关系数据库编写sql进行计算或者使用hive,sparksql等计算。
发明人在实施本发明实施例的过程中发现:现有的访问路径分析存在分析效率较低的问题。
发明内容
鉴于上述问题,本发明实施例提供了一种访问路径分析方法,用于解决现有技术中存在的访问路径分析效率较低的问题。
根据本发明实施例的一个方面,提供了一种访问路径分析方法,所述方法包括:
获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;
根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个;
根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。
在一种可选的方式中,所述索引数据包括压缩位图数据;所述方法还包括:
获取用户分群信息;所述用户分群信息中包括所述多个可选用户群分别对应的至少一个可选用户的用户身份标识;所述可选用户为所述可选用户群内的用户;
对所述用户身份标识进行格式转换,得到转换后标识;
将各个所述可选用户群对应的所述转换后标识进行压缩存储,得到所述压缩位图数据。
在一种可选的方式中,所述方法还包括:
对所述用户身份标识进行哈希计算,得到目标位数的所述转换后标识;其中,所述目标位数根据所述压缩位图数据的数据结构确定。
在一种可选的方式中,所述方法还包括:
对所述压缩位图数据进行反时序化处理,得到各个可选用户群标识对应的用户标识;
根据所述目标用户标识在所述压缩位图数据中进行查询,得到所述目标用户群。
在一种可选的方式中,所述方法还包括:
获取页面访问原始数据;
根据访问时间对所述页面访问原始数据进行排序,得到访问页面标识时序;
根据访问用户标识对所述访问页面标识时序进行筛选,得到各个可选用户标识分别对应的所述页面访问数据;所述目标用户标识为所述可选用户标识中的一个。
在一种可选的方式中,所述访问路径参数包括起始页面、访问路径方向以及路径深度;所述路径分析结果包括访问页面链;所述方法还包括:
根据所述起始页面在目标用户标识对应的访问页面标识时序中进行查找,得到目标页面节点;
以所述目标页面节点为起点,在所述目标用户标识对应的访问页面标识时序的所述访问路径方向上查找所述路径深度个数的页面标识,得到所述访问页面链。
在一种可选的方式中,所述方法还包括:
将查找到的页面标识依次保存在树形数据结构中,所述树形数据结构中包括多个节点,针对访问页面链中的各个节点分别建立对应的节点计数器,根据该节点对应的页面标识出现的次数对所述节点计数器进行更新;
对所述树形数据结构进行可视化处理,得到所述访问页面链。
根据本发明实施例的另一方面,提供了一种访问路径分析装置,包括:
获取模块,用于获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;
查询模块,用于根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个;
处理模块,用于根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。
根据本发明实施例的另一方面,提供了一种访问路径分析设备,包括:
处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如前述任意一项所述的访问路径分析方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使访问路径分析设备执行以下操作:
获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;
根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个;
根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。
本发明实施例通过获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;根据该目标用户标识在索引数据中进行查询,得到目标用户群标识;所述索引数据中存储有多个可选用户群以及各个所述可选用户群分别对应的可选用户标识;通过将用户分群关系用用户群标识以及该用户群对应的用户标识表示,并存储在索引数据中,有效地节省了存储空间和提高了查找效率,最后根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果,从而能够实时提供对于特定用户所在的用户群的访问路径分析结果,能够提高访问路径分析的效率以及用户体验。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的访问路径分析方法的流程示意图;
图2示出了本发明另一实施例提供的访问路径分析方法的展示界面示意图;
图3示出了本发明另一实施例提供的访问路径分析方法的展示界面示意图;
图4示出了本发明实施例提供的访问路径分析装置的结构示意图;
图5示出了本发明实施例提供的访问路径分析设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
在进行本发明实施例的说明之前,对相关名词进行说明:
Apache Druid:一个实时分析数据库,旨在对大型数据集进行快速的切片和切分分析(OLAP查询)。Druid最常用作数据库,其主要特征主要包括:支持实时数据导入,导入即可被查询,支持高并发导入;亚秒级响应的交互式查询,支持较高并发;长时间的正常运行等。Druid通常用于应用程序数据分析的前端,或用作需要快速聚合的高并发API的后端。
RoaringBitMap:传统的位图,是一种速度极快的数据结构,但是缺点是消耗太多的内存,为了降低内存消耗,通常会使用压缩的位图。RoaringBitMap就是一种性能非常优秀的压缩位图。
Murmurhash3:一种非加密型哈希函数,适用于一般的哈希检索操作。当前的版本是MurmurHash3,能够产生出32-bit或128-bit哈希值。
Hdfs:Hadoop Distribute File System,Hadoop分布式文件系统,主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode(名字节点)和若干个DataNode(数据节点)组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。
在进行本发明实施例的说明之前,对现有的访问路径分析方法及其存在的问题进行介绍。
目前主流的页面路径分析,一般使用如下几种方式:1,编写代码在内存中计算,只适合简单逻辑以及小数据量;2,使用mysql,postgrel等关系数据库编写sql进行计算,数据量不宜过大,路径层级不宜超过两层;3,使用hive,sparksql等计算,适用于大数据量,缺点是只适合离线查询,不适合OLAP场景下的实时查询。
因此,目前的页面路径分析主要面临如下两个问题:不支持数据量大以及不够灵活:随着大数据时代的到来,数据量呈指数级增长也给数据分析带来了难点,使用传统数据库,无法支持大数据量的查询及计算。使用hive等大数据数据库,无法做到即席查询。而且现有技术大多只支持预定义条件的页面路径分析,比如商品加入购物车后续转化,推荐banner页面点击转化分析等等,如果需要支持特定页面的路径转化,指定步数好的路径转化,则需要定制开发,不够灵活。由此就导致现有的访问路径分析方法存在查询效率低和查询体验不佳的问题。
图1示出了本发明实施例提供的访问路径分析方法的流程图,该方法由计算机处理设备执行。该计算机处理设备可以包括手机、笔记本电脑等。如图1所示,该方法包括以下步骤:
步骤10:获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识。
在本发明的一个实施例中,路径查询请求用于请求查询某一或多个用户的访问页面的路径信息,如用户在将商品加入购物车后续的页面,用户在点击推荐banner页面后续的页面等,路径信息中包括至少一个页面的信息,页面信息至少包括如进入离开时间、上游以及下游页面、页面内操作等。路径查询请求可以是需要分析用户行为的人员发送的,如运营人员。
访问路径参数用于表征所需要构造出的路径的结构相关参数,可以包括路径深度、路径方向、路径的起始页面以及页面访问时间等,根据访问路径参数结合用户的历史页面访问数据可以构造出对应结构的访问路径链。
可选地,访问路径参数中还可以包括过滤条件,过滤条件用于对历史页面访问数据进行筛选,得到与路径构造相关的数据。
用户标识用于特异性表征用户,可以是用户身份标识、设备标识、IP地址等。进一步地,用户可以属于一或多个用户群,用户群可以是根据用户的特征或者运营需求所预先划分的,如可以根据区域、偏好、活跃度或者特定行为及事件对用户进行群体划分,其中,特定行为及事件可以包括是否充值、是否关注等。
步骤20:根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个。
在本发明的一个实施例中,可选用户群对应一个特异性表征该可选用户群的群标识,可选用户群中包括至少一个用户,可选用户群内包括的用户的用户标识即为可选群标识对应的用户标识。其中,用户标识可以包括用户ID、设备ID、网络IP地址等。
为了节省索引数据的存储成本和提高查找的效率,索引数据的数据结构可以是位图即bitmap,可选地,位图数据可以为压缩位图数据。
考虑到现有的页面路径分析并不支持针对特定的用户群体进行统计分析,因此若需要针对特定的用户所属于的用户群进行访问页面的路径分析时,需要单独针对该特定用户所在的用户群内的所有用户分别进行查表,其查找效率较低,而存储成本较高。而在本发明的实施例中,通过对用户群设立分群标识,并且将分群标识对应的用户标识预先存储在位图数据中,而位图数据的查找速度更快,由此能够提升查询性能。
在本发明的一个实施例中,所述索引数据包括压缩位图数据;借助RoaringBitMap的高压缩,可以将几百万上千万的用户分群信息轻松加载至内存中,以及时序化到Hdfs上,由此在需要获取用户标识时,从Hdfs中获取数据并进行反时序化即可,节约内存的同时,也提高了访问速度。
步骤20还包括:步骤201:获取用户分群信息;所述用户分群信息中包括所述多个可选用户群分别对应的至少一个可选用户的用户身份标识;所述可选用户为所述可选用户群内的用户。
在本发明的一个实施例中,用户分群的依据可以是运营需求或者用户的特征维度,如活跃度、偏好以及地区等,如7天内活跃的用户、某地区的用户以及关注了某歌手的用户等都可以分别构成一个可选用户群。
步骤202:对所述用户身份标识进行格式转换,得到转换后标识。
在本发明的一个实施例中,考虑到压缩位图的数据结构对于数据有特定的格式要求,因此需要先对用户身份标识进行对应的格式转换之后,才能存储到压缩位图数据中。具体地,考虑到用户身份标识一般采用的是用户的设备号,而用户设备号是一串很长的字符串,因此可以通过哈希计算,将字符串转换为对应的数值类型,如32位或64位long型,其中,32位的id可以容纳2的32次方个数值。64位的id可以容纳2的64次方个数值。根据对精度要求不同,选择适合的长度的id,有效的节约了内存空间,提高了查询的效率。
在本发明的一个实施例中,步骤202还包括:
步骤2021:对所述用户身份标识进行哈希计算,得到目标位数的所述转换后标识;其中,所述目标位数根据所述压缩位图数据的数据结构确定。
在本发明的一个实施例中,哈希计算可以采用Murmurhash3的hash算法,从而将用户的字符串格式的设备标识转换成64位的long格式的数值型,由此能够结合RoaringBitMap的64位位图功能进行分群的筛选。
步骤203:将各个所述可选用户群对应的所述转换后标识进行压缩存储,得到所述压缩位图数据。
在本发明的一个实施例中,将可选用户群对应的转换后标识存储至对应位数的压缩位图数据结构中,得到该可选用户群对应的压缩位图数据。
举例说明,如ios的用户id的转换前后如下:
转换前id:5b19d5afa15c4084907e2ccd7a1759fc
转换后32位id:200030963
转换后64位id:-5102500264101004557
若有100万个这样的id,直接存储在文件上大约需要36M空间,而将转换后的id存储在32位的Roaring Bitmap中仅需要2.4M左右的大小。如果需要使用高精度64位的Roaring Bitmap,只需要26M左右的空间。当同时并发查询带分群的用户访问路径链时,使用压缩能更大的节约集群资源,提高查询速度。随着分群用户数的增加,节约空间的效果也越明显。
在本发明的一个实施例中,步骤20还包括:
步骤204:对所述压缩位图数据进行反时序化处理,得到各个可选用户群标识对应的用户标识。
在本发明的一个实施例中,压缩位图数据是根据每日定时任务计算得到的并存储于Hdfs上的。在需要查询目标用户群标识对应于哪些用户时,可以从Hdfs上将用户分群的数据反时序化为RoaringBitmap,再在RoaringBitmap中进行对应的查询。
具体地,首先获取Hdfs的文件输入流,调用RoaringBitmap的deserialize反时序化(FSDataInputStream in)方法,将输入流作为参数传入方法中,以使得RoaringBitmap根据传入的文件流加载文件,将压缩好的位图数据文件进行反时序化,加载到内存中,由此提高查询效率。
步骤205:根据所述目标用户标识在所述压缩位图数据中进行查询,得到所述目标用户群。
在本发明的一个实施例中,将位图数据中目标用户标识对应的用户群标识所对应的用户群确定为目标用户群。如当目标用户标识为001时,在位图数据中查询到可选用户标识001对应的用户群标识为100、101、102、103、105、109以及120,则目标用户群为用户群标识100、101、102、103、105、109以及120分别对应的用户群。
步骤30:根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。
在本发明的一个实施例中,目标用户群对应的页面访问数据指的是目标用户群内的所有用户在预设历史区间内所访问的页面的相关数据,如页面标识、访问时间、相邻页面信息等。页面访问数据可以是预先采集的。
为了进一步提高查询效率,还可以先对页面访问数据进行预处理,而考虑到页面访问链主要表征的是访问页面在时间上的关联关系,即页面访问链中的各个页面节点是根据访问顺序进行连接,从而组成访问链的,因此可以对页面访问数据处理得到各个用户对应的页面访问时序信息,由此,在构造用户对应的页面访问链时,可以直接根据页面访问时序信息进行提取,因此,在本发明的再一个实施例中,步骤30之前还包括:
步骤301:获取页面访问原始数据。
在本发明的一个实施例中,页面访问原始数据中包括用户标识、会话标识、访问时间以及页面标识等信息。页面访问原始数据的采集方式可以是通过对APP进行埋点、无埋点数据收集或者用户圈选功能采集用户访问页面id、session id(会话标识)以及基本的设备信息等。
步骤302:根据访问时间对所述页面访问原始数据进行排序,得到访问页面标识时序。
在本发明的一个实施例中,访问页面标识时序中包括按照访问时间先后排列的多个访问页面的标识。首先从页面访问原始数据中提取中各个访问页面的标识和对应的访问时间,按照访问时间进行排序,得到访问页面标识时序。
步骤303:根据访问用户标识对所述访问页面标识时序进行筛选,得到各个可选用户标识分别对应的所述页面访问数据。
在本发明的一个实施例中,以访问用户为主键,对该主键下的访问页面标识进行聚合,得到可选用户标识对应的页面访问数据,其中,可选地,聚合的最小单位可以是一个会话或者时间单元,如天、星期等。
在本发明的一个实施例中,所述访问路径参数包括起始页面、访问路径方向以及路径深度;其中,起始页面指的是访问路径的起点页面,如一般可以是启动页、欢迎页或登录页等。访问路径方向指的是从起始页面开始向前或向后,这里的前后指的是页面访问时间上的先与后。路径深度的单位可以是页面的个数,即构造出的访问路径中需要包括该用户的多次个访问页面的信息。所述路径分析结果包括访问页面链,访问页面链是多个访问页面按照访问时间以及流转关系连接组成的链条,访问页面链中包括多个节点,一个节点对应于一个历史访问的页面,其中,流转关系包括访问A页面之后访问了页面B,即视作从A节点流转到了B节点。
步骤30还包括:步骤310:根据所述起始页面在目标用户标识对应的访问页面标识时序中进行查找,得到目标页面节点。
在本发明的一个实施例中,将目标用户标识对应的访问页面标识时序中的页面标识与起始页面的标识相同的页面确定为目标页面节点。访问页面链可以以树的形式组成,树中包括至少一个节点,目标页面节点即为树的根节点。
步骤311:以所述目标页面节点为起点,在所述目标用户标识对应的访问页面标识时序的所述访问路径方向上查找所述路径深度个数的页面标识,得到所述访问页面链。
在本发明的一个实施例中,根据路径深度以及访问路径方向在访问页面标识时序中进行搜寻,将查找到的访问页面标识分别作为一个节点依次加入访问页面链。
进一步地,考虑到用户在多页面的访问时可能存在返回上一页面以及重复访问的情况,即一个节点可能被多次访问,因此,在本发明的一个实施例中,步骤311还包括:
步骤3111:将查找到的页面标识依次保存在树形数据结构中,所述树形数据结构中包括多个节点,针对访问页面链中的各个节点分别建立对应的节点计数器,根据该节点对应的页面标识出现的次数对节点计数器进行更新。
在本发明的一个实施例中,对树形结构更新方式可以是,针对当前查找到的页面的后续页面,若所述后续页面不在访问页面标识时序中,则在所述树形数据结构中新增一个节点,若存在,则在所述后续页面对应的节点计数器中加一
步骤3112:对所述树形数据结构进行可视化处理,得到所述访问页面链。
在本发明的一个实施例中,对树形数据结构进行可视化处理,得到的访问页面链可以图2以及图3的右侧所示的。
如图2以及图3所示,访问页面链中的每个节点包括对应的页面事件以及该事件的参与用户占当前用户群的百分比,举例说明,针对图2输入的起始页面为APP启动,路径方向为向后,路径层级为3,目标用户为全体用户(即当前用户群中包括所有用户),其输出的访问页面链中,100%用户的从APP启动开始,其中,65.18%的用户访问了音乐首页,27.73%的用户访问了播放测试页,而访问音乐首页的用户中,60.32%的用户从APP退出,26.66%的用户访问了播放测试页。
在本发明的再一个实施例中,还可以直接根据用户群标识进行该群内对应的所有用户的访问路径分析,具体流程可以如下:
首先前端展示如所图2以及图3的左侧所示的查询界面,通过查询界面接收查询条件,查询条件中至少包含起始页面,访问路径方向,路径深度,时间范围,用户分群以及过滤条件。
然后服务端根据前端选择的条件,将起始页面,访问路径方向,路径深度,时间范围,用户分群以及过滤条件作为参数拼接druid的查询json,发送至Druid的broker(代理)进行查询,broker根据聚合器的名称,选择本发明实施例自定义扩展进行查询。
其中,对于Druid的自定义扩展包括如下:
首先加载指定时间范围内符合过滤条件的用户页面访问数据,然后判断用户有没有选择用户分群;若用户在界面选择了用户分群,则该分群的分群ID将会被作为查询参数带到后台,因此,本方案中可以通过判断查询参数中是否有分群ID,进而确定用户是否选择分群。
用户分群数据,是运营根据用户特点,比如区域,比如活跃度,比如特定行为对用户进行的群体划分,分群数据包含用户的设备信息,通过分群数据,就能查看特定用户群体在路径分析模块上的表现。
支持自定义分群的优点在于,运营人员可以多维度的掌握不同的人群,访问同一页面,后续带来的各个页面的转化,从而完善页面的排版分布,也可针对不同人群,进行定制化的页面分布,将访问路径中访问次数较高的页面入口优先曝光。如果用户没有选择用户分群,则无需要加载用户分群的数据,直接计算全部用户的访问路径,省去了加载用户分群的时间消耗和资源消耗。只有选择了用户分群,才去对应的路径加载对应分群的数据,加载到内存中,供后续计算。合理分配资源,将集群计算能力最大化。
如果选择了用户分群,则从Hdfs上将用户分群的数据反时序化为RoaringBitmap;
具体地,首先获取Hdfs的文件输入流,调用Roaring Bitmap的deserialize(FSData Input Stream in)方法,将输入流作为参数传入方法中,Roaring Bitmap根据传入的文件流加载文件,将压缩好的分群文件进行反时序化,加载到内存中,由此省去了现有技术中直接使用druid查询分群数据的时间消耗。
用户分群数据是通过每日的定时任务提前计算好,时序化成bitmap的格式文件保存到Hdfs上的。数据加载完毕,首先判断用户是否在所选分群,如果不在所选用户分群中,则丢弃本条数据,如果在所选用户分群中,则继续进行起始页面的索引,通过对页面id列表的顺序索引,如果索引到起始页面,再根据查询配置的方向,按照路径配置的深度向后或者向前查找步长个数的页面ID保存在树形数据结构中缓存起来,对于一个页面的后续页面,如果不存在,则新增一个节点,如果存在,则在已存在的节点计数器上进行加1.查询完毕后,将该树形数据结构的数据以json格式进行返回。
最后,页面根据返回的json数据进行数据的可视化展示。
本发明实施例可以应用于运营分析平台上,用户单图,路径分析模块。借助该模块,运营人员能更直观的分析用户的页面访问路径情况,以便于优化各个页面入口,查询速度较现有技术提高了一倍,节约了空间,降低了查询压力。后续可以扩展,应用到更多需要使用用户分群筛查的查询分析模块中。
本发明实施例通过编写代码,实现自定义的用户访问页面路径链Druid查询扩展,巧妙地使用了Hash算法将分群用户Id转化为数值,并结合压缩位图技术,有效的降低了用户分群数据所占用内存大小,且对分群用户进行筛选的效率更高,使用本方案实现的用户访问页面路径链查询,在查询效率上,有着明显的提升。且支持自定义起始访问页面,查询深度,访问方向的实时查询,也提高了用户的查询体验。方便运营随时定制不同的策略进行数据分析,分析结果可保存可下载,由此提升了访问路径分析的效率和用户体验。
本发明实施例提供的访问路径分析方法通过获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;根据该目标用户标识在索引数据中进行查询,得到目标用户群标识;所述索引数据中存储有多个可选用户群以及各个所述可选用户群分别对应的可选用户标识;通过将用户分群关系用用户群标识以及该用户群对应的用户标识表示,并存储在索引数据中,有效地节省了存储空间和提高了查找效率,最后根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果,从而能够实时提供对于特定用户所在的用户群的访问路径分析结果,能够提高访问路径分析的效率以及用户体验。
图4示出了本发明实施例提供的访问路径分析装置的结构示意图。如图4所示,该装置40包括:获取模块401、查询模块402和处理模块403。
其中,获取模块401,用于获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;
查询模块402,用于根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个;
处理模块403,用于根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。
本发明实施例提供的访问路径分析装置所执行的操作过程与签署方法是合理大致相同,不再赘述。
本发明实施例提供的访问路径分析装置通过获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;根据该目标用户标识在索引数据中进行查询,得到目标用户群标识;所述索引数据中存储有多个可选用户群以及各个所述可选用户群分别对应的可选用户标识;通过将用户分群关系用用户群标识以及该用户群对应的用户标识表示,并存储在索引数据中,有效地节省了存储空间和提高了查找效率,最后根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果,从而能够实时提供对于特定用户所在的用户群的访问路径分析结果,能够提高访问路径分析的效率以及用户体验。
图3示出了本发明实施例提供的访问路径分析设备的结构示意图,本发明具体实施例并不对访问路径分析设备的具体实现做限定。
如图3所示,该访问路径分析设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于访问路径分析方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。访问路径分析设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以被处理器402调用使访问路径分析设备执行以下操作:
获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;
根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个;
根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。
本发明实施例提供的访问路径分析设备所执行的操作过程与签署方法是合理大致相同,不再赘述。
本发明实施例提供的访问路径分析设备通过获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;根据该目标用户标识在索引数据中进行查询,得到目标用户群标识;所述索引数据中存储有多个可选用户群以及各个所述可选用户群分别对应的可选用户标识;通过将用户分群关系用用户群标识以及该用户群对应的用户标识表示,并存储在索引数据中,有效地节省了存储空间和提高了查找效率,最后根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果,从而能够实时提供对于特定用户所在的用户群的访问路径分析结果,能够提高访问路径分析的效率以及用户体验。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在访问路径分析设备上运行时,使得所述访问路径分析设备执行上述任意方法实施例中的访问路径分析方法。
可执行指令具体可以用于使得访问路径分析设备执行以下操作:
获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;
根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个;
根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。
本发明实施例提供的计算机可读存储介质存储的可执行指令所执行的操作过程与签署方法是合理大致相同,不再赘述。
本发明实施例提供的计算机可读存储介质存储的可执行指令通过获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;根据该目标用户标识在索引数据中进行查询,得到目标用户群标识;所述索引数据中存储有多个可选用户群以及各个所述可选用户群分别对应的可选用户标识;通过将用户分群关系用用户群标识以及该用户群对应的用户标识表示,并存储在索引数据中,有效地节省了存储空间和提高了查找效率,最后根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果,从而能够实时提供对于特定用户所在的用户群的访问路径分析结果,能够提高访问路径分析的效率以及用户体验。
本发明实施例提供一种访问路径分析装置,用于执行上述访问路径分析方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使访问路径分析设备执行上述任意方法实施例中的访问路径分析方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的访问路径分析方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种访问路径分析方法,其特征在于,所述方法包括:
获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;
根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个;
根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。
2.根据权利要求1所述的方法,其特征在于,所述索引数据包括压缩位图数据;在所述根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群之前,包括:
获取用户分群信息;所述用户分群信息中包括所述多个可选用户群分别对应的至少一个可选用户的用户身份标识;所述可选用户为所述可选用户群内的用户;
对所述用户身份标识进行格式转换,得到转换后标识;
将各个所述可选用户群对应的所述转换后标识进行压缩存储,得到所述压缩位图数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述用户身份标识进行格式转换,得到转换后标识,包括:
对所述用户身份标识进行哈希计算,得到目标位数的所述转换后标识;其中,所述目标位数根据所述压缩位图数据的数据结构确定。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群,包括:
对所述压缩位图数据进行反时序化处理,得到各个可选用户群标识对应的用户标识;
根据所述目标用户标识在所述压缩位图数据中进行查询,得到所述目标用户群。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述访问路径参数对所述目标用户群对应的页面访问数据之前,包括:
获取页面访问原始数据;
根据访问时间对所述页面访问原始数据进行排序,得到访问页面标识时序;
根据访问用户标识对所述访问页面标识时序进行筛选,得到各个可选用户标识分别对应的所述页面访问数据。
6.根据权利要求5所述的方法,其特征在于,所述访问路径参数包括起始页面、访问路径方向以及路径深度;所述路径分析结果包括访问页面链;所述根据所述访问路径参数对所述目标用户标识对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果,包括:
根据所述起始页面在目标用户标识对应的访问页面标识时序中进行查找,得到目标页面节点;
以所述目标页面节点为起点,在所述目标用户标识对应的访问页面标识时序的所述访问路径方向上查找所述路径深度个数的页面标识,得到所述访问页面链。
7.根据权利要求6所述的方法,其特征在于,所述以所述目标页面节点为起点,在所述目标用户标识对应的访问页面标识时序的所述访问路径方向上查找所述路径深度个数的页面标识,得到所述访问页面链,包括:
将查找到的页面标识依次保存在树形数据结构中,所述树形数据结构中包括多个节点,针对访问页面链中的各个节点分别建立对应的节点计数器,根据该节点对应的页面标识出现的次数对所述节点计数器进行更新;
对所述树形数据结构进行可视化处理,得到所述访问页面链。
8.一种访问路径分析装置,其特征在于,所述装置包括:
获取模块,用于获取路径查询请求;所述路径查询请求中包括访问路径参数以及目标用户标识;
查询模块,用于根据所述目标用户标识在索引数据中进行查询,得到所述目标用户标识对应的目标用户群;所述索引数据中存储有多个可选用户群分别对应的至少一个可选用户标识;所述目标用户群为所述可选用户群中的至少一个;
处理模块,用于根据所述访问路径参数对所述目标用户群对应的页面访问数据进行处理,得到所述目标用户标识对应的路径分析结果。
9.一种访问路径分析设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的访问路径分析方法的操作。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在访问路径分析设备上运行时,使得访问路径分析设备执行如权利要求1-7任意一项所述的访问路径分析方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210675129.7A CN115017392A (zh) | 2022-06-15 | 2022-06-15 | 访问路径分析方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210675129.7A CN115017392A (zh) | 2022-06-15 | 2022-06-15 | 访问路径分析方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017392A true CN115017392A (zh) | 2022-09-06 |
Family
ID=83075369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210675129.7A Pending CN115017392A (zh) | 2022-06-15 | 2022-06-15 | 访问路径分析方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017392A (zh) |
-
2022
- 2022-06-15 CN CN202210675129.7A patent/CN115017392A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
EP3602351B1 (en) | Apparatus and method for distributed query processing utilizing dynamically generated in-memory term maps | |
US11775501B2 (en) | Trace and span sampling and analysis for instrumented software | |
US9043348B2 (en) | System and method for performing set operations with defined sketch accuracy distribution | |
US8396828B2 (en) | Providing lightweight multidimensional online data storage for web service usage reporting | |
CN112800095B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
US11003649B2 (en) | Index establishment method and device | |
US11494395B2 (en) | Creating dashboards for viewing data in a data storage system based on natural language requests | |
CN103778251B (zh) | 面向大规模rdf图数据的sparql并行查询方法 | |
CN111611225A (zh) | 数据存储管理方法、查询方法、装置、电子设备及介质 | |
CN111881326A (zh) | 一种图数据存储方法、装置、设备及可读存储介质 | |
CN113360554A (zh) | 一种数据抽取、转换和加载etl的方法和设备 | |
CN111506621A (zh) | 一种数据统计方法及装置 | |
CN114049927A (zh) | 疾病数据处理方法、装置、电子设备及可读介质 | |
CN111125199B (zh) | 一种数据库访问方法、装置及电子设备 | |
CN113918605A (zh) | 数据查询方法、装置、设备以及计算机存储介质 | |
US20190034247A1 (en) | Creating alerts associated with a data storage system based on natural language requests | |
CN116450890A (zh) | 图数据处理方法、装置、系统、电子设备及存储介质 | |
CN115905630A (zh) | 一种图数据库查询方法、装置、设备及存储介质 | |
CN114218211A (zh) | 数据处理系统、方法、计算机设备以及可读存储介质 | |
CN115017392A (zh) | 访问路径分析方法、装置、设备及计算机存储介质 | |
CN110309367B (zh) | 信息分类的方法、信息处理的方法和装置 | |
Wu et al. | RIVA: A Real-Time Information Visualization and analysis platform for social media sentiment trend | |
CN112988778A (zh) | 一种处理数据库查询脚本的方法和装置 | |
Borici et al. | Semantic graph compression with hypergraphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |