CN116501778A

CN116501778A - 基于ClickHouse的实时用户行为数据分析方法

Info

Publication number: CN116501778A
Application number: CN202310546206.3A
Authority: CN
Inventors: 王士义
Original assignee: Hubei Zhendao Digital Intelligent Technology Co ltd
Current assignee: Hubei Zhendao Digital Intelligent Technology Co ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-07-28

Abstract

本发明公开了基于ClickHouse的实时用户行为数据分析方法，属于数据分析技术领域，包括事件分析、漏斗分析、留存分析、归因分析、用户路径分析、属性分析和间隔分析，其中，漏斗分析用于计算目标用户在一系列设定点击事件中的表现，留存分析用于计算指定时间段内用户留存的情况，归因分析则用于计算待归因事件的点击次数、有效用户数和转化值；用户路径分析旨在了解不同点击事件的组合情况，属性分析可根据设定属性或标签来筛选特定用户集合，并得出各属性或标签的出现比例；间隔分析用于计算用户的转化时间和存在信息的间隔，从而深入挖掘用户行为数据背后的含义和规律；本发明为实时用户行为管理提供了更全面的分析手段。

Description

基于ClickHouse的实时用户行为数据分析方法

技术领域

本发明涉及数据分析技术领域，具体涉及基于ClickHouse的实时用户行为数据分析方法。

背景技术

当前互联网飞速发展的背景下，大量用户数据产生，大数据计算能力也随之快速发展。对于数据分析、营销、数据挖掘、推荐算法等数据应用场景，实时数据存储和分析能力需求与日俱增。传统关系型数据库对于海量数据处理已捉襟见肘，因此，海量数据分析的系统应运而生，其中基于Hadoop和Hive构建出的大数据平台应用最为广泛。

使用Hive作为计算引擎，其基于磁盘计算的特性决定了只能用于离线数据分析，动辄几分钟甚至几小时的计算时间让其很难应用在实时查询的场景上，而且基于HDFS的数据存储也无法做数据的实时接入。

Apache Spark可以很好地集成Hadoop和Hive，解决了磁盘性能瓶颈，但是其仍然摆脱不了基于HDFS存储数据无法实时入库的缺陷，即使使用数据湖解决方案，也无法实现数据的实时入库。

基于Impala和Kudu的方案，缺陷也十分明显，Kudu随着数据量越来越大，其服务启动速度、数据加载速度会急剧下降。虽然其可以通过将冷热数据分开存储，将不经常使用的冷数据迁移至HDFS中存储，Kudu中只保留热数据，但是同时维护两种存储方式以及查询数据时同时使用两种存储结构的数据，在维护成本和使用成本都是不小的开销。同时，基于Impala的计算也存在性能瓶颈，有时还得直接操作不支持SQL的Kudu。

发明内容

本发明的目的在于提供基于ClickHouse的实时用户行为数据分析方法，解决以下技术问题：

现有的数据分析方案维护成本和使用成本较高，且存在性能瓶颈。

本发明的目的可以通过以下技术方案实现：

基于ClickHouse的实时用户行为数据分析方法，包括以下步骤：

事件分析：获取用户n天内的行为数据，n为正整数，筛选出符合设定标签的用户id，提取同时符合所有标签的用户标记为目标用户，通过group by聚合函数和bitmapBuild函数将目标用户id压缩为Bitmap集合；

漏斗分析：通过ClickHouse查询在n天内进行若干设定点击事件的目标用户，按照日期对点击事件进行分类汇总统计；

留存分析：获取目标用户任一天内触发的浏览事件和点击事件，统计当天目标用户的漏斗转化率，以日期顺序输出n天内的用户行为数据；

归因分析：根据所述用户行为数据计算出待归因事件的总点击次数、有效点击数、有效用户数和目标转化次数；

用户路径分析：将设定点击事件按时间顺序生成事件序列，将事件序列分割成多个子链，将每个子链按照时间顺序分割成多个session，并统计每个session中点击事件的出现次数；

属性分析：筛选符合设定属性和标签的用户集合，统计用户集合中属性和标签的出现次数，按照出现次数进行排序分为两类，统计每一类中属性和标签值的出现次数和出现比例；

间隔分析：将所述事件序列拼接成一个新的事件序列，从新事件序列中提取出转化时长信息，计算出n天内每个日期的转化数据。

作为本发明进一步的方案：所述漏斗分析具体包括：

查询在n天内进行若干设定点击事件的用户，所述点击事件之间依次为递进关系，每个点击事件均有对应的分层标签，计算每一分层标签对应的用户数量，统计n天内所有进行设定点击时间的用户总数，进行漏斗分析，得到每个用户的每个点击事件的转化漏斗情况，编制成level_index数组，按照用户id和事件日期分组，对level_index数组的各项进行求和，将所有用户id所获得的统计结果再取一次sum聚合函数生成漏斗分析总计数据。

作为本发明进一步的方案：所述留存分析具体包括：

使用窗口函数和分组操作来统计目标用户在某一天内触发了浏览事件和相应点击事件的时间和次数，计算浏览事件与点击事件之间的时间差，并计算出目标用户在漏斗转化路径中所处的位置，根据返回结果再次聚合，统计在某一天内特定用户群体的漏斗转化率，包括从某个状态到另一状态的转化次数，最后按照事件日期、事件剩余日期、日期差值将结果进行分组并计算出每组内的总次数。

作为本发明进一步的方案：所述归因分析具体包括：

通过查询命令返回设定点击事件以及总点击次数、有效点击数、有效用户数和目标转化次数；

通过语法WITH AS对用户行为数据中的点击事件进行排序和整理，按时间顺序排列并形成了一个有序的事件序列；

查询命令使用ARRAY JOIN操作将每个用户的不同行为重新组合成新的事件序列，并进行过滤；

利用GROUP BY操作将所有行为按照每个用户进行分组，算出每个用户在待归因事件中的指标：待归因事件总数、有效点击数、转化次数以及有效用户数；

最后通过SELECT查询命令返回每个用户的指标总和，构成所有用户行为的汇总数据。

作为本发明进一步的方案：所述用户路径分析具体包括：

设定点击事件按时间顺序生成事件序列，并按照用户ID分组，从事件序列中筛选出包含设定点击事件的子链；

将子链中相邻的事件组成元组，得到一个新的数组；将元组根据首个元素的大小进行排序，并筛选出第一个元素大于等于设定点击事件时间点的元素，去除数组中的NULL元素，并标记出分割点；

将子链按照分割点分割成多个session；统计每个session中点击事件的出现次数，返回分割后的子链、session和设定点击事件出现次数。

作为本发明进一步的方案：所述属性分析具体包括：

获取用户的属性和标签，并进行去重，筛选符合设定属性和标签的用户集合，统计每个属性和标签值的出现次数；

按照出现次数进行排序，得到每个属性和标签值的出现次数；

将出现次数排名前m名的属性和标签值作为一类，m为正整数，剩下的属性和标签值作为另一类；

统计每一类中每个属性和标签值在所有用户中出现的比例；

返回统计结果，包括属性和标签值、出现次数和出现比例。

作为本发明进一步的方案：所述间隔分析具体包括：

使用ARRAY SPLIT把每条记录按照事件类型分离成不同的数组元素，并按照事件发生时间进行排序，然后通过ARRAY JOIN操作把所有用户的数据链接成一个大的关系型表格，所述记录为某个用户在某个日期内完成的所有事件；

使用ARRAY REVERSESPLIT和ARRAYMAP操作把每个用户的行为序列重新排列配对，将配对后的事件用ARRAYJOIN连接起来并按照事件发生时间进行排序生成新的事件序列。

作为本发明进一步的方案：从所述用户行为数据和新的事件序列中对每个用户在n天内的转化时间进行了统计计算；按照日期顺序对转化时间进行了分组聚合，获得每个日期的转化用户数、人均转化时间、最小值、最大值、四分之一点、中位数和四分之三点。

本发明的有益效果：

（1）本发明利用ClickHouse特性，通过构建BitMap对用户数据做快速聚合、交并集、总数计算等，相对于传统的计算方式，在节省计算资源的同时，大幅提升计算效率；

（2）本发明通过巧妙地结合数组函数、窗口函数等，避免了通过传统的先join匹配再过滤筛选计算的方式，实现了对用户行为序列分析、有时间窗口需求的分析模型；

（3）本发明基于ClickHouse实现了多种分析模型，如事件分析、漏斗分析、留存分析、归因分析、分布分析、用户路径、属性分析、间隔分析等，满足了对用户行为数据的多维度分析需求。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为基于ClickHouse的实时用户行为数据分析方法，包括以下步骤：

在本发明的一种优选的实施例中，所述漏斗分析具体包括：

查询在n天内进行若干设定点击事件的用户，包括click_null、click02、click03，所述点击事件之间依次为递进关系，每个点击事件均有对应的分层标签，计算每一分层标签对应的用户数量，统计n天内所有进行设定点击时间的用户总数，进行漏斗分析，得到每个用户的每个点击事件的转化漏斗情况，编制成level_index数组，按照用户id和事件日期分组，对level_index数组的各项进行求和，将所有用户id所获得的统计结果再取一次sum聚合函数生成漏斗分析总计数据。

在本发明的另一种优选的实施例中，所述留存分析具体包括：

在本发明的另一种优选的实施例中，所述归因分析具体包括：

在本发明的另一种优选的实施例中，所述用户路径分析具体包括：

在本发明的另一种优选的实施例中，所述属性分析具体包括：

统计每一类中每个属性和标签值在所有用户中出现的比例；

返回统计结果，包括属性和标签值、出现次数和出现比例。

在本发明的另一种优选的实施例中，所述间隔分析具体包括：

在本实施例的一种优选的情况中，从所述用户行为数据和新的事件序列中对每个用户在n天内的转化时间进行了统计计算；按照日期顺序对转化时间进行了分组聚合，获得每个日期的转化用户数、人均转化时间、最小值、最大值、四分之一点、中位数和四分之三点。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.基于ClickHouse的实时用户行为数据分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于ClickHouse的实时用户行为数据分析方法，其特征在于，所述漏斗分析具体包括：

3.根据权利要求1所述的基于ClickHouse的实时用户行为数据分析方法，其特征在于，所述留存分析具体包括：

4.根据权利要求1所述的基于ClickHouse的实时用户行为数据分析方法，其特征在于，所述归因分析具体包括：

5.根据权利要求1所述的基于ClickHouse的实时用户行为数据分析方法，其特征在于，所述用户路径分析具体包括：

6.根据权利要求1所述的基于ClickHouse的实时用户行为数据分析方法，其特征在于，所述属性分析具体包括：

统计每一类中每个属性和标签值在所有用户中出现的比例；

返回统计结果，包括属性和标签值、出现次数和出现比例。

7.根据权利要求1所述的基于ClickHouse的实时用户行为数据分析方法，其特征在于，所述间隔分析具体包括：

8.根据权利要求7所述的基于ClickHouse的实时用户行为数据分析方法，其特征在于，从所述用户行为数据和新的事件序列中对每个用户在n天内的转化时间进行了统计计算；按照日期顺序对转化时间进行了分组聚合，获得每个日期的转化用户数、人均转化时间、最小值、最大值、四分之一点、中位数和四分之三点。