CN112396462A

CN112396462A - 基于Clickhouse的人群圈选方法及装置

Info

Publication number: CN112396462A
Application number: CN202011347988.0A
Authority: CN
Inventors: 谢俏; 王志伟; 杨兆辉; 于为建
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-02-23
Anticipated expiration: 2040-11-26
Also published as: CN112396462B; CA3140571A1

Abstract

本发明公开一种基于Clickhouse的人群圈选方法及装置，涉及大数据技术领域，能够满足业务方对人群包快速、高效的计算性能要求。该方法包括：配置标签信息创建spark任务，将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表；基于标签值的特征类型，将CH表拆分为多种类型的聚合表；获取用户的查询标签生成sql查询条件，并转换为Clickhouse查询语句；采用多线程方式并行执行Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果。该装置应用有上述方案所提的方法。

Description

基于Clickhouse的人群圈选方法及装置

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于Clickhouse的人群圈选方法及装置。

背景技术

目前，在海量的互联网数据里面圈选出的人群是否精准直接决定着广告信息投放活动的成败，通常可以通过标签化用户特征行为，并将标签作为筛选人群的条件来筛选出所需要的人群，进行实时广告信息投放，由于需要对不同人群会投放不同的广告信息，因此圈选出不同人群所使用的条件就会千变万化。

现有技术中，通过运用Elasticsearch或spark等离线计算引擎进行计算圈选，存在的缺点包括：业务方对人群包的计算性能诉求越来越高，上述计算引擎无法满足用户的准实时性能要求，且现有圈选条件的数据量达到亿级别，拉取数据耗时长，不能满足业务需要。

发明内容

本发明的目的在于提供一种基于Clickhouse的人群圈选方法及装置，能够满足业务方对人群包快速、高效的计算性能要求。

为了实现上述目的，本发明的第一方面提供一种基于Clickhouse的人群圈选方法，包括：

配置标签信息创建spark任务，将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表；

基于标签值的特征类型，将CH表拆分为多种类型的聚合表；

获取用户的查询标签生成sql查询条件，并转换为Clickhouse查询语句；采用多线程方式并行执行所述Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果。

优选地，配置标签信息创建spark任务，将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表的方法包括：

通过业务系统的可视化界面配置标签信息，所述标签信息包括标签编码、标签名称和标签值三种配置信息项以及对应的标签原表数据；

自动创建spark任务处理标签原表数据，按照标签编码、标签名称和标签值的格式导入至Clickhouse引擎中的CH表。

较佳地，基于标签值的特征类型，将CH表拆分为多种类型的聚合表的方法包括：

将标签值的特征类型划分为int型、double型、string型和date型；

根据标签原表数据中标签值的特征类型，将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。

进一步地，基于标签值的特征类型，将CH表拆分为多种类型的聚合表之后还包括：

将聚合表分布在Clickhouse引擎的各个节点上，用于分布式查询。

优选地，获取用户的查询标签生成sql查询条件，并转换为Clickhouse查询语句的方法包括：

通过业务系统的可视化界面选择查询标签生成sql查询条件发送至kafka；

消费sql查询条件数据，通过SparkStreaming任务接收落表并将sql查询条件转换为Clickhouse查询语句。

优选地，采用多线程方式并行执行所述Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果的方法包括：

利用Spark任务采用多线程方式并行执行Clickhouse查询语句，同时从对应的聚合表获取明细数据存储于Hive表中，计算得到人群圈选查询结果。

优选地，在采用多线程方式并行执行所述Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果之后还包括：

将Hive表中的明细数据存储于redis中，以供业务系统根据业务需求备用。

与现有技术相比，本发明提供的基于Clickhouse的人群圈选方法具有以下有益效果：

本发明提供的基于Clickhouse的人群圈选方法中，用户通过业务系统的后台配置标签信息并创建spark任务，以将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表，然后根据标签值的特征类型，将Clickhouse引擎中的CH表拆分为多种类型的聚合表，之后获取用户的查询标签生成sql查询条件，并转换为Clickhouse查询语句，采用多线程方式并行执行Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果。

可见，本发明采用Clickhouse+Spark计算引擎的方式，将标签组合条件的计算过程引入Clickhouse引擎中，通过Spark计算引擎与Clickhouse计算引擎结合生成人群包，将满足标签组合条件的明细数据的计算速度从原先分钟级提升至秒级。

本发明的第二方面提供一种基于Clickhouse的人群圈选装置，应用于上述技术方案所述的基于Clickhouse的人群圈选方法，所述装置包括：

配置单元，用于配置标签信息创建spark任务，将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表；

拆表单元，用于基于标签值的特征类型，将CH表拆分为多种类型的聚合表；

查询单元，用于获取用户的查询标签生成sql查询条件，并转换为Clickhouse查询语句；

处理单元，用于采用多线程方式并行执行所述Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果。

优选地，所述拆表单元用于将标签值的特征类型划分为int型、double型、string型和date型，根据标签原表数据中标签值的特征类型，将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。

与现有技术相比，本发明提供的基于Clickhouse的人群圈选装置的有益效果与上述技术方案提供的基于Clickhouse的人群圈选方法的有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于Clickhouse的人群圈选方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于Clickhouse的人群圈选方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例中基于Clickhouse的人群圈选方法的一种流程示意图；

图2为本发明实施例中CH表拆分成4中类型聚合表的示例图；

图3为本发明实施例中基于Clickhouse的人群圈选方法的另一种流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1-图3，本实施例提供一种基于Clickhouse的人群圈选方法，包括：

配置标签信息创建spark任务，将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表；基于标签值的特征类型，将CH表拆分为多种类型的聚合表；获取用户的查询标签生成sql查询条件，并转换为Clickhouse查询语句；采用多线程方式并行执行Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果。

可见，本实施例采用Clickhouse+Spark计算引擎的方式，将标签组合条件的计算过程引入Clickhouse引擎中，通过Spark计算引擎与Clickhouse计算引擎结合生成人群包，将满足标签组合条件的明细数据的计算速度从原先分钟级提升至秒级。

上述实施例中，配置标签信息创建spark任务，将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表的方法包括：

通过业务系统的可视化界面配置标签信息，标签信息包括标签编码、标签名称和标签值三种配置信息项以及对应的标签原表数据；自动创建spark任务处理标签原表数据，按照标签编码、标签名称和标签值的格式导入至Clickhouse引擎中的CH表。

具体实施时，信息项可以包括标签编码、标签名称和标签值3种类型，举例说明，用户需要分析网购中某款商品男性会员的购买喜好，设定的信息项标签编码、标签名称和标签值依次labelname、labelvalue和userid，然后将标签原表数据按照上述信息项格式导入CH表中，如CH表其中的某一条数据为labelname＝A、labelvalue＝男(1)、userid＝[1,2,3,4]。

再例如，用户需要查询年龄为18岁的男性会员人群包，可通过业务系统后台可视化配置标签A＝性别(labelname＝A,labelvalue＝1表示男)，标签B＝年龄(labelname＝B,labelvalue＝18)，得到“年龄＝18&&性别＝男”的sql查询条件，然后从对应聚合表中获取性别为男性的会员数据，以及年龄为18岁的会员数据，汇总计算后反馈给用户人群圈选查询结果。

上述实施例中，基于标签值的特征类型，将CH表拆分为多种类型的聚合表的方法包括：

将标签值的特征类型划分为int型、double型、string型和date型；根据标签原表数据中标签值的特征类型，将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。

如图2所示，具体实施时，通过业务系统的后台将常用的标签值特征类型划分为int型、double型、string型和date型四种，以满足不同查询条件的业务需求，然后根据标签原表数据中标签值的特征类型，将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表，也即int型标签值聚合表中的标签值特征类型均为int型，double型标签值聚合表中的标签值特征类型均为double型，其他同理。

例如，对访问次数的统计，显然其标签值特征类型为int型，支持人群包条件数据运算符为count_days>＝'15'and count_days<'30'，也即查询15号至30号之前产生的访问次数。

例如，对用户坐标位置的统计，显然其标签值特征类型为double型，适用于坐标位置的查询，可圈选出具体经纬度坐标一定范围内的会员人群。

例如，对用户会员等级的统计，显然其标签值特征类型为string类型，适用于精准的查询匹配。

例如，对用户访问日期的统计，显然其标签值特征类型为date类型，适用于日期的比较，如首购时间大于某个日期这类场景的人群包条件。

为满足业务需要，本实施例引入四类CH聚合表，表结构如下：

可见，labelname的字段均为String类型，通常用于表示标签编码，labelvalue的字段可以为String类型、Int类型、double类型或者Date类型，通常用于表示标签值，uv通常用于表示标签名称。

通过上述四种类型聚合表的设置，能够根据业务情况自动从对应类型CH聚合表中获取数据提供计算服务，大幅提升了系统的计算性能。

例如，针对用户沉睡天数的标签，条件是大于多少天或者小于多少天的沉睡用户，如count_days>＝'15'and count_days<'30'，对应选择Int类型的聚合表获取数据，并支持数据运算符。

上述实施例中，基于标签值的特征类型，将CH表拆分为多种类型的聚合表之后还包括：将聚合表分布在Clickhouse引擎的各个节点上，用于分布式查询。

具体实施时，由于聚合表为本地表，分布在Clickhouse引擎的各个节点上，可通过分布式表指向各个节点的聚合表，实现分布式查询计算。经过测试，标签数据从原表(如HDFS)导入Clickhouse引擎中，单机性能为100万/秒，性能得到了线性扩展；实测发现，500亿数据导入CH表可在一小时内完成。上述测试在Clickhouse集群环境进行，机器配置为：32核、256G、4T硬盘，使用了6台机器的集群。

上述实施例中，获取用户的查询标签生成sql查询条件，并转换为Clickhouse查询语句的方法包括：

通过业务系统的可视化界面选择查询标签生成sql查询条件发送至kafka；消费sql查询条件数据，通过SparkStreaming任务接收落表并将sql查询条件转换为Clickhouse查询语句。

上述实施例中，采用多线程方式并行执行所述Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果的方法包括：

上述实施例中，在采用多线程方式并行执行所述Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果之后还包括：

如图3所示，为便于理解，现通过以下示例对上述实施例方案做详细说明：

用户通过业务系统的页面选择查询标签生成sql查询条件发送至kafka，SparkStreaming消费对应的kafka数据，将sql转化为Clickhouse查询语句，存储至Mysql中，Spark任务从Mysql中读取为Clickhouse查询语句，然后采用多线程方式并行执行Clickhouse查询语句，从各分布式节点对应的CH聚合表中查询明细数据，并存储到Hive表中，以供业务系统查询调用，输出人群圈选查询结果。另外，还可根据业务需要将hive表中的明细数据转存到redis中，为业务系统提供其他的查询服务。

综上，本实施例具备如下创新点：

1、在标签组合条件的计算过程中引入Clickhouse引擎，通过Spark计算引擎与Clickhouse结合生成人群包，将满足标签组合条件的明细数据的速度从原先分钟级提升至秒级。

2、标签的上线下线，可通过业务系统的后台可视化配置，解决了上下线标签操作繁琐的问题。

3、利用Clickhouse的特性，解决的大数据量的聚合性能问题，提供了更好的用户体验。

4、节约硬件资源，经过前期的评估，Clickhouse所需的硬件计算资源只有elasticsearch资源的一半，在存储容量方面，相同的数据，1台Clickhouse的存储等同于27台elasticsearch的存储。

实施例二

本实施例提供一种基于Clickhouse的人群圈选装置，包括：

与现有技术相比，本发明实施例提供的基于Clickhouse的人群圈选装置的有益效果与上述实施例一提供的基于Clickhouse的人群圈选方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于Clickhouse的人群圈选方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于Clickhouse的人群圈选方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于Clickhouse的人群圈选方法，其特征在于，包括：

基于标签值的特征类型，将CH表拆分为多种类型的聚合表；

获取用户的查询标签生成sql查询条件，并转换为Clickhouse查询语句；

采用多线程方式并行执行所述Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果。

2.根据权利要求1所述的方法，其特征在于，配置标签信息创建spark任务，将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表的方法包括：

3.根据权利要求2所述的方法，其特征在于，基于标签值的特征类型，将CH表拆分为多种类型的聚合表的方法包括：

将标签值的特征类型划分为int型、double型、string型和date型；

4.根据权利要求3所述的方法，其特征在于，基于标签值的特征类型，将CH表拆分为多种类型的聚合表之后还包括：

5.根据权利要求4所述的方法，其特征在于，获取用户的查询标签生成sql查询条件，并转换为Clickhouse查询语句的方法包括：

通过业务系统的可视化界面选择查询标签生成sql查询条件，发送至kafka；

6.根据权利要求1-5任一项所述的方法，其特征在于，采用多线程方式并行执行所述Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果的方法包括：

7.根据权利要求1所述的方法，其特征在于，在采用多线程方式并行执行所述Clickhouse查询语句，从对应类型的聚合表中获取查询明细数据存储于Hive表中，得到人群圈选查询结果之后还包括：

8.一种基于Clickhouse的人群圈选装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述拆表单元用于将标签值的特征类型划分为int型、double型、string型和date型，根据标签原表数据中标签值的特征类型，将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。

10.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至7任一项所述方法的步骤。