CN112396462A - 基于Clickhouse的人群圈选方法及装置 - Google Patents

基于Clickhouse的人群圈选方法及装置 Download PDF

Info

Publication number
CN112396462A
CN112396462A CN202011347988.0A CN202011347988A CN112396462A CN 112396462 A CN112396462 A CN 112396462A CN 202011347988 A CN202011347988 A CN 202011347988A CN 112396462 A CN112396462 A CN 112396462A
Authority
CN
China
Prior art keywords
query
tag
clickhouse
type
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011347988.0A
Other languages
English (en)
Other versions
CN112396462B (zh
Inventor
谢俏
王志伟
杨兆辉
于为建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN202011347988.0A priority Critical patent/CN112396462B/zh
Publication of CN112396462A publication Critical patent/CN112396462A/zh
Priority to CA3140571A priority patent/CA3140571A1/en
Application granted granted Critical
Publication of CN112396462B publication Critical patent/CN112396462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0244Optimization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Fuzzy Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于Clickhouse的人群圈选方法及装置,涉及大数据技术领域,能够满足业务方对人群包快速、高效的计算性能要求。该方法包括:配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表;基于标签值的特征类型,将CH表拆分为多种类型的聚合表;获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句;采用多线程方式并行执行Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。该装置应用有上述方案所提的方法。

Description

基于Clickhouse的人群圈选方法及装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于Clickhouse的人群圈选方法及装置。
背景技术
目前,在海量的互联网数据里面圈选出的人群是否精准直接决定着广告信息投放活动的成败,通常可以通过标签化用户特征行为,并将标签作为筛选人群的条件来筛选出所需要的人群,进行实时广告信息投放,由于需要对不同人群会投放不同的广告信息,因此圈选出不同人群所使用的条件就会千变万化。
现有技术中,通过运用Elasticsearch或spark等离线计算引擎进行计算圈选,存在的缺点包括:业务方对人群包的计算性能诉求越来越高,上述计算引擎无法满足用户的准实时性能要求,且现有圈选条件的数据量达到亿级别,拉取数据耗时长,不能满足业务需要。
发明内容
本发明的目的在于提供一种基于Clickhouse的人群圈选方法及装置,能够满足业务方对人群包快速、高效的计算性能要求。
为了实现上述目的,本发明的第一方面提供一种基于Clickhouse的人群圈选方法,包括:
配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表;
基于标签值的特征类型,将CH表拆分为多种类型的聚合表;
获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句;采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。
优选地,配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表的方法包括:
通过业务系统的可视化界面配置标签信息,所述标签信息包括标签编码、标签名称和标签值三种配置信息项以及对应的标签原表数据;
自动创建spark任务处理标签原表数据,按照标签编码、标签名称和标签值的格式导入至Clickhouse引擎中的CH表。
较佳地,基于标签值的特征类型,将CH表拆分为多种类型的聚合表的方法包括:
将标签值的特征类型划分为int型、double型、string型和date型;
根据标签原表数据中标签值的特征类型,将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。
进一步地,基于标签值的特征类型,将CH表拆分为多种类型的聚合表之后还包括:
将聚合表分布在Clickhouse引擎的各个节点上,用于分布式查询。
优选地,获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句的方法包括:
通过业务系统的可视化界面选择查询标签生成sql查询条件发送至kafka;
消费sql查询条件数据,通过SparkStreaming任务接收落表并将sql查询条件转换为Clickhouse查询语句。
优选地,采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果的方法包括:
利用Spark任务采用多线程方式并行执行Clickhouse查询语句,同时从对应的聚合表获取明细数据存储于Hive表中,计算得到人群圈选查询结果。
优选地,在采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果之后还包括:
将Hive表中的明细数据存储于redis中,以供业务系统根据业务需求备用。
与现有技术相比,本发明提供的基于Clickhouse的人群圈选方法具有以下有益效果:
本发明提供的基于Clickhouse的人群圈选方法中,用户通过业务系统的后台配置标签信息并创建spark任务,以将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表,然后根据标签值的特征类型,将Clickhouse引擎中的CH表拆分为多种类型的聚合表,之后获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句,采用多线程方式并行执行Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。
可见,本发明采用Clickhouse+Spark计算引擎的方式,将标签组合条件的计算过程引入Clickhouse引擎中,通过Spark计算引擎与Clickhouse计算引擎结合生成人群包,将满足标签组合条件的明细数据的计算速度从原先分钟级提升至秒级。
本发明的第二方面提供一种基于Clickhouse的人群圈选装置,应用于上述技术方案所述的基于Clickhouse的人群圈选方法,所述装置包括:
配置单元,用于配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表;
拆表单元,用于基于标签值的特征类型,将CH表拆分为多种类型的聚合表;
查询单元,用于获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句;
处理单元,用于采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。
优选地,所述拆表单元用于将标签值的特征类型划分为int型、double型、string型和date型,根据标签原表数据中标签值的特征类型,将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。
与现有技术相比,本发明提供的基于Clickhouse的人群圈选装置的有益效果与上述技术方案提供的基于Clickhouse的人群圈选方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于Clickhouse的人群圈选方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于Clickhouse的人群圈选方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中基于Clickhouse的人群圈选方法的一种流程示意图;
图2为本发明实施例中CH表拆分成4中类型聚合表的示例图;
图3为本发明实施例中基于Clickhouse的人群圈选方法的另一种流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1-图3,本实施例提供一种基于Clickhouse的人群圈选方法,包括:
配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表;基于标签值的特征类型,将CH表拆分为多种类型的聚合表;获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句;采用多线程方式并行执行Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。
本发明提供的基于Clickhouse的人群圈选方法中,用户通过业务系统的后台配置标签信息并创建spark任务,以将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表,然后根据标签值的特征类型,将Clickhouse引擎中的CH表拆分为多种类型的聚合表,之后获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句,采用多线程方式并行执行Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。
可见,本实施例采用Clickhouse+Spark计算引擎的方式,将标签组合条件的计算过程引入Clickhouse引擎中,通过Spark计算引擎与Clickhouse计算引擎结合生成人群包,将满足标签组合条件的明细数据的计算速度从原先分钟级提升至秒级。
上述实施例中,配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表的方法包括:
通过业务系统的可视化界面配置标签信息,标签信息包括标签编码、标签名称和标签值三种配置信息项以及对应的标签原表数据;自动创建spark任务处理标签原表数据,按照标签编码、标签名称和标签值的格式导入至Clickhouse引擎中的CH表。
具体实施时,信息项可以包括标签编码、标签名称和标签值3种类型,举例说明,用户需要分析网购中某款商品男性会员的购买喜好,设定的信息项标签编码、标签名称和标签值依次labelname、labelvalue和userid,然后将标签原表数据按照上述信息项格式导入CH表中,如CH表其中的某一条数据为labelname=A、labelvalue=男(1)、userid=[1,2,3,4]。
再例如,用户需要查询年龄为18岁的男性会员人群包,可通过业务系统后台可视化配置标签A=性别(labelname=A,labelvalue=1表示男),标签B=年龄(labelname=B,labelvalue=18),得到“年龄=18&&性别=男”的sql查询条件,然后从对应聚合表中获取性别为男性的会员数据,以及年龄为18岁的会员数据,汇总计算后反馈给用户人群圈选查询结果。
上述实施例中,基于标签值的特征类型,将CH表拆分为多种类型的聚合表的方法包括:
将标签值的特征类型划分为int型、double型、string型和date型;根据标签原表数据中标签值的特征类型,将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。
如图2所示,具体实施时,通过业务系统的后台将常用的标签值特征类型划分为int型、double型、string型和date型四种,以满足不同查询条件的业务需求,然后根据标签原表数据中标签值的特征类型,将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表,也即int型标签值聚合表中的标签值特征类型均为int型,double型标签值聚合表中的标签值特征类型均为double型,其他同理。
例如,对访问次数的统计,显然其标签值特征类型为int型,支持人群包条件数据运算符为count_days>='15'and count_days<'30',也即查询15号至30号之前产生的访问次数。
例如,对用户坐标位置的统计,显然其标签值特征类型为double型,适用于坐标位置的查询,可圈选出具体经纬度坐标一定范围内的会员人群。
例如,对用户会员等级的统计,显然其标签值特征类型为string类型,适用于精准的查询匹配。
例如,对用户访问日期的统计,显然其标签值特征类型为date类型,适用于日期的比较,如首购时间大于某个日期这类场景的人群包条件。
为满足业务需要,本实施例引入四类CH聚合表,表结构如下:
Figure BDA0002800423830000071
可见,labelname的字段均为String类型,通常用于表示标签编码,labelvalue的字段可以为String类型、Int类型、double类型或者Date类型,通常用于表示标签值,uv通常用于表示标签名称。
通过上述四种类型聚合表的设置,能够根据业务情况自动从对应类型CH聚合表中获取数据提供计算服务,大幅提升了系统的计算性能。
例如,针对用户沉睡天数的标签,条件是大于多少天或者小于多少天的沉睡用户,如count_days>='15'and count_days<'30',对应选择Int类型的聚合表获取数据,并支持数据运算符。
上述实施例中,基于标签值的特征类型,将CH表拆分为多种类型的聚合表之后还包括:将聚合表分布在Clickhouse引擎的各个节点上,用于分布式查询。
具体实施时,由于聚合表为本地表,分布在Clickhouse引擎的各个节点上,可通过分布式表指向各个节点的聚合表,实现分布式查询计算。经过测试,标签数据从原表(如HDFS)导入Clickhouse引擎中,单机性能为100万/秒,性能得到了线性扩展;实测发现,500亿数据导入CH表可在一小时内完成。上述测试在Clickhouse集群环境进行,机器配置为:32核、256G、4T硬盘,使用了6台机器的集群。
上述实施例中,获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句的方法包括:
通过业务系统的可视化界面选择查询标签生成sql查询条件发送至kafka;消费sql查询条件数据,通过SparkStreaming任务接收落表并将sql查询条件转换为Clickhouse查询语句。
上述实施例中,采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果的方法包括:
利用Spark任务采用多线程方式并行执行Clickhouse查询语句,同时从对应的聚合表获取明细数据存储于Hive表中,计算得到人群圈选查询结果。
上述实施例中,在采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果之后还包括:
将Hive表中的明细数据存储于redis中,以供业务系统根据业务需求备用。
如图3所示,为便于理解,现通过以下示例对上述实施例方案做详细说明:
用户通过业务系统的页面选择查询标签生成sql查询条件发送至kafka,SparkStreaming消费对应的kafka数据,将sql转化为Clickhouse查询语句,存储至Mysql中,Spark任务从Mysql中读取为Clickhouse查询语句,然后采用多线程方式并行执行Clickhouse查询语句,从各分布式节点对应的CH聚合表中查询明细数据,并存储到Hive表中,以供业务系统查询调用,输出人群圈选查询结果。另外,还可根据业务需要将hive表中的明细数据转存到redis中,为业务系统提供其他的查询服务。
综上,本实施例具备如下创新点:
1、在标签组合条件的计算过程中引入Clickhouse引擎,通过Spark计算引擎与Clickhouse结合生成人群包,将满足标签组合条件的明细数据的速度从原先分钟级提升至秒级。
2、标签的上线下线,可通过业务系统的后台可视化配置,解决了上下线标签操作繁琐的问题。
3、利用Clickhouse的特性,解决的大数据量的聚合性能问题,提供了更好的用户体验。
4、节约硬件资源,经过前期的评估,Clickhouse所需的硬件计算资源只有elasticsearch资源的一半,在存储容量方面,相同的数据,1台Clickhouse的存储等同于27台elasticsearch的存储。
实施例二
本实施例提供一种基于Clickhouse的人群圈选装置,包括:
配置单元,用于配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表;
拆表单元,用于基于标签值的特征类型,将CH表拆分为多种类型的聚合表;
查询单元,用于获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句;
处理单元,用于采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。
优选地,所述拆表单元用于将标签值的特征类型划分为int型、double型、string型和date型,根据标签原表数据中标签值的特征类型,将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。
与现有技术相比,本发明实施例提供的基于Clickhouse的人群圈选装置的有益效果与上述实施例一提供的基于Clickhouse的人群圈选方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于Clickhouse的人群圈选方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于Clickhouse的人群圈选方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于Clickhouse的人群圈选方法,其特征在于,包括:
配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表;
基于标签值的特征类型,将CH表拆分为多种类型的聚合表;
获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句;
采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。
2.根据权利要求1所述的方法,其特征在于,配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表的方法包括:
通过业务系统的可视化界面配置标签信息,所述标签信息包括标签编码、标签名称和标签值三种配置信息项以及对应的标签原表数据;
自动创建spark任务处理标签原表数据,按照标签编码、标签名称和标签值的格式导入至Clickhouse引擎中的CH表。
3.根据权利要求2所述的方法,其特征在于,基于标签值的特征类型,将CH表拆分为多种类型的聚合表的方法包括:
将标签值的特征类型划分为int型、double型、string型和date型;
根据标签原表数据中标签值的特征类型,将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。
4.根据权利要求3所述的方法,其特征在于,基于标签值的特征类型,将CH表拆分为多种类型的聚合表之后还包括:
将聚合表分布在Clickhouse引擎的各个节点上,用于分布式查询。
5.根据权利要求4所述的方法,其特征在于,获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句的方法包括:
通过业务系统的可视化界面选择查询标签生成sql查询条件,发送至kafka;
消费sql查询条件数据,通过SparkStreaming任务接收落表并将sql查询条件转换为Clickhouse查询语句。
6.根据权利要求1-5任一项所述的方法,其特征在于,采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果的方法包括:
利用Spark任务采用多线程方式并行执行Clickhouse查询语句,同时从对应的聚合表获取明细数据存储于Hive表中,计算得到人群圈选查询结果。
7.根据权利要求1所述的方法,其特征在于,在采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果之后还包括:
将Hive表中的明细数据存储于redis中,以供业务系统根据业务需求备用。
8.一种基于Clickhouse的人群圈选装置,其特征在于,包括:
配置单元,用于配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表;
拆表单元,用于基于标签值的特征类型,将CH表拆分为多种类型的聚合表;
查询单元,用于获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句;
处理单元,用于采用多线程方式并行执行所述Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。
9.根据权利要求8所述的装置,其特征在于,所述拆表单元用于将标签值的特征类型划分为int型、double型、string型和date型,根据标签原表数据中标签值的特征类型,将CH表对应拆分成int型标签值聚合表、double型标签值聚合表、string型标签值聚合表和date型标签值聚合表。
10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,计算机程序被处理器运行时执行上述权利要求1至7任一项所述方法的步骤。
CN202011347988.0A 2020-11-26 2020-11-26 基于Clickhouse的人群圈选方法及装置 Active CN112396462B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011347988.0A CN112396462B (zh) 2020-11-26 2020-11-26 基于Clickhouse的人群圈选方法及装置
CA3140571A CA3140571A1 (en) 2020-11-26 2021-11-26 Method and apparatus for clickhouse-based crowd selection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011347988.0A CN112396462B (zh) 2020-11-26 2020-11-26 基于Clickhouse的人群圈选方法及装置

Publications (2)

Publication Number Publication Date
CN112396462A true CN112396462A (zh) 2021-02-23
CN112396462B CN112396462B (zh) 2022-11-22

Family

ID=74605283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011347988.0A Active CN112396462B (zh) 2020-11-26 2020-11-26 基于Clickhouse的人群圈选方法及装置

Country Status (2)

Country Link
CN (1) CN112396462B (zh)
CA (1) CA3140571A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590923A (zh) * 2021-07-28 2021-11-02 深圳市酷开网络科技股份有限公司 人群圈定任务拆分方法、装置、设备及存储介质
CN113724007A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 患者人群圈选方法、装置、设备及计算机可读存储介质
CN114549042A (zh) * 2022-01-10 2022-05-27 北京元年科技股份有限公司 成本分摊方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840772A (zh) * 2022-11-11 2023-03-24 中电金信软件有限公司 一种客群数据统计方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462317A (zh) * 2014-12-01 2015-03-25 苏州朗米尔照明科技有限公司 一种基于标签的数据筛选方法
WO2018014267A1 (zh) * 2016-07-20 2018-01-25 深圳市东信时代信息技术有限公司 海量人群特征数据的处理方法及系统
CN110968582A (zh) * 2019-11-01 2020-04-07 苏宁云计算有限公司 一种人群生成方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462317A (zh) * 2014-12-01 2015-03-25 苏州朗米尔照明科技有限公司 一种基于标签的数据筛选方法
WO2018014267A1 (zh) * 2016-07-20 2018-01-25 深圳市东信时代信息技术有限公司 海量人群特征数据的处理方法及系统
CN110968582A (zh) * 2019-11-01 2020-04-07 苏宁云计算有限公司 一种人群生成方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590923A (zh) * 2021-07-28 2021-11-02 深圳市酷开网络科技股份有限公司 人群圈定任务拆分方法、装置、设备及存储介质
CN113724007A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 患者人群圈选方法、装置、设备及计算机可读存储介质
CN114549042A (zh) * 2022-01-10 2022-05-27 北京元年科技股份有限公司 成本分摊方法及系统

Also Published As

Publication number Publication date
CN112396462B (zh) 2022-11-22
CA3140571A1 (en) 2022-05-26

Similar Documents

Publication Publication Date Title
CN112396462B (zh) 基于Clickhouse的人群圈选方法及装置
CN110647512B (zh) 一种数据存储和分析方法、装置、设备和可读介质
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN110347888B (zh) 订单数据的处理方法、装置及存储介质
CN111881221A (zh) 物流服务里客户画像的方法、装置和设备
CN112527920A (zh) 一种数据处理的方法和装置
CN108959458B (zh) 数据生成和使用方法、系统、介质及计算机设备
CN109033157B (zh) 一种基于自定义搜索条件树的复杂数据检索方法和系统
CN113010791B (zh) 搜索结果展示处理方法、装置及计算机可读存储介质
CN112527918A (zh) 一种数据处理的方法和装置
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
CN110062112A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN109656981B (zh) 一种数据统计方法及系统
CN112214494B (zh) 检索方法及装置
CN114880308A (zh) 一种基于大数据的元数据处理方法、装置、介质
CN111680337B (zh) Pdm系统产品设计需求信息获取方法及系统
CN101159049A (zh) 一种动态配置列的方法和系统
CN112527917A (zh) 一种数据处理的方法和装置
CN111435365A (zh) 一种数据文本化任务执行方法
CN115563385B (zh) 一种组合标签的生成方法及生成装置
CN115048059A (zh) 数据处理方法及装置
CN113468231A (zh) 用户群规模估计方法、装置、电子设备及可读存储介质
CN118069680A (zh) 数据处理方法和系统、电子设备及存储介质
CN112527919A (zh) 一种数据处理的方法和装置
CN112732841A (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant