CN112286927A - 查询用户数据的方法、装置及存储介质 - Google Patents

查询用户数据的方法、装置及存储介质 Download PDF

Info

Publication number
CN112286927A
CN112286927A CN201910678387.9A CN201910678387A CN112286927A CN 112286927 A CN112286927 A CN 112286927A CN 201910678387 A CN201910678387 A CN 201910678387A CN 112286927 A CN112286927 A CN 112286927A
Authority
CN
China
Prior art keywords
user
data
tags
user data
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910678387.9A
Other languages
English (en)
Inventor
刘春龙
王能
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN201910678387.9A priority Critical patent/CN112286927A/zh
Publication of CN112286927A publication Critical patent/CN112286927A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种查询用户数据的方法、装置及存储介质。其中,该方法,包括:根据用于定义用户群体的多个标签,筛选与所述多个标签相关联的索引,其中所述索引与用户数据对应;以及查询与所筛选的索引对应的用户数据。从而,通过这种方式,可以根据多个标签筛选出目标索引,并基于筛选出的索引快速的进行用户数据的查询,大大提高了用户数据的查询效率。同时,由于不再需要在原始数据基础上先行转换为用户标签数据,并存储用户标签数据,因此不会存在数据冗余计算问题。进而解决了现有技术中存在的通过将用户标签与用户标签数据一一对比来查询用户数据的方式,容易导致查询效率低下以及数据冗余计算问题。

Description

查询用户数据的方法、装置及存储介质
技术领域
本申请涉及数据查询领域,特别是涉及一种查询用户数据的方法、装置及存储介质。
背景技术
在互联网、电商、金融行业,随着用户获取的逐渐增多,在公司内部产生海量的数据资源,来自不同产品,不同业务的数据,存储在不同的数据集群存储方案中。为了进行精准营销、交叉销售、二次营销、失效打捞等用户筛选工作,需要多次筛选符合条件的用户数据。
现有技术,一般会先在原始数据基础上先行转换为用户标签数据,然后将转换得到的用户标签数据存储在分布式系统中。当系统收到查询用户的请求,会将用户的标签内容发送至各个分布式系统节点,根据标签的条件遍历所有用户的标签数据,一一对比,然后再将命中的数据,返回给分布式主节点,汇总结果数据,返回给查询结果。通过上述方式进行用户数据的查询,由于将用户的原始数据计算后转为用户标签数据进行保存,一方面存在数据冗余计算问题。另一方面,逐个对比用户数据,在海量的用户查询中,查询效率低下。
针对上述的现有技术中存在的通过将用户标签与用户标签数据一一对比来查询用户数据的方式,容易导致查询效率低下以及数据冗余计算问题的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种查询用户数据的方法、装置及存储介质,以至少解决现有技术中存在的通过将用户标签与用户标签数据一一对比来查询用户数据的方式,容易导致查询效率低下以及数据冗余计算问题的技术问题。
根据本公开实施例的一个方面,提供了一种查询用户数据的方法,包括:根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引,其中索引与用户数据对应;以及查询与所筛选的索引对应的用户数据。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的另一个方面,还提供了一种查询用户数据的装置,包括:筛选模块,用于根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引,其中索引与用户数据对应;以及查询模块,用于查询与所筛选的索引对应的用户数据。
根据本公开实施例的另一个方面,还提供了一种查询用户数据的装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引,其中索引与用户数据对应;以及查询与所筛选的索引对应的用户数据。
在本公开实施例中,首先根据用于定义用户群体的多个标签,筛选出与多个标签相关联的索引。然后查询与所筛选的索引对应的用户数据。从而,通过这种方式,可以根据多个标签筛选出目标索引,并基于筛选出的索引快速的进行用户数据的查询,大大提高了用户数据的查询效率。同时,由于不再需要在原始数据基础上先行转换为用户标签数据,并存储用户标签数据,因此不会存在数据冗余计算问题。进而解决了现有技术中存在的通过将用户标签与用户标签数据一一对比来查询用户数据的方式,容易导致查询效率低下以及数据冗余计算问题。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的【计算机终端(或移动设备)】的硬件结构框图;
图2是根据本公开实施例1的第一个方面所述的查询用户数据的方法的流程示意图;
图3是根据本公开实施例1的第一个方面所述的确定用于定义用户群体的多个标签的流程示意图;
图4是根据本公开实施例2所述的查询用户数据的装置的示意图;以及
图5是根据本公开实施例3所述的查询用户数据的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本实施例,提供了一种查询用户数据的方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现查询用户数据的方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中的查询用户数据的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的查询用户数据的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种查询用户数据的方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引,其中索引与用户数据对应;以及
S204:查询与所筛选的索引对应的用户数据。
正如前面背景技术中所述的,一般会先在原始数据基础上先行转换为用户标签数据,然后将转换得到的用户标签数据存储在分布式系统中。当系统收到查询用户的请求,会将用户的标签内容发送至各个分布式系统节点,根据标签的条件遍历所有用户的标签数据,一一对比,然后再将命中的数据,返回给分布式主节点,汇总结果数据,返回给查询结果。通过上述方式进行用户数据的查询,由于将用户的原始数据计算后转为用户标签数据进行保存,一方面存在数据冗余计算问题。另一方面,逐个对比用户数据,在海量的用户查询中,查询效率低下。
针对上述背景技术中存在的问题,结合图2所示,本实施例根据用于定义用户群体的多个标签,筛选出与多个标签相关联的索引。其中索引与用户数据对应。在将用户数据存储至数据库时,会赋予每一用户数据一条索引,同时将用户数据与索引进行存储,使得可以通过索引快速的查找到相应的用户数据。在筛选出与多个标签相关联的索引之后,查询与所筛选的索引对应的用户数据。例如在预先存储有用户全量的原始数据的数据库或者服务器中快速的查询与索引对应的用户数据。
从而,通过这种方式,可以根据多个标签筛选出目标索引,并基于筛选出的索引快速的进行用户数据的查询,大大提高了用户数据的查询效率。同时,由于不再需要在原始数据基础上先行转换为用户标签数据,并存储用户标签数据,因此不会存在数据冗余计算问题。进而解决了现有技术中存在的通过将用户标签与用户标签数据一一对比来查询用户数据的方式,容易导致查询效率低下以及数据冗余计算问题。
可选地,根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引的操作,包括:根据多个标签,生成搜索服务器的查询语句,其中搜索服务器预先存储有多个用户数据以及分别与多个用户数据相关联的多个索引;根据查询语句,从搜索服务器中筛选出与多个标签相关联的索引;以及查询与所筛选的索引对应的用户数据的操作,包括:在搜索服务器中查询与所筛选的索引对应的用户数据。
具体地,首先根据多个标签生成搜索服务器的查询语句。其中搜索服务器预先存储有多个用户数据以及分别与多个用户数据相关联的多个索引。搜索服务器例如但不限于为Elasticsearch服务器或solr服务器。也可以是其他支持基于索引进行快速搜索数据的搜索服务器。然后根据查询语句,从搜索服务器中筛选出与多个标签相关联的索引。最后在搜索服务器中查询与所筛选的索引对应的用户数据。从而,通过这种方式,可以基于索引在预先存储有多个用户数据的搜索服务器中快速的进行用户数据的查询,大大提高了用户数据的查询效率。同时,由于不再需要在原始数据基础上先行转换为用户标签数据,并在搜索服务器中存储用户标签数据,因此不会存在数据冗余计算问题。
可选地,搜索服务器为Elasticsearch服务器,并且查询语句为DSL查询语句。
具体地,Elasticsearch服务器是一个分布式的RESTful风格的搜索和数据分析引擎,以lucene开源框架为底层搜索引擎,支持数据的快速搜索以及存储。本实施例将使用Elasticsearch服务器来存储用户多维度的原始数据,同时使用Elasticsearch服务器支持的DSL查询语句来进行用户数据的查询操作。
可选地,多个标签包含基础标签以及组合标签,其中基础标签用于定义与一个数据列相关的一个或多个约束条件,组合标签由一个或多个被选定约束条件的基础标签组成,并且根据多个标签,生成搜索服务器的查询语句的操作,包括:将基础标签转换为第一DSL查询语句;将组合标签转换为第二DSL查询语句;以及以逻辑与的关系拼接第一DSL查询语句以及第二DSL查询语句,生成Elasticsearch服务器的DSL查询语句。
具体地,由于DSL查询语句要求使用json或者xml文件格式进行查询和结果返回,不利于非开发人员搜索、查询和分析数据。所以,本实施例依据业务特征将用户数据在计算机内部存储的特性作为一个查询模块单元,建立独立的范围或者区间体系。首先根据数据的存储字段类型,比如数字、时间日期、字符串等定义几种特定规则范式,需要满足各个系统对用户群体筛选使用的约束条件,同时满足每一个查询模块的区间或者范围条件都能够转换为DSL查询语言支持的DSL查询语句。将多个查询模块进行拼接后的多个标签转换为支持Elasticsearch服务器查询的DSL查询语句,从而快速搜索到用户数据。
进一步地,多个标签例如但不限于可以为复合标签,复合标签包含基础标签以及组合标签。其中基础标签为用标签的方式来描述用户的某一列数据。组合标签为用一个或者多个基础标签组合起来描述数据。复合标签为用一个或者多个基础标签和组合标签组合起来描述数据。
进一步地,根据每种基础标签的规则范式,将复合标签内的若干个基础标签和组合标签,逐个映射成Elasticsearch服务器可识别的DSL查询条件,以逻辑与的关系组成一个完整的用户群体筛选条件,根据DSL查询语句,从Elasticsearch服务器中筛选出与所述复合标签相关联的索引,进而在预先存储有用户全量原始数据的索引上,筛选出目标用户数据。下游系统可以根据这个用户群体的用户数据进行具体的业务操作。
进一步地,需要将基础标签转换为第一DSL查询语句,将组合标签转换为第二DSL查询语句,以及以逻辑与的关系拼接第一DSL查询语句以及第二DSL查询语句,生成Elasticsearch服务器的DSL查询语句。其中,将多个标签(复合标签)转换为DSL查询语句的过程,是将基础标签、组合标签分别转换为第一DSL查询语句以及第二DSL查询语句,并以逻辑与的关系拼接。
此外,组合标签转换为第二DSL查询语句的过程,也是将其内部的基础标签逐个转换为DSL查询语句,然后再以逻辑与的关系拼接成第二DSL查询语句。以数值区间标签类型的年龄区间基础标签为例,需要将选中的基础标签以DSL查询语句的range查询方式进行拼接语句,若是选中多个区间范围,则可以使用多个range查询语句,外层使用should过滤查询语句包裹。以散列基础标签类型的手机号码归属地基础标签为例,若是选择了多个值,则使用DSL查询语言的terms查询语句。若是选中了一个值,则使用DSL查询语句的term查询语句。
从而,通过这种方式,可以根据多个标签,生成Elasticsearch服务器的DSL查询语句,进而根据DSL查询语句,在搜索服务器中筛选出与多个标签相关联的索引,并在搜索服务器中快速地查询与所筛选的索引对应的用户数据。
可选地,还包括:根据所查询到的用户数据,对用户群体的用户画像进行聚合统计。
具体地,本实施例同时支持对查询到的用户数据进行多维度的用户画像的聚合统计,实现数据的一次存储,多次使用,防止数据冗余保存和筛选查询系统的重复性建设。
可选地,根据所查询到的用户数据,对用户群体的用户画像进行聚合统计的操作,包括:根据所查询到的用户数据,确定与基础标签包含的各项标签对应的标签值;根据标签值,确定用户群体的统计方向;以及根据统计方向,对用户群体的用户画像进行聚合统计。
具体地,本实施例的一方面可以根据基础标签和组合标签组成的复合标签作为条件筛选出用户数据,即确定用户群体的集合,另一方面,可以由基础标签的各种不同标签值构成一个用户群体的不同统计方向,在复合标签查询条件筛选后的基础上进行用户属性数据的各项标签值的聚合统计。这个数据聚合统计,就是这个复合标签查询条件筛选出来的用户群体集合的精准用户画像。
其中,用户数据属性的不同维度主要包括:用户基本信息维度、用户业务数据维度等多个维度。不同维度的数据关系,有可能是一对一或者一对多的关系。为了满足不同维度的查询筛选条件同时查询,在Elasticsearch服务器中存储时,将使用同一个index索引存储,方便在查询阶段,快速锁定目标用户群体。
此外,预先存储在Elasticsearch服务器中的索引所对应的用户各个维度的数据,依据数据维度不同,可以以宽表或者嵌套(nested)的方式进行存储。index索引对应的用户数据可能存储在不同的数据源,需要每日将所有相关数据同步到index索引中。
可选地,还包括:将聚合统计得到的统计结果进行可视化图表展示。
具体地,可以将聚合统计得到的统计结果(即精准用户画像)以图表的形式进行可视化展示。从而,通过这种方式,可以更直观对所筛选出来的用户数据对应的用户群体的用户画像进行浏览。
可选地,根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引的操作之前,还包括:确定用于定义用户群体的多个标签。
具体地,在筛选与多个标签相关联的索引的操作之前,需要确定用于定义用户群体的多个标签。即确定用于定义用户群体的复合标签,该复合标签由若干个基础标签和组合标签以逻辑与的关系组成的查询条件集合,作为完整的查询条件集合,用于对用户群体进行定义。
可选地,确定用于定义用户群体的多个标签的操作,包括:定义与一个数据列相关的一个或多个约束条件,生成基础标签;根据一个或多个被选定约束条件的基础标签,生成组合标签;以及由基础标签和组合标签以逻辑与的关系组成多个标签。
具体地,图3示出了确定用于定义用户群体的多个标签的流程示意图。参照如3所示,首先定义与一个数据列相关的一个或多个约束条件,生成基础标签。其中基础标签是对用户的某一列存储于数据库中的数据进行标签化的规则范式管理,将不同维度分类的用户属性数据划分成基础标签中的具体范围或者值,对标签的值或者范围可以使用数据描述或者进行可读性命名。基础标签是本发明实施例最小的基础模块单元。每个基础标签都是对一个用户数据字段的全量条件约束。
比如以用户的年龄数据为例,可以分为多个年龄区间,0到18岁、18到25岁、25-30岁、30-40岁、40-50岁,50-65岁,65岁以上,就创建了一个年龄区间的基础标签。以用户手机号码归属地数据为例,将全国各个直辖市、地级市作为基础标签的内容。
此外,基础标签必须在预定义的规则范式内,自定义其所有值和区间范围。主要规则范式包括,单选标签和多选标签。单选标签规则包含的有:(数值/日期)范围标签、(数值/日期)相对范围标签。多选标签规则包含的有:数值区间标签、日期区间标签、散列值标签以及自动枚举标签。基础标签依据规则范式不同,可以对同一个用户数据字段分别创建不同规则范式的基础标签。多选基础标签,在创建组合标签或者复合标签的时候,同一个多选基础标签的不同基础标签值或者区间范围被选中多个后,它们的逻辑关系是或的关系。
进一步地,根据一个或多个被选定约束条件的基础标签,生成组合标签。其中组合标签是由一个或者多个基础标签选定基础标签的值或者范围,独立作为一个查询集合模块。组合标签内部的多个基础标签,以逻辑与的关系作为一个整体。组合标签可以被不同的复合标签使用。
假设需要新建一个组合标签用于表示北京、上海、广州、深圳的年轻用户,选择了上面提到的年龄区间的基础标签,可以从区间列表中,选中18-25岁和25-30岁两个选项的标签区间范围,然后再选择一个手机号码归属地基础标签,选中北京、广州、上海、深圳四个城市,作为一个独立的组合标签被复合标签使用。然后,由基础标签和组合标签以逻辑与的关系组成多个标签,即组成复合标签。
从而,通过这种方式,保障了所确定的用于定义用户群体的多个标签的完整性以及适用性。进而保障了所筛选出的与所述多个标签相关联的索引的准确性。
此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质104。存储介质104包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图4示出了根据本实施例所述的查询用户数据的装置400,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:筛选模块410,用于根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引,其中索引与用户数据对应;以及查询模块420,用于查询与所筛选的索引对应的用户数据。
可选地,筛选模块410包括:第一生成子模块,用于根据多个标签,生成搜索服务器的查询语句,其中搜索服务器预先存储有多个用户数据以及分别与多个用户数据相关联的多个索引;筛选子模块,用于根据查询语句,从搜索服务器中筛选出与多个标签相关联的索引;以及查询模块包括:查询子模块,用于在搜索服务器中查询与所筛选的索引对应的用户数据。
可选地,搜索服务器为Elasticsearch服务器,并且查询语句为DSL查询语句。
可选地,多个标签包含基础标签以及组合标签,其中基础标签用于定义与一个数据列相关的一个或多个约束条件,组合标签由一个或多个被选定约束条件的基础标签组成,并且第一生成子模块包括:第一转换单元,用于将基础标签转换为第一DSL查询语句;第二转换单元,用于将组合标签转换为第二DSL查询语句;以及生成单元,用于以逻辑与的关系拼接第一DSL查询语句以及第二DSL查询语句,生成Elasticsearch服务器的DSL查询语句。
可选地,还包括:聚合统计模块,用于根据所查询到的用户数据,对用户群体的用户画像进行聚合统计。
可选地,聚合统计模块包括:第一确定子模块,用于根据所查询到的用户数据,确定与基础标签包含的各项标签对应的标签值;第二确定子模块,用于根据标签值,确定用户群体的统计方向;以及聚合统计子模块,用于根据统计方向,对用户群体的用户画像进行聚合统计。
可选地,还包括:展示模块,用于将聚合统计得到的统计结果进行可视化图表展示。
可选地,还包括确定模块,用于在根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引的操作之前,确定用于定义用户群体的多个标签。
可选地,确定模块包括:定义子模块,用于定义与一个数据列相关的一个或多个约束条件,生成基础标签;第二生成子模块,用于根据一个或多个被选定约束条件的基础标签,生成组合标签;以及组成子模块,用于由基础标签和组合标签以逻辑与的关系组成多个标签。
从而根据本实施例,首先根据用于定义用户群体的多个标签,筛选出与多个标签相关联的索引。然后查询与所筛选的索引对应的用户数据。从而,通过这种方式,可以根据多个标签筛选出目标索引,并基于筛选出的索引快速的进行用户数据的查询,大大提高了用户数据的查询效率。同时,由于不再需要在原始数据基础上先行转换为用户标签数据,并存储用户标签数据,因此不会存在数据冗余计算问题。进而解决了现有技术中存在的通过将用户标签与用户标签数据一一对比来查询用户数据的方式,容易导致查询效率低下以及数据冗余计算问题。
实施例3
图5示出了根据本实施例所述的查询用户数据的装置500,该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示,该装置500包括:处理器510;以及存储器520,与处理器510连接,用于为处理器510提供处理以下处理步骤的指令:根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引,其中索引与用户数据对应;以及查询与所筛选的索引对应的用户数据。
可选地,根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引的操作,包括:根据多个标签,生成搜索服务器的查询语句,其中搜索服务器预先存储有多个用户数据以及分别与多个用户数据相关联的多个索引;根据查询语句,从搜索服务器中筛选出与多个标签相关联的索引;以及查询与所筛选的索引对应的用户数据的操作,包括:在搜索服务器中查询与所筛选的索引对应的用户数据。
可选地,搜索服务器为Elasticsearch服务器,并且查询语句为DSL查询语句。
可选地,多个标签包含基础标签以及组合标签,其中基础标签用于定义与一个数据列相关的一个或多个约束条件,组合标签由一个或多个被选定约束条件的基础标签组成,并且根据多个标签,生成搜索服务器的查询语句的操作,包括:将基础标签转换为第一DSL查询语句;将组合标签转换为第二DSL查询语句;以及以逻辑与的关系拼接第一DSL查询语句以及第二DSL查询语句,生成Elasticsearch服务器的DSL查询语句。
可选地,存储器520还用于为处理器510提供处理以下处理步骤的指令:根据所查询到的用户数据,对用户群体的用户画像进行聚合统计。
可选地,根据所查询到的用户数据,对用户群体的用户画像进行聚合统计的操作,包括:根据所查询到的用户数据,确定与基础标签包含的各项标签对应的标签值;根据标签值,确定用户群体的统计方向;以及根据统计方向,对用户群体的用户画像进行聚合统计。
可选地,存储器520还用于为处理器510提供处理以下处理步骤的指令:将聚合统计得到的统计结果进行可视化图表展示。
可选地,存储器520还用于为处理器510提供处理以下处理步骤的指令:根据用于定义用户群体的多个标签,筛选与多个标签相关联的索引的操作之前,确定用于定义用户群体的多个标签。
可选地,确定用于定义用户群体的多个标签的操作,包括:定义与一个数据列相关的一个或多个约束条件,生成基础标签;根据一个或多个被选定约束条件的基础标签,生成组合标签;以及由基础标签和组合标签以逻辑与的关系组成多个标签。
从而根据本实施例,首先根据用于定义用户群体的多个标签,筛选出与多个标签相关联的索引。然后查询与所筛选的索引对应的用户数据。从而,通过这种方式,可以根据多个标签筛选出目标索引,并基于筛选出的索引快速的进行用户数据的查询,大大提高了用户数据的查询效率。同时,由于不再需要在原始数据基础上先行转换为用户标签数据,并存储用户标签数据,因此不会存在数据冗余计算问题。进而解决了现有技术中存在的通过将用户标签与用户标签数据一一对比来查询用户数据的方式,容易导致查询效率低下以及数据冗余计算问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种查询用户数据的方法,其特征在于,包括:
根据用于定义用户群体的多个标签,筛选与所述多个标签相关联的索引,其中所述索引与用户数据对应;以及
查询与所筛选的索引对应的用户数据。
2.根据权利要求1所述的方法,其特征在于,根据用于定义用户群体的多个标签,筛选与所述多个标签相关联的索引的操作,包括:
根据所述多个标签,生成搜索服务器的查询语句,其中所述搜索服务器预先存储有多个用户数据以及分别与所述多个用户数据相关联的多个索引;
根据所述查询语句,从所述搜索服务器中筛选出与所述多个标签相关联的索引;以及
查询与所筛选的索引对应的用户数据的操作,包括:在所述搜索服务器中查询与所筛选的索引对应的用户数据。
3.根据权利要求2所述的方法,其特征在于,所述搜索服务器为Elasticsearch服务器,并且所述查询语句为DSL查询语句。
4.根据权利要求3所述的方法,其特征在于,所述多个标签包含基础标签以及组合标签,其中所述基础标签用于定义与一个数据列相关的一个或多个约束条件,所述组合标签由一个或多个被选定约束条件的基础标签组成,并且根据所述多个标签,生成搜索服务器的查询语句的操作,包括:
将所述基础标签转换为第一DSL查询语句;
将所述组合标签转换为第二DSL查询语句;以及
以逻辑与的关系拼接所述第一DSL查询语句以及所述第二DSL查询语句,生成所述Elasticsearch服务器的所述DSL查询语句。
5.根据权利要求4所述的方法,其特征在于,还包括:根据所查询到的用户数据,对所述用户群体的用户画像进行聚合统计。
6.根据权利要求5所述的方法,其特征在于,根据所查询到的用户数据,对所述用户群体的用户画像进行聚合统计的操作,包括:
根据所查询到的用户数据,确定与所述基础标签包含的各项标签对应的标签值;
根据所述标签值,确定所述用户群体的统计方向;以及
根据所述统计方向,对所述用户群体的用户画像进行聚合统计。
7.根据权利要求6所述的方法,其特征在于,还包括:将所述聚合统计得到的统计结果进行可视化图表展示。
8.根据权利要求4所述的方法,其特征在于,根据用于定义用户群体的多个标签,筛选与所述多个标签相关联的索引的操作之前,还包括:确定用于定义用户群体的所述多个标签。
9.根据权利要求8所述的方法,其特征在于,确定用于定义用户群体的所述多个标签的操作,包括:
定义与一个数据列相关的一个或多个约束条件,生成所述基础标签;
根据一个或多个被选定约束条件的基础标签,生成所述组合标签;以及
由所述基础标签和所述组合标签以逻辑与的关系组成所述多个标签。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至9中任意一项所述的方法。
CN201910678387.9A 2019-07-25 2019-07-25 查询用户数据的方法、装置及存储介质 Pending CN112286927A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910678387.9A CN112286927A (zh) 2019-07-25 2019-07-25 查询用户数据的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910678387.9A CN112286927A (zh) 2019-07-25 2019-07-25 查询用户数据的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112286927A true CN112286927A (zh) 2021-01-29

Family

ID=74419252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910678387.9A Pending CN112286927A (zh) 2019-07-25 2019-07-25 查询用户数据的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112286927A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860696A (zh) * 2021-02-07 2021-05-28 中国邮政储蓄银行股份有限公司 数据的查询方法及装置、数据查询模型
CN113297251A (zh) * 2021-05-31 2021-08-24 深信服科技股份有限公司 多源数据检索方法、装置、设备及存储介质
CN113434742A (zh) * 2021-06-28 2021-09-24 青岛海尔科技有限公司 账号的筛选方法和装置、存储介质及电子装置
CN115599973A (zh) * 2022-11-04 2023-01-13 广州大事件网络科技有限公司(Cn) 一种用户人群标签筛分方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024431A1 (en) * 2015-07-24 2017-01-26 International Business Machines Corporation Generating and executing query language statements from natural language
CN107633022A (zh) * 2017-08-24 2018-01-26 深圳市睿策者科技有限公司 人员画像分析方法、装置及存储介质
CN109145197A (zh) * 2018-06-28 2019-01-04 深圳市彬讯科技有限公司 用户画像标签的生成方法、装置和系统
CN109492021A (zh) * 2018-09-26 2019-03-19 平安科技(深圳)有限公司 企业画像信息查询方法、装置、计算机设备和存储介质
CN109739854A (zh) * 2018-12-27 2019-05-10 新华三大数据技术有限公司 一种数据存储方法及装置
CN110020333A (zh) * 2017-07-27 2019-07-16 北京嘀嘀无限科技发展有限公司 数据分析方法及装置、电子设备、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024431A1 (en) * 2015-07-24 2017-01-26 International Business Machines Corporation Generating and executing query language statements from natural language
CN110020333A (zh) * 2017-07-27 2019-07-16 北京嘀嘀无限科技发展有限公司 数据分析方法及装置、电子设备、存储介质
CN107633022A (zh) * 2017-08-24 2018-01-26 深圳市睿策者科技有限公司 人员画像分析方法、装置及存储介质
CN109145197A (zh) * 2018-06-28 2019-01-04 深圳市彬讯科技有限公司 用户画像标签的生成方法、装置和系统
CN109492021A (zh) * 2018-09-26 2019-03-19 平安科技(深圳)有限公司 企业画像信息查询方法、装置、计算机设备和存储介质
CN109739854A (zh) * 2018-12-27 2019-05-10 新华三大数据技术有限公司 一种数据存储方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860696A (zh) * 2021-02-07 2021-05-28 中国邮政储蓄银行股份有限公司 数据的查询方法及装置、数据查询模型
CN112860696B (zh) * 2021-02-07 2024-04-12 中国邮政储蓄银行股份有限公司 数据的查询方法及装置、数据查询模型
CN113297251A (zh) * 2021-05-31 2021-08-24 深信服科技股份有限公司 多源数据检索方法、装置、设备及存储介质
CN113434742A (zh) * 2021-06-28 2021-09-24 青岛海尔科技有限公司 账号的筛选方法和装置、存储介质及电子装置
CN115599973A (zh) * 2022-11-04 2023-01-13 广州大事件网络科技有限公司(Cn) 一种用户人群标签筛分方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112286927A (zh) 查询用户数据的方法、装置及存储介质
CN110633292B (zh) 一种异构数据库的查询方法、装置、介质、设备及系统
US10255378B2 (en) Database structure for distributed key-value pair, document and graph models
CN111177231A (zh) 报表生成方法和报表生成装置
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CN106844753B (zh) 一种构建网元树组件的方法以及装置
US10078624B2 (en) Method of generating hierarchical data structure
US9858260B2 (en) System and method for analyzing items using lexicon analysis and filtering process
CN111708805A (zh) 数据查询方法、装置、电子设备及存储介质
CN111026753A (zh) 基于树形结构的标签存储方法及装置
Yang et al. An enhanced dynamic hash TRIE algorithm for lexicon search
Petrou et al. Towards a methodology for publishing linked open statistical data
CN116127047B (zh) 企业信息库的建立方法与装置
ES2900746T3 (es) Sistemas y métodos para distribuir eficazmente mensajes de alerta
EP2972970A2 (en) Locale-based sorting on mobile devices
CN109697234B (zh) 实体的多属性信息查询方法、装置、服务器和介质
CN109189810B (zh) 查询方法、装置、电子设备及计算机可读存储介质
CN112947954A (zh) 一种界面更新方法、装置和存储介质
CN111309932B (zh) 评论数据的查询方法、装置、设备及存储介质
CN114817297A (zh) 一种处理数据的方法和装置
CN113986931A (zh) 报表分页的方法、装置、存储介质及计算设备
CN110728138A (zh) 新闻文本识别的方法、装置以及存储介质
CN112527847A (zh) 数据排序方法、装置、电子介质及存储介质
CN111782958A (zh) 推荐词确定方法、装置、电子装置及存储介质
CN104182483A (zh) 基于社会网络的服务索引库的建立方法及服务搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination