CN117112616A - 标签查询方法、装置、设备及存储介质 - Google Patents

标签查询方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117112616A
CN117112616A CN202311126237.XA CN202311126237A CN117112616A CN 117112616 A CN117112616 A CN 117112616A CN 202311126237 A CN202311126237 A CN 202311126237A CN 117112616 A CN117112616 A CN 117112616A
Authority
CN
China
Prior art keywords
tag
tag data
data
query
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311126237.XA
Other languages
English (en)
Inventor
黄星瑞
李鹏雨
杨皋
周云淞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202311126237.XA priority Critical patent/CN117112616A/zh
Publication of CN117112616A publication Critical patent/CN117112616A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息索引技术领域,尤其涉及一种标签查询方法、装置、设备及存储介质,本发明通过先将标签数据同步至预设列式数据库中,再对数据库中的数据构建目标位图表,位图索引便于后续进行标签对比和查询,在接收到用户的查询请求,将用户的查询请求转化为位图查询语句,进而通过目标位图表进行标签查询,避免了现有技术中标签查询的响应时间较长,效率较低的技术问题,提高了用户的使用体验。

Description

标签查询方法、装置、设备及存储介质
技术领域
本发明涉及信息索引技术领域,尤其涉及一种标签查询方法、装置、设备及存储介质。
背景技术
在传统技术中,在需要查询大数据量中具有相同标签的数据时,一般是先将数据存储在HIVE集群或ES集群,建立查询所用标签相关的索引,查询时根据用户圈选的标签条件查询到最终的结果,上述查询过程中,存在存储数据的集群反应速度较慢,导致查询效率较低,无法满足用户的使用需求。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种标签查询方法、装置、设备及存储介质,旨在解决现有技术中标签查询的响应时间较长,效率较低的技术问题。
为实现上述目的,本发明提供了一种标签查询方法,所述方法包括以下步骤:
将标签数据集同步至预设列式数据库;
基于预设列式数据库中的数据构建目标位图表;
在接收用户的查询请求时,根据所述查询请求生成位图查询语句;
基于所述位图查询语句通过目标位图表进行标签查询。
可选地,所述将标签数据集同步至预设列式数据库,包括:
对标签数据集进行预处理,得到标签数据文件;
对所述标签数据文件进行片段分割,得到多个目标标签数据文件;
将所述多个目标标签数据文件存储至预设列式数据库。
可选地,所述对标签数据进行预处理,得到标签数据文件,包括:
确定所述标签数据集的业务主键信息;
根据所述业务主键信息对所述标签数据集进行筛选;
对筛选后的标签数据集进行排序,并根据排序结果生成标签数据集中各标签数据对应的标识信息;
基于所述标识信息和所述标签数据集生成预设格式的标签数据文件。
可选地,所述对所述标签数据文件进行片段分割,得到多个目标标签数据文件,包括:
获取所述标签数据文件的存储空间占比;
将所述标签数据文件基于所述存储空间占比进行片段分割,得到多个目标标签数据文件。
可选地,所述基于预设列式数据库中的数据构建目标位图表,包括:
确定预设列式数据库中的多个目标标签数据文件;
根据所述多个目标标签数据文件生成临时表;
根据预设文件格式加载所述多个目标标签数据文件至临时表中,得到目标临时表;
根据所述目标临时表生成正式分布式标签数据表;
对所述正式分布式标签数据表进行位图构建,得到目标位图表。
可选地,所述根据所述目标临时表生成正式分布式标签数据表之前,还包括:
获取目标临时表的临时数据量和多个目标标签数据文件的总数据量;
校验所述临时数据量和所述总数据量。
可选地,所述对所述正式分布式标签数据表进行位图构建,得到目标位图表,包括:
通过预设数据分析模型对所述正式分布式标签数据表进行数据分析,得到位图格式的数据;
将所述位图格式的数据存储至临时位图表中;
根据所述临时位图表生成目标位图表。
此外,为实现上述目的,本发明还提出一种标签查询装置,所述标签查询装置包括:
同步模块,用于将标签数据集同步至预设列式数据库;
构建模块,用于基于预设列式数据库中的数据构建目标位图表;
生成模块,用于在接收用户的查询请求时,根据所述查询请求生成位图查询语句;
查询模块,用于基于所述位图查询语句通过目标位图表进行标签查询。
此外,为实现上述目的,本发明还提出一种标签查询设备,所述标签查询设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签查询程序,所述标签查询程序配置为实现如上文所述的标签查询方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有标签查询程序,所述标签查询程序被处理器执行时实现如上文所述的标签查询方法的步骤。
本发明公开了一种标签查询方法,所述标签查询方法包括:将标签数据集同步至预设列式数据库;基于预设列式数据库中的数据构建目标位图表;在接收用户的查询请求时,根据所述查询请求生成位图查询语句;基于所述位图查询语句通过目标位图表进行标签查询,本发明通过先将标签数据同步至预设列式数据库中,在对数据库中的数据构建目标位图表,位图索引便于后续进行标签对比和查询,在接收到用户的查询请求,将用户的查询请求转化为位图查询语句,进而通过目标位图表进行标签查询,避免了现有技术中标签查询的响应时间较长,效率较低的技术问题,提高了用户的使用体验。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的标签查询设备的结构示意图;
图2为本发明标签查询方法第一实施例的流程示意图;
图3为本发明标签查询方法一实施例的位图实例示意图;
图4为本发明标签查询方法一实施例的位图构建示意图;
图5为本发明标签查询方法一实施例的位图查询示意图;
图6为本发明标签查询方法第二实施例的流程示意图;
图7为本发明标签查询方法第三实施例的流程示意图;
图8为本发明标签查询装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的标签查询设备结构示意图。
如图1所示,该标签查询设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对标签查询设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及标签查询程序。
在图1所示的标签查询设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明标签查询设备中的处理器1001、存储器1005可以设置在标签查询设备中,所述标签查询设备通过处理器1001调用存储器1005中存储的标签查询程序,并执行本发明实施例提供的标签查询方法。
本发明实施例提供了一种标签查询方法,参照图2,图2为本发明一种标签查询方法第一实施例的流程示意图。
本实施例中,所述标签查询方法包括以下步骤:
步骤S10:将标签数据集同步至预设列式数据库。
需要说明的是,本实施例方法的执行主体可以是数据处理、网络通信以及程序运行等功能的设备,例如:控制计算机或者云端服务器等,还可以是其他可以实现相同或者相似功能的设备,本实施例对此不做具体限制,在本实施例以及下述实施例中,将会以云端服务器为例进行说明。
值得说明的是,标签查询被广泛应用于营销或推荐系统,这些系统通过给用户打上不同的标签,刻画出用户的全貌,形成用户画像,通过对用户画像挖掘和分析,从而实现个性化推荐、精准营销。在此过程中,标签查询的结果,极大程度上决定了推荐和营销的效果
在传统技术中,一般是将标签数据存储在HIVE集群或ES集群中,但是利用HIVE集群查询存在以下缺陷:查询性能较低,无法满足用户实时查询的需求;标签数量增多时,对应索引数据增加,存储空间占用极大;查询条件相对固定,无法支持灵活性圈选条件。
而利用ES集群查询存在以下缺陷:数据需要从湖仓同步至ES集群,同步所需时间太长;数据量巨大的情况下,查询响应时间太长;相同数据量下,ES集群存储成本较高。
可以理解的是,标签数据是指具有类别标签的数据集,例如:贵金属、保险等类别标签的数据,本实施例对此不做具体限制。
在具体实现中,预设列式数据库(ClickHouse)是指极致压缩率和极速查询性能,其主要优点为极较高的缩率和较好的查询性能,ClickHouse支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。由于ClickHouse列式存储方式和数据压缩效率,存储空间和用户查询成本被有效地降低。
步骤S20:基于预设列式数据库中的数据构建目标位图表。
应当说明的是,位图是一种通过数组下标与某些特定的值进行关联的数据结构,在位图中,每一个元素占用1个比特位,比特位为1时,表示对应的元素有该特定的值,反之则表示没有。
在具体实现中,参考图3,在一个ID集合[0,1,4,5,6,7,9,10,13,14],存在贵金属的标签的ID分别为1、4、10以及13,则这个ID集合对应的位图为01100110,若是存在贵金属标签的ID分别为0,1,6,7,9,10,13,14,则对应的位图数据为11001111,本实施例对此不做具体限制。
步骤S30:在接收用户的查询请求时,根据所述查询请求生成位图查询语句。
应当说明的是,查询请求是指用户输入的带有标签信息的查询请求指令,例如:“查询同时持有贵金属和持有保险的用户数”,其中,标签信息为:贵金属和保险,可以根据标签信息生成位图查询语句,在确定了查询请求对应的位图查询语句后,可以根据位图表与位图查询语句进行位图索引,最后输出查询到的标签数据结果。
步骤S40:基于所述位图查询语句通过目标位图表进行标签查询。
可以理解的是,位图索引是一种特殊索引,主要针对大量相同值的列而创建,位图中位置编码中的每一位表示对应的数据行的有无,位图索引适合固定值的列,如性别、行政区、星座等,而不适合身份证号、消费金额等离散值的列,用户画像场景中,每一个标签,对应大量的人群,标签的数量是有限的枚举值。
在具体实现中,假设有两个标签数据,其中一个是标签1-持有贵金属,另一个是标签2-持有保险,经过对所有数据的转换之后,可以得到如图4所示的目标位图表,通过在目标位图表中基于标签信息进行位运算,可以高效查询出两个标签的用户身份标识,具体过程参考图5,在图5中根据两个标签查询到的用户名单,可以得到对于第一数据集而言,查询到的结果分别为11001111和00110101,对于两个查询结果进行位计算,得到00000101,对于第二数据,查询到的结果分别为01100110和10011101,对于两个查询结果进行位计算,得到00000100。
在本实施例中,因为查询引擎实际执行时采取位运算的形式,查询执行效率大大提高,相较于传统技术中,针对标签进行查询对比的方式,查询时间显著缩短。尤其在大数据量的情况下,查询效率提升尤为明显。
本实施例通过先将标签数据同步至预设列式数据库中,在对数据库中的数据构建目标位图表,位图索引便于后续进行标签对比和查询,在接收到用户的查询请求,将用户的查询请求转化为位图查询语句,进而通过目标位图表进行标签查询,避免了现有技术中标签查询的响应时间较长,效率较低的技术问题,提高了用户的使用体验。
参考图6,图6为本发明一种标签查询方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10,包括:
步骤S101:对标签数据集进行预处理,得到标签数据文件。
需要说明的是,对标签数据集进行预处理包括但不限于去重、筛选、排序以及格式转换等,最终得到竖表形式的标签数据文件。
进一步地,所述对标签数据进行预处理,得到标签数据文件,包括:
确定所述标签数据集的业务主键信息;
根据所述业务主键信息对所述标签数据集进行筛选;
对筛选后的标签数据集进行排序,并根据排序结果生成标签数据集中各标签数据对应的标识信息;
基于所述标识信息和所述标签数据集生成预设格式的标签数据文件。
可以理解的是,业务主键信息是指在数据表中,可以唯一表示一条数据的字段,例如:表记录的序号或者数据编号等唯一性标识。
在具体实现中,通过标签数据的业务主键信息对标签数据进行去重筛选,避免出现重复数据,提高后续数据查询的效率,在对筛选后的标签数据集进行排序,并赋予编号或者数字型ID,为后续建表和位图构建做铺垫。
应当理解的是,由于标签数据的表格形式一般为大宽表,为了提高查询效率,本实施例将所有标签数据所涉及的大宽表转换为多个竖表,每个标签对应一个竖表,其中,竖表的字段包括数字型ID,标签类型以及标签数值等,本实施例对此不做具体限制。
步骤S102:对所述标签数据文件进行片段分割,得到多个目标标签数据文件。
应当说明的是,由于不同标签设计的标签数据文件大小不同,为了提高存储空间利用率,且保证后续数据加载至临时表过程的效率,本实施例会先对标签数据文件进行文件分割,将得到的多个目标标签数据文件分贝存储至预设列式数据库(ClickHouse)的不同分片中。
进一步地,所述对所述标签数据文件进行片段分割,得到多个目标标签数据文件,包括:
获取所述标签数据文件的存储空间占比;
将所述标签数据文件基于所述存储空间占比进行片段分割,得到多个目标标签数据文件。
可以理解的是,存储空间占比是指标签文件存储时所需要的容量大小信息。
步骤S103:将所述多个目标标签数据文件存储至预设列式数据库。
在具体实现中,将标签数据文件通过片段分割,分配给ClickHouse不同的分片。这里是根据文件所占空间大小进行分割,保证后续ClickHouse加载时各分片的复杂均衡。
本实施例通过对标签数据进行预处理,并进行片段分割,以实现标签数据同步至预设列式数据库,便于后续进行数据加载和标签查询,提高查询性能,还可以减少存储空间带来的成本。
参考图7,图7为本发明一种标签查询方法第三实施例的流程示意图。
基于上述第二实施例,在本实施例中,所述步骤S20,包括:
步骤S201:确定预设列式数据库中的多个目标标签数据文件。
需要说明的是,目标标签数据文件是指在上文中进行片段分割后得到的多个目标标签数据文件。
步骤S202:根据所述多个目标标签数据文件生成临时表。
步骤S203:根据预设文件格式加载所述多个目标标签数据文件至临时表中,得到目标临时表。
可以理解的是,通过对各个分片创建每个竖表对应的临时表,将分割好的数据文件通过load文件的方式加载到临时表中,此步骤中,各分片可以并行进行加载,并行度可以通过应用配置进行约束。
进一步地,所述根据所述目标临时表生成正式分布式标签数据表之前,还包括:
获取目标临时表的临时数据量和多个目标标签数据文件的总数据量;
校验所述临时数据量和所述总数据量。
为了保证加载过程中不会存在数据丢失的情况,影响后续标签查询,本实施例通过对加载完成的数据进行核对和校验,主要是校验临时表中的数据总量和文件数据量是否一致,确保没有数据丢失。
步骤S204:根据所述目标临时表生成正式分布式标签数据表。
将临时表的数据同步至正式表后,用户可以通过正式表对应的分布式表进行标签的明细查询。
步骤S205:对所述正式分布式标签数据表进行位图构建,得到目标位图表。
进一步地,所述对所述正式分布式标签数据表进行位图构建,得到目标位图表,包括:
通过预设数据分析模型对所述正式分布式标签数据表进行数据分析,得到位图格式的数据;
将所述位图格式的数据存储至临时位图表中;
根据所述临时位图表生成目标位图表。
在具体实现中,对指定分区的正式表数据进行位图构建,并将构建结果存放至临时位图表中。此步骤的位图构建主要是基于ClickHouse引擎的预设数据分析模型,将数据处理为位图格式的数据,将临时位图表中的数据再同步至位图正式表中。此步骤完成后,用户就可以通过正式位图表对应的分布式表进行用户的圈选查询。
本实施例通过建立各分片数据对应的临时表,先将分片数据加载至临时表中,再将各临时表进行汇总,得到正式表,最后对正式表进行位图构建,将正式表中的数据进行数据分析,得到位图格式的数据,从而得到目标位图表,提高后续标签查询的效率和性能。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有标签查询程序,所述标签查询程序被处理器执行时实现如上文所述的标签查询方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参照图8,图8为本发明标签查询装置第一实施例的结构框图。
如图8所示,本发明实施例提出的标签查询装置包括:
同步模块10,用于将标签数据集同步至预设列式数据库。
构建模块20,用于基于预设列式数据库中的数据构建目标位图表。
生成模块30,用于在接收用户的查询请求时,根据所述查询请求生成位图查询语句。
查询模块40,用于基于所述位图查询语句通过目标位图表进行标签查询。
在一实施例中,所述同步模块10,还用于对标签数据集进行预处理,得到标签数据文件;对所述标签数据文件进行片段分割,得到多个目标标签数据文件;将所述多个目标标签数据文件存储至预设列式数据库。
在一实施例中,所述同步模块10,还用于确定所述标签数据集的业务主键信息;根据所述业务主键信息对所述标签数据集进行筛选;对筛选后的标签数据集进行排序,并根据排序结果生成标签数据集中各标签数据对应的标识信息;基于所述标识信息和所述标签数据集生成预设格式的标签数据文件。
在一实施例中,所述同步模块10,还用于获取所述标签数据文件的存储空间占比;将所述标签数据文件基于所述存储空间占比进行片段分割,得到多个目标标签数据文件。
在一实施例中,所述构建模块20,还用于确定预设列式数据库中的多个目标标签数据文件;根据所述多个目标标签数据文件生成临时表;根据预设文件格式加载所述多个目标标签数据文件至临时表中,得到目标临时表;根据所述目标临时表生成正式分布式标签数据表;对所述正式分布式标签数据表进行位图构建,得到目标位图表。
在一实施例中,所述构建模块20,还用于获取目标临时表的临时数据量和多个目标标签数据文件的总数据量;校验所述临时数据量和所述总数据量。
在一实施例中,所述构建模块20,还用于通过预设数据分析模型对所述正式分布式标签数据表进行数据分析,得到位图格式的数据;将所述位图格式的数据存储至临时位图表中;根据所述临时位图表生成目标位图表。
本实施例通过先将标签数据同步至预设列式数据库中,在对数据库中的数据构建目标位图表,位图索引便于后续进行标签对比和查询,在接收到用户的查询请求,将用户的查询请求转化为位图查询语句,进而通过目标位图表进行标签查询,避免了现有技术中标签查询的响应时间较长,效率较低的技术问题,提高了用户的使用体验。
应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的标签查询方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种标签查询方法,其特征在于,所述标签查询方法包括:
将标签数据集同步至预设列式数据库;
基于预设列式数据库中的数据构建目标位图表;
在接收用户的查询请求时,根据所述查询请求生成位图查询语句;
基于所述位图查询语句通过目标位图表进行标签查询。
2.如权利要求1所述的标签查询方法,其特征在于,所述将标签数据集同步至预设列式数据库,包括:
对标签数据集进行预处理,得到标签数据文件;
对所述标签数据文件进行片段分割,得到多个目标标签数据文件;
将所述多个目标标签数据文件存储至预设列式数据库。
3.如权利要求2所述的标签查询方法,其特征在于,所述对标签数据进行预处理,得到标签数据文件,包括:
确定所述标签数据集的业务主键信息;
根据所述业务主键信息对所述标签数据集进行筛选;
对筛选后的标签数据集进行排序,并根据排序结果生成标签数据集中各标签数据对应的标识信息;
基于所述标识信息和所述标签数据集生成预设格式的标签数据文件。
4.如权利要求2所述的标签查询方法,其特征在于,所述对所述标签数据文件进行片段分割,得到多个目标标签数据文件,包括:
获取所述标签数据文件的存储空间占比;
将所述标签数据文件基于所述存储空间占比进行片段分割,得到多个目标标签数据文件。
5.如权利要求1所述的标签查询方法,其特征在于,所述基于预设列式数据库中的数据构建目标位图表,包括:
确定预设列式数据库中的多个目标标签数据文件;
根据所述多个目标标签数据文件生成临时表;
根据预设文件格式加载所述多个目标标签数据文件至临时表中,得到目标临时表;
根据所述目标临时表生成正式分布式标签数据表;
对所述正式分布式标签数据表进行位图构建,得到目标位图表。
6.如权利要求5所述的标签查询方法,其特征在于,所述根据所述目标临时表生成正式分布式标签数据表之前,还包括:
获取目标临时表的临时数据量和多个目标标签数据文件的总数据量;
校验所述临时数据量和所述总数据量。
7.如权利要求5所述的标签查询方法,其特征在于,所述对所述正式分布式标签数据表进行位图构建,得到目标位图表,包括:
通过预设数据分析模型对所述正式分布式标签数据表进行数据分析,得到位图格式的数据;
将所述位图格式的数据存储至临时位图表中;
根据所述临时位图表生成目标位图表。
8.一种标签查询装置,其特征在于,所述标签查询装置包括:
同步模块,用于将标签数据集同步至预设列式数据库;
构建模块,用于基于预设列式数据库中的数据构建目标位图表;
生成模块,用于在接收用户的查询请求时,根据所述查询请求生成位图查询语句;
查询模块,用于基于所述位图查询语句通过目标位图表进行标签查询。
9.一种标签查询设备,其特征在于,所述标签查询设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签查询程序,所述标签查询程序配置为实现如权利要求1至7中任一项所述的标签查询方法。
10.一种存储介质,其特征在于,所述存储介质上存储有标签查询程序,所述标签查询程序被处理器执行时实现如权利要求1至7任一项所述的标签查询方法。
CN202311126237.XA 2023-08-30 2023-08-30 标签查询方法、装置、设备及存储介质 Pending CN117112616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311126237.XA CN117112616A (zh) 2023-08-30 2023-08-30 标签查询方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311126237.XA CN117112616A (zh) 2023-08-30 2023-08-30 标签查询方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117112616A true CN117112616A (zh) 2023-11-24

Family

ID=88798147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311126237.XA Pending CN117112616A (zh) 2023-08-30 2023-08-30 标签查询方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117112616A (zh)

Similar Documents

Publication Publication Date Title
CN112613917B (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN101860449B (zh) 一种数据查询方法、装置及系统
CN111177302B (zh) 业务单据处理方法、装置、计算机设备和存储介质
US20210365421A1 (en) Data analysis method, computer device and storage medium
CN102129425A (zh) 数据仓库中大对象集合表的访问方法及装置
CN111652468A (zh) 业务流程的生成方法、装置、存储介质及计算机设备
CN114328632A (zh) 基于位图的用户数据分析方法、装置及计算机设备
CN113010542A (zh) 业务数据处理方法、装置、计算机设备及存储介质
CN113297269A (zh) 数据查询方法及装置
CN117150138B (zh) 一种基于高维空间映射的科技资源组织方法及系统
CN113190551A (zh) 特征检索系统的构建方法、特征检索方法、装置及设备
CN117112616A (zh) 标签查询方法、装置、设备及存储介质
CN116595106A (zh) 一种用户分群方法、设备及存储介质
CN113743838B (zh) 目标用户识别方法、装置、计算机设备和存储介质
CN110895573B (zh) 一种检索方法和装置
CN110309367B (zh) 信息分类的方法、信息处理的方法和装置
CN113590594B (zh) 银行数据库迁移方法及装置
CN116578583B (zh) 异常语句识别方法、装置、设备、存储介质
CN115098686A (zh) 分级信息确定方法、装置、计算机设备
CN110858363A (zh) 一种识别季节性商品的方法和装置
US20240104144A1 (en) Method and system for clustering data samples
CN101122911A (zh) 已知格式字库的对比系统及方法
CN118170867A (zh) 业务内容获取方法、装置、计算机设备、介质和程序产品
CN116680263A (zh) 数据清洗方法、装置、计算机设备及存储介质
CN113961636A (zh) 对象关系查询方法、装置、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination