CN115544007A - 标签预处理方法、装置、计算机设备和存储介质 - Google Patents

标签预处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115544007A
CN115544007A CN202211183409.2A CN202211183409A CN115544007A CN 115544007 A CN115544007 A CN 115544007A CN 202211183409 A CN202211183409 A CN 202211183409A CN 115544007 A CN115544007 A CN 115544007A
Authority
CN
China
Prior art keywords
preprocessing
tag
label
value
atomic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211183409.2A
Other languages
English (en)
Inventor
王朋飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pinshun Information Technology Co ltd
Original Assignee
Shanghai Pinshun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pinshun Information Technology Co ltd filed Critical Shanghai Pinshun Information Technology Co ltd
Priority to CN202211183409.2A priority Critical patent/CN115544007A/zh
Publication of CN115544007A publication Critical patent/CN115544007A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种标签预处理方法、装置、计算机设备和存储介质,方法包括:根据预处理标签的任务类型配置相关数据信息;读取相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析预处理标签得到原子标签,在本地缓存应用中建立预处理标签和原子标签之间的键对值关系;基于本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;基于Aviator表达式和用户范围数据,计算获取预处理标签的值,根据预设的存储机制储存预处理标签的计算值。本申请可以解决现有标签系统超时的问题,降低人群标签开发的复杂度,极大提升了数据的处理能力,并能够大幅提升存储机构的存储空间。

Description

标签预处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据处理的技术领域,特别是涉及一种标签预处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网应用的快速发展,数据分析在业务决策中重要性日渐提升,数据分析业务通常需要对所要分析数据进行标签提取、过滤等预处理操作,但是,数据标签处理过程中数据来源众多、标签规则多样且网络环境复杂。传统的数据标签处理方法需要过多的人工干预,标签处理过程自动化程度低,处理方法复杂,数据分析工作的效率低,且无法适用于多种数据来源的标签处理,因此,通用性差、准确度低,针对需要人工干预的现有技术,提出一种智能化的数据处理平台即VSP标签系统(唯品会金融标签系统),但现有VSP标签系统依然存在以下几点问题:
1、由于标签依赖层级较多,实时计算时间就会过长,导致热点复杂标签出现大量超时的情况,对业务稳定运行带来极大风险;
2、Storm(分布式实时大数据处理系统)集群维护成本高,即将下线不再维护,迫切需要改用Flink(Apache基金会旗下的一个开源大数据处理框架)集群替换;
3、业务快速发展,标签数量增长过快,对于上亿级别的用户数据处理,Storm集群作业的处理时间越来越长;
4、系统Redis(Remote Dictionary Server,数据结构服务器)内存使用率极高,随着业务发展,内存增长过快。
因此,亟需提出一种稳定高效、可以实现海量数据处理及存储的标签预处理方法、装置、计算机设备和存储介质。
发明内容
基于此,有必要针对上述技术问题,提供一种稳定高效、可以实现海量数据处理及存储的标签预处理方法、装置、计算机设备和存储介质。
一方面,提供一种标签预处理方法,所述方法包括:
步骤A:根据预处理标签的任务类型配置相关数据信息;
步骤B:读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;
步骤C:基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;
步骤D:基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
在其中一个实施例中,还包括:所述相关数据信息包括所述第一配置信息和第二配置信息,具体为:所述第一配置信息包括自助人群管理表、人群配置管理表和属性配置管理表,在新增/修改所述第一配置信息时,添加标签预处理选项,在列表操作列,添加预处理状态查看选项;所述第二配置信息包括监控表,所述监控表的配置过程包括:配置交互功能:在列表上添加预设队列字段;新增/编辑监控表,添加预设队列项;在列表上添加业务抽数表名字段;新增/编辑监控表功能,添加业务抽数表名项;初始化配置:对接现有表的所述预设队列项,并更新监控表记录,更新现有记录的业务抽数表名。
在其中一个实施例中,还包括:所述读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系包括:读取所述属性配置管理表作为基础数据,读取所述自助人群管理表和人群配置管理表中的预处理标签及所述预处理标签的表达式规则;解析所述预处理标签的表达式规则得到原子标签;在所述本地缓存应用中建立所述原子标签键对值对象、建立所述原子标签与所述预处理标签的对应关系键对值对象、建立所述预处理标签的标签规则键对值对象。
在其中一个实施例中,还包括:所述基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据包括:基于所述本地缓存应用中的键值对关系查询所述预处理标签的原子标签;通过所述原子标签查询对应的监控表记录,读取配置的数据仓库工具表;基于所述原子标签的配置及所述数据仓库工具表,构造数据仓库工具语句;定义当前预处理标签的状态为初始化中,并生成用户范围查询数据库;利用流批一体结构化查询语言引擎对所述用户范围查询数据库进行用户范围查询,得到所述用户范围数据。
在其中一个实施例中,还包括:所述基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值包括:消费增量数据消息,根据所述原子标签的配置信息,进行消息筛选;根据所述原子标签的计算规则,读取筛选出的消息数据并进行计算,产生原子标签值;从所述本地缓存应用中查询所述原子标签与预处理标签的对应关系键对值对象并与所述原子标签值进行比对,若所述原子标签值有变化,则,遍历多个所述预处理标签。
在其中一个实施例中,还包括:根据所述预处理标签的原子标签,查询非消息原子标签在所述用户范围数据中的键值;执行所述预处理标签的Aviator表达式,生成所述预处理标签的值。
在其中一个实施例中,还包括:所述根据预设的存储机制储存所述预处理标签的计算值包括:采用压缩位图机制,存储所述预处理标签的值:将二值化的人群标签的标识符作为压缩位图的位存入位图对象中,序列化为字符串之后存入键值存储数据库中。
另一方面,提供了一种标签预处理装置,所述装置包括:
信息配置模块,用于根据预处理标签的任务类型配置相关数据信息;
关系建立模块,用于读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;
用户范围数据获取模块,用于基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;
计算存储模块,用于基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
再一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
步骤A:根据预处理标签的任务类型配置相关数据信息;
步骤B:读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;
步骤C:基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;
步骤D:基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
步骤A:根据预处理标签的任务类型配置相关数据信息;
步骤B:读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;
步骤C:基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;
步骤D:基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
上述的标签预处理方法、装置、计算机设备和存储介质,所述方法包括:根据预处理标签的任务类型配置相关数据信息;读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值,本申请采用流批一体框架和分布式的处理引擎可以实时计算处理预处理标签,解决现有系统标签超时的问题,降低人群标签开发的复杂度,极大提升了数据的处理能力,并且采用压缩位图机制对数值进行存储,大幅度提升了存储机构的存储空间。
附图说明
图1为一个实施例中标签预处理方法的应用环境图;
图2为一个实施例中标签预处理方法的流程示意图;
图3为一个实施例中标签预处理方法的另一流程示意图;
图4为一个实施例中标签预处理方法的标签查询请求时序流程示意图;
图5为一个实施例中标签预处理方法的标签数据实时计算时序流程示意图;
图6为一个实施例中标签预处理方法的物理系统部署示意图;
图7为一个实施例中标签预处理方法的数据存储示例示意图;
图8为一个实施例中标签预处理装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的标签预处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与设置于服务器104上的数据处理平台进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
实施例1
在一个实施例中,如图2~7所示,提供了一种标签预处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S1:根据预处理标签的任务类型配置相关数据信息。
需要说明的是,预处理标签即为附图2中的实时B标签,预处理标签的任务类型可以是消息接入和离线表查询,所述配置的相关数据信息包括所述第一配置信息和第二配置信息,具体为:
所述第一配置信息包括自助人群管理表、人群配置管理表和属性配置管理表,在新增/修改所述第一配置信息时,添加标签预处理选项,在列表操作列,添加预处理状态查看选项;
所述第二配置信息包括监控表,所述监控表的配置过程包括:
配置交互功能:在列表上添加预设队列字段;新增/编辑监控表,添加预设队列项;在列表上添加业务抽数表名字段;新增/编辑监控表功能,添加业务抽数表名项,示例性的,配置FlinkVDP(VIPShopDataPump,基于数据库增量日志解析,提供增量数据订阅&消费工具,简称VDP)队列,为后续VDP消息接入提供入口;
初始化配置:对接现有表的所述预设队列项,并更新监控表记录,更新现有记录的业务抽数表名,示例性的,配置业务抽数表,为后续FlinkSQL(符合标准构化查询语义的开发语言)进行数据批处理初始化,提供离线表查询入口。
S2:读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系。
需要说明的是,读取第一配置信息中的属性配置管理表、自助人群管理表和人群配置管理表,其中,读取所述属性配置管理表作为基础数据,所述自助人群管理表和人群配置管理表中包含了预处理标签及所述预处理标签的表达式规则(rule-表达式规则),此处所述的表达式即为Aviator表达式,所述Aviator表达式是一个高性能、轻量级的java语言实现的表达式求值引擎,主要用于各种表达式的动态求值;
解析所述预处理标签的表达式规则得到原子标签,原子标签即为图2~4中的实时A标签;
在所述本地缓存应用(localCache)中建立所述原子标签键对值对象、建立所述原子标签与所述预处理标签的对应关系键对值对象、建立所述预处理标签的标签规则键对值对象。
S3:基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据。
需要说明的是,根据步骤S1和S2构造用户范围查询sql并使用flink sql引擎(流批一体结构化查询语言引擎)进行用户范围查询,并使用flink sql引擎进行用户范围查询,获取查询数据后执行下一个步骤,具体为:
基于所述本地缓存应用中的键值对关系查询所述预处理标签的原子标签;
通过所述原子标签查询对应的监控表记录,读取配置的数据仓库工具(hive-数据仓库工具)表;
基于所述原子标签的配置及所述数据仓库工具表,构造数据仓库工具语句;
定义当前预处理标签的状态为初始化中,并生成用户范围查询数据库;
利用流批一体结构化查询语言引擎对所述用户范围查询数据库进行用户范围查询,得到所述用户范围数据。
S4:基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
需要说明的是,所述基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值包括:
消费增量数据消息(vdp消息),根据所述原子标签的配置信息,进行消息筛选;
根据所述原子标签的计算规则,读取筛选出的消息数据并进行计算,产生原子标签值,其中,此处的计算规则即为表达式规则;
从所述本地缓存应用中查询所述原子标签与预处理标签的对应关系键对值对象并与所述原子标签值进行比对,若所述原子标签值有变化,因预处理标签会配置多个,并且会共同依赖同一个原子标签,则,
遍历多个所述预处理标签;
上述步骤的目的是:原子标签值有变化情况下,上游的标签需要重新计算,需要知道上游有哪些标签依赖这个原子标签,因此需要查找键对值对象并进行比对;
进一步的,根据所述预处理标签的原子标签,查询非消息原子标签在所述用户范围数据中的键值,即非消息原子标签的redis值,示例性的,一个标签A,可能依赖于标签B、标签C或标签D,一个业务表的实时消息,关联的标签可能只有B,那么B标签的值要用实时消息来更新存储值,标签C和标签D就需要继续读取原来存储的值,此时,非消息原子标签指的是标签C和标签D;
执行所述预处理标签的Aviator表达式,生成所述预处理标签的值。
更进一步的,所述根据预设的存储机制储存所述预处理标签的计算值包括:
采用压缩位图(roaringbitmap)机制,存储所述预处理标签的值:
将二值化的人群标签的标识符作为压缩位图的位存入位图对象中,序列化为字符串之后存入键值存储数据库中。
示例性的,如图7所示,预处理标签计算值存储redis和mysql(关系型数据库):
Redis部分:对于二值化(仅含真假俩个值)的人群标签通常是描述用户的命中情况,数据相对稳定,将id作为roaringbitmap的位存入rBitmap对象中,序列化为字符串之后存入value。
offset:人群主键id(例子ug09030460对于的编号为2044);
v:人群值(例子1),如果人群不属于,则remove掉;
redis存储结构:gb:u:商城userid(唯品会用户主键id);
数据库部分:按userId进行分库,申请64个库schem_01,schem_02,……,schem_n,每库4张表:实时A人群表、实时A属性表、实时B属性表,实时B人群表。
分库逻辑:userId%64确认该用户属于那个分库,与dba确认下拉,需要2台机器,每台4个实例,每个实例8个分库。
上述标签预处理方法中,包括:根据预处理标签的任务类型配置相关数据信息;读取所述相关数据信息中的第一配置信息,得到AVIATOR表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;基于所述AVIATOR表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值,本申请采用流批一体框架和分布式的处理引擎可以实时计算处理预处理标签,解决现有系统标签超时的问题,降低人群标签开发的复杂度,极大提升了数据的处理能力,并且采用压缩位图机制对数值进行存储,大幅度提升了存储机构的存储空间。。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例2
在一个实施例中,如图8所示,提供了一种标签预处理装置,包括:信息配置模块、关系建立模块、用户范围数据获取模块和计算存储模块,其中:
信息配置模块,用于根据预处理标签的任务类型配置相关数据信息;
关系建立模块,用于读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;
用户范围数据获取模块,用于基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;
计算存储模块,用于基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
其中,所述相关数据信息包括所述第一配置信息和第二配置信息,具体为:
所述第一配置信息包括自助人群管理表、人群配置管理表和属性配置管理表,在新增/修改所述第一配置信息时,添加标签预处理选项,在列表操作列,添加预处理状态查看选项;
所述第二配置信息包括监控表,所述监控表的配置过程包括:
配置交互功能:在列表上添加预设队列字段;新增/编辑监控表,添加预设队列项;在列表上添加业务抽数表名字段;新增/编辑监控表功能,添加业务抽数表名项;
初始化配置:对接现有表的所述预设队列项,并更新监控表记录,更新现有记录的业务抽数表名。
作为一种较优的实施方式,本发明实施例中,所述关系建立模块具体用于:
读取所述属性配置管理表作为基础数据,读取所述自助人群管理表和人群配置管理表中的预处理标签及所述预处理标签的表达式规则;
解析所述预处理标签的表达式规则得到原子标签;
在所述本地缓存应用中建立所述原子标签键对值对象、建立所述原子标签与所述预处理标签的对应关系键对值对象、建立所述预处理标签的标签规则键对值对象。
作为一种较优的实施方式,本发明实施例中,所述用户范围数据获取模块具体用于:
基于所述本地缓存应用中的键值对关系查询所述预处理标签的原子标签;
通过所述原子标签查询对应的监控表记录,读取配置的数据仓库工具表;
基于所述原子标签的配置及所述数据仓库工具表,构造数据仓库工具语句;
定义当前预处理标签的状态为初始化中,并生成用户范围查询数据库;
利用流批一体结构化查询语言引擎对所述用户范围查询数据库进行用户范围查询,得到所述用户范围数据。
作为一种较优的实施方式,本发明实施例中,所述计算存储模块具体用于:
消费增量数据消息,根据所述原子标签的配置信息,进行消息筛选;
根据所述原子标签的计算规则,读取筛选出的消息数据并进行计算,产生原子标签值;
从所述本地缓存应用中查询所述原子标签与预处理标签的对应关系键对值对象并与所述原子标签值进行比对,若所述原子标签值有变化,则,
遍历多个所述预处理标签;
根据所述预处理标签的原子标签,查询非消息原子标签在所述用户范围数据中的键值;
执行所述预处理标签的Aviator表达式,生成所述预处理标签的值。
作为一种较优的实施方式,本发明实施例中,所述计算存储模块具体还用于:
所述根据预设的存储机制储存所述预处理标签的计算值包括:
采用压缩位图机制,存储所述预处理标签的值:
将二值化的人群标签的标识符作为压缩位图的位存入位图对象中,序列化为字符串之后存入键值存储数据库中。
关于标签预处理装置的具体限定可以参见上文中对于标签预处理方法的限定,在此不再赘述。上述标签预处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
实施例3
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标签预处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤A:根据预处理标签的任务类型配置相关数据信息;
步骤B:读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;
步骤C:基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;
步骤D:基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
其中,所述相关数据信息包括所述第一配置信息和第二配置信息,具体为:
所述第一配置信息包括自助人群管理表、人群配置管理表和属性配置管理表,在新增/修改所述第一配置信息时,添加标签预处理选项,在列表操作列,添加预处理状态查看选项;
所述第二配置信息包括监控表,所述监控表的配置过程包括:
配置交互功能:在列表上添加预设队列字段;新增/编辑监控表,添加预设队列项;在列表上添加业务抽数表名字段;新增/编辑监控表功能,添加业务抽数表名项;
初始化配置:对接现有表的所述预设队列项,并更新监控表记录,更新现有记录的业务抽数表名。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
读取所述属性配置管理表作为基础数据,读取所述自助人群管理表和人群配置管理表中的预处理标签及所述预处理标签的表达式规则;
解析所述预处理标签的表达式规则得到原子标签;
在所述本地缓存应用中建立所述原子标签键对值对象、建立所述原子标签与所述预处理标签的对应关系键对值对象、建立所述预处理标签的标签规则键对值对象。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于所述本地缓存应用中的键值对关系查询所述预处理标签的原子标签;
通过所述原子标签查询对应的监控表记录,读取配置的数据仓库工具表;
基于所述原子标签的配置及所述数据仓库工具表,构造数据仓库工具语句;
定义当前预处理标签的状态为初始化中,并生成用户范围查询数据库;
利用流批一体结构化查询语言引擎对所述用户范围查询数据库进行用户范围查询,得到所述用户范围数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
消费增量数据消息,根据所述原子标签的配置信息,进行消息筛选;
根据所述原子标签的计算规则,读取筛选出的消息数据并进行计算,产生原子标签值;
从所述本地缓存应用中查询所述原子标签与预处理标签的对应关系键对值对象并与所述原子标签值进行比对,若所述原子标签值有变化,则,
遍历多个所述预处理标签;
根据所述预处理标签的原子标签,查询非消息原子标签在所述用户范围数据中的键值;
执行所述预处理标签的Aviator表达式,生成所述预处理标签的值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述根据预设的存储机制储存所述预处理标签的计算值包括:
采用压缩位图机制,存储所述预处理标签的值:
将二值化的人群标签的标识符作为压缩位图的位存入位图对象中,序列化为字符串之后存入键值存储数据库中。
实施例4
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤A:根据预处理标签的任务类型配置相关数据信息;
步骤B:读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;
步骤C:基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;
步骤D:基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
其中,所述相关数据信息包括所述第一配置信息和第二配置信息,具体为:
所述第一配置信息包括自助人群管理表、人群配置管理表和属性配置管理表,在新增/修改所述第一配置信息时,添加标签预处理选项,在列表操作列,添加预处理状态查看选项;
所述第二配置信息包括监控表,所述监控表的配置过程包括:
配置交互功能:在列表上添加预设队列字段;新增/编辑监控表,添加预设队列项;在列表上添加业务抽数表名字段;新增/编辑监控表功能,添加业务抽数表名项;
初始化配置:对接现有表的所述预设队列项,并更新监控表记录,更新现有记录的业务抽数表名。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
读取所述属性配置管理表作为基础数据,读取所述自助人群管理表和人群配置管理表中的预处理标签及所述预处理标签的表达式规则;
解析所述预处理标签的表达式规则得到原子标签;
在所述本地缓存应用中建立所述原子标签键对值对象、建立所述原子标签与所述预处理标签的对应关系键对值对象、建立所述预处理标签的标签规则键对值对象。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于所述本地缓存应用中的键值对关系查询所述预处理标签的原子标签;
通过所述原子标签查询对应的监控表记录,读取配置的数据仓库工具表;
基于所述原子标签的配置及所述数据仓库工具表,构造数据仓库工具语句;
定义当前预处理标签的状态为初始化中,并生成用户范围查询数据库;
利用流批一体结构化查询语言引擎对所述用户范围查询数据库进行用户范围查询,得到所述用户范围数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
消费增量数据消息,根据所述原子标签的配置信息,进行消息筛选;
根据所述原子标签的计算规则,读取筛选出的消息数据并进行计算,产生原子标签值;
从所述本地缓存应用中查询所述原子标签与预处理标签的对应关系键对值对象并与所述原子标签值进行比对,若所述原子标签值有变化,则,
遍历多个所述预处理标签;
根据所述预处理标签的原子标签,查询非消息原子标签在所述用户范围数据中的键值;
执行所述预处理标签的Aviator表达式,生成所述预处理标签的值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述根据预设的存储机制储存所述预处理标签的计算值包括:
采用压缩位图机制,存储所述预处理标签的值:
将二值化的人群标签的标识符作为压缩位图的位存入位图对象中,序列化为字符串之后存入键值存储数据库中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种标签预处理方法,其特征在于,所述方法包括:
根据预处理标签的任务类型配置相关数据信息;
读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;
基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;
基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
2.根据权利要求1所述的标签预处理方法,其特征在于,所述相关数据信息包括所述第一配置信息和第二配置信息,具体为:
所述第一配置信息包括自助人群管理表、人群配置管理表和属性配置管理表,在新增/修改所述第一配置信息时,添加标签预处理选项,在列表操作列,添加预处理状态查看选项;
所述第二配置信息包括监控表,所述监控表的配置过程包括:
配置交互功能:在列表上添加预设队列字段;新增/编辑监控表,添加预设队列项;在列表上添加业务抽数表名字段;新增/编辑监控表功能,添加业务抽数表名项;
初始化配置:对接现有表的所述预设队列项,并更新监控表记录,更新现有记录的业务抽数表名。
3.根据权利要求2所述的标签预处理方法,其特征在于,所述读取所述相关数据信息中的第一配置信息,得到Av i ator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系包括:
读取所述属性配置管理表作为基础数据,读取所述自助人群管理表和人群配置管理表中的预处理标签及所述预处理标签的表达式规则;
解析所述预处理标签的表达式规则得到原子标签;
在所述本地缓存应用中建立所述原子标签键对值对象、建立所述原子标签与所述预处理标签的对应关系键对值对象、建立所述预处理标签的标签规则键对值对象。
4.根据权利要求1所述的标签预处理方法,其特征在于,所述基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据包括:
基于所述本地缓存应用中的键值对关系查询所述预处理标签的原子标签;
通过所述原子标签查询对应的监控表记录,读取配置的数据仓库工具表;
基于所述原子标签的配置及所述数据仓库工具表,构造数据仓库工具语句;
定义当前预处理标签的状态为初始化中,并生成用户范围查询数据库;
利用流批一体结构化查询语言引擎对所述用户范围查询数据库进行用户范围查询,得到所述用户范围数据。
5.根据权利要求1所述的标签预处理方法,其特征在于,所述基于所述Aviator表达式和所述用户范围数据,计算获取所述预处理标签的值包括:
消费增量数据消息,根据所述原子标签的配置信息,进行消息筛选;
根据所述原子标签的计算规则,读取筛选出的消息数据并进行计算,产生原子标签值;
从所述本地缓存应用中查询所述原子标签与预处理标签的对应关系键对值对象并与所述原子标签值进行比对,若所述原子标签值有变化,则,
遍历多个所述预处理标签。
6.根据权利要求5所述的标签预处理方法,其特征在于,还包括:
根据所述预处理标签的原子标签,查询非消息原子标签在所述用户范围数据中的键值;
执行所述预处理标签的Aviator表达式,生成所述预处理标签的值。
7.根据权利要求1所述的标签预处理方法,其特征在于,所述根据预设的存储机制储存所述预处理标签的计算值包括:
采用压缩位图机制,存储所述预处理标签的值:
将二值化的人群标签的标识符作为压缩位图的位存入位图对象中,序列化为字符串之后存入键值存储数据库中。
8.一种标签预处理装置,其特征在于,所述装置包括:
信息配置模块,用于根据预处理标签的任务类型配置相关数据信息;
关系建立模块,用于读取所述相关数据信息中的第一配置信息,得到Aviator表达式和预处理标签,解析所述预处理标签得到原子标签,并在本地缓存应用中建立所述预处理标签和所述原子标签之间的键对值关系;
用户范围数据获取模块,用于基于所述本地缓存应用中的键值对关系构建用户范围查询数据库,利用流批一体结构化查询语言引擎进行用户范围查询,得到用户范围数据;
计算存储模块,用于基于所述Avi ator表达式和所述用户范围数据,计算获取所述预处理标签的值,根据预设的存储机制储存所述预处理标签的计算值。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211183409.2A 2022-09-27 2022-09-27 标签预处理方法、装置、计算机设备和存储介质 Pending CN115544007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211183409.2A CN115544007A (zh) 2022-09-27 2022-09-27 标签预处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211183409.2A CN115544007A (zh) 2022-09-27 2022-09-27 标签预处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115544007A true CN115544007A (zh) 2022-12-30

Family

ID=84728902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211183409.2A Pending CN115544007A (zh) 2022-09-27 2022-09-27 标签预处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115544007A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010420A (zh) * 2023-01-19 2023-04-25 天翼爱音乐文化科技有限公司 一种基于位图存储的数据查询方法、系统、设备及介质
CN116009949A (zh) * 2023-03-28 2023-04-25 税友软件集团股份有限公司 一种数值获取方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010420A (zh) * 2023-01-19 2023-04-25 天翼爱音乐文化科技有限公司 一种基于位图存储的数据查询方法、系统、设备及介质
CN116010420B (zh) * 2023-01-19 2024-06-11 天翼爱音乐文化科技有限公司 一种基于位图存储的数据查询方法、系统、设备及介质
CN116009949A (zh) * 2023-03-28 2023-04-25 税友软件集团股份有限公司 一种数值获取方法、装置、设备及存储介质
CN116009949B (zh) * 2023-03-28 2023-08-29 税友软件集团股份有限公司 一种数值获取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11132384B2 (en) Generating a multi-column index for relational databases by interleaving data bits for selectivity
US10372723B2 (en) Efficient query processing using histograms in a columnar database
US9367574B2 (en) Efficient query processing in columnar databases using bloom filters
CN115544007A (zh) 标签预处理方法、装置、计算机设备和存储介质
CN111310427A (zh) 业务数据配置处理方法、装置、计算机设备和存储介质
CN112052138A (zh) 业务数据质量检测方法、装置、计算机设备及存储介质
CN110362607B (zh) 异常号码识别方法、装置、计算机设备及存储介质
CN111400578B (zh) 货物数据查询方法、装置、计算机设备和存储介质
CN111611276A (zh) 数据查询方法、装置及存储介质
CN111984659A (zh) 数据更新方法、装置、计算机设备和存储介质
CN115357590A (zh) 针对数据变更的记录方法、装置、电子设备及存储介质
CN111324687A (zh) 知识库中数据处理方法、装置、计算机设备和存储介质
Millham et al. Pattern mining algorithms
CN115203339A (zh) 多数据源整合方法、装置、计算机设备及存储介质
CN114356945A (zh) 数据处理方法、装置、计算机设备和存储介质
CN112579705A (zh) 元数据采集方法、装置、计算机设备和存储介质
CN112202822B (zh) 数据库注入检测方法、装置、电子设备及存储介质
CN116578583B (zh) 异常语句识别方法、装置、设备、存储介质
CN115481142A (zh) 慢查询语句处理方法、装置、电子设备及存储介质
CN115293452A (zh) 用户行为预测方法、装置、计算机设备和存储介质
CN112364007A (zh) 基于数据库的海量数据交换方法、装置、设备和存储介质
CN111177132A (zh) 关系型数据的标签清洗方法、装置、设备及存储介质
CN117874082A (zh) 一种关联字典数据检索的方法及相关组件
CN115935933A (zh) 一种清单分析方法、装置、计算机设备和存储介质
CN118037458A (zh) 业务请求的处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination