CN116383207A - 一种数据标签管理方法、装置、电子设备和存储介质 - Google Patents

一种数据标签管理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116383207A
CN116383207A CN202310350981.1A CN202310350981A CN116383207A CN 116383207 A CN116383207 A CN 116383207A CN 202310350981 A CN202310350981 A CN 202310350981A CN 116383207 A CN116383207 A CN 116383207A
Authority
CN
China
Prior art keywords
data
tag
preset
data tag
offline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310350981.1A
Other languages
English (en)
Inventor
黄强
覃家正
黄信朝
刘天能
黄彩焕
莫涵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Quyan Network Technology Co ltd
Original Assignee
Guangzhou Quyan Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Quyan Network Technology Co ltd filed Critical Guangzhou Quyan Network Technology Co ltd
Priority to CN202310350981.1A priority Critical patent/CN116383207A/zh
Publication of CN116383207A publication Critical patent/CN116383207A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据标签管理方法、装置、电子设备和存储介质,其中,该方法包括:在至少一个数据源获取待标签数据;按照时效类型生成所述待标签数据的数据标签;将所述数据标签按照预设标签结构存储至目标存储区域。本发明实施例通过在不同的数据源获取待标签数据,根据待标签数据的不同时效类型生成数据标签,将数据标签按照预设标签结构存储到目标存储区域,实现了数据标签的数据结构的标准化,可降低数据标签管理的难度,便于对数据标签进行统一化管理,从而提高数据的利用效率,增强数据标签的通用性。

Description

一种数据标签管理方法、装置、电子设备和存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据标签管理方法、装置、电子设备和存储介质。
背景技术
在大数据时代中用户使用应用软件的过程会产生大量数据,为更好的运营以及服务用户,企业往往会对已有的数据进行分析和聚合,在此过程中创建一系列的标签来标识用户。目前企业对于标签主要关心标签存储介质以及存储的数据结构的问题,并未涉及企业内不同业务线如何协作开发标签。由于企业内不同业务需求标签的制定往往无统一固定,标签的生成方式五花八门,导致标识的数据仅在单条业务线使用,数据利用效率较低,用户画像往往不够准确。
发明内容
本发明提供了一种数据标签管理方法、装置、电子设备和存储介质,通过统一数据标签的数据结构,汇集不同来源的数据标签,降低数据标签管理难度,可增强数据的利用效率,增强数据标签的通用性。
根据本发明的一方面,提供了一种数据标签管理方法,其中,该方法包括:
在至少一个数据源获取待标签数据;
按照时效类型生成所述待标签数据的数据标签;
将所述数据标签按照预设标签结构存储至目标存储区域。
根据本发明的另一方面,提供了一种数据标签管理装置,其中,该装置包括:
数据采集模块,用于在至少一个数据源获取待标签数据;
标签生成模块,用于按照时效类型生成所述待标签数据的数据标签;
标签存储模块,用于将所述数据标签按照预设标签结构存储至目标存储区域。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据标签管理方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据标签管理方法。
本发明实施例的技术方案,通过在不同的数据源获取待标签数据,根据待标签数据的不同时效类型生成数据标签,将数据标签按照预设标签结构存储到目标存储区域,本发明实施例通过预设标签结构实现了数据标签的数据结构的标准化,可降低数据标签管理的难度,便于对数据标签进行统一化管理,从而提高数据的利用效率,增强数据标签的通用性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种数据标签管理方法的流程图;
图2是根据本发明实施例二提供的另一种数据标签管理方法的流程图;
图3是根据本发明实施例二提供的一种数据标签存储的示例图;
图4是根据本发明实施例三提供的一种数据标签管理方法的示例图;
图5是根据本发明实施例四提供的一种数据标签管理装置的结构示意图;
图6是实现本发明实施例的数据标签管理方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1是根据本发明实施例一提供的一种数据标签管理方法的流程图,本实施例可适用于企业内不同业务线的数据标签统一管理的情况,该方法可以由数据标签管理装置来执行,该数据标签管理装置可以采用硬件和/或软件的形式实现,该数据标签管理装置可配置于服务器或服务器集群中。如图1所示,该方法包括:
步骤110、在至少一个数据源获取待标签数据。
其中,数据源可以是数据的来源,数据源可以包括客户端、服务器后台日志、数据库实时日志以及消息队列的话题等,待标签数据可以是各数据源内需要生成数据标签的数据,可以理解的是,待标签数据可以来自于不同的数据源。
在本发明实施例中,可以在不同的数据源采集到待标签数据,该待标签数据可以是客户端上传的行为数据、服务器后台实时记录的日志数据、数据库日志数据以及消息队列中对应话题的数据等,可以通过对不同数据源进行统一采集,从而获取不同的待标签数据,可以理解的是,按照数据使用方式,待标签数据可以包括实时数据以及离线数据等。
步骤120、按照时效类型生成待标签数据的数据标签。
其中,时效类型可以是标识待标签数据使用时效的信息,越重要的待标签数据可以具有更高的时效类型,时效类型可以根据实际需要划分为多种类型,在一些发明实施例中,时效类型可以包括实时数据以及离线数据等,其中,实时数据可以是指待标签数据在较短时间内被使用,时效性较短的数据,而离线数据可以指待标签数据在较长时间有效的数据,其时效性较长。数据标签可以在数据处理过程中为待标签数据添加的附加信息,数据标识可以标识待标签数据某种属性,便于处理人员对待标签数据进行处理。
在本发明实施例中,可以对采集到的待标签数据进行分类,不同类别内的待标签数据可以具有不同的时效类型,针对不同类别内的待标签数据可以分别进行数据标签生成,可以理解的是,数据标签生成的过程可以按照具体的业务需要实现,例如,可以将待标签数据体现的用户习惯作为数据标签,也可以将待标签数据体现的业务范围作为数据标签,可以理解的是,在本发明实施例中,针对不同的时效类型的待标签数据生成数据标签的具体方式在此不作限制。
步骤130、将数据标签按照预设标签结构存储至目标存储区域。
其中,预设标签结构可以是对数据标签的数据结构进行标准化的信息,预设标签结构可以参数的形式存储在文件或者表格内,预设标签结构的存在可以便于对数据标签的数据结构进行统一管理,在未来数据标签更新升级时,可以仅通过对预设标签结构的修改,实现数据标签的整体升级,在一些发明实施例中,预设标签结构可以由表格的数据结构指示。目标存储区域可以是存储数据标签的位置,目标存储区域可以包括缓存区域或者持久化存储区域,进一步的,目标存储区域可以为多个,可以根据对应的时效类型不同,将数据标签存储到不同的目标存储区域。
在本发明实施例中,可以不同时效类型对应的待标签数据生成的数据标签进行存储,可以将生成的数据标签按照预设标签结构进行验证,可以仅将符合预设标签结构的数据标签存储到目标存储区域,在一些发明实施例中,可以将不符合预设标签结构的数据标签进行数据格式转换,可以将经过数据格式转换后的数据标签存储到目标区域,或者,可以将不符合预设标签结构的数据标签丢弃不进行存储。
本发明实施例,通过获取不同数据源内的待标签数据,按照生成不同时效类型的待标签数据的数据标签,将数据标签按照预设标签结构存储到目标存储区域,通过预设标签结构实现了数据标签的数据结构的标准化,可降低数据标签管理的难度,便于对数据标签进行统一化管理,从而提高数据的利用效率,增强数据标签的通用性。
实施例二
图2是根据本发明实施例二提供的另一种数据标签管理方法的流程图,本发明实施例是在上述发明实施例基础上的具体化,参见图2,本发明实施例提供的方法具体包括如下步骤:
步骤210、在至少一个数据源获取待标签数据。
步骤220、将待标签数据存储到消息队列,并调用数据仓库工具定时同步消息队列的待标签数据。
其中,消息队列可以是暂存待标签数据的存储区域,在一些申请实施例中,消息队列可以包括ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等,数据仓库工具可以是一种数据仓库分析工具,可以对数据进行操作,进行数据提取、转化以及加载等处理,数据仓库工具可以包括Hive、Presto等。
在本发明实施例中,消息队列可以接收不同数据源采集的待标签数据,通过消息队列实现与不同数据源的对接,便于获取不同数据源的待标签数据,消息队列可以实现对待标签数据的临时存储,可以对需要进行较长时间保存的待标签数据使用数据仓库工具进行暂存,可以通过定时调用数据仓库工具来同步消息队列内存储的待标签数据,可以理解的是,数据仓库工具内存储的待标签数据可以具有持久化存储的特点,该类的待标签数据可以具有较长的时效性。
步骤230、将消息队列的待标签数据传输至订阅客户端,并获取订阅客户端生成的待标签数据的实时数据标签。
其中,订阅客户端可以是订阅消息队列内数据的客户端,订阅客户端可以按照其业务需求在消息队列内订阅不同类型的待标签数据,订阅客户端可以设置自己的标签生成规则,可以接收到的待标签数据进行处理从而生成实时数据标签。可以理解的是,消息队列内的待标签数据的传输可以通过消息队列配合流处理技术的方式实现,在一些发明实施例中,消息队列内的待标签数据可以通过Spark Streaming、flink、akka等技术传输到不同的客户端。
在本发明实施例中,可以将消息队列内待标签数据按照订阅客户端的订阅情况传输到对应的订阅客户端,订阅客户端可按照各自的业务需求将待标签数据处理为实时数据标签,可以理解的是,不同的订阅客户端依据各自的业务需求可以配置不同的数据标签生成规则。订阅客户端可以将生成的实时数据标签重新上传到消息队列内,便于后续对不同的实时标签数据进行统一管理。
步骤240、响应于业务端请求,传输数据仓库工具的待标签数据至业务端,并获取业务端生成的待标签数据的离线数据标签。
其中,业务端请求可以是业务端向数据仓库工具传输的请求获取待标签数据的信息,业务端请求内可以包括标识待标签数据的信息,例如,数据标识号或者用户名等,业务端可以是对待标签数据进行处理的服务端,业务端可以按照业务需求配置不同的标签生成规则,业务端可以按照标签生成规则为待标签数据生成离线数据标签。可以理解的是,数据仓工具可以配置和批数据技术实现离线数据标签的生成,其中,批数据技术可以包括hive、spark、map reduce等。
在本发明实施例中,数据仓库工具在接收到业务端发送的业务端请求时,可以将数据仓库工具内与该业务端请求对应的待标签数据传输到业务端,可以由业务端按照其设置的标签生成规则将待标签数据处理为离线数据标签,业务端可以将生成的离线数据标签上传到数据仓库工具,以便对离线数据标签进行统一管理,可以理解的是,业务端可以为一个或多个,不同的业务端可以按照不同的业务需求将待标签数据处理为不同的离线数据标签。
步骤250、判断数据标签是否满足基于预设数据表的字段要求,其中,预设数据表按照预设标签结构创建。
其中,预设数据表可以是按照预设标签结构创建的数据表,实时数据标签或离线数据标签等数据标签可以存储在预设数据表内,则数据标签可以满足预设标签结构的要求,否则,数据标签不满足预设标签结构的要求,可以理解的是,在目标存储区域存在多个时,预设数据表的数量可以为多个,每个目标存储区域可以存在各自对应的预设数据表。字段要求可以是预设数据表包括的数据字段,字段要求可以与预设数据标签结构相对应。
在本发明实施例中,在将数据标签存储到预设数据表之前,可以对判断数据标签的数据结构是否满足预设数据表的字段要求,例如,数据标签的数据结构中每个字段是否均包含在预设数据表的字段要求内。
步骤260、若满足,则将数据标签存储至预设数据表,否则生成标签格式错误提醒。
其中,标签格式错误提醒可以是提示数据标签不符合预设数据表的字段要求的信息,标签格式错误提醒内可以具体包括数据标签不符合字段要求的具体描述,标签格式错误可以反馈到业务端。
在本发明实施例中,在数据标签满足预设数据表格的字段要求时,可以将该数据标签存储到预设数据表,在数据标签不满足预设数据表格的字段要求时,可以生成标签格式错误提醒。在一些发明实施例中,该标签格式错误提醒内可以包括数据标签哪些字段不符合预设数据表格的字段要求,该标签格式错误可以反馈至业务端,业务人员可以按照标签格式错误提醒对数据标签的生成规则进行调整。
在一些发明实施中,图3是根据本发明实施例二提供的一种数据标签存储的示例图,本发明实施例是在上述发明实施例基础上的具体化,参见图3,在本发明实施例中,按照业务需求以及用户活跃状态,可以目标存储区域可以包括Redis缓存、Hbase数据库以及clickhouse数据库等,相应的,将所述数据标签存储至所述预设数据表,包括:
步骤2601、在消息队列保存数据标签内的实时数据标签以及在数据仓库工具保存数据标签内的离线数据标签。
在本发明实施例中,可以将实时数据标签以及离线数据标签分别单独存储,由消息队列保存时效性较高的实时数据标签,可提高实时数据标签的读写效率,而由数据仓库工具保存离线数据标签,可便于对离线数据标签进行持久化存储,保障离线数据标签存储的安全性。
步骤2602、按照第一定时时长控制数据仓库工具同步消息队列存储的实时数据标签。
其中,第一定时时长可以是按照业务需求设置的时间长度,在第一定时时长内可以将消息队列的实时数据标签同步至数据仓库工具进行存储。
在本发明实施例中,可以在数据仓库工具内设置第一定时时长,每间隔第一定时时长可以由数据仓库工具读取消息队列存储的实时数据标签,可以将实时数据标签存储到数据仓库工具内。
步骤2603、将消息队列内的实时数据标签存储至Redis缓存,并为实时数据标签设置第一有效时长。
针对实时数据标签,可以将实时数据标签存储到Redis缓存,在存储时可以对实时数据标签中的有效时长字段进行设置,可以具体设置为第一有效时长,在实时数据标签可以在第一有效时长内有效,也即在第一有效时长内,通过该实时数据标签可以实现业务功能。
步骤2604、确定数据仓库工具内离线数据标签属于活跃用户的第一离线数据标签以及属于非活跃用户的第二离线数据标签。
其中,活跃用户可以是在一段时间内具有业务活动的用户,活跃用户可以通过对离线数据标签的数据更新频率来确定,在一些发明实施例中,离线数据标签的更新频率大于第一阈值的离线数据标签可以判定位属于活跃用户,相反,可以判定离线数据标签属于非活跃用户。
在本发明实施例中,可以统计数据仓库工具内不同离线数据标签的活跃程度,可以将离线数据标签划分为属于活跃用户或者非活跃用户,若离线数据标签属于活跃用户,可以将该离线数据标签标记为第一离线数据标签,若离线数据标签属于非活跃用户,可以将该离线数据标签标记为第二离线数据标签,可以理解的是,通过离线数据标签判别属于活跃用户或者非活跃用户的方式在此不作限制,例如,可以通过离线数据标签的最近更新时间进行判断,或者通过离线数据标签的更新频率进行判断。
步骤2605、保存第一离线数据标签至Redis缓存,并为第一离线数据标签设置第二有效时长。
在本发明实施例中,可以将属于活跃用户的第一离线数据标签存储到Redis缓存,并将第一离线数据标签的有效时长字段设置为第二有效时长,使得第一离线数据标签在第二有效时长内有效。
步骤2606、保存第二离线数据标签至Hbase数据库,并为第二离线数据标签设置第二有效时长。
在本发明实施例中,可以将属于非活跃用户的第二离线数据标签存储到Hbase数据库,将第二离线数据标签的有效时长字段设置为第二有效时长,第二离线数据标签可以在第二有效时长内实现业务功能。
步骤2607、按照预设业务需求同步消息队列内的目标实时数据标签以及数据仓库工具内目标离线数据标签至clickhouse数据库,并为目标实时数据标签以及目标离线数据标签分别设置第四有效时长以及第五有效时长。
其中,预设业务需求可以是通过数据标签实现业务功能的需求。
在本发明实施例中,可以按照业务需求在消息队列内确定目标实时数据标签以及在数据仓库工具内确定目标离线数据标签,该目标实时数据标签与目标离线数据标签均满足业务需求的要求,可以将确定出的目标实时数据标签以及目标离线数据标签存储到clickhouse数据库,以提供标签圈选人群的能力,此外,还可以在clickhouse数据库内为目标实时数据标签以及目标离线数据标签分别设置不同的有效时长,从而保证数据标签的时效性。
进一步的,在本发明实施例中,消息队列内所述实时标签存储的所述预设数据表基于Flink结构化查询语言表定义生成,所述数据仓库工具内所述离线数据标签存储的所述预设数据表基于LableTable字段要求生成。
在本发明实施例中,在Redis缓存内,实时标签存储在预设数据表,该预设数据表可以Flink结构化查询语言(Structured Query Language,SQL)表定义的形式存在,而在Hbase数据库内离线数据标签存储的预设数据表可以LableTable的字段要求的形式体现,可以理解的是,Redis缓存以及Hbase数据库中的预设数据表可以均包括主体类型字段、主体编号字段、标签名字段、标签值字段、有效时长字段、生成时间字段等字段。
进一步的,在一些发明实施例中,将所述数据标签存储至所述预设数据表之前,还包括:确定预设数据表不存在数据标签。
在本发明实施例中,为了减少标签的重复,可以检查预设数据表内是否存在该数据标签,若预设数据表内该数据标签的所有字段均未发生改变,则不将该数据标签写入预设数据表,在预设数据表未存在该数据标签时才将数据标签写入,可减少重复数据标签的数量,减小下游存储引擎压力。
本发明实施例,通过统一获取不同数据源的待标签数据,并存储待标签数据到消息队列,数据仓库工具定时同步消息队列内的待标签数据,消息队列传输待标签数据到订阅客户端,由订阅客户端生成待标签数据的数据标签,响应于业务端请求,将数据仓库工具的待标签数据传输至业务端,由业务端生成待标签数据的离线数据标签,在实时数据标签以及离线数据标签等数据标签满足按照预设标签结构生成的预设数据表的字段要求时,可以将数据标签存储至预设数据表,否则,生成数据标签的标签格式错误提醒。本发明实施例通过消息队列统一管理不同来源的待标签数据,可提高待标签数据对接的统一性,基于预设数据表处理待标签数据的数据标签,可提高预设数据标签结构检测的便利性,便于对数据标签进行统一化管理,从而提高数据的利用效率,增强数据标签的通用性。
进一步的,在上述发明实施例的基础上,预设标签结构至少包括主体类型字段、主体编号字段、标签名字段、标签值字段、有效时长字段、生成时间字段。
在本发明实施例中,在各目标存储区域中数据标签均需要满足预设标签结构,该预设标签结构可以由主体类型字段、主体编号字段、标签名字段、标签值字段、有效时长字段、生成时间字段等字段组成,也就是说标准化的数据标签需含有上述字段,其中,主体类型字段可以标识数据标签关联的待标签数据的数据类型,主体编号字段可以标识数据标签管理的待标签数据的标识号,标签名字段可以是数据标签的标识信息,标签值字段可以存储数据标签所代表的待标签数据的特性,有效时长字段可以存储数据标签的最长有效时间,生成时间字段可以存储生成数据标签的时间。
进一步的,在本发明实施例中,第一有效时长以及第二有效时长均小于第一定时时长。
在本发明实施例中,消息队列同步的第一定时时长可以大于数据标签在Redis缓存内暂存的有效时长,从而减少Hbase数据库内存储的数据标签的数量,避免同步线程消耗过高。
实施例三
图4是根据本发明实施例三提供的一种数据标签管理方法的示例图,参见图4,该数据标签管理方法具体包括:
1、数据标签管理方法内各待标签数据的数据来源统一,首先在数据源采集层面,可以覆盖实时上报的客户端、实时记录的后台服务器、实时记录的数据库日志、Kafka流处理平台的话题Topic等,上述数据来源为实时数据标签的计算提供了数据基础,Kafka流处理平台可以对接上述数据源,并定时将实时变化的待标签数据同步至Hive,通过Hive满足离线数据标签计算的需要。
2、制定实时标签以及离线标签的存储标签,保障企业不同业务团体使用的标签数据结构的一致性。
2.1、实时标签标准:定制Flink LabelDynamicTable(客制化的Flink SQL表),a)该SQL表可以具有固定表结构,可以通过扩展DynamicKafkaRecordSerializationSchema,实现固定字段的表结构,在实时数据标签不满足表结构时不允许实时数据标签进入FlinkLabelDynamicTable;b)此外还可以通过扩展SinkBufferFlushMode实现重复数据合并功能,减少存储的实时数据标签的重复标签值更新,减轻下游存储引擎压力,主要通过不同时刻计算出的实时数据标签,在其值没有改变时不记录未改变值的标签,从而减少标签更新;c)扩展UpsertKafkaDynamicTableFactory,以支持实时数据标签更强的扩展性,可以记录数据格式版本,以适应未来更多种可能标签结构的兼容,实时数据标签可以定义了TTL记录标签存储引擎内数据过期时间,并定义Version字段记录标签版本以获知当前标签是否正常。
2.2、离线标签标准:通过规范hive建表语句,符合LableTable字段要求的表注册到离线标签表,只要表结构字段一致,即可对接到离线标签表,主要字段包括主体类型、主体ID、标签名、标签值、过期时间、生成时间(版本)等。
3、将企业内各部门开发完成的离线数据标签以及实时数据标签更新到Clickhouse,提供基于数据标签圈选人群的业务功能,其中,活跃用户的标签(包括离线数据标签以及实时数据标签)落地到Redis Cluster,以提升标签的点查性能,实时标签同步到Hive后,统一由离线的方式落地到HBase,以应对非活跃标签的点查。在存储过程中进行了改进:
3.1、实时写入Redis cluster:为了保证标签的实时性和对HBase影响,实时标签数据通过统一定制的Flink DynamicTable实时写入Kafka后,直接将数据写入RedisCluster,基于内存性能远大于HBase LSM的合并。同时,还针对性的引入Redisson定制为Flink RedisBatchSink,实现了并发Pipline微批的高效更新标签。最后,利用Redis数据过期机制,避免Redis Cluster内的数据无限增长。
3.2、BulkLoad文件写HBase:经过步骤3.1可以避免实时写HBase。Redis Cluster只存储近期有效的数据,全量数据仍然需要HBase存储,可以引入HBase BulkLoad技术,将Kafka数据落地到HDFS,T+1生成HFile加载进HBase,彻底的解决了由实时写入带来的性能问题。其中,HFile生成可以包括:定制BulkLoadPartitioner,通过查询HBase Region元数据,按Rowkey进行分区;定制RichKeyFamilyQualifier,可序列化对象在Spark中使用,支持排序实现HFile的数据有序,通知可以支持HFile中KeyValue对象的TTL设置,以实现标签的实效性。
实施例四
图5是根据本发明实施例四提供的一种数据标签管理装置的结构示意图,参见图5,该装置包括:
数据采集模块301,用于在至少一个数据源获取待标签数据。
标签生成模块302,用于按照时效类型生成所述待标签数据的数据标签。
标签存储模块303,用于将所述数据标签按照预设标签结构存储至目标存储区域。
本发明实施例,通过数据采集模块在不同的数据源获取待标签数据,标签生成模块根据待标签数据的不同时效类型生成数据标签,标签存储模块将数据标签按照预设标签结构存储到目标存储区域,本发明实施例通过预设标签结构实现了数据标签的数据结构的标准化,可降低数据标签管理的难度,便于对数据标签进行统一化管理,从而提高数据的利用效率,增强数据标签的通用性。
在一些发明实施例中,标签生成模块302具体包括:
数据对接单元,用于将所述待标签数据存储到消息队列,并调用数据仓库工具定时同步所述消息队列的所述待标签数据。
实时标签单元,用于将所述消息队列的所述待标签数据传输至订阅客户端,并获取所述订阅客户端生成的所述待标签数据的实时数据标签。
离线标签单元,用于响应于业务端请求,传输所述数据仓库工具的所述待标签数据传输至业务端,并获取所述业务端生成的所述待标签数据的离线数据标签。
在一些发明实施例中,标签存储模块303具体包括:
字段检测单元,用于判断所述数据标签是否满足基于预设数据表的字段要求,其中,所述预设数据表按照所述预设标签结构创建。
存储处理单元,用于若满足,则将所述数据标签存储至所述预设数据表,否则生成标签格式错误提醒。
在一些发明实施例中,目标存储区域包括Redis缓存和、Hbase数据库以及clickhouse数据库,存储处理单元具体用于:
在消息队列保存所述数据标签内的实时数据标签以及在数据仓库工具保存所述数据标签内的离线数据标签;按照第一定时时长控制所述数据仓库工具同步所述消息队列存储的所述实时数据标签;将所述消息队列内的所述实时数据标签存储至所述Redis缓存,并为所述实时数据标签设置第一有效时长;确定所述数据仓库工具内所述离线数据标签属于活跃用户的第一离线数据标签以及属于非活跃用户的第二离线数据标签;保存所述第一离线数据标签至所述Redis缓存,并为所述第一离线数据标签设置所述第二有效时长;保存所述第二离线数据标签至所述Hbase数据库,并为所述第二离线数据标签设置第三有效时长;按照预设业务需求同步所述消息队列内的目标实时数据标签以及所述数据仓库工具内目标离线数据标签至所述clickhouse数据库,并为所述目标实时数据标签以及所述目标离线数据标签分别设置第四有效时长以及第五有效时长。
在一些发明实施例中,装置中消息队列内所述实时标签存储的所述预设数据表基于Flink结构化查询语言表定义生成,所述数据仓库工具内所述离线数据标签存储的所述预设数据表基于LableTable字段要求生成。。
在一些发明实施例中,装置中第一有效时长以及所述第二有效时长均小于所述第一定时时长。
在一些发明实施例中,装置中存储处理单元还用于所述将所述数据标签存储至所述预设数据表之前,确定所述预设数据表不存在所述数据标签。
本发明实施例所提供的数据标签管理装置可执行本发明任意实施例所提供的数据标签管理方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6是实现本发明实施例的数据标签管理方法的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据标签管理方法。
在一些实施例中,数据标签管理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据标签管理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据标签管理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据标签管理方法,其特征在于,所述方法包括:
在至少一个数据源获取待标签数据;
按照时效类型生成所述待标签数据的数据标签;
将所述数据标签按照预设标签结构存储至目标存储区域。
2.根据权利要求1所述方法,其特征在于,所述按照时效类型生成所述待标签数据的数据标签,包括:
将所述待标签数据存储到消息队列,并调用数据仓库工具定时同步所述消息队列的所述待标签数据;
将所述消息队列的所述待标签数据传输至订阅客户端,并获取所述订阅客户端生成的所述待标签数据的实时数据标签;
响应于业务端请求,传输所述数据仓库工具的所述待标签数据至业务端,并获取所述业务端生成的所述待标签数据的离线数据标签。
3.根据权利要求1所述方法,其特征在于,所述将所述数据标签按照预设标签结构存储至目标存储区域,包括:
判断所述数据标签是否满足基于预设数据表的字段要求,其中,所述预设数据表按照所述预设标签结构创建;
若满足,则将所述数据标签存储至所述预设数据表,否则生成标签格式错误提醒。
4.根据权利要求3所述方法,其特征在于,所述目标存储区域包括Redis缓存、Hbase数据库以及clickhouse数据库,所述将所述数据标签存储至所述预设数据表,包括:
在消息队列保存所述数据标签内的实时数据标签以及在数据仓库工具保存所述数据标签内的离线数据标签;
按照第一定时时长控制所述数据仓库工具同步所述消息队列存储的所述实时数据标签;
将所述消息队列内的所述实时数据标签存储至所述Redis缓存,并为所述实时数据标签设置第一有效时长;
确定所述数据仓库工具内所述离线数据标签属于活跃用户的第一离线数据标签以及属于非活跃用户的第二离线数据标签;
保存所述第一离线数据标签至所述Redis缓存,并为所述第一离线数据标签设置所述第二有效时长;
保存所述第二离线数据标签至所述Hbase数据库,并为所述第二离线数据标签设置第三有效时长;
按照预设业务需求同步所述消息队列内的目标实时数据标签以及所述数据仓库工具内目标离线数据标签至所述clickhouse数据库,并为所述目标实时数据标签以及所述目标离线数据标签分别设置第四有效时长以及第五有效时长。
5.根据权利要求4所述方法,其特征在于,所述消息队列内所述实时标签存储的所述预设数据表基于Flink结构化查询语言表定义生成,所述数据仓库工具内所述离线数据标签存储的所述预设数据表基于LableTable字段要求生成。
6.根据权利要求4所述方法,其特征在于,所述第一有效时长以及所述第二有效时长均小于所述第一定时时长。
7.根据权利要求3所述方法,其特征在于,所述将所述数据标签存储至所述预设数据表之前,还包括:
确定所述预设数据表不存在所述数据标签。
8.一种数据标签管理装置,其特征在于,所述装置包括:
数据采集模块,用于在至少一个数据源获取待标签数据;
标签生成模块,用于按照时效类型生成所述待标签数据的数据标签;
标签存储模块,用于将所述数据标签按照预设标签结构存储至目标存储区域。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据标签管理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据标签管理方法。
CN202310350981.1A 2023-04-03 2023-04-03 一种数据标签管理方法、装置、电子设备和存储介质 Pending CN116383207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310350981.1A CN116383207A (zh) 2023-04-03 2023-04-03 一种数据标签管理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310350981.1A CN116383207A (zh) 2023-04-03 2023-04-03 一种数据标签管理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116383207A true CN116383207A (zh) 2023-07-04

Family

ID=86972769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310350981.1A Pending CN116383207A (zh) 2023-04-03 2023-04-03 一种数据标签管理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116383207A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116627360A (zh) * 2023-07-24 2023-08-22 苏州浪潮智能科技有限公司 数据下发方法、数据管理系统、服务器及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116627360A (zh) * 2023-07-24 2023-08-22 苏州浪潮智能科技有限公司 数据下发方法、数据管理系统、服务器及存储介质
CN116627360B (zh) * 2023-07-24 2023-11-03 苏州浪潮智能科技有限公司 数据下发方法、数据管理系统、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN109189835B (zh) 实时生成数据宽表的方法和装置
US20230020324A1 (en) Task Processing Method and Device, and Electronic Device
CN110837423A (zh) 一种自动导引运输车数据采集的方法和装置
CN113568938A (zh) 数据流处理方法、装置、电子设备及存储介质
CN116383207A (zh) 一种数据标签管理方法、装置、电子设备和存储介质
CN115291806A (zh) 一种处理方法、装置、电子设备及存储介质
CN115146000A (zh) 一种数据库数据同步方法、装置、电子设备及存储介质
CN113778644B (zh) 任务的处理方法、装置、设备及存储介质
CN113672671A (zh) 一种实现数据加工的方法和装置
CN115905322A (zh) 业务处理方法、装置、电子设备及存储介质
CN114610719A (zh) 跨集群数据处理方法、装置、电子设备以及存储介质
CN113342865A (zh) 一种报销单审批查询方法和系统
CN114064803A (zh) 一种数据同步方法和装置
CN113626869A (zh) 数据处理方法、系统、电子设备以及存储介质
CN109710673B (zh) 作品处理方法、装置、设备和介质
CN113641670B (zh) 数据存储及数据检索方法、装置、电子设备及存储介质
CN117633116A (zh) 数据同步方法、装置、电子设备及存储介质
CN117950850A (zh) 一种数据传输方法、装置、电子设备及计算机可读介质
CN115577049A (zh) 一种数据存储系统、方法、装置、设备及存储介质
CN115357641A (zh) 数据查询方法、装置、电子设备和存储介质
CN115599863A (zh) 基于Hudi的银行数据同步方法、装置、电子设备及介质
CN117668083A (zh) 一种异构数据库同步方法、装置、电子设备及存储介质
CN115168760A (zh) 数据查询方法、装置及存储介质
CN117931805A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN116842101A (zh) 数据同步方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination