CN113779026A - 业务数据表的处理方法和装置 - Google Patents

业务数据表的处理方法和装置 Download PDF

Info

Publication number
CN113779026A
CN113779026A CN202110947417.9A CN202110947417A CN113779026A CN 113779026 A CN113779026 A CN 113779026A CN 202110947417 A CN202110947417 A CN 202110947417A CN 113779026 A CN113779026 A CN 113779026A
Authority
CN
China
Prior art keywords
data table
processed
service data
data
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110947417.9A
Other languages
English (en)
Inventor
韩园园
张鸿绪
李智洋
沈鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Absolute Health Ltd
Original Assignee
Beijing Absolute Health Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Absolute Health Ltd filed Critical Beijing Absolute Health Ltd
Priority to CN202110947417.9A priority Critical patent/CN113779026A/zh
Publication of CN113779026A publication Critical patent/CN113779026A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据和互联网技术领域,尤其涉及一种业务数据表的处理方法和装置。该方法包括:配置业务数据表的周期管理规则,所述周期管理规则包括各类型业务数据表的下线条件;采集待处理业务数据表,将所述待处理业务数据表存储至元数据仓库,并在所述元数据仓库对所述待处理业务数据表设置画像标签;根据所述待处理业务数据表的画像标签,确定所述待处理业务数据表是否满足对应的业务数据表下线条件;如果满足,则对所述待处理业务数据表进行下线处理。该方法能自动化完成HIVE表存储与计算资源的优化,提高数据表和ETL任务的覆盖率,及时删除与下线,极大优化资源。

Description

业务数据表的处理方法和装置
【技术领域】
本申请涉及大数据和互联网技术领域,尤其涉及一种业务数据表的处理方法和装置。
【背景技术】
随着各种业务的不断发展与壮大,业务场景的数据量成倍数级增长,HDFS(HadoopDistributed File System,Hadoop分布式文件系统)的存储空间也在不断增长,数据表和ETL(Extraction-Transformation-Loading,抽取-转换-加载)任务数以万计,若依靠人工处理,需耗费大量的人力进行筛选,并要解决任务依赖问题等,成本较高,覆盖率低,释放空间有限,且占用人力,效果不显著。
【发明内容】
有鉴于此,本发明实施例提供了一种业务数据表的处理方法和装置,用以解决相关技术中人工优化存储资源时,覆盖率低,释放空间有限,且占用人力,效果不显著的问题。
第一方面,本实施例提供一种业务数据表的处理方法,包括:
配置业务数据表的周期管理规则,所述周期管理规则包括各类型业务数据表的下线条件;
采集待处理业务数据表,将所述待处理业务数据表存储至元数据仓库,并在所述元数据仓库对所述待处理业务数据表设置画像标签;
根据所述待处理业务数据表的画像标签,确定所述待处理业务数据表是否满足对应的业务数据表下线条件;
如果满足,则对所述待处理业务数据表进行下线处理。
可选的,所述采集待处理业务数据表,包括:
设置数据采集任务,基于所述数据采集任务监测前台业务应用,并定时抓取所述前台业务应用产生的业务数据以生成所述待处理业务数据表。
可选的,所述基于所述数据采集任务监测前台业务应用,并定时抓取所述前台业务应用产生的业务数据,包括以下中的一项或多项:
抓取ETL数据库的任务日志数据,通过SQL(Structured Query Language,结构化查询语言)解析所述任务日志数据得到ETL业务数据;
基于HIVE-HOOK拦截用户的SQL操作数据,得到业务数据;
在邮件系统设置邮件埋点,通过所述邮件埋点抓取邮件业务数据;以及
解析报表系统的SQL日志数据,得到报表业务数据。
可选的,在所述元数据仓库对所述待处理业务数据设置画像标签,包括:
对所述待处理数据设置技术元标签和业务元标签;
其中,所述技术元标签包括数据表类型、数据表级别、数据表分区数、数据表大小、数据表行数及数据表列数中的一项或多项;
所述业务元标签包括被依赖任务数标签、存活标签及使用频率标签中的一项或多项。
可选的,所述业务数据表的下线条件包括:技术元条件和业务元条件;
所述根据所述待处理业务数据的画像标签,确定所述待处理业务数据满足对应的业务数据表下线条件,包括:
如果所述待处理业务数据的技术元标签满足对应的技术元条件,并且所述待处理业务数据的业务元标签满足对应的业务元条件,则确定所述待处理数据满足业务数据表下线条件。
可选的,通过数据生命周期管理(Data Life cycle Management,DLM)模块判断所述待处理业务数据是否满足对应的业务数据表下线条件,其中,所述DLM模块动态监听zookeeper(分布式应用程序协调服务)节点操作,实现DLM分布式部署。
可选的,对所述待处理业务数据进行下线处理,包括:
将所述待处理业务数据放入HDFS回收站;
当所述待处理业务数据在所述HDFS回收站的天数大于预设值时,将所述待处理业务数据进行下线处理。
第二方面,本实施例提供了一种业务数据表的处理装置,其特征在于,包括:
配置模块,用于配置业务数据表的周期管理规则;
采集模块,用于采集待处理业务数据表,并存储至元数据仓库,同时在所述元数据仓库对其设置画像标签;
DLM(数据生命周期管理)处理模块,用于根据所述待处理业务数据的画像标签,确定所述待处理业务数据是否满足对应的业务数据表下线条件,如果满足则对所述待处理业务数据进行下线处理。
第三方面,本实施例提供了一种业务数据表的处理设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述第一方面任一实施例所述的方法。
可选的,一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述第一方面任一实施例所述的方法。
本发明实施例提供了一种业务数据表的处理方法。基于该方法可以自动化完成存储与计算资源的优化,提高数据表和ETL任务的覆盖率,及时完成删除与下线,极大优化资源。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种业务数据表管理系统的结构示意图;
图2为本发明实施例提供的一种业务数据表处理方法流程图;
图3为本发明实施例提供的一种业务数据表处理装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了实现对业务数据表资源的自动优化,本发明实施例中首先建搭建业务数据表管理系统。如图1所示,所述业务数据表管理系统包括:生命周期管理配置层、规则引擎翻译层、元数仓和DLM处理层。
所述生命周期管理配置层,分为两个步骤进行周期管理规则配置,分别为用户页面配置、系统定时扫描统一配置。
在用户配置操作中,可根据实际需求分别配置一项或多项业务元数据和技术元数据的周期管理规则并结合使用,当待处理业务数据表同时满足所配置的业务元数据规则和技术元数据规则时,则对其进行下线处理或删除。
Figure BDA0003217241920000041
Figure BDA0003217241920000051
表1
具体地,如表1所示,当待处理业务数据表同时满足业务元数据规则:表的条件为sdm/dwb库的L1表,和技术元数据规则:半年内无访问且无下游依赖时,对该业务数据表进行下线处理。
当待处理业务数据表同时满足业务元数据规则:sdm/dwb库的非L1日全表,和技术元数据规则:半年内无访问且无下游依赖or连续七日分区下数据为零or连续14天文件大小无变化时,对该业务数据表进行下线处理。
当待处理业务数据表同时满足业务元数据规则:dwb/dws库的非L1的表,和技术元数据规则:表任务下线一周时,对该业务数据表进行删除处理。
若用户并未主动对周期管理规则进行配置,系统则会自动按照默认规则进行配置。
具体地,默认规则可以为最近三个月访问次数为0且被依赖任务数为0。
其中系统定时扫描统一配置,用户提前配置定时任务,系统会根据提前约定好的规则,在规定时间段自动对业务数据表进行周期规则配置。
具体地,若用户提前设定早上八点开始每间隔一小时进行自动配置,则系统便会依照规则分别在早上八点、九点及之后分别对业务数据表进行周期规则配置。
其中,用户在配置周期管理规则时,可自动组合各种标签以及计算表达式,并将用户配置内容进行记录,分别提供等于,大于,小于,大于等于,小于等于,不等于,IN比较运算符,并且提供并和或关系运算符以及括号,将多个周期管理规则关联起来。
所述规则引擎翻译层,用户配置的周期管理规则信息,需翻译为后续模块处理所需要的SQL语言。
所述元数据仓库,在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地获取他们所需要的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据和业务元数据。
具体地,元数仓的建设分为两个部分,数据采集和设置画像标签。
其中首先完成数据终端的数据采集,并入仓。
具体地,待处理业务数据表的采集方式分别为:抓取ETL任务日志数据,通过SQL解析所述任务日志数据得到ETL业务数据;基于HIVE-HOOK拦截用户的SQL操作数据,得到业务数据;在邮件系统设置邮件埋点,通过所述邮件埋点抓取邮件业务数据;解析报表系统的SQL日志数据,得到报表业务数据。
待处理数据表的入仓方式分别为:ETL任务和HIVE-HOOK通过调度任务上报完成入仓;邮寄系统首先通过消费kafka入库,并通过调度任务上报入仓;报表系统首先通过解析log日志,并通过调度任务上报入仓。
本实施例首次在元数仓中接入了业务元数据。相关技术的数据表画像中,只接入技术元数据,例如:数据表类型、数据表级别、数据表分区数、数据表大小、数据表行数或者数据表列数等。本发明实施例的数据表画像中接入了业务元数据相关,例如:被依赖任务数、是否存活或者使用频率。并且通过埋点技术手段,实现了邮件和报表的打开率监控,感知邮件和报表的存活,进一步来确认该数据表的活动情况。通过业务元数据的抓取以及对ETL任务的链路分析,完善了数据表从数据产出到数据转化,到终端的数据展示,以及最终零使用率的一个完整链路画像。
对所述待处理数据设置技术元标签和业务元标签,用来与提前配置的生命周期规则在DLM处理层中进行匹配。
其中,所述技术元标签包括:数据表类型、数据表级别、数据表分区数、数据表大小、数据表行数或者数据表列数。
所述业务元标签包括:被依赖任务数标签、存活标签或者使用频率标签。
具体地,还可以根据标签规则进行数据清洗。在系统创建元数仓调度(每日执行),配置相关ETL任务,根据标签进行数据清洗,将数据表画像整合为画像宽表,在web端中有对应页面可以查看清洗后的数据表画像。
其中DLM处理层,DLM模块动态监听zookeeper节点操作,实现各个zookeeper节点分布式部署,并通过zookeeper作为消息一致性的通知媒介,完成任务计算的下发与执行。
其中,在DLM处理层会根据提前配置的业务数据表周期管理规则对在元数仓采集到的待处理业务数据根据提前在元数仓中对其设置的画像标签进行匹配,若待处理业务数据的画像标签同时满足在生命周期管理配置层所配置的业务元数据和技术元数据规则标签时,则对其进行下线处理。
具体地,涉及到核心的HDFS文件删除功能,为防止误删,文件会先进入HDFS回收站,7天内可恢复。在下线任务方面,在下线任务时会做多重的判断,任务是否有下游依赖,是否有最近使用等画像标签,当全部满足时才进行下线操作,并且会进行该任务当前的血缘依赖关系快照,当出现问题可以快速恢复依赖DAG关系。
并且提供了整套完整的告警通知,及时对一些系统无法自动化的表和任务,通知用户进行手动处理。
除告警外,在系统中有对应页面可以查看历史执行情况。
在以往是定时进行人工手动处理以上内容,风险较大,容易破坏任务的依赖,并且HDFS删除不净。而本实施例完全自动化处理,目前已覆盖HIVE 60%的表(其余为部分历史表以及MID中间库),大量的节约人力,且有记录可查。
基于上述业务数据表管理系统,本发明实施例提供了一种业务数据表存储资源优化方法。基于该方法可以自动化完成存储与计算资源的优化,提高数据表和ETL任务的覆盖率,及时完成删除与下线,极大优化资源。如图2所示,该方法的处理步骤包括:
101,配置业务数据表的周期管理规则。
其中,周期管理规则包括各类型业务数据表的下线条件。
具体地,其中用户页面配置,在操作页面中,加入周期管理配置,用户在建表操作时,可按需进行规则配置,否则将按照默认规则配置。默认规则为最近三个月访问次数为0且被依赖任务数为0。
在用户配置操作中,可根据实际需求分别配置一项或多项业务元数据和技术元数据的周期管理规则并结合使用,当待处理业务数据表同时满足所配置的业务元数据和技术元数据规则标签时,则对其进行下线处理或删除。
若用户并未主动对周期管理规则进行配置,系统则会自动按照默认规则进行配置。
具体地,默认规则可以为最近三个月访问次数为0且被依赖任务数为0。
其中系统定时扫描统一配置,用户提前配置定时任务,系统会根据提前约定好的规则,在规定时间段自动对业务数据表进行周期规则配置。
具体地,用户在配置周期规则时,可自动组合各种标签以及计算表达式,并提供方便的操作将用户配置内容进行记录,分别提供等于,大于,小于,大于等于,小于等于,不等于,IN比较运算符,并且提供并和或关系运算符以及括号,将多个周期管理规则关联起来。
其中以上用户在页面配置的周期管理规则信息,需翻译为后续模块处理所需要的SQL语言。
102,采集待处理业务数据表,并存储至元数据仓库,同时在所述元数据仓库对其设置画像标签。
其中,所述元数仓,在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地获取他们所需要的数据;元数据是描述数据仓库内数据的结构和建立方法的数据。
具体地,待处理业务数据表的采集方式分别为:抓取ETL任务日志数据,通过SQL解析所述任务日志数据得到ETL业务数据;基于HIVE-HOOK拦截用户的SQL操作数据,得到业务数据;在邮件系统设置邮件埋点,通过所述邮件埋点抓取邮件业务数据;解析报表系统的SQL日志数据,得到报表业务数据。
待处理数据表的入仓方式分别为:ETL任务和HIVE-HOOK通过调度任务上报完成入仓,邮寄系统通过消费kafka入库,并通过调度任务上报入仓。报表系统通过解析log日志,并通过调度任务上报入仓。
其中,所述元数据仓库对所述待处理业务数据设置画像标签,包括:技术元标签和业务元标签。
具体地,所述技术元标签包括:数据表类型、数据表级别、数据表分区数、数据表大小、数据表行数或者数据表列数中的一项或多项。
所述业务元标签包括:被依赖任务数标签、存活标签或者使用频率标签中的一项或多项。
本实施例首次在元数仓中接入了业务元数据。在以往的数据表画像中,只接入技术元数据,例如:表的分区数,分区大小,数据行数等。但本实施例接入了业务元数据相关,例如:在ETL任务有多少任务使用,任务是否存活,在邮件以及报表中使用频率。并且通过埋点技术手段,实现了邮件和报表的打开率监控,感知邮件和报表的存活,进一步来确认该数据表的活动情况。通过业务元数据的抓取以及对ETL任务的链路分析,完善了数据表从数据产出到数据转化,到终端的数据展示,以及最终零使用率的一个完整链路画像。
具体地,还可以根据标签规则对元数仓内的元数据进行数据清洗。在DI-ETL系统创建元数仓调度(每日执行),配置相关ETL任务,根据标签进行数据清洗,将数据表画像整合为画像宽表,同时在web端中有对应页面可以查看清洗后的数据表画像。
103,根据所述待处理业务数据的画像标签,确定所述待处理业务数据是否满足对应的业务数据表下线条件。
其中,在DLM处理层会根据提前配置的业务数据表周期管理规则对在元数仓采集到的待处理业务数据根据提前在元数仓中对其设置的画像标签进行匹配,若待处理业务数据的画像标签同时满足在生命周期管理配置层所配置的业务元数据和技术元数据规则标签时,则对其进行下线处理。
具体地,如果所述待处理业务数据的技术元标签满足对应的技术元条件,并且所述待处理业务数据的业务元标签满足对应的业务元条件,则确定所述待处理数据满足业务数据表下线条件。
其中,在下线任务方面,在下线任务时会做多重的判断,任务是否有下游依赖,是否有最近使用等画像标签,当全部满足时才进行下线操作,并且会进行该任务当前的血缘依赖关系快照,当出现问题可以快速恢复依赖DAG关系。
104,如果满足相对应的下线条件,则对所述待处理业务数据进行下线处理。
具体地,涉及到核心的HDFS文件删除功能,为防止误删,文件会先进入HDFS回收站,7天内可恢复。
其中,本实施例提供了整套完整的告警通知,及时对一些系统无法自动化的表和任务,通知用户进行手动处理。
除告警外,在系统中有对应页面可以查看历史执行情况。
以往定时进行人工手动处理以上内容,风险较大,容易破坏任务的依赖,并且HDFS删除不净。而本实施例完全自动化处理,目前已覆盖HIVE 60%的表(其余为部分历史表以及MID中间库),大量的节约人力,并有记录可查。
在未来可以对HIVE表以外的数据进行生命周期管理,最终实现大数据整体成本的下降。
对应于上文实施例所述的业务数据表处理方法,图3示出了本发明实施例提供的HIVE表存储资源优化装置的结构框图,为了便于说明,仅示出了与本实施例相关的部分。
图3为本发明实施例提供的一种业务数据表处理装置的结构示意图,本实施例中的业务数据表处理装置可以实现本申请实施例提供的业务数据表处理的方法。如图所示,上述业务数据表处理方法装置可以包括:配置模块301、采集选模块302和DLM处理模块303;
配置模块301,用于配置业务数据表的周期管理规则;
采集模块302,用于采集待处理业务数据表,并存储至元数据仓库,同时在所述元数据仓库对其设置画像标签;
DLM处理模块303,用于根据所述待处理业务数据的画像标签,确定所述待处理业务数据是否满足对应的业务数据表下线条件,如果满足则对所述待处理业务数据进行下线处理。
图3所示实施例提供的业务数据表处理装置可用于执行本说明书所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
图4为本说明书电子设备一个实施例的结构示意图,如图4所示,上述电子设备可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,上述处理器调用上述程序指令能够执行本实施例提供的业务数据表的处理方法。
其中,上述电子设备可以为能够与用户进行智能对话的设备,例如:云服务器,本说明书实施例对上述电子设备的具体形式不作限定。可以理解的是,这里的电子设备即为方法实施例中提到的机器。
图4示出了适于用来实现本说明书实施方式的示例性电子设备的框图。图4显示的电子设备仅仅是一个示例,不应对本说明书实施例的功能和使用范围带来任何限制。
如图4所示,电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器410,存储器430,连接不同系统组件(包括存储器430和处理单元410)的通信总线440。
通信总线440表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器430可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器430可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本说明书各实施例的功能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在存储器430中,这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本说明书所描述的实施例中的功能和/或方法。
处理器410通过运行存储在存储器430中的程序,从而执行各种功能应用以及数据处理,例如实现本说明书所示实施例提供的业务数据表的处理方法。
本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本说明书所示实施例提供的业务数据表的处理方法。
上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(Erasable ProgrammableRead Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本说明书的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本说明书的实施例所属技术领域的技术人员所理解。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,本说明书实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer;以下简称:PC)、个人数字助理(Personal Digital Assistant;以下简称:PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
在本说明书所提供的实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本说明书各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本说明书各个实施例所述方法的部分步骤。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (10)

1.一种业务数据表的处理方法,其特征在于,包括:
配置业务数据表的周期管理规则,所述周期管理规则包括各类型业务数据表的下线条件;
采集待处理业务数据表,将所述待处理业务数据表存储至元数据仓库,并在所述元数据仓库对所述待处理业务数据表设置画像标签;
根据所述待处理业务数据表的画像标签,确定所述待处理业务数据表是否满足对应的业务数据表下线条件;
如果满足,则对所述待处理业务数据表进行下线处理。
2.根据权利要求1所述的方法,其特征在于,所述采集待处理业务数据表,包括:
设置数据采集任务,基于所述数据采集任务监测前台业务应用,并定时抓取所述前台业务应用产生的业务数据以生成所述待处理业务数据表。
3.根据权利要求2所述的方法,其特征在于,所述基于所述数据采集任务监测前台业务应用,并定时抓取所述前台业务应用产生的业务数据,包括以下中的一项或多项:
抓取ETL数据库的任务日志数据,通过结构化查询语言SQL解析所述任务日志数据得到ETL业务数据;
基于HIVE-HOOK拦截用户的SQL操作数据,得到业务数据;
在邮件系统设置邮件埋点,通过所述邮件埋点抓取邮件业务数据;以及
解析报表系统的SQL日志数据,得到报表业务数据。
4.根据权利要求1所述的方法,其特征在于,在所述元数据仓库对所述待处理业务数据设置画像标签,包括:
对所述待处理数据设置技术元标签和业务元标签;
其中,所述技术元标签包括数据表类型、数据表级别、数据表分区数、数据表大小、数据表行数及数据表列数中的一项或多项;
所述业务元标签包括被依赖任务数标签、存活标签及使用频率标签中的一项或多项。
5.根据权利要求4所述的方法,其特征在于,所述业务数据表的下线条件包括:技术元条件和业务元条件;
所述根据所述待处理业务数据的画像标签,确定所述待处理业务数据满足对应的业务数据表下线条件,包括:
如果所述待处理业务数据的技术元标签满足对应的技术元条件,并且所述待处理业务数据的业务元标签满足对应的业务元条件,则确定所述待处理数据满足业务数据表下线条件。
6.根据权利要求1所述的方法,其特征在于,通过数据生命周期管理DLM模块判断所述待处理业务数据是否满足对应的业务数据表下线条件,其中,所述DLM模块动态监听zookeeper节点操作,实现DLM分布式部署。
7.根据权利要求1所述的方法,其特征在于,对所述待处理业务数据进行下线处理,包括:
将所述待处理业务数据放入HDFS回收站;
当所述待处理业务数据在所述HDFS回收站的天数大于预设值时,将所述待处理业务数据进行下线处理。
8.一种业务数据表的处理装置,其特征在于,包括:
配置模块,用于配置业务数据表的周期管理规则;
采集模块,用于采集待处理业务数据表,并存储至元数据仓库,同时在所述元数据仓库对其设置画像标签;
DLM处理模块,用于根据所述待处理业务数据的画像标签,确定所述待处理业务数据是否满足对应的业务数据表下线条件,如果满足则对所述待处理业务数据进行下线处理。
9.一种业务数据表的处理设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7任一所述的方法。
CN202110947417.9A 2021-08-18 2021-08-18 业务数据表的处理方法和装置 Pending CN113779026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110947417.9A CN113779026A (zh) 2021-08-18 2021-08-18 业务数据表的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110947417.9A CN113779026A (zh) 2021-08-18 2021-08-18 业务数据表的处理方法和装置

Publications (1)

Publication Number Publication Date
CN113779026A true CN113779026A (zh) 2021-12-10

Family

ID=78838062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110947417.9A Pending CN113779026A (zh) 2021-08-18 2021-08-18 业务数据表的处理方法和装置

Country Status (1)

Country Link
CN (1) CN113779026A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303702A (zh) * 2022-12-27 2023-06-23 易方达基金管理有限公司 一种基于etl的数据并行处理方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413577A (zh) * 2019-06-27 2019-11-05 无锡华云数据技术服务有限公司 数据删除方法、装置、电子设备及计算机可读存储介质
CN111930734A (zh) * 2020-08-11 2020-11-13 中国工商银行股份有限公司 基于任务和字段的数据下线方法及系统
CN112015623A (zh) * 2020-08-27 2020-12-01 百度时代网络技术(北京)有限公司 报表数据处理的方法、装置、设备及可读存储介质
CN112328706A (zh) * 2020-11-03 2021-02-05 成都中科大旗软件股份有限公司 数仓体系下的维度建模计算方法、计算机设备和存储介质
CN112486966A (zh) * 2020-11-26 2021-03-12 中国国家铁路集团有限公司 一种过期数据清理方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413577A (zh) * 2019-06-27 2019-11-05 无锡华云数据技术服务有限公司 数据删除方法、装置、电子设备及计算机可读存储介质
CN111930734A (zh) * 2020-08-11 2020-11-13 中国工商银行股份有限公司 基于任务和字段的数据下线方法及系统
CN112015623A (zh) * 2020-08-27 2020-12-01 百度时代网络技术(北京)有限公司 报表数据处理的方法、装置、设备及可读存储介质
CN112328706A (zh) * 2020-11-03 2021-02-05 成都中科大旗软件股份有限公司 数仓体系下的维度建模计算方法、计算机设备和存储介质
CN112486966A (zh) * 2020-11-26 2021-03-12 中国国家铁路集团有限公司 一种过期数据清理方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303702A (zh) * 2022-12-27 2023-06-23 易方达基金管理有限公司 一种基于etl的数据并行处理方法、装置、设备和存储介质
CN116303702B (zh) * 2022-12-27 2024-04-05 易方达基金管理有限公司 一种基于etl的数据并行处理方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN107506451B (zh) 用于数据交互的异常信息监控方法及装置
US10275355B2 (en) Method and apparatus for cleaning files in a mobile terminal and associated mobile terminal
CN107688626B (zh) 慢查询日志处理方法、装置及电子设备
CN112084270A (zh) 一种数据血缘处理方法、装置、存储介质及设备
CN108228664B (zh) 非结构化数据处理方法及装置
CN112181960A (zh) 一种基于AIOps的智能运维框架系统
CN114090378A (zh) 一种基于Kapacitor的自定义监控告警方法
CN111061802B (zh) 一种电力数据管理处理方法、装置及存储介质
CN106777265B (zh) 一种业务数据的处理方法及装置
CN113779026A (zh) 业务数据表的处理方法和装置
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN111221698A (zh) 任务数据采集方法与装置
CN112506490A (zh) 一种接口生成方法、装置、电子设备及存储介质
CN116955856A (zh) 信息展示方法、装置、电子设备以及存储介质
CN116383207A (zh) 一种数据标签管理方法、装置、电子设备和存储介质
CN115408236A (zh) 一种日志数据审计系统、方法、设备及介质
CN110727565A (zh) 一种网络设备平台信息收集方法及系统
CN110928938B (zh) 一种接口中间件系统
CN114546780A (zh) 数据监控方法、装置、设备、系统及存储介质
CN110647527B (zh) 基于大数据的无效标签清除方法及装置、设备与可读介质
CN112825165A (zh) 项目质量管理的方法和装置
CN114584616B (zh) 一种消息推送方法、装置、电子设备及存储介质
CN112448840A (zh) 一种通信数据质量监控方法、装置、服务器及存储介质
CN111552674A (zh) 日志处理方法及设备
CN116610531B (zh) 基于代码探针采集数据埋点及请求图片上传数据的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100102 201 / F, block C, 2 lizezhong 2nd Road, Chaoyang District, Beijing

Applicant after: Beijing Shuidi Technology Group Co.,Ltd.

Address before: 100102 201 / F, block C, 2 lizezhong 2nd Road, Chaoyang District, Beijing

Applicant before: Beijing Health Home Technology Co.,Ltd.