CN116126875A - 元数据处理方法及装置 - Google Patents

元数据处理方法及装置 Download PDF

Info

Publication number
CN116126875A
CN116126875A CN202211696722.6A CN202211696722A CN116126875A CN 116126875 A CN116126875 A CN 116126875A CN 202211696722 A CN202211696722 A CN 202211696722A CN 116126875 A CN116126875 A CN 116126875A
Authority
CN
China
Prior art keywords
metadata
cost
service
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211696722.6A
Other languages
English (en)
Inventor
冯仕炳
吴海英
刘德华
蒋宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN202211696722.6A priority Critical patent/CN116126875A/zh
Publication of CN116126875A publication Critical patent/CN116126875A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种元数据处理方法及装置,所述方法包括获取目标业务在执行过程中生成的元数据,根据元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种,根据数据关联度、业务成本值以及数据应用频次中的至少一种确定目标复用值,其中,目标复用值表示元数据被复用的可能性大小,根据目标复用值存储或删除元数据。本申请提高了目标复用值确定的准确性,进而提高了数据管理的准确性。

Description

元数据处理方法及装置
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种元数据处理方法及装置。
背景技术
随着网络技术的发展,数据量呈爆发式增长,越来越多的人意识到数据的重要性。
由于数据量越来越多,为了更好的对数据进行管理,可以先确定数据的复用值,然后根据复用值对数据进行管理。
然而,在确定数据复用值时,一般通过运维人员手动设置数据复用值,过于依赖运维人员的工作经验,降低了数据复用值确定的准确性,进而影响了数据管理的准确性。
发明内容
本申请实施例提供一种元数据处理方法及装置,以提高数据管理的准确性。
第一方面,本申请实施例提供一种元数据处理方法,包括:
获取目标业务在执行过程中生成的元数据;
根据所述元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种;
根据所述数据关联度、所述业务成本值以及所述数据应用频次中的至少一种确定目标复用值,其中,所述目标复用值表示所述元数据被复用的可能性大小;
根据所述目标复用值存储或删除所述元数据。
可选的,所述根据所述元数据确定数据关联度,包括:
确定所述元数据中涉及到的每个子业务对应的目标组个数,其中,所述目标业务包含至少一个子业务,每个子业务涉及至少一个目标组,每个所述目标组均对对应的子业务执行不同的操作;
根据每个所述子业务对应的目标组个数与预设个数阈值确定每个所述子业务的数据关联值;
对每个所述子业务的数据关联值进行求和运算,得到数据关联度。
可选的,所述根据所述元数据确定业务成本值,包括:
根据所述元数据确定存储成本以及硬件消耗成本;
对所述存储成本以及所述硬件消耗成本进行求和运算,得到业务成本值。
可选的,所述根据所述元数据确定存储成本值,包括:
根据所述元数据确定所述目标业务消耗的存储量;
确定存储成本单价;
根据所述目标业务消耗的存储量以及所述存储成本单价确定存储成本值。
可选的,所述根据所述元数据确定所述目标业务消耗的存储量,包括:
通过预设存储路径确定所述元数据中包含的目标数据表,其中,所述目标业务中包含至少一子业务,所述预设存储路径为每个所述子业务对应的数据的存储路径;
确定每个所述目标数据表的初始存储量,并对所述每个所述目标数据表的初始存储量进行求和运算,得到所述目标业务消耗的存储量。
可选的,所述确定存储成本单价,包括:
获取预设时长内的基础成本值,其中,所述基础成本值为在预设时长内的主机折旧费用、机房租金、网络设施折旧费用以及人员运维费用中的至少一种;
根据处理器的采购成本、内存的采购成本以及磁盘的采购成本确定存储成本所占的第一比值;
根据所述基础成本值、所述第一比值以及存储总量确定存储成本单价,其中,所述目标业务消耗的存储量为所述目标业务每天消耗的存储,所述存储总量为预设时长内所述目标业务消耗的总存储。
可选的,所述根据所述元数据确定硬件消耗成本,包括:
根据所述元数据确定所述目标业务运行过程中的处理器总量和内存总量;
确定处理器成本单价以及内存成本单价;
根据所述目标业务消耗的处理器总量以及所述处理器成本单价确定处理器成本,并根据所述目标业务消耗的内存总量以及所述内存成本单价确定内存成本;
根据所述处理器成本以及所述内存成本确定硬件消耗成本。
可选的,所述根据所述元数据确定数据应用频次,包括:
确定所述元数据中包含的创建方个数、使用方个数、所述元数据关联的下游表个数以及上游表个数;
根据所述创建方个数、所述使用方个数、所述元数据关联的下游表个数以及上游表个数确定数据应用频次。
可选的,所述根据所述目标复用值删除所述元数据,包括:
若所述目标复用值低于预设复用值阈值,则生成并显示元数据删除提示;
响应作用于所述元数据删除提示的触控操作,删除所述目标业务对应的元数据。
第二方面,本申请实施例提供一种元数据处理装置,包括:
获取模块,用于获取目标业务在执行过程中生成的元数据;
处理模块,用于根据所述元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种;
所述处理模块,还用于根据所述数据关联度、所述业务成本值以及所述数据应用频次中的至少一种确定目标复用值,其中,所述目标复用值表示所述元数据被复用的可能性大小;
所述处理模块,还用于根据所述目标复用值存储或删除所述元数据。
第三方面,本申请实施例提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,实现如第一方面任一项所述的元数据处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的元数据处理方法。
本申请实施例提供了一种元数据处理方法及装置,采用上述方案后,可以先获取目标业务在执行过程中生成的元数据,然后可以根据元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种,再根据数据关联度、业务成本值以及数据应用频次中的至少一种确定目标复用值,并根据目标复用值存储或删除元数据,通过先根据目标业务在执行过程中生成的元数据来确定数据关联度、业务成本值以及数据应用频次等参数,再根据数据关联度、业务成本值以及数据应用频次等参数确定目标复用值的方式,使得确定的目标复用值可以从多个维度来体现目标业务的实现情况,而不仅是依赖于运维人员的工作经验,提高了目标复用值确定的准确性,进而提高了数据管理的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的应用系统的架构示意图;
图2为本申请实施例提供的数据处理方法的流程示意图;
图3为本申请实施例提供的第一子元数据对应的矩阵图的应用示意图;
图4为本申请另一实施例提供的第一子元数据对应的矩阵图的应用示意图;
图5为本申请实施例提供的数据处理装置的结构示意图;
图6为本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例还能够包括除了图示或描述的那些实例以外的其他顺序实例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相关技术中,随着可以线上实现的业务越来越多,业务实现过程中产生的元数据(又称中介数据或中继数据,为描述数据的数据,主要为描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能)也越来越多,为了更好的对元数据进行管理,可以先确定元数据的复用值,然后根据复用值对元数据进行管理。示例性的,可以通过复用值确定元数据是否可以复用,进而根据确定的结果对数据进一步进行处理。然而,在确定元数据是否可以复用时,还没有系统的评估方式,一般都运维人员根据工作经验来确定,主观性强,降低了数据复用值确定的准确性,进而影响了数据管理的准确性。
基于上述技术问题,本申请通过先根据目标业务在执行过程中生成的元数据来确定数据关联度、业务成本值以及数据应用频次等参数,再根据数据关联度、业务成本值以及数据应用频次等参数确定目标复用值的方式,使得确定的目标复用值可以从多个维度来体现目标业务的实现情况,而不仅是依赖于运维人员的工作经验,达到了既提高了目标复用值确定的准确性,进而提高了数据管理的准确性的技术效果。
图1为本申请实施例提供的元数据处理方法的应用系统的架构示意图,如图1所示,所述应用系统可以包括:数据库以及电子设备,数据库中存储有不同目标业务(示例性的,可以为转账业务、登录业务、注册账号业务等)在执行过程中生成的元数据,元数据可以为描述业务属性信息的数据。电子设备可以从数据库中获取目标业务对应的元数据,然后可以根据元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种,再根据数据关联度、业务成本值以及数据应用频次中的至少一种确定目标复用值,并根据确定的目标复用值对进一步对元数据进行操作。
可选的,若目标复用值超过预设复用值阈值时,表明元数据的可复用程度较高,即元数据的数据价值较高,因此,可以在数据库中保留元数据,也可以将元数据备份至其他数据库中,以备后续复用。若目标复用值超过低于复用值阈值时,表明元数据的可复用程度较低,即元数据的数据价值较低,因此,可以直接删除该元数据。
其中,电子设备可以为单独的服务器,也可以为服务器集群。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供的元数据处理方法的流程示意图,本实施例的方法可以由电子设备执行。如图2所示,本实施例的方法,可以包括:
S201:获取目标业务在执行过程中生成的元数据。
在本实施例中,在确定目标业务的实现情况时,可以先获取目标业务在执行过程中生成的元数据,然后可以根据元数据来表示目标业务的实现情况。其中,目标业务可以为转账业务、账号注册业务或者账号登录业务等。以目标业务为转账业务为例,可以包含四个子业务,分别为确定转账金额、确定转出方账户、确定转入方账户以及根据确定的转账金额、转出方账户和转入方账户进行转账,不同的子业务对应着不同的元数据。
此外,目标业务对应的元数据可以存储于数据仓库中,在获取目标业务对应的元数据时,可以直接从数据仓库中获取目标业务对应的元数据。
进一步的,数据仓库可以有多种,示例性的,数据仓库可以为Hive、hbase或kafka等,且数据仓库中可以包含库表名称、存储位置等元数据,还可以包括与目标业务实现过程相关的元数据,如目标业务实现过程中涉及到的加工过程,涉及到的目标组,加工过程对应的数据的输入与输出、数据的创建者与使用者等元数据。
可选的,若数据仓库为Hive,则可以采用Hive-metastore相关接口,或hive-metastore-listener监听器来批量采集或实时的监听采集Hive中的元数据。此外,还可以通过hive-hook或人工批量导入的方式来获取元数据。
可选的,若数据仓库为hbase,可以通过分析hbase中的zookeeper数据,或者通过hbase中与Admin相关的api来采集元数据,也可以通过人工的方式来获取元数据。
可选的,若数据仓库为Kafka,则可以通过kafka提供的与管理相关的api来采集元数据,或者通过人工的方式来获取元数据。
此外,还可以通过各个业务部门提供的相关接口来实现元数据的采集。
S202:根据元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种。
在本实施例中,在获取到元数据之后,可以对元数据进一步进行处理,进而从不同维度来表示目标业务的实现情况。进一步的,可以从数据关联度、业务成本值以及数据应用频次中的至少一种来表示目标业务的实现情况。
可选的,数据关联度可以表示目标业务中包含的各子业务与目标组之间的关联关系。对应的,子业务对应的目标组个数越多,可以表明数据之间的关联度越高,反之,子业务对应的目标组个数越少,可以表明数据之间的关联度越低。
可选的,业务成本值可以表示目标业务在实现过程中所消耗的成本,可以包含存储成本以及硬件消耗成本,硬件消耗成本可以包含处理器成本以及内存成本。
可选的,数据应用频次可以表示数据被应用的频率,数据应用频次越高,表明数据被应用的频率越高,反之,数据应用频次越低,表明数据被应用的频率越低。其中,数据应用频次可以与元数据中包含的创建方个数、使用方个数、元数据关联的下游表个数以及上游表个数相关。
S203:根据数据关联度、业务成本值以及数据应用频次中的至少一种确定目标复用值,其中,目标复用值表示元数据被复用的可能性大小。
在本实施例中,在确定数据关联度、业务成本值以及数据应用频次中的至少一种之后,可以根据数据关联度、业务成本值以及数据应用频次中的至少一种确定表示元数据被复用的可能性大小的目标复用值。其中,目标复用值可以用于对目标业务的实现情况进行分析、对数据流转路线进行分析或者数据归档销毁参考等。
此外,在根据数据关联度、业务成本值以及数据应用频次中的至少一种来确定目标复用值时,可以将数据关联度、业务成本值以及数据应用频次进行求和处理,得到目标复用值。也可以为数据关联度、业务成本值以及数据应用频次分配不同的权重值,然后可以根据分配的权重值对数据关联度、业务成本值以及数据应用频次进行加权求和处理,得到目标复用值。另外,也可以对数据关联度、业务成本值以及数据应用频次中的任意两种进行求和处理。此外,若仅确定了数据关联度、业务成本值或者数据应用频次中的一种,则可以直接将数据关联度、业务成本值或者数据应用频次确定为目标复用值。
S203:根据目标复用值存储或删除元数据。
在本实施例中,在得到目标复用值之后,可以根据目标复用值确定是否需要保留元数据。
进一步的,所述根据所述目标复用值删除所述元数据,具体可以包括:
若所述目标复用值低于预设复用值阈值,则生成并显示元数据删除提示。
响应作用于所述元数据删除提示的触控操作,删除所述目标业务对应的元数据。
具体的,若目标复用值低于预设复用值阈值,则表明元数据的复用价值不高,则可以直接删除元数据,节省存储空间。此外,也可以在确定目标复用值低于预设复用值阈值时,先生成并显示元数据删除提示,在得到作用于元数据删除提示的触控操作之后,再删除目标业务对应的元数据,提高了元数据的安全性,减少了误操作的情况。
此外,若目标复用值高于或等于复用值阈值,则可以保留元数据。其中,复用值阈值可以根据实际应用场景自定义进行设置,在此不再详细进行论述。
采用上述方案后,可以先获取目标业务在执行过程中生成的元数据,然后可以根据元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种,再根据数据关联度、业务成本值以及数据应用频次中的至少一种确定目标复用值,并根据目标复用值存储或删除元数据,通过先根据目标业务在执行过程中生成的元数据来确定数据关联度、业务成本值以及数据应用频次等参数,再根据数据关联度、业务成本值以及数据应用频次等参数确定目标复用值的方式,使得确定的目标复用值可以从多个维度来体现目标业务的实现情况,而不仅是依赖于运维人员的工作经验,提高了目标复用值确定的准确性,进而提高了数据管理的准确性。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
在另一实施例中,所述根据所述元数据确定数据关联度,具体可以包括:
确定所述元数据中涉及到的每个子业务对应的目标组个数,其中,所述目标业务包含至少一个子业务,每个子业务涉及至少一个目标组,每个所述目标组均对对应的子业务执行不同的操作。
根据每个所述子业务对应的目标组个数与预设个数阈值确定每个所述子业务的数据关联值。
对每个所述子业务的数据关联值进行求和运算,得到数据关联度。
在本实施例中,在获取到元数据之后,由于元数据中的数据很多,为了更好的利用元数据,可以先对元数据进行处理,得到数据关联度、业务成本值以及数据应用频次等参数,不同的参数可以从不同的维度表示目标业务的实现情况。此外,数据关联度、业务成本值以及数据应用频次等参数可以有多种表现形式。在一种可能的实现方式中,数据关联度、业务成本值以及数据应用频次等参数可以为数据表的形式,进而可以节省存储空间。在另一种可能的实现方式中,数据关联度、业务成本值以及数据应用频次等参数也可以为矩阵图的形式,矩阵图也可以在显示设备上直接进行显示,或者可以通过数据查询请求的方式来显示设备上直接显示该矩阵图,通过该矩阵图可以直观的了解目标业务实现过程中的具体情况,为后续的数据操作提供了可靠依据,进而提高了数据处理的准确性。
此外,在确定数据关联度时,可以先确定元数据中涉及到的子业务,然后确定每个子业务对应的目标组个数,即子业务处理过程中涉及到的处理方个数,然后可以判断每个子业务对应的目标组个数与预设个数阈值之间的关系,若子业务对应的目标组个数超过了预设个数阈值,则可以确定该子业务的数据关联值为1,否则,则为0,然后可以对每个子业务的数据关联值进行求和运算,得到数据关联度。另外,还可以在确定每个子业务对应的目标组个数之后,将每个子业务对应的目标组个数作为每个子业务的数据关联值,然后可以对每个子业务的数据关联值进行求和运算,得到数据关联度。
此外,数据关联度也可以为矩阵图的形式,示例性的,可以为PO(Process andOrganize,业务处理过程与目标组)矩阵图。
示例性的,表1为PO矩阵图,在该矩阵图中,目标业务可以包括四个子业务,每个子业务对应一个目标组。数据关联度=用户填写生产信息的数据关联值(即1)+风控审批验证的数据关联值(即1*1)+存入业务系统的数据关联值(即1)+采集元数据到数据仓库的数据关联值(即1)=4。数据关联度越高,说明处理过程越多,或者数据流转部门越多,数据之间的关联度越大。
表1PO矩阵图
Figure BDA0004023739540000101
在另一实施例中,所述根据所述元数据确定业务成本值,具体可以包括:
根据所述元数据确定存储成本以及硬件消耗成本。
对所述存储成本以及所述硬件消耗成本进行求和运算,得到业务成本值。
在本实施例中,在得到元数据之后,还可以根据元数据确定业务成本值。其中,业务成本值可以包含存储成本以及硬件消耗成本。
进一步的,所述根据所述元数据确定存储成本值,具体可以包括:
根据所述元数据确定所述目标业务消耗的存储量。
确定存储成本单价。
根据所述目标业务消耗的存储量以及所述存储成本单价确定存储成本值。
具体的,元数据生成之后,需要进行存储,在存储的过程中,为了更好的对元数据进行评估,可以确定元数据对应的存储成本值,即存储元数据所消耗的成本。
此外,在确定存储成本值时,可以先确定元数据消耗的存储量,然后可以确定存储成本单价,进而根据消耗的存储量以及存储成本单价确定存储成本值。
更进一步的,所述根据所述元数据确定所述目标业务消耗的存储量,具体可以包括:
通过预设存储路径确定所述元数据中包含的目标数据表,其中,所述目标业务中包含至少一子业务,所述预设存储路径为每个所述子业务对应的数据的存储路径。
确定每个所述目标数据表的初始存储量,并对所述每个所述目标数据表的初始存储量进行求和运算,得到所述目标业务消耗的存储量。
具体的,在确定目标业务消耗的存储量时,可以先确定元数据中包含的目标数据表,然后可以确定每个目标数据表的初始存储量,并对每个目标数据表的初始存储量进行求和运算,得到目标业务消耗的存储量。
可选的,在确定元数据中包含的目标数据表时,可以通过预先设定的存储路径确定元数据中包含的目标数据表。示例性的,目标数据表可以为SQL数据表,SQL中的分组字段可以为路径,且可以截取路径中的表前缀部分作为设定的存储路径。例如,对于表中的文件“/Hive统一前缀/库名称/表名称/文件名”,则可以使用“/Hive统一前缀/库名称(部门)/表(个人)名称”做为分组,以统计出目标数据表的初始存储量(T*天)。此外,在表空间分析完成后,可以将确定是每个目标数据表的初始存储量写入到MySQL中的表存储空间记录表中。也可以对每个目标数据表的初始存储量进行求和运算,得到目标业务消耗的存储量,并将目标业务消耗的存储量存储至表存储空间记录表中。另外,还可以根据表所属库、责任人、部门等维度来统计表、库、责任人、部门的成本消耗,对于成本消耗高的部门,责任人,库,表可有意识的指导优化。
此外,所述确定存储成本单价,具体可以包括:
获取预设时长内的基础成本值,其中,所述基础成本值为在预设时长内的主机折旧费用、机房租金、网络设施折旧费用以及人员运维费用中的至少一种。
根据处理器的采购成本、内存的采购成本以及磁盘的采购成本确定存储成本所占的第一比值。
根据所述基础成本值、所述第一比值以及存储总量确定存储成本单价,其中,所述目标业务消耗的存储量为所述目标业务每天消耗的存储,所述存储总量为预设时长内所述目标业务消耗的总存储。
具体的,在确定目标业务消耗的存储量之后,还可以确定存储成本单价,然后可以对目标业务消耗的存储量与存储成本单价做乘法运算,得到存储成本值。在确定存储成本单价时,可以先获取预设时长内的基础成本值,然后可以根据处理器的采购成本、内存的采购成本以及磁盘的采购成本确定存储成本所占的第一比值,并根据基础成本值、第一比值以及存储总量确定存储成本单价。可选的,可以通过(基础成本值*第一比值)/存储总量的方式来确定存储成本单价,其中,存储总量为预设时长内目标业务消耗的总存储,预设时长可以根据实际应用场景自定义进行设置,示例性的,预设时长可以为一个月。此外,还可以通过磁盘的采购成本/(处理器的采购成本+内存的采购成本+磁盘的采购成本)来确定存储成本所占的第一比值。
此外,所述根据所述元数据确定硬件消耗成本,具体可以包括:
根据所述元数据确定所述目标业务运行过程中的处理器总量和内存总量。
确定处理器成本单价以及内存成本单价。
根据所述目标业务消耗的处理器总量以及所述处理器成本单价确定处理器成本,并根据所述目标业务消耗的内存总量以及所述内存成本单价确定内存成本。
根据所述处理器成本以及所述内存成本确定硬件消耗成本。
具体的,还可以根据元数据来确定硬件消耗成本,硬件消耗成本可以包含处理器成本以及内存成本。可选的,处理器成本可以通过目标业务消耗的处理器总量与处理器成本单价做乘法运算来确定处理器成本。内存成本可以通过目标业务消耗的内存总量与内存成本单价做乘法运算来确定内存成本。
进一步的,处理器总量可以为目标业务在预设时长内(示例性的,可以为一天)消耗的处理器总量(核*小时),内存总量可以为目标业务在预设时长内(示例性的,可以为一天)消耗的内存总量(G*小时)。示例性的,处理器总量和内存总量可以为系统中所有应用程序(即应用程序中的目标业务)执行过程中消耗的处理器总量和内存总量。
此外,处理器成本单价可以通过(基础成本值*第二比值)/处理器总消耗量的方式来确定处理器成本单价。内存成本单价可以通过(基础成本值*第三比值)/内存总消耗量的方式来确定内存成本单价。其中,处理器总消耗量可以为一个月内消耗的处理器总量,内存总消耗量可以为一个月内消耗的内存总量。第二比值可以通过内存的采购成本/(处理器的采购成本+内存的采购成本+磁盘的采购成本)来确定,第三比值可以通过处理器的采购成本/(处理器的采购成本+内存的采购成本+磁盘的采购成本)来确定。
此外,业务成本值可以为矩阵图的形式,示例性的,可以为RD(Resourceand andData,资源与数据)矩阵图,该RD矩阵图可以根据目标业务实现过程中涉及到的资源对数据的生产成本或使用成本进行评估。
示例性的,表2为RD矩阵图,在该矩阵图中,目标业务可以包含五个子业务,每个子业务可以对应一数据表,分别为数据表A、数据表B、数据表C、数据表D和数据表E。每个数据表中可以包含三种成本,分别为存储成本、处理器成本以及内存成本。
表2RD矩阵图
Figure BDA0004023739540000131
在另一实施例中,所述根据所述元数据确定数据应用频次,具体可以包括:
确定所述元数据中包含的创建方个数、使用方个数、所述元数据关联的下游表个数以及上游表个数。
根据所述创建方个数、所述使用方个数、所述元数据关联的下游表个数以及上游表个数确定数据应用频次。
在本实施例中,数据应用频次可以表示数据的应用频率,应用频次越高,可以表示业务被应用的次数越多,进而表明该业务的重要程度越高,或者可以表明该业务的应用范围越广。
此外,还可以确定元数据中包含的创建方个数(示例性的,可以为管理员账号,通过该管理员账号可以对元数据进行增加、删除或修改)、使用方个数(示例性的,也可以为管理员账号,通过该管理员账号可以对元数据进行查询或应用等操作)、关联的下游表(即在目标业务执行完成之后才可执行的业务对应的数据表)个数以及关联的上游表(即在目标业务执行之前执行的业务对应的数据表)个数等。
可选的,数据应用频次可以为矩阵图的形式,该矩阵图中可以直观的体现元数据中包含的使用者个数、创建者个数,同时也可以直观的体现与元数据表关联的下游表个数以及关联的上游表个数等。通过查询请求,可以在显示界面中直接显示数据应用频次对应的矩阵图,进而实现快速直观确定使用较多或创建者较多的元数据表(不同的元数据表可以对应不同的子业务),进而确定应用频率较高的子业务,后续可以根据各子业务的应用频率对目标业务中的各子业务进行调整。进一步的,若子业务的应用频率在预设时段内低于应用频率阈值,则表明该子业务对于目标业务的实现来说,可能是非必须的,或不常用的,或者是处理逻辑存在问题的,因此,可以对应用频率在预设时段内低于应用频率阈值的子业务进行调整,简化目标业务的实现过程,进而提高目标业务的实现效率。
其中,数据应用频次对应的矩阵图也可以称为CU(Create Use,即创建者与使用者)矩阵图,可以用来标记一个与目标业务相关联的重要的两个属性,即表的创建者与使用者。例如,Hive表数据的创建者,以及Hive表的使用者。其中,创建者可以是多个,使用者也可以是多个,创建者和使用者可以相同,也可以不同,还可以采用不同的显示样式来显示创建者与使用者,或者采用不同的显示样式来显示创建者个数与使用者个数(例如,可以通过红色来表示创建者,通过蓝色来表示使用者,且当创建者个数越多时,红色的颜色越深,当使用者个数越多时,蓝色的颜色越深),使得运维人员可以直观的了解元数据的具体情况。此外,还可以通过对元数据中包含的创建方个数、使用方个数、所述元数据关联的下游表个数以及上游表个数做求和运算,得到数据应用频次。
示例性的,图3为本申请实施例提供的数据应用频次对应的矩阵图的应用示意图,如图3所示,在该实施例中,有六个子业务对应的子元数据表,每个子元数据表可以为矩阵图中的一个矩形块,每个矩形块可以分为两部分,分别表示每个子业务对应的使用者和创建者,且可以通过不同的样式表示使用者和创建者。此外,还可以通过数字的方式体现每个子业务对应的使用者和创建者,例如,在第一个矩形块中,该子业务的使用者为1个,创建者为3个。
此外,图4为本申请另一实施例提供的数据应用频次对应的矩阵图的应用示意图,如图4所示,在该实施例中,在图3所述实施例的基础上,还可以显示每个子业务关联的上游表与下游表。可选的,可以在触控操作作用于子业务对应的矩形块的区域时(例如,鼠标或用户手指触控于子业务对应的矩形块的区域时),显示子业务关联的上游表与下游表的具体情况。例如,用户手指触控于最后一个矩形块的区域时,该矩形块对应的子业务关联的上游表有3个,下游表有2个,则可以显示该子业务关联的表格的具体信息。此外,还可以显示表名,如最后可以表的表名为表F。进一步的,还可以显示使用者以及创建者的具体信息。
在另一实施例中,在所述根据所述目标复用值存储所述元数据之后,具体可以包括:
对所述元数据进行标注处理,得到训练样本集。
根据所述训练样本集对网络模型进行训练,得到所述目标业务处理模型。
在本实施例中,若目标复用值高于预设复用值阈值,则表明数据复用的价值比较高,可以存储该元数据以备后续再利用。对应的,可以先对该元数据进行标注处理,得到训练样本集,然后可以通过训练样本集对网络模型进行训练,得到目标业务处理模型,即通过目标业务处理模型可以自动实现目标业务。示例性的,目标业务可以为对图像进行再处理,如添加特效,通过标注后的元数据可以自动对网络模型进行训练,得到可以对图像添加特效的图像处理模型,然后可以通过该图像处理模型对图像添加特效。
综上,通过对存储的元数据进行再处理,提高了元数据的利用价值,同时也为模型训练提供了准确且丰富的训练样本,进而提高了模型训练的效率与准确性。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置,图5为本申请实施例提供的元数据处理装置的结构示意图,如图5所示,本实施例提供的装置,可以包括:
获取模块501,用于获取目标业务在执行过程中生成的元数据。
处理模块502,用于根据所述元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种。
所述处理模块502,还用于根据所述数据关联度、所述业务成本值以及所述数据应用频次中的至少一种确定目标复用值,其中,所述目标复用值表示所述元数据被复用的可能性大小。
所述处理模块502,还用于根据所述目标复用值存储或删除所述元数据。
在本实施例中,所述处理模块502,还用于:
若所述目标复用值低于预设复用值阈值,则生成并显示元数据删除提示。
响应作用于所述元数据删除提示的触控操作,删除所述目标业务对应的元数据。
在另一实施例中,所述处理模块502,还用于:
确定所述元数据中涉及到的每个子业务对应的目标组个数,其中,所述目标业务包含至少一个子业务,每个子业务涉及至少一个目标组,每个所述目标组均对对应的子业务执行不同的操作。
根据每个所述子业务对应的目标组个数与预设个数阈值确定每个所述子业务的数据关联值。
对每个所述子业务的数据关联值进行求和运算,得到数据关联度。
在另一实施例中,所述处理模块502,还用于:
根据所述元数据确定存储成本以及硬件消耗成本。
对所述存储成本以及所述硬件消耗成本进行求和运算,得到业务成本值。
进一步的,所述处理模块502,还用于:
根据所述元数据确定所述目标业务消耗的存储量。
确定存储成本单价。
根据所述目标业务消耗的存储量以及所述存储成本单价确定存储成本值。
更进一步的,所述处理模块502,还用于:
通过预设存储路径确定所述元数据中包含的目标数据表,其中,所述目标业务中包含至少一子业务,所述预设存储路径为每个所述子业务对应的数据的存储路径。
确定每个所述目标数据表的初始存储量,并对所述每个所述目标数据表的初始存储量进行求和运算,得到所述目标业务消耗的存储量。
进一步的,所述处理模块502,还用于:
获取预设时长内的基础成本值,其中,所述基础成本值为在预设时长内的主机折旧费用、机房租金、网络设施折旧费用以及人员运维费用中的至少一种。
根据处理器的采购成本、内存的采购成本以及磁盘的采购成本确定存储成本所占的第一比值。
根据所述基础成本值、所述第一比值以及存储总量确定存储成本单价,其中,所述目标业务消耗的存储量为所述目标业务每天消耗的存储,所述存储总量为预设时长内所述目标业务消耗的总存储。
此外,所述处理模块502,还用于:
根据所述元数据确定所述目标业务运行过程中的处理器总量和内存总量。
确定处理器成本单价以及内存成本单价。
根据所述目标业务消耗的处理器总量以及所述处理器成本单价确定处理器成本,并根据所述目标业务消耗的内存总量以及所述内存成本单价确定内存成本。
根据所述处理器成本以及所述内存成本确定硬件消耗成本。
在另一实施例中,所述处理模块502,还用于:
确定所述元数据中包含的创建方个数、使用方个数、所述元数据关联的下游表个数以及上游表个数。
根据所述创建方个数、所述使用方个数、所述元数据关联的下游表个数以及上游表个数确定数据应用频次。
在另一实施例中,所述处理模块502,还用于:
对所述元数据进行标注处理,得到训练样本集。
根据训练样本集对网络模型进行训练,得到目标业务处理模型。
本申请实施例提供的装置,可以实现上述如图2所示的实施例的方法,其实现原理和技术效果类似,此处不再赘述。
图6为本申请实施例提供的电子设备的硬件结构示意图,如图6所示,本实施例提供的设备600包括:处理器601,以及与所述处理器通信连接的存储器。其中,处理器601、存储器602通过总线603连接。
在具体实现过程中,处理器601执行所述存储器602存储的计算机执行指令,使得处理器601执行上述方法实施例中的方法。
处理器601的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图6所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述方法实施例的元数据处理方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上所述的元数据处理方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (12)

1.一种元数据处理方法,其特征在于,包括:
获取目标业务在执行过程中生成的元数据;
根据所述元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种;
根据所述数据关联度、所述业务成本值以及所述数据应用频次中的至少一种确定目标复用值,其中,所述目标复用值表示所述元数据被复用的可能性大小;
根据所述目标复用值存储或删除所述元数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述元数据确定数据关联度,包括:
确定所述元数据中涉及到的每个子业务对应的目标组个数,其中,所述目标业务包含至少一个子业务,每个子业务涉及至少一个目标组,每个所述目标组均对对应的子业务执行不同的操作;
根据每个所述子业务对应的目标组个数与预设个数阈值确定每个所述子业务的数据关联值;
对每个所述子业务的数据关联值进行求和运算,得到数据关联度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述元数据确定业务成本值,包括:
根据所述元数据确定存储成本以及硬件消耗成本;
对所述存储成本以及所述硬件消耗成本进行求和运算,得到业务成本值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述元数据确定存储成本值,包括:
根据所述元数据确定所述目标业务消耗的存储量;
确定存储成本单价;
根据所述目标业务消耗的存储量以及所述存储成本单价确定存储成本值。
5.根据权利要求4所述的方法,其特征在于,所述根据所述元数据确定所述目标业务消耗的存储量,包括:
通过预设存储路径确定所述元数据中包含的目标数据表,其中,所述目标业务中包含至少一子业务,所述预设存储路径为每个所述子业务对应的数据的存储路径;
确定每个所述目标数据表的初始存储量,并对所述每个所述目标数据表的初始存储量进行求和运算,得到所述目标业务消耗的存储量。
6.根据权利要求4所述的方法,其特征在于,所述确定存储成本单价,包括:
获取预设时长内的基础成本值,其中,所述基础成本值为在预设时长内的主机折旧费用、机房租金、网络设施折旧费用以及人员运维费用中的至少一种;
根据处理器的采购成本、内存的采购成本以及磁盘的采购成本确定存储成本所占的第一比值;
根据所述基础成本值、所述第一比值以及存储总量确定存储成本单价,其中,所述目标业务消耗的存储量为所述目标业务每天消耗的存储,所述存储总量为预设时长内所述目标业务消耗的总存储。
7.根据权利要求3所述的方法,其特征在于,所述根据所述元数据确定硬件消耗成本,包括:
根据所述元数据确定所述目标业务运行过程中的处理器总量和内存总量;
确定处理器成本单价以及内存成本单价;
根据所述目标业务消耗的处理器总量以及所述处理器成本单价确定处理器成本,并根据所述目标业务消耗的内存总量以及所述内存成本单价确定内存成本;
根据所述处理器成本以及所述内存成本确定硬件消耗成本。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述元数据确定数据应用频次,包括:
确定所述元数据中包含的创建方个数、使用方个数、所述元数据关联的下游表个数以及上游表个数;
根据所述创建方个数、所述使用方个数、所述元数据关联的下游表个数以及上游表个数确定数据应用频次。
9.根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述目标复用值删除所述元数据,包括:
若所述目标复用值低于预设复用值阈值,则生成并显示元数据删除提示;
响应作用于所述元数据删除提示的触控操作,删除所述目标业务对应的元数据。
10.一种元数据处理装置,其特征在于,包括:
获取模块,用于获取目标业务在执行过程中生成的元数据;
处理模块,用于根据所述元数据确定数据关联度、业务成本值以及数据应用频次中的至少一种;
所述处理模块,还用于根据所述数据关联度、所述业务成本值以及所述数据应用频次中的至少一种确定目标复用值,其中,所述目标复用值表示所述元数据被复用的可能性大小;
所述处理模块,还用于根据所述目标复用值存储或删除所述元数据。
11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至9任一项所述的元数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至9任一项所述的元数据处理方法。
CN202211696722.6A 2022-12-28 2022-12-28 元数据处理方法及装置 Pending CN116126875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211696722.6A CN116126875A (zh) 2022-12-28 2022-12-28 元数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211696722.6A CN116126875A (zh) 2022-12-28 2022-12-28 元数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN116126875A true CN116126875A (zh) 2023-05-16

Family

ID=86298564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211696722.6A Pending CN116126875A (zh) 2022-12-28 2022-12-28 元数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN116126875A (zh)

Similar Documents

Publication Publication Date Title
CN111833018A (zh) 一种科技项目的专利分析方法及系统
CN113849702A (zh) 一种确定目标数据的方法、装置、电子设备及存储介质
CN113807553A (zh) 预约服务的数量分析方法、装置、设备及存储介质
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN114511235A (zh) 流程评估方法及系统
CN112711398A (zh) 埋点文件生成方法、装置、设备及存储介质
CN112631731A (zh) 数据查询方法、装置、电子设备及存储介质
CN114840531A (zh) 基于血缘关系的数据模型重构方法、装置、设备及介质
CN109344255B (zh) 标签的填充方法及终端设备
CN114462885A (zh) 一种基于业务信息的数据排行方法及装置、介质、设备
CN110781235A (zh) 基于大数据的采购数据处理方法、装置、终端及存储介质
CN113450062A (zh) 项目信息处理方法、系统、电子设备及存储介质
CN110888909B (zh) 一种评估内容的数据统计处理方法及装置
CN116126875A (zh) 元数据处理方法及装置
CN111971702A (zh) 高效分析的多维数据组织
CN111131393B (zh) 用户活跃度数据统计方法、电子装置及存储介质
CN114202250A (zh) 一种企业评估系统、方法及电子设备
CN116976800A (zh) 数据处理方法、装置、存储介质及电子设备
CN113672660A (zh) 一种数据查询方法、装置及设备
CN112667721A (zh) 数据分析方法、装置、设备及存储介质
CN109840213B (zh) 一种gui测试的测试数据创建方法、装置、终端及存储介质
CN110008264B (zh) 成本核算系统的数据采集方法和装置
CN111309623A (zh) 一种坐标类数据分类测试方法及装置
CN113450063B (zh) 任务信息的处理方法、装置、电子设备及存储介质
CN118195707B (zh) 用户行为分析方法、系统、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination