CN115114273A - 一种业务对象的元数据评分方法、存储介质及系统 - Google Patents
一种业务对象的元数据评分方法、存储介质及系统 Download PDFInfo
- Publication number
- CN115114273A CN115114273A CN202210855264.XA CN202210855264A CN115114273A CN 115114273 A CN115114273 A CN 115114273A CN 202210855264 A CN202210855264 A CN 202210855264A CN 115114273 A CN115114273 A CN 115114273A
- Authority
- CN
- China
- Prior art keywords
- level
- field
- metadata
- scoring
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供本发明提供一种业务对象的元数据评分方法、存储介质及系统,该方法包括如下步骤:获取用于对业务对象进行描述的表级元数据及字段级元数据,先对每项字段级元数据进行评分得到各项字段级元数据的字段评分,再对各项表级元数据所包含的全部字段级元数据的字段评分分别进行均值计算,得到各项表级元数据所包含的全部字段级元数据的字段综合评分,然后对每项表级元数据进行评分,在此过程中,以表级元数据所包含的全部字段级元数据的字段综合评分作为其中一项表二级评分指标的得分,计算得到表级元数据的表评分,再对全部表级元数据的表评分进行均值计算,得到业务对象的元数据综合评分。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种业务对象的元数据评分方法、存储介质及系统。
背景技术
在元数据管理系统中,对业务对象通常采用多项表级元数据进行描述,每项表级元数据中通常包含有多项字段级元数据,这些表级元数据及字段级元数据主要应用于业务对象的数据检索和知识图谱加工,则业务对象的数据检索和知识图谱加工结果会受到表级元数据及字段级元数据的质量影响。为确保业务对象的数据检索和知识图谱加工结果可靠,需确保用于描述业务对象的表级元数据及字段级元数据质量可靠,为此需要先对表级元数据及字段级元数据进行质量评估,但由于字段级元数据是包含在表级元数据当中的,即字段级元数据的质量会影响到表级元数据的质量,而目前现有的元数据质量评估方法通常是分别对表级元数据及字段级元数据进行质量评估,没有考虑表级元数据及字段级元数据之间的质量影响,难以确保业务对象的数据检索和知识图谱加工结果可靠。
发明内容
本发明要解决的技术问题是如何提高业务对象的数据检索和知识图谱加工的可靠性。
为解决上述技术问题,本发明提供一种业务对象的元数据评分方法,包括如下步骤:
A.获取用于对业务对象进行描述的至少一项表级元数据及各项表级元数据所包含的至少一项字段级元数据;
B.对每项字段级元数据进行评分,具体包括如下步骤B1~B4:
——B1.获取用于对本项字段级元数据进行评分的至少两项字段一级评分指标及每项字段一级评分指标所包含的至少一项字段二级评分指标;
——B2.获取用户对各项字段一级评分指标和各项字段二级评分指标分别赋予的权重;
——B3.获取各项字段二级评分指标的字段原始指标数据,分别对各项字段原始指标数据进行预处理计算得到各项字段二级评分指标的得分;
——B4.根据各项字段二级评分指标的权重和各项字段一级评分指标的权重,对各项字段二级评分指标的得分进行加权计算得到本项字段级元数据的字段评分;
C.对各项表级元数据所包含的全部字段级元数据的字段评分分别进行均值计算,得到各项表级元数据所包含的全部字段级元数据的字段综合评分;
D.对每项表级元数据进行评分,具体包括如下步骤D1~D4:
——D1.获取用于对本项表级元数据进行评分的至少两项表一级评分指标及每项表一级评分指标所包含的至少一项表二级评分指标,以本项表级元数据所包含的全部字段级元数据的字段综合评分作为其中一项表二级评分指标的得分;
——D2.获取用户对各项表一级评分指标和各项表二级评分指标分别赋予的权重;
——D3.获取除字段综合评分之外的其他各项表二级评分指标的表原始指标数据,分别对各项表原始指标数据进行预处理计算得到其他各项表二级评分指标的得分;
——D4.根据各项表二级评分指标的权重和各项表一级评分指标的权重,对各项表二级评分指标的得分进行加权计算得到本项表级元数据的表评分;
E.对用于描述所述业务对象的全部表级元数据的表评分进行均值计算,得到所述业务对象的元数据综合评分。
优选地,所述步骤B1中,所述字段一级评分指标包括字段级完整性指标,所述字段级完整性指标所包含的字段二级评分指标包括字段级技术元数据完整性指标、字段级管理元数据完整性指标和字段级业务元数据完整性指标。
优选地,所述步骤B2中,同一项字段级元数据的全部字段一级评分指标的权重之和为100%,且同一项字段一级评分指标所包含的全部字段二级评分指标的权重之和为100%。
优选地,所述步骤B4中,先根据各项字段二级评分指标的权重,对各项字段二级评分指标的得分进行加权计算得到本项字段级元数据的各项字段一级评分指标的得分,再根据各项字段一级评分指标的权重,对各项字段一级评分指标的得分进行加权计算得到本项字段级元数据的字段评分。
优选地,所述步骤D1中,所述表一级评分指标包括表级完整性指标和字段指标,所述表级完整性指标所包含的表二级评分指标包括表级技术元数据完整性指标、表级管理元数据完整性指标和表级业务元数据完整性指标,以所述字段综合评分作为所述字段指标所包含的表二级评分指标。
优选地,所述步骤D2中,同一项表级元数据的全部表一级评分指标的权重之和为100%,且同一项表一级评分指标所包含的全部表二级评分指标的权重之和为100%。
优选地,所述步骤D4中,先根据各项表二级评分指标的权重,对各项表二级评分指标的得分进行加权计算得到本项表级元数据的各项表一级评分指标的得分,再根据各项表一级评分指标的权重,对各项表一级评分指标的得分进行加权计算得到本项表级元数据的表评分。
优选地,所述步骤E中,在得到所述业务对象的元数据综合评分之后,按照所述业务对象的元数据综合评分给所述业务对象进行评级。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的业务对象的元数据评分方法中的步骤。
本发明还提供一种业务对象的元数据评分系统,包括相互连接的计算机可读存储介质和处理器,计算机可读存储介质如上所述。
本发明具有以下有益效果:本发明先对每项字段级元数据进行评分,得到各项字段级元数据的字段评分,再对各项表级元数据所包含的全部字段级元数据的字段评分分别进行均值计算,得到各项表级元数据所包含的全部字段级元数据的字段综合评分,然后对每项表级元数据进行评分,在此过程中,以表级元数据所包含的全部字段级元数据的字段综合评分作为其中一项表二级评分指标的得分,再根据相应的指标权重对各项表二级评分指标的得分进行加权计算得到表级元数据的表评分,然后对全部表级元数据的表评分进行均值计算,得到业务对象的元数据综合评分,如此则最终得到的业务对象的元数据综合评分结合了全部表级元数据的表评分以及全部字段级元数据的字段评分,综合考虑了用于描述业务对象的表级元数据和字段级元数据之间的质量影响,如此则采用综合评分高的业务对象进行数据检索和知识图谱加工能提高可靠性。
附图说明
图1是业务对象的元数据评分方法的流程示意图;
图2是字段级元数据的字段一级评分指标及字段二级评分指标的示意图;
图3是字段级元数据的字段一级评分指标及字段二级评分指标的权重分配示意图;
图4是表级元数据的表一级评分指标及表二级评分指标的示意图;
图5是表级元数据的表一级评分指标及表二级评分指标的权重分配示意图;
图6是业务对象的元数据综合评分与评级之间的对应关系示意图。
具体实施方式
以下结合具体实施方式对本发明创造作进一步详细说明。
本实施例提供一种业务对象的元数据评分系统,该系统包括相互连接的计算机可读存储介质和处理器,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如图1所示的业务对象的元数据评分方法,该方法具体包括如下步骤A、B、C、D、E。
A.获取用于对业务对象进行描述的至少一项表级元数据及各项表级元数据所包含的至少一项字段级元数据。
在元数据管理系统中,对业务对象通常采用至少两项表级元数据进行描述,每项表级元数据中通常包含有至少一项字段级元数据,这些表级元数据及字段级元数据主要应用于业务对象的数据检索和知识图谱加工,则业务对象的数据检索和知识图谱加工结果会受到表级元数据及字段级元数据的质量影响。本实施例中,为提高业务对象的数据检索和知识图谱加工结果可靠性,结合用于对该业务对象进行描述的全部表级元数据以及全部字段级元数据,对该业务对象进行综合评分,基于此,评分系统获取用于对业务对象进行描述的至少一项表级元数据及各项表级元数据所包含的至少一项字段级元数据,例如,对某个业务对象进行描述的表级元数据有两项,分别为第一项表级元数据和第二项表级元数据,其中:第一项表级元数据包含有两项字段级元数据,分别为第一项字段级元数据和第二项字段级元数据;第二项表级元数据包含有两项字段级元数据,分别为第三项字段级元数据和第四项字段级元数据。如此则评分系统获取到用于对该业务对象进行描述的第一项表级元数据和第二项表级元数据,以及获取到第一项表级元数据所包含的第一项字段级元数据和第二项字段级元数据,获取到第二项表级元数据所包含的第三项字段级元数据和第四项字段级元数据。
需要说明的是,对不同业务对象进行描述的表级元数据数量可能有所不同,且每个表级元数据所包含的字段级元数据数量也可能有所不同,具体视实际情况而定。
B.对每项字段级元数据进行评分。
评分系统分别对其获取到的第一项字段级元数据、第二项字段级元数据、第三项字段级元数据和第四项字段级元数据进行评分,对每项字段级元数据进行评分具体包括如下步骤B1、B2、B3和B4。
B1.获取用于对本项字段级元数据进行评分的至少两项字段一级评分指标及每项字段一级评分指标所包含的至少一项字段二级评分指标。
本实施例中,采用不同级别的多项评分指标对字段级元数据进行评分,其中,不同级别的多项评分指标,是指至少两项字段一级评分指标及每项字段一级评分指标所包含的至少一项字段二级评分指标。本实施例中,各项字段级元数据的字段一级评分指标相同,且各项字段级元数据的字段二级评分指标相同,则对各项字段级元数据进行评分的方式相同。
以第一项字段级元数据为例,对本项字段级元数据进行评分采用五项字段一级评分指标,分别为字段级完整性指标、数据标准指标、质量规则指标、质量问题指标和治理案例指标,其中:字段级完整性指标包含有三项字段二级评分指标,分别为字段级技术元数据完整性指标、字段级管理元数据完整性指标和字段级业务元数据完整性指标;数据标准指标包含有一项字段二级评分指标,具体为标准满足指标;质量规则指标包含有一项字段二级评分指标,具体为关联规则指标;质量问题指标包含有一项字段二级评分指标,具体为质量问题占比指标;治理案例指标包含有一项字段二级评分指标,具体为案例量级指标。评分系统获取用于对第一项字段级元数据进行评分的五项字段一级评分指标及每项字段一级评分指标所包含的各项字段二级评分指标,构建出如图2所示的字段级元数据评分指标体系。
B2.获取用户对各项字段一级评分指标和各项字段二级评分指标分别赋予的权重。
在构建出字段级元数据评分指标体系之后,用户可依据专家的评估向评分系统输入第一项字段级元数据的各项字段一级评分指标和各项字段二级评分指标各自的权重,如此则评分系统就获取到用户对第一项字段级元数据的各项字段一级评分指标和各项字段二级评分指标分别赋予的权重,构建出如图3所示的基于平衡计分卡的字段级评估模型。其中,字段一级评分指标当中,字段级完整性指标的权重为60%,数据标准指标的权重为15%,质量规则指标的权重为10%,质量问题指标的权重为10%,治理案例指标的权重为5%;字段级完整性指标所包含的三项字段二级评分指标当中,字段级技术元数据完整性指标的权重为80%,字段级管理元数据完整性指标的权重为10%,字段级业务元数据完整性指标的权重为10%;数据标准指标所包含的标准满足指标的权重为100%;质量规则指标所包含的关联规则指标的权重为100%;质量问题指标所包含的质量问题占比指标的权重为100%;治理案例指标所包含的案例量级指标的权重为100%。
需要说明的是,对不同的字段级元数据,专家评估后给出的各项字段一级评分指标和各项字段二级评分指标各自的权重可能会有所不同,但需确保同一项字段级元数据的全部字段一级评分指标的权重之和为100%,且同一项字段一级评分指标所包含的全部字段二级评分指标的权重之和为100%。
B3.获取各项字段二级评分指标的字段原始指标数据,分别对各项字段原始指标数据进行预处理计算得到各项字段二级评分指标的得分。
在获取到用户对字段一级评分指标和字段二级评分指标分别赋予的权重之后,评分系统获取第一项字段级元数据的各项字段二级评分指标的字段原始指标数据,然后分别对获取到的各项字段原始指标数据采用不全相同的预处理方式,计算得到各项字段二级评分指标的得分,具体地:
对字段级技术元数据完整性指标,评分系统所获取的字段原始指标数据为第一项字段级元数据中的字段级技术元数据总数及其中的字段级技术元数据非空个数,所采用的预处理方式是计算字段级技术元数据非空个数与字段级技术元数据总数之比,计算结果即为字段级技术元数据完整性指标的得分,即字段级技术元数据完整性指标的得分=字段级技术元数据非空个数/字段级技术元数据总数,则字段级技术元数据完整性指标的得分范围为[0,1];
对字段级管理元数据完整性指标,评分系统所获取的字段原始指标数据为第一项字段级元数据中的字段级管理元数据总数及其中的字段级管理元数据非空个数,所采用的预处理方式是计算字段级管理元数据非空个数与字段级管理元数据总数之比,计算结果即为字段级管理元数据完整性指标的得分,即字段级管理元数据完整性指标的得分=字段级管理元数据非空个数/字段级管理元数据总数,则字段级管理元数据完整性指标的得分范围为[0,1];
对字段级业务元数据完整性指标,评分系统所获取的字段原始指标数据为第一项字段级元数据中的字段级业务元数据总数及其中的字段级业务元数据非空个数,所采用的预处理方式是计算字段级业务元数据非空个数与字段级业务元数据总数之比,计算结果即为字段级业务元数据完整性指标的得分,即字段级业务元数据完整性指标的得分=字段级业务元数据非空个数/字段级业务元数据总数,则字段级业务元数据完整性指标的得分范围为[0,1];
对标准满足指标,评分系统所获取的字段原始指标数据为反映第一项字段级元数据中的字段是否映射了数据标准的数据,所采用的预处理方式是根据该数据判断字段是否已经映射了数据标准,若映射了则标准满足指标的得分为1,若没有映射则标准满足指标的得分为0;
对关联规则指标,评分系统所获取的字段原始指标数据为反映第一项字段级元数据中的字段是否关联了数据质量稽核规则的数据,所采用的预处理方式是根据该数据判断字段是否已经关联了数据质量稽核规则,若关联了则关联规则指标的得分为1,若没有关联则关联规则指标的得分为0;
对质量问题占比指标,评分系统所获取的字段原始指标数据为第一项字段级元数据中的字段总数及其中的问题字段数量,所采用的预处理方式是计算没有问题的字段数量与字段总数之比,计算结果即为质量问题占比指标的得分,即质量问题占比指标的得分=(字段总数-问题字段数量)/字段总数,则质量问题占比指标的得分范围为[0,1];
对案例量级指标,评分系统所获取的字段原始指标数据为第一项字段级元数据中的字段关联的案例个数,所采用的预处理方式是根据字段关联的案例个数来设置案例量级指标的得分,具体地,若字段关联了多于一个案例,则案例量级指标的得分为1,若字段关联了一个案例,则案例量级指标的得分为0.6,若字段没有关联案例,则案例量级指标的得分为0。
B4.根据各项字段二级评分指标的权重和各项字段一级评分指标的权重,对各项字段二级评分指标的得分进行加权计算得到本项字段级元数据的字段评分;
在得到第一项字段级元数据的各项字段二级评分指标的得分之后,评分系统根据图3中的各项字段二级评分指标的权重和各项字段一级评分指标的权重,对各项字段二级评分指标的得分进行加权计算得到第一项字段级元数据的字段评分,具体地:
本实施例中,第一项字段级元数据的字段二级评分指标当中:字段级技术元数据非空个数/字段级技术元数据总数=0.8,则字段级技术元数据完整性指标的得分为0.8;字段级管理元数据非空个数/字段级管理元数据总数=0.7,则字段级管理元数据完整性指标的得分为0.7;字段级业务元数据非空个数/字段级业务元数据总数=0.9,则字段级业务元数据完整性指标的得分为0.9;字段已经映射了数据标准,则标准满足指标的得分为1;字段没有关联数据质量稽核规则,则关联规则指标的得分为0;(字段总数-问题字段数量)/字段总数=0.8,则质量问题占比指标的得分为0.8;字段关联了一个案例,则案例量级指标的得分为0.6。
如此则评分系统先根据各项字段二级评分指标的权重对各项字段二级评分指标的得分进行加权计算,得到各项字段一级评分指标的得分,计算公式为:
字段一级评分指标得分=∑字段二级评分指标得分*字段二级评分指标的权重;
则第一项字段级元数据的各项字段一级评分指标当中:字段级完整性指标的得分=字段级技术元数据完整性指标的得分*字段级技术元数据完整性指标的权重+字段级管理元数据完整性指标的得分*字段级管理元数据完整性指标的权重+字段级业务元数据完整性指标的得分*字段级业务元数据完整性指标的权重=0.8*80%+0.7*10%+0.9*10%=0.8;数据标准指标的得分=标准满足指标的得分*标准满足指标的权重=1*100%=1;质量规则指标的得分=关联规则指标的得分*关联规则指标的权重=0*100%=0;质量问题指标的得分=质量问题占比指标的得分*质量问题占比指标的权重=0.8*100%=0.8;治理案例指标的得分=案例量级指标的得分*案例量级指标的权重=0.6*100%=0.6。
然后,评分系统根据各项字段一级评分指标的权重对各项字段一级评分指标的得分进行加权计算,得到第一项字段级元数据的字段评分,计算公式为:
字段级元数据的字段评分=∑字段一级评分指标得分*字段一级评分指标的权重;
则第一项字段级元数据的字段评分=字段级完整性指标的得分*字段级完整性指标的权重+数据标准指标的得分*数据标准指标的权重+质量规则指标的得分*质量规则指标的权重+质量问题指标的得分*质量问题指标的权重+治理案例指标的得分*治理案例指标的权重=0.8*60%+1*15%+0*10%+0.8*10%+0.6*5%=0.74。
同理,由于本实施例中的各项字段级元数据的字段一级评分指标相同,且各项字段级元数据的字段二级评分指标相同,对各项字段级元数据进行评分的方式相同,则可采用与第一项字段级元数据相同的评分方式对第二项字段级元数据、第三项字段级元数据和第四项字段级元数据分别进行评分,得到第二项字段级元数据的字段评分例如为0.84,第三项字段级元数据的字段评分例如为0.59,第四项字段级元数据的字段评分例如为0.76。
C.对各项表级元数据所包含的全部字段级元数据的字段评分分别进行均值计算,得到各项表级元数据所包含的全部字段级元数据的字段综合评分。
本实施例中,由于第一项表级元数据包含第一项字段级元数据和第二项字段级元数据,则可对第一项字段级元数据的字段评分和第二项字段级元数据的字段评分进行均值计算,从而得到第一项表级元数据所包含的全部字段级元数据的字段综合评分,则第一项表级元数据所包含的全部字段级元数据的字段综合评分=(第一项字段级元数据的字段评分+第二项字段级元数据的字段评分)/2=(0.74+0.84)/2=0.79。
由于第二项表级元数据包含第三项字段级元数据和第四项字段级元数据,则可对第三项字段级元数据的字段评分和第四项字段级元数据的字段评分进行均值计算,从而得到第二项表级元数据所包含的全部字段级元数据的字段综合评分,则第二项表级元数据所包含的全部字段级元数据的字段综合评分=(第三项字段级元数据的字段评分+第四项字段级元数据的字段评分)/2=(0.59+0.76)/2=0.675。
D.对每项表级元数据进行评分。
在对各项字段级元数据分别进行评分之后,评分系统分别对其获取到的第一项表级元数据和第二项表级元数据进行评分,对每项表级元数据进行评分具体包括如下步骤D1、D2、D3和D4。
D1.获取用于对本项表级元数据进行评分的至少两项表一级评分指标及每项表一级评分指标所包含的至少一项表二级评分指标,以本项表级元数据所包含的全部字段级元数据的字段综合评分作为其中一项表二级评分指标。
本实施例中,采用不同级别的多项评分指标对表级元数据进行评分,其中,不同级别的多项评分指标,是指至少两项表一级评分指标及每项表一级评分指标所包含的至少一项表二级评分指标。本实施例中,各项表级元数据的表一级评分指标相同,且各项表级元数据的表二级评分指标相同,则对各项表级元数据进行评分的方式相同。
以第一项表级元数据为例,对本项表级元数据进行评分采用两项表一级评分指标,分别为表级完整性指标和字段指标,其中:表级完整性指标包含有三项表二级评分指标,分别为表级技术元数据完整性指标、表级管理元数据完整性指标和表级业务元数据完整性指标;字段指标包含有一项表二级评分指标,具体为字段综合评分指标,即以第一项表级元数据所包含的全部字段级元数据的字段综合评分作为其中一项表二级评分指标。评分系统获取用于对第一项表级元数据进行评分的两项表一级评分指标及每项表一级评分指标所包含的各项表二级评分指标,构建出如图4所示的表级元数据评分指标体系。
D2.获取用户对各项表一级评分指标和各项表二级评分指标分别赋予的权重。
在构建出表级元数据评分指标体系之后,用户可依据专家的评估向评分系统输入第一项表级元数据的各项表一级评分指标和各项表二级评分指标各自的权重,如此则评分系统就获取到用户对第一项表级元数据的各项表一级评分指标和各项表二级评分指标分别赋予的权重,构建出如图5所示的基于平衡计分卡的表级评估模型。其中,表一级评分指标当中,表级完整性指标的权重为60%,字段指标的权重为40%;表级完整性指标所包含的三项表二级评分指标当中,表级技术元数据完整性指标的权重为80%,表级管理元数据完整性指标的权重为10%,表级业务元数据完整性指标的权重为10%;字段指标所包含的字段综合评分指标的权重为100%。
需要说明的是,对不同的表级元数据,专家评估后给出的各项表一级评分指标和各项表二级评分指标各自的权重可能会有所不同,但需确保同一项表级元数据的全部表一级评分指标的权重之和为100%,且同一项表一级评分指标所包含的全部表二级评分指标的权重之和为100%。
D3.获取除字段综合评分之外的其他各项表二级评分指标的表原始指标数据,分别对各项表原始指标数据进行预处理计算得到其他各项表二级评分指标的得分。
在获取到用户对表一级评分指标和表二级评分指标分别赋予的权重之后,由于其中一项表二级评分指标(字段综合评分指标)是第一项表级元数据所包含的全部字段级元数据的字段综合评分,则第一项表级元数据所包含的全部字段级元数据的字段综合评分就是该字段综合评分指标的得分,即第一项表级元数据的字段综合评分指标的得分为0.79。另外,评分系统获取除字段综合评分之外的其他各项表二级评分指标的表原始指标数据,即分别获取表级技术元数据完整性指标、表级管理元数据完整性指标和表级业务元数据完整性指标的表原始指标数据,然后分别对获取到的各项表原始指标数据进行预处理计算,得到各项表二级评分指标的得分,具体地:
对表级技术元数据完整性指标,评分系统所获取的表原始指标数据为第一项表级元数据中的表级技术元数据总数及其中的表级技术元数据非空个数,所采用的预处理方式是计算表级技术元数据非空个数与表级技术元数据总数之比,计算结果即为表级技术元数据完整性指标的得分,即表级技术元数据完整性指标的得分=表级技术元数据非空个数/表级技术元数据总数,则表级技术元数据完整性指标的得分范围为[0,1];
对表级管理元数据完整性指标,评分系统所获取的表原始指标数据为第一项表级元数据中的表级管理元数据总数及其中的表级管理元数据非空个数,所采用的预处理方式是计算表级管理元数据非空个数与表级管理元数据总数之比,计算结果即为表级管理元数据完整性指标的得分,即表级管理元数据完整性指标的得分=表级管理元数据非空个数/表级管理元数据总数,则表级管理元数据完整性指标的得分范围为[0,1];
对表级业务元数据完整性指标,评分系统所获取的表原始指标数据为第一项表级元数据中的表级业务元数据总数及其中的表级业务元数据非空个数,所采用的预处理方式是计算表级业务元数据非空个数与表级业务元数据总数之比,计算结果即为表级业务元数据完整性指标的得分,即表级业务元数据完整性指标的得分=表级业务元数据非空个数/表级业务元数据总数,则表级业务元数据完整性指标的得分范围为[0,1]。
D4.根据各项表二级评分指标的权重和各项表一级评分指标的权重,对各项表二级评分指标的得分进行加权计算得到本项表级元数据的表评分。
在得到字段综合评分指标的得分、表级技术元数据完整性指标的得分、表级管理元数据完整性指标的得分和表级业务元数据完整性指标的得分,即得到第一项表级元数据的各项表二级评分指标的得分之后,评分系统根据图5中的各项表二级评分指标的权重和各项表一级评分指标的权重,对各项表二级评分指标的得分进行加权计算得到第一项表级元数据的字段评分,具体地:
本实施例中,第一项表级元数据的表二级评分指标当中:表级技术元数据非空个数/字段级技术元数据总数=0.9,则表级技术元数据完整性指标的得分为0.9;表级管理元数据非空个数/表级管理元数据总数=0.75,则表级管理元数据完整性指标的得分为0.75;表级业务元数据非空个数/表级业务元数据总数=0.85,则表级业务元数据完整性指标的得分为0.85;由上文可得知第一项表级元数据的字段综合评分指标的得分为0.79。
如此则评分系统先根据各项表二级评分指标的权重对各项表二级评分指标的得分进行加权计算,得到各项表一级评分指标的得分,计算公式为:
表一级评分指标得分=∑表二级评分指标得分*表二级评分指标的权重;
则第一项表级元数据的各项表一级评分指标当中:表级完整性指标的得分=表级技术元数据完整性指标的得分*表级技术元数据完整性指标的权重+表级管理元数据完整性指标的得分*表级管理元数据完整性指标的权重+表级业务元数据完整性指标的得分*表级业务元数据完整性指标的权重=0.9*80%+0.75*10%+0.85*10%=0.88;字段指标的得分=字段综合评分指标的得分*字段综合评分指标的权重=0.79*100%=0.79。
然后,评分系统根据各项表一级评分指标的权重对各项表一级评分指标的得分进行加权计算,得到第一项表级元数据的表评分,计算公式为:
表级元数据的表评分=∑表一级评分指标得分*表一级评分指标的权重;
则第一项表级元数据的表评分=表级完整性指标的得分*表级完整性指标的权重+字段指标的得分*字段指标的权重=0.88*60%+0.79*40%=0.844。
同理,由于本实施例中的各项表级元数据的表一级评分指标相同,且各项表级元数据的表二级评分指标相同,对各项表级元数据进行评分的方式相同,则可采用与第一项表级元数据相同的评分方式对第二项表级元数据进行评分,得到第二项表级元数据的表评分例如为0.796。
E.对用于描述业务对象的全部表级元数据的表评分进行均值计算,得到业务对象的元数据综合评分。
本实施例中,由于第一项表级元数据和第二项表级元数据对业务对象进行描述,则可对第一项表级元数据的表评分和第二项表级元数据的表评分进行均值计算,从而得到该业务对象所包含的全部表级元数据的表综合评分,即得到该业务对象的元数据综合评分,如此则业务对象的元数据综合评分=(第一项表级元数据的表评分+第二项表级元数据的表评分)/2=(0.844+0.796)/2=0.82。
在得到业务对象的元数据综合评分后,可根据业务对象的元数据综合评分给该业务对象元数据进行评级,评级依据如图6所示的综合评分与级别对应关系,具体地:若业务对象的元数据综合评分位于[0.9,1]的数值范围内,则评级为优秀;若业务对象的元数据综合评分位于[0.8,0.9)的数值范围内,则评级为良好;若业务对象的元数据综合评分位于[0.6,0.8)的数值范围内,则评级为一般;若业务对象的元数据综合评分位于[0.4,0.6)的数值范围内,则评级为告警;若业务对象的元数据综合评分位于[0,0.4)的数值范围内,则评级为异常。如此则评级为优秀、良好或一般(即综合评分在0.6以上)的业务对象的元数据综合评分较高,意味着用于描述该业务对象的表级元数据及字段级元数据质量可靠,而本实施例中的业务对象的元数据综合评分为0.82,位于[0.8,0.9)的数值范围内,则本实施例中的业务对象的元数据评级为良好,意味着用于描述该业务对象的表级元数据及字段级元数据质量可靠,则该业务对象的数据检索和知识图谱加工结果也可靠。
本实施例中,先对每项字段级元数据进行评分,得到各项字段级元数据的字段评分,再对各项表级元数据所包含的全部字段级元数据的字段评分分别进行均值计算,得到各项表级元数据所包含的全部字段级元数据的字段综合评分,然后对每项表级元数据进行评分,在此过程中,以表级元数据所包含的全部字段级元数据的字段综合评分作为其中一项表二级评分指标的得分,再根据相应的指标权重对各项表二级评分指标的得分进行加权计算得到表级元数据的表评分,然后对全部表级元数据的表评分进行均值计算,得到业务对象的元数据综合评分,如此则最终得到的业务对象的元数据综合评分结合了全部表级元数据的表评分以及全部字段级元数据的字段评分,综合考虑了用于描述业务对象的表级元数据和字段级元数据之间的质量影响,如此则采用综合评分高(即综合评分在0.6以上,评级为优秀、良好或一般)的业务对象进行数据检索和知识图谱加工能提高可靠性。
如上所述仅为本发明创造的实施方式,不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换,仍落入专利保护范围。
Claims (10)
1.一种业务对象的元数据评分方法,其特征是,包括如下步骤:
A.获取用于对业务对象进行描述的至少一项表级元数据及各项表级元数据所包含的至少一项字段级元数据;
B.对每项字段级元数据进行评分,具体包括如下步骤B1~B4:
——B1.获取用于对本项字段级元数据进行评分的至少两项字段一级评分指标及每项字段一级评分指标所包含的至少一项字段二级评分指标;
——B2.获取用户对各项字段一级评分指标和各项字段二级评分指标分别赋予的权重;
——B3.获取各项字段二级评分指标的字段原始指标数据,分别对各项字段原始指标数据进行预处理计算得到各项字段二级评分指标的得分;
——B4.根据各项字段二级评分指标的权重和各项字段一级评分指标的权重,对各项字段二级评分指标的得分进行加权计算得到本项字段级元数据的字段评分;
C.对各项表级元数据所包含的全部字段级元数据的字段评分分别进行均值计算,得到各项表级元数据所包含的全部字段级元数据的字段综合评分;
D.对每项表级元数据进行评分,具体包括如下步骤D1~D4:
——D1.获取用于对本项表级元数据进行评分的至少两项表一级评分指标及每项表一级评分指标所包含的至少一项表二级评分指标,以本项表级元数据所包含的全部字段级元数据的字段综合评分作为其中一项表二级评分指标;
——D2.获取用户对各项表一级评分指标和各项表二级评分指标分别赋予的权重;
——D3.获取除字段综合评分之外的其他各项表二级评分指标的表原始指标数据,分别对各项表原始指标数据进行预处理计算得到其他各项表二级评分指标的得分;
——D4.根据各项表二级评分指标的权重和各项表一级评分指标的权重,对各项表二级评分指标的得分进行加权计算得到本项表级元数据的表评分;
E.对用于描述所述业务对象的全部表级元数据的表评分进行均值计算,得到所述业务对象的元数据综合评分。
2.根据权利要求1所述的业务对象的元数据评分方法,其特征是,所述步骤B1中,所述字段一级评分指标包括字段级完整性指标,所述字段级完整性指标所包含的字段二级评分指标包括字段级技术元数据完整性指标、字段级管理元数据完整性指标和字段级业务元数据完整性指标。
3.根据权利要求1所述的业务对象的元数据评分方法,其特征是,所述步骤B2中,同一项字段级元数据的全部字段一级评分指标的权重之和为100%,且同一项字段一级评分指标所包含的全部字段二级评分指标的权重之和为100%。
4.根据权利要求1所述的业务对象的元数据评分方法,其特征是,所述步骤B4中,先根据各项字段二级评分指标的权重,对各项字段二级评分指标的得分进行加权计算得到本项字段级元数据的各项字段一级评分指标的得分,再根据各项字段一级评分指标的权重,对各项字段一级评分指标的得分进行加权计算得到本项字段级元数据的字段评分。
5.根据权利要求1所述的业务对象的元数据评分方法,其特征是,所述步骤D1中,所述表一级评分指标包括表级完整性指标和字段指标,所述表级完整性指标所包含的表二级评分指标包括表级技术元数据完整性指标、表级管理元数据完整性指标和表级业务元数据完整性指标,以所述字段综合评分作为所述字段指标所包含的表二级评分指标。
6.根据权利要求1所述的业务对象的元数据评分方法,其特征是,所述步骤D2中,同一项表级元数据的全部表一级评分指标的权重之和为100%,且同一项表一级评分指标所包含的全部表二级评分指标的权重之和为100%。
7.根据权利要求1所述的业务对象的元数据评分方法,其特征是,所述步骤D4中,先根据各项表二级评分指标的权重,对各项表二级评分指标的得分进行加权计算得到本项表级元数据的各项表一级评分指标的得分,再根据各项表一级评分指标的权重,对各项表一级评分指标的得分进行加权计算得到本项表级元数据的表评分。
8.根据权利要求1所述的业务对象的元数据评分方法,其特征是,所述步骤E中,在得到所述业务对象的元数据综合评分之后,按照所述业务对象的元数据综合评分给所述业务对象进行评级。
9.计算机可读存储介质,其上存储有计算机程序,其特征是,所述计算机程序被处理器执行时实现如权利要求1至8所述的业务对象的元数据评分方法中的步骤。
10.一种业务对象的元数据评分系统,包括相互连接的计算机可读存储介质和处理器,其特征是,计算机可读存储介质如权利要求9所述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855264.XA CN115114273A (zh) | 2022-07-19 | 2022-07-19 | 一种业务对象的元数据评分方法、存储介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855264.XA CN115114273A (zh) | 2022-07-19 | 2022-07-19 | 一种业务对象的元数据评分方法、存储介质及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115114273A true CN115114273A (zh) | 2022-09-27 |
Family
ID=83334754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210855264.XA Pending CN115114273A (zh) | 2022-07-19 | 2022-07-19 | 一种业务对象的元数据评分方法、存储介质及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114273A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116257563A (zh) * | 2022-11-30 | 2023-06-13 | 荣耀终端有限公司 | 一种数据价值评估方法及电子设备 |
-
2022
- 2022-07-19 CN CN202210855264.XA patent/CN115114273A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116257563A (zh) * | 2022-11-30 | 2023-06-13 | 荣耀终端有限公司 | 一种数据价值评估方法及电子设备 |
CN116257563B (zh) * | 2022-11-30 | 2023-11-21 | 荣耀终端有限公司 | 一种数据价值评估方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107544253B (zh) | 基于改进模糊熵权法的大型导弹装备退役安全控制方法 | |
CN111737642A (zh) | 基于模糊网络分析法的海底管道失效风险综合评价方法 | |
KR101067846B1 (ko) | 특허 평가 시스템 및 그 방법, 이를 구현하기 위한 프로그램을 기록한 디지털 처리장치가 판독 가능한 기록매체 | |
CN111061775A (zh) | 一种标准数据影响关系评价模型 | |
CN113592359A (zh) | 电力变压器的健康度评价方法和装置 | |
CN111563682A (zh) | 一种配电自动化设备测试评价方法 | |
CN115114273A (zh) | 一种业务对象的元数据评分方法、存储介质及系统 | |
CN111415090A (zh) | 一种主配电网综合评价方法 | |
CN113850693A (zh) | 基于多源信息融合的配网停电风险综合评估与预警的方法 | |
CN111738601A (zh) | 一种基于熵权物元可拓模型的城市应急能力评估方法 | |
CN113626700A (zh) | 律师推荐方法和系统及设备 | |
CN113642914A (zh) | 粉末静电喷涂企业粉尘爆炸风险评估方法及系统 | |
WO2024093468A1 (zh) | 风偏闪络风险评价方法、系统、设备、可读存储介质 | |
CN113591947A (zh) | 基于用电行为的电力数据聚类方法、装置和存储介质 | |
CN112783884A (zh) | 一种基于正态分布的数据选优方法 | |
CN111105168A (zh) | 一种基于云物元理论的负荷模型拟合优度评价方法 | |
CN116405242A (zh) | 一种面向数据采集与监控系统的安全状态识别方法 | |
CN113327047B (zh) | 基于模糊综合模型的电力营销服务渠道决策方法及系统 | |
CN112686396B (zh) | 基于病害数量的路面养护性质的选取方法、介质及系统 | |
CN114493224A (zh) | 企业可持续发展程度评价方法和装置 | |
CN115146890A (zh) | 企业运营风险告警方法、装置、计算机设备和存储介质 | |
CN112486790A (zh) | 一种基于多维分层准则的软件可靠性验收风险评估方法 | |
CN110796564A (zh) | 电网企业综合计划分配测算的项目统计指标筛选方法 | |
CN111222891A (zh) | 一种产品认证方法及系统 | |
Liu et al. | Ranking DEA efficient units with the most compromising common weights |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |