CN117763061B - 数据仓库模型评估方法、装置及计算机设备 - Google Patents

数据仓库模型评估方法、装置及计算机设备 Download PDF

Info

Publication number
CN117763061B
CN117763061B CN202410076078.5A CN202410076078A CN117763061B CN 117763061 B CN117763061 B CN 117763061B CN 202410076078 A CN202410076078 A CN 202410076078A CN 117763061 B CN117763061 B CN 117763061B
Authority
CN
China
Prior art keywords
information
data
multiplexing
warehouse model
data warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410076078.5A
Other languages
English (en)
Other versions
CN117763061A (zh
Inventor
赵利民
封盛
王冬
董子铭
张文成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410076078.5A priority Critical patent/CN117763061B/zh
Publication of CN117763061A publication Critical patent/CN117763061A/zh
Application granted granted Critical
Publication of CN117763061B publication Critical patent/CN117763061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据仓库模型评估方法、装置及计算机设备,属于大数据领域。本申请可以首先获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得,然后确定数据仓库模型在执行任务过程的任务执行信息,最后基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。本申请可以对数据仓库模型进行全面评估,得到更加精准的评估结果。

Description

数据仓库模型评估方法、装置及计算机设备
技术领域
本申请涉及大数据领域,具体涉及一种数据仓库模型评估方法、装置及计算机设备。
背景技术
通过数据仓库模型对源数据执行任务,并将执行任务所得数据表存储在数据仓库,以供下游相关平台进一步使用这些数据表,该过程已成为业界常规的数据处理模式,然而对于数据仓库模型的评估仍停留在人的主观意识层面,这些评估多仅聚焦于数据仓库模型的某一方面,如仅基于数据表对数据仓库模型进行评估,导致评估结果较为片面和粗糙。
发明内容
本申请实施例提供一种数据仓库模型评估方法、装置及计算机设备,可以提升对数据仓库模型进行全面评估,得到更加精确的评估结果。
本申请实施例提供一种数据仓库模型评估方法,包括:
获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得;
确定数据仓库模型在执行任务过程的任务执行信息;执行效果信息,或者执行
基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
相应地,本申请实施例还提供了一种数据仓库模型评估装置,包括:
获取模块,用于获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得;
确定模块,用于确定数据仓库模型在执行任务过程的任务执行信息;
评估模块,用于基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
在本申请的一些实施例中,数据仓库模型评估装置还包括表格规范模块和资源消耗模块,其中,
表格规范模块,用于评估多个数据表的表格规范信息;
资源消耗模块,用于计算数据仓库模型的资源消耗信息;
此时评估模块具体用于:基于表格规范信息和资源消耗信息中的至少一个、表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
在本申请的一些实施例中,获取模块包括正向复用子模块、负向复用子模块和融合子模块,其中,
正向复用子模块,用于确定多个数据表的正向复用信息;
负向复用子模块,用于确定多个数据表的负向复用信息;
融合子模块,用于对正向复用信息和负向复用信息进行融合,得到多个数据表的表格使用信息。
在本申请的一些实施例中,正向复用子模块包括第一确定单元、第二确定单元、复用度计算单元和正向复用单元,其中,
第一确定单元,用于确定第一数量个数据表各自的复用次数信息;
第二确定单元,用于若数据表的复用次数信息与预设第一次数信息匹配,确定数据表为正向复用数据表,以得到第二数量个正向复用数据表,第二数量小于或等于第一数量;
复用度计算单元,用于基于第一数量和第二数量,计算得到多个数据表的第一正向复用度;
正向复用单元,用于基于第一正向复用度,确定多个数据表的正向复用信息。
在本申请的一些实施例中,正向复用单元包括获取子单元、确定子单元、复用度子单元以及正向复用子单元,其中,
获取子单元,用于获取第二数量个正向复用数据表各自的复用对象信息;
确定子单元,用于若正向复用数据表的复用对象信息与预设第一对象信息匹配,确定正向复用数据表为目标复用数据表,以得到第三数量个目标复用数据表;
复用度子单元,用于基于第二数量和第三数量,计算得到第二正向复用度;
正向复用子单元,用于基于第一正向复用度和第二正向复用度,确定多个数据表的正向复用信息。
在本申请的一些实施例中,负向复用子模块包括确定单元、计算单元和负向复用单元,其中,
确定单元,用于若数据表的复用次数信息与预设第二次数信息匹配、数据表所属的数据层信息与预设数据层信息匹配、且数据表的复用对象信息与预设第二对象信息匹配,确定数据表为负向复用数据表,以得到第四数量个负向复用数据表,第四数量小于或等于第一数量;
计算单元,用于基于第一数量和第四数量,计算得到第一负向复用度;
负向复用单元,用于基于第一负向复用度,确定多个数据表的负向复用信息。
在本申请的一些实施例中,负向复用单元包括无复用子单元、周期子单元、复用度子单元和融合子单元,其中,
无复用子单元,用于若数据表的复用次数信息与预设第二次数信息不匹配,确定数据表为无复用数据表,以得到第五数量个无复用数据表;
周期子单元,用于获取每个数据表的生命周期信息;
复用度子单元,用于基于第五数量个无复用数据表、以及每个数据表的生命周期信息,确定多个数据表的第二负向复用度;
融合子单元,用于对第一负向复用度和第二负向复用度进行融合,得到多个数据表的负向复用信息。
在本申请的一些实施例中,第二负向复用度包括表格存储分值,复用度子单元具体用于:
获取无复用数据表对应的无复用分值信息,并确定每个生命周期信息对应的周期分值信息;
确定多个数据表的初始存储分值;
基于第五数量、无复用分值信息以及每个周期分值信息,对初始存储分值进行更新,得到表格存储分值。
在本申请的一些实施例中,确定模块包括计算子模块和确定子模块,其中,
计算子模块,用于计算数据仓库模型执行的多个任务的任务完成及时度;
确定子模块,用于基于任务完成及时度,确定数据仓库模型在执行任务过程的任务执行信息。
在本申请的一些实施例中,计算子模块包括获取单元、确定单元和计算单元,其中,
获取单元,用于获取数据仓库模型执行的第六数量个任务各自的结束时间信息;
确定单元,用于若任务的结束时间信息与预设时间信息匹配,确定任务为及时完成任务,以得到第七数量个及时完成任务,第七数量小于或等于第六数量;
计算单元,用于基于第六数量和第七数量,计算数据仓库模型的任务完成及时度。
在本申请的一些实施例中,确定子模块包括获取单元、计算单元和融合单元,其中,
获取单元,用于获取计算机设备本地在数据仓库模型执行任务过程的队列利用率;
计算单元,用于基于队列利用率和预设队列利用率,计算数据仓库模型在执行任务过程的队列利用信息;
融合单元,用于对任务完成及时度和队列利用信息进行融合,得到数据仓库模型在执行任务过程的任务执行信息。
在本申请的一些实施例中,表格规范模块包括确定子模块和评估子模块,其中,
确定子模块,用于确定每个数据表的表分层信息、表后缀信息以及注释信息;
评估子模块,用于基于表分层信息、表后缀信息和注释信息,对多个数据表进行评估,得到表格规范信息。
在本申请的一些实施例中,表格规范信息包括表格规范分值,评估子模块包括获取单元、确定单元和更新单元,其中,
获取单元,用于获取多个数据表的初始规范分值;
确定单元,用于确定表分层信息、表后缀信息以及注释信息各自对应的分层分值信息、后缀分值信息和注释分值信息;
更新单元,用于基于分层分值信息、后缀分值信息和注释分值信息,对初始规范分值更新,得到表格规范分值。
在本申请的一些实施例中,资源消耗信息包括人力资源消耗信息,资源消耗模块包括获取子模块、确定子模块和融合子模块,其中,
获取子模块,用于获取数据仓库模型的第八数量个人力消耗信息,人力消耗信息表征数据仓库模型在单位时间内消耗的人力数量信息;
确定子模块,用于若人力消耗信息与预设消耗信息匹配,确定人力消耗信息为选中人力消耗信息,以得到第九数量个选中人力消耗信息,第九数量小于或等于第八数量;
融合子模块,用于对第八数量和第九数量进行融合,得到数据仓库模型的人力资源消耗信息。
在本申请的一些实施例中,评估模块包括获取子模块和融合子模块,其中,
获取子模块,用于分别获取针对表格规范信息的第一权重值、针对资源消耗信息的第二权重值、针对表格使用信息的第三权重值以及针对任务执行信息的第四权重值;
融合子模块,用于基于第一权重值、第二权重值、第三权重值以及第四权重值,对表格规范信息、资源消耗信息、表格使用信息和任务执行信息进行融合,得到数据仓库模型的评估结果。
相应地,本申请实施例还提供一种计算机设备,包括处理器和存储器,存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以实现本申请实施例提供的数据仓库模型评估方法中的步骤。
相应地,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行以实现本申请实施例提供的数据仓库模型评估方法中的步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行以实现本申请实施例提供的数据仓库模型评估方法中的步骤。
本申请实施例可以首先获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得,然后确定数据仓库模型在执行任务过程的任务执行信息,最后基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果,该评估结果综合数据仓库模型在执行任务过程的任务执行信息、以及任务执行所得多个数据表的表格使用信息,因此具有较高的精确度和较好的全面性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据仓库模型评估方法的场景示意图;
图2是本申请实施例提供的数据仓库模型评估方法的流程示意图;
图3是本申请实施例提供的数据仓库模型评估方法的另一流程示意图;
图4是本申请实施例提供的数据仓库模型评估方法的应用示意图;
图5是本申请实施例提供的数据仓库模型评估装置的结构示意图;
图6是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应”于以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,在本申请的若干实施例中,涉及到用户信息(如源数据等)等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例了提供一种数据仓库模型评估方法、装置及计算机设备,数据仓库模型评估装置可以集成在数据仓库模型评估系统中,数据仓库模型评估系统可以集成在至少一个计算机设备上,该计算机设备可以包括终端、服务器在内的至少一种。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中,数据仓库模型可以集成在数据仓库系统,数据仓库系统可以设置于计算机设备,数据仓库系统和数据仓库模型评估系统可以属于同一系统,也可以为各自独立的系统。若数据仓库系统和数据仓库模型评估系统各自独立,二者可以集成在同一计算机设备,也可以集成在不同的计算机设备。若数据仓库系统和数据仓库模型评估系统分别集成于不同的计算机设备,二者可以进行通信连接并传输数据。以上各种情况均可以根据实际应用场景灵活处理,本申请对此不做限制。
本申请实施例中,数据仓库模型可以对源数据执行不同的任务,得到多个数据表,计算机设备可以确定数据仓库模型在执行任务过程的任务执行信息,并获取多个数据表的表格使用信息,然后基于表格使用信息和任务执行信息对数据仓库模型进行评估,得到评估结果。
比如,参见图1,数据仓库模型对不同的源数据执行不同的任务,得到多个数据表,多个数据表存储在数据仓库中,以供下游对象复用,计算机设备可以根据数据表的复用次数信息和复用对象信息等,确定多个数据表对应的表格使用分(即表格使用信息),计算机设备还可以根据数据仓库模型执行的多个任务的任务完成及时度、以及本地在执行多个任务过程的队列利用率,确定数据仓库模型在执行任务过程的任务执行分(即任务执行信息),计算机设备可以对任务执行分和表格使用分进行加权求和,得到数据仓库模型的成熟分(即评估结果)。
图1为本申请的数据仓库模型评估系统的应用场景的一个示例,主要用于介绍而非本申请的数据仓库模型评估系统,在实际应用本申请实施例所描述的技术方案的过程中,可以对数据仓库模型评估系统所包含的计算机设备、以及各个计算机设备所执行的步骤进行灵活调整,并不局限于图1中描述的内容。
下面将结合实施例对本申请的数据仓库模型评估方法进行进一步介绍。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
图2示出了本申请的数据仓库模型评估方法的一个流程示意图,如图2,数据仓库模型评估方法可以包括:
110、获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得。
其中,数据仓库模型可以集成在数据仓库系统,数据仓库系统可以通过数据仓库模型对源数据进行处理,比如,数据仓库模型可以对不同的源数据分别执行任务,从而对源数据进行抽取、转换以及加载等,得到不同的数据表。针对不同源数据执行的任务可以相同或不同,具体可以根据实际情况灵活处理。
本申请实施例中的源数据可以理解为未通过数据仓库模型处理的数据,源数据可以如数据库等数据集合中存储的数据。比如,业务系统实时获取并保存在业务数据库中的业务数据可以属于源数据的一种。
其中,数据表可以包括数据仓库模型对源数据执行任务所得的数据表,多个数据表可以存储在数据仓库系统,以供下游对象复用,此处的下游对象可以理解为其他系统,也可以理解为数据仓库系统本身,比如,下游对象可以为看板系统、数据分析系统、数据可视化系统等,下游对象可以引用数据表,对其进一步分析处理,或将其转换为可视化图表等。又比如,下游对象可以为数据仓库系统本身,此种情况下,数据仓库模型可以对至少一个数据表执行任务,得到新的数据表。
其中,表格使用信息可以表征数据仓库系统中多个数据表的整体使用情况,数据仓库系统中的一部分数据表被使用的越多,表明该数据仓库模型的性能越好,数据仓库系统中的另一部分数据表被其他系统使用的越少,也可以表明该数据仓库模型的性能越好。具体地,数据仓库系统中的部分数据表与源数据的相似度较高,可能包含若干敏感数据,比如属于贴源数据层的数据表,这些数据表被其他系统使用的越少,即表明数据仓库模型的整体设置更满足开发人员期望,性能越好。
具体地,获取多个数据表的表格使用信息的方式可以有多种,比如,表格使用信息可以包括表格使用平均分,可以首先确定每个数据表的表格使用分,再对所有数据表的表格使用分求平均,得到表格使用平均分。一个数据表的表格使用分的确定过程可以包括:为数据表设置初始分值,根据该数据表的复用次数、复用对象等,对初始分值进行更新,得到表格使用分。
在本申请的一些实施例中,还可以将多个数据表作为一个整体进行评估,确定多个数据表的正向复用信息和负向复用信息,再将正向复用信息和负向复用信息融合,得到表格使用信息。
其中,正向复用信息可以包括表征数据仓库模型性能较好的复用信息,负向复用信息可以包括表征数据仓库模型性能较差的复用信息。
具体地,对正向复用信息和负向复用信息进行融合的方式可以有多种,如可以求解正向复用信息和负向复用信息之间的差值,又或者可以将正向复用信息作为一个加分因素,将负向复用信息作为一个扣分信息,对表格使用信息对应的初始分值进行更新,得到表格使用信息对应的目标分值。
在本申请的一些实施例中,数据表的数量可以为第一数量,可以获取每个数据表的复用次数信息,复用次数信息可以表征该数据表被其他系统或数据仓库系统引用的次数,然后判断数据表的复用次数信息与预设第一次数信息是否匹配,若匹配确定该数据表为正向复用数据表,对每个数据表执行上述操作,从而从第一数量个数据表中确定出第二数量个正向复用数据表。最后根据第一数量和第二数量,计算多个数据表的第一正向复用度。
此处的第一数量和第二数量均为正整数,且第二数量小于或等于第一数量。此处预设第一次数信息可以为任意大于0的正整数,比如,2、3、5、10、20等等,具体可以根据实际需求灵活设置,本申请对此不做限制。此处的匹配可以包括多种情况,比如大于、大于或等于、二者之间的差值小于预设阈值、等于、小于、属于某数值区间等等,具体可以在应用场景中灵活调整,本申请不做过多限制。
比如,获取M个数据表各自的复用次数,若数据表的复用次数大于或等于3,确定该数据表为正向复用数据表,最终得到N个正向复用数据表,其中,M和N均为正整数,且M大于N。
根据第一数量和第二数量计算第一正向复用度的方式也可以有多种,比如,可以求解第二数量和第一数量的商,得到处于0-1的数值,该数值可以作为第一正向复用度,又比如,也可以对该数值进一步调整,如放大10倍、放大100倍等,并将得到的数值作为第一正向复用度。
比如,求解第一正向复用度=(N/M)*100。此处可以理解为,若数据表的复用次数大于3,则确定该正向复用数据表被下游对象较好使用,所有数据表中正向复用数据表的占比越高,则认为数据仓库模型的性能越好。
在得到第一正向复用度后,可以直接确定第一正向复用度为多个数据表的正向复用信息。
在本申请的一些实施例中,还可以计算第二正向复用度,并将第一正向复用度和第二正向复用度进行融合,得到正向复用信息。
计算第二正向复用度的过程可以包括:获取第二数量个正向复用数据表各自的复用对象信息,复用对象信息可以包括复用该数据表的下游对象的信息,下游对象如其他系统或数据仓库系统本身,判断正向复用数据表的复用对象信息与预设第一对象信息是否匹配,若匹配则确定该正向复用数据表为目标复用数据表,对所有正向复用数据表执行上述操作,得到第三数量个目标复用数据表,最后可以基于第二数量和第三数量,计算第二正向复用度。
此处的第三数量为正整数,且第三数量小于或等于第二数量。此处的预设第一对象信息可以包括至少一个预先确定的复用对象的信息。此处的匹配可以包括多种情况,比如二者相同、前者属于后者,具体可以在应用场景中灵活调整,本申请不做过多限制。
比如,获取N个正向复用数据表各自的复用对象信息,若正向复用数据表的复用对象信息与预设第一对象信息相同,确定该正向复用数据表为目标复用数据表,最终得到Q个目标复用数据表,其中,Q为正整数,且Q小于N。预设第一对象信息为属于其他系统的下游对象。
根据第三数量和第二数量计算第二正向复用度的方式也可以有多种,比如,可以求解第三数量和第二数量的商,得到处于0-1的数值,该数值可以作为第二正向复用度,又比如,也可以对该数值进一步调整,如放大10倍、放大100倍等,并将得到的数值作为第二正向复用度。
比如,求解第二正向复用度=(Q/N)*100。此处可以理解为,若正向复用数据表的下游对象为其他系统,也即非数据仓库系统工作人员主动使用了该数据表,认为该数据表的价值更高,所有正向复用数据表中目标复用数据表的占比越高,则认为该数据仓库模型的性能更好。
本申请在得到第一正向复用度和第二正向复用度后,可以对二者进行融合,具体可以有多种融合方式,比如对二者求平均、求和、加权求和等,若加权求和,可以预先分别设置第一正向复用度的预设正向权重值1和第二正向复用度的预设正向权重值2,预设正向权重值1和预设正向权重值2的和值为1。
在本申请的一些实施例中,还可以判断数据表的复用次数信息与预设第二次数信息是否匹配,同时判断此数据表所属的数据层信息与预设数据层信息是否匹配,同时判断此数据表的复用对象信息是否与预设第二对象信息匹配,若三个匹配判断均满足,确定该数据表为负向复用数据表,对所有数据表均进行上述匹配判断,从第一数量个数据表中确定出第四数量个负向复用数据表,然后再根据第一数量和第四数量计算第一负向复用度。
此处的第四数量为正整数,且第四数量小于或等于第一数量。此处预设第二次数信息可以为任意非负整数,比如,0、1、2、3、4等等,具体可以根据实际需求灵活设置,本申请对此不做限制。预设数据层信息可以预先设置,数据仓库中数据表所属的数据层可以包括贴源数据层、日志明细层、汇总数据层、数据应用层、维度数据层等,预设数据层信息可以包括此处列出的数据层中的至少一个,具体可以根据实际需求灵活确定。此处的预设第二对象信息可以包括至少一个预先确定的复用对象的信息。此处的匹配可以包括多种情况,比如大于、大于或等于、二者之间的差值小于预设阈值、小于、二者相同、前者属于后者等等,具体可以在应用场景中灵活调整,本申请不做过多限制。
比如,若数据表的复用次数大于或等于1、该数据表所属的数据层信息与预设数据层信息相同(均为贴源数据层)、且该数据表的复用对象信息:看板系统属于预设第二对象信息:数据仓库系统以外的其他系统,确定该数据表负向复用数据表,最终得到P个负向复用数据表,其中,P为正整数,且M大于P。
根据第一数量和第四数量计算第一负向复用度的方式也可以有多种,比如,可以求解第四数量和第一数量的商,得到处于0-1的数值,该数值可以作为第一负向复用度,又比如,也可以对该数值进一步调整,如放大10倍、放大100倍等,并将得到的数值作为第一负向复用度。
比如,求解第一负向复用度=(P/M)*100。此处可以理解为,若数据表被数据仓库平台以外的其他系统复用,但是该数据表属于贴源数据层(即该数据表为不宜对外的数据表),认为此处的复用体现了数据仓库模型的不足,因此,若所有数据表中负向复用数据表的占比越高,认为数据仓库模型的不足越显著。
在得到第一负向复用度后,可以直接确定第一负向复用度为多个数据表的负向复用信息。
在本申请的一些实施例中,还可以计算第二负向复用度,并将第一负向复用度和第二负向复用度进行融合,得到负向复用信息。具体地,融合的方式可以有多种,比如对二者求平均、求和、加权求和等,若加权求和,可以预先分别设置第一负向复用度的预设负向权重值1和第二负向复用度的预设负向权重值2,预设负向权重值1和预设负向权重值2的和值为1。
第二负向复用度可以包括表格存储分值,计算表格存储分值的过程可以包括:可以判断数据表的复用次数信息与预设第二次数信息是否匹配,若不匹配确定该数据表为无复用数据表,对所有数据表进行上述判断,最终得到第五数量个无复用数据表。若数据仓库系统中存储的数据表未被复用,可以认为在数据仓库模型生成该数据表方面表现不佳。
然后可以获取每个数据表的生命周期信息,生命周期信息可以表征数据表在数据仓库系统中的存在时段。若存在时间段为默认值,表明数据仓库系统未为该数据表配置存在时段。然而为了数据仓库系统、数据仓库模型以更加高效、节能的方式运行,理论上需要结合数据表的特点确定数据表的存在时段,因此若数据表的生命周期信息表征其未被设置存在时段、或存在时段的设置明显不合理(如过长),可认为数据仓库模型在此部分的表现较差。
本申请可以获取预设分值表,预设分值表中包括多个信息、以及每个信息对应的分值,比如,预设分值表包括无复用数据表对应的无复用分值信息,生命周期信息对应的多个分值信息,如生命周期信息表征数据表未被设置存在时长的情况下,对应的分值信息1,生命周期信息表征数据表设置的存在时长不合理的情况下,对应的分值信息2,生命周期信息表征数据表设置的存在时长合理的情况下,对应的分值信息3,等等。
计算机设备可以从预设分值表中,确定无复用数据表对应的无复用分值信息,确定每个数据表的生命周期信息各自对应的周期分值信息,再基于第五数量、无复用分值信息、多个周期分值信息对多个数据表的初始存储分值进行调整,得到表格存储分值(即第二负向复用度)。具体地,可以通过扣分或加分的方式对初始存储分值进行调整,比如,初始存储分值设置为满分,表格存储分值=初始存储分值-第五数量*无复用分值信息-周期分值信息1-……周期分值信息S(假设有S个周期分值信息)。
比如,分别确定M个数据表是否设置有生命周期,若数据表设置有生命周期,确定该数据表的生命周期设置是否合理,若一数据表未设置生命周期,从预设分值表查询此种情况对应的无生命周期扣分1;若一数据表设置的生命周期不合理(如时长超过预设时长阈值),从预设分值表查询此种情况对应的周期不合理扣分2,最终得到H个无生命周期扣分1和G个周期不合理扣分2,还可以在数据表的复用次数信息为0时,确定该数据表为无复用数据表,最终从M个数据表中确定K个无复用数据表,从预设分值表中查询无复用数据表对应的无复用扣分3,获取M个数据表的初始存储分值100,计算得到表格存储分值=100-M*无复用扣分3- H*无生命周期扣分1-G*周期不合理扣分2。
120、确定数据仓库模型在执行任务过程的任务执行信息。
其中,任务执行信息可以表征数据仓库模型所执行的任务的完成情况、数据仓库模型在执行任务过程所消耗的计算机设备资源的情况等等。
在本申请的一些实施例中,任务执行信息可以包括任务完成及时度,数据仓库模型在一段时间内可以执行多个任务,任务是否及时完成可以作为判断数据仓库模型性能的一个重要因素。
具体地,数据仓库模型执行的任务数量为第六数量,可以获取这第六数量个任务各自的结束时间信息,若一任务的结束时间信息与预设时间信息匹配,确定该任务为及时完成任务,对所有任务的结束时间信息进行判断,最终从第六数量个任务中确定出第七数量个及时完成任务,最后根据第六数量和第七数量,计算数据仓库模型的任务完成及时度。
此处的第六数量和第七数量均为正整数,且第七数量小于或等于第六数量。此处预设时间信息可以为一时间点或以时间段,比如,当前时间点、时间点1、时间段1等等,具体可以根据实际需求灵活设置,本申请对此不做限制。此处的匹配可以包括多种情况,比如大于、等于、二者之间的差值小于预设阈值、小于、前者属于后者、后者属于前者等等,具体可以在应用场景中灵活调整,本申请不做过多限制。
比如,获数据仓库模型执行的T个任务各自的结束时间,分别判断各个任务的结束时间是否属于预设时间段1,若属于确定任务为及时完成任务,最终从T个任务重确定出R个及时完成任务。
根据第六数量和第七数量计算任务完成及时度的方式也可以有多种,比如,可以求解第七数量和第六数量的商,得到处于0-1的数值,该数值可以作为任务完成及时度,又比如,也可以对该数值进一步调整,如放大10倍、放大100倍等,并将得到的数值作为任务完成及时度。比如,计算任务完成及时度=(R/T)*100。
在本申请的一些实施例中,任务执行信息还可以包括数据仓库模型在执行任务过程的队列利用信息,队列利用信息可以表征数据仓库模型在执行任务时计算机设备本地的队列运行情况。
具体地,可以获取计算机设备本地在数据仓库模型执行任务过程的队列利用率,再根据该队列利用率和预设队列利用率,计算数据仓库模型在任务执行过程的队列利用信息。通常来说,计算机设备的队列利用率保持在预设队列利用率附近,计算机设备可以保持较高的处理性能和处理效率,因此,本申请可以首先计算队列利用率和预设队列利用率的差值的绝对值,该差值的绝对值越小,表明数据仓库模型的性能越好,再对1和该差值的绝对值作差,得到处于0-1的数值,该数值可以作为队列利用信息,也可以对该数值进一步调整,如放大10倍、放大100倍等,并将得到的数值作为队列利用信息。
比如,获取数据仓库模型在执行任务过程的队列利用率1,计算队列利用信息=(1-ABS(0.75-队列利用率1))*100。
在本申请的一些实施例中,任务执行信息可以包括任务完成及时度和队列利用信息,具体地,可以将任务完成及时度和队列利用信息融合,得到任务执行信息,融合的方式可以有多种,如求和、求平均、加权求和等,若加权求和,可以预先分别设置任务完成及时度的预设及时度权重值1和队列利用信息的预设队列权重值2,预设及时度权重值1和预设队列权重值2的和值为1。
需要说明的是,任务完成及时度作为表征数据仓库模型所执行的任务的完成情况的一个因素,队列利用信息作为表征数据仓库模型在执行任务过程所消耗的计算机设备资源的情况的一个因素,本申请仅将这两个概念作为一种示例进行详细说明,可以反映数据仓库模型所执行的任务的完成情况的其他因素,可以反映数据仓库模型在执行任务过程所消耗的计算机设备资源的情况的其他因素也属于本申请的任务执行信息的部分或全部,具体地可以在实际应用场景中灵活确定,对此不做限制。
130、基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
比如,可以对表格使用信息和任务执行信息进行求和、求平均、加权求和等,并将最终所得数值作为数据仓库模型的评估结果。由此本申请实施例可以综合考虑数据仓库模型在执行任务过程的表现、以及经数据仓库模型执行任务所得的数据表的表现,更加综合全面地对数据仓库模型进行评估,得到更加精确的评估结果。
在本申请的一些实施例中,还可以评估多个数据表的表格规范信息,并基于表格规范信息、表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
其中,表格规范信息可以表征数据表的规范程度,为了便于统一管理和后续使用,数据仓库系统中的数据表应该较为规范的表分层信息、表后缀信息和注释信息,因此,可以根据数据表是否具有表分层信息、表后缀信息以及注释信息,确定数据表的表格规范信息。表格规范信息可以包括表格规范分值,也可以包括表格规范度等等。
具体地,可以首先确定各个数据表的表分层信息、表后缀信息和注释信息,从中确定出数量1个不规范的表分层信息、数量2个不规范的表后缀信息以及数量3个不规范的注释信息。
然后从预设分值表中,确定表分层信息不规范的情况对应的分层分值信息、表后缀信息不规范的情况对应的后缀分值信息,注释信息不规范的情况喜对应的注释分值信息,此处的不规范可以包括不存在、或不符合预设要求等,预设要求可以根据实际情况灵活设置。
再通过扣分或加分的方式对多个数据表的初始规范分值进行调整,比如,初始规范分值设置为满分,表格规范分值=初始存储分值-数量1*分层分值信息-数量2*后缀分值信息-数量3*注释分值信息。
比如,分别确定L个数据表各自的表分层信息、表后缀信息和注释信息,若一数据表存在未设置表分层、表分层设置不规范、表分层设置错误等情况,可以确定该数据表对应的分层分值信息;若一数据表存在未设置表后缀、表后缀设置不规范、或表后缀设置错误等情况,可以确定该数据表对应的后缀分值信息;若一数据表存在注释信息缺失、注释信息不规范、注释信息错误等情况,可以确定该数据表对应的注释分值信息,最终得到数量1个分层分值信息,数量2个后缀分值信息和数量3个注释分值信息,并计算:初始存储分值-数量1*分层分值信息-数量2*后缀分值信息-数量3*注释分值信息,得到表格规范分值。
最后对表格规范信息、表格使用信息和任务执行信息进行求和、求平均、加权求和等,并将最终所得数值作为数据仓库模型的评估结果。
在本申请的一些实施例中,也可以计算数据仓库模型的资源消耗信息,并基于资源消耗信息、表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
其中,资源消耗信息可以表征数据仓库模型所消耗的资源的相关信息,资源可以包括计算机设备资源、开发和使用数据仓库系统的人力资源等。
比如,资源消耗信息可以包括人力资源消耗信息,确定人力资源消耗信息的过程可以包括:可以首先数据仓库模型的第八数量个人力消耗信息,人力消耗信息可以表征数据仓库模型在单位时间内消耗的人力数量,单位时间可以如日,比如,人力消耗信息可以包括近x天内数据仓库系统每天所需的开发人员数量。
然后可以判断人力消耗信息是否与预设消耗信息匹配,若匹配确定该人力消耗信息为选中人力消耗信息,最终得到第九数量个选中人力消耗信息,再对第八数量和第九数量融合,得到数据仓库模型的人力资源消耗信息。
此处的第八数量和第九数量均为正整数,第九数量小于或等于第八数量。预设消耗信息可以包括预先设置的人力消耗数量,比如,一天2个开发人员(2人/天),此处的匹配可以包括相等、大于、差值小于预设阈值等等,具体可以在实际应用场景灵活配置。
比如,可以获取数据仓库模型的V个单日人力消耗量,若单日人力消耗量小于2人/天,确定该单日人力消耗量为选中人力消耗量,最终得到X个选中人力消耗量。
根据第八数量和第九数量计算人力资源消耗信息的方式也可以有多种,比如,可以求解第九数量和第八数量的商,得到处于0-1的数值,该数值可以作为人力资源消耗信息,又比如,也可以对该数值进一步调整,如放大10倍、放大100倍等,并将得到的数值作为人力资源消耗信息。
比如,计算人力资源消耗信息=(X/V)*100。此处的2人/天可以为数据仓库模型常规所需的开发人员数量需求,若所有单日人力消耗量中选中人力消耗量的占比越大,也即实际需要2人/日的占比越少,数据仓库模型越易用和易维护。也即人力资源消耗信息越大,表征数据仓库性能越好。
最后对资源消耗信息、表格使用信息和任务执行信息进行求和、求平均、加权求和等,并将最终所得数值作为数据仓库模型的评估结果。
在本申请的一些实施例中,还可以基于资源消耗信息、表格规范信息、表格使用信息以及任务执行信息,对数据仓库模型进行评估,得到评估结果。
具体地,可以对资源消耗信息、表格规范信息、表格使用信息以及任务执行信息求和、求平均、加权求和等。
具体地,可以分别获取针对表格规范信息的第一权重值、针对资源消耗信息的第二权重值、针对表格使用信息的第三权重值以及针对任务执行信息的第四权重值,基于第一权重值、第二权重值、第三权重值以及第四权重值,对表格规范信息、资源消耗信息、表格使用信息和任务执行信息进行融合,得到数据仓库模型的评估结果。
第一权重值、第二权重值、第三权重值以及第四权重值的和值为1,具体的数值均可以根据实际需求灵活设置,本申请不做过多限制。
本申请实施例可以首先获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得,然后确定数据仓库模型在执行任务过程的任务执行信息,最后基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果,该评估结果综合数据仓库模型在执行任务过程的任务执行信息、以及任务执行所得多个数据表的表格使用信息,因此具有较高的精确度和较好的全面性。
下面将结合实施例,对本申请的数据仓库模型评估方法进行进一步介绍,数据仓库模型可以处于在线状态或离线状态,数据仓库模型评估方法可以集成在计算机设备,计算机设备可以如服务器。
具体地,图3出了本申请的数据仓库模型评估方法的一个流程示意图,如图3所示,数据仓库模型评估方法可以包括:
210、计算机设备获取多个数据表各自的复用次数信息和数据层信息,多个数据表均为数据仓库模型对源数据执行任务所得。
220、计算机设备基于复用次数信息和数据层信息,确定数据仓库模型的复用分。
在本申请实施例中,数据表具体可以如hive表(一种数据表)数据表的复用次数信息可以包括复用次数,复用次数可以包括0、或大于0的任意整数,若一数据表的复用次数大于或等于第一预设次数值,该数据表被较好使用,可确定生成该数据表的数据仓库模型表现较好,此处的第一预设次数值可以为任意大于0的正整数,具体可以根据实际应用场景灵活配置,如可以为3、4、8、10等。
因此,可以将每个数据表的复用次数信息与第一预设次数信息进行比较,若一数据表的复用次数信息与第一预设次数信息匹配,如复用次数大于第一预设次数值3,确定该数据表为正向复用数据表,进而得到若干个正向复用数据表。对正向复用数据表的数据和数据表的数量求商,得到正向复用率,再将正向复用率与100相乘,得到正向复用分。
为了更好地对数据表进行管理,开发人员可以根据数据表的抽象程度,确定数据表对应的数据层,数据层信息可以包括数据表所属的数据层,数据层可以包括贴源数据层(Operational Data Store,ODS),属于ODS的数据表抽象程度低,可能包括敏感数据,因此通常不被其他系统复用,本申请实施例可以将同时满足:复用次数大于0、属于ODS层且被其他系统复用的数据表确定为负向复用表,负向复用表可以表明该数据仓库系统的性能不佳,将所有负向复用表的数量和数据表的数量求商,得到负向复用率,再将负向复用率和100想乘,得到负向复用分。
再分别确定正向复用分的权重1和负向复用分的权重2,计算复用分=正向复用分*权重1-负向复用分*权重2,此处权重1和权重2的和值为1。
230、计算机设备获取数据仓库模型执行的多个任务各自的结束时间信息,并基于结束时间信息和预设时间信息,确定数据仓库模型的任务及时分。
此处的任务可以包括数据仓库系统的任何一类任务,也可以仅包括核心任务,具体可以在实际应用场景灵活选择,在此不做限制。
可以判断任务的结束时间信息是否与预设时间信息相同,若相同则确定该任务及时完成,属于及时完成任务,对所有任务的结束时间信息均进行判断,最终得到多个及时完成任务,将及时完成任务的数量和任务的数量求商,得到任务及时率,再将任务及时率与100相乘,得到任务分。
240、计算机设备获取本地在数据仓库模型执行过程中的队列利用率、以及各个数据表的生命周期信息,并基于队列利用率和生命周期信息,确定数据仓库模型的成本分。
通常计算机设备的队列利用率保持在0.75为一个较好的数值,预先确定0.75为预设队列利用率,获取数据仓库模型在执行任务过程计算机设备本地的队列利用率1,并计算队列利用分A=(1-ABS(0.75-队列利用率1)*100。
还可以确定多个数据表的初始存储分值100,并根据多个数据表中存在的无生命周期、生命周期不合理、最近若干天无复用等情况,确定多个数据表的扣分分值,进而对初始存储分值进行扣分,得到存储分B。
成本分可以包括对队列利用分A和存储分B加权求和得到。
250、计算机设备确定各个数据表的表分层信息、表后缀信息以及注释信息,并基于表分层信息、表后缀信息和注释信息,确定数据仓库模型的规范分。
计算机设备确定多个数据表的初始规范分值100,并根据多个数据表中存在的表分层缺陷、表后缀缺陷、注释缺陷等,确定多个数据表的扣分分值,进而对初始规范分值进行扣分,得到数据仓库模型的规范分。
260、计算机设备获取数据仓库模型的多个人力资源消耗值、以及多个数据表各自的复用对象信息,并基于多个人力资源消耗值和多个复用对象信息,确定数据仓库模型的易用分。
通常来说,若被复用的数据表中,复用对象为其他系统的占比越高,表明该数据系统更多地被非数据仓库系统的开发人员使用,表明这些数据表的易用度更高,因此,可以从被复用的数据表中,确定复用对象为其他系统的目标复用数据表,并计算目标复用数据表的数量与被复用的数据表的数量的商值,再对将该商值与100相乘,得到数值1。
针对数据仓库系统以及数据仓库模型的日常工作,需要一定数量的开发人员处理,比如,日常一天需要5名开发人员(开发人日),即5人/日,可以获取数据仓库模型的多个实际开发人日,当实际开发人日大于或等于5人/日时,可以确定该该实际开发人日为选中开发人日,对选中开发人日的数量和开发人日的数量求商,得到数值2,再将数值2与100相乘,得到数值3。数值3越大,说明数据仓库系统所需的人力越多,整体上仍需要优化。
最后计算易用分=数值1*权重1-数值3*权重2,权重1和权重的和值为1,具体的数值可以根据实际需求灵活确定。
270、计算机设备基于复用分对应的预设第一权重、任务及时分对应的预设第二权重、成本分对应的预设第三权重、规范分对应的预设第四权重以及易用分对应的预设第五权重,对复用分、任务及时分、成本分、规范分和易用分进行融合,得到数据仓库模型的成熟分。
成熟分=复用分 * 权重W1 + 任务分 * 权重W2 + 成本分 * 权重W3 + 规范分 *权重W4 + 易用分 * 权重W5。
其中,权重W1 + 权重W2 + 权重W3 + 权重W4 + 权重W5 =1,具体可以根据需求灵活配置,比如,权重W1-W5可以分别为0.25、0.25、0.2、0.2、0.1。
本申请实施例中,还可以通过上述过程中得到的关于各个数据表的信息,列出各个数据表在不同方面的排行榜,比如高复用排行榜,高正向复用排行榜、无复用排行榜、冷数据排行黑榜、长尾任务排行黑榜、ODS外部暴露排行黑榜、高耗时排行黑榜,等等。还比如参见图4,基于成本分可以得到大表排行榜、基于规范分可以得到规范分排行榜、0注释表排行榜、基于易用分可以得到最受欢迎数据表排行榜、基于复用分可以得到坑数据排行榜以及ODS外部暴露排行黑榜、基于任务分可以得到ETL任务高耗时排行榜以及近n天超时率排行榜,等等。
本申请可以综合以上多个维度的分值,综合得到更加全面、客观的数据仓库模型的成熟分,还可以根据评估过程得到的中间数据,得出各种排行榜,同样可以在一定程度上对数据仓库模型进行评估。
为了更好地实施以上方法,本申请实施例还提供一种数据仓库模型评估装置,如图5所示,该数据仓库模型评估装置可以包括获取模块310、确定模块320和评估模块330,其中,
获取模块310,用于获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得;
确定模块320,用于确定数据仓库模型在执行任务过程的任务执行信息;
评估模块330,用于基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
在本申请的一些实施例中,数据仓库模型评估装置还包括表格规范模块和资源消耗模块,其中,
表格规范模块,用于评估多个数据表的表格规范信息;
资源消耗模块,用于计算数据仓库模型的资源消耗信息;
此时评估模块具体用于:基于表格规范信息和资源消耗信息中的至少一个、表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
在本申请的一些实施例中,获取模块包括正向复用子模块、负向复用子模块和融合子模块,其中,
正向复用子模块,用于确定多个数据表的正向复用信息;
负向复用子模块,用于确定多个数据表的负向复用信息;
融合子模块,用于对正向复用信息和负向复用信息进行融合,得到多个数据表的表格使用信息。
在本申请的一些实施例中,正向复用子模块包括第一确定单元、第二确定单元、复用度计算单元和正向复用单元,其中,
第一确定单元,用于确定第一数量个数据表各自的复用次数信息;
第二确定单元,用于若数据表的复用次数信息与预设第一次数信息匹配,确定数据表为正向复用数据表,以得到第二数量个正向复用数据表,第二数量小于或等于第一数量;
复用度计算单元,用于基于第一数量和第二数量,计算得到多个数据表的第一正向复用度;
正向复用单元,用于基于第一正向复用度,确定多个数据表的正向复用信息。
在本申请的一些实施例中,正向复用单元包括获取子单元、确定子单元、复用度子单元以及正向复用子单元,其中,
获取子单元,用于获取第二数量个正向复用数据表各自的复用对象信息;
确定子单元,用于若正向复用数据表的复用对象信息与预设第一对象信息匹配,确定正向复用数据表为目标复用数据表,以得到第三数量个目标复用数据表;
复用度子单元,用于基于第二数量和第三数量,计算得到第二正向复用度;
正向复用子单元,用于基于第一正向复用度和第二正向复用度,确定多个数据表的正向复用信息。
在本申请的一些实施例中,负向复用子模块包括确定单元、计算单元和负向复用单元,其中,
确定单元,用于若数据表的复用次数信息与预设第二次数信息匹配、数据表所属的数据层信息与预设数据层信息匹配、且数据表的复用对象信息与预设第二对象信息匹配,确定数据表为负向复用数据表,以得到第四数量个负向复用数据表,第四数量小于或等于第一数量;
计算单元,用于基于第一数量和第四数量,计算得到第一负向复用度;
负向复用单元,用于基于第一负向复用度,确定多个数据表的负向复用信息。
在本申请的一些实施例中,负向复用单元包括无复用子单元、周期子单元、复用度子单元和融合子单元,其中,
无复用子单元,用于若数据表的复用次数信息与预设第二次数信息不匹配,确定数据表为无复用数据表,以得到第五数量个无复用数据表;
周期子单元,用于获取每个数据表的生命周期信息;
复用度子单元,用于基于第五数量个无复用数据表、以及每个数据表的生命周期信息,确定多个数据表的第二负向复用度;
融合子单元,用于对第一负向复用度和第二负向复用度进行融合,得到多个数据表的负向复用信息。
在本申请的一些实施例中,第二负向复用度包括表格存储分值,复用度子单元具体用于:
获取无复用数据表对应的无复用分值信息,并确定每个生命周期信息对应的周期分值信息;
确定多个数据表的初始存储分值;
基于第五数量、无复用分值信息以及每个周期分值信息,对初始存储分值进行更新,得到表格存储分值。
在本申请的一些实施例中,确定模块包括计算子模块和确定子模块,其中,
计算子模块,用于计算数据仓库模型执行的多个任务的任务完成及时度;
确定子模块,用于基于任务完成及时度,确定数据仓库模型在执行任务过程的任务执行信息。
在本申请的一些实施例中,计算子模块包括获取单元、确定单元和计算单元,其中,
获取单元,用于获取数据仓库模型执行的第六数量个任务各自的结束时间信息;
确定单元,用于若任务的结束时间信息与预设时间信息匹配,确定任务为及时完成任务,以得到第七数量个及时完成任务,第七数量小于或等于第六数量;
计算单元,用于基于第六数量和第七数量,计算数据仓库模型的任务完成及时度。
在本申请的一些实施例中,确定子模块包括获取单元、计算单元和融合单元,其中,
获取单元,用于获取计算机设备本地在数据仓库模型执行任务过程的队列利用率;
计算单元,用于基于队列利用率和预设队列利用率,计算数据仓库模型在执行任务过程的队列利用信息;
融合单元,用于对任务完成及时度和队列利用信息进行融合,得到数据仓库模型在执行任务过程的任务执行信息。
在本申请的一些实施例中,表格规范模块包括确定子模块和评估子模块,其中,
确定子模块,用于确定每个数据表的表分层信息、表后缀信息以及注释信息;
评估子模块,用于基于表分层信息、表后缀信息和注释信息,对多个数据表进行评估,得到表格规范信息。
在本申请的一些实施例中,表格规范信息包括表格规范分值,评估子模块包括获取单元、确定单元和更新单元,其中,
获取单元,用于获取多个数据表的初始规范分值;
确定单元,用于确定表分层信息、表后缀信息以及注释信息各自对应的分层分值信息、后缀分值信息和注释分值信息;
更新单元,用于基于分层分值信息、后缀分值信息和注释分值信息,对初始规范分值更新,得到表格规范分值。
在本申请的一些实施例中,资源消耗信息包括人力资源消耗信息,资源消耗模块包括获取子模块、确定子模块和融合子模块,其中,
获取子模块,用于获取数据仓库模型的第八数量个人力消耗信息,人力消耗信息表征数据仓库模型在单位时间内消耗的人力数量信息;
确定子模块,用于若人力消耗信息与预设消耗信息匹配,确定人力消耗信息为选中人力消耗信息,以得到第九数量个选中人力消耗信息,第九数量小于或等于第八数量;
融合子模块,用于对第八数量和第九数量进行融合,得到数据仓库模型的人力资源消耗信息。
在本申请的一些实施例中,评估模块包括获取子模块和融合子模块,其中,
获取子模块,用于分别获取针对表格规范信息的第一权重值、针对资源消耗信息的第二权重值、针对表格使用信息的第三权重值以及针对任务执行信息的第四权重值;
融合子模块,用于基于第一权重值、第二权重值、第三权重值以及第四权重值,对表格规范信息、资源消耗信息、表格使用信息和任务执行信息进行融合,得到数据仓库模型的评估结果。
本申请实施例可以首先获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得,然后确定数据仓库模型在执行任务过程的任务执行信息,最后基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果,该评估结果综合数据仓库模型在执行任务过程的任务执行信息、以及任务执行所得多个数据表的表格使用信息,因此具有较高的精确度和较好的全面性。
本申请实施例还提供一种计算机设备,如图6所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,该计算机设备可以是终端或者服务器等,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的计算机程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储计算机程序以及模块,处理器401通过运行存储在存储器402的就计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,该计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得,确定数据仓库模型在执行任务过程的任务执行信息,基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
该评估结果综合数据仓库模型在执行任务过程的任务执行信息、以及任务执行所得多个数据表的表格使用信息,因此具有较高的精确度和较好的全面性。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种数据仓库模型评估方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取多个数据表的表格使用信息,多个数据表为数据仓库模型对源数据执行任务所得,确定数据仓库模型在执行任务过程的任务执行信息,基于表格使用信息和任务执行信息,对数据仓库模型进行评估,得到评估结果。
该评估结果综合数据仓库模型在执行任务过程的任务执行信息、以及任务执行所得多个数据表的表格使用信息,因此具有较高的精确度和较好的全面性。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种数据仓库模型评估方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据仓库模型评估方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述数据仓库模型评估方法的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种数据仓库模型评估方法、装置及计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种数据仓库模型评估方法,其特征在于,包括:
获取多个数据表的表格使用信息,所述多个数据表为数据仓库模型对源数据执行任务所得,所述表格使用信息表征数据仓库系统中多个数据表的整体使用情况;
确定所述数据仓库模型在执行任务过程的任务执行信息,所述任务执行信息表征所述数据仓库模型所执行的任务的完成情况、以及在任务执行过程所小号的计算机设备资源的情况;
基于所述表格使用信息和所述任务执行信息,对所述数据仓库模型进行评估,得到评估结果,包括:基于所述表格使用信息和所述任务执行信息进行求和、求平均、或加权求和,以对所述数据仓库模型进行评估,得到评估结果;
所述获取多个数据表的表格使用信息,包括:确定多个数据表的正向复用信息,并确定所述多个数据表的负向复用信息;对所述正向复用信息和所述负向复用信息进行融合,得到所述多个数据表的表格使用信息;或者,当所述表格使用信息包括表格使用平均分时,所述获取多个数据表的表格使用信息包括:为多个数据表分别设置初始分值;根据所述数据表的复用次数和复用对象,分别更新每个数据表的初始分值,得到表格使用分;对所有数据表的表格使用分求平均,得到表格使用平均分;
所述确定所述数据仓库模型在执行任务过程的任务执行信息,包括:
确定所述数据仓库模型在执行任务过程的任务执行信息和队列利用信息;对所述任务完成及时度和所述队列利用信息进行融合,得到所述数据仓库模型在执行任务过程的任务执行信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
评估所述多个数据表的表格规范信息,并计算所述数据仓库模型的资源消耗信息;
所述基于所述表格使用信息和所述任务执行信息,对所述数据仓库模型进行评估,得到评估结果,包括:
基于所述表格规范信息和所述资源消耗信息中的至少一个、所述表格使用信息和所述任务执行信息,对所述数据仓库模型进行评估,得到评估结果。
3.根据权利要求2所述的方法,其特征在于,所述确定多个数据表的正向复用信息,包括:
确定第一数量个数据表各自的复用次数信息;
若数据表的复用次数信息与预设第一次数信息匹配,确定所述数据表为正向复用数据表,以得到第二数量个正向复用数据表,所述第二数量小于或等于所述第一数量;
基于所述第一数量和所述第二数量,计算得到所述多个数据表的第一正向复用度;
基于所述第一正向复用度,确定所述多个数据表的正向复用信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一正向复用度,确定所述多个数据表的正向复用信息,包括:
获取所述第二数量个正向复用数据表各自的复用对象信息;
若正向复用数据表的复用对象信息与预设第一对象信息匹配,确定所述正向复用数据表为目标复用数据表,以得到第三数量个目标复用数据表;
基于所述第二数量和所述第三数量,计算得到第二正向复用度;
基于所述第一正向复用度和所述第二正向复用度,确定所述多个数据表的正向复用信息。
5.根据权利要求4所述的方法,其特征在于,所述确定所述多个数据表的负向复用信息,包括:
若数据表的复用次数信息与预设第二次数信息匹配、所述数据表所属的数据层信息与预设数据层信息匹配、且所述数据表的复用对象信息与预设第二对象信息匹配,确定所述数据表为负向复用数据表,以得到第四数量个负向复用数据表,所述第四数量小于或等于所述第一数量;
基于所述第一数量和所述第四数量,计算得到第一负向复用度;
基于所述第一负向复用度,确定所述多个数据表的负向复用信息。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一负向复用度,确定所述多个数据表的负向复用信息,包括:
若数据表的复用次数信息与预设第二次数信息不匹配,确定所述数据表为无复用数据表,以得到第五数量个无复用数据表;
获取每个所述数据表的生命周期信息;
基于所述第五数量个无复用数据表、以及每个所述数据表的生命周期信息,确定所述多个数据表的第二负向复用度;
对所述第一负向复用度和所述第二负向复用度进行融合,得到所述多个数据表的负向复用信息。
7.根据权利要求6所述的方法,其特征在于,所述第二负向复用度包括表格存储分值,所述基于所述第五数量个无复用数据表、以及每个所述数据表的生命周期信息,确定所述多个数据表的第二负向复用度,包括:
获取所述无复用数据表对应的无复用分值信息,并确定每个所述生命周期信息对应的周期分值信息;
确定所述多个数据表的初始存储分值;
基于所述第五数量、所述无复用分值信息以及每个所述周期分值信息,对所述初始存储分值进行更新,得到表格存储分值。
8.根据权利要求7所述的方法,其特征在于,所述确定所述数据仓库模型在执行任务过程的任务执行信息,包括:
计算所述数据仓库模型执行的多个任务的任务完成及时度;
基于所述任务完成及时度,确定所述数据仓库模型在执行任务过程的任务执行信息。
9.根据权利要求8所述的方法,其特征在于,所述计算所述数据仓库模型执行的多个任务的任务完成及时度,包括:
获取所述数据仓库模型执行的第六数量个任务各自的结束时间信息;
若任务的结束时间信息与预设时间信息匹配,确定所述任务为及时完成任务,以得到第七数量个及时完成任务,所述第七数量小于或等于所述第六数量;
基于所述第六数量和所述第七数量,计算所述数据仓库模型的任务完成及时度。
10.根据权利要求9所述的方法,其特征在于,所述基于所述任务完成及时度,确定所述数据仓库模型在执行任务过程的任务执行信息,包括:
获取计算机设备本地在所述数据仓库模型执行任务过程的队列利用率;
基于所述队列利用率和预设队列利用率,计算所述数据仓库模型在执行任务过程的队列利用信息;
对所述任务完成及时度和所述队列利用信息进行融合,得到所述数据仓库模型在执行任务过程的任务执行信息。
11.根据权利要求2-10任一项所述的方法,其特征在于,所述评估所述多个数据表的表格规范信息,包括:
确定每个所述数据表的表分层信息、表后缀信息以及注释信息;
基于所述表分层信息、表后缀信息和所述注释信息,对所述多个数据表进行评估,得到表格规范信息。
12.根据权利要求11所述的方法,其特征在于,所述表格规范信息包括表格规范分值,所述基于所述表分层信息、表后缀信息和所述注释信息,对所述多个数据表进行评估,得到表格规范信息,包括:
获取所述多个数据表的初始规范分值;
确定所述表分层信息、所述表后缀信息以及所述注释信息各自对应的分层分值信息、后缀分值信息和注释分值信息;
基于所述分层分值信息、所述后缀分值信息和所述注释分值信息,对所述初始规范分值更新,得到表格规范分值。
13.根据权利要求12所述的方法,其特征在于,所述资源消耗信息包括人力资源消耗信息,所述计算所述数据仓库模型的资源消耗信息,包括:
获取所述数据仓库模型的第八数量个人力消耗信息,所述人力消耗信息表征所述数据仓库模型在单位时间内消耗的人力数量信息;
若所述人力消耗信息与预设消耗信息匹配,确定所述人力消耗信息为选中人力消耗信息,以得到第九数量个选中人力消耗信息,所述第九数量小于或等于所述第八数量;
对所述第八数量和所述第九数量进行融合,得到所述数据仓库模型的人力资源消耗信息。
14.根据权利要求13所述的方法,其特征在于,所述基于所述表格规范信息和所述资源消耗信息中的至少一个、所述表格使用信息和所述任务执行信息,对所述数据仓库模型进行评估,得到评估结果,包括:
分别获取针对所述表格规范信息的第一权重值、针对所述资源消耗信息的第二权重值、针对所述表格使用信息的第三权重值以及针对所述任务执行信息的第四权重值;
基于所述第一权重值、所述第二权重值、所述第三权重值以及所述第四权重值,对所述表格规范信息、所述资源消耗信息、所述表格使用信息和所述任务执行信息进行融合,得到所述数据仓库模型的评估结果。
15.一种数据仓库模型评估装置,其特征在于,包括:
获取模块,用于获取多个数据表的表格使用信息,所述多个数据表为数据仓库模型对源数据执行任务所得,所述表格使用信息表征数据仓库系统中多个数据表的整体使用情况,所述获取多个数据表的表格使用信息,包括:确定多个数据表的正向复用信息,并确定所述多个数据表的负向复用信息;对所述正向复用信息和所述负向复用信息进行融合,得到所述多个数据表的表格使用信息;或者,当所述表格使用信息包括表格使用平均分时,所述获取多个数据表的表格使用信息包括:为多个数据表分别设置初始分值;根据所述数据表的复用次数和复用对象,分别更新每个数据表的初始分值,得到表格使用分;对所有数据表的表格使用分求平均,得到表格使用平均分;
确定模块,用于确定所述数据仓库模型在执行任务过程的任务执行信息,所述任务执行信息表征所述数据仓库模型所执行的任务的完成情况、以及在任务执行过程所小号的计算机设备资源的情况,所述确定所述数据仓库模型在执行任务过程的任务执行信息,包括:确定所述数据仓库模型在执行任务过程的任务执行信息和队列利用信息;对所述任务完成及时度和所述队列利用信息进行融合,得到所述数据仓库模型在执行任务过程的任务执行信息;
评估模块,用于基于所述表格使用信息和所述任务执行信息,对所述数据仓库模型进行评估,得到评估结果,包括:基于所述表格使用信息和所述任务执行信息进行求和、求平均、或加权求和,以对所述数据仓库模型进行评估,得到评估结果。
16.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至14任一项所述的数据仓库模型评估方法中的步骤。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至14任一项所述的数据仓库模型评估方法中的步骤。
18.一种计算机程序产品,其特征在于,包括计算机程序或指令,该计算机程序或指令被处理器执行,以实现权利要求1至14任一项所述的数据仓库模型评估方法中的步骤。
CN202410076078.5A 2024-01-18 2024-01-18 数据仓库模型评估方法、装置及计算机设备 Active CN117763061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410076078.5A CN117763061B (zh) 2024-01-18 2024-01-18 数据仓库模型评估方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410076078.5A CN117763061B (zh) 2024-01-18 2024-01-18 数据仓库模型评估方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN117763061A CN117763061A (zh) 2024-03-26
CN117763061B true CN117763061B (zh) 2024-04-30

Family

ID=90320091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410076078.5A Active CN117763061B (zh) 2024-01-18 2024-01-18 数据仓库模型评估方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN117763061B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346321A (zh) * 2016-05-06 2017-11-14 阿里巴巴集团控股有限公司 数据仓库管理方法及装置
CN116795818A (zh) * 2023-06-07 2023-09-22 平安科技(深圳)有限公司 数据仓库提炼优化方法、装置、设备及其存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10353924B2 (en) * 2015-11-19 2019-07-16 International Business Machines Corporation Data warehouse single-row operation optimization
US11899665B2 (en) * 2020-11-20 2024-02-13 AtScale, Inc. Data aggregation and pre-positioning for multi-store queries

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346321A (zh) * 2016-05-06 2017-11-14 阿里巴巴集团控股有限公司 数据仓库管理方法及装置
CN116795818A (zh) * 2023-06-07 2023-09-22 平安科技(深圳)有限公司 数据仓库提炼优化方法、装置、设备及其存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据仓库的建设与发展及医学领域的应用现状;孙慧媛;孙瑞华;李友林;;北京中医药;20170825(08);第20-22页 *

Also Published As

Publication number Publication date
CN117763061A (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN102508709B (zh) 购供售一体化电能量采集与监控系统中基于分布式缓存的采集任务调度方法
CN108388564B (zh) 查询处理方法、装置及其设备
CN111147565B (zh) 一种集群节点控制方法、装置、设备及可读存储介质
CN111752678A (zh) 面向边缘计算中分布式协同学习的低功耗容器放置方法
CN109819047A (zh) 一种基于激励机制的移动边缘计算资源分配方法
CN113872813B (zh) 一种载波通信设备全生命周期管理方法及系统
CN111833018A (zh) 一种科技项目的专利分析方法及系统
CN111105081A (zh) 基于现货市场的节能发电调度技术支持方法、装置及设备
CN115080373A (zh) 配电终端操作系统的性能检测方法、装置、设备及介质
CN114969144A (zh) 一种规则引擎在工业物联网上的应用方法
CN117763061B (zh) 数据仓库模型评估方法、装置及计算机设备
CN111949493A (zh) 一种基于推理应用的边缘ai服务器功耗测试方法及装置
CN110069349A (zh) 一种基于大数据平台的资源消耗核算系统
CN115563160A (zh) 数据处理方法、装置、计算机设备和计算机可读存储介质
CN114650211B (zh) 故障修复方法、装置、电子设备和计算机可读存储介质
CN112559347B (zh) 测试分配方法及装置、设备、可读介质和计算机程序产品
CN212322281U (zh) 一种开放式的电力ai应用平台
CN113742581A (zh) 榜单的生成方法、装置、电子设备及可读存储介质
CN111881885A (zh) 一种开放式的电力ai应用平台
CN111738545A (zh) 一种电网侧虚拟电厂负荷填谷响应收益评估方法及装置
CN111324800A (zh) 业务事项展示方法、装置和计算机可读存储介质
CN116909758B (zh) 算力任务的处理方法、装置及电子设备
CN115134247B (zh) 节点识别方法、装置、电子设备及计算机可读存储介质
CN115269277B (zh) 一种智慧实验室数据协同综合管理系统
CN117196696B (zh) 一种基于市场供需关系和机组行为的电价预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant