CN117234679A - 数据仓库任务的处理方法、装置、计算机设备 - Google Patents

数据仓库任务的处理方法、装置、计算机设备 Download PDF

Info

Publication number
CN117234679A
CN117234679A CN202310992781.6A CN202310992781A CN117234679A CN 117234679 A CN117234679 A CN 117234679A CN 202310992781 A CN202310992781 A CN 202310992781A CN 117234679 A CN117234679 A CN 117234679A
Authority
CN
China
Prior art keywords
program
data warehouse
node
sub
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310992781.6A
Other languages
English (en)
Inventor
申根荣
周真锋
戴宣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qichacha Technology Co ltd
Original Assignee
Qichacha Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qichacha Technology Co ltd filed Critical Qichacha Technology Co ltd
Priority to CN202310992781.6A priority Critical patent/CN117234679A/zh
Publication of CN117234679A publication Critical patent/CN117234679A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请涉及数据仓库任务的处理方法、装置、计算机设备。所述方法包括:获取运行数据仓库任务中流程节点对应的运行时长;其中,所述数据仓库任务包括多个存在依赖关系的流程节点;根据运行时长的区间范围与节点级别的预设关联关系、所述运行时长,确定所述流程节点的节点级别;其中,节点级别与运行时长呈负相关的关联关系;确定节点级别低于预设级别的流程节点对应的数据仓库任务。本公开实施例,能够快速地定位到该任务的哪一个环节可能存在问题,从而便于后续的优化和提升。

Description

数据仓库任务的处理方法、装置、计算机设备
技术领域
本申请涉及大数据技术领域,特别是涉及一种数据仓库任务的处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
数据仓库是一个用于存储和管理大量结构化和非结构化数据的集中式数据库系统。它是支持企业决策和分析的关键工具,可以从多个不同的数据源中提取、转换和加载数据,并将其组织成适合查询和分析的格式。数据仓库的任务涉及数据集成、数据质量管理、任务调度和监控等方面。其中,数据集成包括将多个数据源中的数据集成到数据仓库中,例如,数据抽取、转换和加载等技术;数据质量管理用于确保数据仓库中数据的准确性和完整性,例如,数据清洗、数据验证和数据校验等技术;任务调度和监控用于监控和追踪任务的执行情况。
数据仓库中,数据源和任务类型非常多样化和复杂化,因此,需要采用多种技术和工具来处理不同类型的任务。然而,随着数据量和任务数量的不断增加,任务的执行效率以及资源的利用率难以得到保证。
发明内容
基于此,有必要针对上述技术问题,提供一种数据仓库任务的处理方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种数据仓库任务的处理方法,所述方法包括:
获取运行数据仓库任务中流程节点对应的运行时长;其中,所述数据仓库任务包括多个存在依赖关系的流程节点;
根据运行时长的区间范围与节点级别的预设关联关系、所述运行时长,确定所述流程节点的节点级别;其中,节点级别与运行时长呈负相关的关联关系;
确定节点级别低于预设级别的流程节点对应的数据仓库任务。
在一种可能的实现方式中,在所述确定节点级别低于预设级别的流程节点对应的数据仓库任务,之后还包括:
对所述流程节点的程序语句进行语法解析,得到解析结果;
根据所述解析结果,展示与所述解析结果相匹配的所述数据仓库任务的修改建议。
在一种可能的实现方式中,所述语法解析包括血缘解析,所述对所述流程节点的程序语句进行语法解析,得到解析结果,包括:
对所述流程节点的程序语句进行血缘解析,得到所述程序语句的依赖关系;
按照预设的检测规则中的每个子检测规则,逐个检测所述依赖关系及所述依赖关系中的所述程序语句,得到解析结果。
在一种可能的实现方式中,所述子检测规则包括检测程序语句的个数,检测所述依赖关系中的所述程序语句,得到解析结果,包括:
检测所述依赖关系中的所述程序语句中预设标识的个数;
在所述个数高于第一预设阈值的情况下,确定解析结果为所述流程节点不满足所述子检测规则。
在一种可能的实现方式中,所述子检测规则包括检测未被其他程序语句依赖的程序语句个数,检测所述依赖关系,得到解析结果,包括:
获取依赖第一程序语句的第二程序语句;其中,所述第一程序语句为所述依赖关系中的所述程序语句中的任一个程序语句;
统计未被其他程序语句依赖的第二程序语句的个数;
在所述个数高于第二预设阈值的情况下,确定解析结果为所述流程节点不满足所述子检测规则。
在一种可能的实现方式中,所述子检测规则包括未写有查询表中需要的列标识,检测所述依赖关系中的所述程序语句,得到解析结果,包括:
检测所述依赖关系中的所述程序语句是否写有查询表中需要的列标识;
若所述程序语句未写有查询表中需要的列标识,确定解析结果为所述流程节点不满足所述子检测规则。
在一种可能的实现方式中,所述子规则包括检测执行所述程序语句的资源量,检测所述依赖关系中的所述程序语句,得到解析结果,包括:
获取所述依赖关系中的所述程序语句在运行的所需要的资源量;
在所述资源量超过平均资源量的情况下,则所述流程节点不满足所述子检测规则;其中,所述平均资源量为运行多个程序语句的所需资源量的平均值。
在一种可能的实现方式中,获取运行数据仓库任务中流程节点对应的运行时长,包括:
获取预设时段内多次运行数据仓库任务中流程节点的平均运行时长。
第二方面,本申请还提供了一种数据仓库任务的处理装置。所述装置包括:
获取模块,用于获取运行数据仓库任务中流程节点对应的运行时长;其中,所述数据仓库任务包括多个存在依赖关系的流程节点;
第一确定模块,用于根据运行时长的区间范围与节点级别的预设关联关系、所述运行时长,确定所述流程节点的节点级别;其中,节点级别与运行时长呈负相关的关联关系;
第二确定模块,用于确定节点级别低于预设级别的流程节点对应的数据仓库任务。
在一种可能的实现方式中,在所述确定节点级别低于预设级别的流程节点对应的数据仓库任务,之后还包括:
解析模块,用于对所述流程节点的程序语句进行语法解析,得到解析结果;
展示模块,用于根据所述解析结果,展示与所述解析结果相匹配的所述数据仓库任务的修改建议。
在一种可能的实现方式中,所述语法解析包括血缘解析,所述解析模块,包括:
解析子模块,用于对所述流程节点的程序语句进行血缘解析,得到所述程序语句的依赖关系;
检测子模块,用于按照预设的检测规则中的每个子检测规则,逐个检测所述依赖关系及所述依赖关系中的所述程序语句,得到解析结果。
在一种可能的实现方式中,所述子检测规则包括检测程序语句的个数,所述检测子模块,包括:
第一检测单元,用于检测所述依赖关系中的所述程序语句中预设标识的个数;
第一确定单元,用于在所述个数高于第一预设阈值的情况下,确定解析结果为所述流程节点不满足所述子检测规则。
在一种可能的实现方式中,所述子检测规则包括检测未被其他程序语句依赖的程序语句个数,所述检测子模块,包括:
第一获取单元,用于获取依赖第一程序语句的第二程序语句;其中,所述第一程序语句为所述依赖关系中的所述程序语句中的任一个程序语句;
统计单元,用于统计未被其他程序语句依赖的第二程序语句的个数;
第二确定单元,用于在所述个数高于第二预设阈值的情况下,确定解析结果为所述流程节点不满足所述子检测规则。
在一种可能的实现方式中,所述子检测规则包括未写有查询表中需要的列标识,所述检测子模块,包括:
第二检测单元,用于检测所述依赖关系中的所述程序语句是否写有查询表中需要的列标识;
第一确定单元,用于若所述程序语句未写有查询表中需要的列标识,确定解析结果为所述流程节点不满足所述子检测规则。
在一种可能的实现方式中,所述子规则包括检测执行所述程序语句的资源量,所述检测子模块,包括:
第二获取单元,用于获取所述依赖关系中的所述程序语句在运行的所需要的资源量;
第三确定单元,用于在所述资源量超过平均资源量的情况下,则所述流程节点不满足所述子检测规则;其中,所述平均资源量为运行多个程序语句的所需资源量的平均值。
在一种可能的实现方式中,获取运行数据仓库任务中流程节点对应的运行时长,包括:
获取预设时段内多次运行数据仓库任务中流程节点的平均运行时长。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本公开实施例任一项所述的数据仓库任务的处理方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本公开实施例任一项所述的数据仓库任务的处理方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如本公开实施例任一项所述的数据仓库任务的处理方法的步骤。
上述数据仓库任务的处理方法、装置、计算机设备、存储介质和计算机程序产品,通过获取运行数据仓库任务中流程节点对应的运行时长,筛选节点级别低于预设级别的流程节点对应的流程任务,有利于发现执行效率低的数据仓库任务。并且以流程节点作为定位粒度,能够快速地定位到该任务的哪一个环节可能存在问题,从而便于后续的优化和提升。
附图说明
图1为一个实施例中数据仓库任务的处理方法的第一流程示意图;
图2为一个另实施例中数据仓库任务的处理方法的第二流程示意图;
图3为一个实施例中数据仓库任务的处理装置的结构框图;
图4为一个实施例中计算机设备的内部结构图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在一个实施例中,如图1所示,提供了一种数据仓库任务的处理方法,以该方法应用于终端或服务器,包括以下步骤:
步骤S101,获取运行数据仓库任务中流程节点对应的运行时长;其中,所述数据仓库任务包括多个存在依赖关系的流程节点。
具体的,所述数据仓库任务可以包括同步任务和非同步任务,所述同步任务可以包括从多种数据源中抽取数据,将该数据存储至分布式数据库中的任务。所述非同步任务可以包括根据具体的需求,对已经存在于分布式数据库中的任务进行处理的任务。本公开实施例中,所述数据仓库任务包括多个流程节点,每个流程节点对应一定的功能作用,所有流程节点共同构成数据仓库任务。所述依赖关系指的是一个流程节点的运行依赖上一个流程节点的运行结果数据。例如,流程节点A的运行依赖流程节点B的运行结果,则流程节点A与流程节点B存在依赖关系。
本公开实施例中,所述数据仓库任务可以包括编写完程序代码还未投入运行的任务。在一示例性实施例中,可以将数据仓库任务作为离线任务,批量化的运行各数据仓库任务。本公开实施例中获取运行数据仓库任务中流程节点的运行时长,例如耗时2个小时,耗时0-15分钟。
步骤S103,根据运行时长的区间范围与节点级别的预设关联关系、所述运行时长,确定所述流程节点的节点级别;其中,节点级别与运行时长呈负相关的关联关系。
具体的,所述运行时长的区间范围可以包括区间端点和两区间端点之间的数值范围。例如[0分钟,15分钟)、[15分钟,35分钟)等。所述节点级别的级别数可以根据具体的应用场景设置,例如5级、8级。其中,节点级别与运行时长呈负相关的关联关系,即节点级别越高,对应的运行时长越短。其中,节点级别可以用数字、字母或其他预设含义的文字表示,例如,对于五级节点级别,一级表示最高级别,五级表示最低级别。再例如,优秀表示最高级别,极度差表示最低级别。在一示例性实施例中,运行时长的区间范围与节点级别的预设关系,例如:运行时长[0分钟,15分钟)对应节点级别为优秀;运行时长[15分钟,35分钟)对应节点级别为及格;运行时长[30分钟,60分钟)对应节点级别为不及格,运行时长[60,120分钟)对应节点级别为差;运行时长[120分钟,120分钟以上)对应节点级别为极度差。
步骤S105,确定节点级别低于预设级别的流程节点对应的数据仓库任务。
具体的,筛选节点级别低于预设级别的流程节点对应的数据仓库任务,例如预设级别为3级,共5个级别,且最低级别是5级,则将3级、4级、5级对应的数据仓库任务筛选出来进行修改优化。再例如,上述实施例中,预设级别为不及格,则筛选不及格、差、季度差的
上述实施例中,通过获取运行数据仓库任务中流程节点对应的运行时长,筛选节点级别低于预设级别的流程节点对应的流程任务,有利于发现执行效率低的数据仓库任务。并且以流程节点作为定位粒度,能够快速地定位到该任务的哪一个环节可能存在问题,从而便于后续的优化和提升。
在一种可能的实现方式中,参考图2所示,在步骤S105,确定节点级别低于预设级别的流程节点对应的数据仓库任务,之后还包括:
步骤S201,对所述流程节点的程序语句进行语法解析,得到解析结果;
步骤S203,根据所述解析结果,展示与所述解析结果相匹配的所述数据仓库任务的修改建议。
具体的,可以自定义的编写一些程序,对流程节点的程序语句进行语法解析,也可以自定义编写一些程序结合工具平台Hive接口,对程序语句进行解析。其中,解析结果可以包括多种,例如程序语句的个数,程序语句的依赖关系,程序语句的书写规则等。本公开实施例中,根据所述解析结果具体种类,展示与解析结果相匹配的数据仓库任务的修改建议,例如程序语句的个数太多时,提示程序语句的个数太多;程序语句的依赖关系不符合预设要求时,提示对应的程序语句不符合预设要求。
本公开实施例,可以对流程节点的程序语句进行语法解析,得到解析结果,并根据解析结果,展示与解析结果相匹配的修改建议,由于解析结果与程序语句运行时间较长有着密切的关联,因此,展示的修改建议有助于分析确定节点运行时间较长的原因,并做出优化和修正。
在一种可能的实现方式中,所述语法解析包括血缘解析,所述对所述流程节点的程序语句进行语法解析,得到解析结果,包括:
对所述流程节点的程序语句进行血缘解析,得到所述程序语句的依赖关系;
按照预设的检测规则中的每个子检测规则,逐个检测所述依赖关系及所述依赖关系中的所述程序语句,得到解析结果。
具体的,所述血缘解析包括对程序语句进行解析,找出程序语句的输入表和输出表,得出业务表之间的依赖关系,即程序语句的依赖关系。根据具体的应用场景,所述检测规则可以包括多种子检测规则,针对每一种子检测规则,检查程序语句的依赖关系或程序语句。当检查的结果不满足子检测规则是,则将该检查的结果作为解析结果。例如,子检查规则为检测程序语句的个数,当程序语句的个数高于第一预设阈值时,则解析结果为程序语句的个数较多。对应的修改建议可以包括:程序语句的个数较多,建议拆分流程节点。
上述实施例,通过利用每个子检测规则,逐个对依赖关系和依赖关系中的程序语句进行检查,有利于确定导致流程运行时间长的具体原因,从而方便对其进行优化和改善。
在一种可能的实现方式中,所述子检测规则包括检测程序语句的个数,检测所述依赖关系中的所述程序语句,得到解析结果,包括:
检测所述依赖关系中的所述程序语句中预设标识的个数;
在所述个数高于第一预设阈值的情况下,确定解析结果为所述流程节点不满足所述子检测规则。
具体的,所述预设标识可以包括结束符、换行符,例如以“;”作为一个程序语句的结束符时,可以通过获取程序语句中的“;”号的个数,确定程序语句的个数。在所述个数高于第一预设阈值的情况下,解析结果可以包括单节点执行语句过多。相应地,可以通过提示拆分流程节点,将流程节点拆分成两个或多个,则有利于解决上述问题。
上述实施例,通过设置检测程序语句的个数的子检测规则,有利于发现因程序语句的设置过多造成流程节点运行时间较长的问题。从而优化该程序节点。
在一种可能的实现方式中,所述子检测规则包括检测未被其他程序语句依赖的程序语句个数,检测所述依赖关系,得到解析结果,包括:
获取依赖第一程序语句的第二程序语句;其中,所述第一程序语句为所述依赖关系中的所述程序语句中的任一程序语句;
统计未被其他程序语句依赖的第二程序语句的个数;
在所述个数高于第二预设阈值的情况下,则确定解析结果为所述流程节点不满足所述子检测规则。
具体的,例如第一程序语句a有多个依赖a的第二程序语句b,即第二程序语句b的执行依赖第一程序语句a的执行结果。在多个第二程序语句b中,有些具有依赖b的第三程序语句,有些不具有依赖b的第三程序语句,未被其他程序语句依赖的第二程序语句即,不具有依赖b的第三程序语句对应的第二程序语句b的个数。若该个数高于第二预设阈值,则确定解析结果为所述流程节点不满足所述子检测规则。如果未被其他程序语句依赖的第二程序语句的个数较多,则需要为第二程序语句构建临时查询表,容易造成运行时间的延迟。例如,A查询语句需要依赖B查询语句的查询结果,B查询就是子查询,A查询语句就是主查询,如果不写子查询则需要将上述B查询的结果写入一张临时表,容易造成运行时间的延迟。针对这种为题,可以编写响应的子查询语句,则无需写表。
上述实施例,通过检测未被其他程序语句依赖的第二程序语句的个数,有利于发现因临时表建立过多造成流程节点运行时间较长的问题,从而优化该程序节点。
在一种可能的实现方式中,所述子检测规则包括未写有查询表中需要的列标识,检测所述依赖关系中的所述程序语句,得到解析结果,包括:
检测所述依赖关系中的所述程序语句是否写有查询表中需要的列标识;
若所述程序语句未写有查询表中需要的列标识,确定解析结果为则所述流程节点不满足所述子检测规则。
具体的,查询表由列标识和行号或行索引构成。在大数据领域,一个查询表a,有5列,例如1列,2列,3列,4列,5列。但行数可能有几亿条。在编写程序语句时如果仅需要第1列和第2列的数据,则程序语句写有列表标识,则可以极大的节省查询时间。上例中,例如仅需要第1列和第2列,则可以将第1列和第2列的列标识体现在程序语句中。例如:在开发时无需写select1,2,3,4,5from a。只需要写select 1.2from a。如果没有写,则会发出提示,该流程节点不满足未写有查询表中列标识的子检测规则。
上述实施例,通过检测程序语句中是否写有查询表需要的列标识(根据查询需求确定需要的列标识),有利于发现因未写明列标识造成流程节点运行时间较长的问题,从而优化该程序节点。
在一种可能的实现方式中,所述子检测规则包括检测执行所述程序语句的资源量,检测所述依赖关系中的所述程序语句,得到解析结果,包括:
获取所述依赖关系中的所述程序语句在运行的所需要的资源量;
在所述资源量超过平均资源量的情况下,确定解析结果为所述流程节点不满足所述子检测规则;其中,所述平均资源量为运行多个程序语句的所需资源量的平均值。
具体的,可以获取依赖关系中每个程序语句在运行时所需要的资源量,计算多个程序语句运行时所需资源量的平均值,例如一个队列中存储的程序语句所需资源量的平均值,若所述资源量超过所述平均资源量,或者所述资源量超过所述平均资源的预设倍数,则确定解析结果为所述流程节点不满足所述子检测规则。
上述实施例,通过比较程序语句运行时所需要的资源量与平均资源量,有利于发现单个运行时间过程的程序语句,从而有针对性的优化该程序语句。
在一种可能的实现方式中,获取运行数据仓库任务中流程节点对应的运行时长,包括:
获取预设时段内多次运行数据仓库任务中流程节点的平均运行时长。
本公开实施例中,所述预设时段可以包括具体的时间段,例如3天、7天。在另一示例性实施例中,还可以选择最新一次运行记录的耗时。本公开实施例,通过使用预设时段内多次运行数据仓库任务中流程节点的平均运行时长,避免偶尔运行时长异常造成的误判,提高发现高延时数据仓库任务的准确性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据仓库任务的处理方法的数据仓库任务的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据仓库任务的处理装置实施例中的具体限定可以参见上文中对于数据仓库任务的处理方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种数据仓库任务的处理装置,包括:
获取模块301,用于获取运行数据仓库任务中流程节点对应的运行时长;其中,所述数据仓库任务包括多个存在依赖关系的流程节点;
第一确定模块303,用于根据运行时长的区间范围与节点级别的预设关联关系、所述运行时长,确定所述流程节点的节点级别;其中,节点级别与运行时长呈负相关的关联关系;
第二确定模块305,用于确定节点级别低于预设级别的流程节点对应的数据仓库任务。
在一种可能的实现方式中,在所述确定节点级别低于预设级别的流程节点对应的数据仓库任务,之后还包括:
解析模块,用于对所述流程节点的程序语句进行语法解析,得到解析结果;
展示模块,用于根据所述解析结果,展示与所述解析结果相匹配的所述数据仓库任务的修改建议。
在一种可能的实现方式中,所述语法解析包括血缘解析,所述解析模块,包括:
解析子模块,用于对所述流程节点的程序语句进行血缘解析,得到所述程序语句的依赖关系;
检测子模块,用于按照预设的检测规则中的每个子检测规则,逐个检测所述依赖关系及所述依赖关系中的所述程序语句,得到解析结果。
在一种可能的实现方式中,所述子检测规则包括检测程序语句的个数,所述检测子模块,包括:
第一检测单元,用于检测所述依赖关系中的所述程序语句中预设标识的个数;
第一确定单元,用于在所述个数高于第一预设阈值的情况下,确定解析结果为所述流程节点不满足所述子检测规则。
在一种可能的实现方式中,所述子检测规则包括检测未被其他程序语句依赖的程序语句个数,所述检测子模块,包括:
第一获取单元,用于获取依赖第一程序语句的第二程序语句;其中,所述第一程序语句为所述依赖关系中的所述程序语句中的任一个程序语句;
统计单元,用于统计未被其他程序语句依赖的第二程序语句的个数;
第二确定单元,用于在所述个数高于第二预设阈值的情况下,确定解析结果为所述流程节点不满足所述子检测规则。
在一种可能的实现方式中,所述子检测规则包括未写有查询表中需要的列标识,所述检测子模块,包括:
第二检测单元,用于检测所述依赖关系中的所述程序语句是否写有查询表中需要的列标识;
第一确定单元,用于若所述程序语句未写有查询表中需要的列标识,确定解析结果为所述流程节点不满足所述子检测规则。
在一种可能的实现方式中,所述子规则包括检测执行所述程序语句的资源量,所述检测子模块,包括:
第二获取单元,用于获取所述依赖关系中的所述程序语句在运行的所需要的资源量;
第三确定单元,用于在所述资源量超过平均资源量的情况下,则所述流程节点不满足所述子检测规则;其中,所述平均资源量为运行多个程序语句的所需资源量的平均值。
在一种可能的实现方式中,获取运行数据仓库任务中流程节点对应的运行时长,包括:
获取预设时段内多次运行数据仓库任务中流程节点的平均运行时长。
上述数据仓库任务的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据仓库任务的处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据仓库任务的处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据仓库任务的处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种数据仓库任务的处理方法,其特征在于,所述方法包括:
获取运行数据仓库任务中流程节点对应的运行时长;其中,所述数据仓库任务包括多个存在依赖关系的流程节点;
根据运行时长的区间范围与节点级别的预设关联关系、所述运行时长,确定所述流程节点的节点级别;其中,节点级别与运行时长呈负相关的关联关系;
确定节点级别低于预设级别的流程节点对应的数据仓库任务。
2.根据权利要求1所述的方法,其特征在于,在所述确定节点级别低于预设级别的流程节点对应的数据仓库任务,之后还包括:
对所述流程节点的程序语句进行语法解析,得到解析结果;
根据所述解析结果,展示与所述解析结果相匹配的所述数据仓库任务的修改建议。
3.根据权利要求2所述的方法,其特征在于,所述语法解析包括血缘解析,所述对所述流程节点的程序语句进行语法解析,得到解析结果,包括:
对所述流程节点的程序语句进行血缘解析,得到所述程序语句的依赖关系;
按照预设的检测规则中的每个子检测规则,逐个检测所述依赖关系及所述依赖关系中的所述程序语句,得到解析结果。
4.根据权利要求3所述的方法,其特征在于,所述子检测规则包括检测程序语句的个数,检测所述依赖关系中的所述程序语句,得到解析结果,包括:
检测所述依赖关系中的所述程序语句中预设标识的个数;
在所述个数高于第一预设阈值的情况下,确定解析结果为所述流程节点不满足所述子检测规则。
5.根据权利要求3所述的方法,其特征在于,所述子检测规则包括检测未被其他程序语句依赖的程序语句个数,检测所述依赖关系,得到解析结果,包括:
获取依赖第一程序语句的第二程序语句;其中,所述第一程序语句为所述依赖关系中的所述程序语句中的任一程序语句;
统计未被其他程序语句依赖的第二程序语句的个数;
在所述个数高于第二预设阈值的情况下,确定解析结果为所述流程节点不满足所述子检测规则。
6.根据权利要求3所述的方法,其特征在于,所述子检测规则包括未写有查询表中需要的列标识,检测所述依赖关系中的所述程序语句,得到解析结果,包括:
检测所述依赖关系中的所述程序语句是否写有查询表中需要的列标识;
若所述程序语句未写有查询表中需要的列标识,确定解析结果为所述流程节点不满足所述子检测规则。
7.根据权利要求3所述的方法,其特征在于,所述子检测规则包括检测执行所述程序语句的资源量,检测所述依赖关系中的所述程序语句,得到解析结果,包括:
获取所述依赖关系中的所述程序语句在运行的所需要的资源量;
在所述资源量超过平均资源量的情况下,则所述流程节点不满足所述子检测规则;其中,所述平均资源量为运行多个程序语句的所需资源量的平均值。
8.根据权利要求1所述的方法,其特征在于,获取运行数据仓库任务中流程节点对应的运行时长,包括:
获取预设时段内多次运行数据仓库任务中流程节点的平均运行时长。
9.一种数据仓库任务的处理装置,其特征在于,所述装置包括:
获取模块,用于获取运行数据仓库任务中流程节点对应的运行时长;其中,所述数据仓库任务包括多个存在依赖关系的流程节点;
第一确定模块,用于根据运行时长的区间范围与节点级别的预设关联关系、所述运行时长,确定所述流程节点的节点级别;其中,节点级别与运行时长呈负相关的关联关系;
第二确定模块,用于确定节点级别低于预设级别的流程节点对应的数据仓库任务。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202310992781.6A 2023-08-08 2023-08-08 数据仓库任务的处理方法、装置、计算机设备 Pending CN117234679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310992781.6A CN117234679A (zh) 2023-08-08 2023-08-08 数据仓库任务的处理方法、装置、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310992781.6A CN117234679A (zh) 2023-08-08 2023-08-08 数据仓库任务的处理方法、装置、计算机设备

Publications (1)

Publication Number Publication Date
CN117234679A true CN117234679A (zh) 2023-12-15

Family

ID=89086918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310992781.6A Pending CN117234679A (zh) 2023-08-08 2023-08-08 数据仓库任务的处理方法、装置、计算机设备

Country Status (1)

Country Link
CN (1) CN117234679A (zh)

Similar Documents

Publication Publication Date Title
CN106656536B (zh) 一种用于处理服务调用信息的方法与设备
US9612892B2 (en) Creating a correlation rule defining a relationship between event types
CN113688288B (zh) 数据关联分析方法、装置、计算机设备和存储介质
CN111314158B (zh) 大数据平台监控方法、装置及设备、介质
EP3264291A1 (en) Data block processing method and device
WO2021012861A1 (zh) 数据查询耗时评估方法、装置、计算机设备和存储介质
CN115203435A (zh) 基于知识图谱的实体关系生成方法及数据查询方法
CN114238085A (zh) 接口测试方法、装置、计算机设备、存储介质
CN107515807A (zh) 一种存储监控数据的方法及装置
WO2019080419A1 (zh) 标准知识库的构建方法、电子装置及存储介质
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
CN112948504A (zh) 数据采集方法、装置、计算机设备和存储介质
CN117234679A (zh) 数据仓库任务的处理方法、装置、计算机设备
CN113779030B (zh) 枚举值查询方法、可读存储介质及计算机程序产品
CN110175180A (zh) 一种表单管理方法、装置、设备及存储介质
CN106776704B (zh) 统计信息收集方法和装置
CN113778996A (zh) 一种大数据流数据处理方法、装置、电子设备及存储介质
CN114564621A (zh) 一种关联数据的方法、装置、设备及可读存储介质
CN116610664B (zh) 数据监控方法、装置、计算机设备、存储介质和产品
CN114238258B (zh) 数据库数据处理方法、装置、计算机设备、存储介质
CN115455035B (zh) 数据查询模型构建方法和计算机可读存储介质
WO2021047576A1 (zh) 日志记录处理方法、装置、设备及机器可读存储介质
CN113177157B (zh) 标签分离方法、装置、设备及存储介质
CN117827978A (zh) 数据冲突处理方法、装置、计算机设备和存储介质
CN117349721A (zh) 数据质量的核查方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination