CN112114941A - 数据作业的评价方法、装置及电子设备 - Google Patents

数据作业的评价方法、装置及电子设备 Download PDF

Info

Publication number
CN112114941A
CN112114941A CN201910534005.5A CN201910534005A CN112114941A CN 112114941 A CN112114941 A CN 112114941A CN 201910534005 A CN201910534005 A CN 201910534005A CN 112114941 A CN112114941 A CN 112114941A
Authority
CN
China
Prior art keywords
data
job
jobs
data operation
operations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910534005.5A
Other languages
English (en)
Inventor
陈林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910534005.5A priority Critical patent/CN112114941A/zh
Publication of CN112114941A publication Critical patent/CN112114941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及数据分析技术领域,公开了一种数据作业的评价方法、装置及电子设备,该方法包括:采集数据作业的配置信息;解析所述数据作业的配置信息,确定不同数据作业之间的关系;根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果。通过上述方式,本发明实施例可以快速直观的体现不同数据作业的重要程度,在调度时帮助快速的定位无效业务,提高数据作业的管理效率,并且可以动态的对数据作业的重要性进行量化,灵活的调整作业的等级,从而使数据平台能够灵活快速的响应业务的变化。

Description

数据作业的评价方法、装置及电子设备
技术领域
本发明实施例涉及数据分析技术领域,具体涉及一种数据作业的评价方法、装置及电子设备。
背景技术
随着科学技术的不断进步,在各种领域的数据量开始不断的膨胀和上升。为了应对庞大的数据量,许多企业都开始应用各种不同类型的数据处理工具,例如各种形式的数据库、处理平台等,对数据进行有序的处理。
惯常的,后台数据库在每时每刻都有大量的数据作业在执行,表现为对数据进行加载、清洗、汇总转换、统计分析等加工操作。这些数据作业一般通过数据作业调度平台进行统一的调度管理,确保所有数据作业按需有序执行,保证作业按时保质完成。
但是,随着数据作业的数量的不断增长,不同的数据作业之间的引用关系或者依赖关系也越来越复杂,如何提高数据作业调度能力,提供具有高性能的调度方案是一个重要的研究热点问题。
在实现本发明实施例的过程中,发明人发现:现有的数据作业调度过程中,对于数据作业的重要级别以及是否无效作业等的评价都是由业务人员根据自身经验进行判别。这样的人工操作方式随着作业数量的线性增长以及业务人员经验标准差异,会导致部分作业重要等级缺失以及误判。
另外,数据作业的重要等级监控配置也依赖运维人员不定期的人工配置。导致运维工作量大,也无法及时根据作业变更以及实际使用情况进行调整。从而导致一些无效作业长期占用资源。
发明内容
鉴于上述问题,本发明实施例提供了一种数据作业的评价方法、评价装置、电子设备及计算机存储介质,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种数据作业的评价方法。所述方法包括:
采集数据作业的配置信息;
解析所述数据作业的配置信息,确定不同数据作业之间的关系;
根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果。
在一种可选的方式中,所述根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果,具体包括:
根据所述数据作业之间的关系和预设的统计范围阈值,确定所述数据作业的关联矩阵;
基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值。
在一种可选的方式中,所述基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值,具体包括:
为每一个数据作业赋予一个随机值;
通过幂迭代法,根据数据作业之间的关系,迭代计算以更新所述数据作业的评分值;
判断所述数据作业的随机值是否满足预设的收敛条件;
若是,结束所述迭代计算并输出所述数据作业的评分值。
在一种可选的方式中,所述方法还包括:
判断所述数据作业是否满足预设的评级设置;
若是,对所述数据作业的评分值进行对应的加权处理。
在一种可选的方式中,所述方法还包括:
判断所述数据作业是否满足预设的人工调整标准;
若是,调整所述数据作业的评分值。
在一种可选的方式中,所述方法还包括:反馈所述数据作业的评价结果至对应的作业调度平台。
在一种可选的方式中,所述数据作业的评价结果包括预先划分的若干个作业重要等级;所述作业重要等级包括无效作业、重要作业以及一般作业。
根据本发明实施例的另一方面,提供了一种数据作业的评价装置。所述评价装置包括:
采集模块,用于采集数据作业的配置信息;
解析模块,用于解析所述数据作业的配置信息,确定不同数据作业之间的关系;
评分模块,用于根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果。
根据本发明实施例的另一方面,提供了一种文本数据挖掘的电子设备。所述电子设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据如上所述的数据作业的评价方法的步骤。
根据本发明实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行根据如上所述的数据作业的评价方法的步骤。
本发明实施例基于数据作业之间的相互关系,可以快速直观的体现不同数据作业的重要程度,在调度时帮助快速的定位无效业务,提高数据作业的管理效率,并且可以动态的对数据作业的重要性进行量化,灵活的调整作业的等级,从而使数据平台能够灵活快速的响应业务的变化。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了典型的的大型数据应用系统的框架图;
图2本发明实施例提供的数据作业的评价方法流程图;
图3示出了本发明另一实施例提供的数据作业的评价方法流程图;
图4示出了本发明实施例提供的数据作业的图模型;
图5示出了本发明实施例提供的执行图3所示的评价方法的系统框架图;
图6示出了本发明实施例提供的数据作业的评价装置的结构示意图;
图7示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
“数据作业”是大型数据应用系统中对于某项数据的一项或者多项加工操作。该大型数据应用系统具体可以在任何合适类型的电子设备中执行,例如一个或者多个服务器集群架构形成的云端平台。
作业调度平台是在大型数据应用系统中,用于对多个数据作业进行调度和分配的装置。该作业调度平台具体可以是任何类型的,具有一定运算能力和内存的一个或者多个电子设备的组合,例如服务器或者工作站。
如图1所示,在一个典型的大型数据应用系统中,可以分为负责执行具体业务的业务层级部分100、作业调度平台200以及运维团队300。
其中,业务层级部分100可以分为多个不同的业务层级,包括数据采集层、数据计算层以及数据服务层等。每个业务层级中可以有相应的业务功能。作业调度平台200相应地可以包括不同的子平台,分别对不同业务层级的数据作业进行调度。
运维团队300是由一个或者多个后台操作人员组成的群组,负责对作业调度平台进行配置,包括但不限于设置重点的数据作业,辨识并排除无效数据作业等。
在实际运行过程中,以数据采集层Etl为例,当数据采集层Etl接入新数据时,为保证重要业务数据正常,运维团队需要与业务方确认重点保障作业,并在作业调度平台对重点作业配置告警,以确保故障发生时,运维人员能优先快速保障作业,将故障影响最小化。
由于作业调度平台长期运行与新业务数据的不断接入。因此会出现Etl作业数量快速增长、旧业务变更导致作业变成无效作业等的问题。
图2示出了本发明数据作业的评价方法实施例的流程图,该方法可以应用于数据应用系统的作业调度平台中,实现对数据作业的量化和持续监控,从而及时的变更数据作业的调度配置。如图2所示,该方法包括以下步骤:
步骤210:采集数据作业的配置信息。
该配置信息是与数据作业相关的数据信息。其可以以任何合适的形式或者数据格式存在,用以定义或者确定具体的数据作业。例如,该配置信息可以包括数据作业具体所要执行操作、执行操作时所针对的数据等。
而根据实际的应用场景的不同,该数据作业的配置信息可以有不同的来源,并通过相应的方式采集获得并被配置为相应的数据层。例如,可以通过Etl采集程序采集各个作业调度平台中的数据作业的配置信息,生成Ods层数据。
步骤220:解析所述数据作业的配置信息,确定不同数据作业之间的关系。
与采集过程相类似地,“解析”同样也可以根据实际应用场景而采用相应的解析程序或者解析方式进行,只需要能够满足实际使用的需要即可。
本领域技术人员可以理解的,不同的数据作业之间存在有一定的关联性的。例如,某个数据作业是另一个数据作业的前置步骤,或者某个数据作业的输入实际上另外几个数据作业的输出。在本说明书中,使用“数据作业之间的关系”来表示两个数据作业之间具体的关联情况。在另一些实施例中,还可以被进一步的称为数据作业之间的依赖关系或者血缘关系,以表明两个数据作业之间是相关的,某个数据作业依赖于另一个数据作业才能够执行。
步骤230:根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果。
根据一般的理解,数据作业的重要程度越高,表明该项数据作业需要有较高的调度优先级,属于比较基础的数据作业,需要更快的被响应和执行。
例如,某项数据作业是许多其他数据作业的基础时,是进行其他作业的前置步骤时,可以认为该项数据作业的重要程度较高。
由此,在本实施例中,可以利用数据作业之间的关系为基础,来量化数据作业的重要程度。
本实施例中,可以采用任何合适类型的算法或者计算策略来计算获得最终的评价结果。其具体取决于实际情况的需要,由本领域技术人员进行设置。例如,可以参考对网页重要性评分的策略,基于PageRank算法对数据作业进行评分,获得最终的评价结果。
该评价结果具体可以以任何合适的形式体现,技术人员可以根据实际情况的需要进行设置。
在一些实施例中,该数据作业的评价结果可以包括预先划分的若干个作业重要等级。亦即,数据作业可以根据最后计算获得的量化结果,被分入对应的作业重要等级中。
具体的作业重要等级数量可以根据实际情况而设置。例如,可以包括无效作业、重要作业以及一般作业三个不同的等级。由此,可以在运维过程中及时的排除无效的数据作业,提高资源利用效率。
在另一些实施例中,该数据作业的评价结果还可以由具体的评分值来确定。不同的评分值可以更为细致的体现不同数据作业的重要程序排序。
进一步地,还可以结合使用上述两个实施例的评价结果。例如,将某些评分值低于特定阈值的数据作业划分为无效作业,评分值高于另一特定数值的数据作业划分为重要作用,其他剩余的数据作业按照评分值进行评价。
本发明实施例提供的评价方法可以自动化的对多个数据作业进行量化和评分,获得最终的评价结果,可以解决大型数据应用系统在日常的作业调配过程中所存在的缺少定量评分,无法精细化管理,作业状态更新不及时,难以实现动态更新的问题。
图3示出了本发明数据作业的评价方法另一个实施例的流程图,该方法应用于服务器中。该服务器可以是任何合适类型的计算机,具有合适的运算能力和内存,调用相应的计算机可执行程序指令,以提供量化数据作业的重要程度的服务。如图3所示,该方法包括以下步骤:
步骤310:采集数据作业的配置信息。
其中,该数据作业可以是来自于各个不同的调度平台,从而实现统一化的数据作业信息管理。
步骤320:解析所述数据作业的配置信息,确定不同数据作业之间的关系。
其中,配置信息的解析可以通过特定的作业解析程序自动化的执行完成,经过统一整合为合适的数据形式。在一些实施例中,如图5所示,可以对Ods层中不同的配置信息进行解析,生成Dwd层的血缘关系(亦即不同数据作业之间的关联情况)。
步骤330:根据所述数据作业之间的关系和预设的统计范围阈值,确定所述数据作业的关联矩阵。
“关联矩阵”是不同数据作业之间的依赖关系的矩阵表达形式。该“统计范围阈值”是一个由技术人员根据实际情况,而预先设置的筛选条件。
基于该统计范围阈值可以筛选确定具体需要评价的数据作业的范围。处于范围之内的数据作业的依赖关系由关联矩阵表示。
步骤340:基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值。
在实际操作中,可以采用任何合适的计算方法或者策略来计算确定不同数据作业对应的评分值。在本实施例中,基于数据作业被引用的广度以及深度来确定数据作业的重要性。
具体的,考虑到数据作业之间的依赖关系,可以使用被称为PageRank算法的计算方式来计算获得每一个数据作业的评分值。
PageRank算法是一个用以体现“网页”的相关性和重要性的算法。其主要的计算策略为:
首先,为每一个数据作业赋予一个随机值。然后,通过幂迭代法,根据数据作业之间的关系,迭代计算以更新所述数据作业的评分值。最后,判断所述数据作业的随机值是否满足预设的收敛条件。若是,结束所述迭代计算并输出所述数据作业的评分值。若否,则继续进行迭代计算直至满足收敛条件。
以下结合图4所示的图模型为例,详细的说明PageRank算法的具体计算过程:
如图4所示,统计范围内包括4个不同的数据作业A、B、C和D,每个作业数据的评分值被称为PR值。假设所有数据作业都依赖于A,那么可得如下算式(1):
PR(A)=PR(B)+PR(C)+PR(D) (1)
亦即,A的PR值将是B,C及D的和。
但是,如图4所示,B作业也连接到C作业,并且D作业也有连接到A作业。基于一个作业的权重总和为1的前提,A作业的PR值可以通过如下算式(2)表示:
Figure BDA0002100621550000081
由此,可以得到A作业的PR值的计算公式:
Figure BDA0002100621550000082
其中,L为某一个作业的依赖的作业数总和。
把调度系统里的各个作业之间的依赖关系看成一个有向图。假设新接入的数据作业均依赖来自于之前的一个作业,可以建立一个简化模型:
对于任意作业i,它的PageRank值通过如下算式(3)表示:
Figure BDA0002100621550000083
其中,PRi为作业i的PR值,PRj为作业j的PR值,Bi为所有依赖于作业i的作业集合,Lj为作业j的依赖的作业总数。
在实际执行过程中,首先给每个数据作业赋予随机的PR值,然后通过PRn+1=APRn的方式不断地迭代获得新的PR值,直至当满足如下算式(4)所示的条件为止。最后,输出所有数据作业的PR值:
|PRn+1-PRn|<∈ (4)
亦即,任意两个相邻的数据作业的PR值的差距小于一个恒定数值。
在本实施例中,基于PageRank算法计算获得的PR值的物理意义是:一个作业被依赖的概率。一般地,该概率可以表示为1/N,N为统计范围内数据作业的总数。
当然,所有数据作业的PR值的总和一般为1。但即使不为1,不同的数据作业之间PR值的相对大小关系仍然是正确的,只是无法反映实际的真实概率。
基于上述计算获得的评分值,可以对作业重要等级进行动态打分量化与等级分类,从而实现对作业及时有效且精细化管理,还可以进一步的快速定位无效作业,提高资源利用率。
当调度平台上应用和执行本实施例提供的评价方法时,可以为作业等级评定提供数据支撑。根据作业等级判断出无效作业,提高数据平台资源利用率,保证正常业务的顺利运行。
在一些实施例中,请继续参阅图3,基于已知的评分值,所述方法还可以包括:
步骤350:判断所述数据作业是否满足预设的评级设置,若是,执行步骤360;若否,执行步骤370。
该预设的评级设置是技术人员根据实际情况的需要,预先写入或者设置的一些评级策略配置,用于针对特定的数据作业进行调整,满足一些特殊的使用需求或者突发情况的处置。在一些实施例中,其可以以评级策略配置表的形式存在。
360:对所述数据作业的评分值进行对应的加权处理。
“加权处理”是指对评分值赋予与评级对应的权重系数,以调整不同数据作业在最终评价结果中的分值或者等级。具体的加权处理方法可以根据实际情况的需要相应的进行设置,其为本领域技术人员所熟知,在此不作赘述。
370:反馈所述数据作业的评价结果至对应的作业调度平台。
评价结果作为参考数据,可以被反馈到作业调度平台,由运维人员或者其他合适的操作者,进行数据作业的调度。其可以以任何合适的形式反馈并在作业调度平台中呈现,只需要能够直观的展现数据作业的重要程度或者重要性即可,例如可以写入到作业等级结果表中。
在另一些实施例中,除了加权处理以外,请继续参阅图3,基于已知的评分值,所述方法还可以包括:
步骤380:判断所述数据作业是否满足预设的人工调整标准;若是,执行步骤390;若否,执行步骤370。
该人工调整标准是技术人员根据实际应用场景的需要而设置的一个或者多个判断条件,用以衡量评分值是否需要人工介入进行调整。
步骤390:调整所述数据作业的评分值。
在存在需要人工调整的情况下,可以相应的对数据作业的评分值进行人工手动调整。该调整具体可以采用任何合适的形式,例如直接人工设定新的评分值等,只需要能够满足使用需要即可。
本发明实施例提供的评分方法额外设置了加权处理与人工调整两种不同的调整方式,可以对数据作业的评分值重新进行评估和计算,能够灵活的调整作业的等级,使数据平台可以更加灵活快速的响应业务的变化而具有更广泛的适用性。
图5示出了执行图3所示的评价方法的系统框架示意图。如图5所示,在该系统中,可以分为作业调度平台510、业务层级520以及实现程序530三个部分。
其中,作业调度平台510包含许多不同的子调度平台,包括服务作业调度子平台、计算作业调度子平台,Etl作业调度子平台等。这些作业调度平台的数据作业的配置信息可以被相应的Etl采集程序531采集获得,形成包含了各个数据作业的配置信息的近源层521(Ods层)。
基于预先设定的作业解析程序532,对配置信息进行解析,获得不同的数据作业之间的依赖关系,并且根据具体的阈值策略配置,确定具体的统计范围,集合中包含的数据作业,作为基础模型层522(Dwd层)。
另外,在基础模型层522的基础上,通过PageRank算法程序533,结合评级策略配置,人工调整以及加权处理调整评分值等,形成服务模型层523(Dws层)。
当然,由业务层级形成的数据作业的评价结果以合适的形式反馈至作业调度平台510中,协助完成数据作业的调度。
图6示出了本发明的评价装置实施例的结构示意图。如图6所示,该评价装置600包括:采集模块610,解析模块620以及评分模块630。
其中,所述采集模块610用于采集数据作业的配置信息。所述解析模块620用于解析所述数据作业的配置信息,确定不同数据作业之间的关系。所述评分模块630用于根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果。
其中,所述数据作业的评价结果包括预先划分的若干个作业重要等级;所述作业重要等级包括无效作业、重要作业以及一般作业。
本发明实施例提供的评价装置可以自动化的对多个数据作业进行量化和评分,获得最终的评价结果,可以解决大型数据应用系统在日常的作业调配过程中所存在的缺少定量评分,无法精细化管理,作业状态更新不及时,难以实现动态更新的问题。
在一种可选的方式中,所述评分模块630具体还可以用于:根据所述数据作业之间的关系和预设的统计范围阈值,确定所述数据作业的关联矩阵,并且基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值。
其中,所述评分模块630在执行基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值的步骤时,具体包括:
为每一个数据作业赋予一个随机值;通过幂迭代法,根据数据作业之间的关系,迭代计算以更新所述数据作业的评分值;判断所述数据作业的随机值是否满足预设的收敛条件;若是,结束所述迭代计算并输出所述数据作业的评分值。
基于PageRank算法,能够动态对数据作业的重要程度进行量化,快速直观的展现数据作业重要性,从而协助快速定位无效作业,提高资源利用率。
在一种可选的方式中,所述评分模块630还可以执行加权处理机制,用于判断所述数据作业是否满足预设的评级设置。并且,在满足预设的评级设置时,对所述数据作业的评分值进行对应的加权处理。
在一种可选的方式中,所述评分模块630还可以执行人工调整机制,用于判断所述数据作业是否满足预设的人工调整标准。并且,在满足人工调整标准时,调整所述数据作业的评分值。
通过额外设置的加权处理与人工调整,可以对数据作业的评分值重新进行评估和计算,能够灵活的调整数据作业的等级,使数据平台可以更加灵活快速的响应业务的变化而具有更广泛的适用性。
在一种可选的方式中,所述评分模块630还可以用于:反馈所述数据作业的评价结果至对应的作业调度平台。
反馈至作业调度平台的评价结果可以实现多种不同的数据作业之间的统一调度,能够更好的整合和调度资源分配,获得更高的处理效率。
本发明实施例提出一种计算机程序产品,用于执行上述数据作业的评价方法。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的数据作业的评价方法。
可执行指令具体可以用于使得处理器执行以下操作:采集数据作业的配置信息;解析所述数据作业的配置信息,确定不同数据作业之间的关系;根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果。
在一种可选的方式中,所述可执行指令使所述处理器在根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果时,执行以下操作:根据所述数据作业之间的关系和预设的统计范围阈值,确定所述数据作业的关联矩阵;基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值。
在一种可选的方式中,所述可执行指令使所述处理器在基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值时,执行以下操作:为每一个数据作业赋予一个随机值;通过幂迭代法,根据数据作业之间的关系,迭代计算以更新所述数据作业的评分值;判断所述数据作业的随机值是否满足预设的收敛条件;若是,结束所述迭代计算并输出所述数据作业的评分值。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:判断所述数据作业是否满足预设的评级设置;若是,对所述数据作业的评分值进行对应的加权处理。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:判断所述数据作业是否满足预设的人工调整标准;若是,调整所述数据作业的评分值。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:反馈所述数据作业的评价结果至对应的作业调度平台。
应用非易失性计算机存储介质可以自动化的对多个数据作业进行量化和评分,获得最终的评价结果,可以解决大型数据应用系统在日常的作业调配过程中所存在的缺少定量评分,无法精细化管理,作业状态更新不及时,难以实现动态更新的问题。
图7示出了本发明文本数据挖掘的电子设备实施例的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图7所示,该电子设备可以包括:处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其中:处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。通信接口704,用于与其它设备比如客户端或其它服务器等的网元通信。处理器702,用于执行程序710,具体可以执行上述用于用户感知的评价方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器706,用于存放程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行以下操作:采集数据作业的配置信息;解析所述数据作业的配置信息,确定不同数据作业之间的关系;根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果。
其中,所述数据作业的评价结果包括预先划分的若干个作业重要等级;所述作业重要等级包括无效作业、重要作业以及一般作业。
在一种可选的方式中,所述程序710使所述处理器执行以下操作:根据所述数据作业之间的关系和预设的统计范围阈值,确定所述数据作业的关联矩阵;基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值。
在一种可选的方式中,所述程序710使所述处理器执行以下操作:为每一个数据作业赋予一个随机值;通过幂迭代法,根据数据作业之间的关系,迭代计算以更新所述数据作业的评分值;判断所述数据作业的随机值是否满足预设的收敛条件;若是,结束所述迭代计算并输出所述数据作业的评分值。
在一种可选的方式中,所述程序710使所述处理器执行以下操作:判断所述数据作业是否满足预设的评级设置;若是,对所述数据作业的评分值进行对应的加权处理。
在一种可选的方式中,所述程序610使所述处理器执行以下操作:判断所述数据作业是否满足预设的人工调整标准;若是,调整所述数据作业的评分值。
在一种可选的方式中,所述程序610使所述处理器执行以下操作:反馈所述数据作业的评价结果至对应的作业调度平台。
该电子设备可以有效的自动化的对多个数据作业进行量化和评分,获得最终的评价结果,可以解决大型数据应用系统在日常的作业调配过程中所存在的缺少定量评分,无法精细化管理,作业状态更新不及时,难以实现动态更新的问题。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种数据作业的评价方法,其特征在于,所述方法包括:
采集数据作业的配置信息;
解析所述数据作业的配置信息,确定不同数据作业之间的关系;
根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果。
2.根据权利要求1所述的评价方法,其特征在于,所述根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果,具体包括:
根据所述数据作业之间的关系和预设的统计范围阈值,确定所述数据作业的关联矩阵;
基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值。
3.根据权利要求2所述的评价方法,其特征在于,所述基于所述关联矩阵,迭代计算获得每一个所述数据作业对应的评分值,具体包括:
为每一个数据作业赋予一个随机值;
通过幂迭代法,根据数据作业之间的关系,迭代计算以更新所述数据作业的评分值;
判断所述数据作业的随机值是否满足预设的收敛条件;
若是,结束所述迭代计算并输出所述数据作业的评分值。
4.根据权利要求2所述的评价方法,其特征在于,所述方法还包括:
判断所述数据作业是否满足预设的评级设置;
若是,对所述数据作业的评分值进行对应的加权处理。
5.根据权利要求2所述的评价方法,其特征在于,所述方法还包括:
判断所述数据作业是否满足预设的人工调整标准;
若是,调整所述数据作业的评分值。
6.根据权利要求1-5任一项所述的评价方法,其特征在于,所述方法还包括:
反馈所述数据作业的评价结果至对应的作业调度平台。
7.根据权利要求1-5任一项所述的评价方法,其特征在于,所述数据作业的评价结果包括预先划分的若干个作业重要等级;所述作业重要等级包括无效作业、重要作业以及一般作业。
8.一种数据作业的评价装置,其特征在于,所述评价装置包括:
采集模块,用于采集数据作业的配置信息;
解析模块,用于解析所述数据作业的配置信息,确定不同数据作业之间的关系;
评分模块,用于根据所述数据作业之间的关系,计算获得用于定量衡量所述数据作业的重要程度的评价结果。
9.一种文本数据挖掘的电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行执行根据权利要求1-7任一项所述的数据作业的评价方法的步骤。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据权利要求1-7任一项所述的数据作业的评价方法的步骤。
CN201910534005.5A 2019-06-19 2019-06-19 数据作业的评价方法、装置及电子设备 Pending CN112114941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910534005.5A CN112114941A (zh) 2019-06-19 2019-06-19 数据作业的评价方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910534005.5A CN112114941A (zh) 2019-06-19 2019-06-19 数据作业的评价方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112114941A true CN112114941A (zh) 2020-12-22

Family

ID=73795119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910534005.5A Pending CN112114941A (zh) 2019-06-19 2019-06-19 数据作业的评价方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112114941A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716259A (zh) * 2004-05-14 2006-01-04 微软公司 基于内部-类型和交互-类型关系来排列对象的方法和系统
US20100281035A1 (en) * 2009-04-30 2010-11-04 David Carmel Method and System of Prioritising Operations On Network Objects
CN105447131A (zh) * 2015-11-18 2016-03-30 合一网络技术(北京)有限公司 网络资源关联性确定方法和装置
CN108536590A (zh) * 2018-02-09 2018-09-14 武汉楚鼎信息技术有限公司 一种系统服务重要程度评级的方法及系统装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716259A (zh) * 2004-05-14 2006-01-04 微软公司 基于内部-类型和交互-类型关系来排列对象的方法和系统
US20100281035A1 (en) * 2009-04-30 2010-11-04 David Carmel Method and System of Prioritising Operations On Network Objects
CN105447131A (zh) * 2015-11-18 2016-03-30 合一网络技术(北京)有限公司 网络资源关联性确定方法和装置
CN108536590A (zh) * 2018-02-09 2018-09-14 武汉楚鼎信息技术有限公司 一种系统服务重要程度评级的方法及系统装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CSDN_LZW: "PageRank", pages 1 - 4, Retrieved from the Internet <URL:《https://blog.csdn.net/csdn_lzw/article/details/79733962》> *

Similar Documents

Publication Publication Date Title
US10360517B2 (en) Distributed hyperparameter tuning system for machine learning
US10460241B2 (en) Server and cloud computing resource optimization method thereof for cloud big data computing architecture
US10354201B1 (en) Scalable clustering for mixed machine learning data
WO2019047790A1 (zh) 生成机器学习样本的组合特征的方法及系统
DE112012004336T5 (de) System, Verfahren und Programmprodukt für kostenbewusste Auswahl von Vorlagen zum Bereitstellen von gemeinsam genutzten Ressourcen
US10628766B2 (en) Method and system for enabling dynamic capacity planning
DE112012004999T5 (de) Beschleunigungselement zur Cloud-Bereitstellung
DE112016001902T5 (de) Schätzen von Rechenressourcen für die Ausführung von Data-Mining-Diensten
DE112021006130T5 (de) Automatisierte orchestrierung von containern durch bewerten von mikrodiensten
CN104298550A (zh) 一种面向Hadoop的动态调度方法
CN110532154B (zh) 应用系统扩容方法、装置和设备
CN110942086A (zh) 数据预测优化方法、装置、设备及可读存储介质
CN112508723B (zh) 基于自动择优建模的金融风险预测方法、装置和电子设备
CN112052082B (zh) 任务属性优化方法、装置、服务器及存储介质
CN112017042A (zh) 基于tweedie分布的资源配额确定方法、装置和电子设备
DE112020003744T5 (de) Durch dienstqualitätskriterien vorgegebenes automatisiertes betriebsdatenmanagement
CN112015562A (zh) 基于迁移学习的资源分配方法、装置及电子设备
CN111198897A (zh) 科研热点主题分析方法、装置与电子设备
US11360822B2 (en) Intelligent resource allocation agent for cluster computing
CN112114941A (zh) 数据作业的评价方法、装置及电子设备
CN116187675A (zh) 任务分配方法、装置、设备及存储介质
CN113298120B (zh) 基于融合模型的用户风险预测方法、系统和计算机设备
CN113570114B (zh) 一种资源服务智能匹配方法、系统和计算机设备
CN113570207B (zh) 用户策略分配方法、装置及电子设备
CN115202847A (zh) 任务的调度方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination