CN112148491A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN112148491A
CN112148491A CN202011031362.9A CN202011031362A CN112148491A CN 112148491 A CN112148491 A CN 112148491A CN 202011031362 A CN202011031362 A CN 202011031362A CN 112148491 A CN112148491 A CN 112148491A
Authority
CN
China
Prior art keywords
processed
task
value
tasks
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011031362.9A
Other languages
English (en)
Other versions
CN112148491B (zh
Inventor
杨泽森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN202011031362.9A priority Critical patent/CN112148491B/zh
Publication of CN112148491A publication Critical patent/CN112148491A/zh
Application granted granted Critical
Publication of CN112148491B publication Critical patent/CN112148491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Abstract

本申请实施例提供一种数据处理方法及装置,该方法包括:获取待处理任务的数量,以及各所述待处理任务之间的链路依赖关系;获取每个待处理任务的权重值;根据所述待处理任务的数量、所述链路依赖关系、以及所述每个待处理任务的权重值,确定每个待处理任务的重要等级。本申请实施例的方案,通过待处理任务的数量、权重值和链路依赖关系来确定待处理任务的重要等级,提高了待处理任务重要等级标识的准确性。

Description

数据处理方法及装置
技术领域
本申请实施例涉及大数据技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着大数据时代的到来,企业中每天需要计算海量的大数据,用于支撑企业营销和运营。
由于大数据的任务数量规模巨大,通常在万级、十万级甚至百万级。由于计算任务庞大,因此需要对计算任务进行重要度标识,以便优先处理较为重要的计算任务。目前的重要度标识主要是通过人工主观设置,对整体的大数据平台而言作业的重要程度不够准确。
发明内容
本发明实施例提供一种数据处理方法及装置,以解决通过人工主观设置待处理任务的重要等级,标识不够准确的问题。
第一方面,本申请实施例提供一种数据处理方法,包括:
获取待处理任务的数量,以及各所述待处理任务之间的链路依赖关系;
获取每个待处理任务的权重值;
根据所述待处理任务的数量、所述链路依赖关系、以及所述每个待处理任务的权重值,确定每个待处理任务的重要等级。
在一种可能的实施方式中,根据所述待处理任务的数量、所述链路依赖关系、以及所述每个待处理任务的权重值,确定每个待处理任务的重要等级,包括:
获取每个待处理任务的初始网页排名PR值;
根据所述链路依赖关系,确定每个待处理任务的出链任务,所述待处理任务的出链任务为需要获取所述待处理任务的处理结果进行处理的任务;
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的重要等级。
在一种可能的实施方式中,根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的重要等级,包括:
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的稳定PR值;
根据每个待处理任务的稳定PR值,确定每个待处理任务的重要等级。
在一种可能的实施方式中,根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的稳定PR值,包括:
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值进行迭代处理,得到每次迭代后的每个待处理任务的PR值;
在所述迭代处理的次数大于或等于预设次数,或者,两次迭代后得到的每个待处理任务的PR值的差值均小于或等于预设值时,停止所述迭代处理,并将最后一次迭代处理得到的每个待处理任务的PR值确定为每个待处理任务的稳定PR值。
在一种可能的实施方式中,获取每个待处理任务的权重值,包括:
获取每个待处理任务的业务维度信息和平台维度信息;
根据每个待处理任务的业务维度信息和平台维度信息,获取每个待处理任务的权重值。
在一种可能的实施方式中,所述方法还包括:
根据每个待处理任务的稳定PR值,确定各资源队列的重要等级;
根据各资源队列的重要等级,确定各资源队列的计算资源,其中,各所述资源队列的计算资源与各所述资源队列的重要等级呈正相关。
在一种可能的实施方式中,根据每个待处理任务的稳定PR值,确定各资源队列的重要等级,包括:
确定每个资源队列下包括的待处理任务;
根据每个资源队列下包括的待处理任务中每个待处理任务的稳定PR值,确定每个资源队列的PR值之和;
根据每个资源队列的PR值之和,确定各资源队列的重要等级。
第二方面,本申请实施例提供一种数据处理装置,包括:
第一获取模块,用于获取待处理任务的数量,以及各所述待处理任务之间的链路依赖关系;
第二获取模块,用于获取每个待处理任务的权重值;
处理模块,用于根据所述待处理任务的数量、所述链路依赖关系、以及所述每个待处理任务的权重值,确定每个待处理任务的重要等级。
在一种可能的实施方式中,所述处理模块具体用于:
获取每个待处理任务的初始网页排名PR值;
根据所述链路依赖关系,确定每个待处理任务的出链任务,所述待处理任务的出链任务为需要获取所述待处理任务的处理结果进行处理的任务;
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的重要等级。
在一种可能的实施方式中,所述处理模块具体用于:
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的稳定PR值;
根据每个待处理任务的稳定PR值,确定每个待处理任务的重要等级。
在一种可能的实施方式中,所述处理模块具体用于:
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值进行迭代处理,得到每次迭代后的每个待处理任务的PR值;
在所述迭代处理的次数大于或等于预设次数,或者,两次迭代后得到的每个待处理任务的PR值的差值均小于或等于预设值时,停止所述迭代处理,并将最后一次迭代处理得到的每个待处理任务的PR值确定为每个待处理任务的稳定PR值。
在一种可能的实施方式中,所述第二获取模块具体用于:
获取每个待处理任务的业务维度信息和平台维度信息;
根据每个待处理任务的业务维度信息和平台维度信息,获取每个待处理任务的权重值。
在一种可能的实施方式中,所述处理模块还用于:
根据每个待处理任务的稳定PR值,确定各资源队列的重要等级;
根据各资源队列的重要等级,确定各资源队列的计算资源,其中,各所述资源队列的计算资源与各所述资源队列的重要等级呈正相关。
在一种可能的实施方式中,所述处理模块具体还用于:
确定每个资源队列下包括的待处理任务;
根据每个资源队列下包括的待处理任务中每个待处理任务的稳定PR值,确定每个资源队列的PR值之和;
根据每个资源队列的PR值之和,确定各资源队列的重要等级。
第三方面,本申请实施例提供一种电子设备,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如第一方面中任一所述的数据处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如第一方面中任一所述的数据处理方法。
本申请实施例提供的数据处理方法及装置,首先获取待处理任务的数量以及各待处理任务之间的链路依赖关系,通过各待处理任务之间的链路依赖关系,能够获知各待处理任务之间的关联,然后获取每个待处理任务的权重值,通过权重值对每个待处理任务进行初步的重要程度的标识,最后根据待处理任务的数量、各待处理任务之间的链路依赖关系以及每个待处理任务的权重值,来确定每个待处理任务的重要等级。本申请实施例的方案,无需人工对待处理任务的重要等级进行划分,而是通过待处理任务的数量、链路依赖关系和权重值来确定,避免了人工划分的主观性,提高了待处理任务的重要等级的标识的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的数据处理方法的流程示意图;
图3为本申请实施例提供的待处理任务的重要等级确定方法的流程示意图;
图4为本申请实施例提供的资源队列和待处理任务的关系示意图;
图5为本申请实施例提供的数据处理装置的结构示意图;
图6为本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,首先,对本申请所涉及的概念进行说明。
大数据:big data,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
Hadoop集群:一个分布式系统基础架构。
PageRank:网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。
AD HOC即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。
批处理:(Batch),也称为批处理脚本。批处理就是对某对象进行批量的处理。
实时计算:realtime computation,一种时间复杂性较低的计算,支持实时的数据分析与业务计算,对规模巨大的数据进行分析,利用大数据技术高效的快速完成分析,达到近似实时的效果,更及时的反映数据的价值和意义。
下面,结合图1,对本申请中的数据处理方法所适用的场景进行说明。
图1为本申请实施例提供的一种应用场景示意图,如图1所示,随着大数据时代的到来,企业中每天存在海量的大数据计算,用于支撑企业营销和运营。
在大数据平台中或数据中台中或数据仓库环境会存在大量的Hadoop批处理计算任务、Spark实时计算任务、Presto即席查询计算任务、Flink实时计算任务等,任务数量规模在万级、十万级、百万级规模不等。这样海量的大数据计算任务其研发人员往往是分布在不同的子集团、子公司、业务部门。在海量数据规模增长情况下,大数据平台会存在海量数据计算任务,平台的数据管理部门和运维部门、企业决策部门很难在海量任务中分辨出任务的重要程度。难以对平台作业的重要作业进行精准化支持。
目前,虽然在部分大数据平台或数据中台中,对大数据任务做了业务重要程度的标识,但是该标识是作业负责人主观设置,存在片面性和主观性,对与整体大数据平台或数据中台来说作业的重要程度不够准确,不能作为平台管控的决策依据。大数据平台的运营管理人员很难做到对集团或子公司不同层级关心的任务进行重点关注和进行有效的支持。同时,大数据平台或数据中台需要根据任务的重要程度对平台资源进行精准化管理和调度,任务的重要程度是参考的核心因素,任务重要程度直接影响到资源队列的重要程度,以及平台管理方对队列和任务的资源调度策略。
基于此,本申请实施例提供一种数据处理方案,通过待处理任务的相关信息对待处理任务进行重要等级的划分,并进一步根据待处理任务的重要等级确定资源队列的重要等级,从而确定计算资源的分配,优先保证更重要的待处理任务进行及时高效的处理。
在图1中,任务/资源队列重要等级分级智能引擎对任务进行重要度划分,采用PageRank算法结合作业权重进行计算,作业重要程度结果可以同步到大数据平台的作业中心和资源调度模块,支持大数据平台运营管理人员提升作业管理效率。
资源队列的重要程度基于任务重要度评分汇总后进行等级划分,资源队列重要程度结果会同步到大数据平台资源调度模块以及大数据平台的集群管理团队,对资源队列进行分级管控。
资源调度模块是大数据平台提升资源使用效率的资源优化引擎,可以根据资源队列的重要程度、资源队列的资源使用时间趋势采用动态资源调度的方法,实现重点资源队列的资源保障、空闲队列的资源动态调度给核心队列或重要队列。从而达到资源合理使用、降本增效的目的。
下面将结合附图对本申请的方案进行介绍。
图2为本申请实施例提供的数据处理方法的流程示意图,如图2所示,该方法可以包括:
S21,获取待处理任务的数量,以及各所述待处理任务之间的链路依赖关系。
待处理任务的数量即为所有的需要处理的待处理任务的总数量,各待处理任务之间的链路依赖关系反映了各个待处理任务之间的关系。本申请实施例中,链路依赖关系主要反应的是各个待处理任务的出链任务,即某一个待处理任务的处理需要另一个待处理任务的处理结果,则这两个待处理任务之间具备链路依赖关系。
例如,现有A任务和B任务这两个待处理任务,均为财务相关的待处理任务。其中,A任务为统计本月的请款单,B任务为进行下月的财务预算报告。本月的请款单主要统计的是本月的各项支出,而下月的财务预算报告通常需要根据本月的各项支出来进行预计。因此针对A任务和B任务这两个任务而言,B任务的处理需要A任务的处理结果,此时A任务和B任务之间具备链路依赖关系。
上述实施例中以A任务和B任务这两个财务相关的任务为例对链路依赖关系进行说明,实际中具备链路依赖关系的任务不限于财务相关的任务,只要两个待处理任务中,一个待处理任务的处理需要另一个待处理任务的处理结果,则可以确定两个待处理任务之间有链路依赖关系。
S22,获取每个待处理任务的权重值。
待处理任务的权重值是对待处理任务的重要程度进行的初始划分,主要是根据每个待处理任务的相关维度信息来确定的,例如平台维度和业务维度。
S23,根据所述待处理任务的数量、所述链路依赖关系、以及所述每个待处理任务的权重值,确定每个待处理任务的重要等级。
在确定了待处理任务的数量、各个待处理任务之间的链路依赖关系以及每个待处理任务的权重值之后,即可确定每个待处理任务的重要等级。在其他条件相同时,若待处理任务的权重值越大,则其重要等级越高,若待处理任务具备的链路依赖关系的任务越多,则其重要等级越高。
本申请实施例提供的数据处理方法,首先获取待处理任务的数量以及各待处理任务之间的链路依赖关系,通过各待处理任务之间的链路依赖关系,能够获知各待处理任务之间的关联,然后获取每个待处理任务的权重值,通过权重值对每个待处理任务进行初步的重要程度的标识,最后根据待处理任务的数量、各待处理任务之间的链路依赖关系以及每个待处理任务的权重值,来确定每个待处理任务的重要等级。本申请实施例的方案,无需人工对待处理任务的重要等级进行划分,而是通过待处理任务的数量、链路依赖关系和权重值来确定,避免了人工划分的主观性,提高了待处理任务的重要等级的标识的准确性。
下面将结合附图对本申请的方案进行详细介绍。
针对海量的待处理任务,在进行处理时,主要包括两个方面,首先是待处理任务的重要等级的划分,确定每个待处理任务的重要等级。其次,在确定了待处理任务的重要等级之后,进一步确定各个资源队列的重要等级。在完成资源队列的重要等级的确定之后,就可以根据各个资源队列的重要等级,进行计算资源的划分,并对每个资源队列下的待处理任务进行高效的处理。
首先介绍待处理任务的重要等级的确定。图3为本申请实施例提供的待处理任务的重要等级确定方法的流程示意图,如图3所示,包括:
S31,获取每个待处理任务的初始网页排名PR(PageRank,网页排名)值。
本申请实施例中,待处理任务的重要等级的确定,是通过PageRank算法实现的。具体的,在获取了待处理任务的数量、各待处理任务之间的链路依赖关系以及每个待处理任务的权重值之后,首先获取每个待处理任务的初始PR值。
每个待处理任务的权重值是预先设定的,是根据待处理任务的相关信息,进行的一个初步的重要度划分。本申请实施例中,待处理任务的权重值主要是通过待处理任务的业务维度信息和平台维度信息来确定的。
由于大数据平台下的待处理任务具有不同的应用范围、不同的预警级别等附加信息,因此,这些信息在计算待处理任务的PR值时可基于业务维度和平台维度进行加权。表1为一种可能的加权方式。
表1
Figure BDA0002703784050000091
如表1所示,权重维度分类可以分为业务维度和平台维度,其中,业务维度主要衡量待处理任务是否具有业务应用标签,若待处理任务具有业务应用标签,则表示该任务具有强业务依赖。平台维度主要涉及3个方面,第一个方面衡量待处理任务直接子依赖是否包含报表系统、生产系统、应用app,若包含,则表示该任务具有直接业务应用;第二个方面衡量待处理任务是否监控告警,若是,则表示该任务失败触发告警信息;第三个方面衡量待处理任务是否为线上任务,若是,则表示该任务为平台生产作业。
针对上述不同维度,各设置了不同的权重值,其中,是否具有业务应用标签这一指标的权重值为3,直接子依赖是否包含报表系统、生产系统、应用app这一指标的权重值为2,是否监控告警和是否线上任务这两个指标的权重值均为1。
需要说明的是,上述权重值的设置仅仅为一种举例,并不构成对实际的权重值设置的限定,针对不同的大数据平台,权重值的设置也可进行相应的调整。同时,针对一个待处理任务,其可能存在多个维度。例如,某待处理任务既监控告警也是线上任务,此时该待处理任务的权重值可以在这几个维度上进行叠加。例如以表1中的权重值设置为例,此时该待处理任务的权重值就应当是2。
S32,根据所述链路依赖关系,确定每个待处理任务的出链任务,所述待处理任务的出链任务为需要获取所述待处理任务的处理结果进行处理的任务。
根据各待处理任务之间的链路依赖关系,可以确定每个待处理任务的出链任务,其中,待处理任务的出链任务为需要获取待处理任务的处理结果进行处理的任务。
S33,根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的重要等级。
确定了每个待处理任务的权重值之后,就可以根据每个待处理任务的初始PR值、待处理任务的数量、每个待处理任务的出链任务以及权重值,确定每个待处理任务的稳定PR值。
具体的,可以根据初始PR值、待处理任务的数量、每个待处理任务的出链任务、以及权重值进行迭代处理,得到每次迭代后的每个待处理任务的PR值。
在迭代处理的次数大于或等于预设次数,或者,两次迭代后得到的每个待处理任务的PR值的差值均小于或等于预设值时,停止迭代处理,并将最后一次迭代处理得到的每个待处理任务的PR值确定为每个待处理任务的稳定PR值。
其中,进行稳定PR值计算的公式如下:
Figure BDA0002703784050000101
其中,
Figure BDA0002703784050000102
为所有对待处理任务pi有出链的任务集合,L(pj)为待处理任务pj的出链任务的数目,N为待处理任务的数量,α为预设值,例如,可以取0.85,但不仅局限于此。
通过上述公式,可以进行迭代处理,迭代多次后,当满足停止迭代条件时,停止迭代处理,即可得到每个待处理任务的稳定PR值。
在确定了每个待处理任务的稳定PR值之后,即可得到每个待处理任务的重要等级。具体的,可以根据每个待处理任务的稳定PR值,进行分类,将待处理任务的重要等级分为不同的类别。
表2示例了一种重要等级划分方式,基于上述方案,进行迭代计算之后,得到每个待处理任务的稳定PR值,其中,稳定PR值大于或等于1E-4(也记为1*10-4,即表示1乘以10的负4次方)的为核心任务,稳定PR值大于或等于1E-5且小于1E-4的为重要任务,稳定PR值小于1E-5的为普通任务。
表2
Figure BDA0002703784050000111
在确定了每个待处理任务的稳定PR值之后,可以根据每个待处理任务的稳定PR值,确定各资源队列的重要等级,并进一步根据各资源队列的重要等级,确定各资源队列的计算资源。
图4为本申请实施例提供的资源队列和待处理任务的关系示意图,如图4所示,示出了3个资源队列,分别是资源队列A、资源队列B和资源队列C。一个资源队列下可能包括一个或多个待处理任务,每个资源队列会被分配相应的计算资源,分配的计算资源用于对该资源队列下的待处理任务进行处理。在图4中,资源队列A下包括待处理任务1、待处理任务2和待处理任务3,资源队列B下包括待处理任务4、待处理任务5和待处理任务6,资源队列C下包括待处理任务7、待处理任务8和待处理任务9。
在对待处理任务进行处理,得到了每个待处理任务的稳定PR值之后,由于稳定PR值反应了待处理任务的重要程度,因此,可以首先确定每个资源队列下包括的待处理任务,然后根据每个资源队列下包括的待处理任务中每个待处理任务的稳定PR值,确定每个资源队列的PR值之和,最后根据每个资源队列的PR值之和,确定各资源队列的重要等级。
例如在图4中,资源队列A下包括3个待处理任务,分别是待处理任务1、待处理任务2和待处理任务3,则资源队列A的PR值之和为待处理任务1、待处理任务2和待处理任务3这三个待处理任务的稳定PR值之和。
根据如上的方法得到每个资源队列的PR之和之后,即可确定各资源队列的重要等级。表3示例了一种资源队列的重要等级的划分方式,其中,根据PR值的不同,将资源队列划分了3个等级,分别是核心队列、重要队列和开发队列,每个等级的队列对应不同的PR值之和等级区间。
表3
Figure BDA0002703784050000112
Figure BDA0002703784050000121
在确定了各资源队列的重要等级之后,即可根据各资源队列的重要等级确定各资源队列的计算资源,其中,资源队列的计算资源与资源队列的重要等级呈正相关。即,资源队列的等级越重要,则会为该资源队列分配更多的计算资源,优先保证重要等级高的资源队列下的待处理任务被处理。
例如,在图4中,待处理任务1的稳定PR值为8E-3,待处理任务2的稳定PR值为3E-3,待处理任务3的稳定PR值为6E-5,则待处理任务1和待处理任务2为核心作业,待处理任务3为重要作业。资源队列A下的PR之和为1.106E-2,根据表3可知资源队列A为核心队列。
待处理任务4的稳定PR值为7E-4,待处理任务5的稳定PR值为5E-4,待处理任务6的稳定PR值为3E-6,则待处理任务4和待处理任务5为核心作业,待处理任务6为普通作业。资源队列B下的PR之和为1.203E-3,根据表3可知资源队列B为重要队列。
待处理任务7的稳定PR值为2E-5,待处理任务8的稳定PR值为5E-6,待处理任务9的稳定PR值为4E-6,则待处理任务7为重要作业,待处理任务8和待处理任务9为普通作业。资源队列C下的PR之和为2.9E-5,根据表3可知资源队列C为开发队列。
资源队列A中包括2个核心作业,1个重要作业,资源队列B中包括2个核心作业,1个普通作业,资源队列C中包括1个重要作业,2个普通作业,资源队列A为核心队列,资源队列B为重要队列,资源队列C为开发队列。从而,在进行计算资源的分配时,可以将更多的计算资源分配给资源队列A,资源队列B次之,资源队列C分配的计算资源在三者中最少。
本申请实施例提供的数据处理方法,首先获取待处理任务的数量以及各待处理任务之间的链路依赖关系,通过各待处理任务之间的链路依赖关系,能够获知各待处理任务之间的关联,然后获取每个待处理任务的权重值,通过权重值对每个待处理任务进行初步的重要程度的标识,最后根据待处理任务的数量、各待处理任务之间的链路依赖关系以及每个待处理任务的权重值,来确定每个待处理任务的重要等级。本申请实施例的方案,无需人工对待处理任务的重要等级进行划分,而是通过待处理任务的数量、链路依赖关系和权重值来确定,避免了人工划分的主观性,提高了待处理任务的重要等级的标识的准确性。
图5为本申请实施例提供的数据处理装置的结构示意图,如图5所示,包括:
第一获取模块51,用于获取待处理任务的数量,以及各所述待处理任务之间的链路依赖关系;
第二获取模块52,用于获取每个待处理任务的权重值;
处理模块53,用于根据所述待处理任务的数量、所述链路依赖关系、以及所述每个待处理任务的权重值,确定每个待处理任务的重要等级。
在一种可能的实施方式中,所述处理模块53具体用于:
获取每个待处理任务的初始网页排名PR值;
根据所述链路依赖关系,确定每个待处理任务的出链任务,所述待处理任务的出链任务为需要获取所述待处理任务的处理结果进行处理的任务;
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的重要等级。
在一种可能的实施方式中,所述处理模块53具体用于:
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的稳定PR值;
根据每个待处理任务的稳定PR值,确定每个待处理任务的重要等级。
在一种可能的实施方式中,所述处理模块53具体用于:
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值进行迭代处理,得到每次迭代后的每个待处理任务的PR值;
在所述迭代处理的次数大于或等于预设次数,或者,两次迭代后得到的每个待处理任务的PR值的差值均小于或等于预设值时,停止所述迭代处理,并将最后一次迭代处理得到的每个待处理任务的PR值确定为每个待处理任务的稳定PR值。
在一种可能的实施方式中,所述第二获取模块52具体用于:
获取每个待处理任务的业务维度信息和平台维度信息;
根据每个待处理任务的业务维度信息和平台维度信息,获取每个待处理任务的权重值。
在一种可能的实施方式中,所述处理模块53还用于:
根据每个待处理任务的稳定PR值,确定各资源队列的重要等级;
根据各资源队列的重要等级,确定各资源队列的计算资源,其中,各所述资源队列的计算资源与各所述资源队列的重要等级呈正相关。
在一种可能的实施方式中,所述处理模块53具体还用于:
确定每个资源队列下包括的待处理任务;
根据每个资源队列下包括的待处理任务中每个待处理任务的稳定PR值,确定每个资源队列的PR值之和;
根据每个资源队列的PR值之和,确定各资源队列的重要等级。
本申请实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本申请实施例提供的电子设备的硬件结构示意图,如图6所示,该电子设备包括:至少一个处理器61和存储器62。其中,处理器61和存储器62通过总线63连接。
可选地,该模型确定还包括通信部件。例如,通信部件可以包括接收器和/或发送器。
在具体实现过程中,至少一个处理器61执行所述存储器62存储的计算机执行指令,使得至少一个处理器61执行如上的数据处理方法。
处理器61的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述图6所示的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的数据处理方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待处理任务的数量,以及各所述待处理任务之间的链路依赖关系;
获取每个待处理任务的权重值;
根据所述待处理任务的数量、所述链路依赖关系、以及所述每个待处理任务的权重值,确定每个待处理任务的重要等级。
2.根据权利要求1所述的方法,其特征在于,根据所述待处理任务的数量、所述链路依赖关系、以及所述每个待处理任务的权重值,确定每个待处理任务的重要等级,包括:
获取每个待处理任务的初始网页排名PR值;
根据所述链路依赖关系,确定每个待处理任务的出链任务,所述待处理任务的出链任务为需要获取所述待处理任务的处理结果进行处理的任务;
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的重要等级。
3.根据权利要求2所述的方法,其特征在于,根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的重要等级,包括:
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的稳定PR值;
根据每个待处理任务的稳定PR值,确定每个待处理任务的重要等级。
4.根据权利要求3所述的方法,其特征在于,根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值,确定每个待处理任务的稳定PR值,包括:
根据所述初始PR值、所述待处理任务的数量、所述每个待处理任务的出链任务、以及所述权重值进行迭代处理,得到每次迭代后的每个待处理任务的PR值;
在所述迭代处理的次数大于或等于预设次数,或者,两次迭代后得到的每个待处理任务的PR值的差值均小于或等于预设值时,停止所述迭代处理,并将最后一次迭代处理得到的每个待处理任务的PR值确定为每个待处理任务的稳定PR值。
5.根据权利要求1-4任一项所述的方法,其特征在于,获取每个待处理任务的权重值,包括:
获取每个待处理任务的业务维度信息和平台维度信息;
根据每个待处理任务的业务维度信息和平台维度信息,获取每个待处理任务的权重值。
6.根据权利要求2-4任一项所述的方法,其特征在于,所述方法还包括:
根据每个待处理任务的稳定PR值,确定各资源队列的重要等级;
根据各资源队列的重要等级,确定各资源队列的计算资源,其中,各所述资源队列的计算资源与各所述资源队列的重要等级呈正相关。
7.根据权利要求6所述的方法,其特征在于,根据每个待处理任务的稳定PR值,确定各资源队列的重要等级,包括:
确定每个资源队列下包括的待处理任务;
根据每个资源队列下包括的待处理任务中每个待处理任务的稳定PR值,确定每个资源队列的PR值之和;
根据每个资源队列的PR值之和,确定各资源队列的重要等级。
8.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取待处理任务的数量,以及各所述待处理任务之间的链路依赖关系;
第二获取模块,用于获取每个待处理任务的权重值;
处理模块,用于根据所述待处理任务的数量、所述链路依赖关系、以及所述每个待处理任务的权重值,确定每个待处理任务的重要等级。
9.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如权利要求1至7中任一所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至7中任一所述的数据处理方法。
CN202011031362.9A 2020-09-27 2020-09-27 数据处理方法及装置 Active CN112148491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011031362.9A CN112148491B (zh) 2020-09-27 2020-09-27 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011031362.9A CN112148491B (zh) 2020-09-27 2020-09-27 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN112148491A true CN112148491A (zh) 2020-12-29
CN112148491B CN112148491B (zh) 2023-12-05

Family

ID=73894773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011031362.9A Active CN112148491B (zh) 2020-09-27 2020-09-27 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112148491B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038559A (zh) * 2006-09-11 2007-09-19 中国工商银行股份有限公司 批量任务调度引擎及调度方法
CN109062680A (zh) * 2018-08-15 2018-12-21 腾讯科技(深圳)有限公司 一种数据加载方法、装置和存储介质
US20190034223A1 (en) * 2016-03-31 2019-01-31 Alibaba Group Holding Limited Task resource scheduling method and apparatus
CN109491761A (zh) * 2018-11-07 2019-03-19 中国石油大学(华东) 基于eda-ga混合算法的云计算多目标任务调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038559A (zh) * 2006-09-11 2007-09-19 中国工商银行股份有限公司 批量任务调度引擎及调度方法
US20190034223A1 (en) * 2016-03-31 2019-01-31 Alibaba Group Holding Limited Task resource scheduling method and apparatus
CN109062680A (zh) * 2018-08-15 2018-12-21 腾讯科技(深圳)有限公司 一种数据加载方法、装置和存储介质
CN109491761A (zh) * 2018-11-07 2019-03-19 中国石油大学(华东) 基于eda-ga混合算法的云计算多目标任务调度方法

Also Published As

Publication number Publication date
CN112148491B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN108959399A (zh) 分布式数据删除流控方法、装置、电子设备及存储介质
CN112365070A (zh) 一种电力负荷预测方法、装置、设备及可读存储介质
US20140289007A1 (en) Scenario based customer lifetime value determination
CN110866698A (zh) 用于评定服务提供方的服务分值的装置
CN105740434B (zh) 网络信息评分方法及装置
CN111833018A (zh) 一种科技项目的专利分析方法及系统
CN113361980A (zh) 一种大数据资产价值评估的系统和方法
CN108833592A (zh) 云主机调度器优化方法、装置、设备及存储介质
CN115202847A (zh) 任务的调度方法和装置
CN109583773A (zh) 一种纳税信用积分确定的方法、系统及相关装置
CN113869700A (zh) 一种绩效指标预测方法、装置、电子设备和存储介质
CN112950359A (zh) 一种用户识别方法和装置
CN114996165B (zh) 一种业务数据审核方法及装置、存储介质及电子设备
CN112148491A (zh) 数据处理方法及装置
CN115563310A (zh) 一种关键业务节点的确定方法、装置、设备及介质
CN115729687A (zh) 任务调度方法、装置、计算机设备、存储介质
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
CN115033456A (zh) 一种内网前端性能监控方法、装置、计算机设备及存储介质
CN115204501A (zh) 企业评估方法、装置、计算机设备和存储介质
CN114676177A (zh) 一种金融指标的确定方法、装置、设备、介质及产品
CN114490406A (zh) 测试覆盖项管理方法、装置、设备及介质
CN110705816B (zh) 基于大数据的任务分配方法和装置
CN114970928A (zh) 一种电力数据能耗分析预测方法
CN112016791A (zh) 资源分配方法、装置及电子设备
CN114816770B (zh) 一种衡量计算机服务压力状态的通用系统及实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

GR01 Patent grant
GR01 Patent grant