大数据计算任务的处理方法和系统
技术领域
本申请涉及计算机技术领域,特别是涉及一种大数据计算任务的处理方法和系统。
背景技术
大数据计算,在高速发展的今天,其重要性不言而喻,如何以较少的成本保证计算的可靠性是很多公司面临的问题,当前用数据库语言编写大数据计算任务已经广泛流行,如Spark、ElasticSearch、Hbase等均已实现或正在开发数据库接口。
但现有的可计算任务系统可靠性差,不能随意切换计算环境。
发明内容
基于此,有必要针对上述技术问题,提供一种系统可靠性高,可以随意切换计算环境的大数据计算任务的处理方法和系统。
一种大数据计算任务的处理方法,所述方法包括:
接收数据获取指令,所述数据获取指令携带用户标识和任务数据标识;
获取流量配置表,从流量配置表中读取与所述任务数据标识对应的流量参数;
根据所述用户标识计算对应的流量匹配值,基于所述流量匹配值与流量参数计算得到比较结果,根据所述比较结果从候选任务计算环境中确定所述用户标识对应的目标任务计算环境;
从所述目标任务计算环境对应的目标数据库读取所述任务数据标识对应的任务计算结果,向用户标识对应的终端返回所述任务计算结果。
在其中一个实施例中,所述方法还包括:
各个候选任务计算环境获取所述任务数据标识对应的标准任务计算结果,将所述标准计算结果与各个候选任务计算环境计算出的当前任务计算结果比较,得到所述任务数据标识在各个候选任务计算环境的环境反馈信息;
后台服务器接收各个候选任务计算环境对应的环境反馈信息,根据环境反馈信息调整所述任务数据标识在各个候选任务计算环境下对应的流量参数;
所述后台服务器将调整后的流量参数写入所述流量配置表得到更新流量配置表,其中候选任务计算环境对应的流量参数的大小与对应的环境反馈信息正相关。
在其中一个实施例中,各个候选任务计算环境包括独立的任务管理服务器、任务调度服务器和引擎服务器,方法还包括:
数据抽取服务器抽取基础业务数据至大数据集群基础数据库中;
与任务计算环境匹配的任务管理服务器发布与任务计算环境对应的计算任务版本;
与任务计算环境匹配的任务调度服务器确定与任务计算环境对应的任务依赖关系和任务调度时间;
与任务计算环境匹配的引擎服务器解析数据库语句,执行与任务计算环境匹配的变量替换,根据所述基础业务数据、计算任务版本、任务依赖关系和任务调度时间执行任务计算得到任务计算结果输出至与任务计算环境匹配的目标数据库。
在其中一个实施例中,流量配置表包括比例流量配置表和用户流量配置表,所述从流量配置表中读取与所述任务数据标识对应的流量参数包括:
从比例流量配置表中读取与所述任务数据标识对应的比例流量参数;
所述根据所述用户标识计算对应的流量匹配值,基于所述流量匹配值与流量参数计算得到比较结果,根据所述比较结果从候选任务计算环境中确定所述用户标识对应的目标任务计算环境包括:
将所述用户标识进行预设数值的取模运算,得到的模运算结果作为所述流量匹配值;
比较所述流量匹配值与流量参数,当比较结果为所述流量匹配值大于所述比例流量参数时,将第一任务计算环境作为所述用户标识对应的目标任务计算环境,当比较结果为所述流量匹配值小于或等于所述比例流量参数时,将第二任务计算环境作为所述用户标识对应的目标任务计算环境;
从所述用户流量配置表中读取与所述任务数据标识和所述用户标识对应的配置任务计算环境;
当配置任务计算环境与所述目标任务计算环境不一致时,将配置任务计算环境作为所述用户标识对应的目标任务计算环境。
在其中一个实施例中,所述方法还包括:
建立用户权限与数据库的对应关系,为各个候选任务计算环境对应的数据库分配对应的用户权限标识;
获取所述用户标识对应的目标任务计算环境对应的目标数据库,建立所述用户标识与目标数据库对应的目标用户权限标识的匹配关系,通过目标用户权限标识获取对应的数据库操作权限。
一种大数据计算任务的处理系统,所述系统包括:
接收模块,用于接收数据获取指令,所述数据获取指令携带用户标识和任务数据标识,获取流量配置表,从流量配置表中读取与所述任务数据标识对应的流量参数;
目标任务计算环境确定模块,用于根据所述用户标识计算对应的流量匹配值,基于所述流量匹配值与流量参数计算得到比较结果,根据所述比较结果从候选任务计算环境中确定所述用户标识对应的目标任务计算环境;
发送模块,用于从所述目标任务计算环境对应的目标数据库读取所述任务数据标识对应的任务计算结果,向用户标识对应的终端返回所述任务计算结果。
在其中一个实施例中,所述系统还包括:更新模块,用于通过各个候选任务计算环境获取所述任务数据标识对应的标准任务计算结果,将所述标准计算结果与各个候选任务计算环境计算出的当前任务计算结果比较,得到所述任务数据标识在各个候选任务计算环境的环境反馈信息,通过后台服务器接收各个候选任务计算环境对应的环境反馈信息,根据环境反馈信息调整所述任务数据标识在各个候选任务计算环境下对应的流量参数,将调整后的流量参数写入所述流量配置表得到更新流量配置表,其中候选任务计算环境对应的流量参数的大小与对应的环境反馈信息正相关。
一种大数据计算任务的处理系统,所述系统包括:
数据服务器,用于接收数据获取指令,所述数据获取指令携带用户标识和任务数据标识,获取流量配置表,从流量配置表中读取与所述任务数据标识对应的流量参数;
数据服务器还用于根据所述用户标识计算对应的流量匹配值,基于所述流量匹配值与流量参数计算得到比较结果,根据所述比较结果从候选任务计算环境中确定所述用户标识对应的目标任务计算环境;
数据服务器还用于从所述目标任务计算环境对应的目标数据库读取所述任务数据标识对应的任务计算结果,向用户标识对应的终端返回所述任务计算结果。
在其中一个实施例中,各个候选任务计算环境用于获取所述任务数据标识对应的标准任务计算结果,将所述标准计算结果与各个候选任务计算环境计算出的当前任务计算结果比较,得到所述任务数据标识在各个候选任务计算环境的环境反馈信息,系统还包括:
后台服务器,用于接收各个候选任务计算环境对应的环境反馈信息,根据环境反馈信息调整所述任务数据标识在各个候选任务计算环境下对应的流量参数,将调整后的流量参数写入所述流量配置表得到更新流量配置表,其中候选任务计算环境对应的流量参数的大小与对应的环境反馈信息正相关。
在其中一个实施例中,各个候选任务计算环境包括独立的任务管理服务器、任务调度服务器和引擎服务器,所述系统还包括:数据抽取服务器,用于抽取基础业务数据至大数据集群基础数据库中;与任务计算环境匹配的任务管理服务器,用于发布与任务计算环境对应的计算任务版本;与任务计算环境匹配的任务调度服务器,用于确定与任务计算环境对应的任务依赖关系和任务调度时间;与任务计算环境匹配的引擎服务器,用于解析数据库语句,执行与任务计算环境匹配的变量替换,根据所述基础业务数据、计算任务版本、任务依赖关系和任务调度时间执行任务计算得到任务计算结果输出至与任务计算环境匹配的目标数据库。
上述大数据计算任务的处理方法和系统,通过接收数据获取指令,数据获取指令携带用户标识和任务数据标识,获取流量配置表,从流量配置表中读取与任务数据标识对应的流量参数,根据用户标识计算对应的流量匹配值,基于所述流量匹配值与流量参数计算得到比较结果,根据比较结果从候选任务计算环境中确定所述用户标识对应的目标任务计算环境,从目标任务计算环境对应的目标数据库读取所述任务数据标识对应的任务计算结果,向用户标识对应的终端返回所述任务计算结果。流量配置表中的流量参数可配置,目标任务计算环境的选择与用户标识对应的流量匹配值和流量参数相关,从而任何一个环境出问题,可以通过调整流量配置表中的流量参数随时切换到另一环境上,系统可靠性提高。
附图说明
图1为一个实施例中大数据计算任务的处理方法的应用环境图;
图2为一个实施例中大数据计算任务的处理方法的流程示意图;
图3为一个实施例中大数据计算任务的处理装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的大数据计算任务的处理方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括终端110、数据服务器120、第一数据库131、第二数据库132、第一候选任务计算环境140,第二候选任务计算环境150,其中第一候选任务计算环境140包括第一任务管理服务器141、第一任务调度服务器142和第一引擎服务器143,第二候选任务计算环境150包括第二任务管理服务器151、第二任务调度服务器152和第二引擎服务器153,大数据集群基础数据库160、抽取服务器170,各个服务器之间可以通过网络进行通信,通信网络可以是无线或者有线通信网络,例如IP网络、蜂窝移动通信网络等,其中终端、服务器的设备个数不限。
第一候选任务计算环境140和第二候选任务计算环境150分别从大数据集群基础数据库160读取对应环境的业务数据并分别独立计算得到对应的任务计算结果,第一候选任务计算环境140将任务计算结果存储至与任务计算环境对应的第一数据库131,或称为蓝数据库,第二候选任务计算环境150将任务计算结果存储至与任务计算环境对应的第二数据库132,或称为绿数据库,数据服务器120接收数据获取指令,从流量配置表中读取与数据获取指令中的任务数据标识对应的流量参数,根据数据获取指令中的用户标识计算对应的流量匹配值,基于流量匹配值与流量参数计算得到比较结果,根据比较结果从第一候选任务计算环境140和第二候选任务计算环境150中确定用户标识对应的目标任务计算环境,从目标任务计算环境对应的目标数据库读取任务数据标识对应的任务计算结果,向用户标识对应的终端110返回任务计算结果。可以在同一大数据物理集群环境中实施不同任务计算环境布署,支持在不同的任务计算环境布署不同版本的计算任务,流量配置表中的流量参数可配置,目标任务计算环境的选择与用户标识对应的流量匹配值和流量参数相关,从而任何一个环境出问题,可以通过调整流量配置表中的流量参数随时切换到另一环境上,系统可靠性提高。
在一个实施例中,如图2所示,提供了一种大数据计算任务的处理方法,以该方法应用于图1中的应用环境为例进行说明,包括以下步骤:
步骤210,接收数据获取指令,所述数据获取指令携带用户标识和任务数据标识,获取流量配置表,从流量配置表中读取与任务数据标识对应的流量参数。
具体地,数据服务器获取任务获取指令,数据服务器负责向前端系统提供数据,如用户的收益、收益率数据等。数据获取指令用于指示获取任务计算后得到的任务计算数据,任务数据标识用于标识待计算的任务数据,如收益计算任务数据用income标识。流量参数是将任务数据标识对应的任务计算分配至不同的候选任务计算环境的参数,如流量参数为100%,则任务计算对应绿环境,流量参数为0%,则任务计算对应蓝环境。可通过流量配置表将不同的用户的计算任务分配至匹配的任务计算环境。流量配置表可以独立存放在绿数据库或蓝数据库上,或其它独立数据库上。流量配置表中的流量参数可配置,可根据各个候选任务计算环境的状态随时更新流量参数,从而控制分配至各个候选任务计算环境的计算任务。
不同的任务数据标识可对应不同的流量参数,从而实现对各类型任务计算数据进行流控。
步骤220,根据所述用户标识计算对应的流量匹配值,基于所述流量匹配值与流量参数计算得到比较结果,根据所述比较结果从候选任务计算环境中确定所述用户标识对应的目标任务计算环境。
具体地,目标任务计算环境由流量匹配值与流量参数计算得到的比较结果确定,具体的比较结果可自定义,如直接将流量匹配值与流量参数的大小进行比较得到比较结果,或对流量匹配值或流量参数进行数学运算,将运算后的值进行比较得到比较结果。可预先确定比较结果从候选任务计算环境的匹配关系,从而根据比较结果直接确定目标任务计算环境。如第一比较结果为流量匹配值大于流量参数,第一比较结果对应第一任务计算环境,第二比较结果为流量匹配值小于或等于流量参数,第二比较结果对应第二任务计算环境。在一个实施例中,目标任务计算环境的确定还可包括除比较结果之外的参数,根据比较结果和其它参数共同确定目标任务计算环境,其它参数的优先级可以比比较结果的优先级高,其它参数可存储在其它的配置表格中。
其中流量匹配值与流量参数之间具有可比较性,流量匹配值通过对用户标识进行变换、处理计算得到。具体的变换算法不限定,如取模、加减乘除运算、平方运算、多种运算结合等。通过用户标识计算出的流量匹配值与用户相关,从而通过比较流量匹配值和流量参数将不同的用户分配至对应的目标任务计算环境,实现流量控制。
各个不同的任务计算环境之间是相互独立的,互不干涉,从而可在不同的任务计算环境布署不同版本的计算任务,任务的发布、调度及计算都是独立的。
通过调整流量参数实现不同任务计算环境之间的随意切换。如将收益计算任务数据对应的蓝环境流量参数从100%设置为0%,绿环境流量参数从0%设置为100%,则相当于将收益计算任务数据从蓝环境切换至绿环境。
在一个实施例中,候选任务计算环境包括至少两个独立的计算环境,候选任务计算环境布署在同一大数据物理集群环境。候选任务计算环境布署在同一大数据物理集群环境,可充分利用集群的计算资源,且大量减少运维成本,包括机器及人力。
步骤230,从目标任务计算环境对应的目标数据库读取任务数据标识对应的任务计算结果,向用户标识对应的终端返回任务计算结果。
具体地,任务计算结果通过读取与任务数据标识对应的业务数据从而计算得到,不同的任务计算对应不同的计算方法,由业务数据的含义确定。各个候选任务计算环境分别读取对应环境的业务数据并分别独立计算得到对应的任务计算结果,将各自的任务计算结果存储至与任务计算环境对应的数据库。根据目标任务计算环境从匹配的目标数据库读取任务计算结果,保证任务计算结果与任务计算环境的匹配性。如用户A的流量被确定为蓝环境,则从与蓝环境对应的蓝数据库读取任务计算结果,其中蓝数据库中存储的任务计算结果是通过独立的蓝环境计算得到的。
上述大数据计算任务的处理方法,通过接收数据获取指令,数据获取指令携带用户标识和任务数据标识,获取流量配置表,从流量配置表中读取与任务数据标识对应的流量参数,根据用户标识计算对应的流量匹配值,基于流量匹配值与流量参数计算得到比较结果,根据比较结果从候选任务计算环境中确定用户标识对应的目标任务计算环境,从目标任务计算环境对应的目标数据库读取任务数据标识对应的任务计算结果,向用户标识对应的终端返回任务计算结果。流量配置表中的流量参数可配置,目标任务计算环境的选择与用户标识对应的流量匹配值和流量参数相关,从而任何一个环境出问题,可以通过调整流量配置表中的流量参数随时切换到另一环境上,系统可靠性提高。
在一个实施例中,方法还包括:各个候选任务计算环境获取任务数据标识对应的标准任务计算结果,将标准计算结果与各个候选任务计算环境计算出的当前任务计算结果比较,得到任务数据标识在各个候选任务计算环境的环境反馈信息,后台服务器接收各个候选任务计算环境对应的环境反馈信息,根据环境反馈信息调整任务数据标识在各个候选任务计算环境下对应的流量参数;后台服务器将调整后的流量参数写入流量配置表得到更新流量配置表,其中候选任务计算环境对应的流量参数的大小与对应的环境反馈信息正相关。
具体地,标准任务计算结果可以是上一个稳定版本的任务计算环境计算得到的任务数据标识对应的任务计算结果,也可以是用户预存的与任务数据标识对应的配置的任务计算结果。将标准计算结果与各个候选任务计算环境计算出的当前任务计算结果比较,得到任务数据标识在各个候选任务计算环境的环境反馈信息,可由任务计算环境对应的计算准确度进行确定,可通过对比标准计算结果与当前任务计算结果得到计算准确度,在一个实施例中,还可通过用户终端反馈的信息确定与用户对应的任务计算环境的环境反馈信息。环境反馈信息的内容可自定义,如可包括正向、负向反馈信息,或将计算准确度值直接作为环境反馈信息。当第一任务计算环境对应的环境反馈信息对应的计算准确度高时,代表为正反馈信息,且计算准确度越高,则反馈信息的正向度越高,代表此环境越稳定。将第一任务计算环境对应的流量调高,表示将更多的用户流量分配至第一任务计算环境,可在不同的时间段,根据环境反馈信息的正向度的提高,不断提高第一任务计算环境对应的流量,将用户逐步切换至第一任务计算环境,实现过渡式切换。
本实施例中,当任务代码修改时,可以先发布到蓝环境,进行充分的验证,验证通过时,再由数据服务器根据流量配置表逐步对用户放量,便于生产上进行充分的验证,把风险降到最低。可实现逐步放量操作,方便利用真实用户进行充分验证。
在一个实施例中,各个候选任务计算环境包括独立的任务管理服务器、任务调度服务器和引擎服务器,方法还包括:数据抽取服务器抽取基础业务数据至大数据集群基础数据库中,与任务计算环境匹配的任务管理服务器发布与任务计算环境对应的计算任务版本;与任务计算环境匹配的任务调度服务器确定与任务计算环境对应的任务依赖关系和任务调度时间;与任务计算环境匹配的引擎服务器解析数据库语句,执行与任务计算环境匹配的变量替换,根据所述基础业务数据、计算任务版本、任务依赖关系和任务调度时间执行任务计算得到任务计算结果输出至与任务计算环境匹配的目标数据库。
具体地,大数据集群即大数据分布式计算环境,数据抽取服务器负责从数据库、日志文件、消息中间件等系统抽取基础业务数据到大数据集群Hive数据仓库基础数据库中。其中基础数据库是基于大数据工具Hive建立的数据库,存储由数据服务器抽取过来的基础业务数据。任务管理服务器负责计算任务的版本发布。任务调度服务器负责计算任务的依赖关系管理及定时调度。引擎服务器负责计算任务的SQL语句解析、变量替换,包括数据库名等、校验、优化、执行以及计算结果的验证、输出到与任务计算环境匹配的目标数据库等任务。
在一个实施例中,各个候选任务计算环境还包括独立的中间数据库,是基于大数据工具Hive建立的数据库,存储计算的中间及结果数据,由引擎服务器将中间及最终计算结果输出至与任务计算环境匹配的中间数据库,中间数据库将最终结果回流至与任务计算环境匹配的目标数据库。
在一个实施例中,流量配置表包括比例流量配置表和用户流量配置表,步骤210中从流量配置表中读取与所述任务数据标识对应的流量参数包括:从比例流量配置表中读取与任务数据标识对应的比例流量参数。步骤220中根据用户标识计算对应的流量匹配值,根据流量匹配值与流量参数的关系从候选任务计算环境中确定所述用户标识对应的目标任务计算环境包括:将用户标识进行预设数值的取模运算,得到的模运算结果作为所述流量匹配值,当流量匹配值大于比例流量参数时,将第一任务计算环境作为用户标识对应的目标任务计算环境,否则,将第二任务计算环境作为用户标识对应的目标任务计算环境,从用户流量配置表中读取与任务数据标识和用户标识对应的配置任务计算环境,当配置任务计算环境与目标任务计算环境不一致时,将配置任务计算环境作为用户标识对应的目标任务计算环境。
具体地,比例流量配置表内容主要有数据标识名称、环境流量比例,如数据标识名称为income,绿环境流量为5%,那么剩余95%的用户流量就在蓝环境上。可通过将用户标识ID对预设数值,如100,取模进行流量切换,如ID为123的用户对100取模后是23,如果绿环境流量配置为5%,那么23大于5,则用户123的流量在蓝环境。用户流量配置表的内容主要有数据标识名称、用户ID、目标环境名称,如数据标识名称为income,用户ID为123,目标环境名称为blue,说明ID为123的用户收益数据的任务计算配置在蓝环境上,其中用户流量配置表的优先级大于比例流量配置表,通过用户流量配置表可以单独对特殊用户进行流量控制,
在一个实施例中,方法还包括:建立用户权限与数据库的对应关系,为各个候选任务计算环境对应的数据库分配对应的用户权限标识,获取用户标识对应的目标任务计算环境对应的目标数据库,建立用户标识与目标数据库对应的目标用户权限标识的匹配关系,通过目标用户权限标识获取对应的数据库操作权限。
具体地,由于共存于一个大数据集群中,必须用权限进行隔离,如绿环境用户为user_green,蓝环境用户为user_blue,user_green不能读写pd_cdl_blue数据库,反之user_blue不能读写pd_cdl_green数据库。通过建立用户标识与目标数据库对应的目标用户权限标识的匹配关系,使得不同的用户具有对不同目标数据库的操作权限。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种大数据计算任务的处理系统,包括:接收模块310、目标任务计算环境确定模块320、发送模块330,其中:
接收模块310,用于接收数据获取指令,数据获取指令携带用户标识和任务数据标识,获取流量配置表,从流量配置表中读取与任务数据标识对应的流量参数。
目标任务计算环境确定模块320,用于根据用户标识计算对应的流量匹配值,基于流量匹配值与流量参数计算得到比较结果,根据比较结果从候选任务计算环境中确定用户标识对应的目标任务计算环境。
发送模块330,用于从目标任务计算环境对应的目标数据库读取任务数据标识对应的任务计算结果,向用户标识对应的终端返回任务计算结果。
在一个实施例中,系统还包括:更新模块340,用于通过各个候选任务计算环境获取所述任务数据标识对应的标准任务计算结果,将标准计算结果与各个候选任务计算环境计算出的当前任务计算结果比较,得到任务数据标识在各个候选任务计算环境的环境反馈信息,通过后台服务器接收各个候选任务计算环境对应的环境反馈信息,根据环境反馈信息调整所述任务数据标识在各个候选任务计算环境下对应的流量参数,将调整后的流量参数写入流量配置表得到更新流量配置表,其中候选任务计算环境对应的流量参数的大小与对应的环境反馈信息正相关。
在一个实施例中,系统还包括:任务计算模块350,用于通过数据抽取服务器抽取基础业务数据至大数据集群基础数据库中,通过与任务计算环境匹配的任务管理服务器发布与任务计算环境对应的计算任务版本,通过与任务计算环境匹配的任务调度服务器确定与任务计算环境对应的任务依赖关系和任务调度时间;通过与任务计算环境匹配的引擎服务器解析数据库语句,执行与任务计算环境匹配的变量替换,根据基础业务数据、计算任务版本、任务依赖关系和任务调度时间执行任务计算得到任务计算结果输出至与任务计算环境匹配的目标数据库。
在一个实施例中,流量配置表包括比例流量配置表和用户流量配置表,接收模块310还用于从比例流量配置表中读取与所述任务数据标识对应的比例流量参数;目标任务计算环境确定模块320还用于将用户标识进行预设数值的取模运算,得到的模运算结果作为所述流量匹配值,比较所述流量匹配值与流量参数,当比较结果为流量匹配值大于所述比例流量参数时,将第一任务计算环境作为所述用户标识对应的目标任务计算环境,当比较结果为流量匹配值小于或等于比例流量参数时,将第二任务计算环境作为所述用户标识对应的目标任务计算环境;从用户流量配置表中读取与任务数据标识和用户标识对应的配置任务计算环境,当配置任务计算环境与所述目标任务计算环境不一致时,将配置任务计算环境作为用户标识对应的目标任务计算环境。
在一个实施例中,系统还包括:权限设置模块360,用于建立用户权限与数据库的对应关系,为各个候选任务计算环境对应的数据库分配对应的用户权限标识;获取用户标识对应的目标任务计算环境对应的目标数据库,建立用户标识与目标数据库对应的目标用户权限标识的匹配关系,通过目标用户权限标识获取对应的数据库操作权限。
关于大数据计算任务的处理系统的具体限定可以参见上文中对于大数据计算任务的处理系统方法的限定,在此不再赘述。上述大数据计算任务的处理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种大数据计算任务的处理系统,系统包括:
数据服务器,用于接收数据获取指令,数据获取指令携带用户标识和任务数据标识,获取流量配置表,从流量配置表中读取与任务数据标识对应的流量参数。
数据服务器还用于根据用户标识计算对应的流量匹配值,基于流量匹配值与流量参数计算得到比较结果,根据比较结果从候选任务计算环境中确定用户标识对应的目标任务计算环境。
数据服务器还用于从目标任务计算环境对应的目标数据库读取任务数据标识对应的任务计算结果,向用户标识对应的终端返回任务计算结果。
在一个实施例中,各个候选任务计算环境用于获取任务数据标识对应的标准任务计算结果,将标准计算结果与各个候选任务计算环境计算出的当前任务计算结果比较,得到任务数据标识在各个候选任务计算环境的环境反馈信息,系统还包括:后台服务器,用于接收各个候选任务计算环境对应的环境反馈信息,根据环境反馈信息调整所述任务数据标识在各个候选任务计算环境下对应的流量参数,将调整后的流量参数写入所述流量配置表得到更新流量配置表,其中候选任务计算环境对应的流量参数的大小与对应的环境反馈信息正相关。
在一个实施例中,各个候选任务计算环境包括独立的任务管理服务器、任务调度服务器和引擎服务器,系统还包括:数据抽取服务器,用于抽取基础业务数据至大数据集群基础数据库中。与任务计算环境匹配的任务管理服务器,用于发布与任务计算环境对应的计算任务版本;与任务计算环境匹配的任务调度服务器,用于确定与任务计算环境对应的任务依赖关系和任务调度时间;与任务计算环境匹配的引擎服务器,用于解析数据库语句,执行与任务计算环境匹配的变量替换,根据所述基础业务数据、计算任务版本、任务依赖关系和任务调度时间执行任务计算得到任务计算结果输出至与任务计算环境匹配的目标数据库。
在一个实施例中,流量配置表包括比例流量配置表和用户流量配置表,数据服务器还用于从比例流量配置表中读取与任务数据标识对应的比例流量参数。将用户标识进行预设数值的取模运算,得到的模运算结果作为流量匹配值,比较流量匹配值与流量参数,当比较结果为所述流量匹配值大于比例流量参数时,将第一任务计算环境作为用户标识对应的目标任务计算环境,当比较结果为所述流量匹配值小于或等于所述比例流量参数时,将第二任务计算环境作为用户标识对应的目标任务计算环境,从用户流量配置表中读取与任务数据标识和所述用户标识对应的配置任务计算环境,当配置任务计算环境与目标任务计算环境不一致时,将配置任务计算环境作为用户标识对应的目标任务计算环境。
在一个实施例中,数据服务器还用于建立用户权限与数据库的对应关系,为各个候选任务计算环境对应的数据库分配对应的用户权限标识;获取用户标识对应的目标任务计算环境对应的目标数据库,建立用户标识与目标数据库对应的目标用户权限标识的匹配关系,通过目标用户权限标识获取对应的数据库操作权限。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。