CN114090580A - 数据处理方法、装置、设备、存储介质及产品 - Google Patents

数据处理方法、装置、设备、存储介质及产品 Download PDF

Info

Publication number
CN114090580A
CN114090580A CN202111388730.XA CN202111388730A CN114090580A CN 114090580 A CN114090580 A CN 114090580A CN 202111388730 A CN202111388730 A CN 202111388730A CN 114090580 A CN114090580 A CN 114090580A
Authority
CN
China
Prior art keywords
data
task
information
cluster
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111388730.XA
Other languages
English (en)
Inventor
靳成成
蒋杰
苏舒
陈俊杰
徐前进
邵赛赛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111388730.XA priority Critical patent/CN114090580A/zh
Publication of CN114090580A publication Critical patent/CN114090580A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备、存储介质及产品,属于数据处理技术领域。所述方法包括:显示存储数据管理页面;响应于存储数据管理页面上接收的信息配置操作,确定目标数据集群对应的存储管理配置信息;发送存储管理配置信息,以使第一设备在目标数据集群对应的集群运行信息满足存储数据管理条件的情况下,执行针对目标数据集群的数据处理任务;接收数据处理任务对应的任务执行数据;基于任务执行数据,在预设页面中显示目标数据集群对应的任务执行信息。本申请实施例提供的技术方案中,通过在存储数据管理页面上配置的存储管理配置信息,即可实现自动化数据运维,数据运维信息还可在页面中显示,提升了数据运维信息的可视性。

Description

数据处理方法、装置、设备、存储介质及产品
技术领域
本申请涉及数据处理技术领域,特别涉及一种数据处理方法、装置、设备、存储介质及产品。
背景技术
随着计算机技术和互联网技术研究和进步,各行各业产生的数据越来越多,如何管理海量的存储数据成为人们关注的问题。
相关技术中,用户可以利用现行大数据处理框架,自行撰写程序代码来提交多个任务,进而控制设备对数据库中存储的数据进行相应任务的数据操作处理,来实现对存储数据的运维工作。
相关技术中,用户需要频繁撰写修改程序代码,数据运维人工成本较高、自动化程度较低,数据运维结果展示信息有限。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备、存储介质及产品,能够实现数据运维自动化、降低数据运维工作量、提升数据运维效率以及数据集群内的数据存储效率,并且能够提升数据运维结果展示信息的信息量,改善用户体验。
根据本申请实施例的一个方面,提供了一种数据处理方法,所述方法包括:
显示存储数据管理页面;
响应于所述存储数据管理页面上接收的信息配置操作,确定目标数据集群对应的存储管理配置信息,所述存储管理配置信息用于确定所述目标数据集群对应的存储数据管理条件;
发送所述存储管理配置信息,以使第一设备在所述目标数据集群对应的集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,所述存储数据管理条件是指所述数据处理任务的触发条件;
接收所述数据处理任务对应的任务执行数据;
基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
根据本申请实施例的一个方面,提供了一种数据处理方法,所述方法包括:
获取目标数据集群对应的集群运行信息;
接收目标数据集群对应的存储管理配置信息,所述存储管理配置信息是第二设备根据存储数据管理页面上接收的信息配置操作确定的配置信息;
基于所述存储管理配置信息,确定所述目标数据集群对应的存储数据管理条件;
在所述集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,得到所述数据处理任务对应的任务执行数据;
发送所述任务执行数据,以使所述第二设备基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
根据本申请实施例的一个方面,提供了一种数据处理装置,所述装置包括:
管理页面显示模块,用于显示存储数据管理页面;
配置信息确定模块,用于响应于所述存储数据管理页面上接收的信息配置操作,确定目标数据集群对应的存储管理配置信息,所述存储管理配置信息用于确定所述目标数据集群对应的存储数据管理条件;
配置信息发送模块,用于发送所述存储管理配置信息,以使第一设备在所述目标数据集群对应的集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,所述存储数据管理条件是指所述数据处理任务的触发条件;
任务数据接收模块,用于接收所述数据处理任务对应的任务执行数据;
任务信息显示模块,用于基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
根据本申请实施例的一个方面,提供了一种数据处理装置,所述装置包括:
运行信息获取模块,用于获取目标数据集群对应的集群运行信息;
配置信息接收模块,用于接收目标数据集群对应的存储管理配置信息,所述存储管理配置信息是第二设备根据存储数据管理页面上接收的信息配置操作确定的配置信息;
管理条件确定模块,用于基于所述存储管理配置信息,确定所述目标数据集群对应的存储数据管理条件;
数据任务执行模块,用于在所述集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,得到所述数据处理任务对应的任务执行数据;
任务数据发送模块,用于发送所述任务执行数据,以使所述第二设备基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现上述数据处理方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过接收存储数据管理页面上的信息配置操作,确定目标数据集群对应的存储管理配置信息并发送该存储管理配置信息,以使第一设备可以根据接收到的存储管理配置信息确定存储数据管理条件并根据该条件对集群运行信息进行判断,从而自动执行相应的数据处理任务并发送任务执行数据至本地设备,本地设备可以根据接收到的任务执行数据,在预设页面中显示数据集群内的任务执行信息,实现了数据运维自动化,降低了数据运维工作量,提升数据运维效率以及数据集群内的数据存储效率,并且还提升了数据运维结果展示信息的信息量,改善了用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的应用程序运行环境的示意图;
图2是本申请一个实施例提供的数据处理方法的流程图一;
图3是本申请一个实施例提供的数据处理方法的流程图二;
图4示例性示出了一种存储数据管理页面的示意图;
图5是本申请一个实施例提供的数据处理方法的流程图三;
图6是本申请一个实施例提供的数据处理方法的流程图四;
图7是本申请一个实施例提供的数据处理方法的流程图五;
图8示例性示出了一种自动化数据运维内核的技术架构示意图;
图9示例性示出了一种自动化数据运维服务的技术架构示意图;
图10是本申请一个实施例提供的数据处理方法的交互流程图一;
图11是本申请一个实施例提供的数据处理方法的交互流程图二;
图12示例性示出了一种自动化数据运维服务的整体流程图;
图13是本申请一个实施例提供的数据处理装置的框图一;
图14是本申请一个实施例提供的数据处理装置的框图二;
图15是本申请一个实施例提供的计算机设备的结构框图一;
图16是本申请一个实施例提供的计算机设备的结构框图二。
具体实施方式
本申请实施例提供的数据处理方法涉及云技术,下面对此进行简要说明,以便于本领域技术人员理解。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(英语:Database Management System,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
本申请实施例为了使大数据以更合理的组织格式存储,减少用户学习运维的成本,提供一种数据处理方法,实现对数据湖中的数据进行自动化数据运维。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。
在本申请实施例中,上述应用程序可以是任何能够提供数据运维服务的应用程序。典型地,该应用程序为浏览器应用程序。当然,除了浏览器应用程序之外,其它类型的应用程序中也可以提供数据运维服务,本申请实施例对此不作限定。另外,对于不同的应用程序来说,其提供的数据运维服务也会有所不同,且涉及数据的类型和属性也会有所不同,这都可以根据实际需求预先进行配置,本申请实施例对此不作限定。
服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器20同时为多个终端10中的应用程序提供后台服务。
可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在示例性实施例中,提供一种高可用的数据运维服务运行环境配置方案。上述服务器20包括代理服务器21、后端服务器22。后端服务器可以对主数据库23进行管理,备份数据库24用于对主数据库23进行备份。可选地,数据运维服务采用spring微服务,具有无状态、多活、统一域名、浮动ip访问等优势。上述代理服务器21可以是nginx服务器,用于实现负载均衡,能够合理调度终端10发送的请求,并支持前端双实例运行。具体地,终端10发送超文本传输协议(Hyper Text Transfer Protocol,HTTP)请求到nginx服务器,nginx服务器接收请求,并根据负载均衡算法分配到适当的后端服务器22,后端服务器22将处理信息发送到主数据库23中。在上述高可用实现机制中,具有如下特性:
1、用户请求根据域名进行发送。
2、将nginx负载均衡器平均分配到后台的若干台后端服务器23。
3、后端部署若干后端服务器23,执行数据处理任务。
4、所有的服务器连接的是一个主数据库,并且数据库实现主备、灾备。
可选地,上述数据传递的方式不限于HTTP请求方式,也可通过RPC(RemoteProcedure Call Protocol,远程调用协议)等方式进行数据传递。
请参考图2,其示出了本申请一个实施例提供的数据处理方法的流程图一。该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10。该方法可以包括以下几个步骤(210~250)。
步骤210,显示存储数据管理页面。
上述存储数据管理页面是指配置针对目标数据集群的数据运维服务的页面。上述存储数据管理页面用于接收针对目标数据集群的配置属性字段的信息配置操作。存储数据管理页面中包括目标数据集群的多个配置属性字段对应的配置组件。可选地,上述配置属性字段具有对应的默认值,存储数据管理页面同时支持用户根据各自需求设置配置属性字段对应的具体数据,以生成下述存储管理配置信息(tableconfig)。
在一种可能的实施方式中,上述存储数据管理页面包括但不限于浏览器页面、客户端页面、程序开发编辑器页面。
在具体的数据运维服务场景中,用户可以在前端界面,即存储数据管理页面设置数据运维参数,并将其存储数据库中,无需读取HDFS(Hadoop分布式文件系统,HadoopDistributed File System),实现轻量化读取配置。在上述存储数据管理页面添加表的若干优化属性,例如间隔event时间等,开启配置时需对用户进行鉴权,判断用户对此表有权限。上述存储数据管理页面可以展示表的总文件行数等状态,指导用户设置参数。上述存储数据管理页面对应的数据运维服务支持文件合并服务、数据快照清理服务、过期文件清理服务、孤儿文件清理服务、数据布局优化服务等多种服务。上述存储数据管理页面支持SQL(结构化查询语言,Structured Query Language)、OpenAPI(开放应用程序编程接口)、多语言SDK(软件开发工具包,Software Development Kit),Service HA(Service Highavailable,服务高可用)等配置操作。
在示例性实施例中,上述存储数据管理页面中可显示管理配置提示信息。其中,管理配置提示信息是基于集群运行信息自适应确定的管理配置信息,用于向目标对象提供管理配置信息的配置参考信息。
相应的,如图3所示,上述方法还包括如下步骤(260~270),图3示出了本申请一个实施例提供的数据处理方法的流程图二。
步骤260,接收目标数据集群对应的管理配置提示信息。
在存储数据管理页面接收目标对象的信息配置操作的过程中,接收第一设备发送的上述管理配置提示信息,以提示目标对象进行与目标数据集群运行情况匹配的信息配置操作。上述管理配置提示信息是向目标对象展示的预设配置属性字段对应的参考配置信息。
上述管理配置提示信息中包括至少一个配置属性字段对应的建议值,上述建议值可作为目标对象进行信息配置操作的参考信息。
上述管理配置提示信息中包括至少一个配置属性字段对应的建议选项,上述建议选项可作为目标对象进行信息配置操作的参考信息。
步骤270,在存储数据管理页面显示管理配置提示信息。
相应的,接收第一设备发送的上述管理配置提示信息之后,可在存储数据管理页面显示上述管理配置提示信息,比如显示至少一个配置属性字段对应的建议值或者建议选项。
在本实施例中,系统可以根据数据运维信息进行数据运维个性化推荐设置,生成上述管理配置提示信息,满足不同运维需求。
步骤220,响应于存储数据管理页面上接收的信息配置操作,确定目标数据集群对应的存储管理配置信息。
上述存储管理配置信息用于确定目标数据集群对应的存储数据管理条件。上述存储数据管理条件用于触发执行数据运维服务中提供的数据处理任务。
用户可以在存储数据管理页面上进行针对目标数据集群的数据运维的配置操作,生成上述存储管理配置信息,以确定用于对目标数据集群中的存储数据进行处理的存储数据管理条件。
上述存储管理配置信息中预设配置属性字段对应的配置数据可作为存储数据管理条件对应的阈值。
在一种可能的实施方式中,上述存储数据管理页面包括多个配置属性字段对应的配置组件。上述信息配置操作包括但不限于针对上述配置组件的数值键入操作、选项选择操作。用户可对上述配置组件执行相应的操作,比如数值键入操作,选项选择操作等,来设置配置属性字段对应的配置数据。
在一个示例中,如图4所示,其示例性示出了一种存储数据管理页面的示意图。存储数据管理页面40中包括多个配置属性字段对应的配置组件41。用户可对上述配置组件41执行相应的操作,比如数值键入操作,选项选择操作等,实现对存储管理配置信息的配置。
可选地,上述信息配置操作包括但不限于阈值设置操作、API(ApplicationProgramming Interface,应用程序接口)接口设置操作、数据表类型设置操作、键值数据对设置操作。
在示例性实施例中,上述存储管理配置信息还可以根据存储数据管理页面中显示的管理配置提示信息来确定。相应的,如图3所示,上述方法还包括如下步骤280。
步骤280,响应于针对管理配置提示信息的确认操作,确定存储管理配置信息。
在一些应用场景中,用户可以根据管理配置提示信息中各项配置属性字段对应的参考数据,进行快速的存储管理配置信息的设置操作,直接将上述管理配置提示信息确定为存储管理配置信息。
下面通过具体的示例对存储管理配置信息进行说明,参见下表1,表1示例性示出了一种存储管理配置信息表。
表1
Figure BDA0003368033220000101
Figure BDA0003368033220000111
Figure BDA0003368033220000121
上述存储管理配置信息表对应的数据处理服务如下:
1、rewriteDataFiles:文件合并服务,用于合并数据集群中文件大小小于预设文件阈值的小文件。由于大数据存储底层存储HDFS等每次写入均为一个文件,不可追加,所以在多次小批量插入或者分区较多时会产生大量小文件,因此可通过上述文件合并服务对数据湖中的小文件进行高效管理,缩减小文件数据量,提升数据查询时间。
2、expireSnapshots:数据快照清理服务,用于清理数据快照(snapshots)和元数据(metadata)。上述数据快照是一种内核事务机制,包含本次产生的全部文件信息。上述数据快照清理服务支持时间回溯(time travel),指定snapshot读取历史数据,无需读取时需要通过上述数据快照清理服务清理snapshot和元数据等。
3、delete:过期文件清理服务,支持表级,列级,分区级生命周期管理,删除过期数据,固定期限内支持恢复。
4、removeOrphanFiles:孤儿文件清理服务,用于清除数据集群内的孤儿文件。Commit(信息提交)是内核事务机制,在Commit时产生一个快照,Commit成功代表本次操作成功,Commit失败时会产生若干孤儿文件,占据存储空间。因此,通过上述孤儿文件清理服务可以有效地对数据湖中的孤儿文件进行高效管理,删除无用的孤儿文件,提升数据存储效率。
5、clustering/order by:数据布局优化服务,根据聚集键字段(cluster key)或者排序键字段(order by key),重新优化数据布局。比如,根据根据数据表中cluster key对应的值,重新排列上述数据表。又比如,根据数据表中的排序键字段对应的值,对数据表排序。
步骤230,发送存储管理配置信息,以使第一设备在目标数据集群对应的集群运行信息满足存储数据管理条件的情况下,执行针对目标数据集群的数据处理任务。
上述目标数据集群是基于数据湖的数据集群,数据湖是一种存储结构化和非结构化数据的大数据存储层表格式。
存储数据管理条件是指数据处理任务的触发条件。
在示例性实施例中,存储管理配置信息包括文件合并配置信息,数据处理任务包括文件合并任务。文件合并配置信息用于确定文件合并条件,文件合并条件用于触发针对目标数据集群的文件合并任务,上述存储数据管理条件包括文件合并条件。上述文件合并任务是指对目标数据集群中文件大小小于预设阈值的数据文件进行合并的任务。上述文件合并配置信息包括上述表1中文件合并服务对应的配置属性字段对应的配置数据。
在示例性实施例中,存储管理配置信息包括文件清理配置信息,数据处理任务包括文件清理任务。文件清理配置信息用于确定文件清理条件,文件清理条件用于触发针对目标数据集群的文件清理任务,上述存储数据管理条件包括文件清理条件。上述文件清理任务是指对目标数据集群中目标数据文件进行清理的任务。上述文件清理配置信息包括上述表1中数据快照清理服务、过期文件清理服务、孤儿文件清理服务对应的配置属性字段对应的配置数据。
在示例性实施例中,存储管理配置信息包括数据表配置信息,数据处理任务包括数据表调整任务。数据表配置信息用于确定数据表调整条件,数据表调整条件用于触发针对目标数据集群的数据表调整任务,上述存储数据管理条件包括数据表调整条件。上述数据表调整任务是指对目标数据集群中数据表中的存储数据进行调整优化的任务。上述数据表配置信息包括上述表1中数据布局优化服务对应的配置属性字段对应的配置数据。
步骤240,接收数据处理任务对应的任务执行数据。
第一设备在集群运行信息满足文件合并配置信息对应的文件合并条件的情况下,执行文件合并任务,得到文件合并数据,并向本地设备发送该文件合并数据。相应的,本地设备接收文件合并任务对应的文件合并数据。
第一设备在集群运行信息满足文件清理配置信息对应文件清理条件的情况下,执行文件清理任务,得到的文件清理数据,并向本地设备发送该文件清理数据。相应的,本地设备接收文件清理任务对应的文件清理数据。
第一设备在集群运行信息满足数据表配置信息对应的数据表调整条件的情况下,执行数据表调整任务,得到数据表调整数据,并向本地设备发送该数据表调整数据。相应的,本地设备接收数据表调整任务对应的数据表调整数据。
步骤250,基于任务执行数据,在预设页面中显示目标数据集群对应的任务执行信息。
在示例性实施例中,如图3所示,上述步骤250的实施过程包括如下子步骤(251~253)。
步骤251,基于文件合并任务对应的文件合并数据,在预设页面中显示目标数据集群中的文件合并信息。
其中,文件合并数据是在集群运行信息满足文件合并配置信息对应的文件合并条件的情况下,执行文件合并任务得到的任务执行数据,文件合并信息用于表征目标数据集群中的文件合并情况。
可选地,上述文件合并信息包括但不限于合并文件数量指标、集群文件减少数量指标对应的数据信息。
可选地,在预设页面中以图表化形式显示目标数据集群中的文件合并信息。
步骤252,基于文件清理任务对应的文件清理数据,在预设页面中显示目标数据集群中的文件清理信息。
其中,文件清理数据是在集群运行信息满足文件清理配置信息对应文件清理条件的情况下,执行文件清理任务得到的任务执行数据,文件清理信息用于表征目标数据集群中的文件清理情况。
可选地,上述文件清理信息包括但不限于过期文件清理数量指标、数据快照文件清理数量指标、孤儿文件清理数量指标对应的数据信息。
可选地,在预设页面中以图表化形式显示目标数据集群中的文件清理信息。
步骤253,基于数据表调整任务对应的数据表调整数据,在预设页面中显示目标数据集群中的数据表调整信息。
其中,数据表调整数据是在集群运行信息满足数据表配置信息对应的数据表调整条件的情况下,执行数据表调整任务得到的任务执行数据,数据表调整信息用于表征目标数据集群中的数据表调整情况。
可选地,上述数据表调整信息包括但不限于目标数据集群中数据表数据量精简指标对应的数据信息以及数据表调整后的布局信息。
可选地,在预设页面中以图表化形式显示目标数据集群中的数据表调整信息。
综上所述,本申请实施例提供的技术方案,通过接收存储数据管理页面上的信息配置操作,确定目标数据集群对应的存储管理配置信息并发送该存储管理配置信息,以使第一设备可以根据接收到的存储管理配置信息确定存储数据管理条件并根据该条件对集群运行信息进行判断,从而自动执行相应的数据处理任务并发送任务执行数据至本地设备,本地设备可以根据接收到的任务执行数据,在预设页面中显示数据集群内的任务执行信息,实现了数据运维自动化,降低了数据运维工作量,提升数据运维效率以及数据集群内的数据存储效率,并且还提升了数据运维结果展示信息的信息量,改善了用户体验。
相比于现有技术中无前端界面设置需要自行撰写java代码设置的数据运维方案,本申请实施例提供的技术方案只需在页面中进行数据运维信息的配置即可实现自动化数据运维,提升了数据运维效率;现有技术中无法展示数据集群中表的事件等状态,无法指导用户设置适当的参数;而本申请实施例提供的技术方案可以将任务执行信息在预设界面进行展示,并且可以根据集群运行信息在页面中展示管理配置提示信息,极大的提升了数据运维信息的可视性,提升了用户体验,有利于及时发现告警信息。另外,本申请实施例提供的技术方案支持多种自动化数据运维服务,极大地减少了数据运维工作量,并且页面中可配置多种应用程序编程扩展接口,提升了数据运维服务的兼容性。
另外,在具体的应用场景中,还可根据数据表的快照信息,在适当的时间进行若干数据运维任务,例如合并小文件,创建索引。在数据文件数量超过数量阈值的情况下,调整目标数据处理任务的处理速度为第一速度;在数据文件数量未达到数量阈值的情况下,调整目标数据处理任务的处理速度为第二速度,其中第一速度大于第二速度。除数据处理任务的速度可以调整之外,数据处理任务对应的任务执行频率、分配的运算资源都可以根据系统读写数据的情况进行调整。比如,数据文件多的时候执行小文件的速度就快一些,数据文件少的时候执行小文件合并的速度就慢一些,合并的速度也决定了用户查询的速度,可以保证用户查询的稳定性。还可以根据用户的查询模式判断需要清理的元文件过期时间,无用索引及时删除,减小了用户的存储成本。本申请实施例方案可根据用户的使用模式,及时有效的进行运维服务。
请参考图5,其示出了本申请一个实施例提供的数据处理方法的流程图三。该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤(510~550)。
步骤510,获取目标数据集群对应的集群运行信息。
上述集群运行信息包括数据操作事件信息,数据操作事件信息是指目标数据集群中的数据表读写操作事件对应的信息。上述数据表操作事件信息包括至少一个数据表的数据表操作记录。
在示例性实施例中,如图6所示,上述步骤510之后,还包括如下步骤(560~570),图6示出了本申请一个实施例提供的数据处理方法的流程图四。
步骤560,基于集群运行信息自适应确定针对目标数据集群的管理配置提示信息。
集群运行信息包括数据操作事件(Event)信息;设备可根据Event信息确定针对存储管理配置信息(Table config)中预设配置属性字段对应的的参考配置数据,并基于参考配置数据生成管理配置提示信息。用户可根据系统确定的参考配置数据,自行配置确定数据集群的存储管理配置信息。
在一种可能的实施方式中,上述管理配置提示信息的生成方式包括但不限于如下四种方式。
(1)基于历史查询操作耗时确定文件定期清理间隔指标对应的参考值。根据用户执行的查询操作(query)的花费的最长时间提供建议的文件定期清理间隔指标(expireSeconds)的参考配置值。
(2)基于索引未使用时长,生成索引删除参考信息。比如在预设页面展示索引(index)未使用时长,向用户提供考虑删除索引的参考建议信息。
(3)基于查询数据文件的平均大小,确定文件合并参考配置信息。如果目标数据集群中小文件较多,需要通过对文件合并配置信息中的各项配置属性字段进行数据配置,以使合并文件的速度加快。
(4)生成删除事件参考数量阈值(delete event number),根据删除事件参考数量阈值执行孤儿文件清理任务。
在实际应用场景中,自动化数据运维系统可以部署单独的参考配置信息生成组件(advisor)。
步骤570,发送管理配置提示信息,以使存储数据管理页面显示管理配置提示信息。
向第二设备发送管理配置提示信息,以使第二设备的存储数据管理页面显示管理配置提示信息。
步骤520,接收目标数据集群对应的存储管理配置信息。
存储管理配置信息是第二设备根据存储数据管理页面上接收的信息配置操作确定的配置信息。
步骤530,基于存储管理配置信息,确定目标数据集群对应的存储数据管理条件。
在示例性实施例中,上述存储管理配置信息包括文件合并配置信息、文件清理配置信息、数据表配置信息。
相应的,基于文件合并配置信息,确定目标数据集群对应的文件合并条件;基于文件清理配置信息,确定目标数据集群对应的文件清理条件;基于数据表配置信息,确定目标数据集群对应的数据表调整条件。
在一种可能的实施方式中,获取文件合并配置信息中的文件大小阈值、文件合并服务对应的预设文件接收数量阈值以及文件合并服务对应的接收事件信息的数量阈值。
基于上述文件大小阈值以及预设文件接收数量阈值,确定第一文件合并条件。上述第一文件合并条件包括集群运行信息中预设文件(文件大小小于文件大小阈值的文件为预设文件)接收数量大于等于预设文件接收数量阈值。
基于上述文件合并服务对应的接收事件信息的数量阈值,确定第二文件合并条件。上述第二文件合并条件包括集群运行信息中接收事件信息的数量达到上述文件合并服务对应的接收事件信息的数量阈值。
在一种可能的实施方式中,获取文件清理配置信息中的文件定期清理时长阈值、数据快照清理服务对应的接收事件信息的数量阈值、数据保留期限阈值、孤儿文件清理服务对应的接收事件信息的数量阈值以及孤儿文件清理服务对应的删除事件数量阈值。
基于上述文件定期清理时长阈值,确定第一数据快照清理条件。第一数据快照清理条件包括集群运行信息中的定期清理时长间隔到达定期清理时长阈值。
基于上述数据快照清理服务对应的接收事件信息的数量阈值,确定第二数据快照清理条件。第二数据快照清理条件包括集群运行信息中的接收事件信息的数量达到上述数据快照清理服务对应的接收事件信息的数量阈值。
基于上述数据保留期限阈值,确定过期文件清理条件。过期文件清理条件包括集群运行信息中各个数据文件的创建时长达到数据保留期限阈值。
基于上述孤儿文件清理服务对应的接收事件信息的数量阈值,确定第一孤儿文件清理条件。第一孤儿文件清理条件包括集群运行信息中的接收事件信息的数量达到上述孤儿文件清理服务对应的接收事件信息的数量阈值。
基于上述孤儿文件清理服务对应的删除事件数量阈值,确定第二孤儿文件清理条件。第二孤儿文件清理条件包括集群运行信息中的接收删除事件信息的数量达到上述孤儿文件清理服务对应的删除事件数量阈值。
在一种可能的实施方式中,获取数据表配置信息中的键字段信息以及索引调整间隔。
基于上述键字段信息,确定第一数据表调整条件。第一数据表调整条件包括判断数据表中是否存在键字段信息对应的条件列。
基于上述索引调整间隔,确定第二数据表调整条件。第二数据表调整条件包括集群运行信息中的索引调整间隔时长达到索引调整间隔阈值。
步骤540,在集群运行信息满足存储数据管理条件的情况下,执行针对目标数据集群的数据处理任务,得到数据处理任务对应的任务执行数据。
数据湖提供有相应的API基础能力,此服务根据用户的配置和一定的规则判断是否执行此API。上述数据处理任务可通过调用API实现。
对如上服务,还支持使用SQL或者OpenAPI的方式调用单次任务,并可支持python,go等多语言SDK调用。
上述存储数据管理条件包括上述步骤530中确定的任一种条件。
在示例性实施例中,如图6所示,上述步骤540的实施过程包括如下步骤(541~544)。
步骤541,在数据操作事件信息满足目标存储数据管理条件的情况下,确定目标数据处理任务对应的至少一个数据表。
其中,目标存储数据管理条件为任一存储数据管理条件,目标数据处理任务是指目标存储数据管理条件对应的数据处理任务。
在示例性实施例中,存储数据管理条件包括文件合并条件、文件清理条件、数据表调整条件中至少一种。上述文件合并条件包括但不限于上述第一文件合并条件和第二文件合并条件。上述文件清理条件包括但不限于上述第一数据快照清理条件、第二数据快照清理条件、过期文件清理条件、第一孤儿文件清理条件和第二孤儿文件清理条件。数据表调整条件包括但不限于第一数据表调整条件和第二数据表调整条件。
相应的,数据处理任务包括文件合并条件对应的文件合并任务、文件清理条件对应的文件清理任务、数据表调整条件对应的数据表调整任务中至少一种。
上述第一文件合并条件和第二文件合并条件是执行文件合并任务对应的触发条件。上述第一数据快照清理条件和第二数据快照清理条件是执行数据快照清理任务对应的触发条件。上述过期文件清理条件是执行过期文件清理任务对应的触发条件。上述第一孤儿文件清理条件和第二孤儿文件清理条件是执行孤儿文件清理任务对应的触发条件。上述第一数据表调整条件和第二数据表调整条件是执行数据表调整任务对应的触发条件。上述目标存储数据管理条件为上述条件中任一条件。
步骤542,创建至少一个数据表对应的数据表操作任务。
目标数据处理任务包括至少一个数据表对应的数据表操作任务。上述数据表操作任务是指对数据进行预设操作的任务,上述数据表操作任务的任务内容与目标数据处理任务的任务内容相关联。
步骤543,将至少一个数据表对应的数据表操作任务分配到至少一个任务队列中,生成数据表操作任务包。
在示例性实施例中,将任务队列中的符合任务组装条件的至少一个数据表操作任务进行组合,生成数据表操作任务包。上述数据表操作任务包可作为一个数据处理引擎任务去执行。由于数据处理引擎单次启动时间较长,通过提交数据表操作任务包的形式可以一次启动执行多个据表对应的数据表操作任务,提升数据处理效率。
步骤544,执行数据表操作任务包中的数据表操作任务,得到任务执行数据。
在示例性实施例中,如图7所示,上述步骤544之前,还包括如下步骤(545~546),图7示出了本申请一个实施例提供的数据处理方法的流程图五。
步骤545,获取目标数据集群对应的资源负载信息以及至少一个数据表对应的数据表属性信息。
资源负载信息包括目标数据集群对应的总资源、剩余可用资源。可选地,资源负载信息还包括数据表历史执行所分配资源信息。系统可以根据数据表历史执行所分配资源信息为当前数据表分配运算资源。
步骤546,基于资源负载信息与数据表属性信息,确定数据表操作任务对应的运算资源。
根据上述总资源、剩余可用资源以及数据表属性信息,可以为数据表操作任务分配合适的运算资源,包括内存与处理核心单元。
相应的,上述步骤544可由下述步骤544a替换实现。
步骤544a,基于数据表操作任务包中的数据表操作任务对应的运算资源,执行数据表操作任务包中的数据表操作任务,得到任务执行数据。
基于数据表操作任务包中的数据表操作任务对应的内存与处理核心单元,执行数据表操作任务包中的数据表操作任务,得到任务执行数据。
上述任务执行数据是与目标数据处理任务对应的任务执行数据。
步骤550,发送任务执行数据,以使第二设备基于任务执行数据,在预设页面中显示目标数据集群对应的任务执行信息。
对于任务执行数据的介绍可参见上一实施例中已经进行过相应介绍,这里不再赘述。
下面结合具体的数据运维场景对上述数据处理方法进行介绍说明。请参考图8,其示例性示出了一种自动化数据运维内核的技术架构示意图。上述自动化数据运维内核可以部署在计算机设备中。下面结合图8中箭头对应标号对上述自动化数据运维内核中的组件以及工作流程进行说明。
1、用户使用目标服务产生的数据可通过自动化数据运维内核的接口传输至自动化数据运维内核中。上述接口包括但不限于数据库内核写入接口、整理压缩(compaction)数据接口、读取接口等各种接口。
2.自动化数据运维内核接收的数据可传输至任务指标上报器(MetricsReporter)。上述任务指标上报器也可称为监听器(Listener)。上述接收的数据可经过创建操作、删除操作、快照操作以及替换操作后传输至任务指标上报器。
3、任务指标上报器(Metrics Reporter)在自动化数据运维内核侧根据提交(Commit)信息上报数据表的各种指标数据(例如本次提交事件产生的文件数、文件大小、表的总文件数、总文件大小等指标数据)到任务指标事件管理器(Metrics Event Handler)进行相应的处理,比如插入、删除、更新、数据表指标等处理,输入至数据表事件管理器(TableEvent Handler),得到数据操作事件(Event)信息。数据表事件管理器可将Event信息发送给消息队列(Message Queue,MQ)。例如,Kafka等消息队列。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中产生的所有动作流数据。
下面示例性示出两种Event信息:数据快照创建事件(CreateSnapshotEvent)信息和扫描事件(ScanEvent)信息。
CreateSnapshotEvent包括:tableName:”table”;addedFiles:400;deletedFiles:500;operation:“APPEND”;数据分区分析信息(partitionAnaplysis):{partitionId:“a=1/b=2”;fileSize:1000;fileNums:100;mse:690000}
ScanEvent:scanTime;expression:a=1and b=2;average-file-size:60。
如果操作属性字段(operation)为DELETE,即为删除数据,若为APPEND即为插入数据,若为REPLACE即为合并数据文件。
接着,请参考图9,其示例性示出了一种自动化数据运维服务的技术架构示意图。
4、消息队列将接收得到的Event信息发送至自动化数据运维服务系统中的外部信息接收组件。另外,外部信息接收组件还可接收用户在前端页面中的配置信息(即上述存储管理配置信息)、目标数据集群中任务(Job)历史执行日志数据。
5、外部信息接收组件将接收到的消息提交给任务事件管理器(Job EventHandler)。任务事件管理器中由各组件构成(图中未示出),具体包括任务配置信息获取组件(Job config)、任务执行条件判断组件(Job rule)、任务资源调度器(Job resource)、任务调度器(Job scheduler)、任务执行组件(Job executor)、任务提交组件(Job submit)、任务报告组件(Job reporter)。其中,各组件的功能如下:
Job config:接收前端页面用户配置信息,存储在数据库表里,配置阈值和执行的API的参数,例如expireSeconds(清理周期),删除多久前的snapshots(数据快照)。
Job rule:根据job config获取的信息,判断集群运行信息是否满足上述任一种任务执行条件,如果满足条件,就发送该任务对应的每个数据表的数据表操作任务到Jobscheduler。如果不满足条件,则记录本次条件判断执行后的累计运行信息,存储在数据库database中,下次根据接收的event信息,继续进行累计计算,若满足,则清零,若不满足,继续累计。
Job resource:Job scheduler调取任务资源调度器,Job resource根据总资源,当前剩余的资源,表的属性等,表历史执行消耗资源状况,以及任务优先级为数据表操作任务分配合适的运算资源。其中,spark任务开启动态资源分配功能,需要设置初始调度器(initial executor)、调度器处理核心单元(executor cores)、驱动处理核心单元(drivercores)、驱动内存(driver memory)等信息。
Job scheduler:接收到多个表的job,放在合适的任务队列,组装成为一个spark任务,在适当的时间发给Job executor。
Job executor:提供多种方式执行任务job,一种是http request的方式发送到spark任务品台(单次任务和周期任务),一种是调用spark-submit命令(单次任务),一种是服务中启动定时任务,调用spark-submit命令。
Job submit:spark jar包通过传递参数的方式支持多表执行,每个任务里包含若干张表,采用异步提交的方式。
其中,定期任务:涉及任务编辑器(Job editor),修改表信息,spark执行的jar的入参,修改资源配置。一次性任务:仅提交。
Job reporter:spark提交的任务需要获得任务执行详情,包含表信息,任务开始时间,花费时间,任务返回的结果,以http request请求的方式回传然后处理记录,或者Java数据库连接(Java Database Connectivity,JDBC)等方式记录在数据库中,供Jobreceiver接收,并图表化展示执行结果,供用户发现执行趋势,在失败后告警,发送给用户或者运维,并且支持在展示界面上查看。Spark任务执行代码为“Actions.rewriteDataFiles().execute();”。
6、执行任务队列中的任务后生成的任务(Job)执行信息发送至消息队列
7、消息队列将任务执行信息发送至展示平台(Show),展示平台展示事件(Event)统计信息和任务执行信息。展示平台将event信息处理后以一定维度展示到Grafana、Telegraf(数据采集工具)等组件上,展示当前表的信息和表的历史状态。Grafana是用Go语言开发的开源数据可视化工具,可以做数据监控和数据统计,带有告警功能。
8、任务指标系统可根据任务队列中任务执行情况,将任务执行信息和资源信息等信息持久化存储到数据库(database)中,供后续分析。
上述自动化数据运维服务对数据湖的原有使用方式无影响,支持与select,insert,update和delete并发操作。通过使用上述自动化数据运维服务,可使数据集群系统中小文件减少、数据布局优化、查询速度加快;孤儿文件、数据快照、过期数据文件减少,增加可用存储空间。
综上所述,本申请实施例提供的技术方案,通过接收由存储数据管理页面上的信息配置操作确定的存储管理配置信息,来确定目标数据集群对应的存储数据管理条件,并根据该条件对集群运行信息进行判断,从而自动执行相应的数据处理任务并发送任务执行数据至第二设备,以使第二设备根据接收到的任务执行数据,在预设页面中显示数据集群内的任务执行信息,实现了数据运维自动化,降低了数据运维工作量,提升数据运维效率以及数据集群内的数据存储效率,并且还提升了数据运维结果展示信息的信息量,改善了用户体验。
请参考图10,其示出了本申请一个实施例提供的数据处理方法的交互流程图一。
步骤1001,第二设备显示存储数据管理页面。
步骤1002,第二设备响应于存储数据管理页面上接收的信息配置操作,确定目标数据集群对应的存储管理配置信息。
步骤1003,第二设备向第一设备发送存储管理配置信息。
相应的,第一设备接收目标数据集群对应的存储管理配置信息。
步骤1004,第一设备获取目标数据集群对应的集群运行信息。
在示例性实施例中,如图11所示,上述步骤1004之后还包括下述步骤(1009~1010),图11示出了本申请一个实施例提供的数据处理方法的交互流程图二。
步骤1009,第一设备基于集群运行信息自适应确定针对目标数据集群的管理配置提示信息。
步骤1010,第一设备向第二设备发送管理配置提示信息,以使存储数据管理页面显示管理配置提示信息。
相应的,第二设备接收管理配置提示信息。并且,如图11所示,上述步骤1001之后,第一设备侧还包括如下步骤(1011~1012)。
步骤1011,第二设备在存储数据管理页面显示管理配置提示信息。
步骤1012,第二设备响应于针对管理配置提示信息的确认操作,确定存储管理配置信息。
步骤1005,第一设备基于存储管理配置信息,确定目标数据集群对应的存储数据管理条件。
步骤1006,第一设备在集群运行信息满足存储数据管理条件的情况下,执行针对目标数据集群的数据处理任务,得到数据处理任务对应的任务执行数据。
在示例性实施例中,如图11所示,上述步骤1006的实施过程包括如下子步骤(1006a~1006d)。
步骤1006a,第一设备在数据操作事件信息满足目标存储数据管理条件的情况下,确定目标数据处理任务对应的至少一个数据表。
步骤1006b,第一设备创建至少一个数据表对应的数据表操作任务。
步骤1006c,第一设备将至少一个数据表对应的数据表操作任务分配到至少一个任务队列中,生成数据表操作任务包。
步骤1006d,第一设备执行数据表操作任务包中的数据表操作任务,得到任务执行数据。
步骤1007,第一设备向第二设备发送任务执行数据,以使第二设备基于任务执行数据,在预设页面中显示目标数据集群对应的任务执行信息。
相应的,第二设备接收数据处理任务对应的任务执行数据。
步骤1008,第二设备基于任务执行数据,在预设页面中显示目标数据集群对应的任务执行信息。
上述步骤在上文中已经进行过说明,本实施例是对第一设备和第二设备之间的交互流程进行说明,对于各步骤的介绍说明这里不再赘述。
下面结合数据运维场景从整体上对上述数据处理交互流程进行介绍说明。请参考图12,其示例性示出了一种自动化数据运维服务的整体流程图。
1、用户可在前端界面配置是否启用此服务。可选地,在数据组织格式属性(Iceberg tale property)配置是否上报,默认上报。上述Iceberg是一种用于大型分析数据集的开放表格式。
2、根据上报地址配置结果,将内核写入信息上报至消息队列(Message Queue,MQ)、参考配置信息生成组件(advisor)以及展示平台。其中,advisor根据上报的信息生成管理配置提示信息并发送至展示平台,以在前端页面中进行展示。上述内核写入信息包括但不限于提交操作(commit)、创建操作(create)等操作对应的事件(event)信息。
3、上述上报信息、存储管理配置信息(table config)以及历史任务执行时间等数据可同时传入任务信息接收组件(Job receiver)。
4、任务信息接收组件接收的信息若满足任务条件,即上述存储数据管理条件,则根据构建规则对单个数据表生成该数据表对应的数据表操作任务(Task),并将各个数据表的Task提交至任务调度器(Job scheduler)。由于Apache Spark启动时间较长,任务调度器可组装多个数据表生成任务包,即生成统一的spark任务,然后统一提交至数据计算引擎。其中,Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。
5、任务资源调度器(Job resource)为spark任务分配适当的运算资源,比如内存(memory)和处理核心(core)。
6、任务执行组件(Job executor)调用数据计算引擎执行任务。
7、任务报告组件(Job reporter)上报每个数据表的任务执行信息,在服务侧持久化至数据库(database),并发送至展示平台以在前端配置页面中进行展示。
通过上述自动化数据运维服务,用户无需自行提交多个spark或者flink任务来完成数据运维,仅需要在前端界面配置服务(service)参数,后台服务即可自动执行。并且,考虑到用户提交任务指定资源往往并非最优配置,通过任务资源调度器可动态根据表状态为任务配置最合适的运算资源,减少资源浪费,还可以根据集群资源合理安排执行任务,避免任务失败。
对于SQL查询,平均查询速度可提升20%,部分单点查询可提高60%。数据文件个数和元数据(meatdata)文件个数减少,可减小集群主节点(namenode)压力。
综上所述,本申请实施例提供的技术方案,通过第二设备的存储数据管理页面上接收的信息配置操作,可以确定目标数据集群对应的存储管理配置信息;第二设备向第一设备发送该存储管理配置信息,以使第一设备可以根据接收到的存储管理配置信息确定存储数据管理条件并根据该条件对集群运行信息进行判断,从而自动执行相应的数据处理任务并发送任务执行数据至第二设备,第二设备可以根据接收到的任务执行数据,在预设页面中显示数据集群内的任务执行信息,实现了数据运维自动化,降低了数据运维工作量,提升数据运维效率以及数据集群内的数据存储效率,并且还提升了数据运维结果展示信息的信息量,改善了用户体验。
下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图13,其示出了本申请一个实施例提供的数据处理装置的框图一。该装置具有实现上述数据处理方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置1300可以包括:管理页面显示模块1310、配置信息确定模块1320、配置信息发送模块1330、任务数据接收模块1340、任务信息显示模块1350。
管理页面显示模块1310,用于显示存储数据管理页面;
配置信息确定模块1320,用于响应于所述存储数据管理页面上接收的信息配置操作,确定目标数据集群对应的存储管理配置信息,所述存储管理配置信息用于确定所述目标数据集群对应的存储数据管理条件;
配置信息发送模块1330,用于发送所述存储管理配置信息,以使第一设备在所述目标数据集群对应的集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,所述存储数据管理条件是指所述数据处理任务的触发条件;
任务数据接收模块1340,用于接收所述数据处理任务对应的任务执行数据;
任务信息显示模块1350,用于基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
在示例性实施例中,所述装置1300还包括:提示信息接收模块。
提示信息接收模块,用于接收所述目标数据集群对应的管理配置提示信息。其中,所述管理配置提示信息是基于所述集群运行信息自适应确定的管理配置信息。
所述管理页面显示模块1310,还用于在所述存储数据管理页面显示所述管理配置提示信息。
所述配置信息确定模块1320,还用于响应于针对所述管理配置提示信息的确认操作,确定所述存储管理配置信息。
在示例性实施例中,所述存储管理配置信息包括文件合并配置信息,所述数据处理任务包括文件合并任务,所述任务信息显示模块1350,包括:文件合并信息显示单元。
文件合并信息显示单元,用于基于所述文件合并任务对应的文件合并数据,在所述预设页面中显示所述目标数据集群中的文件合并信息。
其中,所述文件合并数据是在所述集群运行信息满足所述文件合并配置信息对应的文件合并条件的情况下,执行所述文件合并任务得到的任务执行数据,所述文件合并信息用于表征所述目标数据集群中的文件合并情况。
在示例性实施例中,所述存储管理配置信息包括文件清理配置信息,所述数据处理任务包括文件清理任务,所述任务信息显示模块1350,包括:文件清理信息显示单元。
文件清理信息显示单元,用于基于所述文件清理任务对应的文件清理数据,在所述预设页面中显示所述目标数据集群中的文件清理信息;
其中,所述文件清理数据是在所述集群运行信息满足所述文件清理配置信息对应文件清理条件的情况下,执行所述文件清理任务得到的任务执行数据,所述文件清理信息用于表征所述目标数据集群中的文件清理情况。
在示例性实施例中,所述存储管理配置信息包括数据表配置信息,所述数据处理任务包括数据表调整任务,所述任务信息显示模块1350,包括:数据表调整信息显示单元。
数据表调整信息显示单元,用于基于所述数据表调整任务对应的数据表调整数据,在所述预设页面中显示所述目标数据集群中的数据表调整信息。
其中,所述数据表调整数据是在所述集群运行信息满足所述数据表配置信息对应的数据表调整条件的情况下,执行所述数据表调整任务得到的任务执行数据,所述数据表调整信息用于表征所述目标数据集群中的数据表调整情况。
综上所述,本申请实施例提供的技术方案,通过接收存储数据管理页面上的信息配置操作,确定目标数据集群对应的存储管理配置信息并发送该存储管理配置信息,以使第一设备可以根据接收到的存储管理配置信息确定存储数据管理条件并根据该条件对集群运行信息进行判断,从而自动执行相应的数据处理任务并发送任务执行数据至本地设备,本地设备可以根据接收到的任务执行数据,在预设页面中显示数据集群内的任务执行信息,实现了数据运维自动化,降低了数据运维工作量,提升数据运维效率以及数据集群内的数据存储效率,并且还提升了数据运维结果展示信息的信息量,改善了用户体验。
请参考图14,其示出了本申请一个实施例提供的数据处理装置的框图二。该装置具有实现上述数据处理方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置1400可以包括:运行信息获取模块1410、配置信息接收模块1420、管理条件确定模块1430、数据任务执行模块1440、任务数据发送模块1450。
运行信息获取模块1410,用于获取目标数据集群对应的集群运行信息。
配置信息接收模块1420,用于接收目标数据集群对应的存储管理配置信息,所述存储管理配置信息是第二设备根据存储数据管理页面上接收的信息配置操作确定的配置信息。
管理条件确定模块1430,用于基于所述存储管理配置信息,确定所述目标数据集群对应的存储数据管理条件。
数据任务执行模块1440,用于在所述集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,得到所述数据处理任务对应的任务执行数据。
任务数据发送模块1450,用于发送所述任务执行数据,以使所述第二设备基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
在示例性实施例中,所述装置1400还包括:提示信息确定模块和提示信息发送模块。
提示信息确定模块,用于基于所述集群运行信息自适应确定针对所述目标数据集群的管理配置提示信息。
提示信息发送模块,用于发送所述管理配置提示信息,以使所述存储数据管理页面显示所述管理配置提示信息。
在示例性实施例中,所述集群运行信息包括数据操作事件信息,所述数据操作事件信息是指所述目标数据集群中的数据表读写操作事件对应的信息;所述数据任务执行模块1440,包括:数据表确定单元、任务创建单元、任务包生成单元、任务包执行单元。
数据表确定单元,用于在所述数据操作事件信息满足目标存储数据管理条件的情况下,确定目标数据处理任务对应的至少一个数据表。其中,所述目标存储数据管理条件为任一存储数据管理条件,所述目标数据处理任务是指所述目标存储数据管理条件对应的数据处理任务。
任务创建单元,用于创建所述至少一个数据表对应的数据表操作任务,所述目标数据处理任务包括所述至少一个数据表对应的数据表操作任务;
任务包生成单元,用于将所述至少一个数据表对应的数据表操作任务分配到至少一个任务队列中,生成数据表操作任务包;
任务包执行单元,用于执行所述数据表操作任务包中的数据表操作任务,得到所述任务执行数据。
在示例性实施例中,所述存储数据管理条件包括文件合并条件、文件清理条件、数据表调整条件中至少一种,所述数据处理任务包括所述文件合并条件对应的文件合并任务、所述文件清理条件对应的文件清理任务、所述数据表调整条件对应的数据表调整任务中至少一种。
在示例性实施例中,所述数据任务执行模块1440,还包括:信息获取单元和运算资源确定单元。
信息获取单元,用于获取所述目标数据集群对应的资源负载信息以及所述至少一个数据表对应的数据表属性信息。
运算资源确定单元,用于基于所述资源负载信息与所述数据表属性信息,确定所述数据表操作任务对应的运算资源。
所述任务包执行单元,具体用于:基于所述数据表操作任务包中的数据表操作任务对应的运算资源,执行所述数据表操作任务包中的数据表操作任务,得到所述任务执行数据。
综上所述,本申请实施例提供的技术方案,通过接收由存储数据管理页面上的信息配置操作确定的存储管理配置信息,来确定目标数据集群对应的存储数据管理条件,并根据该条件对集群运行信息进行判断,从而自动执行相应的数据处理任务并发送任务执行数据至第二设备,以使第二设备根据接收到的任务执行数据,在预设页面中显示数据集群内的任务执行信息,实现了数据运维自动化,降低了数据运维工作量,提升数据运维效率以及数据集群内的数据存储效率,并且还提升了数据运维结果展示信息的信息量,改善了用户体验。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图15,其示出了本申请一个实施例提供的计算机设备的结构框图一。该计算机设备可以是第二设备。该计算机设备用于实施上述实施例中提供的第二设备侧的数据处理方法。具体来讲:
通常,计算机设备1500包括有:处理器1501和存储器1502。
处理器1501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令,至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集,且经配置以由一个或者一个以上处理器执行,以实现上述数据处理方法。
在一些实施例中,计算机设备1500还可选包括有:外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地,外围设备包括:射频电路1504、触摸显示屏1505、摄像头组件1506、音频电路1507、定位组件1508和电源1509中的至少一种。
本领域技术人员可以理解,图15中示出的结构并不构成对计算机设备1500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
请参考图16,其示出了本申请一个实施例提供的计算机设备的结构框图二。该计算机设备可以是第一设备,比如服务器,以用于执行上述第一设备侧的数据处理方法。具体来讲:
计算机设备1600包括中央处理单元(Central Processing Unit,CPU)1601、包括随机存取存储器(Random Access Memory,RAM)1602和只读存储器(Read Only Memory,ROM)1603的系统存储器1604,以及连接系统存储器1604和中央处理单元1601的系统总线1605。计算机设备1600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1606,和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1607。
基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。大容量存储设备1607及其相关联的计算机可读介质为计算机设备1600提供非易失性存储。也就是说,大容量存储设备1607可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。
根据本申请的各种实施例,计算机设备1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1600可以通过连接在系统总线1605上的网络接口单元1611连接到网络1612,或者说,也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述第一设备侧的数据处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述数据处理方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

Claims (15)

1.一种数据处理方法,其特征在于,所述方法包括:
显示存储数据管理页面;
响应于所述存储数据管理页面上接收的信息配置操作,确定目标数据集群对应的存储管理配置信息,所述存储管理配置信息用于确定所述目标数据集群对应的存储数据管理条件;
发送所述存储管理配置信息,以使第一设备在所述目标数据集群对应的集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,所述存储数据管理条件是指所述数据处理任务的触发条件;
接收所述数据处理任务对应的任务执行数据;
基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述目标数据集群对应的管理配置提示信息;其中,所述管理配置提示信息是基于所述集群运行信息自适应确定的管理配置信息;
在所述存储数据管理页面显示所述管理配置提示信息;
响应于针对所述管理配置提示信息的确认操作,确定所述存储管理配置信息。
3.根据权利要求1所述的方法,其特征在于,所述存储管理配置信息包括文件合并配置信息,所述数据处理任务包括文件合并任务,所述基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息,包括:
基于所述文件合并任务对应的文件合并数据,在所述预设页面中显示所述目标数据集群中的文件合并信息;
其中,所述文件合并数据是在所述集群运行信息满足所述文件合并配置信息对应的文件合并条件的情况下,执行所述文件合并任务得到的任务执行数据,所述文件合并信息用于表征所述目标数据集群中的文件合并情况。
4.根据权利要求1所述的方法,其特征在于,所述存储管理配置信息包括文件清理配置信息,所述数据处理任务包括文件清理任务,所述基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息,包括:
基于所述文件清理任务对应的文件清理数据,在所述预设页面中显示所述目标数据集群中的文件清理信息;
其中,所述文件清理数据是在所述集群运行信息满足所述文件清理配置信息对应文件清理条件的情况下,执行所述文件清理任务得到的任务执行数据,所述文件清理信息用于表征所述目标数据集群中的文件清理情况。
5.根据权利要求1所述的方法,其特征在于,所述存储管理配置信息包括数据表配置信息,所述数据处理任务包括数据表调整任务,所述基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息,包括:
基于所述数据表调整任务对应的数据表调整数据,在所述预设页面中显示所述目标数据集群中的数据表调整信息;
其中,所述数据表调整数据是在所述集群运行信息满足所述数据表配置信息对应的数据表调整条件的情况下,执行所述数据表调整任务得到的任务执行数据,所述数据表调整信息用于表征所述目标数据集群中的数据表调整情况。
6.一种数据处理方法,其特征在于,所述方法包括:
获取目标数据集群对应的集群运行信息;
接收目标数据集群对应的存储管理配置信息,所述存储管理配置信息是第二设备根据存储数据管理页面上接收的信息配置操作确定的配置信息;
基于所述存储管理配置信息,确定所述目标数据集群对应的存储数据管理条件;
在所述集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,得到所述数据处理任务对应的任务执行数据;
发送所述任务执行数据,以使所述第二设备基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
7.根据权利要求6所述的方法,其特征在于,所述获取所述目标数据集群对应的集群运行信息之后,所述方法还包括:
基于所述集群运行信息自适应确定针对所述目标数据集群的管理配置提示信息;
发送所述管理配置提示信息,以使所述存储数据管理页面显示所述管理配置提示信息。
8.根据权利要求6所述的方法,其特征在于,所述集群运行信息包括数据操作事件信息,所述数据操作事件信息是指所述目标数据集群中的数据表读写操作事件对应的信息;
所述在所述集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,得到所述数据处理任务对应的任务执行数据,包括:
在所述数据操作事件信息满足目标存储数据管理条件的情况下,确定目标数据处理任务对应的至少一个数据表;其中,所述目标存储数据管理条件为任一存储数据管理条件,所述目标数据处理任务是指所述目标存储数据管理条件对应的数据处理任务;
创建所述至少一个数据表对应的数据表操作任务,所述目标数据处理任务包括所述至少一个数据表对应的数据表操作任务;
将所述至少一个数据表对应的数据表操作任务分配到至少一个任务队列中,生成数据表操作任务包;
执行所述数据表操作任务包中的数据表操作任务,得到所述任务执行数据。
9.根据权利要求8所述的方法,其特征在于,所述存储数据管理条件包括文件合并条件、文件清理条件、数据表调整条件中至少一种,所述数据处理任务包括所述文件合并条件对应的文件合并任务、所述文件清理条件对应的文件清理任务、所述数据表调整条件对应的数据表调整任务中至少一种。
10.根据权利要求8所述的方法,其特征在于,所述执行所述数据表操作任务包中的数据表操作任务,得到所述任务执行数据之前,还包括:
获取所述目标数据集群对应的资源负载信息以及所述至少一个数据表对应的数据表属性信息;
基于所述资源负载信息与所述数据表属性信息,确定所述数据表操作任务对应的运算资源;
所述执行所述数据表操作任务包中的数据表操作任务,包括:
基于所述数据表操作任务包中的数据表操作任务对应的运算资源,执行所述数据表操作任务包中的数据表操作任务,得到所述任务执行数据。
11.一种数据处理装置,其特征在于,所述装置包括:
管理页面显示模块,用于显示存储数据管理页面;
配置信息确定模块,用于响应于所述存储数据管理页面上接收的信息配置操作,确定目标数据集群对应的存储管理配置信息,所述存储管理配置信息用于确定所述目标数据集群对应的存储数据管理条件;
配置信息发送模块,用于发送所述存储管理配置信息,以使第一设备在所述目标数据集群对应的集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,所述存储数据管理条件是指所述数据处理任务的触发条件;
任务数据接收模块,用于接收所述数据处理任务对应的任务执行数据;
任务信息显示模块,用于基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
12.一种数据处理装置,其特征在于,所述装置包括:
运行信息获取模块,用于获取目标数据集群对应的集群运行信息;
配置信息接收模块,用于接收目标数据集群对应的存储管理配置信息,所述存储管理配置信息是第二设备根据存储数据管理页面上接收的信息配置操作确定的配置信息;
管理条件确定模块,用于基于所述存储管理配置信息,确定所述目标数据集群对应的存储数据管理条件;
数据任务执行模块,用于在所述集群运行信息满足所述存储数据管理条件的情况下,执行针对所述目标数据集群的数据处理任务,得到所述数据处理任务对应的任务执行数据;
任务数据发送模块,用于发送所述任务执行数据,以使所述第二设备基于所述任务执行数据,在预设页面中显示所述目标数据集群对应的任务执行信息。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一项所述的数据处理方法,或者实现如权利要求6至10任一项所述的数据处理方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一项所述的数据处理方法,或者实现如权利要求6至10任一项所述的数据处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现如权利要求1至5任一项所述的数据处理方法,或者实现如权利要求6至10任一项所述的数据处理方法。
CN202111388730.XA 2021-11-22 2021-11-22 数据处理方法、装置、设备、存储介质及产品 Pending CN114090580A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111388730.XA CN114090580A (zh) 2021-11-22 2021-11-22 数据处理方法、装置、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111388730.XA CN114090580A (zh) 2021-11-22 2021-11-22 数据处理方法、装置、设备、存储介质及产品

Publications (1)

Publication Number Publication Date
CN114090580A true CN114090580A (zh) 2022-02-25

Family

ID=80302857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111388730.XA Pending CN114090580A (zh) 2021-11-22 2021-11-22 数据处理方法、装置、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN114090580A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528127A (zh) * 2022-03-31 2022-05-24 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN115438024A (zh) * 2022-08-23 2022-12-06 光大环境科技(中国)有限公司 数据导入中台的方法、装置、系统、电子设备、存储介质
CN116541448A (zh) * 2023-05-10 2023-08-04 百应科技有限公司 基于SaaS的数据集成处理方法及装置
CN116560722A (zh) * 2023-07-12 2023-08-08 腾讯科技(深圳)有限公司 运维流程处理方法、装置、电子设备及存储介质
CN118210757A (zh) * 2024-05-20 2024-06-18 杭州政云数据技术有限公司 凭证处理方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528127A (zh) * 2022-03-31 2022-05-24 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN115438024A (zh) * 2022-08-23 2022-12-06 光大环境科技(中国)有限公司 数据导入中台的方法、装置、系统、电子设备、存储介质
CN116541448A (zh) * 2023-05-10 2023-08-04 百应科技有限公司 基于SaaS的数据集成处理方法及装置
CN116541448B (zh) * 2023-05-10 2023-12-08 汉友科技有限公司 基于SaaS的数据集成处理方法及装置
CN116560722A (zh) * 2023-07-12 2023-08-08 腾讯科技(深圳)有限公司 运维流程处理方法、装置、电子设备及存储介质
CN116560722B (zh) * 2023-07-12 2024-01-02 腾讯科技(深圳)有限公司 运维流程处理方法、装置、电子设备及存储介质
CN118210757A (zh) * 2024-05-20 2024-06-18 杭州政云数据技术有限公司 凭证处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11868359B2 (en) Dynamically assigning queries to secondary query processing resources
US11422853B2 (en) Dynamic tree determination for data processing
US12013856B2 (en) Burst performance of database queries according to query size
CN109074377B (zh) 用于实时处理数据流的受管理功能执行
CN114090580A (zh) 数据处理方法、装置、设备、存储介质及产品
US9996593B1 (en) Parallel processing framework
US11727004B2 (en) Context dependent execution time prediction for redirecting queries
US10885030B2 (en) Database management system and computer system having first and second query execution parts which execute database operations in parallel
US11669427B2 (en) Query-attempt processing in a database environment
CN111324606B (zh) 数据分片的方法及装置
US11640347B2 (en) Automated query retry execution in a database system
US10303678B2 (en) Application resiliency management using a database driver
US11874824B2 (en) Identifying software regressions based on query retry attempts in a database environment
US11609910B1 (en) Automatically refreshing materialized views according to performance benefit
CN111352592B (zh) 磁盘读写控制方法、装置、设备及计算机可读存储介质
US11429311B1 (en) Method and system for managing requests in a distributed system
US11537616B1 (en) Predicting query performance for prioritizing query execution
US10554502B1 (en) Scalable web services execution
CN114020446A (zh) 一种跨多引擎的路由处理方法、装置、设备及存储介质
US11816088B2 (en) Method and system for managing cross data source data access requests
US12079103B2 (en) Performance test environment for APIs
JP2023509812A (ja) データ記憶方法、装置、クエリ方法、電子機器および可読媒体
CN116257544A (zh) Hive SQL语句拦截方法、装置、设备、介质和产品
CN114969139A (zh) 大数据运维管理方法、系统、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination