CN116719584A - 数据处理方法、装置、计算机、存储介质及程序产品 - Google Patents
数据处理方法、装置、计算机、存储介质及程序产品 Download PDFInfo
- Publication number
- CN116719584A CN116719584A CN202310994076.XA CN202310994076A CN116719584A CN 116719584 A CN116719584 A CN 116719584A CN 202310994076 A CN202310994076 A CN 202310994076A CN 116719584 A CN116719584 A CN 116719584A
- Authority
- CN
- China
- Prior art keywords
- configuration information
- configuration
- service
- index
- management cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 67
- 238000003672 processing method Methods 0.000 title abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 171
- 230000008569 process Effects 0.000 claims abstract description 110
- 238000012545 processing Methods 0.000 claims abstract description 76
- 238000001514 detection method Methods 0.000 claims description 74
- 238000004590 computer program Methods 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 17
- 230000001976 improved effect Effects 0.000 abstract description 35
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000007726 management method Methods 0.000 description 199
- 238000010586 diagram Methods 0.000 description 21
- 238000005457 optimization Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000000977 initiatory effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、计算机、存储介质及程序产品,适用云技术,该方法包括:响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,对第一配置信息进行配置调整,生成第二配置信息;采用第二配置信息执行第一业务,获取第一业务在执行过程中所产生的第一业务指标;第一业务指标用于表示执行第一业务所耗费的资源;将第二配置信息与第一业务指标关联存储至配置管理集群中。采用本申请,可以提高数据处理的效率及精确性,进而提高针对业务的执行性能。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机、存储介质及程序产品。
背景技术
计算引擎(Apache Spark,简称Spark)是一种用于大数据工作负载处理的分布式开源系统,Spark数据处理任务的执行效率及成本开销等,依赖于Spark参数配置的选择,因此,Spark参数配置就极为重要。目前,一般是利用机器学习算法-随机森林对配置和执行结果之间的关系进行建模,通过建立的模型进行Spark参数配置的选取,而在这一方式下,建模过程依赖大量配置的离线验证结果,会引入不小的额外调优开销,提高了数据处理的资源损耗,降低了数据处理的效率。而且,对于不同的调优目的,需要建立不同的模型,进一步提高了数据处理的资源损耗,且由于模型的针对性,降低了数据处理的通用性。
发明内容
本申请实施例提供了一种数据处理方法、装置、计算机、存储介质及程序产品,可以提高数据处理的效率及精确性,进而提高针对业务的执行性能。
本申请实施例一方面提供了一种数据处理方法,该方法包括:
响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,对第一配置信息进行配置调整,生成第二配置信息;
采用第二配置信息执行第一业务,获取第一业务在执行过程中所产生的第一业务指标;第一业务指标用于表示执行第一业务所耗费的资源;
将第二配置信息与第一业务指标关联存储至配置管理集群中。
本申请实施例一方面提供了一种数据处理装置,该装置包括:
配置获取模块,用于响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息;
配置调整模块,用于对第一配置信息进行配置调整,生成第二配置信息;
业务执行模块,用于采用第二配置信息执行第一业务;
指标获取模块,用于获取第一业务在执行过程中所产生的第一业务指标;第一业务指标用于表示执行第一业务所耗费的资源;
配置存储模块,用于将第二配置信息与第一业务指标关联存储至配置管理集群中。
其中,该配置获取模块,包括:
参数生成单元,用于响应针对第一业务的执行请求,生成用于获取配置信息的随机参数;
集群选取单元,用于若随机参数小于配置选取阈值,则从配置管理集群中随机获取配置信息作为第一配置信息;
指标配置单元,用于若随机参数大于或等于配置选取阈值,则获取配置管理集群所包括的配置信息及配置信息对应的业务指标,将业务指标最小的配置信息确定为第一配置信息。
其中,该配置获取模块,包括:
集群查找单元,用于响应针对第一业务的执行请求,查找配置管理集群;
集群初始化单元,用于若未查找到配置管理集群,则生成M个初始配置信息,基于M个初始配置信息初始化配置管理集群;
配置获取单元,用于基于初始化后的配置管理集群,获取第一配置信息;M个初始配置信息包括第一配置信息;M为正整数;
该配置获取单元,还用于若查找到配置管理集群,则从配置管理集群中获取第一配置信息。
其中,该装置还包括:
队列添加模块,用于将M个初始配置信息添加至配置队列中;
其中,该配置获取单元,包括:
配置出队子单元,用于若配置队列不为空,则对配置队列中的初始配置信息进行出队处理,将出队的初始配置信息确定为第一配置信息;
集群获取子单元,用于若配置队列为空,则从初始化后的配置管理集群中获取第一配置信息。
其中,该装置还包括:
队列查找模块,用于查找配置队列;
集群调用模块,用于若配置队列为空或不存在配置队列,则执行从配置管理集群中获取第一配置信息的过程;
队列处理模块,用于若配置队列不为空,则对配置队列中的初始配置信息进行出队处理,将出队的初始配置信息确定为第三配置信息,采用第三配置信息执行第一业务,获取第一业务在执行过程中所产生的第二业务指标,将第二业务指标与配置管理集群中的第三配置信息进行关联存储。
其中,该指标获取模块,包括:
指标获取单元,用于获取第一业务在执行过程中所产生的A个业务指标;
约束获取单元,用于获取配置约束条件;A为正整数;
指标加权单元,用于基于配置约束条件确定A个业务指标分别对应的指标系数,采用A个业务指标分别对应的指标系数,对A个业务指标进行加权整合,得到第一业务指标。
其中,A个业务指标包括资源损耗指标及执行时长指标;
该指标获取单元,包括:
时长获取子单元,用于将采用第二配置信息执行第一业务所耗费的时长,确定为执行时长指标;
损耗确定子单元,用于获取第一业务在执行过程中所耗费的内存数量及处理使用量,获取资源调整系数,采用资源调整系数对内存数量及处理使用量进行整合,得到资源损耗指标。
其中,第一业务指标由资源损耗指标及执行时长指标组成;该装置还包括:
存储检测模块,用于获取资源损耗阈值及执行时长阈值,若资源损耗指标小于或等于资源损耗阈值,且执行时长指标小于或等于执行时长阈值,则执行将第二配置信息与第一业务指标关联存储至配置管理集群中的过程;
配置删除模块,用于若资源损耗指标大于资源损耗阈值,或执行时长指标大于执行时长阈值,则删除第二配置信息。
其中,该装置还包括:
集群获取模块,用于获取配置管理集群中所包括的配置信息及配置信息的业务指标;配置信息包括第一配置信息及第二配置信息;
集群筛选模块,用于基于配置信息的业务指标,删除配置管理集群中业务指标不满足配置约束条件的配置信息,得到优化配置管理集群;
执行调用模块,用于当接收到针对第二业务的执行请求时,将优化配置管理集群确定为配置管理集群,将第二业务确定为第一业务,返回执行响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息的过程。
其中,该装置还包括:
集群确定模块,用于若优化配置管理集群满足集群收敛条件,则将优化配置管理集群确定为目标配置管理集群;
配置确定模块,用于将目标配置管理集群中业务指标最小的配置信息确定为目标配置信息,采用目标配置信息执行第二业务;
该执行调用模块,还用于若优化配置管理集群不满足集群收敛条件,则执行将优化配置管理集群确定为配置管理集群,将第二业务确定为第一业务的过程。
其中,该装置还包括:
重要确定模块,用于获取N个候选参数及N个候选参数分别对应的参数重要度;N为正整数;
参数筛选模块,用于基于N个候选参数分别对应的参数重要度,对N个候选参数进行排序处理,将排序后的N个候选参数中的前K个候选参数确定为调优参数;K为小于或等于N的正整数;
该配置调整模块,包括:
取值调整单元,用于获取K个调优参数分别对应的参数范围,在K个调优参数分别对应的参数范围内,对第一配置信息中的K个调优参数分别对应的第一取值进行配置调整,得到K个调优参数分别对应的第二取值;
配置生成单元,用于将K个调优参数分别对应的第二取值,组成第二配置信息。
其中,该重要确定模块,包括:
参数检测单元,用于将N个候选参数分别对应的初始取值组成第一检测信息,采用第一检测信息执行检测业务,得到第一检测指标;
调整检测单元,用于对第一检测信息中第i个候选参数的初始取值进行调整,得到第i个候选参数所对应的第二检测信息,采用第i个候选参数所对应的第二检测信息执行检测业务,得到第i个候选参数所对应的第二检测指标;i为小于或等于N的正整数;
重要确定单元,用于基于第一检测指标与第i个候选参数所对应的第二检测指标,确定第i个候选参数所对应的指标变化幅度,将第i个候选参数所对应的指标变化幅度转换为第i个候选参数的参数重要度。
本申请实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;
处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用该计算机程序,以使包含该处理器的计算机设备执行本申请实施例一方面中的数据处理方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例一方面中的数据处理方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。换句话说,该计算机指令被处理器执行时实现本申请实施例一方面中的各种可选方式中提供的方法。
实施本申请实施例,将具有如下有益效果:
在本申请实施例中,响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,对第一配置信息进行配置调整,生成第二配置信息;采用第二配置信息执行第一业务,获取第一业务在执行过程中所产生的第一业务指标;第一业务指标用于表示执行第一业务所耗费的资源;将第二配置信息与第一业务指标关联存储至配置管理集群中。通过以上过程,可以直接在对业务的执行过程中进行配置信息的确定,而且会记录业务执行过程中所产生的业务指标,以表示执行业务所采用的配置信息的优劣,进而可以在对业务的执行过程中,不断进行配置信息的调整,而这一过程无需用户进行额外介入,且不会引入额外的调优开销或者只会引入较少的额外调优开销,提高数据处理的效率及精确度,并且可以提高数据处理的通用性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理的网络交互架构图;
图2是本申请实施例提供的一种数据处理场景示意图;
图3是本申请实施例提供的一种数据处理数据流图;
图4是本申请实施例提供的一种数据处理的方法流程图;
图5是本申请实施例提供的一种可选的数据处理的方法流程图;
图6是本申请实施例提供的一种调优配置场景示意图;
图7a是本申请实施例提供的一种效率优化示意图;
图7b是本申请实施例提供的一种资源占据优化示意图;
图8是本申请实施例提供的一种数据处理装置示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
其中,若在本申请中需要收集对象(如用户等)数据,则在收集前、收集中,显示提示界面或者弹窗,该提示界面或者弹窗用于提示用户当前正在搜集某些数据,仅仅在获取到用户对该提示界面或者弹窗发出确认操作后,开始执行数据获取的相关的步骤,否则结束。而且,对于获取到的用户数据,会在合理合法的场景或用途等上进行使用。可选的,在一些需要使用用户数据但未得到用户授权的场景中,还可以向用户请求授权,在授权通过时,再使用用户数据。其中,本申请对于用户数据的使用符合法律法规的相关规定,也就是说,用户数据的使用合理合法。
可选的,本申请可以采用云技术辅助本申请中技术方案的实现,具体可以采用大数据及云存储技术等,进行配置信息的生成及存储,进而提高数据处理的效率。
其中,大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。在本申请中,Spark包含100+参数,随着发展,甚至可能会更多,这些参数从多个方面影响任务(即业务)执行,包括动态分配、调度、位置变化(shuffle)行为、数据序列化、内存管理、执行行为及网络等,而在生成或存储配置信息时,每个配置信息都由这些参数的取值组成,因此,可以通过大数据技术,生成并存储配置信息。
其中,还可以采用云存储技术,存储配置信息,用以管理配置信息,提高数据的管理便捷性。其中,云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统 (以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
在本申请实施例中,请参见图1,图1是本申请实施例提供的一种数据处理的网络交互架构图,如图1所示,计算机设备101可以在接收到本地触发或任意业务设备(如业务设备102a、业务设备102b或业务设备102c等)所发送的针对业务的执行请求,采用本申请的技术方案获取针对该业务的配置信息,执行该业务,并进一步可以存储该业务所采用的配置信息以及执行该业务所产生的业务指标,从而可以将存储的配置信息与其对应的业务指标,用于后续执行业务时,为后续的业务获取对应的配置信息。可以使得对于配置信息的生成及调优过程,直接集成于业务的执行过程中,并以业务的实际执行过程所产生的业务指标,确定执行该业务所采用的配置信息的性能,进而对配信息不断优化,使得对于配置信息的调优过程无需额外的调优开销,提高了配置调整的效率及精确性,而且随着配置信息的调优,可以使得业务的执行性能越来越好,提高业务执行的效率及性能。进一步,由于该配置信息的调优也无需进行建模,也就使得配置信息的调优方向可以满足不同的调优目的,提高了数据处理的通用性。
举例来说,计算机设备101可以响应针对业务的执行请求,获取针对该业务的配置信息,采用获取到的配置信息执行该业务,获取该业务在执行过程中所产生的业务指标,将该业务指标与配置信息进行关联存储,用于对后续业务的配置信息的获取。或者,计算机设备101可以接收业务设备102b所发送的针对业务的执行请求,响应该针对业务的执行请求,获取针对该业务的配置信息,将获取到的配置信息发送至业务设备102b;业务设备102b采用接收到的配置信息执行业务,将业务在执行过程中所产生的业务指标发送至计算机设备101,计算机设备101对配置信息与业务指标进行关联存储。其中,上述业务可以是本申请中所提及的任意一个业务(如第一业务、第二业务或目标业务等)。
具体的,请参见图2,图2是本申请实施例提供的一种数据处理场景示意图。如图2所示,计算机设备可以响应针对第一业务201的执行请求,从配置管理集群202中获取第一配置信息203,对该第一配置信息203进行配置调整,生成第二配置信息204。采用第二配置信息204执行第一业务201,获取第一业务201在执行过程中所产生的第一业务指标,该第一业务指标用于表示执行第一业务所耗费的资源,可以用于表示第二配置信息204的性能。进一步,可以将第二配置信息204与第一业务指标关联存储至配置管理集群202中。其中,配置管理集群202相当于一个数据存储空间(如数据库或数据列表等),用于管理配置信息,该配置管理集群202中所包括的内容可以进行更新,也就是说,在不同时刻所获取到的配置管理集群202中所包括的内容有可能会不一样,因此,在本申请中获取配置管理集群202时,指的是获取在获取时刻的配置管理集群,权利要求中的“所述配置管理集群”只是指代获取存储配置信息的数据存储空间,并不一定与前一个配置管理集群所包括的内容相同。通过以上过程,使得在业务执行过程中实现对配置信息的调优,使得该配置信息可以不断进行优化,更为适配业务执行的调优目的,进而提高业务执行性能。而且对于配置信息的调优过程,无需额外的调优开销,降低了数据处理的资源损耗,提高了数据处理的效率及通用性。
举例来说,一种可能的情况下,可以参见图3,图3是本申请实施例提供的一种数据处理数据流图。如图3所示,计算机设备可以认为包括数据平台及配置调优平台等,该数据平台用于执行业务,配置调优平台用于生成配置信息或对配置信息进行调优,该配置调优平台可以包括一个或多个组件,如配置生成器及调优存储组件等。其中,在这一情况下,该计算机设备进行数据处理的过程可以认为大概包括如下步骤:
①计算机设备可以通过数据平台(或者可以称为调度模块)触发并创建任务实例,可以将任务实例称为业务,可以认为在很多需要通过配置信息执行业务的应用场景下,在执行业务时,可以触发步骤②。其中,该业务可以是周期性任务实例,如Spark任务,周期包括几小时、几天、几周或几分钟等,该业务也可以是随机性任务实例,也就是触发时机是随机的,而非周期性,如常规的业务,也就是不会定时触发的业务。
②计算机设备可以通过数据平台向配置调优平台发送针对业务的执行请求,通过配置调优平台中的配置生成器,基于调优存储组件所产生的数据确定用于该业务的配置信息,将该配置信息反馈至数据平台。数据平台采用该配置信息,执行该业务。
③通过数据平台采集业务在执行过程中所产生的业务指标,该业务指标用于表示获取的配置信息在不同方面的性能度量,可以通过数据平台将该配置信息的业务指标反馈至配置调优平台。
④通过配置调优平台中的调优存储组件,存储该配置信息及该配置信息的业务指标,从而在后续执行业务时的第②步中,可以用于作为业务的配置信息的确定的其中一种依据。
可以理解的是,本申请实施例中所提及的业务设备也可以认为是一种计算机设备,本申请实施例中的计算机设备包括但不限于终端设备或服务器。换句话说,计算机设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality,AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,MID),或者火车、轮船、飞行等场景下的终端设备等。如图1中所示,终端设备可以是一种笔记本电脑(如业务设备102b所示)、手机(如业务设备102c所示)或车载设备(如业务设备102a所示)等,图1仅例举出部分的设备,可选的,该业务设备102a是指位于交通工具103中的设备,业务设备102a可以用于执行业务(如业务1021等)。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选的,本申请实施例中所涉及的数据可以存储在计算机设备中,或者可以基于云存储技术或区块链网络等对该数据进行存储,在此不做限制。
进一步地,请参见图4,图4是本申请实施例提供的一种数据处理的方法流程图。如图4所示,该数据处理过程包括如下步骤:
步骤S401,响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息。
在本申请实施例中,计算机设备可以响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,具体的,可以基于配置管理集群中所包括的配置信息及业务指标,获取第一配置信息。其中,配置信息是指由多个配置参数的取值所组成的配置,组成配置信息的配置参数是由该配置信息所在的应用场景确定的,例如,在Spark中,组成配置信息的配置参数可以包括但不限于执行存储参数(spark.executor.memory)、执行处理参数(spark.executor.cores)、执行实例参数(spark.executor.instances)存储评分参数(spark.memory.fraction)、存储分数参数(spark.memory.storageFraction)及内存管理启动参数(spark.memory.offHeap.enabled)等,以上仅为例举的部分配置参数;例如,在数据传输的应用场景中,组成配置信息的配置参数可以包括但不限于传输带宽参数、网络通道数量参数及传输方式参数(如单工传输、半双工传输及全双工传输等)等。也就是说,在不同应用场景下,组成配置信息的配置参数可能不同,在此不进行一一例举。
具体的,一种配置信息的获取方式,可以查找配置管理集群中未关联业务指标的配置信息,若查找到未关联业务指标的配置信息,则从未关联业务指标的配置信息中选取一个配置信息,作为第一配置信息;若未查找到未关联业务指标的配置信息,则将配置管理集群中,业务指标最小的配置信息,确定为第一配置信息。也就是说,可以先对配置管理集群中所包括的所有配置信息,进行检测,以得到配置管理集群中所包括的所有配置信息的业务指标,相当于是可以确定配置管理集群中所包括的所有配置信息性能,从而可以尽可能全面地覆盖配置信息可能出现的情况。其中,原理就相当于对于一组数据,距离相近的数据相似度越高,属性越相近(如性能等),可以通过对这一组数据中的代表性数据进行解析,用来代替对这一组数据的解析。通过对配置管理集群中的各个配置信息进行性能解析,可以使得后续进行配置调优时,能够实现调优准确性。后续直接将业务指标最小的配置信息,确定为需要进行配置调优的第一配置信息,业务指标最小,表示对应的配置信息在配置管理集群中性能最优,在此基础上进行配置调优,可以提高配置调优的效率。
或者,一种配置信息的获取方式,计算机设备可以基于随机参数,确定获取第一配置信息的方式,进而采用该获取第一配置信息的方式,获取第一配置信息。具体的,可以响应针对第一业务的执行请求,生成用于获取配置信息的随机参数,该随机参数可以是位于随机参数范围内的一个数值,例如,生成一个0~1的随机参数,或者其他随机参数范围(如0~100等)内的随机参数。若随机参数小于配置选取阈值(可以记作ε),则从配置管理集群中随机获取配置信息作为第一配置信息,具体的,可以从配置管理集群中,未关联业务指标的配置信息中,随机获取一个配置信息作为第一配置信息;或者,可以直接从配置管理集群中随机获取一个配置信息作为第一配置信息。若随机参数大于或等于配置选取阈值,则获取配置管理集群所包括的配置信息及配置信息对应的业务指标,将业务指标最小的配置信息确定为第一配置信息,其中,业务指标用于表示对应的配置信息在不同方面的性能度量,业务指标越小,表示对应的配置信息的性能越好。其中,可以将第一配置信息记作xparent,相当于是后续生成配置信息的父代配置。通过这一方式,可以提高配置信息的选取效果,提高配置信息的检测平衡性,即,均衡随机获取配置信息及基于业务指标最优地获取配置信息所带来的效果,随机获取配置信息有助于对配置信息的全面遍历,业务指标最优地获取配置信息有助于配置信息的业务指标的收敛。也就是说,可以既实现对已有(即已存储)的配置信息的遍历,使得可能可以检测到性能更好的配置信息,又可以在现有确定的性能最好的配置信息基础上,生成新的配置信息,保障获取到的配置信息的性能,从而可以提高配置信息获取的准确性及全面性,进而提高业务执行性能。
可选的,计算机设备可以先查找配置管理集群,再进行第一配置信息的获取。具体的,可以响应针对第一业务的执行请求,查找配置管理集群。若未查找到配置管理集群,则生成M个初始配置信息,基于M个初始配置信息初始化配置管理集群,也就是将M个初始配置信息组成一个配置管理集群,即该配置管理集群包括M个初始配置信息。其中,该配置管理集群可以认为是一个集合,或者是一个存储区域,如数据库或远程字典服务(RemoteDictionary Server,Redis )等,远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型的键值对数据库。基于初始化后的配置管理集群,获取第一配置信息;此时,M个初始配置信息包括第一配置信息;M为正整数。此时,该配置管理集群中包括M个初始配置信息,为初始化后的配置管理集群,将配置管理集群中所包括的各个初始配置信息均记作配置信息,也就是说,可以将配置管理集群中所包括的配置均记作配置信息。若查找到配置管理集群,则从配置管理集群中获取第一配置信息,其中,该过程可以参见上述配置信息的获取情况中第一配置信息的获取过程,即可以基于随机参数,确定第一配置信息;或者,可以直接基于未关联业务指标的配置信息确定第一配置信息等。
其中,在初始化得到配置管理集群,基于配置管理集群,获取第一配置信息时,可以直接采用查找到配置管理集群时第一配置信息的获取过程,获取第一配置信息。或者,可以在基于M个初始配置信息初始化配置管理集群时,也将M个初始配置信息添加至配置队列(可以记作Q)中,从配置队列中获取第一配置信息。其中,将M个初始配置信息添加至配置队列的顺序不做限制,可以是将M个初始配置信息随机添加至配置队列中,直至添加完成,也可以是基于M个初始配置信息分别对应的生成时间,将M个初始配置信息依次添加至配置队列中。具体的,若配置队列不为空,则对配置队列中的初始配置信息进行出队处理,将出队的初始配置信息确定为第一配置信息;若配置队列为空,则从初始化后的配置管理集群中获取第一配置信息,当然在基于配置队列进行处理后,会同步对初始化后的配置管理集群进行更新,也就是此时,可以认为是从配置管理集群中获取第一配置信息,此时的配置管理集群是通过配置队列对初始化后的配置管理集群进行更新后得到的。该过程可以采用上述任意一种配置信息的获取方式,如直接基于未关联业务指标的配置信息确定第一配置信息,或基于随机参数,确定第一配置信息等。也就是说,可以先对初始化的M个初始配置信息进行后续配置信息的生成,直至对M个初始配置信息全部处理完成,提高配置信息的参数覆盖全面性,进而提高配置信息的获取精确性。通过配置队列可以更为方便地确定M个初始配置信息中,哪些已经经过检测,哪些未经过检测,即,配置队列中所包括的初始配置信息是未经过检测的,配置队列中未包括的初始配置信息是已经经过检测的,使得可以直接对配置队列中的初始配置信息进行依次检测即可,而不需要对配置管理集群进行遍历检测,从而提高对M个初始配置信息的检测效率。
可选的,一种配置信息的获取方式,可以先采用初始化的配置信息执行业务,以评估初始化的配置信息的性能(即配置队列不为空),再进一步精确选取配置信息(即配置队列为空或不存在配置队列),提高配置信息的获取准确性。具体的,可以查找配置队列,若配置队列为空或不存在配置队列,则执行从配置管理集群中获取第一配置信息的过程,该从配置管理集群中获取第一配置信息的过程,可以参见上述任意一种配置信息的获取方式中,第一配置信息的获取过程,进一步执行步骤S402。若配置队列不为空,则对配置队列中的初始配置信息进行出队处理,将出队的初始配置信息确定为第三配置信息,采用第三配置信息执行第一业务,获取第一业务在执行过程中所产生的第二业务指标,将第二业务指标与配置管理集群中的第三配置信息进行关联存储。其中,配置队列在初始时包括M个初始配置信息,在对配置队列进行处理的过程中,会对已经检测的配置信息进行出队处理,也就是用于管理M个初始配置信息中未被检测的初始配置信息,使得配置队列中所包括的数据是不断减少的,可以用于表示M个初始配置信息中未被检测的初始配置信息。
步骤S402,对第一配置信息进行配置调整,生成第二配置信息。
在本申请实施例中,计算机设备可以对第一配置信息(xparent)中的一个或多个配置参数的取值进行参数微调,生成第二配置信息(xnew);或者,可以基于随机突变算子对第一配置信息进行配置调整,生成第二配置信息等,可以记作,其中,Mutate()是指随机突变算子。其中,该随机突变算子是一种用于对数据进行微调整的算法。
具体的,可以将第一配置信息中的配置参数的第一取值调整为第二取值,得到第二配置信息。具体的,可以获取K个调优参数分别对应的参数范围,在K个调优参数分别对应的参数范围内,对第一配置信息中的K个调优参数分别对应的第一取值进行配置调整,得到K个调优参数分别对应的第二取值。也就是说,在第j个调优参数对应的参数范围内,对第一配置信息中的第j个调优参数对应的第一取值进行参数调整,也就是微调,如对第j个调优参数对应的第一取值进行数值增加或数值减少等,得到第j个调优参数对应的第二取值,j为小于或等于K的正整数,如第j个调优参数的第一取值为0.6,则可以对其进行参数调整,得到第j个调优参数的第二取值,如0.59或0.61等。可选的,也可以对第一配置信息中K个调优参数中的第一调优参数的第一取值进行参数调整,得到该第一调优参数的第二取值;将K个调优参数中第二调优参数在第一配置信息中的第一取值,确定为第二调优参数的第二取值,该第二调优参数是指K个调优参数中除第一调优参数之外的调优参数。进一步,可以将K个调优参数分别对应的第二取值,组成第二配置信息。其中,K个调优参数是指应用场景中,重要程度较高的配置参数。或者,可以从K个调优参数中随机获取一个或多个调优参数作为待调整参数,将第一配置信息中的待调整参数所对应的第一取值调整为第二取值,得到第二配置信息,其中,该“多个”的数量可以基于需要进行预配置或者可以获取人工输入的取值等,在此不做限制。通过调优参数进行调整,可以尽可能地使得配置信息的变化更能满足调优目的的需求,可以更快地实现对配置信息的性能调整,提高配置信息的调优效率。而且本申请是将配置调优过程集成至实际的业务执行过程中,而业务执行过程是本来就需要实现的,本申请通过直接获取配置信息在对应的业务执行过程中的实际应用效果,得到该配置信息的业务指标,用于指示该配置信息的性能,从而使得对配置信息的检测结果更为真实可靠,且无需额外的开销或者仅需要较少的额外开销(即获取实际应用效果),即可以实现对配置信息的检测,而且由于是实际应用时所产生的效果,使得对配置信息的检测更为准确。在此基础上,对配置信息进行配置调优,使得该配置调优过程更为贴合业务执行的实际需求,提高配置信息调优的准确性。或者,可以获取第一业务的调优目的,获取与该第一业务的调优目的相关联的关联调整参数,基于关联调整参数的参数范围,将第一配置信息中关联调整参数的第一取值更新为第二取值,该过程可以参见上述第j个调优参数的参数调整过程,得到第二配置信息,使得配置信息的调优方向更能偏向于调优目的,进而提高配置信息的调优效率。
步骤S403,采用第二配置信息执行第一业务,获取第一业务在执行过程中所产生的第一业务指标。
在本申请实施例中,第一业务指标用于表示执行第一业务所耗费的资源。
具体的,可以获取第一业务在执行过程中所产生的A个业务指标,获取配置约束条件;A为正整数。基于配置约束条件确定A个业务指标分别对应的指标系数,采用A个业务指标分别对应的指标系数,对A个业务指标进行加权整合,得到第一业务指标。其中,该A个业务指标可以包括但不限于资源损耗指标及执行时长指标等。其中,该第一业务指标可以记作y,该第一业务指标的生成过程可以记作y=Evaluate(xnew),其中,Evaluate()用于表示对第二配置信息在第一业务的执行过程中的性能的检测过程。
举例来说,以A个业务指标包括资源损耗指标及执行时长指标为例,在获取第一业务在执行过程中所产生的A个业务指标时,可以将采用第二配置信息执行第一业务所耗费的时长,确定为执行时长指标(可以记作T(xnew));获取第一业务在执行过程中所耗费的内存数量(可以记作mem(xnew))及处理使用量(可以记作vcore(xnew) ),获取资源调整系数(可以记作α),采用资源调整系数对内存数量及处理使用量进行整合,得到资源损耗指标(可以记作R(xnew))。其中,该资源损耗指标的获取过程可以参见公式①所示:
如公式①所示,α用于表示资源调整系数,可以用来确定组成资源损耗指标的子指标所占的比重;mem(xnew)用于表示内存数量,是指第一业务在执行过程中的内存使用量;vcore(xnew)用于表示处理使用量,可以用于表示第一业务在执行过程中,对于中央处理器(Central Processing Unit,CPU)核心(vcore)的使用量。
此时,该第一业务指标的获取过程可以参见公式②所示:
如公式②所示,f(xnew)用于表示第一业务指标y,其中,β用于表示执行时长指标的指标系数,(1-β)用于表示资源损耗指标的指标系数。具体的,可以基于指标调整系数,确定A个业务指标分别对应的指标系数,如公式②所示,β用于表示指标调整系数。可选的,可以β∈[0,1],α∈[0,1]。
具体的,可以获取调优目的,基于调优目的确定A个业务指标分别对应的指标系数及资源调整系数。具体的,调优目的所关联的业务指标的指标系数可以相对大些,例如,假定调优目的为内存调优,则可以减小资源调整系数,以增加内存数量所占的比重,减小指标调整系数,以增加资源损耗指标所占的比重,如α=0,β=0;假定调优目的为成本调优,则一种方式可以α=0.4,β=1;假定调优目的为性能调优,则一种方式可以β=1等。可选的,也可以直接获取自定义的A个业务指标分别对应的指标系数及资源调整系数等,在此不做限制。
进一步地,可以执行步骤S404。或者,第一业务指标由资源损耗指标及执行时长指标组成。可以获取资源损耗阈值及执行时长阈值,若资源损耗指标小于或等于资源损耗阈值,且执行时长指标小于或等于执行时长阈值,则执行步骤S404,将第二配置信息与第一业务指标关联存储至配置管理集群中的过程;若资源损耗指标大于资源损耗阈值,或执行时长指标大于执行时长阈值,则删除第二配置信息。可以将不满足配置约束条件的配置信息直接进行删除,无需进行存储,可以提高配置管理的效率,并在一定程度上可以减少配置信息所占用的存储开销。
步骤S404,将第二配置信息与第一业务指标关联存储至配置管理集群中。
在本申请实施例中,第一业务指标用于从配置管理集群中,辅助获取执行业务所采用的配置信息,也就是说,第一业务指标可以用于表示第一配置信息的性能,在后续执行业务时,可以通过配置信息的业务指标,获取执行业务所采用的配置信息,“辅助获取”用于表示第一业务指标是用来获取配置信息的辅助条件,如步骤S401中,采用业务指标获取第一配置信息的过程。其中,在将第二配置信息与第一业务指标关联存储至配置管理集群中后,可以认为第二配置信息为配置管理集群中的一个配置信息,第一业务指标可以认为是关联于配置管理集群中的第二配置信息的业务指标,其中,对第二配置信息与第一业务指标进行关联存储后,可以认为在配置管理集群中包括[第二配置信息,第一业务指标],或者,该业务指标在单独的历史存储器中进行存储,则该历史存储器中可以包括[第二配置信息的配置标识,第一业务指标],第二配置信息的配置标识用于指示第二配置信息在配置管理集群中的位置,也可以采用其他方式对第二配置信息与第一业务指标进行关联存储,在此不做限制。
进一步地,计算机设备可以获取配置管理集群中所包括的配置信息及配置信息的业务指标,在步骤S404的基础上,该配置信息包括第一配置信息及第二配置信息。可以基于配置信息的业务指标,删除配置管理集群中业务指标不满足配置约束条件的配置信息,得到优化配置管理集群,该配置约束条件是指应用场景的调优目的所对应的用来约束配置信息生成的条件,该配置约束条件可以包括但不限于资源损耗阈值、执行时长阈值及综合指标阈值。当接收到针对第二业务的执行请求时,将优化配置管理集群确定为配置管理集群,将第二业务确定为第一业务,返回执行步骤S401,响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息的过程。
可选的,若优化配置管理集群满足集群收敛条件,则将优化配置管理集群确定为目标配置管理集群;将目标配置管理集群中业务指标最小的配置信息确定为目标配置信息,采用目标配置信息执行第二业务。也就是说,在配置管理集群达到集群收敛条件时,直接将其中性能最优的配置信息作为目标配置信息,也就是后续执行业务所采用的配置信息,从而实现对配置信息的调优,并且后续可以直接获取该目标配置信息,提高了业务执行的效率。若优化配置管理集群不满足集群收敛条件,则执行将优化配置管理集群确定为配置管理集群,将第二业务确定为第一业务的过程。其中,集群收敛条件包括配置管理集群所包括的配置信息,均满足配置约束条件,或者,还可以包括配置管理集群所包括的配置信息的数量大于或等于配置数量阈值等。该集群收敛条件用于指示停止对配置管理集群的优化的条件。
在本申请实施例中,响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,对第一配置信息进行配置调整,生成第二配置信息;采用第二配置信息执行第一业务,获取第一业务在执行过程中所产生的第一业务指标;第一业务指标用于表示执行第一业务所耗费的资源;将第二配置信息与第一业务指标关联存储至配置管理集群中;第一业务指标用于从配置管理集群中,辅助获取执行业务所采用的配置信息。通过以上过程,可以直接在对业务的执行过程中进行配置信息的确定,而且会记录业务执行过程中所产生的业务指标,以表示执行业务所采用的配置信息的优劣,进而可以在对业务的执行过程中,不断进行配置信息的调整,而这一过程无需用户进行额外介入,且不会引入额外的调优开销或者只会引入较少的额外调优开销,提高数据处理的效率及精确度,并且可以提高数据处理的通用性。
可选的,请参见图5,图5是本申请实施例提供的一种可选的数据处理的方法流程图。如图5所示,这一实现方式下的过程可以认为包括如下阶段:
阶段一:生成配置管理集群,对初始化的配置管理集群中所包括的配置信息进行检测,得到配置管理集群所包括的配置信息的业务指标,此时,该配置管理集群所包括的配置信息为M个初始配置信息。该阶段可以认为是配置管理集群的初始化阶段。
阶段二:对配置管理集群中的配置信息进行调优处理,直至配置管理集群满足集群收敛条件,得到目标配置管理集群。该阶段可以认为是配置管理集群的配置调优阶段。
阶段三:获取目标配置管理集群中的目标配置信息,将目标配置信息作为后续执行业务所采用的配置信息。该阶段可以认为是配置管理集群的调优完成阶段。
具体的,该数据处理过程包括如下步骤:
步骤S501,初始化配置管理集群A。
在本申请实施例中,计算机设备可以获取集群大小,基于集群大小生成M个初始配置信息,基于M个初始配置信息初始化配置管理集群,该过程可以参见步骤S401中的相关描述,可以记作,其中,P为配置管理集群,当然,此时的配置管理集群可以记作初始配置管理集群。其中,M为集群大小。其中,可以获取K个调优参数分别对应的参数范围,对K个调优参数分别对应的参数范围进行随机采样,得到K个调优参数所对应的初始取值,将K个调优参数所对应的初始取值组成一个初始配置信息,同理, 可以得到M个初始配置信息。其中,K个调优参数可以是本申请所应用的应用场景中包括的所有配置参数,也可以是该应用场景中所包括的部分配置参数。其中,在K个调优参数为该应用场景中所包括的部分配置参数时,可以将除该部分配置参数之外的配置参数记作默认配置参数,可以将默认配置参数的默认取值与K个调优参数所对应的一组初始取值,组成一个初始配置信息,一组初始取值用于表示在一次采样中,K个调优参数分别对应的初始取值。或者,可以采用拉丁超立方采样(Latin hypercube sampling,LHS)方法,生成M个初始配置信息,其中,LHS方法是从多元参数分布中近似随机抽样,可以提高样本分布的均匀性,也就是可以使得M个初始配置信息,可以尽可能全面地分布于K个调优参数所对应的参数范围,使得该M个初始配置信息能够更好地表达出配置信息可能的取值情况,进而方便后续的配置信息调优,提高配置信息调优的准确性。例如,该K个调优参数分别对应的参数范围组成了调优参数空间,该调优参数空间可以参见公式③所示:
如公式③所示,用于表示调优参数空间,/>用于表示第j个调优参数的参数范围,j为小于或等于K的正整数,如/>用于表示第一个调优参数的参数范围等。K用于表示调优参数空间的大小,也就是调优参数的数量。通过对K个调优参数分别进行取值,得到K个调优参数分别对应的初始取值,也就是一组初始取值,可以记作x,x可以认为是一个向量,如/>用于表示第j个调优参数的初始,位于第j个调优参数的参数范围内。
可选的,在该K个调优参数为应用场景所包括的部分配置参数时,可以基于应用场景所包括的配置参数的参数重要度进行获取。具体的,可以获取N个候选参数及N个候选参数分别对应的参数重要度;N为正整数,其中,N个候选参数是指本申请所应用的应用场景包括的所有配置参数,可以记作,每个/>对应于一个候选参数。进一步,可以基于N个候选参数分别对应的参数重要度,对N个候选参数进行排序处理,将排序后的N个候选参数中的前K个候选参数确定为调优参数;K为小于或等于N的正整数。也就是相当于将后续用于进行配置信息生成的参数空间,缩减为调优参数空间,该参数空间可以参见公式④所示:
如公式④所示,用于表示参数空间,包括N个候选参数分别对应的参数范围,/>用于表示第i个候选参数的参数范围。参数空间较为庞大,搜索效率可能较低,可以通过对参数空间进行缩减,只调整重要参数(即参数重要度较大的配置参数),便可以带来显著的性能提升,可以避免浪费资源调整对性能影响不大的参数,从而在保障配置信息调整的准确性的情况下,提高配置信息的调整效率。
其中,在K个调优参数为部分配置参数时,K可以是默认参数数量,如10等,也可以是获取到的人工输入的取值。
其中,在获取N个候选参数及N个候选参数分别对应的参数重要度时,可以将N个候选参数分别对应的初始取值组成第一检测信息,采用第一检测信息执行检测业务,得到第一检测指标。对第一检测信息中第i个候选参数的初始取值进行调整,得到第i个候选参数所对应的第二检测信息,采用第i个候选参数所对应的第二检测信息执行检测业务,得到第i个候选参数所对应的第二检测指标;i为小于或等于N的正整数。基于第一检测指标与第i个候选参数所对应的第二检测指标,确定第i个候选参数所对应的指标变化幅度,将第i个候选参数所对应的指标变化幅度转换为第i个候选参数的参数重要度。其中,第二检测指标的数量为S个,S为正整数,也就是可以对第一检测信息中第i个候选参数的初始取值进行S次调整,得到第i个候选参数所对应的S个第二检测信息,进而采用S个第二检测信息分别执行检测业务,得到第i个候选参数所对应的S个第二检测指标。可以直接基于第一检测指标与S个第二检测指标,确定第i个候选参数所对应的指标变化幅度,该指标变化幅度可以是第一检测指标与S个第二检测指标中的最小值与最大值之间的变化百分比等;或者,可以获取S个第二检测指标的统计值(如均值、最大值或与第一检测指标之间相差最大的第二检测指标等),获取第一检测指标与S个第二检测指标的统计值之间的指标变化幅度,该指标变化幅度可以是第一检测指标与S个第二检测指标的统计值之间的变化百分比等,如(S个第二检测指标的统计值-第一检测指标)/第一检测指标等。同理,可以得到N个候选参数分别对应的参数重要度,将其用于调优参数的获取。
其中,可以认为指标变化幅度越大,表示对应的配置参数(也就是候选参数)对于业务执行性能的影响越大,也就越重要。
可选的,可以采用FANOVA方法,获取N个候选参数分别对应的参数重要度,该FANOVA方法是一种衡量参数重要度的算法,可以考虑到单个候选参数的重要程度,还可以考虑到不同候选参数之间的影响,从而可以获取到更为准确的参数重要度,参数准确度越高,配置信息可以更快收敛,进而提高后续配置信息调优的效率及准确性。
可选的,可以将M个初始配置信息添加至配置队列(可以简称为Q)中。
步骤S502,响应针对目标业务EA的执行请求,基于该配置管理集群A,获取配置信息GA,采用配置信息GA执行目标业务EA,得到配置信息GA的业务指标QA。
在本申请实施例中,响应针对目标业务EA的执行请求,基于该配置管理集群A,获取配置信息GA。可选的,可以对配置队列Q进行出队处理,将出队的初始配置信息确定为配置信息GA,此时,Q中所包括的初始配置信息的数量减少一个。换句话说,就是将位于Q的队首的初始配置信息(xhead)确定为配置信息GA。进一步,可以采用配置信息GA执行目标业务EA,得到配置信息GA的业务指标QA,对配置信息GA进行性能检测,具体可以记作y=Evaluate(xhead),可以参见图4的步骤S403中,第一业务指标的生成过程,在此不再进行赘述。进一步,可以将业务指标QA关联存储至配置管理集群A中的配置信息GA;或者,可以将配置信息GA与业务指标QA关联存储至历史存储器(可以称为H)中,即(xhead,y),也就是,可以另外对业务指标进行存储。对xhead进行出队处理。
步骤S503,获取到配置管理集群A所包括的配置信息的业务指标。
在本申请实施例中,检测配置管理集群A中所包括的配置信息是否均关联有业务指标,若配置管理集群A中所包括的配置信息均关联有业务指标,则执行步骤S504;若配置管理集群A中所包括的配置信息中,存在未关联业务指标的配置信息,则执行步骤S502。可选的,在利用配置队列时,可以检测配置队列是否为空,也就是说,若配置队列不为空,则表示配置管理集群A中所包括的配置信息中,存在未关联业务指标的配置信息;若配置队列为空,则表示配置管理集群A中所包括的配置信息均关联有业务指标。
步骤S504,响应针对目标业务EB的执行请求,基于配置管理集群B,获取配置信息GB1,对配置信息GB1进行更新得到配置信息GB2,采用配置信息GB2执行目标业务EB,得到配置信息GB2的业务指标QB。
在本申请实施例中,将配置管理集群A确定为配置管理集群B,配置信息GB1的获取过程,可以参见图4的步骤S401中第一配置信息的获取过程,在此不再进行赘述。对配置信息GB1进行更新得到配置信息GB2的过程,可以参见图4的步骤S402中,对第一配置信息进行配置调整,生成第二配置信息的过程,在此不再进行赘述,也就是,将配置信息GB1进行一个配置参数的取值的随机改变,实现传统遗传算法中的突变,从而生成新的配置信息,此处指配置信息GB2。进一步,采用配置信息GB2执行目标业务EB,得到配置信息GB2的业务指标QB,该过程可以参见图4的步骤S403中,采用第二配置信息执行第一业务,得到第一业务在执行过程中所产生的第一业务指标的过程,在此不再进行赘述。进一步,对配置信息GB2与业务指标QB进行关联存储,具体参见对业务指标QA的存储过程。其中,该配置管理集群B相当于上述优化配置管理集群。
进一步,可以获取配置约束条件,删除配置管理集群B中不满足配置约束条件的配置信息。例如,该配置约束条件包括资源损耗阈值(记作Rmax)及执行时长阈值(记作Tmax),例如,配置管理集群B中存在一个配置信息x,即,T(x)>Tmax,或者R(x)>Rmax时,确定该配置信息x不满足配置约束条件。
步骤S505,检测配置管理集群B达到集群收敛条件。
在本申请实施例中,检测配置管理集群B达到集群收敛条件,若配置管理集群B达到集群收敛条件,则执行步骤S506;若配置管理集群B未达到集群收敛条件,则执行步骤S504。具体的,若配置管理集群B所包括的配置信息的数量大于或等于配置数量阈值(如M等),且配置管理集群B所包括的配置信息均满足配置约束条件,则确定配置管理集群B达到集群收敛条件;若配置管理集群B所包括的配置信息的数量小于配置数量阈值,或者配置管理集群B所包括的配置信息中,存在不满足配置约束条件的配置信息,则确定配置管理集群B未达到集群收敛条件。
步骤S506,将配置管理集群B确定为目标配置管理集群,从目标配置管理集群中获取目标配置信息,响应针对目标业务EC的执行请求,采用目标配置信息执行目标业务EC。
在本申请实施例中,在从目标配置管理集群中获取目标配置信息时,可以将业务指标最小的配置信息,确定为目标配置信息,可以参见公式⑤所示:
如公式⑤所示,f(x)用于表示配置信息x的业务指标,将业务指标最小时的配置信息x,确定为目标配置信息。通过以上过程,可以实现对配置信息的调优处理,进而在得到性能足够好的配置信息,即目标配置信息时,后续可以直接采用目标配置信息执行业务,提高业务执行性能,并提高配置信息的获取效率及准确性。
可选的,若接收到配置调优请求,则获取配置调优请求所携带的第一调优目的,基于第一调优目的执行图5所示的各个步骤,重新对配置信息进行调优。可选的,在重新对配置信息进行调优时,可以重新初始化配置管理集群,也可以直接删除目标配置管理集群中的业务指标,得到配置管理集群A,从步骤S502开始进行配置信息的调优,在此不做限制。具体可以由实际需求进行配置信息的重新调优。
其中,上述第一业务在执行时,若配置管理集群处于初始化阶段,则该第一业务可以认为是目标业务EA;若配置管理集群处于配置调优阶段,则该第一业务可以认为是目标业务EB;若配置管理集群处于配置调优阶段,则该第一业务可以认为是目标业务EC。
进一步可选的,可以参见图6,图6是本申请实施例提供的一种调优配置场景示意图。如图6所示,计算机设备可以响应任务配置请求,显示任务配置页面,该任务配置页面可以包括但不限于调参启动组件601及任务周期设置组件602等。其中,调参启动组件601用于启动或关闭配置调优功能,例如,响应于调参启动组件601的启动操作,启动配置调优功能;响应于调参启动组件601的关闭操作,关闭配置调优功能。任务周期设置组件602用于配置周期性任务实例的触发周期等,如触发周期为1小时,则表示每一个小时触发并生成一个周期性任务实例。其中,在配置调优功能启动时,响应针对任意一个业务的执行请求时,可以执行图4或图5所示的各个步骤,进而通过实际的业务执行过程,同步实现对配置信息的调优处理,减少了配置信息的调优资源消耗,且不会限制调优方向,从而提高配置信息的调优效率及通用性。可选的,在一种调优实例中,通过本申请的技术方案进行调优,可以得到如图6所示的性能指标示例603,如,内存数量由44.95GB时下降为0.35GB/>时,减少了99.22%的内存数量占用;处理使用量由22.53核/>时,下降为0.51核/>时,减少了97.76%的处理使用量;执行时长指标由7.81min,减少为4.14min,执行业务所耗费的时间减少了3.67min等,可见本申请具有很好的配置调优效果。
具体参见图7a及图7b,图7a是本申请实施例提供的一种效率优化示意图,图7b是本申请实施例提供的一种资源占据优化示意图。可以看出,在成本调优的目标下,相比现有技术Tuneful以及LOCAT,能够进一步取得15.43%及18.20%的成本节省;在性能调优的目标下,相比于随机调优得到的最好配置,该技术调优得到的配置能够取得3.08到8.96倍的平均加速比;对比第二好的现有技术,本方案(ours)提出的调优技术可以取得2.54到6.8倍的平均加速比。其中,应用于1000多个各种类型真实Spark任务,包含Spark SQL、Python SQL和jar任务等,如贝叶斯(Bayes)任务、k-均值聚类算法(KMeans)、NWeight任务、文本计数(wordCount)任务、网页级别(PageRank)任务及排序任务(Terasort)等。对比真实任务未调优时由数据开发人员人为设定的配置,本方案调优技术在内存优化的调优目标下,取得了超过60%的内存使用量节省;在执行成本的调优目标下,取得了超过30%的CU成本节省;在性能调优的目标下,能够平均取得20%以上的速度提升。可以看出,本申请具有较大的性能提升。
进一步地,请参见图8,图8是本申请实施例提供的一种数据处理装置示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该数据处理装置可以为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该数据处理装置800可以用于图3所对应实施例中的计算机设备,具体的,该装置可以包括:配置获取模块11、配置调整模块12、业务执行模块13、指标获取模块14及配置存储模块15。
配置获取模块11,用于响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息;
配置调整模块12,用于对第一配置信息进行配置调整,生成第二配置信息;
业务执行模块13,用于采用第二配置信息执行第一业务;
指标获取模块14,用于获取第一业务在执行过程中所产生的第一业务指标;第一业务指标用于表示执行第一业务所耗费的资源;
配置存储模块15,用于将第二配置信息与第一业务指标关联存储至配置管理集群中。
其中,该配置获取模块11,包括:
参数生成单元111,用于响应针对第一业务的执行请求,生成用于获取配置信息的随机参数;
集群选取单元112,用于若随机参数小于配置选取阈值,则从配置管理集群中随机获取配置信息作为第一配置信息;
指标配置单元113,用于若随机参数大于或等于配置选取阈值,则获取配置管理集群所包括的配置信息及配置信息对应的业务指标,将业务指标最小的配置信息确定为第一配置信息。
其中,该配置获取模块11,包括:
集群查找单元114,用于响应针对第一业务的执行请求,查找配置管理集群;
集群初始化单元115,用于若未查找到配置管理集群,则生成M个初始配置信息,基于M个初始配置信息初始化配置管理集群;
配置获取单元116,用于基于初始化后的配置管理集群,获取第一配置信息; M个初始配置信息包括第一配置信息;M为正整数;
该配置获取单元116,还用于若查找到配置管理集群,则从配置管理集群中获取第一配置信息。
其中,该装置800还包括:
队列添加模块16,用于将M个初始配置信息添加至配置队列中;
其中,该配置获取单元116,包括:
配置出队子单元1161,用于若配置队列不为空,则对配置队列中的初始配置信息进行出队处理,将出队的初始配置信息确定为第一配置信息;
集群获取子单元1162,用于若配置队列为空,则从初始化后的配置管理集群中获取第一配置信息。
其中,该装置800还包括:
队列查找模块17,用于查找配置队列;
集群调用模块18,用于若配置队列为空或不存在配置队列,则执行从配置管理集群中获取第一配置信息的过程;
队列处理模块19,用于若配置队列不为空,则对配置队列中的初始配置信息进行出队处理,将出队的初始配置信息确定为第三配置信息,采用第三配置信息执行第一业务,获取第一业务在执行过程中所产生的第二业务指标,将第二业务指标与配置管理集群中的第三配置信息进行关联存储。
其中,该指标获取模块14,包括:
指标获取单元141,用于获取第一业务在执行过程中所产生的A个业务指标;
约束获取单元142,用于获取配置约束条件;A为正整数;
指标加权单元143,用于基于配置约束条件确定A个业务指标分别对应的指标系数,采用A个业务指标分别对应的指标系数,对A个业务指标进行加权整合,得到第一业务指标。
其中,A个业务指标包括资源损耗指标及执行时长指标;
该指标获取单元141,包括:
时长获取子单元1411,用于将采用第二配置信息执行第一业务所耗费的时长,确定为执行时长指标;
损耗确定子单元1412,用于获取第一业务在执行过程中所耗费的内存数量及处理使用量,获取资源调整系数,采用资源调整系数对内存数量及处理使用量进行整合,得到资源损耗指标。
其中,第一业务指标由资源损耗指标及执行时长指标组成;该装置800还包括:
存储检测模块20,用于获取资源损耗阈值及执行时长阈值,若资源损耗指标小于或等于资源损耗阈值,且执行时长指标小于或等于执行时长阈值,则执行将第二配置信息与第一业务指标关联存储至配置管理集群中的过程;
配置删除模块21,用于若资源损耗指标大于资源损耗阈值,或执行时长指标大于执行时长阈值,则删除第二配置信息。
其中,该装置800还包括:
集群获取模块22,用于获取配置管理集群中所包括的配置信息及配置信息的业务指标;配置信息包括第一配置信息及第二配置信息;
集群筛选模块23,用于基于配置信息的业务指标,删除配置管理集群中业务指标不满足配置约束条件的配置信息,得到优化配置管理集群;
执行调用模块24,用于当接收到针对第二业务的执行请求时,将优化配置管理集群确定为配置管理集群,将第二业务确定为第一业务,返回执行响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息的过程。
其中,该装置800还包括:
集群确定模块25,用于若优化配置管理集群满足集群收敛条件,则将优化配置管理集群确定为目标配置管理集群;
配置确定模块26,用于将目标配置管理集群中业务指标最小的配置信息确定为目标配置信息,采用目标配置信息执行第二业务;
该执行调用模块24,还用于若优化配置管理集群不满足集群收敛条件,则执行将优化配置管理集群确定为配置管理集群,将第二业务确定为第一业务的过程。
其中,该装置800还包括:
重要确定模块27,用于获取N个候选参数及N个候选参数分别对应的参数重要度;N为正整数;
参数筛选模块28,用于基于N个候选参数分别对应的参数重要度,对N个候选参数进行排序处理,将排序后的N个候选参数中的前K个候选参数确定为调优参数;K为小于或等于N的正整数;
该配置调整模块12,包括:
取值调整单元121,用于获取K个调优参数分别对应的参数范围,在K个调优参数分别对应的参数范围内,对第一配置信息中的K个调优参数分别对应的第一取值进行配置调整,得到K个调优参数分别对应的第二取值;
配置生成单元122,用于将K个调优参数分别对应的第二取值,组成第二配置信息。
其中,该重要确定模块27,包括:
参数检测单元271,用于将N个候选参数分别对应的初始取值组成第一检测信息,采用第一检测信息执行检测业务,得到第一检测指标;
调整检测单元272,用于对第一检测信息中第i个候选参数的初始取值进行调整,得到第i个候选参数所对应的第二检测信息,采用第i个候选参数所对应的第二检测信息执行检测业务,得到第i个候选参数所对应的第二检测指标;i为小于或等于N的正整数;
重要确定单元273,用于基于第一检测指标与第i个候选参数所对应的第二检测指标,确定第i个候选参数所对应的指标变化幅度,将第i个候选参数所对应的指标变化幅度转换为第i个候选参数的参数重要度。
本申请实施例提供了一种数据处理装置,该装置可以响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,对第一配置信息进行配置调整,生成第二配置信息;采用第二配置信息执行第一业务,获取第一业务在执行过程中所产生的第一业务指标;第一业务指标用于表示执行第一业务所耗费的资源;将第二配置信息与第一业务指标关联存储至配置管理集群中;第一业务指标用于从配置管理集群中,辅助获取执行业务所采用的配置信息。通过以上过程,可以直接在对业务的执行过程中进行配置信息的确定,而且会记录业务执行过程中所产生的业务指标,以表示执行业务所采用的配置信息的优劣,进而可以在对业务的执行过程中,不断进行配置信息的调整,而这一过程无需用户进行额外介入,且不会引入额外的调优开销或者只会引入较少的额外调优开销,提高数据处理的效率及精确度,并且可以提高数据处理的通用性。
参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,本申请实施例中的计算机设备可以包括:一个或多个处理器901、存储器902和输入输出接口903。该处理器901、存储器902和输入输出接口903通过总线904连接。存储器902用于存储计算机程序,该计算机程序包括程序指令,输入输出接口903用于接收数据及输出数据,如用于计算机设备与业务设备之间进行数据交互;处理器901用于执行存储器902存储的程序指令。
其中,该处理器901可以执行如下操作:
响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,对第一配置信息进行配置调整,生成第二配置信息;
采用第二配置信息执行第一业务,获取第一业务在执行过程中所产生的第一业务指标;第一业务指标用于表示执行第一业务所耗费的资源;
将第二配置信息与第一业务指标关联存储至配置管理集群中。
在一些可行的实施方式中,该处理器901可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器902可以包括只读存储器和随机存取存储器,并向处理器901和输入输出接口903提供指令和数据。存储器902的一部分还可以包括非易失性随机存取存储器。例如,存储器902还可以存储设备类型的信息。
具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3或图5中各个步骤所提供的实现方式,具体可参见该图3或图5中各个步骤所提供的实现方式,在此不再赘述。
本申请实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行该图3中所示方法的各个步骤,进行数据处理操作。本申请实施例实现了响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,对第一配置信息进行配置调整,生成第二配置信息;采用第二配置信息执行第一业务,获取第一业务在执行过程中所产生的第一业务指标;第一业务指标用于表示执行第一业务所耗费的资源;将第二配置信息与第一业务指标关联存储至配置管理集群中;第一业务指标用于从配置管理集群中,辅助获取执行业务所采用的配置信息。通过以上过程,可以直接在对业务的执行过程中进行配置信息的确定,而且会记录业务执行过程中所产生的业务指标,以表示执行业务所采用的配置信息的优劣,进而可以在对业务的执行过程中,不断进行配置信息的调整,而这一过程无需用户进行额外介入,且不会引入额外的调优开销或者只会引入较少的额外调优开销,提高数据处理的效率及精确度,并且可以提高数据处理的通用性。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行图3或图5中各个步骤所提供的数据处理方法,具体可参见该图3或图5中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,计算机程序可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
该计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3或图5中的各种可选方式中所提供的方法,实现了可以直接在对业务的执行过程中进行配置信息的确定,而且会记录业务执行过程中所产生的业务指标,以表示执行业务所采用的配置信息的优劣,进而可以在对业务的执行过程中,不断进行配置信息的调整,而这一过程无需用户进行额外介入,且不会引入额外的调优开销或者只会引入较少的额外调优开销,提高数据处理的效率及精确度,并且可以提高数据处理的通用性。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (16)
1.一种数据处理方法,其特征在于,所述方法包括:
响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,对所述第一配置信息进行配置调整,生成第二配置信息;
采用所述第二配置信息执行所述第一业务,获取所述第一业务在执行过程中所产生的第一业务指标;所述第一业务指标用于表示执行所述第一业务所耗费的资源;
将所述第二配置信息与所述第一业务指标关联存储至所述配置管理集群中。
2.如权利要求1所述的方法,其特征在于,所述响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,包括:
响应针对第一业务的执行请求,生成用于获取配置信息的随机参数;
若所述随机参数小于配置选取阈值,则从配置管理集群中随机获取配置信息作为第一配置信息;
若所述随机参数大于或等于所述配置选取阈值,则获取所述配置管理集群所包括的配置信息及所述配置信息对应的业务指标,将业务指标最小的配置信息确定为第一配置信息。
3.如权利要求1所述的方法,其特征在于,所述响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息,包括:
响应针对第一业务的执行请求,查找配置管理集群;
若未查找到所述配置管理集群,则生成M个初始配置信息,基于所述M个初始配置信息初始化所述配置管理集群,基于初始化后的配置管理集群,获取第一配置信息;所述M个初始配置信息包括所述第一配置信息;M为正整数;
若查找到所述配置管理集群,则从所述配置管理集群中获取第一配置信息。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
将所述M个初始配置信息添加至配置队列中;
所述基于初始化后的配置管理集群,获取第一配置信息,包括:
若所述配置队列不为空,则对所述配置队列中的初始配置信息进行出队处理,将出队的初始配置信息确定为第一配置信息;
若所述配置队列为空,则从初始化后的配置管理集群中获取第一配置信息。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
查找配置队列,若所述配置队列为空或不存在所述配置队列,则执行所述从配置管理集群中获取第一配置信息的过程;
若所述配置队列不为空,则对所述配置队列中的初始配置信息进行出队处理,将出队的初始配置信息确定为第三配置信息,采用所述第三配置信息执行所述第一业务,获取所述第一业务在执行过程中所产生的第二业务指标,将所述第二业务指标与所述配置管理集群中的所述第三配置信息进行关联存储。
6.如权利要求1所述的方法,其特征在于,所述获取所述第一业务在执行过程中所产生的第一业务指标,包括:
获取所述第一业务在执行过程中所产生的A个业务指标,获取配置约束条件;A为正整数;
基于所述配置约束条件确定所述A个业务指标分别对应的指标系数,采用所述A个业务指标分别对应的指标系数,对所述A个业务指标进行加权整合,得到第一业务指标。
7.如权利要求6所述的方法,其特征在于,所述A个业务指标包括资源损耗指标及执行时长指标;
所述获取所述第一业务在执行过程中所产生的A个业务指标,包括:
将采用所述第二配置信息执行所述第一业务所耗费的时长,确定为所述执行时长指标;
获取所述第一业务在执行过程中所耗费的内存数量及处理使用量,获取资源调整系数,采用所述资源调整系数对所述内存数量及所述处理使用量进行整合,得到所述资源损耗指标。
8.如权利要求1所述的方法,其特征在于,所述第一业务指标由资源损耗指标及执行时长指标组成;所述方法还包括:
获取资源损耗阈值及执行时长阈值,若所述资源损耗指标小于或等于所述资源损耗阈值,且所述执行时长指标小于或等于所述执行时长阈值,则执行所述将所述第二配置信息与所述第一业务指标关联存储至所述配置管理集群中的过程;
若所述资源损耗指标大于所述资源损耗阈值,或所述执行时长指标大于所述执行时长阈值,则删除所述第二配置信息。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述配置管理集群中所包括的配置信息及所述配置信息的业务指标;所述配置信息包括所述第一配置信息及所述第二配置信息;
基于所述配置信息的业务指标,删除所述配置管理集群中业务指标不满足配置约束条件的配置信息,得到优化配置管理集群;
当接收到针对第二业务的执行请求时,将所述优化配置管理集群确定为配置管理集群,将所述第二业务确定为第一业务,返回执行所述响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息的过程。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
若所述优化配置管理集群满足集群收敛条件,则将所述优化配置管理集群确定为目标配置管理集群;
将所述目标配置管理集群中业务指标最小的配置信息确定为目标配置信息,采用所述目标配置信息执行所述第二业务;
若所述优化配置管理集群不满足所述集群收敛条件,则执行所述将所述优化配置管理集群确定为配置管理集群,将所述第二业务确定为第一业务的过程。
11.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取N个候选参数及所述N个候选参数分别对应的参数重要度;N为正整数;
基于所述N个候选参数分别对应的参数重要度,对所述N个候选参数进行排序处理,将排序后的N个候选参数中的前K个候选参数确定为调优参数;K为小于或等于N的正整数;
所述对所述第一配置信息进行配置调整,生成第二配置信息,包括:
获取K个调优参数分别对应的参数范围,在所述K个调优参数分别对应的参数范围内,对所述第一配置信息中的K个调优参数分别对应的第一取值进行配置调整,得到所述K个调优参数分别对应的第二取值;
将所述K个调优参数分别对应的第二取值,组成第二配置信息。
12.如权利要求11所述的方法,其特征在于,获取N个候选参数及所述N个候选参数分别对应的参数重要度,包括:
将N个候选参数分别对应的初始取值组成第一检测信息,采用所述第一检测信息执行检测业务,得到第一检测指标;
对所述第一检测信息中第i个候选参数的初始取值进行调整,得到第i个候选参数所对应的第二检测信息,采用所述第i个候选参数所对应的第二检测信息执行所述检测业务,得到所述第i个候选参数所对应的第二检测指标;i为小于或等于N的正整数;
基于所述第一检测指标与所述第i个候选参数所对应的第二检测指标,确定所述第i个候选参数所对应的指标变化幅度,将所述第i个候选参数所对应的指标变化幅度转换为所述第i个候选参数的参数重要度。
13.一种数据处理装置,其特征在于,所述装置包括:
配置获取模块,用于响应针对第一业务的执行请求,从配置管理集群中获取第一配置信息;
配置调整模块,用于对所述第一配置信息进行配置调整,生成第二配置信息;
业务执行模块,用于采用所述第二配置信息执行所述第一业务;
指标获取模块,用于获取所述第一业务在执行过程中所产生的第一业务指标;所述第一业务指标用于表示执行所述第一业务所耗费的资源;
配置存储模块,用于将所述第二配置信息与所述第一业务指标关联存储至所述配置管理集群中。
14.一种计算机设备,其特征在于,包括处理器、存储器、输入输出接口;
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于接收数据及输出数据,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
16.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310994076.XA CN116719584B (zh) | 2023-08-09 | 2023-08-09 | 数据处理方法、装置、计算机、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310994076.XA CN116719584B (zh) | 2023-08-09 | 2023-08-09 | 数据处理方法、装置、计算机、存储介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116719584A true CN116719584A (zh) | 2023-09-08 |
CN116719584B CN116719584B (zh) | 2024-01-19 |
Family
ID=87871909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310994076.XA Active CN116719584B (zh) | 2023-08-09 | 2023-08-09 | 数据处理方法、装置、计算机、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719584B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060391A1 (en) * | 2003-09-16 | 2005-03-17 | International Business Machines Corporation | Autonomic cluster-based optimization |
CN108234177A (zh) * | 2016-12-21 | 2018-06-29 | 深圳先进技术研究院 | 一种HBase配置参数自动调优方法及装置、用户设备 |
US20210263749A1 (en) * | 2020-02-26 | 2021-08-26 | Red Hat, Inc. | Testing and selection of efficient application configurations |
CN114818458A (zh) * | 2022-03-02 | 2022-07-29 | 阿里巴巴(中国)有限公司 | 系统参数优化方法、装置、计算设备及介质 |
CN116089022A (zh) * | 2023-04-11 | 2023-05-09 | 广州嘉为科技有限公司 | 一种日志搜索引擎的参数配置调整方法、系统及存储介质 |
WO2023097661A1 (zh) * | 2021-12-03 | 2023-06-08 | 中国科学院深圳先进技术研究院 | 基于生成对抗网络的大数据系统资源配置参数调优方法 |
-
2023
- 2023-08-09 CN CN202310994076.XA patent/CN116719584B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060391A1 (en) * | 2003-09-16 | 2005-03-17 | International Business Machines Corporation | Autonomic cluster-based optimization |
CN108234177A (zh) * | 2016-12-21 | 2018-06-29 | 深圳先进技术研究院 | 一种HBase配置参数自动调优方法及装置、用户设备 |
US20210263749A1 (en) * | 2020-02-26 | 2021-08-26 | Red Hat, Inc. | Testing and selection of efficient application configurations |
WO2023097661A1 (zh) * | 2021-12-03 | 2023-06-08 | 中国科学院深圳先进技术研究院 | 基于生成对抗网络的大数据系统资源配置参数调优方法 |
CN114818458A (zh) * | 2022-03-02 | 2022-07-29 | 阿里巴巴(中国)有限公司 | 系统参数优化方法、装置、计算设备及介质 |
CN116089022A (zh) * | 2023-04-11 | 2023-05-09 | 广州嘉为科技有限公司 | 一种日志搜索引擎的参数配置调整方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116719584B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11366859B2 (en) | Hierarchical, parallel models for extracting in real time high-value information from data streams and system and method for creation of same | |
US20220335338A1 (en) | Feature processing tradeoff management | |
US11503107B2 (en) | Integrating logic in micro batch based event processing systems | |
US20200050968A1 (en) | Interactive interfaces for machine learning model evaluations | |
US10318882B2 (en) | Optimized training of linear machine learning models | |
US20190050756A1 (en) | Machine learning service | |
US10339465B2 (en) | Optimized decision tree based models | |
US9672474B2 (en) | Concurrent binning of machine learning data | |
AU2020385264A1 (en) | Fusing multimodal data using recurrent neural networks | |
WO2017040632A2 (en) | Event categorization and key prospect identification from storylines | |
US20230018975A1 (en) | Monolith database to distributed database transformation | |
US11720825B2 (en) | Framework for multi-tenant data science experiments at-scale | |
CN111178380A (zh) | 数据分类方法、装置及电子设备 | |
Arnaiz-González et al. | MR-DIS: democratic instance selection for big data by MapReduce | |
US20200394448A1 (en) | Methods for more effectively moderating one or more images and devices thereof | |
US11436412B2 (en) | Predictive event searching utilizing a machine learning model trained using dynamically-generated event tags | |
CN110782122A (zh) | 数据处理方法、装置及电子设备 | |
CN112118295A (zh) | 文件缓存方法、装置、边缘节点以及计算机可读存储介质 | |
Riyaz et al. | Leveraging map reduce with hadoop for weather data analytics | |
US11182386B2 (en) | Offloading statistics collection | |
CN113282630A (zh) | 基于接口切换的数据查询方法及装置 | |
WO2024139703A1 (zh) | 对象识别模型的更新方法、装置、电子设备、存储介质及计算机程序产品 | |
CN116719584B (zh) | 数据处理方法、装置、计算机、存储介质及程序产品 | |
CN117132323A (zh) | 推荐内容的分析方法、装置、设备、介质及程序产品 | |
CN111858918A (zh) | 新闻分类方法及装置、网元、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40092310 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |