CN115794398A - 资源分配方法、装置、电子设备及存储介质 - Google Patents
资源分配方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115794398A CN115794398A CN202211520644.4A CN202211520644A CN115794398A CN 115794398 A CN115794398 A CN 115794398A CN 202211520644 A CN202211520644 A CN 202211520644A CN 115794398 A CN115794398 A CN 115794398A
- Authority
- CN
- China
- Prior art keywords
- target
- metadata
- file
- resource
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出了一种资源分配方法、装置及电子设备,涉及数据处理技术领域,方法包括:获取待处理文件对应的目标元数据;采用目标计算资源模型根据目标元数据,预测待处理文件所需的目标资源量;向计算集群申请与目标资源量匹配的计算资源,其中,计算资源用于对待处理文件进行处理。由此,可以实现根据待处理文件的元数据,自动预测该待处理文件所需的计算资源量,而无需根据人工经验设置计算资源量,一方面,可以避免人工设置的计算资源量过高,而导致资源浪费的情况发生,另一方面,可以避免人工设置的计算资源量不足,而导致计算任务失败的情况发生,改善用户的使用体验。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种资源分配方法、装置、电子设备及存储介质。
背景技术
空间数据相较于普通数据而言,具有数据量庞大、数据模型复杂等特点。目前,对于数据量相对较小的空间数据,主要通过PostGIS(是对象-关系型数据库系统PostgreSQL的一个扩展)、QGIS(Quantum GIS(Geographic Information System或Geo-Informationsystem,地理信息系统),是一个自由软件的桌面GIS软件)、ArGIS(作为一个可伸缩的平台,为个人用户也为群体用户提供GIS的功能)等工具,来对其进行处理,而对于数据量相对较大的空间数据,主要通过并行计算来对其进行处理。
在并行计算场景下,一般通过人工评估方式,指定空间数据所需的计算资源量,由于空间数据的复杂性,简单的指定计算资源量的方式,可能无法适配所有的待计算的空间数据,经常因为指定的资源量不足,而导致空间任务失败,或者指定的资源量过多,而导致计算资源浪费,并发不足等问题。
发明内容
本申请的目的旨在至少在一定程度上解决上述技术问题之一。
为此,本申请提出了一种资源分配方法、装置、电子设备及存储介质,以实现。
本申请第一方面实施例提出了一种资源分配方法,包括:
获取待处理文件对应的目标元数据;
采用目标计算资源模型根据所述目标元数据,预测所述待处理文件所需的目标资源量;
向计算集群申请与所述目标资源量匹配的计算资源,其中,所述计算资源用于对所述待处理文件进行处理。
本申请第二方面实施例提出了一种资源分配装置,包括:
第一获取模块,用于获取待处理文件对应的目标元数据;
预测模块,用于采用目标计算资源模型根据所述目标元数据,预测所述待处理文件所需的目标资源量;
申请模块,用于向计算集群申请与所述目标资源量匹配的计算资源,其中,所述计算资源用于对所述待处理文件进行处理。
本申请第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的资源分配方法。
本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的资源分配方法。
本申请第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请上述第一方面所述的资源分配方法。
本申请的实施例提供的技术方案至少带来以下有益效果:
通过获取待处理文件对应的目标元数据;采用目标计算资源模型根据目标元数据,预测待处理文件所需的目标资源量;向计算集群申请与目标资源量匹配的计算资源,其中,计算资源用于对待处理文件进行处理。由此,可以实现根据待处理文件的元数据,自动预测该待处理文件所需的计算资源量,而无需根据人工经验设置计算资源量,一方面,可以避免人工设置的计算资源量过高,而导致资源浪费的情况发生,另一方面,可以避免人工设置的计算资源量不足,而导致计算任务失败的情况发生,改善用户的使用体验。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种资源分配方法的流程示意图;
图2为本申请实施例提供的另一种资源分配方法的流程示意图;
图3为本申请实施例提供的另一种资源分配方法的流程示意图;
图4为本申请实施例提供的另一种资源分配方法的流程示意图;
图5为本申请实施例提供的另一种资源分配方法的流程示意图;
图6为本申请实施例提供的另一种资源分配方法的流程示意图;
图7为本申请实施例提供的资源分配系统的结构示意图;
图8为本申请实施例所提供的资源分配的原理示意图;
图9为根据本申请一个实施例的一种资源分配装置的结构示意图;
图10为根据本申请一个实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
空间数据库存储的不是单一性质的数据,而是涵盖了几乎所有与地理相关的数据类型,这些数据类型主要可以分为3类:属性数据、图形图像数据、空间关系数据等,而且属性数据和空间数据需要联合进行管理。
相关技术中,主要通过以下两种方式,来确定空间数据所需的计算资源量。
第一种,通过人工评估方式,指定空间数据所需的计算资源量。
第二种,基于数据行数或者预设固定的资源分配逻辑,来确定空间数据所需的计算资源量。
然而,第一种方式,由于空间数据的复杂性,简单的指定计算资源量的方式,可能无法适配所有的待计算的空间数据,经常因为指定的资源量不足,而导致计算任务失败,或者指定的资源量过多,而导致计算资源浪费,并发不足等问题。
而第二种方式,由于空间数据异于普通数据,其数据可能会特别复杂,比如一行数据会包括大量的空间数据,那么在计算空间任务时,比如进行面拓扑校验、空间切分等任务时,会消耗大量的计算资源,则可能会造成计算资源无法满足而导致任务失败的情况,而如果通过指定超大资源进行保障,则在大部分小数据量的计算场景下,会造成资源利用不足,资源浪费,并发不足等问题。
针对上述存在的至少一项问题,本申请实施例提出一种资源分配方法、装置及电子设备。在具体描述本申请实施例之前,为了便于理解,首先对常用技术词进行介绍:
空间数据,又称为几何数据,用于表示物体的位置、形态、大小分布等各方面的信息,是对现实世界中存在的具有定位意义的事物和现象的定量描述。根据在计算机系统中对地图是对现实教想的存储组织、处理方法的不同,以及空间数据本身的几何特征,空间数据又可分为图形数据和图像数据。
元数据,用于描述空间数据,包含技术元数据、业务元数据等。
下面结合图1,对本申请提供的资源分配方法进行详细说明。
图1为本申请实施例提供的一种资源分配方法的流程示意图。
本申请实施例的资源分配方法可以由本申请实施例提供的资源分配装置执行。本申请中的资源分配装置可应用于电子设备中,以执行资源分配功能。或者,该资源分配装置可以配置在电子设备的应用中,以使该应用可以执行资源分配功能。
其中,电子设备可以为任一具有计算能力的设备,该设备或者该设备中的应用能够执行资源分配功能。其中,具有计算能力的设备例如可以为个人电脑(PersonalComputer,简称PC)、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该资源分配方法包括以下步骤:
步骤S101,获取待处理文件对应的目标元数据。
在本申请实施例中,待处理文件为需要处理的文件,比如,待处理文件可以为待处理的文档、表格、库表等。其中,该待处理文件中包括空间数据。
需要说明的是,本申请对待处理文件的格式不作限制,比如,待处理文件的格式可以为SHP(Shape,空间数据开放)格式,或者,也可以为其他格式。
在本申请实施例中,对待处理文件的获取方式不作限制,比如,可以从空间数据库或空间数据存储引擎中获取待处理文件,或者,待处理文件可以为用户提供的,或者,待处理文件可以为用户根据应用需求在线下载的,比如,可以通过网络爬虫技术在线下载包含空间数据的待处理文件,等等,本申请对此并不作限制。
在本申请实施例中,待处理文件的元数据(本申请中记为目标元数据)可以包括待处理文件中的空间数据所属的行业信息、待处理文件中的空间数据所属的子行业信息、待处理文件中每行数据所包含的数据量、待处理文件包含的数据行数、待处理文件所包含的数据总量(即文件大小,本申请中记为第一数据总量)、待处理文件中空间数据所属的数据类型(比如点、面、线)、待处理文件中空间数据的维度信息(比如一维、二维、三维)、待处理文件中每种数据类型的空间数据占比、待处理文件中每种维度信息的空间数据占比、待处理文件中空间数据的隶属区域(即空间数据归属地理区划)、待处理文件中空间数据所处的地理坐标范围等等。由此,可以实现根据包含丰富信息的目标元数据,来预测待处理文件所需的资源量,可以提升预测结果的准确性。
步骤S102,采用目标计算资源模型根据目标元数据,预测待处理文件所需的目标资源量。
在本申请实施例中,可以采用目标计算资源模型根据目标元数据,预测待处理文件所需的资源量(本申请中记为目标资源量)。
步骤S103,向计算集群申请与目标资源量匹配的计算资源,其中,计算资源用于对待处理文件进行处理。
其中,计算集群还可以称为计算资源集群、空间计算资源集群。
其中,计算资源还可以称为空间计算资源。
在本申请实施例中,可以向计算集群申请与目标资源量匹配的计算资源,以通过该计算资源对待处理文件进行处理。
本申请实施例的资源分配方法,通过获取待处理文件对应的目标元数据;采用目标计算资源模型根据目标元数据,预测待处理文件所需的目标资源量;向计算集群申请与目标资源量匹配的计算资源,其中,计算资源用于对待处理文件进行处理。由此,可以实现根据待处理文件的元数据,自动预测该待处理文件所需的计算资源量,而无需根据人工经验设置计算资源量,一方面,可以避免人工设置的计算资源量过高,而导致资源浪费的情况发生,另一方面,可以避免人工设置的计算资源量不足,而导致计算任务失败的情况发生,改善用户的使用体验。
为了清楚说明本申请上述实施例中是如何根据目标元数据,预测待处理文件所需的目标资源量的,本申请还提出一种资源分配方法。
图2为本申请实施例提供的另一种资源分配方法的流程示意图。
如图2所示,该资源分配方法可以包括以下步骤:
步骤S201,获取待处理文件对应的目标元数据。
步骤S201的解释说明可以参见本申请任一实施例中的相关描述,在此不做赘述。
步骤S202,将目标元数据输入目标计算资源模型,以采用目标计算资源模型对目标元数据进行资源量预测,得到目标资源量。
其中,目标计算资源模型基于标注了资源量的元数据样本训练得到。
在本申请实施例中,可以将目标元数据输入目标计算资源模型,以采用经过训练的目标计算资源模型对目标元数据进行资源量预测,从而可以根据目标计算资源模型的输出,确定待处理文件所需的目标资源量。
作为一种示例,采用目标计算资源模型对目标元数据进行资源量预测,目标计算资源模型可以输出多个资源量的置信度,从而可以根据多个资源量的置信度,从多个资源量中确定目标资源量。比如,可以将置信度最大的资源量,作为目标资源量。
在本申请实施例的一种可能的实现方式中,目标计算资源模型可以采用以下步骤训练得到:
1、获取第一元数据样本,其中,第一元数据样本上标注有第一标注资源量。
其中,对第一元数据样本的获取方式不作限制,比如,第一元数据样本可以从现有的训练集获取,或者第一元数据样本也可以在线采集,比如可以通过网络爬虫技术在线获取,或者,第一元数据样本也可以为用户提供的,等等,本申请对此不做限制。
2、将第一元数据样本输入第一初始计算资源模型,以采用第一初始计算资源模型对第一元数据样本进行资源量预测,得到第一预测资源量。
在本申请实施例中,可以将第一元数据样本输入至第一初始计算资源模型,以采用该第一初始计算资源模型对第一元数据样本进行资源量预测,得到第一预测资源量。
3、采用第一预测资源量和第一标注资源量之间的差异,对第一初始计算资源模型中的模型参数进行调整,以得到目标计算资源模型。
在本申请实施例中,可以确定第一预测资源量和第一标注资源量之间的差异,并根据上述差异,对第一初始计算资源模型中的模型参数进行调整,以得到目标计算资源模型。
作为一种示例,可以根据第一预测资源量和第一标注资源量之间的差异,生成第一损失值,其中,第一损失值与上述差异为正向关系(即呈正相关关系),即,上述差异越小,第一损失值越小,反之,上述差异越大,第一损失值越大。从而本申请中,可以根据第一损失值,对第一初始计算资源模型中的模型参数进行调整,以使第一损失值最小化。
需要说明的是,上述仅以模型训练的终止条件为第一损失值最小化进行示例,实际应用时,还可以设置其他终止条件,比如,训练次数达到设定次数,训练时长达到设定时长,第一损失值收敛等等,本申请对此并不做限制。
由此,通过对初始计算资源模型进行预先训练,从而采用经过训练的模型来预测文件所需的计算资源量,可以提升预测结果的准确性。
步骤S203,向计算集群申请与目标资源量匹配的计算资源,其中,计算资源用于对待处理文件进行处理。
步骤S203的解释说明可以参见本申请任一实施例中的相关描述,在此不做赘述。
本申请实施例的资源分配方法,通过将目标元数据输入目标计算资源模型,以采用目标计算资源模型对目标元数据进行资源量预测,得到目标资源量;其中,目标计算资源模型基于标注了资源量的元数据样本训练得到。由此,采用深度学习技术,预测待处理文件所需的计算资源量,可以提升预测结果的准确性和可靠性。
为了清楚说明本申请任一实施例中是如何根据目标元数据,预测待处理文件所需的目标资源量的,本申请还提出一种资源分配方法。
图3为本申请实施例提供的另一种资源分配方法的流程示意图。
如图3所示,该资源分配方法可以包括以下步骤:
步骤S301,获取待处理文件对应的目标元数据。
步骤S301的解释说明可以参见本申请任一实施例中的相关描述,在此不做赘述。
步骤S302,将目标元数据输入目标计算资源模型,以采用目标计算资源模型对目标元数据进行影响系数预测,得到多个第一影响系数。
其中,目标计算资源模型基于标注了资源量的元数据样本训练得到。
在本申请实施例中,第一影响系数是指影响资源量的因素系数。比如,当待处理文件中空间数据所属的数据类型(比如点、线、面)不同时,第一影响系数的取值可以不同,再比如,当待处理文件中空间数据的分布特征(比如南北分布、东西分布等)不同时,第一影响系数的取值也可以不同,再比如,当待处理文件中空间数据的业务类型或业务领域不同时,第一影响系数的取值也可以不同,等等。
在本申请实施例中,可以将目标元数据输入目标计算资源模型,以采用经过训练的目标计算资源模型对目标元数据进行影响系数预测,得到多个第一影响系数的取值。
作为一种示例,采用目标计算资源模型对目标元数据进行影响系数预测,目标计算资源模型可以输出多组系数的置信度,从而可以根据多组系数的置信度,从多组系数中选择一组系数,比如,可以选择置信度最大的一组系数。从而可以将选择的一组系数中的多个影响系数,作为多个第一影响系数。
步骤S303,从目标元数据中获取待处理文件所包含的第一数据总量。
在本申请实施例中,目标元数据中可以包括待处理文件所包含的数据总量(本申请中记为第一数据总量)。
步骤S304,根据多个第一影响系数和第一数据总量,确定目标资源量。
在本申请实施例中,可以根据多个第一影响系数和第一数据总量,确定待处理文件所需的计算资源量(本申请中记为目标资源量)。
作为一种示例,可以根据多个第一影响系数对第一数据总量进行加权,以得到目标资源量。
在本申请实施例的一种可能的实现方式中,目标计算资源模型可以通过以下步骤训练得到:
1)获取第二元数据样本,其中,第二元数据样本上标注有第二标注资源量。
其中,对第二元数据样本的获取方式不作限制,比如,第二元数据样本可以从现有的训练集获取,或者第一元数据样本也可以在线采集,比如可以通过网络爬虫技术在线获取,或者,第一元数据样本也可以为用户提供的,等等,本申请对此不做限制。
2)将第二元数据样本输入第二初始计算资源模型,以采用第二初始计算资源模型对第二元数据样本进行影响系数预测,得到多个预测影响系数。
在本申请实施例中,可以将第二元数据样本输入至第二初始计算资源模型,以采用该第二初始计算资源模型对第二元数据样本进行影响系数预测,得到多个预测影响系数的取值。
3)从第二元数据样本中获取对应样本文件所包含的第二数据总量。
在本申请实施例中,第二元数据样本中可以包括该第二元数据样本对应的样本文件所包含的数据总量(本申请中记为第二数据总量)。
4)根据多个预测影响系数和第二数据总量,确定第二预测资源量。
在本申请实施例中,可以根据多个预测影响系数和第二数据总量,确定第二元数据样本对应的样本文件所需的计算资源量(本申请中记为第二预测资源量)。
作为一种示例,可以根据多个预测影响系数对第二数据总量进行加权,以得到第二预测资源量。
5)根据第二预测资源量和第二标注资源量之间的差异,对第二初始计算资源模型中的模型参数进行调整,以得到目标计算资源模型。
在本申请实施例中,可以确定第二预测资源量和第二标注资源量之间的差异,并根据该差异,对第二初始计算资源模型中的模型参数进行调整,以得到目标计算资源模型。
作为一种示例,可以根据第二预测资源量和第二标注资源量之间的差异,生成第二损失值,其中,第二损失值与该差异为正向关系(即呈正相关关系),即,上述差异越小,第二损失值越小,反之,上述差异越大,第二损失值越大。从而本申请中,可以根据第二损失值,对第二初始计算资源模型中的模型参数进行调整,以使第二损失值最小化。
需要说明的是,上述仅以模型训练的终止条件为第二损失值最小化进行示例,实际应用时,还可以设置其他终止条件,比如,训练次数达到设定次数,训练时长达到设定时长,第二损失值收敛等等,本申请对此并不做限制。
由此,通过对初始计算资源模型进行预先训练,从而采用经过训练的模型来预测文件所需的计算资源量,可以提升预测结果的准确性。
步骤S305,向计算集群申请与目标资源量匹配的计算资源,其中,计算资源用于对待处理文件进行处理。
步骤S305的解释说明可以参见本申请任一实施例中的相关描述,在此不做赘述。
本申请实施例的资源分配方法,通过将目标元数据输入目标计算资源模型,以采用目标计算资源模型对目标元数据进行影响系数预测,得到多个第一影响系数;从目标元数据中获取待处理文件所包含的第一数据总量;根据多个第一影响系数和第一数据总量,确定目标资源量。由此,基于深度学习技术预测待处理文件所需的计算资源量,可以提升预测结果的准确性和可靠性。
为了清楚说明本申请任一实施例中是如何根据目标元数据,预测待处理文件所需的目标资源量的,本申请还提出一种资源分配方法。
图4为本申请实施例提供的另一种资源分配方法的流程示意图。
如图4所示,该资源分配方法可以包括以下步骤:
步骤S401,获取待处理文件对应的目标元数据。
步骤S401的解释说明可以参见本申请任一实施例中的相关描述,在此不做赘述。
步骤S402,从多个影响系数中获取与目标元数据匹配的多个第二影响系数。
在本申请实施例中,多个影响系数的取值可以是根据经验预先设定的,或者,多个影响系数可以是根据相关算法计算得到的,本申请对此并不做限制。
在本申请实施例中,可以从多个影响系数中获取与目标元数据匹配的多个第二影响系数。
作为一种示例,假设一共包括n组影响系数,其中,第1组影响系数K1的取值是根据空间数据所属的业务类型(比如人口分布、房屋分布、山脉、桥梁、林草)确定的,其中每种业务类型对应的影响系数K1的取值不同。比如,人口分布、房屋分布、山脉、桥梁、林草对应的影响系数K1的取值不同。
第2组影响系数K2的取值是根据空间数据所属的数据类型(比如点、线面)确定的,其中每种数据类型对应的影响系数K2的取值不同。比如,点、线、面对应的影响系数K2的取值不同。
第3组影响系数K3的取值是根据空间数据的数据分布(比如南北分布、东西分布)确定的,其中每种数据分布对应的影响系数K3的取值不同。
第4组影响系数K4的取值是根据空间数据所属业务涉及的算子确定的,其中每种算子对应的影响系数K4的取值不同。比如,假设空间数据所属业务为风险普查业务,在对风险普查业务进行数据合规检查以及切分时,涉及的算子可以包括:包含、相交,叠加、分割等,可以枚举出各算子。
…
第n组影响系数Kn,其他影响系数。
从而本申请中,可以根据目标元数据中待处理文件中空间数据的数据类型,从上述第1组影响系数中,确定与待处理文件中空间数据的数据类型匹配的第二影响系数,并根据目标元数据中待处理文件中空间数据的数据分布,从上述第2组影响系数中,确定与待处理文件中空间数据的数据分布匹配的第二影响系数,并根据目标元数据中待处理文件中空间数据的所属的业务,从上述第3组影响系数中,确定与该业务所涉及的算子匹配的第二影响系数,同理,可以从其他组影响系数中,确定与目标元数据匹配的第二影响系数。
步骤S403,从目标元数据中获取待处理文件所包含的第一数据总量。
步骤S403的解释说明可以参见前述步骤S303中的相关描述,在此不做赘述。
步骤S404,将多个第二影响系数和第一数据总量输入目标计算资源模型,以得到目标计算资源模型输出的目标资源量。
在本申请实施例中,可以将多个第二影响系数和第一数据总量输入至目标计算资源模型,以得到目标计算资源模型输出的目标资源量。
在本申请实施例的一种可能的实现方式中,可以根据多个第二影响系数对第一数据总量进行加权,以得到目标资源量。例如,可以采用目标计算资源模型根据任一第二影响系数对第一数据总量进行加权,以得到该第二影响系数对应的中间数值,从而可以采用目标计算资源模型根据多个第二影响系数的中间数值的累加和,确定目标资源量。
步骤S405,向计算集群申请与目标资源量匹配的计算资源,其中,计算资源用于对待处理文件进行处理。
步骤S405的解释说明可以参见本申请任一实施例中的相关描述,在此不做赘述。
本申请实施例的资源分配方法,不仅可以基于深度学习技术,预测待处理文件所需的计算资源量,还可以通过将与目标元数据匹配的多个第一影响系数和待处理文件包含的数据总量,套入目标计算资源模型对应的数学公式的方式,计算待处理文件所需的计算资源量,可以实现根据不同方式,预测待处理文件所需的计算资源量,提升该方法的灵活性和适用性。
为了清楚说明本公开上述实施例中是如何确定多个影响系数的,本申请还提出一种资源分配方法。
图5为本申请实施例提供的另一种资源分配方法的流程示意图。
如图5所示,在图4所示实施例的基础上,该资源分配方法还可以包括以下步骤:
步骤S501,获取训练数据集,其中,训练数据集中包括多个第三元数据样本,每个第三元数据样本上标注有第三标注资源量。
在本申请实施例中,对训练数据集的获取方式不作限制,比如,训练数据集中的各第三元数据样本可以从现有的训练集获取,或者也可以在线采集,比如可以通过网络爬虫技术在线获取,或者也可以为用户提供的,等等,本申请对此并不做限制。
步骤S502,针对任一第三元数据样本,从多个未知的影响系数中获取与第三元数据样本匹配的多个第三影响系数。
在本申请实施例中,针对任意一个第三元数据样本,可以从多个未知的影响系数中,确定与第三元数据样本匹配的多个第三影响系数。
仍以步骤S402中的例子进行示例,可以根据第三元数据样本中的数据类型,从第1组影响系数中,确定与该数据类型匹配的第三影响系数,并根据第三元数据样本中的数据分布,从第2组影响系数中,确定与该数据分布匹配的第三影响系数,并根据第三元数据样本中业务类型,从上述第3组影响系数中,确定与该业务类型所涉及的算子匹配的第三影响系数,同理,可以从其他组影响系数中,确定与第三元数据样本匹配的第三影响系数。
步骤S503,从第三元数据样本中获取对应样本文件所包含的第三数据总量。
在本申请实施例中,第三元数据样本中可以包括该第三元数据样本对应的样本文件所包含的数据总量(本申请中记为第三数据总量)。
步骤504,根据第三标注资源量和第三数据总量,确定多个第三影响系数。
在本申请实施例中,可以根据第三标注资源量和第三数据总量,确定多个未知的第三影响系数的取值。
作为一种示例,可以根据多个未知的第三影响系数,对第三数据总量进行加权,并令加权结果等于第三标注资源量,从而在第三元数据样本的个数为多个时,可以通过多元方程求解的方式,得到每个影响系数的取值。
需要说明的是,当第三元数据样本的数量较多时,同一个影响系数可能对应多个解,比如,根据6个第三元数据样本求2个影响系数时,每个影响系数至少对应3个解。针对这种情况,本申请中,可以对同一影响系数的多个解进行线性回归的方式,确定该影响系数的最终解。比如,可以将该影响系数的多个解进行加权求和的方式,得到该影响系数的最终解,或者,可以将该影响系数的多个解进行聚类,根据聚类结果,确定该影响系数的最终解,比如可以将聚类得到的最大簇中的聚类中心,作为该影响系数的最终解。
综上,根据训练数据集中标注有资源量的元数据样本,求解各影响系数的取值,而非根据人工经验设置各影响系数的取值,可以提升计算结果的可靠性。
在本申请实施例的一种可能的实现方式中,为了提升资源量计算结果的准确性,还可以采用测试元数据对各影响系数进行修正。下面结合图6对上述过程进行详细说明。
图6为本申请实施例提供的另一种资源分配方法的流程示意图。
如图6所示,在图5所示实施例的基础上,该资源分配方法还可以包括以下步骤:
步骤S601,获取测试元数据,其中,测试元数据上标注有第一测试资源量。
在本申请实施例中,对测试元数据的获取方式不作限制,比如,测试元数据可以从现有的测试集获取,或者测试元数据也可以在线采集,比如可以通过网络爬虫技术在线获取,或者,测试元数据也可以为用户提供的,等等,本申请对此不做限制。
步骤S602,从多个影响系数中获取与测试元数据匹配的多个第四影响系数。
需要说明的是,步骤S602的实现原理与步骤S402或步骤S502的实现原理类似,在此不做赘述。
步骤S603,从测试元数据中获取测试文件所包含的第四数据总量。
在本申请实施例中,测试元数据中可以包括该测试元数据对应的测试文件所包含的数据总量(本申请中记为第四数据总量)。
步骤S604,根据多个第四影响系数和第四数据总量,确定第二测试资源量。
在本申请实施例中,可以根据多个第四影响系数和第四数据总量,确定第二测试资源量。其实现原理与步骤S304或S404类似,在此不做赘述。
步骤S605,响应于第一测试资源量和第二测试资源量之间的差异大于或等于设定的差异阈值,对多个第四影响系数进行调整。
其中,差异阈值为预先设定的较小的阈值。
在本申请实施例中,在第一测试资源量和第二测试资源量之间的差异小于差异阈值的情况下,可以无需对多个第四影响系数进行调整,而在第一测试资源量和第二测试资源量之间的差异大于或等于该差异阈值的情况下,表明各第四影响系数的取值的准确性和可靠性相对较低,此时,可以对各第四影响系数进行调整。
作为一种示例,每个影响系数可以具有对应的修正系数,该修正系数可以为大于1的系数,或者也可以为小于1的系数,可以将各第四影响系数乘以对应的修正系数,以得到更新后的各第四更新系数。
作为另一种示例,每个影响系数可以具有对应的调整步长,该调整步长可以为正数,或者也可以为负数,可以将各第四影响系数与对应的调整步长相加,以得到更新后的各第四更新系数。
进一步地,还可以根据更新后的各第四更新系数和第四数据总量,重新确定第二测试资源量,并将重新确定的第二测试资源量与第一测试资源量进行比对,如果重新确定的第二测试资源量与第一测试资源量之间的差异仍然大于或等于差异阈值,则可对多个第四影响系数进行重新调整,以使根据重新调整后的各第四影响系数和第四数据总量确定的第二测试资源量与第一测试资源量之间的差异小于差异阈值。
综上,可以实现对各影响系数进行调整,以提升资源量计算结果的准确性和可靠性。
在本申请的任意一个实施例之中,为了便于对元数据进行管理,还可以将目标元数据进行存储。比如,可以将待处理文件的标识信息(比如文件名)和目标元数据进行对应存储。
作为一种应用场景,在需要查询某一元数据时,可以根据该元数据对应文件的文件标识,查询与该文件标识匹配的元数据。
作为一种示例,可以获取用户触发的查询请求,其中,查询请求中携带待查询文件的第一标识(比如文件名),并响应于该查询请求,根据该查询请求中携带的第一标识,查询该待查询文件对应的元数据,并发送携带待查询文件的元数据的查询响应。
作为一种应用场景,在需要管理某一元数据时,比如想要对该元数据进行更新时,可以根据该元数据对应文件的文件标识,更新与该文件标识匹配的元数据。
作为一种示例,可以获取用户触发的更新请求,其中,更新请求中携带待更新文件的第二标识(比如文件名),并响应于该更新请求,根据该更新请求中携带的第二标识,对待更新文件的元数据进行更新。
发明人通过研究发现,通过对空间数据采集的元数据进行合理管理,同时根据计算规则的复杂度关系,可以有效计算单任务所需的计算资源量,并以此为基准,向计算集群申请对应的计算资源来计算当前空间作业,即可实现在有效保证任务的正常执行的情况下,有效保证单计算作业的计算资源的利用效率,最大限度保证一个计算集群下同一时间可对外提供的计算作业的并行度。
即,可以根据元数据,动态计算资源量,保证空间数据计算子任务的正常运行,以及在总计算资源一定的情况下,提高最大并发计算子任务的数量。
在本申请的任意一个实施例之中,用于实现本申请任一实施例所述的方法的资源分配系统的结构可以如图7所示。其中,OBS(Object Storage Service,对象存储服务)引擎用于存储SHP格式的文件,高斯引擎用于存储库表。
其中,该资源分配系统主要包含以下几个部分:
第一,元数据管理系统。
主要提供空间数据存储技术元数据和业务元数据的管理能力,实现在线和离线的空间数据的元数据采集,并对外提供元数据的查询管理接口能力。
第二,空间计算资源算法模型(本申请中记为目标计算资源模型)。
通过离线和在线的算法学习,实现根据不同空间数据的元数据以及计算算子类型,动态评估计算任务所需的计算资源量。
第三,计算集群。
主要提供空间数据计算所需的空间计算资源,提供任务计算运行环境。
资源分配的原理可以如图8所示,主要包含以下步骤:
步骤S81,元数据的分析和采集。
通过在空间数据的汇集和采集过程中,实时通知如图7所示的元数据管理系统实时解析采集的与空间数据关联的技术元数据、业务元数据,其中,元数据包括但不限于空间数据所属的行业信息和/或子行业信息、数据行数、每行数据所包含的数据量(即数据行大小)、数据总量、数据类型、各数据类型的空间数据占比、空间数据的隶属区域(即归属地理区划)、空间数据所处的地理坐标范围等。
步骤S82,空间计算资源对应的算法模型(本申请中记为目标计算资源模型)的训练。
在空间数据领域,一个矢量空间文件可以分为点数据、线数据、面数据,同时对应的业务类型可分为人口分布、房屋分布、山脉、桥梁、林草等,在地域上,各空间数据具有南北分布、东西分布等特点。
结合上述特征,在模型训练时,可以按照如下步骤进行分布式训练:
1,可以分析影响资源量的因素系数(本申请中记为影响系数)。
除了文件大小a(即文件所包含的数据总量)会影响资源量,还可以包括以下影响系数:
K1,业务类型,业务领域包含的目标对象。比如,假设业务领域为风险普查,则矢量空间文件中包含的空间数据可以包含房屋(数据类型为面或点)、人口(数据类型为点)、桥梁(数据类型为线)、湖泊(数据类型为面)、山脉(数据类型为线或面)、危化品分布(数据类型为点)。其中,每种业务类型对应的影响系数K1的取值不同。
K2,按照业务类型对应的数据类型(点、线、面)进行分类。其中,每种数据类型对应的影响系数K2的取值不同。
K3,数据分布,包括南北分布、东西分布,输出对地域分布敏感和不敏感的两类空间数据。其中,每种数据分布对应的影响系数K3的取值不同。
K4,计算算子,按照业务的计算逻辑,区分不同计算算子的操作系数。其中,每种计算算子对应的影响系数K4的取值不同。
…
Kn,其他影响系数。
2,可以根据各影响系数,确定矢量空间文件所需的计算资源量。
3,获取数据集。
根据各影响系数,从业务数据中按照数据类型、数据分布、业务类型等,抽样得到数据集{X},并将数据集分为训练数据集{X1|X1∈X}和测试数据集{X2|X2∈X}。
4、模型训练。
根据训练数据集进行迭代计算,得到各影响系数的取值(具体实现方式可参见图5所示实施例),并基于计算的影响系数,获取上述步骤2所示的算法模型。
5、模型验证。
由步骤4得到算法模型后,可以使用测试数据集对模型进行验证(具体实现方式可参见图6所示实施例),若结果符合预期,则终止训练,若依旧有偏差,重新执行步骤3~5。
步骤S83,资源量计算。
根据待处理文件对应的目标元数据,确定与该目标元数据匹配的影响系数,并将各影响系数传入步骤S82得到的算法模型,得到待处理文件所需的计算资源量。
步骤S84,任务执行。
根据步骤S83得到的计算资源量,向计算集群申请与该计算资源量匹配的计算资源,并执行计算任务,即对待处理文件进行处理。
综上,本申请中,通过增加空间数据的元数据管理系统,在空间数据的采集过程中,增加对与空间数据相关的元数据进行采集、管理,提供后续空间数据计算评估基础。对于已归集的空间数据,可以通过元数据分析工具,进行元数据再分析采集,并归档管理。通过算法训练,可以得到相同数据量下不同数据类型、业务类型和/或数据分布的空间数据,在不同空间计算算子下对应的计算资源量对应的算法模型。通过元数据管理系统,可以获得空间数据包含的数据类型、数据类型占比、总数据量大小等信息,并通过模型预测空间数据在目标计算算子下所需的计算资源量。可以向计算集群申请与预测的计算资源量匹配的计算资源,并提交空间任务进行计算,得到计算结果。
本申请所提供的资源分配方式,至少存在以下优点:可以有效解决在空间数据的数据量较大的情况下,由人工指定计算资源量而导致任务异常失败或资源浪费的问题,实现资源的自动配置,以及最大限度保证了一个计算集群下,同一时间可对外提供的计算作业的并行度。
与上述几种实施例提供的资源分配方法相对应,本申请的一种实施例还提供一种资源分配装置。由于本申请实施例提供的资源分配装置与上述几种实施例提供的资源分配方法相对应,因此在资源分配方法的实施方式也适用于本实施例提供的资源分配装置,在本实施例中不再详细描述。
图9为根据本申请一个实施例的资源分配装置的结构示意图。
如图9所示,该资源分配装置900,可以包括:第一获取模块901、预测模块902以及申请模块903。
其中,第一获取模块901,用于获取待处理文件对应的目标元数据。
预测模块902,用于采用目标计算资源模型根据目标元数据,预测待处理文件所需的目标资源量。
申请模块903,用于向计算集群申请与目标资源量匹配的计算资源,其中,计算资源用于对待处理文件进行处理。
作为本申请实施例的一种可能实现方式,预测模块902,具体用于:将目标元数据输入目标计算资源模型,以采用目标计算资源模型对目标元数据进行资源量预测,得到目标资源量;其中,目标计算资源模型基于标注了资源量的元数据样本训练得到。
作为本申请实施例的一种可能实现方式,目标计算资源模型采用以下模块训练得到:
第二获取模块,用于获取第一元数据样本,其中,第一元数据样本上标注有第一标注资源量。
第一输入模块,用于将第一元数据样本输入第一初始计算资源模型,以采用第一初始计算资源模型对第一元数据样本进行资源量预测,得到第一预测资源量。
第一调整模块,用于采用第一预测资源量和第一标注资源量之间的差异,对第一初始计算资源模型中的模型参数进行调整,以得到目标计算资源模型。
作为本申请实施例的一种可能实现方式,预测模块902,具体用于:将目标元数据输入目标计算资源模型,以采用目标计算资源模型对目标元数据进行影响系数预测,得到多个第一影响系数;从目标元数据中获取待处理文件所包含的第一数据总量;根据多个第一影响系数和第一数据总量,确定目标资源量;其中,目标计算资源模型基于标注了资源量的元数据样本训练得到。
作为本申请实施例的一种可能实现方式,目标计算资源模型通过以下模块训练得到:
第三获取模块,用于获取第二元数据样本,其中,第二元数据样本上标注有第二标注资源量。
第二输入模块,用于将第二元数据样本输入第二初始计算资源模型,以采用第二初始计算资源模型对第二元数据样本进行影响系数预测,得到多个预测影响系数。
第四获取模块,用于从第二元数据样本中获取对应样本文件所包含的第二数据总量。
第一确定模块,用于根据多个预测影响系数和第二数据总量,确定第二预测资源量。
第二调整模块,用于根据第二预测资源量和第二标注资源量之间的差异,对第二初始计算资源模型中的模型参数进行调整,以得到目标计算资源模型。
作为本申请实施例的一种可能实现方式,预测模块902,具体用于:从多个影响系数中获取与目标元数据匹配的多个第二影响系数;从目标元数据中获取待处理文件所包含的第一数据总量;将多个第二影响系数和第一数据总量输入目标计算资源模型,以得到目标计算资源模型输出的目标资源量。
作为本申请实施例的一种可能实现方式,预测模块902,具体用于:采用目标计算资源模型根据任一第二影响系数对第一数据总量进行加权,以得到中间数值;采用目标计算资源模型根据多个第二影响系数的中间数值的累加和,确定目标资源量。
作为本申请实施例的一种可能的实现方式,多个影响系数为预设的,或者,多个影响系数采用以下模块确定:
第五获取模块,用于获取训练数据集,其中,训练数据集中包括多个第三元数据样本,每个第三元数据样本上标注有第三标注资源量。
第六获取模块,用于针对任一第三元数据样本,从多个未知的影响系数中获取与第三元数据样本匹配的多个第三影响系数。
第七获取模块,用于从第三元数据样本中获取对应样本文件所包含的第三数据总量。
第二确定模块,用于根据第三标注资源量和第三数据总量,确定多个第三影响系数。
作为本申请实施例的一种可能实现方式,该资源分配装置900还可以包括:
第八获取模块,用于获取测试元数据,其中,测试元数据上标注有第一测试资源量。
第九获取模块,用于从多个影响系数中获取与测试元数据匹配的多个第四影响系数,并从测试元数据中获取对应测试文件所包含的第四数据总量。
第三确定模块,用于根据多个第四影响系数和第四数据总量,确定第二测试资源量。
第三调整模块,用于响应于第一测试资源量和第二测试资源量之间的差异大于或等于设定的差异阈值,对多个第四影响系数进行调整。
作为本申请实施例的一种可能实现方式,目标元数据包括以下至少一项:待处理文件中的空间数据所属的行业信息和/或子行业信息;待处理文件中每行数据所包含的数据量;待处理文件包含的数据行数;待处理文件所包含的数据总量;待处理文件中空间数据所属的数据类型;待处理文件中空间数据的维度信息;待处理文件中每种数据类型的空间数据占比;待处理文件中每种维度信息的空间数据占比;待处理文件中空间数据的隶属区域;待处理文件中空间数据所处的地理坐标范围。
作为本申请实施例的一种可能实现方式,该资源分配装置900还可以包括:
存储模块,用于将待处理文件的标识信息和目标元数据进行对应存储。
作为本申请实施例的一种可能实现方式,该资源分配装置900还可以包括:查询模块和/或更新模块。其中,
查询模块,用于获取查询请求,其中,查询请求中携带待查询文件的第一标识;响应于查询请求,根据第一标识,查询待查询文件的元数据;发送查询响应,其中,查询响应中携带待查询文件的元数据。
更新模块,用于获取更新请求,其中,更新请求中携带待更新文件的第二标识;响应于更新请求,根据第二标识,对待更新文件的元数据进行更新。
本申请实施例中的资源分配装置,通过获取待处理文件对应的目标元数据;采用目标计算资源模型根据目标元数据,预测待处理文件所需的目标资源量;向计算集群申请与目标资源量匹配的计算资源,其中,计算资源用于对待处理文件进行处理。由此,可以实现根据待处理文件的元数据,自动预测该待处理文件所需的计算资源量,而无需根据人工经验设置计算资源量,一方面,可以避免人工设置的计算资源量过高,而导致资源浪费的情况发生,另一方面,可以避免人工设置的计算资源量不足,而导致计算任务失败的情况发生,改善用户的使用体验。
为了实现上述实施例,本申请还提出一种电子设备,图10为本申请实施例提供的一种电子设备的结构示意图。该电子设备包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述任一实施例中提供的资源分配方法。
进一步地,电子设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述任一实施例所述的资源分配方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
为了实现上述实施例,本申请实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例中提供的资源分配方法。
为了实现上述实施例,本申请实施例还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现上述任一实施例中提供的资源分配方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (15)
1.一种资源分配方法,其特征在于,所述方法包括:
获取待处理文件对应的目标元数据;
采用目标计算资源模型根据所述目标元数据,预测所述待处理文件所需的目标资源量;
向计算集群申请与所述目标资源量匹配的计算资源,其中,所述计算资源用于对所述待处理文件进行处理。
2.根据权利要求1所述的方法,其特征在于,所述采用目标计算资源模型根据所述目标元数据,预测所述待处理文件所需的目标资源量,包括:
将所述目标元数据输入所述目标计算资源模型,以采用所述目标计算资源模型对所述目标元数据进行资源量预测,得到所述目标资源量;
其中,所述目标计算资源模型基于标注了资源量的元数据样本训练得到。
3.根据权利要求2所述的方法,其特征在于,所述目标计算资源模型采用以下步骤训练得到:
获取第一元数据样本,其中,所述第一元数据样本上标注有第一标注资源量;
将所述第一元数据样本输入第一初始计算资源模型,以采用所述第一初始计算资源模型对所述第一元数据样本进行资源量预测,得到第一预测资源量;
采用所述第一预测资源量和所述第一标注资源量之间的差异,对所述第一初始计算资源模型中的模型参数进行调整,以得到所述目标计算资源模型。
4.根据权利要求1所述的方法,其特征在于,所述采用目标计算资源模型根据所述目标元数据,预测所述待处理文件所需的目标资源量,包括:
将所述目标元数据输入所述目标计算资源模型,以采用所述目标计算资源模型对所述目标元数据进行影响系数预测,得到多个第一影响系数;
从所述目标元数据中获取所述待处理文件所包含的第一数据总量;
根据所述多个第一影响系数和所述第一数据总量,确定所述目标资源量;
其中,所述目标计算资源模型基于标注了资源量的元数据样本训练得到。
5.根据权利要求4所述的方法,其特征在于,所述目标计算资源模型通过以下步骤训练得到:
获取第二元数据样本,其中,所述第二元数据样本上标注有第二标注资源量;
将所述第二元数据样本输入第二初始计算资源模型,以采用所述第二初始计算资源模型对所述第二元数据样本进行影响系数预测,得到多个预测影响系数;
从所述第二元数据样本中获取对应样本文件所包含的第二数据总量;
根据所述多个预测影响系数和所述第二数据总量,确定第二预测资源量;
根据所述第二预测资源量和所述第二标注资源量之间的差异,对所述第二初始计算资源模型中的模型参数进行调整,以得到所述目标计算资源模型。
6.根据权利要求1所述的方法,其特征在于,所述采用目标计算资源模型根据所述目标元数据,预测所述待处理文件所需的目标资源量,包括:
从多个影响系数中获取与所述目标元数据匹配的多个第二影响系数;
从所述目标元数据中获取所述待处理文件所包含的第一数据总量;
将所述多个第二影响系数和所述第一数据总量输入所述目标计算资源模型,以得到所述目标计算资源模型输出的所述目标资源量。
7.根据权利要求6所述的方法,其特征在于,所述将所述多个第二影响系数和所述第一数据总量输入所述目标计算资源模型,以得到所述目标计算资源模型输出的所述目标资源量,包括:
采用所述目标计算资源模型根据任一所述第二影响系数对所述第一数据总量进行加权,以得到中间数值;
采用所述目标计算资源模型根据所述多个第二影响系数的中间数值的累加和,确定所述目标资源量。
8.根据权利要求6所述的方法,其特征在于,所述多个影响系数为预设的,或者,所述多个影响系数采用以下步骤确定:
获取训练数据集,其中,所述训练数据集中包括多个第三元数据样本,每个所述第三元数据样本上标注有第三标注资源量;
针对任一所述第三元数据样本,从多个未知的影响系数中获取与所述第三元数据样本匹配的多个第三影响系数;
从所述第三元数据样本中获取对应样本文件所包含的第三数据总量;
根据所述第三标注资源量和所述第三数据总量,确定所述多个第三影响系数。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取测试元数据,其中,所述测试元数据上标注有第一测试资源量;
从所述多个影响系数中获取与所述测试元数据匹配的多个第四影响系数;
从所述测试元数据中获取对应测试文件所包含的第四数据总量;
根据所述多个第四影响系数和所述第四数据总量,确定第二测试资源量;
响应于所述第一测试资源量和所述第二测试资源量之间的差异大于或等于设定的差异阈值,对所述多个第四影响系数进行调整。
10.根据权利要求1-9中任一项所述的方法,其特征在于,所述目标元数据包括以下至少一项:
所述待处理文件中的空间数据所属的行业信息和/或子行业信息;
所述待处理文件中每行数据所包含的数据量;
所述待处理文件包含的数据行数;
所述待处理文件所包含的数据总量;
所述待处理文件中空间数据所属的数据类型;
所述待处理文件中空间数据的维度信息;
所述待处理文件中每种数据类型的空间数据占比;
所述待处理文件中每种维度信息的空间数据占比;
所述待处理文件中空间数据的隶属区域;
所述待处理文件中空间数据所处的地理坐标范围。
11.根据权利要求1-9中任一项所述的方法,其特征在于,所述方法还包括:
将所述待处理文件的标识信息和所述目标元数据进行对应存储。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
获取查询请求,其中,所述查询请求中携带待查询文件的第一标识;
响应于所述查询请求,根据所述第一标识,查询所述待查询文件的元数据;
发送查询响应,其中,所述查询响应中携带所述待查询文件的元数据;
或者,
获取更新请求,其中,所述更新请求中携带所述待更新文件的第二标识;
响应于所述更新请求,根据所述第二标识,对所述待更新文件的元数据进行更新。
13.一种资源分配装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理文件对应的目标元数据;
预测模块,用于采用目标计算资源模型根据所述目标元数据,预测所述待处理文件所需的目标资源量;
申请模块,用于向计算集群申请与所述目标资源量匹配的计算资源,其中,所述计算资源用于对所述待处理文件进行处理。
14.一种电子设备,其特征在于,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-12中任一项所述的资源分配方法。
15.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一项所述的资源分配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211520644.4A CN115794398A (zh) | 2022-11-30 | 2022-11-30 | 资源分配方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211520644.4A CN115794398A (zh) | 2022-11-30 | 2022-11-30 | 资源分配方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115794398A true CN115794398A (zh) | 2023-03-14 |
Family
ID=85443815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211520644.4A Pending CN115794398A (zh) | 2022-11-30 | 2022-11-30 | 资源分配方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115794398A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541179A (zh) * | 2023-07-05 | 2023-08-04 | 支付宝(杭州)信息技术有限公司 | 一种计算资源预测方法和系统 |
-
2022
- 2022-11-30 CN CN202211520644.4A patent/CN115794398A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541179A (zh) * | 2023-07-05 | 2023-08-04 | 支付宝(杭州)信息技术有限公司 | 一种计算资源预测方法和系统 |
CN116541179B (zh) * | 2023-07-05 | 2023-12-05 | 支付宝(杭州)信息技术有限公司 | 一种计算资源预测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113614748A (zh) | 用于对象检测的增量学习的系统和方法 | |
WO2022105111A1 (zh) | 区域画像图生成方法、装置、计算机设备及存储介质 | |
US20210042628A1 (en) | Building a federated learning framework | |
CN106919957B (zh) | 处理数据的方法及装置 | |
US10984518B2 (en) | Methods and systems for assessing the quality of geospatial data | |
US20210216904A1 (en) | Knowledge Aided Feature Engineering | |
CN109690571A (zh) | 基于学习的组标记系统和方法 | |
CN115794398A (zh) | 资源分配方法、装置、电子设备及存储介质 | |
CN114374449A (zh) | 一种干扰源确定方法、装置、设备及介质 | |
US11004333B2 (en) | Detecting influential factors for traffic congestion | |
US11151448B2 (en) | Location tagging for visual data of places using deep learning | |
WO2023103688A1 (en) | Federated machine learning based on partially secured spatio-temporal data | |
CN109345947B (zh) | 基于数据关联性分析的工作区域划分方法及终端设备 | |
CN115022201B (zh) | 一种数据处理功能测试方法、装置、设备及存储介质 | |
WO2022267364A1 (zh) | 一种信息推荐方法、设备及存储介质 | |
WO2018004083A1 (ko) | 지도 검색 기록을 이용한 유동인구 추정 장치 및 방법 | |
CN111737371B (zh) | 可动态预测的数据流量检测分类方法及装置 | |
CN111598390B (zh) | 服务器高可用性评估方法、装置、设备和可读存储介质 | |
CN113947185A (zh) | 任务处理网络生成、任务处理方法、装置、电子设备及存储介质 | |
CN110134575B (zh) | 一种服务器集群的服务能力计算方法及装置 | |
CN114595026A (zh) | 在多平台即服务的系统中估计平台上运行的工作负载的属性 | |
CN107743094B (zh) | 路由接入方法及路由接入装置 | |
CN116450632B (zh) | 地理样本数据质量评估方法、设备及存储介质 | |
CN113391850B (zh) | 基于边云协同的任务调度方法、装置、设备及存储介质 | |
CN115550259B (zh) | 基于白名单的流量分配方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |