CN114417062A - 一种数据湖数据部署方案确定方法及相关设备 - Google Patents
一种数据湖数据部署方案确定方法及相关设备 Download PDFInfo
- Publication number
- CN114417062A CN114417062A CN202210094100.XA CN202210094100A CN114417062A CN 114417062 A CN114417062 A CN 114417062A CN 202210094100 A CN202210094100 A CN 202210094100A CN 114417062 A CN114417062 A CN 114417062A
- Authority
- CN
- China
- Prior art keywords
- data
- cost
- data storage
- lake
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013500 data storage Methods 0.000 claims abstract description 160
- 230000005012 migration Effects 0.000 claims description 37
- 238000013508 migration Methods 0.000 claims description 37
- 238000004088 simulation Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供的一种数据湖数据部署方案确定方法及相关设备,可以获得至少一个云平台的云资源报价,云资源报价包括与至少一个数据存储类型对应的存储资源报价以及与至少一个算力类型对应的算力资源报价。获得目标数据湖的云资源用量,云资源用量包括目标数据湖中各数据存储类型的数据存储占用量以及目标数据湖在各算力类型下的需求算力资源。本发明通过云平台的云资源报价和目标数据湖的云资源用量,确定出目标数据湖在各云平台上与各数据存储类型分别对应的数据存储成本和与各算力类型分别对应的算力需求成本,进而利用数据存储成本和算力需求成本,确定出目标数据湖在当前的云资源用量下成本更低的数据部署方案。
Description
技术领域
本发明涉及数据湖技术领域,尤其涉及一种数据湖数据部署方案确定方法及相关设备。
背景技术
数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
当前,数据湖作为企业数字化转型的核心基础服务,企业主要依赖于使用公有的云平台提供的数据湖服务。随着企业的数据湖中的数据越来越多,数据存储和算力需求也越来越大。
因此,如何帮助企业选择适合的云平台服务进行数据湖部署,成为本领域技术人员急需解决的技术问题。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种数据湖数据部署方案确定方法及相关设备,技术方案如下:
一种数据湖数据部署方案确定方法,包括:
获得至少一个云平台的云资源报价,其中,所述云资源报价包括与数据存储类型对应的存储资源报价以及与算力类型对应的算力资源报价;
获得目标数据湖的云资源用量,其中,所述云资源用量包括所述目标数据湖在各所述数据存储类型下的数据存储占用量以及所述目标数据湖在各所述算力类型下的需求算力资源;
利用所述存储资源报价和所述数据存储占用量,确定所述目标数据湖在各所述云平台上与各所述数据存储类型分别对应的数据存储成本;
利用所述算力资源报价和所述需求算力资源,确定所述目标数据湖在各所述云平台上与各所述算力类型分别对应的算力需求成本;
利用所述数据存储成本和所述算力需求成本,确定所述目标数据湖的数据部署方案。
可选的,所述利用所述数据存储成本和所述算力需求成本,确定所述目标数据湖的数据部署方案,包括:
根据所述数据存储成本和所述算力需求成本,确定所述云资源用量在各所述云平台提供的所述数据存储类型和所述算力类型下的各组合结果对应的模拟运行成本;
利用所述云资源用量的当前运行成本和各所述模拟运行成本,确定所述目标数据湖的数据部署方案。
可选的,所述利用所述云资源用量的当前运行成本和各所述模拟运行成本,确定所述目标数据湖的数据部署方案,包括:
根据所述云资源用量的当前运行成本和各所述模拟运行成本,分别确定各所述组合结果对应的第一节省成本,其中,所述第一节省成本用于指示在所述云资源用量下所述组合结果对应的所述模拟运行成本与所述当前运行成本的差值;
将所述第一节省成本最高的所述组合结果确定为所述目标数据湖的数据部署方案。
可选的,所述利用所述云资源用量的当前运行成本和各所述模拟运行成本,确定所述目标数据湖的数据部署方案,包括:
确定所述云资源用量在各所述组合结果下对应的迁移流量成本;
根据所述迁移流量成本和所述模拟运行成本,分别确定各所述组合结果对应的迁移成本,其中,所述迁移成本用于指示在所述云资源用量下所述组合结果对应的所述迁移流量成本与所述模拟运行成本的和值;
根据所述云资源用量的当前运行成本和所述迁移成本,分别确定各所述组合结果对应的第二节省成本,其中,所述第二节省成本用于指示在所述云资源用量下所述组合结果对应的所述迁移成本与所述当前运行成本的差值;
将所述第二节省成本最高的所述组合结果确定为所述目标数据湖的数据部署方案。
可选的,所述算力类型包括:包期实例、按量实例、抢占式实例、预留券实例以及云函数。
可选的,所述数据存储类型包括:按照数据访问频率划分的高频访问数据存储、中频访问数据存储以及低频访问数据存储。
可选的,在所述确定所述目标数据湖的数据部署方案之后,所述方法还包括:
按照所述数据部署方案对所述目标数据湖进行数据部署。
一种数据湖数据部署方案确定装置,包括:云资源报价获得单元、云资源用量获得单元、数据存储成本确定单元、算力需求成本确定单元以及数据部署方案确定单元,
所述云资源报价获得单元,用于获得至少一个云平台的云资源报价,其中,所述云资源报价包括与数据存储类型对应的存储资源报价以及与算力类型对应的算力资源报价;
所述云资源用量获得单元,用于获得目标数据湖的云资源用量,其中,所述云资源用量包括所述目标数据湖在各所述数据存储类型下的数据存储占用量以及所述目标数据湖在各所述算力类型下的需求算力资源;
所述数据存储成本确定单元,用于利用所述存储资源报价和所述数据存储占用量,确定所述目标数据湖在各所述云平台上与各所述数据存储类型分别对应的数据存储成本;
所述算力需求成本确定单元,用于利用所述算力资源报价和所述需求算力资源,确定所述目标数据湖在各所述云平台上与各所述算力类型分别对应的算力需求成本;
所述数据部署方案确定单元,用于利用所述数据存储成本和所述算力需求成本,确定所述目标数据湖的数据部署方案。
一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的数据湖数据部署方案确定方法。
一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一项所述的数据湖数据部署方案确定方法。
借由上述技术方案,本发明提供的一种数据湖数据部署方案确定方法及相关设备,可以获得至少一个云平台的云资源报价,云资源报价包括与至少一个数据存储类型对应的存储资源报价以及与至少一个算力类型对应的算力资源报价。获得目标数据湖的云资源用量,云资源用量包括目标数据湖中各数据存储类型的数据存储占用量以及目标数据湖在各算力类型下的需求算力资源。本发明通过云平台的云资源报价和目标数据湖的云资源用量,确定出目标数据湖在各云平台上与各数据存储类型分别对应的数据存储成本和与各算力类型分别对应的算力需求成本,进而利用数据存储成本和算力需求成本,确定出目标数据湖在当前的云资源用量下成本更低的数据部署方案。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的数据湖数据部署方案确定方法的一种实施方式的流程示意图;
图2示出了本发明实施例提供的数据湖数据部署方案确定方法的另一种实施方式的流程示意图;
图3示出了本发明实施例提供的数据湖数据部署方案确定方法的另一种实施方式的流程示意图;
图4示出了本发明实施例提供的数据湖数据部署方案确定方法的另一种实施方式的流程示意图;
图5示出了本发明实施例提供的数据湖数据部署方案确定装置的结构示意图;
图6示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的数据湖数据部署方案确定方法的一种实施方式的流程示意图,该方法可以包括:
S100、获得至少一个云平台的云资源报价,其中,云资源报价包括与数据存储类型对应的存储资源报价以及与算力类型对应的算力资源报价。
其中,云平台可以是基于硬件资源和软件资源的服务,提供计算、网络和存储能力的云计算平台(Cloud ComputingPlatform)。本文中的云平台可以是为开发者及企业提供云服务的公有云产品。例如:腾讯云、阿里云、华为云以及亚马逊云。
本发明实施例可以通过云平台的API(Application Programming Interface,应用程序接口),获得云平台的云资源报价。在通常情况下,云平台可以提供不同数据存储类型的存储服务和不同算力类型的计算服务。算力是一个逻辑名词,指的是可提供包括计算服务的虚拟资源。计算服务可以包括数据的清理分析以及聚合运算。云平台的算力资源可以包括实例、容器以及云函数等分析数据所需的算力机器。
可选的,数据存储类型包括:按照数据访问频率划分的高频访问数据存储、中频访问数据存储以及低频访问数据存储。
其中,高频访问数据存储主要是为高持久、高可用、高性能的对象提供的存储服务,支持频繁的数据访问。适合如社交、分享类的图片、音视频应用、大型网站以及大数据分析等高频访问的数据存储。
其中,中频访问数据存储主要是为长期保存且不经常访问的对象(例如平均每月的访问频率为1至2次)的对象提供的存储服务,支持实时数据访问。适合如移动应用、智能设备以及企业数据的长期备份。在通常情况下,中频访问数据存储类型的报价要高于高频访问数据存储类型的报价。
其中,低频访问数据存储主要是为需要长期保存(例如半年以上)的归档数据提供的存储服务。在存储周期内极少被访问,数据进入到可读取状态需要1分钟的解冻时间。适合如需要长期保存的档案数据、医疗影像、科学资料以及影视素材等低频访问的数据存储。
可选的,算力类型包括:包期实例、按量实例、抢占式实例、预留券实例以及云函数。
其中,包期实例可以包括包年实例和包月实例。包期实例是一种预付费模式,即先付费再使用。报价等于实例规格单价与购买时长的乘积。
其中,按量实例也称为按量付费实例类型。按量实例是一种后付费模式,即先使用再付费。报价等于实例规格单价乘以计费时长。其中,计费周期可以精确到秒。
其中,抢占式实例是一种后付费的按需实例,相比按量付费有较大折扣,但价格不固定,随市场供需关系波动,按实际使用时长进行收费。
其中,预留券实例是一种抵扣券,搭配按量付费实例使用,相比按量付费有一定折扣。购买时根据选择的地域、实例规格、操作系统、付费方式、有效期、实例台数等决定费用。使用时从资源维度(承诺使用指定资源)抵扣按量付费实例的账单,当券和实例匹配时才能抵扣。
其中,云函数是一段运行在云端的、轻量的、无关联的、并且可重用的代码。无需管理服务器,只需编写和上传代码,即可获得对应的数据结果。使用云函数可以使企业和开发者不需要担心服务器或底层运维设施,可以更专注代码和业务本身,也可以使代码进一步解耦,增加其重用性。
可以理解的是,本发明实施例通过各云平台的API,获得云平台提供的各数据存储类型对应的存储资源报价以及云平台提供的各算力类型的算力资源报价。
S200、确定目标数据湖的云资源用量,其中,云资源用量包括目标数据湖在各数据存储类型下的数据存储占用量以及目标数据湖在各算力类型下的需求算力资源。
具体的,本发明实施例可以通过目标数据湖中自建的日志体系或目标数据湖当前使用的云平台的监控体系中获得目标数据湖的云资源用量。
本发明实施例可以按照数据存储类型和算力类型,对目标数据湖的云资源用量分类分云进行统计。例如:目标数据湖的云资源用量可以包括:在云平台A中按照高频访问数据存储进行存储的数据为10GB、按照低频访问数据存储进行存储的数据为50GB以及分析数据所需的算力机器为包月实例。在云平台B中按照高频访问数据存储进行存储的数据为5GB、按照中频访问数据存储进行存储的数据为20GB以及分析数据所需的算力机器为云函数。
S300、利用存储资源报价和数据存储占用量,确定目标数据湖在各云平台上与各数据存储类型分别对应的数据存储成本。
本发明实施例可以遍历模拟计算出目标数据湖在各云平台所提供的各数据存储类型下的数据存储占用量所需的数据存储成本。例如:假设目标数据湖包括在高频访问数据存储下的数据存储占用量为5GB、在中频访问数据存储下的数据存储占用量为10GB以及在低频访问数据存储下的数据存储占用量为20GB。若在云平台C上与高频访问数据存储对应的存储资源报价为20元每GB、与中频访问数据存储对应的存储资源报价为8元每GB以及与低频访问数据存储对应的存储资源报价为3元每GB,则可以模拟计算出目标数据湖在云平台C上与高频访问数据存储对应的数据存储成本为100元、与中频访问数据存储对应的数据存储成本为80元以及与低频访问数据存储对应的数据存储成本为60元。
S400、利用算力资源报价和需求算力资源,确定目标数据湖在各云平台上与各算力类型分别对应的算力需求成本。
本发明实施例可以遍历模拟计算出目标数据湖在各云平台所提供的各算力类型下的需求算力资源的算力需求成本。例如:假设目标数据湖分析数据所需的需求算力资源包括按量实例以及云函数,根据云平台D上与按量实例对应的算力资源报价和与云函数对应的算力资源报价,可以模拟计算出目标数据湖在云平台D上与按量实例对应的算力需求成本和与云函数对应的算力需求成本。
本发明实施例可以预先构建成本中心,将各云平台的云资源报价和目标数据湖的云资源用量汇总至成本中心,由成本中心统一进行遍历模拟计算,获得目标数据湖在各云平台上与各数据存储类型分别对应的数据存储成本和目标数据湖在各云平台上与各算力类型分别对应的算力需求成本。
S500、利用数据存储成本和算力需求成本,确定目标数据湖的数据部署方案。
本发明实施例可以利用目标数据湖在各云平台上的数据存储成本和算力需求成本,对目标数据湖的数据部署进行智能模拟调优,以获得总成本较低的数据湖部署方案。
可选的,基于图1所示方法,如图2所示,本发明实施例提供的数据湖数据部署方案确定方法的另一种实施方式的流程示意图,步骤S500可以包括:
S510、根据数据存储成本和算力需求成本,确定云资源用量在各云平台提供的数据存储类型和算力类型下的各组合结果对应的模拟运行成本。
可以理解的是,本发明实施例在获得各云平台的云资源报价和目标数据湖的云资源用量之后,可以基于云资源用量中目标数据湖在各所述数据存储类型下的数据存储占用量以及所述目标数据湖的需求算力资源,在各云平台所提供的各数据存储类型与各算力类型中进行遍历组合,获得不同的云平台上各数据存储类型和各算力类型的组合结果。
为了便于理解,此处通过举例进行说明:假设目标数据湖的云资源用量包括按照高频访问数据存储进行存储的数据以及按照中频访问数据存储进行存储的数据,在云平台E可提供高频访问数据存储a和中频访问数据存储b,云平台F可提供高频访问数据存储c和中频访问数据存储d的情况下,遍历组合后的组合结果可以包括:“第一组合结果:高频访问数据存储a;中频访问数据存储b”、“第二组合结果:高频访问数据存储a;中频访问数据存储d”、“第三组合结果:高频访问数据存储c;中频访问数据存储d”以及“第四组合结果:高频访问数据存储c;中频访问数据存储b”。假设目标数据湖的云资源用量包括按照高频访问数据存储进行存储的数据以及云函数,在云平台G可提供高频访问数据存储e和云函数f,云平台H可提供高频访问数据存储g和云函数h的情况下,遍历组合后的组合结果可以包括:“第一组合结果:高频访问数据存储e;云函数f”、“第二组合结果:高频访问数据存储e;云函数h””、“第三组合结果:高频访问数据存储g;云函数h”以及“第四组合结果:高频访问数据存储e;云函数f”。
由于已获得目标数据湖在各云平台上与各数据存储类型分别对应的数据存储成本和在各云平台上与各算力类型分别对应的算力需求成本,因此,本发明实施例可以对各个组合结果涉及的数据存储成本和算力需求成本进行相加,从而获得各组合结果对应的模拟运行成本。
S520、利用云资源用量的当前运行成本和各模拟运行成本,确定目标数据湖的数据部署方案。
其中,当前运行成本可以是目标数据湖在当前使用的云平台中的运行成本。当前运行成本可以根据目标数据湖当前的云资源用量以及在使用该云平台时确定的云资源报价确定。
本发明实施例可以将目标数据湖在当前的云资源用量下的当前运行成本、各模拟运行成本进行比较,根据比较结果确定出成本更低的数据部署方案。
可选的,基于图2所示的方法,如图3所示,本发明实施例提供的数据湖数据部署方案确定方法的另一种实施方式的流程示意图,步骤S520可以包括:
S521、根据云资源用量的当前运行成本和各模拟运行成本,分别确定各组合结果对应的第一节省成本。
其中,第一节省成本用于指示在云资源用量下组合结果对应的模拟运行成本与当前运行成本的差值。
具体的,本发明实施例可以将当前运行成本分别减去任一组合结果对应的模拟运行成本,获得该组合结果对应的第一节省成本。
S522、将第一节省成本最高的组合结果确定为目标数据湖的数据部署方案。
本发明实施例通过确定出各组合结果对应的第一节省成本,可以将第一节省成本最高的的组合结果确定为目标数据湖的数据部署方案,相对于当前运行成本,使得目标数据湖在数据部署方案下的成本更低。
可以理解的是,在实际应用中,可能会出现各组合结果对应的第一节省成本均为负数的情况,在该情况下,本发明实施例可以将目标数据湖在当前使用的云平台确定为数据部署方案,即保持目标数据湖的原数据部署不变。
需要注意的是,由于目标数据湖可能涉及到多云部署,因此目标数据湖当前使用的云平台与各组合结果之间可能涉及全部跨云平台数据迁移、部分跨云平台数据迁移或不跨云平台数据迁移。
可选的,基于图2所示的方法,如图4所示,本发明实施例提供的数据湖数据部署方案确定方法的另一种实施方式的流程示意图,步骤S520可以包括:
S523、确定云资源用量在各组合结果下对应的迁移流量成本。
在实际情况中,组合结果与目标数据湖当前使用的云平台之间可能涉及到跨云平台数据迁移。例如:目标数据湖当前使用的云平台包括云平台H和云平台I,若组合结果包括云平台J和云平台K,则涉及到跨云平台数据迁移。由于迁移过程中云资源用量的下载和上传需要耗费公网流量,因此本发明实施例可以将在各组合结果下云资源用量的下载和上传需要耗费公网流量所涉及的成本确定为迁移流量成本。
S524、根据迁移流量成本和模拟运行成本,分别确定各组合结果对应的迁移成本。
其中,迁移成本用于指示在云资源用量下组合结果对应的迁移流量成本与模拟运行成本的和值。
具体的,本发明实施例可以将任一组合结果对应的迁移流量成本和模拟运行成本相加,确定该组合结果对应的迁移成本。
S525、根据云资源用量的当前运行成本和迁移成本,分别确定各组合结果对应的第二节省成本。
其中,第二节省成本用于指示在云资源用量下组合结果对应的迁移成本与当前运行成本的差值。
具体的,本发明实施例可以将当前运行成本分别减去任一组合结果对应的迁移成本,获得该组合结果对应的第二节省成本。
S526、将第二节省成本最高的组合结果确定为目标数据湖的数据部署方案。
本发明实施例通过将组合结果对应的迁移流量成本考量进组合结果对应的第二节省成本中,使得确定出的数据部署方案的成本更低也更准确。
可以理解的是,在实际应用中,可能会出现各组合结果对应的第二节省成本均为负数的情况,在该情况下,本发明实施例可以将目标数据湖在当前使用的云平台确定为数据部署方案,即保持目标数据湖的原数据部署不变。
可选的,本发明实施例可以在确定目标数据湖的数据部署方案之后,按照数据部署方案对目标数据湖进行数据部署。
具体的,本发明实施例可以将目标数据湖中的数据从正在使用的云平台迁移至数据部署方案中涉及的云平台。
由于目标数据湖的用户请求的入口为数据湖管理节点的元数据模块,封装隐藏了云平台之间的差异性,因此目标数据湖的数据部署对用户侧无影响,改造成本为零。
随着数据湖中的数据越来越多,相应的数据存储成本和算力需求成本也越来越多,重新对数据湖进行数据部署,可以帮助企业以更低的成本对数据湖进行配置。
本发明提供的一种数据湖数据部署方案确定方法,可以获得至少一个云平台的云资源报价,云资源报价包括与至少一个数据存储类型对应的存储资源报价以及与至少一个算力类型对应的算力资源报价。获得目标数据湖的云资源用量,云资源用量包括目标数据湖中各数据存储类型的数据存储占用量以及目标数据湖在各算力类型下的需求算力资源。本发明通过云平台的云资源报价和目标数据湖的云资源用量,确定出目标数据湖在各云平台上与各数据存储类型分别对应的数据存储成本和与各算力类型分别对应的算力需求成本,进而利用数据存储成本和算力需求成本,确定出目标数据湖在当前的云资源用量下成本更低的数据部署方案。
虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
与上述方法实施例相对应,本发明实施例还提供一种数据湖数据部署方案确定装置,其结构如图5所示,该装置可以包括:云资源报价获得单元100、云资源用量获得单元200、数据存储成本确定单元300、算力需求成本确定单元400以及数据部署方案确定单元500。
云资源报价获得单元100,用于获得至少一个云平台的云资源报价,其中,云资源报价包括与数据存储类型对应的存储资源报价以及与算力类型对应的算力资源报价。
云资源用量获得单元200,用于获得目标数据湖的云资源用量,其中,云资源用量包括目标数据湖在各数据存储类型下的数据存储占用量以及目标数据湖在各算力类型下的需求算力资源。
数据存储成本确定单元300,用于利用存储资源报价和数据存储占用量,确定目标数据湖在各云平台上与各数据存储类型分别对应的数据存储成本。
算力需求成本确定单元400,用于利用算力资源报价和需求算力资源,确定目标数据湖在各云平台上与各算力类型分别对应的算力需求成本。
数据部署方案确定单元500,用于利用数据存储成本和算力需求成本,确定目标数据湖的数据部署方案。
可选的,数据部署方案确定单元500包括:模拟运行成本确定子单元和数据部署方案确定子单元。
模拟运行成本确定子单元,用于根据数据存储成本和算力需求成本,确定云资源用量在各云平台提供的数据存储类型和算力类型下的各组合结果对应的模拟运行成本。
数据部署方案确定子单元,用于利用云资源用量的当前运行成本和各模拟运行成本,确定目标数据湖的数据部署方案。
可选的,数据部署方案确定子单元,可以具体用于根据云资源用量的当前运行成本和各模拟运行成本,分别确定各组合结果对应的第一节省成本,其中,第一节省成本用于指示在云资源用量下组合结果对应的模拟运行成本与当前运行成本的差值;将第一节省成本最高的组合结果确定为目标数据湖的数据部署方案。
可选的,数据部署方案确定子单元,可以具体用于确定云资源用量在各组合结果下对应的迁移流量成本;
根据迁移流量成本和模拟运行成本,分别确定各组合结果对应的迁移成本,其中,迁移成本用于指示在云资源用量下组合结果对应的迁移流量成本与模拟运行成本的和值;
根据云资源用量的当前运行成本和迁移成本,分别确定各组合结果对应的第二节省成本,其中,第二节省成本用于指示在云资源用量下组合结果对应的迁移成本与当前运行成本的差值;
将第二节省成本最高的组合结果确定为目标数据湖的数据部署方案。
可选的,算力类型包括:包期实例、按量实例、抢占式实例、预留券实例以及云函数。
可选的,数据存储类型包括:按照数据访问频率划分的高频访问数据存储、中频访问数据存储以及低频访问数据存储。
可选的,该装置还可以包括数据部署单元。
数据部署单元,用于数据部署方案确定单元500确定目标数据湖的数据部署方案之后,按照数据部署方案对目标数据湖进行数据部署。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明提供的一种数据湖数据部署方案确定装置,可以获得至少一个云平台的云资源报价,云资源报价包括与至少一个数据存储类型对应的存储资源报价以及与至少一个算力类型对应的算力资源报价。获得目标数据湖的云资源用量,云资源用量包括目标数据湖中各数据存储类型的数据存储占用量以及目标数据湖在各算力类型下的需求算力资源。本发明通过云平台的云资源报价和目标数据湖的云资源用量,确定出目标数据湖在各云平台上与各数据存储类型分别对应的数据存储成本和与各算力类型分别对应的算力需求成本,进而利用数据存储成本和算力需求成本,确定出目标数据湖在当前的云资源用量下成本更低的数据部署方案。
所述数据湖数据部署方案确定装置包括处理器和存储器,上述云资源报价获得单元、云资源用量获得单元、数据存储成本确定单元、算力需求成本确定单元以及数据部署方案确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来通过云平台的云资源报价和目标数据湖的云资源用量,确定出目标数据湖在各云平台上与各数据存储类型分别对应的数据存储成本和与各算力类型分别对应的算力需求成本,进而利用数据存储成本和算力需求成本,确定出目标数据湖在当前的云资源用量下成本更低的数据部署方案。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述数据湖数据部署方案确定方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据湖数据部署方案确定方法。
如图6所示,本发明实施例提供了一种电子设备1000,电子设备1000包括至少一个处理器1001、以及与处理器1001连接的至少一个存储器1002、总线1003;其中,处理器1001、存储器1002通过总线1003完成相互间的通信;处理器1001用于调用存储器1002中的程序指令,以执行上述的数据湖数据部署方案确定方法。本文中的电子设备可以是服务器、PC、PAD、手机等。
本发明还提供了一种计算机程序产品,当在电子设备上执行时,适于执行初始化有数据湖数据部署方案确定方法步骤的程序。
本发明是参照根据本发明实施例的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在本发明的描述中,需要理解的是,如若涉及术语“上”、“下”、“前”、“后”、“左”和“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的位置或元件必须具有特定方位、以特定的方位构成和操作,因此不能理解为本发明的限制。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种数据湖数据部署方案确定方法,其特征在于,包括:
获得至少一个云平台的云资源报价,其中,所述云资源报价包括与数据存储类型对应的存储资源报价以及与算力类型对应的算力资源报价;
获得目标数据湖的云资源用量,其中,所述云资源用量包括所述目标数据湖在各所述数据存储类型下的数据存储占用量以及所述目标数据湖在各所述算力类型下的需求算力资源;
利用所述存储资源报价和所述数据存储占用量,确定所述目标数据湖在各所述云平台上与各所述数据存储类型分别对应的数据存储成本;
利用所述算力资源报价和所述需求算力资源,确定所述目标数据湖在各所述云平台上与各所述算力类型分别对应的算力需求成本;
利用所述数据存储成本和所述算力需求成本,确定所述目标数据湖的数据部署方案。
2.根据权利要求1所述的方法,其特征在于,所述利用所述数据存储成本和所述算力需求成本,确定所述目标数据湖的数据部署方案,包括:
根据所述数据存储成本和所述算力需求成本,确定所述云资源用量在各所述云平台提供的所述数据存储类型和所述算力类型下的各组合结果对应的模拟运行成本;
利用所述云资源用量的当前运行成本和各所述模拟运行成本,确定所述目标数据湖的数据部署方案。
3.根据权利要求2所述的方法,其特征在于,所述利用所述云资源用量的当前运行成本和各所述模拟运行成本,确定所述目标数据湖的数据部署方案,包括:
根据所述云资源用量的当前运行成本和各所述模拟运行成本,分别确定各所述组合结果对应的第一节省成本,其中,所述第一节省成本用于指示在所述云资源用量下所述组合结果对应的所述模拟运行成本与所述当前运行成本的差值;
将所述第一节省成本最高的所述组合结果确定为所述目标数据湖的数据部署方案。
4.根据权利要求2所述的方法,其特征在于,所述利用所述云资源用量的当前运行成本和各所述模拟运行成本,确定所述目标数据湖的数据部署方案,包括:
确定所述云资源用量在各所述组合结果下对应的迁移流量成本;
根据所述迁移流量成本和所述模拟运行成本,分别确定各所述组合结果对应的迁移成本,其中,所述迁移成本用于指示在所述云资源用量下所述组合结果对应的所述迁移流量成本与所述模拟运行成本的和值;
根据所述云资源用量的当前运行成本和所述迁移成本,分别确定各所述组合结果对应的第二节省成本,其中,所述第二节省成本用于指示在所述云资源用量下所述组合结果对应的所述迁移成本与所述当前运行成本的差值;
将所述第二节省成本最高的所述组合结果确定为所述目标数据湖的数据部署方案。
5.根据权利要求1所述的方法,其特征在于,所述算力类型包括:包期实例、按量实例、抢占式实例、预留券实例以及云函数。
6.根据权利要求1所述的方法,其特征在于,所述数据存储类型包括:按照数据访问频率划分的高频访问数据存储、中频访问数据存储以及低频访问数据存储。
7.根据权利要求1所述的方法,其特征在于,在所述确定所述目标数据湖的数据部署方案之后,所述方法还包括:
按照所述数据部署方案对所述目标数据湖进行数据部署。
8.一种数据湖数据部署方案确定装置,其特征在于,包括:云资源报价获得单元、云资源用量获得单元、数据存储成本确定单元、算力需求成本确定单元以及数据部署方案确定单元,
所述云资源报价获得单元,用于获得至少一个云平台的云资源报价,其中,所述云资源报价包括与数据存储类型对应的存储资源报价以及与算力类型对应的算力资源报价;
所述云资源用量获得单元,用于获得目标数据湖的云资源用量,其中,所述云资源用量包括所述目标数据湖在各所述数据存储类型下的数据存储占用量以及所述目标数据湖在各所述算力类型下的需求算力资源;
所述数据存储成本确定单元,用于利用所述存储资源报价和所述数据存储占用量,确定所述目标数据湖在各所述云平台上与各所述数据存储类型分别对应的数据存储成本;
所述算力需求成本确定单元,用于利用所述算力资源报价和所述需求算力资源,确定所述目标数据湖在各所述云平台上与各所述算力类型分别对应的算力需求成本;
所述数据部署方案确定单元,用于利用所述数据存储成本和所述算力需求成本,确定所述目标数据湖的数据部署方案。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的数据湖数据部署方案确定方法。
10.一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至7中任一项所述的数据湖数据部署方案确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210094100.XA CN114417062A (zh) | 2022-01-26 | 2022-01-26 | 一种数据湖数据部署方案确定方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210094100.XA CN114417062A (zh) | 2022-01-26 | 2022-01-26 | 一种数据湖数据部署方案确定方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114417062A true CN114417062A (zh) | 2022-04-29 |
Family
ID=81277722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210094100.XA Pending CN114417062A (zh) | 2022-01-26 | 2022-01-26 | 一种数据湖数据部署方案确定方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114417062A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115242626A (zh) * | 2022-07-21 | 2022-10-25 | 中国建设银行股份有限公司 | 云资源配置预估方法、装置、设备、存储介质及程序产品 |
-
2022
- 2022-01-26 CN CN202210094100.XA patent/CN114417062A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115242626A (zh) * | 2022-07-21 | 2022-10-25 | 中国建设银行股份有限公司 | 云资源配置预估方法、装置、设备、存储介质及程序产品 |
CN115242626B (zh) * | 2022-07-21 | 2024-04-05 | 中国建设银行股份有限公司 | 云资源配置预估方法、装置、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3087309C (en) | Blockchain-based data processing method and device | |
WO2017219874A1 (zh) | 一种资源处理方法及装置 | |
CN103281344B (zh) | 用于混合云的服务使用的集成计量的方法和系统 | |
CN106897205B (zh) | 一种测试数据生成方法及装置 | |
US8806003B2 (en) | Forecasting capacity available for processing workloads in a networked computing environment | |
WO2019205791A1 (zh) | 为多个用户标识调整流量套餐的方法及装置 | |
CN104156832A (zh) | 系统间数据核对方法及装置 | |
CN107705199B (zh) | 特征计算代码的生成方法和装置 | |
CN111383019A (zh) | 一种基于联盟链网络的交易执行方法及系统 | |
CN110489418B (zh) | 一种数据聚合方法和系统 | |
CN107392582B (zh) | 资源转移的实现方法和装置、收付款的实现方法和装置 | |
WO2019099729A1 (en) | Distributed ledger system for management of exchanges of wireless services between wireless service providers | |
CN110737425B (zh) | 一种计费平台系统的应用程序的建立方法及装置 | |
CN110781971A (zh) | 一种商户类型识别方法、装置、设备和可读介质 | |
US9699114B1 (en) | Providing use of local or private cloud infrastructure resources to public cloud providers | |
CN114548963B (zh) | 支付交互处理方法及装置 | |
CN114417062A (zh) | 一种数据湖数据部署方案确定方法及相关设备 | |
CN110533406B (zh) | 一种支付调用方法、装置及系统 | |
US20120330895A1 (en) | Transitioning application replication configurations in a networked computing environment | |
CN107194712B (zh) | 共享账户变动信息记录方法及装置、内部账户补账方法及系统 | |
CN107018158B (zh) | 一种互联网资源的筛选方法及装置 | |
US20130275265A1 (en) | Business to business integration services marketplace | |
CN109614548B (zh) | 基于业务用户数变化率的信息展示方法、装置及存储介质 | |
CN110689418A (zh) | 账单生成方法及装置 | |
CN111669341B (zh) | 互联网资源调度方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |