CN116069739A - 数据处理方法、装置、设备和系统 - Google Patents
数据处理方法、装置、设备和系统 Download PDFInfo
- Publication number
- CN116069739A CN116069739A CN202111583902.9A CN202111583902A CN116069739A CN 116069739 A CN116069739 A CN 116069739A CN 202111583902 A CN202111583902 A CN 202111583902A CN 116069739 A CN116069739 A CN 116069739A
- Authority
- CN
- China
- Prior art keywords
- storage medium
- storage
- data
- deployment
- storage media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了数据处理方法、装置、设备和系统,涉及大数据领域。控制设备用于控制计算设备执行大数据分布式处理。计算设备配置有多种部署模式的存储介质,多种部署模式的存储介质包括计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个。所述方法包括控制设备获取到大数据业务的业务请求,从多种部署模式的存储介质中确定至少一种部署模式的存储介质,向计算设备发送控制指示,指示计算设备对业务请求包括的业务数据执行大数据分布式处理中映射(map)任务,并将得到的中间数据存储到至少一种部署模式的存储介质。从而,减少用于存储中间数据而占用计算设备内存储介质的存储空间。
Description
本申请要求于2021年10月22日提交国家知识产权局、申请号为202111234307.4、申请名称为“分布式系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及大数据领域,尤其涉及一种数据处理方法、装置、设备和系统。
背景技术
大数据(big data)是需要创新的处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。通常,由多个计算设备基于映射归约(MapReduce)模型对大数据进行分布式处理。由于数据分布在不同的计算设备,执行映射(map)任务的计算设备存储map任务后得到的中间数据。执行归约(reduce)任务的计算设备可能从远端读取中间数据,这个数据交换的过程称为交换(shuffle)。目前,计算设备将中间数据存储到该计算设备内的内存或硬盘。在基于MapReduce模型对大数据进行分布式处理的场景下,导致过多地占用计算设备内存储介质的存储空间。
发明内容
本申请提供了数据处理方法、装置、设备和系统,由此降低占用计算设备内存储介质的存储空间。
第一方面,提供了一种数据处理方法,所述方法由控制设备执行,控制设备用于控制计算设备执行大数据分布式处理,计算设备配置有多种部署模式的存储介质,多种部署模式的存储介质包括计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个。所述方法包括控制设备获取到大数据业务的业务请求,从多种部署模式的存储介质中确定至少一种部署模式的存储介质,向计算设备发送控制指示,指示计算设备对业务请求包括的业务数据执行大数据分布式处理中map任务,并将得到的中间数据存储到至少一种部署模式的存储介质。
如此,控制设备可以从多种部署模式的存储介质中选择存储中间数据的存储介质,以减少用于存储中间数据而占用计算设备内存储介质(如:内存或磁盘)的存储空间,为计算设备执行map任务或reduce任务释放出更多的可用存储空间,进而提升了计算设备处理map任务或reduce任务的处理效率。
在一种可能的实现方式中,从多种部署模式的存储介质中确定至少一种部署模式的存储介质,包括:控制设备根据存储策略从多种部署模式的存储介质中确定至少一种部署模式的存储介质。存储策略用于指示依据存储介质特征选取存储介质的方法。存储介质特征包括写时延、读时延、总存储容量、可用存储容量、存取速度、中央处理器(centralprocessing unit,CPU)消耗、能耗比和可靠性中至少一个。
示例一,根据存储策略从多种部署模式的存储介质中确定至少一种部署模式的存储介质,包括:控制设备根据存储策略指示的多种部署模式的存储介质的优先级,从多种部署模式的存储介质中确定至少一种部署模式的存储介质,多种部署模式的存储介质的优先级是依据存储介质特征确定的。
示例二,根据存储策略从多种部署模式的存储介质中确定至少一种部署模式的存储介质,包括:控制设备根据用户需求和多种部署模式的存储介质的存储介质特征,从多种部署模式的存储介质中确定满足用户需求的至少一种部署模式的存储介质,用户需求用于指示与存储介质特征相关的需求。如此,控制设备从多种部署模式的存储介质中选择存储中间数据的存储介质时,基于用户对存取速度或可靠性等特征的用户需求,动态地选取满足用户需求的至少一种部署模式的存储介质,相对于采用一种部署模式的存储介质存储不同场景的中间数据,确保数据处理的性能(如:数据处理速率)和可靠性的场景需求。
其中,存储介质包括内存、硬盘、内存服务器和存储级内存(storage-class-memory,SCM)。如此,在大数据分布式处理系统中引入内存服务器和SCM,扩展了存储中间数据的存储介质,使得存储中间数据的存储介质具有更多的可能性,减少占用计算设备内存储介质的存储空间存储中间数据,提升中间数据的可靠性。
需要说明的是,存储策略以大数据业务粒度配置或大数据业务中任务粒度配置或系统全局粒度配置。
在另一种可能的实现方式中,向计算设备发送控制指示之后,方法还包括:控制设备接收计算设备发送的至少一种部署模式的存储介质中中间数据的存储位置,中间数据的存储位置用于执行reduce任务时读取中间数据。进而,控制设备接收计算设备发送的中间数据请求,中间数据请求用于中间数据所在的存储位置。控制设备向计算设备发送指示中间数据的存储位置的元数据,元数据指示了中间数据所在的存储位置。计算设备根据元数据获取中间数据。
第二方面,提供了一种数据处理方法,方法由计算设备执行,计算设备配置有多种部署模式的存储介质,计算设备连接控制设备,控制设备用于控制计算设备执行大数据分布式处理。所述方法包括计算设备根据控制设备发送的控制指示,对业务数据执行大数据分布式处理中map任务,得到中间数据,将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质。控制指示包括业务数据和至少一种部署模式的存储介质的标识,至少一种部署模式的存储介质是控制设备根据存储策略从多种部署模式的存储介质中确定得到,存储策略用于指示依据存储介质特征选取存储介质的方法。
如此,在系统中增加多种部署模式的存储介质,使得控制设备可以从多种部署模式的存储介质中选择存储中间数据的存储介质,计算设备根据控制设备的指示将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质,以减少用于存储中间数据而占用计算设备内存储介质(如:内存或磁盘)的存储空间,为计算设备执行map任务或reduce任务释放出更多的可用存储空间,提升了计算设备处理map任务或reduce任务的处理效率。
在一种可能的实现方式中,将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质,包括:若至少一种部署模式的存储介质包含一种部署模式的多个存储介质,将中间数据的多个分片数据分别存储到多个存储介质;或者,若至少一种部署模式的存储介质包含两种以上部署模式的存储介质,将中间数据的多个分片数据分别存储到两种以上部署模式的存储介质。
在另一种可能的实现方式中,多种部署模式的存储介质包含第一存储介质和第二存储介质,方法还包括:若第一存储介质的可用存储容量小于阈值,将第一存储介质的数据存入第二存储介质,第一存储介质的存取速度大于第二存储介质的存取速度。从而,将可用存储容量小于阈值的存储介质中的中间数据移出后,可以增加存储介质的可用存储容量,以便提升中间数据的处理效率,且确保中间数据能够正常写入到存储介质中。
在另一种可能的实现方式中,方法还包括:计算设备向控制设备发送多种部署模式的存储介质的可用存储容量,以便于控制设备根据存储介质的可用存储容量从多种部署模式的存储介质中确定至少一种部署模式的存储介质。
第三方面,提供了一种控制装置,所述装置包括用于执行第一方面或第一方面任一种可能设计中的数据处理方法的各个模块。
第四方面,提供了一种数据处理装置,所述装置包括用于执行第二方面或第二方面任一种可能设计中的数据处理方法的各个模块。
第五方面,提供一种控制设备,该控制设备包括至少一个处理器和存储器,存储器用于存储一组计算机指令;当处理器作为第一方面或第一方面任一种可能实现方式中的执行设备执行所述一组计算机指令时,执行第一方面或第一方面任一种可能实现方式中的数据处理方法的操作步骤。
第六方面,提供一种计算设备,该计算设备包括至少一个处理器和存储器,存储器用于存储一组计算机指令;当处理器作为第二方面或第二方面任一种可能实现方式中的执行设备执行所述一组计算机指令时,执行第二方面或第二方面任一种可能实现方式中的数据处理方法的操作步骤。
第七方面,提供一种计算机可读存储介质,包括:计算机软件指令;当计算机软件指令在计算设备中运行时,使得计算设备执行如第一方面或第一方面任意一种可能的实现方式中所述方法的操作步骤,或者,执行如第二方面或第二方面任意一种可能的实现方式中所述方法的操作步骤。
第八方面,提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算设备执行如第一方面或第一方面任意一种可能的实现方式中所述方法的操作步骤,或者,执行如第二方面或第二方面任意一种可能的实现方式中所述方法的操作步骤。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
图1为本申请实施例提供的一种大数据处理系统的架构示意图;
图2为本申请实施例提供的一种大数据分布式处理的示意图;
图3为本申请实施例提供的一种存储介质部署场景示意图;
图4为本申请实施例提供的一种三层结构的存储系统示意图;
图5为本申请实施例提供的一种写中间数据过程示意图;
图6为本申请实施例提供的一种读中间数据过程示意图;
图7为本申请实施例提供的一种控制装置的结构示意图;
图8为本申请实施例提供的一种数据处理装置的结构示意图;
图9为本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
随着互联网、物联网、网络带宽、智能终端和云计算等服务的发展,促使数据类型和数据规模以前所未有的速度发展,大数据随之产生,数据从单一处理对象转变为基础资源。大数据是一种无法在一段时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据的来源可以包括管理系统、web系统,物理系统和科学实验系统。管理系统包括事务处理系统和办公自动化系统。web系统包括互联网系统,如搜索引擎。物理系统是指关于物理对象和物理过程的系统,如实时监控、实时检测或生产调度。科学实验系统是指基于实验环境的物理系统。
根据数据结构特征对大数据进行分类,大数据包括结构化数据、非结构化数据和半结构化数据。结构化数据是指用统一的结构表示的数据,如财务系统、企业资源计划系统或客户关系管理系统等在数据库中存储的数据。非结构化数据是指字段长度可变,不易采用结构化数据来表达的数据,如音频、视频或图像等数据。半结构化数据是结构化数据和非结构化数据之间的数据,半结构化数据属于同一类集合有不同属性的数据,如邮件系统的数据。
由于大数据包含的大量数据间具有关联关系,利用数据分析的方法、模型或工具对大数据进行分析,挖掘大数据中的数据关系,利用大数据的数据关系进行预测或决策。例如,对用户购物趋势数据进行分析,向用户推送用户可能购买的物品,提高用户的购物体验。因此,大数据具有数据量大、数据增长速度快、数据类型多样和利用价值高等特征。
由于大数据的数据量非常大,单一的计算节点无法满足大数据的计算需求。通常,采用分布式文件系统(distributed file system,DFS)对大数据进行存储和管理,利用计算集群中的多个计算节点处理大数据业务。
图1为本申请实施例提供的一种大数据处理系统的架构示意图。如图1所示,大数据处理系统100包括客户端110、计算集群120和存储集群130。
存储集群130包含至少两个存储节点131。一个存储节点131包括一个或多个控制器、网卡与多个硬盘。硬盘用于存储数据。硬盘可以是磁盘或者其他类型的存储介质,例如固态硬盘或者叠瓦式磁记录硬盘等。网卡用于与计算集群120包含的计算节点121通信。控制器用于根据计算节点121发送的读/写数据请求,往硬盘中写入数据或者从硬盘中读取数据。在读写数据的过程中,控制器需要将读/写数据请求中携带的地址转换为硬盘能够识别的地址。
客户端110通过网络140与计算集群120和存储集群130进行通信。例如客户端110通过网络140向计算集群120发送大数据业务的业务请求,请求计算集群120对业务请求包含的业务数据进行分布式处理。网络140可以是指企业内部网络(如:局域网((Local AreaNetwork,LAN))或互联网(Internet)。
在一些实施例中,存储集群130基于分布式文件系统132和分布式数据库133存储和管理大数据。客户端110安装有客户端程序111,客户端110运行客户端程序111显示一种用户界面(user interface,UI),用户150操作用户界面访问分布式文件系统132和分布式数据库133获取数据,指示计算集群120处理大数据业务。客户端110指连入网络140的计算机,也可称为工作站(workstation)。不同的客户端可以共享网络上的资源(如:计算资源、存储资源)。在另一些实施例中,系统管理员160可以通过客户端110调用应用平台接口(application platform interface,API)112或命令行界面(command-line interface,CLI)接口113访问分布式文件系统132和分布式数据库133来配置系统信息等,例如本申请实施例提供的为计算节点或存储节点配置的多种部署模式的存储介质的部署信息和存储策略。
计算集群120包含至少两个计算节点121,计算节点121之间可以相互通信。计算节点121是一种计算设备,如服务器、台式计算机或者存储阵列的控制器等。客户端110提交的大数据业务可以称为作业(job)。作业可以切分为多个任务(task),由多个计算节点并行执行多个任务,所有任务结束时标志一个作业完成。任务一般是一个作业中对一部分数据或者分阶段的处理过程,所有任务经过调度并行或串行完成。在一些实施例中,计算集群120基于映射归约(MapReduce)模型134对大数据业务进行分布式处理。MapReduce模型是一种分布式编程模型,即将大数据业务进行分解为map任务和reduce任务,由多个计算节点121执行map任务,收集处理结果执行reduce任务。在一些实施例中,如图2所示,计算集群120包括控制节点122和至少两个计算节点121。控制节点和计算节点可以是独立的物理设备,则控制节点也可称为控制设备或命名节点。计算节点可以称为计算设备或数据节点。控制节点122用于管理分布式文件系统的命名空间和客户端110对分布式文件系统的访问。以及,控制节点122指示执行map任务的计算节点和执行reduce任务的计算节点。计算节点基于MapReduce模型134执行map任务得到的中间数据(或称为map数据或shuffle数据),存储中间数据。执行reduce任务的计算节点读取中间数据。可选地,存储集群130在存储数据时也可以根据MapReduce模型134对数据进行处理后存储。
本申请实施例提供一种数据处理方法,尤其是提供一种面向大数据分布式处理技术,具体提供一种从多种部署模式的存储介质中选择存储中间数据的存储介质的技术,以减少用于存储中间数据而占用计算设备内存储介质(如:内存或磁盘)的存储空间,为计算节点执行map任务或reduce任务释放出更多的可用存储空间。
多种部署模式包括本地部署模式、融合部署模式和分离部署模式。本地部署模式下的存储介质是指本地存储介质。融合部署模式的存储介质是指基于本地存储介质组成的全局存储介质。分离部署模式下的存储介质包括扩展的全局存储介质和扩展的本地存储介质。多种部署模式的存储介质包括计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个。示例地,如图3所示,为本申请实施例提供的一种存储介质部署场景示意图。N个计算节点中每个计算节点内部的存储介质310可以是指本地部署模式下的存储介质。全局存储介质320包含N个计算节点中至少两个计算节点提供的存储介质。全局存储介质是指系统中计算节点均可访问的存储介质,具有全局统一编址。应理解,全局存储介质的存储容量是由N个计算节点的存储介质中的部分存储容量,N个计算节点的存储介质中预留的存储容量供计算节点处理大数据业务使用。
扩展的全局存储介质330是指与系统中N个计算节点连接的新增存储介质,该新增存储介质具有全局统一编址,N个计算节点均可以访问的扩展的全局存储介质330。扩展的本地存储介质340是指系统中一个计算节点连接的新增存储介质,该新增存储介质仅由与其连接的计算节点访问。
需要说明的是,存储器是用于存储程序和各种数据的记忆器件。存储器的容量越大,存取速度越慢。反之,存储器的容量越小,存取速度越快。存取速度是指对存储器写入数据或读取数据时的数据传输速度。存取速度也可以称为读写速度。依据存储容量和存取速度可以将存储器划分为不同层级。
示例地,图4为本申请实施例提供的一种三层结构的存储系统示意图。从第一层至第三层,存储容量逐级增加,存取速度逐级降低,成本逐级减少。如图4所示,第一层级包含位于中央处理器(central processing unit,CPU)内的寄存器411、一级缓存412、二级缓存413和三级缓存414。第二层级包含的存储器可以作为计算机系统的主存储器。例如,动态随机存取存储器(Dynamic Random Access Memory,DRAM)421,双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)422,存储级内存(storage-class-memory,SCM)423。主存储器可以简称为主存或内存,即与CPU交换信息的存储器。第三层级包含的存储器可以作为计算机系统的辅助存储器。例如,网络存储器431,固态驱动器(Solid State Disk或Solid State Drive,SSD)432,硬盘驱动器(Hard Disk Drive,HDD)433。辅助存储器可以简称为辅存或外存。相对主存,外存的存储容量大,存取速度慢。可见,距离CPU越近的存储器,容量越小、存取速度越快、带宽越大、延迟越低。因此,第三层级包含的存储器存储CPU不经常访问的数据,提高数据的可靠性。第二层级包含的存储器可以作为缓存设备,用于存储CPU经常访问的数据,显著地改善系统的访问性能。
本申请实施例所述的在多种部署模式下的存储介质包括内存、硬盘、内存服务器和SCM。示例地,如表1所示,本申请实施例提供的多种部署模式的存储介质。
表1
由表1可知,本地存储介质包括内存和硬盘,内存的存取速度高于硬盘的存取速度,内存的存储容量低于硬盘的存储容量。基于本地的存储介质组成的全局存储介质包括DRAM和SCM,DRAM的存取速度高于SCM的存取速度。扩展的全局存储介质和扩展的本地存储介质均包含内存服务器和高性能存储(high performance storage,HPS)。不同的存储介质具有不同的存储介质特征。存储介质特征包括写时延、读时延、总存储容量、存取速度、CPU消耗、能耗比和可靠性中至少一个。写时延是指计算节点121将中间数据写入存储介质的时延。读时延是指计算节点121从存储介质读取中间数据的时延。存储容量是指存储介质的可存储数据的总存储容量。存取速度是指计算节点121对存储介质进行读写操作的速度。CPU消耗是指计算节点121向存储介质写入中间数据或从存储介质读取中间数据使用计算节点121的CPU的占用率。能耗比是指单位时间内所消耗的能量(如电能)。可靠性是指存储介质存储数据的持久程度。表1中的多种部署模式的存储介质只是举例说明,在实际应用中,可以根据业务需求自行配置多种部署模式的存储介质。
下面将结合附图对本申请实施例提供的从多种部署模式的存储介质中选择存储中间数据的存储介质的实施方式进行详细描述。
图5为本申请实施例提供的一种数据处理方法的流程示意图。在这里以客户端110和计算集群120为例进行说明。计算集群120包括控制节点122和至少两个计算节点121,控制节点122用于控制计算节点121执行大数据分布式处理,计算节点121配置有多种部署模式的存储介质。如图5所示,该方法包括以下步骤。
S510、控制节点122接收客户端110发送的大数据业务的业务请求。
客户端110响应用户操作,向控制节点122发送大数据业务的业务请求。用户操作可以是指用户操作大数据用户界面提交大数据业务的操作。控制节点122可以通过局域网或互联网接收客户端110发送的大数据业务的业务请求。业务请求可以包括业务标识和业务数据。业务标识用于唯一指示一个大数据业务。业务数据可以是计算节点进行大数据分布式处理的数据或指示待处理数据的标识数据。
大数据业务包括数据分析业务、数据查询业务和数据修改业务等。例如,大数据业务是指分析客户的个人数据和购买行为数据来描绘用户画像对客户进行分类,使得可以向特定客户推荐针对性的产品或优惠产品,提升客户满意度,稳固客户关系等。又如,大数据业务是指分析产品的历史销售量预测未来的销售量,发现销售量下降原因或销售量上升原因,推荐提升销售量的建设性建议。
S520、控制节点122从多种部署模式的存储介质中确定至少一种部署模式的存储介质。
控制节点122根据存储策略从多种部署模式的存储介质中确定至少一种部署模式的存储介质。例如,至少一种部署模式的存储介质包含全局存储介质和扩展的全局存储介质。存储策略用于指示依据存储介质特征选取存储介质的方法。
在一些实施例中,控制节点122配置有依据存储介质特征确定的多种部署模式的存储介质的优先级。
例如,多种部署模式的存储介质的优先级是依据存储介质的存取速度确定的。全局存储介质的存取速度高于内存的存取速度,内存的存取速度高于硬盘的存取速度,硬盘的存取速度高于扩展的本地存储介质的存取速度,扩展的本地存储介质的存取速度高于扩展的全局存储介质的存取速度。表1所示的8种存储介质中存储介质(3)的优先级最高,存储介质的优先级从高到低依次为DRAM的优先级、SCM的优先级、内存的优先级、硬盘的优先级、内存服务器的优先级、高性能存储的优先级。
又如,多种部署模式的存储介质的优先级是依据部署模式的优先级确定的。本地部署模式的优先级高于融合部署模式的优先级,融合部署模式的优先级高于分离部署模式的优先级。示例地,表1所示的8种存储介质中存储介质(1)的优先级最高,优先级依次降低至存储介质(8),即存储介质的优先级从高到低依次为内存的优先级、硬盘的优先级、DRAM的优先级、SCM的优先级、内存服务器的优先级、高性能存储的优先级。可选地,融合部署模式的优先级高于本地部署模式的优先级。本地部署模式的优先级高于分离部署模式的优先级。表1所示的8种存储介质中存储介质(3)的优先级最高,存储介质的优先级从高到低依次为DRAM的优先级、SCM的优先级、内存的优先级、硬盘的优先级、内存服务器的优先级、高性能存储的优先级。
又如,多种部署模式的存储介质的优先级可以是依据多种存储介质特征综合确定的。多种部署模式的存储介质的优先级是依据部署模式的优先级确定的。对于同一种部署模式下的存储介质的优先级可以依据存储介质的存取速度确定的。表1所示的8种存储介质中存储介质(1)的优先级最高,优先级依次降低至存储介质(8)。
控制节点122根据存储策略指示的多种部署模式的存储介质的优先级,从多种部署模式的存储介质中确定至少一种部署模式的存储介质。示例地,存储介质特征还可以包括可用存储容量。可用存储容量是指存储介质的存储容量减去已使用的存储容量得到的剩余存储容量。控制节点122根据多种部署模式的存储介质的优先级,从最高优先级的存储介质开始,判断最高优先级的存储介质的可用存储容量是否大于阈值,若最高优先级的存储介质的可用存储容量大于阈值,表示最高优先级的存储介质有多余的存储空间存储中间数据,则选取该最高优先级的存储介质存储中间数据;若最高优先级的存储介质的可用存储容量小于或等于阈值,表示最高优先级的存储介质没有多余的存储空间存储中间数据,则判断次高优先级的存储介质的可用存储容量是否大于阈值,依次遍历多种部署模式的存储介质,最终从多种部署模式的存储介质中确定至少一种部署模式的存储介质。其中,控制节点122依据部署模式的优先级选取存储介质时,至少一种部署模式的存储介质可以包含一种部署模式的多个存储介质。
在另一些实施例中,控制节点122根据用户需求和多种部署模式的存储介质的存储介质特征,从多种部署模式的存储介质中确定满足用户需求的至少一种部署模式的存储介质,用户需求用于指示与存储介质特征相关的需求。
例如,控制节点122配置有多种部署模式的存储介质的存储介质特征。业务请求包含用户需求,用户需求指示存取速度范围或者一个具体的存取速度,控制节点122从多种部署模式的存储介质中确定满足用户需求的至少一种部署模式的存储介质。比如用户需求指示内存的存取速度。控制节点122从多种部署模式的存储介质中确定本地存储介质或基于本地存储介质组成的全局存储介质,比如内存、DRAM和SCM中至少一种。
又如,控制节点122配置有存储介质和客户等级的关联关系。业务请求包含用户需求,用户需求指示第一客户等级。控制节点122根据第一客户等级从关联关系中确定与第一客户等级关联的存储介质,确定与第一客户等级关联的存储介质用于存储中间数据。
如此,控制节点122从多种部署模式的存储介质中选择存储中间数据的存储介质时,基于用户对存取速度或可靠性等特征的用户需求,动态地选取满足用户需求的至少一种部署模式的存储介质,相对于采用一种部署模式的存储介质存储不同场景的中间数据,确保数据处理的性能和可靠性的场景需求。
可选地,控制节点122还可以从满足用户需求的至少一种部署模式的存储介质中选取可用存储容量大于阈值的存储介质作为存储中间数据的存储介质。
需要说明的是,在实际应用中,可以根据业务需求、场景需求或用户需求等自行设置存储策略,上述对存储策略的阐述只是举例说明。例如,存储策略还可以是指数据本地化偏好,即优先将中间数据存储到本地存储介质。又如,存储策略还可以是指按照应用对性能和成本的权衡选择性能优先、存储容量优先、成本优先等。
在控制节点122使用存储策略选取存储中间数据的存储介质之前,即执行S520之前,可以预先配置存储策略和多种部署模式的存储介质的配置信息。本申请实施例提供的存储策略以大数据业务粒度配置或大数据业务中任务粒度配置或系统全局粒度配置,则控制节点122可以在处理大数据业务或处理大数据业务中任务或处理系统全局的任务中,选取用于存储中间数据的存储介质时使用存储策略。
另外,控制节点122可以选择计算集群120中空闲的计算节点121执行map任务,或基于均衡策略从计算集群120中选择计算节点121执行map任务。
S530、控制节点122向至少一个计算节点121发送控制指示。
控制节点122可以将大数据业务分为多个map任务,确定执行每个map任务的计算节点121,以及根据S520所述的方法确定执行每个map任务的计算节点121存储中间数据所使用的存储介质。
控制节点122向至少一个执行map任务的计算节点121发送控制指示,控制指示用于指示计算节点121对业务数据执行大数据分布式处理中map任务,并将得到的中间数据存储到至少一种部署模式的存储介质。控制指示可以包括业务数据和至少一种部署模式的存储介质的标识。
S540、计算节点121根据控制节点122发送的控制指示,对业务数据执行大数据分布式处理中map任务,得到中间数据。
S550、计算节点121将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质。
关于至少一种部署模式的存储介质的解释可以参考上述S520的阐述,不予赘述。计算节点121可以通过聚合(gather)接口将中间数据写入至少一种部署模式的存储介质。
可选地,多种部署模式的存储介质可以配置不同的访问接口,计算节点121可以调用存储介质相应的访问接口向存储介质写入中间数据。例如,计算节点121调用全局存储介质的访问接口向全局存储介质写入中间数据。又如,计算节点121调用扩展的全局存储介质的访问接口向扩展的全局存储介质写入中间数据。
若至少一种部署模式的存储介质包含一种部署模式的多个存储介质,将中间数据的多个分片数据分别存储到多个存储介质,例如,一种部署模式的多个存储介质包括图3所示的N个计算节点中的存储介质310。或者,若至少一种部署模式的存储介质包含两种以上部署模式的存储介质,将中间数据的多个分片数据分别存储到两种以上部署模式的存储介质,例如,两种以上部署模式的存储介质包括图3所示的全局存储介质320和扩展的全局存储介质330。
S560、计算节点121向控制节点122发送在至少一种部署模式的存储介质中中间数据的存储位置。
计算节点121将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质,生成元数据,元数据指示了中间数据的存储位置。计算节点121向控制节点122发送元数据,以便于控制节点122指示执行reduce任务的计算节点121读取中间数据,例如,如图6所示,计算节点121执行S570和控制节点122执行S580。
S570、计算节点121向控制节点122发送中间数据请求。
中间数据请求用于中间数据所在的存储位置。例如,中间数据请求包含业务标识或对象标识,对象标识用于指示需要获取数据的标识。
S580、控制节点122向计算节点121发送指示中间数据的存储位置的元数据。
S590、计算节点121根据元数据获取中间数据。
计算节点121根据中间数据的存储位置通过聚合(gather)接口获取中间数据,根据中间数据执行reduce任务。若中间数据存储在多个存储介质上,计算节点121从多个存储介质上获取中间数据的分片数据。
需要说明的是,执行map任务的计算节点和执行reduce任务的计算节点可以是不同的计算节点。
本申请实施例提供的数据处理方法,将存储中间数据的存储介质的单一部署模式扩展到多种部署模式,实现了存储中间数据的存储位置的扩展;与此同时,根据业务场景要求,灵活地配置及选择合适的存储策略,达到性能,性价比,可靠性,能耗的平衡。
计算节点121还用于监控可访问的存储介质的资源使用情况(如:可用存储容量),记录中间数据在存储介质中的分布,调配多种部署模式的存储介质存储的中间数据。例如,若第一存储介质的可用存储容量小于或等于阈值,执行S5100,计算节点121将第一存储介质的数据存入第二存储介质。第一存储介质的存取速度大于第二存储介质的存取速度。
若第一存储介质的可用存储容量大于阈值,执行S5110,计算节点121将移出的数据从第而存储介质的数据存入第一存储介质。第一存储介质的存取速度大于第二存储介质的存取速度。例如,若第一存储介质的可用存储容量小于或等于存储容量的90%,执行S5100;若第一存储介质的可用存储容量大于存储容量的70%,执行S5110。
需要说明的是,计算节点121可以异步执行S520,以及S5100和S5110,即计算节点121可以使用不同的处理器核执行S520、以及S5100和S5110。从而,在计算节点121执行S520之前,将可用存储容量小于阈值的存储介质中的中间数据移出后,可以增加存储介质的可用存储容量,以便提升中间数据的处理效率,且确保中间数据能够正常写入到存储介质中。
在一些实施例中,计算节点121还可以根据中间数据的优先级移出中间数据。例如,中间数据的优先级可以依据中间数据所属分区的分区标识确定的。依据分区标识从小到大的顺序确定中间数据的优先级,则越小的分区标识对应的中间数据越容易移出到存取速度较慢的存储介质,越小的分区标识对应的中间数据越容易移入到存取速度较快的存储介质。
从而,计算节点121执行reduce任务时,能够更大概率从较快的存储介质中读取中间数据,尽量发挥出在较快的存储介质上完成shuffle的性能优势。
本申请实施例对接受移出的数据的存储介质不予限定。例如,从本地存储介质搬移到基于本地存储介质组成的全局存储介质、扩展的全局存储介质或扩展的本地存储介质。又如,从内存搬移到硬盘。又如,从DRAM搬移到硬盘。
计算节点121还可以执行S5120,即计算节点121向控制节点122发送多种部署模式的存储介质的可用存储容量,以便于控制节点122根据存储介质的可用存储容量从多种部署模式的存储介质中确定至少一种部署模式的存储介质。
可以理解的是,为了实现上述实施例中的功能,计算设备包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本申请中所公开的实施例描述的各示例的单元及方法步骤,本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用场景和设计约束条件。
上文中结合图1至图6,详细描述了根据本实施例所提供的数据处理方法,下面将结合图7和图8,描述根据本实施例所提供的控制装置和数据处理装置。
图7为本实施例提供的可能的控制装置的结构示意图。这些控制装置可以用于实现上述方法实施例中控制设备或控制节点的功能,因此也能实现上述方法实施例所具备的有益效果。在本实施例中,该控制装置可以是如图5所示的控制节点122,还可以是应用于服务器的模块(如芯片)。
如图7所示,控制装置700包括通信模块710、决策模块720、配置模块730和存储模块740。控制装置700用于实现上述图5中所示的方法实施例中控制节点122的功能。
通信模块710,用于获取大数据业务的业务请求,业务请求包括业务数据;以及,向计算设备发送控制指示,控制指示用于指示计算设备对业务数据执行大数据分布式处理中map任务,并将得到的中间数据存储到至少一种部署模式的存储介质。例如,通信模块710用于执行图5中S510和S530。
决策模块720,用于从多种部署模式的存储介质中确定至少一种部署模式的存储介质,多种部署模式的存储介质包括计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个。例如,决策模块720用于执行图5中S520。
配置模块730用于配置多种部署模式的存储介质和存储策略。存储模块740用于存储多种部署模式和存储策略,以便于决策模块720根据存储策略从多种部署模式的存储介质中确定至少一种部署模式的存储介质。存储模块740还用于存储元数据,元数据指示了中间数据的存储位置。通信模块710,还用于向计算设备发送元数据,以便于控制设备指示执行reduce任务的计算设备读取中间数据。例如,通信模块710用于执行图5中S580。
可选地,决策模块720具体用于根据存储策略指示的多种部署模式的存储介质的优先级,从多种部署模式的存储介质中确定至少一种部署模式的存储介质,多种部署模式的存储介质的优先级是依据存储介质特征确定的。
可选地,决策模块720具体用于根据用户需求和多种部署模式的存储介质的存储介质特征,从多种部署模式的存储介质中确定满足用户需求的至少一种部署模式的存储介质,用户需求用于指示与存储介质特征相关的需求。
图8为本实施例提供的可能的数据处理装置的结构示意图。这些数据处理装置可以用于实现上述方法实施例中计算设备或计算节点的功能,因此也能实现上述方法实施例所具备的有益效果。在本实施例中,该数据处理装置可以是如图5所示的计算节点121,还可以是应用于服务器的模块(如芯片)。
如图8所示,数据处理装置800包括通信模块810、数据处理模块820和存储模块830。数据处理装置800用于实现上述图5中所示的方法实施例中计算节点121的功能。
通信模块810用于接收控制设备发送的控制指示,控制指示包括业务数据和至少一种部署模式的存储介质的标识,至少一种部署模式的存储介质是控制设备根据存储策略从多种部署模式的存储介质中确定得到,存储策略用于指示依据存储介质特征选取存储介质的方法。
数据处理模块820,用于根据控制指示对业务数据执行大数据分布式处理中map任务,得到中间数据,将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质。例如,数据处理模块820用于执行图5中S540和S550。
存储模块830用于存储多种部署模式的存储介质的可用存储容量,以便于向控制设备发送多种部署模式的存储介质的可用存储容量。例如,通信模块810用于执行图5中S560。
存储模块830用于存储元数据,元数据指示了中间数据所在的存储位置。以便于向控制设备发送元数据,使得执行reduce任务的计算设备从控制设备获取元数据读取中间数据。
数据处理模块820具体用于若至少一种部署模式的存储介质包含一种部署模式的多个存储介质,将中间数据的多个分片数据分别存储到多个存储介质;或者,若至少一种部署模式的存储介质包含两种以上部署模式的存储介质,将中间数据的多个分片数据分别存储到两种以上部署模式的存储介质。
数据处理模块820还用于若第一存储介质的可用存储容量小于阈值,将第一存储介质的数据存入第二存储介质,第一存储介质的存取速度大于第二存储介质的存取速度。
可选地,通信模块810还用于发送中间数据请求。例如,通信模块810用于执行图6中S570。
可选地,数据处理模块820还用于根据元数据获取中间数据。例如,数据处理模块820用于执行图6中S590。
可选地,数据处理模块820还用于监控可访问的存储介质的资源使用情况(如:可用存储容量),记录中间数据在存储介质中的分布,调配多种部署模式的存储介质中存储的中间数据。例如,数据处理模块820用于执行图6中S5100和S5110。
可选地,通信模块810还用于发送多种部署模式的存储介质的可用存储容量。例如,通信模块810用于执行图6中S5120。
应理解的是,本申请实施例的控制装置700或数据处理装置800可以通过专用集成电路(application-specific integrated circuit,ASIC)实现,或可编程逻辑器件(programmable logic device,PLD)实现,上述PLD可以是复杂程序逻辑器件(complexprogrammable logical device,CPLD),现场可编程门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。也可以通过软件实现图5或图6所示的数据处理方法时,控制装置700及其各个模块也可以为软件模块,数据处理装置800及其各个模块也可以为软件模块。
根据本申请实施例的控制装置700或数据处理装置800可对应于执行本申请实施例中描述的方法,并且控制装置700或数据处理装置800中的各个单元的上述和其它操作和/或功能分别为了实现图5或图6中的各个方法的相应流程,为了简洁,在此不再赘述。
图9为本实施例提供的一种计算设备900的结构示意图。如图所示,计算设备900包括处理器910、总线920、存储器930、通信接口940和内存单元950(也可以称为主存(mainmemory)单元)。处理器910、存储器930、内存单元950和通信接口940通过总线920相连。
应理解,在本实施例中,处理器910可以是CPU,该处理器910还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
处理器还可以是图形处理器(graphics processing unit,GPU)、神经网络处理器(neural network processing unit,NPU)、微处理器、ASIC、或一个或多个用于控制本申请方案程序执行的集成电路。
通信接口940用于实现计算设备900与外部设备或器件的通信。在本实施例中,计算设备900用于实现图5所示的控制节点122的功能时,通信接口940用于发送控制指示,指示计算节点121对业务数据执行大数据分布式处理中map任务,并将得到的中间数据存储到至少一种部署模式的存储介质。计算设备900用于实现图5或图6所示的计算节点121的功能时,通信接口940用于接收控制指示,以及向控制节点122发送多种部署模式的存储介质的可用存储容量。
总线920可以包括一通路,用于在上述组件(如处理器910、内存单元950和存储器930)之间传送信息。总线920除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线920。总线920可以是快捷外围部件互连标准(Peripheral Component Interconnect Express,PCIe)总线,或扩展工业标准结构(extended industry standard architecture,EISA)总线、统一总线(unified bus,Ubus或UB)、计算机快速链接(compute express link,CXL)、缓存一致互联协议(cache coherent interconnect for accelerators,CCIX)等。总线920可以分为地址总线、数据总线、控制总线等。
作为一个示例,计算设备900可以包括多个处理器。处理器可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的计算单元。在本实施例中,计算设备900用于实现图5所示的控制节点122的功能时,处理器910可以调用存储器930存储的存储策略,根据存储策略从多种部署模式的存储介质中确定至少一种部署模式的存储介质。计算设备900用于实现图5所示的计算节点121的功能时,处理器910可以根据控制节点122发送的控制指示,对业务数据执行大数据分布式处理中map任务,得到中间数据,将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质。
值得说明的是,图9中仅以计算设备900包括1个处理器910和1个存储器930为例,此处,处理器910和存储器930分别用于指示一类器件或设备,具体实施例中,可以根据业务需求确定每种类型的器件或设备的数量。
内存单元950可以对应上述方法实施例中用于存储多种部署模式和存储策略等信息的存储介质。内存单元950可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
存储器930可以对应上述方法实施例中用于存储计算机指令、存储策略等信息的存储介质,例如,磁盘,如机械硬盘或固态硬盘。
上述计算设备900可以是一个通用设备或者是一个专用设备。例如,计算设备900可以是边缘设备(例如,携带具有处理能力芯片的盒子)等。可选地,计算设备900也可以是服务器或其他具有计算能力的设备。
应理解,根据本实施例的计算设备900可对应于本实施例中的控制装置700或数据处理装置800,并可以对应于执行根据图5或图6中任一方法中的相应主体,并且控制装置700或数据处理装置800中的各个模块的上述和其它操作和/或功能分别为了实现图5或图6中的各个方法的相应流程,为了简洁,在此不再赘述。
本实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于计算设备中。当然,处理器和存储介质也可以作为分立组件存在于计算设备中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (23)
1.一种数据处理方法,其特征在于,所述方法由控制设备执行,所述控制设备用于控制计算设备执行大数据分布式处理,所述计算设备配置有多种部署模式的存储介质,所述方法包括:
获取大数据业务的业务请求,所述业务请求包括业务数据;
从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质,所述多种部署模式的存储介质包括所述计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个;
向所述计算设备发送控制指示,所述控制指示用于指示所述计算设备对所述业务数据执行大数据分布式处理中映射map任务,并将得到的中间数据存储到所述至少一种部署模式的存储介质。
2.根据权利要求1所述的方法,其特征在于,从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质,包括:
根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,所述存储策略用于指示依据存储介质特征选取存储介质的方法,所述存储介质特征包括写时延、读时延、总存储容量、可用存储容量、存取速度、中央处理器CPU消耗、能耗比和可靠性中至少一个。
3.根据权利要求2所述的方法,其特征在于,所述根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,包括:
根据所述存储策略指示的所述多种部署模式的存储介质的优先级,从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,所述多种部署模式的存储介质的优先级是依据所述存储介质特征确定的。
4.根据权利要求2所述的方法,其特征在于,所述根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,包括:
根据用户需求和所述多种部署模式的存储介质的存储介质特征,从所述多种部署模式的存储介质中确定满足所述用户需求的至少一种部署模式的存储介质,所述用户需求用于指示与所述存储介质特征相关的需求。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述存储介质包括内存、硬盘、内存服务器和存储级内存SCM。
6.根据权利要求1-5中任一项所述的方法,其特征在于,向所述计算设备发送控制指示之后,所述方法还包括:
接收所述计算设备发送的所述至少一种部署模式的存储介质中所述中间数据的存储位置,所述中间数据的存储位置用于执行归约reduce任务时读取所述中间数据。
7.一种数据处理方法,其特征在于,所述方法由计算设备执行,所述计算设备配置有多种部署模式的存储介质,所述计算设备连接控制设备,所述控制设备用于控制所述计算设备执行大数据分布式处理,所述方法包括:
根据所述控制设备发送的控制指示,对业务数据执行大数据分布式处理中映射map任务,得到中间数据,所述控制指示包括所述业务数据和所述至少一种部署模式的存储介质的标识,所述至少一种部署模式的存储介质是所述控制设备根据存储策略从所述多种部署模式的存储介质中确定得到,所述存储策略用于指示依据存储介质特征选取存储介质的方法;
将所述中间数据存储到所述至少一种部署模式的存储介质的标识指示的存储介质。
8.根据权利要求7所述的方法,其特征在于,将所述中间数据存储到所述至少一种部署模式的存储介质的标识指示的存储介质,包括:
若所述至少一种部署模式的存储介质包含一种部署模式的多个存储介质,将所述中间数据的多个分片数据分别存储到所述多个存储介质;
或者,若所述至少一种部署模式的存储介质包含两种以上部署模式的存储介质,将所述中间数据的多个分片数据分别存储到所述两种以上部署模式的存储介质。
9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
若第一存储介质的可用存储容量小于阈值,将所述第一存储介质的数据存入第二存储介质,所述第一存储介质的存取速度大于所述第二存储介质的存取速度。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
向所述控制设备发送所述多种部署模式的存储介质的可用存储容量。
11.一种控制装置,其特征在于,所述控制装置用于控制计算设备执行大数据分布式处理,所述计算设备配置有多种部署模式的存储介质,所述装置包括:
通信模块,用于获取大数据业务的业务请求,所述业务请求包括业务数据;
决策模块,用于从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质,所述多种部署模式的存储介质包括所述计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个;
所述通信模块,还用于向所述计算设备发送控制指示,所述控制指示用于指示所述计算设备对所述业务数据执行大数据分布式处理中映射map任务,并将得到的中间数据存储到所述至少一种部署模式的存储介质。
12.根据权利要求11所述的装置,其特征在于,所述决策模块从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质时,具体用于:
根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,所述存储策略用于指示依据存储介质特征选取存储介质的方法,所述存储介质特征包括写时延、读时延、总存储容量、可用存储容量、存取速度、中央处理器CPU消耗、能耗比和可靠性中至少一个。
13.根据权利要求12所述的装置,其特征在于,所述决策模块根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质时,具体用于:
根据所述存储策略指示的所述多种部署模式的存储介质的优先级,从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,所述多种部署模式的存储介质的优先级是依据所述存储介质特征确定的。
14.根据权利要求12所述的装置,其特征在于,所述决策模块根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质时,具体用于:
根据用户需求和所述多种部署模式的存储介质的存储介质特征,从所述多种部署模式的存储介质中确定满足所述用户需求的至少一种部署模式的存储介质,所述用户需求用于指示与所述存储介质特征相关的需求。
15.根据权利要求11-14中任一项所述的装置,其特征在于,所述存储介质包括内存、硬盘、内存服务器和存储级内存SCM。
16.根据权利要求11-15中任一项所述的装置,其特征在于,
所述通信模块,还用于接收所述计算设备发送的所述至少一种部署模式的存储介质中所述中间数据的存储位置,所述中间数据的存储位置用于执行归约reduce任务时读取所述中间数据。
17.一种数据处理装置,其特征在于,所述数据处理装置配置有多种部署模式的存储介质,所述装置包括:
通信模块,用于接收控制设备发送的控制指示,所述控制指示包括业务数据和至少一种部署模式的存储介质的标识,所述至少一种部署模式的存储介质是所述控制设备根据存储策略从所述多种部署模式的存储介质中确定得到,所述存储策略用于指示依据存储介质特征选取存储介质的方法;
数据处理模块,用于根据所述控制指示对所述业务数据执行大数据分布式处理中映射map任务,得到中间数据,将所述中间数据存储到所述至少一种部署模式的存储介质的标识指示的存储介质。
18.根据权利要求17所述的装置,其特征在于,所述数据处理模块将所述中间数据存储到所述至少一种部署模式的存储介质的标识指示的存储介质时,具体用于:
若所述至少一种部署模式的存储介质包含一种部署模式的多个存储介质,将所述中间数据的多个分片数据分别存储到所述多个存储介质;
或者,若所述至少一种部署模式的存储介质包含两种以上部署模式的存储介质,将所述中间数据的多个分片数据分别存储到所述两种以上部署模式的存储介质。
19.根据权利要求17或18所述的装置,其特征在于,
所述数据处理模块,还用于若第一存储介质的可用存储容量小于阈值,将所述第一存储介质的数据存入第二存储介质,所述第一存储介质的存取速度大于所述第二存储介质的存取速度。
20.根据权利要求19所述的装置,其特征在于,
所述通信模块,还用于向所述控制设备发送所述多种部署模式的存储介质的可用存储容量。
21.一种控制设备,其特征在于,所述控制设备包括存储器和至少一个处理器,所述存储器用于存储一组计算机指令;当所述处理器执行所述一组计算机指令时,执行上述权利要求1-6中任一项所述的方法的操作步骤。
22.一种计算设备,其特征在于,所述计算设备包括存储器、至少一个处理器和显示器,所述存储器用于存储一组计算机指令;当所述处理器执行所述一组计算机指令时,执行上述权利要求7-10中任一项所述的方法的操作步骤。
23.一种系统,其特征在于,所述系统包括如权利要求21所述的控制设备和如权利要求22所述的计算设备,所述控制设备用于执行上述权利要求1-6中任一项所述的方法的操作步骤,所述计算设备用于执行上述权利要求7-10中任一项所述的方法的操作步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2022/125921 WO2023066248A1 (zh) | 2021-10-22 | 2022-10-18 | 数据处理方法、装置、设备和系统 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111234307 | 2021-10-22 | ||
CN2021112343074 | 2021-10-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116069739A true CN116069739A (zh) | 2023-05-05 |
Family
ID=86177567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111583902.9A Pending CN116069739A (zh) | 2021-10-22 | 2021-12-22 | 数据处理方法、装置、设备和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116069739A (zh) |
-
2021
- 2021-12-22 CN CN202111583902.9A patent/CN116069739A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9197703B2 (en) | System and method to maximize server resource utilization and performance of metadata operations | |
US9092266B2 (en) | Scalable scheduling for distributed data processing | |
US8631410B2 (en) | Scheduling jobs in a cluster having multiple computing nodes by constructing multiple sub-cluster based on entry and exit rules | |
US20150295970A1 (en) | Method and device for augmenting and releasing capacity of computing resources in real-time stream computing system | |
CN107515784B (zh) | 一种在分布式系统中计算资源的方法与设备 | |
US9870269B1 (en) | Job allocation in a clustered environment | |
US10356150B1 (en) | Automated repartitioning of streaming data | |
CN111381928B (zh) | 一种虚拟机迁移方法、云计算管理平台和存储介质 | |
US11157323B2 (en) | Multiple metric based load prediction and resource allocation in an active stream processing job | |
CN103905517A (zh) | 一种数据存储方法及设备 | |
Ahmed et al. | A hybrid and optimized resource scheduling technique using map reduce for larger instruction sets | |
WO2023193814A1 (zh) | 融合系统的数据处理方法、装置、设备和系统 | |
CN115344358A (zh) | 资源调度方法、装置和管理节点 | |
CN116932196A (zh) | 融合系统的数据处理方法、装置、设备和系统 | |
US11336519B1 (en) | Evaluating placement configurations for distributed resource placement | |
US20230155958A1 (en) | Method for optimal resource selection based on available gpu resource analysis in large-scale container platform | |
CN109324886A (zh) | 集群资源调度方法和装置 | |
CN116069739A (zh) | 数据处理方法、装置、设备和系统 | |
WO2023066248A1 (zh) | 数据处理方法、装置、设备和系统 | |
CN116932156A (zh) | 一种任务处理方法、装置及系统 | |
Chai et al. | Profit-oriented task scheduling algorithm in Hadoop cluster | |
EP3599547B1 (en) | Elastic storage volume type selection and optimization engine for public cloud environments | |
CN114625474A (zh) | 容器迁移方法、装置、电子设备及存储介质 | |
WO2024036940A1 (zh) | 一种容器管理方法及相关设备 | |
US11381468B1 (en) | Identifying correlated resource behaviors for resource allocation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |