CN106202152A - 一种云平台的数据处理方法及系统 - Google Patents

一种云平台的数据处理方法及系统 Download PDF

Info

Publication number
CN106202152A
CN106202152A CN201610463997.3A CN201610463997A CN106202152A CN 106202152 A CN106202152 A CN 106202152A CN 201610463997 A CN201610463997 A CN 201610463997A CN 106202152 A CN106202152 A CN 106202152A
Authority
CN
China
Prior art keywords
block file
data
cloud platform
storage position
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610463997.3A
Other languages
English (en)
Other versions
CN106202152B (zh
Inventor
张俊雷
王帅
杨勇涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201610463997.3A priority Critical patent/CN106202152B/zh
Publication of CN106202152A publication Critical patent/CN106202152A/zh
Application granted granted Critical
Publication of CN106202152B publication Critical patent/CN106202152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云平台的数据处理方法及系统,该方法包括:将云平台中的数据流分成多个块文件;将各块文件分别进行存储,并保存各块文件的存储位置;根据各块文件的存储位置,读取并执行相应的任务处理。由于将数据流分成了多个块文件,使得云平台对于数据的处理并不占用网络宽带,能够减少网络宽带的开销压力。根据需求将针对海量异构数据的处理操作,无论多么复杂,都可以分解为任一大小的数据子任务,实现计算资源和存储资源配置的全局最优化,从而增加数据的传输和读取效率。

Description

一种云平台的数据处理方法及系统
技术领域
本发明涉及云计算技术领域,特别是涉及一种云平台的数据处理方法及系统。
背景技术
随着科学技术的发展,云平台的应用范围越来越广泛。
云计算是一种能够通过网络以便利的、按需的方式获取计算资源(网络、服务器、存储、应用和服务)模式,这些资源和来自一个共享的、可配置的资源池,并能够快速获取和释放。它颠覆了传统IT行业的消费模式和服务方式,实现了从以前的购买软硬件产品向购买服务的转变,作用主要体现在虚拟化数据信息处理计算方面,是一种新型的商业模式。云计算的三大理念包括:基础设施即服务(IaaS)、平台即服务(PaaS)以及软件即服务(SaaS),越来越多的平台和应用,同时作为生产者和消费者,也使得互联网上的数据量以惊人的速度日益扩增。数据处理计算因此就成为云计算基础架构的重要一环,针对大规模数据的高效管理已经成为亟需解决的技术问题。
发明内容
本发明的目的是提供一种云平台的数据处理方法及系统,可以有效提高云计算系统对于数据的处理效率。
为解决上述技术问题,本发明提供了如下技术方案:
一种云平台的数据处理方法,包括:
将云平台中的数据流分成多个块文件;
将各所述块文件分别进行存储,并保存各所述块文件的存储位置;
根据各所述块文件的存储位置,读取并执行相应的任务处理。
优选地,所述将云平台中的数据流分成多个块文件,包括将云平台中的数据流分成多个等量的块文件。
优选地,将各所述块文件分别进行存储,包括将各所述块文件分别存储在本地磁盘上。
优选地,在保存各所述块文件的存储位置之后,还包括:对各所述块文件进行预读取。
优选地,所述根据各所述块文件的存储位置,读取并执行相应的任务处理,包括:
通过主机读取所要执行的任务对应的第一块文件的存储位置;
根据所述第一块文件的存储位置,调取对应的块文件数据;
将所述块文件数据放在所述主机的节点上,通过各节点之间的相互调用,对所述块文件数据进行传输和处理。
优选地,在将云平台中的数据流分成多个块文件时,还包括:对各块文件中的数据进行分类,并进行对应的类别标记。
一种云平台的数据处理系统,包括:
数据分块模块,用于将云平台中的数据流分成多个块文件;
存储模块,用于存储各所述块文件,并保存各所述块文件的存储位置;
主机,用于根据各所述块文件的存储位置,读取并执行相应的任务处理。
优选地,所述数据分块模块包括:
计算单元,用于统计所述数据流的大小,并计算平均分配给各所述块文件中的数据量;
分块单元,用于根据所述计算单元的计算结果,将云平台中的数据流分成多个等量的块文件。
与现有技术相比,上述技术方案具有以下优点:
本发明所提供的一种云平台的数据处理方法,包括:将云平台中的数据流分成多个块文件;将各块文件分别进行存储,并保存各块文件的存储位置;根据各块文件的存储位置,读取并执行相应的任务处理。由于将数据流分成了多个块文件,使得云平台对于数据的处理并不占用网络宽带,能够减少网络宽带的开销压力。根据需求将针对海量异构数据的处理操作,无论多么复杂,都可以分解为任一大小的数据子任务,实现计算资源和存储资源配置的全局最优化,从而增加数据的传输和读取效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种具体实施方式所提供的云平台的数据处理方法流程图;
图2为本发明一种具体实施方式所提供的云平台的数据处理系统结构示意图。
具体实施方式
发明人研究发现,在传统计算处理服务数据时,要进行两方面数据处理,一是流式数据读取,服务器处理超大量的大数据,为了保证数据安全和正确性,提供容错和严格的事务,这样保证任何一个事件不丢失也不出错,因此这样的批处理架构会带来高延迟和高成本维护。二是数据的存储方式,如DAS技术,把外部的数据存储设备都直接挂在服务器内部的总线上,数据存储设备是服务器结构一部分,随着需求的不断增大,越来越多的设备添加到网络环境中,导致服务器和存储独立数量较多,资源利用率低下,使得数据共享受到严重的限制。而且随着云计算的逐步发展,计算机网络处理数据的规模越来越大,如此大规模的数据,对其存储、更新、查找等处理的时间开销和空间开销远远超出了传统数据管理的承受能力。
本发明的核心是提供一种云平台的数据处理方法及系统,可以减少网络宽带的开销压力,有效提高云计算系统对于数据的处理效率。
为了使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在以下描述中阐述了具体细节以便于充分理解本发明。但是本发明能够以多种不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广。因此本发明不受下面公开的具体实施的限制。
请参考图1,图1为本发明一种具体实施方式所提供的云平台的数据处理方法流程图。
本发明的一种具体实施方式提供了一种云平台的数据处理方法,包括:
S11:将云平台中的数据流分成多个块文件,优选地,将云平台中的数据流分成多个等量的块文件。
S12:将各块文件分别进行存储,优选地,将各块文件分别存储在本地磁盘上,并保存各块文件的存储位置;
S13:根据各块文件的存储位置,读取并执行相应的任务处理。
在本实施方式中,由于无需直接调取大量的大数据,而是将数据流分成多个块文件,尤其是等量的块文件。在存储各块文件时,保存各块文件对应的存储位置,并进行文件预读取,在需要处理任务时,只需根据各块文件的存储位置,读取各块文件中的数据,该技术方案几乎不占用网络宽带,能够减少网络宽带的开销压力。用户可以根据需求将针对海量异构数据的处理操作,无论多么复杂,都可以分解为任一大小的数据子任务,实现计算资源和存储资源配置的全局最优化,从而增加数据的传输和读取效率。
在本发明的一种实施方式中,根据各块文件的存储位置,读取并执行相应的任务处理,包括:
通过主机读取所要执行的任务对应的第一块文件的存储位置;
根据第一块文件的存储位置,调取对应的块文件数据;
将块文件数据放在主机的节点上,通过各节点之间的相互调用,对块文件数据进行传输和处理。
进一步地,在将云平台中的数据流分成多个块文件时,还包括:对各块文件中的数据进行分类,并进行对应的类别标记。
在本实施方式中,利用云计算处理数据时,考虑到要处理数据的整合,通过云计算系统对数据分析分类,将数据分成块文件存储在本地磁盘上,记住各块文件存储的位置,并在后台进程进行预读取。在执行任务时,由于预先对数据进行了分类,即各块文件中的数据类别是已知的,可知直接读取其类别,而无需主机对各块文件中的数据进行类别的判定,节省了数据处理的时间,提高了数据处理的效率,由于保存了各块文件的保存位置,因此,主机可以根据各块文件的存储位置调取各块文件中的数据,并将调取的该数据放在主机的节点上,通过节点的相互调用,来实现任务的执行。其中可以在处理速度快的节点上部署较多的处理任务数据,以进一步减少宽带的占用,提高处理速度。
请参考图2,图2为本发明一种具体实施方式所提供的云平台的数据处理系统结构示意图。
相应地,本发明一种实施方式还提供了一种云平台的数据处理系统,包括:
数据分块模块21,用于将云平台中的数据流分成多个块文件;
存储模块22,用于存储各块文件,并保存各块文件的存储位置;
主机23,用于根据各块文件的存储位置,对各块文件进行预读取,读取并执行相应的任务处理。
进一步地,数据分块模块包括:计算单元,用于统计数据流的大小,并计算平均分配给各块文件中的数据量;分块单元,用于根据计算单元的计算结果,将云平台中的数据流分成多个等量的块文件。
将数据流分成多个块文件,尤其是等量的块文件。在存储各块文件时,保存各块文件对应的存储位置,并进行文件预读取,在需要处理任务时,只需根据各块文件的存储位置,读取各块文件中的数据,该技术方案几乎不占用网络宽带,能够减少网络宽带的开销压力。用户可以根据需求将针对海量异构数据的处理操作,无论多么复杂,都可以分解为任一大小的数据子任务,实现计算资源和存储资源配置的全局最优化,从而增加数据的传输和读取效率。
综上所述,本发明所提供的云平台的数据处理方法及系统,由于将数据流分成了多个块文件,使得云平台对于数据的处理并不占用网络宽带,能够减少网络宽带的开销压力。根据需求将针对海量异构数据的处理操作,无论多么复杂,都可以分解为任一大小的数据子任务,实现计算资源和存储资源配置的全局最优化,从而增加数据的传输和读取效率。
以上对本发明所提供的一种云平台的数据处理方法及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种云平台的数据处理方法,其特征在于,包括:
将云平台中的数据流分成多个块文件;
将各所述块文件分别进行存储,并保存各所述块文件的存储位置;
根据各所述块文件的存储位置,读取并执行相应的任务处理。
2.根据权利要求1所述的方法,其特征在于,所述将云平台中的数据流分成多个块文件,包括将云平台中的数据流分成多个等量的块文件。
3.根据权利要求2所述的方法,其特征在于,将各所述块文件分别进行存储,包括将各所述块文件分别存储在本地磁盘上。
4.根据权利要求3所述的方法,其特征在于,在保存各所述块文件的存储位置之后,还包括:对各所述块文件进行预读取。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述块文件的存储位置,读取并执行相应的任务处理,包括:
通过主机读取所要执行的任务对应的第一块文件的存储位置;
根据所述第一块文件的存储位置,调取对应的块文件数据;
将所述块文件数据放在所述主机的节点上,通过各节点之间的相互调用,对所述块文件数据进行传输和处理。
6.根据权利要求1至5任一项所述的方法,其特征在于,在将云平台中的数据流分成多个块文件时,还包括:对各块文件中的数据进行分类,并进行对应的类别标记。
7.一种云平台的数据处理系统,其特征在于,包括:
数据分块模块,用于将云平台中的数据流分成多个块文件;
存储模块,用于存储各所述块文件,并保存各所述块文件的存储位置;
主机,用于根据各所述块文件的存储位置,读取并执行相应的任务处理。
8.根据权利要求7所述的系统,其特征在于,所述数据分块模块包括:
计算单元,用于统计所述数据流的大小,并计算平均分配给各所述块文件中的数据量;
分块单元,用于根据所述计算单元的计算结果,将云平台中的数据流分成多个等量的块文件。
CN201610463997.3A 2016-06-23 2016-06-23 一种云平台的数据处理方法及系统 Active CN106202152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610463997.3A CN106202152B (zh) 2016-06-23 2016-06-23 一种云平台的数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610463997.3A CN106202152B (zh) 2016-06-23 2016-06-23 一种云平台的数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN106202152A true CN106202152A (zh) 2016-12-07
CN106202152B CN106202152B (zh) 2019-06-18

Family

ID=57461727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610463997.3A Active CN106202152B (zh) 2016-06-23 2016-06-23 一种云平台的数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN106202152B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106686117A (zh) * 2017-01-20 2017-05-17 郑州云海信息技术有限公司 一种分布式计算集群的数据存储处理系统及方法
CN112019592A (zh) * 2020-07-14 2020-12-01 贵州航天云网科技有限公司 基于边缘计算的云制造数据高效处理系统
CN113609178A (zh) * 2021-08-12 2021-11-05 深圳壹账通智能科技有限公司 数据推送方法、装置、设备以及存储介质
WO2021258831A1 (zh) * 2020-06-23 2021-12-30 华为技术有限公司 数据处理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679905A (zh) * 2015-03-20 2015-06-03 四川特伦特科技股份有限公司 一种基于云存储的高速存储系统
CN105704218A (zh) * 2016-01-19 2016-06-22 国家电网公司 云计算平台中数据存储与管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679905A (zh) * 2015-03-20 2015-06-03 四川特伦特科技股份有限公司 一种基于云存储的高速存储系统
CN105704218A (zh) * 2016-01-19 2016-06-22 国家电网公司 云计算平台中数据存储与管理方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106686117A (zh) * 2017-01-20 2017-05-17 郑州云海信息技术有限公司 一种分布式计算集群的数据存储处理系统及方法
CN106686117B (zh) * 2017-01-20 2020-04-03 郑州云海信息技术有限公司 一种分布式计算集群的数据存储处理系统及方法
WO2021258831A1 (zh) * 2020-06-23 2021-12-30 华为技术有限公司 数据处理方法及系统
CN112019592A (zh) * 2020-07-14 2020-12-01 贵州航天云网科技有限公司 基于边缘计算的云制造数据高效处理系统
CN112019592B (zh) * 2020-07-14 2022-07-12 御群智能科技(苏州)有限公司 基于边缘计算的云制造数据高效处理系统
CN113609178A (zh) * 2021-08-12 2021-11-05 深圳壹账通智能科技有限公司 数据推送方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN106202152B (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN105450522B (zh) 用于在虚拟机之间路由服务链流分组的方法、设备及介质
CN104636186B (zh) 虚拟机内存管理方法、物理主机、pcie设备及其配置方法以及迁移管理设备
CN106202152A (zh) 一种云平台的数据处理方法及系统
Raghava et al. Comparative study on load balancing techniques in cloud computing
CN107967180B (zh) 基于numa虚拟化环境下资源全局亲和度网络优化方法和系统
CN103365726B (zh) 一种面向gpu集群的资源管理方法和系统
CN112039987B (zh) 区块链中区块的处理方法、装置、节点设备及存储介质
US20130086355A1 (en) Distributed Data Scalable Adaptive Map-Reduce Framework
CN107995129A (zh) 一种nfv报文转发方法和装置
CN103885893A (zh) 用于访问内容寻址存储器的技术
CN107102897B (zh) 一种多gpu并行处理的数据库主动防御方法
CN108519919A (zh) 一种在虚拟化集群环境下实现服务器资源动态调度的方法
Huang et al. Optimizing grid computing configuration and scheduling for geospatial analysis: An example with interpolating DEM
US20130138686A1 (en) Device and method for arranging query
CN106462599A (zh) 缓存存储器与工作进程的关联
CN108021449A (zh) 一种协程实现方法、终端设备及存储介质
Guo et al. Multi-objective optimization for data placement strategy in cloud computing
US20240005446A1 (en) Methods, systems, and non-transitory storage media for graphics memory allocation
WO2021208174A1 (zh) 分布式图计算方法、终端、系统及存储介质
Na’im Fikri Jamaluddin et al. Performance comparison of java based parallel programming models
Rajesh Kanna et al. Effective Scheduling of Real-Time Task in Virtual Cloud Environment Using Adaptive Job Scoring Algorithm
CN202856795U (zh) 用于物联网存储的云计算基础架构系统
CN104899250B (zh) 基于图结构与数据信息分离的图计算伸缩方法
CN102637200A (zh) 一种使多级关联数据分配到集群相同节点的方法
Xie et al. Ower Big Data Analysis Technology and Application Based on Cloud Computing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant