CN104636199A - 一种基于分布式内存计算的大数据实时处理系统及方法 - Google Patents

一种基于分布式内存计算的大数据实时处理系统及方法 Download PDF

Info

Publication number
CN104636199A
CN104636199A CN201510110508.1A CN201510110508A CN104636199A CN 104636199 A CN104636199 A CN 104636199A CN 201510110508 A CN201510110508 A CN 201510110508A CN 104636199 A CN104636199 A CN 104636199A
Authority
CN
China
Prior art keywords
memory
data
task
resource pool
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510110508.1A
Other languages
English (en)
Inventor
姚海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ECDATA INFORMATION TECHNOLOGY Co Ltd
Original Assignee
ECDATA INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ECDATA INFORMATION TECHNOLOGY Co Ltd filed Critical ECDATA INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510110508.1A priority Critical patent/CN104636199A/zh
Publication of CN104636199A publication Critical patent/CN104636199A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于分布式内存计算的大数据实时处理系统及方法,以分布的多个内存节点各自具有的内存资源形成资源池;在用户发起任务时,客户端向资源池的资源调度器传输任务,及固定时间间隔内的任务相关的增量数据来申请执行;所述资源调度器根据任务需要的内存资源在资源池中进行调配,指定资源池中相应的内存节点对任务相关的增量数据进行计算,并将其各自计算得到的局部结果存入资源池中;将被指定的各个内存节点计算得到的局部结果合并运算,得到全局的计算结果,向用户发送。本发明实现分布式内存集中使用,内存计算过程数据可恢复,以及数据实时增量计算,数据访问速度快,为用户提供实时的分析结果。

Description

一种基于分布式内存计算的大数据实时处理系统及方法
技术领域
本发明涉及大数据处理领域,具体涉及一种基于分布式内存计算的大数据实时处理系统及方法。
背景技术
近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB(太字节)甚至数十至数百PB(拍字节)规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。大数据作为云计算、物联网之后IT行业又一大颠覆性的技术革命。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、互联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。
大数据分析按照分析时间的长短一般可以分为,实时数据分析和离线数据分析。离线数据分析是针对固定的数据进行数据的分析和计算,而实时数据分析是指数据在产生过程中就可以实时的计算出相关结果信息,并且结果随着数据的不断更新,结果页随之不断的改变,让用户实时的看到数据的结果。实时运算在互联网,金融等场景下有大量的需求,然而现有技术还缺乏有效的大数据实时处理方法。
发明内容
本发明涉及一种基于分布式内存计算的大数据实时处理系统及方法,专门为大数据的数据实时处理而设计,将多台机器的内存进行综合利用,将实时的数据都保存在内存中,在内存中完成相关的计算和分析。由于数据在计算过程中都是在内存中的,所以能够提供快速的数据访问速度,加快数据的分析,为用户提供实时的分析结果。
为了达到上述目的,本发明的一个技术方案是提供一种基于分布式内存计算的大数据实时处理方法,其中以分布的多个内存节点各自具有的内存资源形成资源池;
在用户发起任务时,客户端向资源池的资源调度器传输任务,及固定时间间隔内的任务相关的增量数据来申请执行;
所述资源调度器根据任务需要的内存资源在资源池中进行调配,指定资源池中相应的内存节点对任务相关的增量数据进行计算,并将其各自计算得到的局部结果存入资源池中;
将被指定的各个内存节点计算得到的局部结果合并运算,得到全局的计算结果,向用户发送。
优选地,对于数据源持续产生的数据,客户端在每次达到固定时间间隔时,将该时间间隔内的数据打包形成的数据包作为增量数据,发送至资源调度器申请执行。
优选地,计算最新一个数据包得到的局部结果,与对该数据包之前其他数据包计算获得的局部结果合并,来得到全局的计算结果向用户发送。
优选地,资源调度器指定资源池中空闲的内存节点,进行局部结果的合并运算。
优选地,所述内存节点对其被分配的增量数据完成计算后,在有效期内记录计算过程相关的数据,以备查询或进行数据恢复。
优选地,直到所述内存节点的内存资源不足或者整个任务执行完成时,才释放其内存资源进行回收,以便资源管理器将该内存节点的内存资源重新列入资源池中的队列,等待收到后续任务时分配。
本发明的另一个技术方案是提供一种基于分布式内存计算的大数据实时处理系统,其中包含:
资源池,由分布的多个内存节点各自的内存资源形成;
客户端,向所述资源池发送任务及固定时间间隔内的任务相关增量数据,申请任务执行;
资源调度器,接收客户端发送的任务执行的申请,根据任务需要在资源池中调配内存资源,并指定相应内存节点对任务相关的增量数据进行计算;
其中,每个内存节点进一步设置有节点管理模块和内存计算模块;
所述节点管理模块对本节点的内存资源进行调度和管理,接收资源调度器发送的任务调度的指令,维护和监控内存计算模块的工作;
所述内存计算模块对任务相关的增量数据进行计算,得到相应的局部结果并进行保存;所述资源池中由被指定的各个内存节点计算得到的所有局部结果,通过合并运算得到全局的计算结果,发送给用户。
优选地,对于数据源持续产生的数据,客户端在每次达到固定时间间隔时,将该时间间隔内的数据打包形成的数据包作为增量数据,发送至资源调度器申请执行。
优选地,所述内存节点的内存资源不足或者整个任务执行完成时,所述内存计算模块释放计算时使用的内存资源,由所述节点管理模块进行回收该内存节点的内存资源并向资源管理器重新注册,以便将该内存节点的内存资源重新列入资源池中的队列,等待收到后续任务时分配。
本发明与现有技术相比,优势主要体现在以下方面:
分布式内存集中使用:本发明能够将分布式的内存形成统一的资源池,根据实际使用需要按需使用,提高内存的使用效率。
内存计算过程数据可恢复:本发明在内存允许的情况下,将历时数据都保存在内存中,当发生数据意外无效后,可以查找历时数据快速重新生成目标数据。
数据实时增量计算:本发明可以对数据增量进行局部计算,将结果再和总量数据进行汇总。
附图说明
图1是本发明分布式内存计算的示意图。
图2是本发明所述大数据实时处理系统的模块关系示意图。
图3是本发明所述大数据实时数据方法一个示例的处理时序图。
图4是本发明所述大数据实时处理方法的处理逻辑的示意图。
具体实施方式
如图1所示,本发明的应用场景包含用户和大数据平台厂商,用户提供实时的数据源,数据持续不停的产生;由数据收集手段对数据持续收集,并不断地传送到大数据平台之上。大数据平台通过基于分布式内存计算的大数据实时处理系统及方法,将系统内分布的多个内存节点20形成一个逻辑上的资源池,由资源调度器10根据任务的实际需要对内存资源进行分配,指定资源池中相应的内存节点20作为内存计算容器,各自对记载到其中的数据进行分析和计算,能够快速得到相应的运算结果;再将各内存节点20的运算结果合并集中,得到全量数据的计算结果,向用户发送。
如图2所示,本发明所述基于分布式内存计算的大数据实时处理系统,包含客户端,资源调度器10,多个内存节点20及其各自设置的节点管理模块21和内存计算模块22。
用户发起任务后,所述客户端通过调用设置的任务提交模块30,自动将任务提交给资源调度器10,并且能够与任务执行的工作单元保持数据通信。
所述资源调度器10,内部实现资源调度和任务调度逻辑,包括对分布式内存资源的管理,接受内存节点20的注册,收集内存节点20的资源,以及调度任务的执行,指定哪些内存计算模块22执行哪些任务。
所述节点管理模块21,对单个内存节点20的内存资源进行调度和管理,将本节点的资源注册到资源调度器10,接收资源调度器10任务调度的指令,维护和监控内存计算模块22的工作。
所述内存计算模块22,各自具有一定大小的内存资源,管理本模块中内存的使用情况,提供计算任务的执行环境,具体执行数据的计算任务,并能够将状态上报给节点管理模块21。
所述内存计算模块22完成被分配的数据计算后,会记录计算过程和方法,并且数据在有效期内仍然保存在内存中,只有当内存容量不足或者任务已经完成时,这部分内存资源才会被释放,对内存资源的使用更为合理高效。释放的资源由节点管理模块21回收,并向资源管理器10重新注册,以便将该内存节点20的资源重新列入队列,等待分配后续的数据计算任务。
如图3、图4所示,本发明所述基于分布式内存计算的大数据实时处理方法的示例中,包含以下的过程:
a)客户端初始化;
b)向资源调度器申请资源,查看系统内资源是否满足任务要求;
c)提交具体的计算算法,以便资源调度器对任务提供的数据进行分析,对资源进行分配,指定资源池队列中的若干内存节点来进行数据计算;
d)初始化内存节点的计算运行环境;
e)接收增量数据,获取增量数据的时间间隔根据配置文件自行定义;
f)对接收到的增量数据,由被指定的若干内存节点进行计算;
g)内存节点各自计算得到局部结果,并将其存在资源池中;
h)将资源池中所有的局部结果集合进行统一运算,得到最终全局的计算结果;
i)上述过程持续往复,直到任务结束或者被主动关闭。
由于数据源的数据是持续增加,并源源不断地发往实时计算平台,为了适应该情况,本发明所述基于分布式内存计算的大数据实时处理方法,通过对增量数据的持续内存计算,并且对所有的增量数据计算得到的局部结果再次进行计算来得到实时的大数据计算结果。本发明所谓的实时是指,在指定的时间间隔内对数据进行处理,而非每时每刻进行数据处理。即,本发明的计算过程是针对固定时间间隔内的数据进行计算,在固定时间间隔内处理当前间隔内收集到的数据进行处理。
为此,本发明将任务中要处理的数据以一定时间间隔内的数据量进行打包,将数据包送入资源调度器申请执行;由资源调度器根据资源情况,分配相应的内存节点对收到的数据包进行计算并生成对应的局部结果;数据源处继续产生的数据在到达下一个时间间隔后打包形成下一个数据包,也向资源调度器发送并申请执行;重复上述动作,数据将不停的被处理,同时产生大量的局部的数据结构;再对已经生成的局部结果合并运算(例如由资源调度器指定空闲的内存节点来进行),得到最终的全局的计算结果。
综上所述,本发明所述基于分布式内存计算的大数据实时处理系统及方法,能够将分布式内存集中使用,实现数据实时增量计算,并且保存有内存计算过程的数据可恢复。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (9)

1.一种基于分布式内存计算的大数据实时处理方法,其特征在于,
以分布的多个内存节点各自具有的内存资源形成资源池;
在用户发起任务时,客户端向资源池的资源调度器传输任务,及固定时间间隔内的任务相关的增量数据来申请执行;
所述资源调度器根据任务需要的内存资源在资源池中进行调配,指定资源池中相应的内存节点对任务相关的增量数据进行计算,并将其各自计算得到的局部结果存入资源池中;
将被指定的各个内存节点计算得到的局部结果合并运算,得到全局的计算结果,向用户发送。
2.如权利要求1所述的方法,其特征在于,
对于数据源持续产生的数据,客户端在每次达到固定时间间隔时,将该时间间隔内的数据打包形成的数据包作为增量数据,发送至资源调度器申请执行。
3.如权利要求2所述的方法,其特征在于,
计算最新一个数据包得到的局部结果,与对该数据包之前其他数据包计算获得的局部结果合并,来得到全局的计算结果向用户发送。
4.如权利要求1所述的方法,其特征在于,
资源调度器指定资源池中空闲的内存节点,进行局部结果的合并运算。
5.如权利要求1所述的方法,其特征在于,
所述内存节点对其被分配的增量数据完成计算后,在有效期内记录计算过程相关的数据,以备查询或进行数据恢复。
6.如权利要求5所述的方法,其特征在于,
直到所述内存节点的内存资源不足或者整个任务执行完成时,才释放其内存资源进行回收,以便资源管理器将该内存节点的内存资源重新列入资源池中的队列,等待收到后续任务时分配。
7.一种基于分布式内存计算的大数据实时处理系统,其特征在于,包含:
资源池,由分布的多个内存节点各自的内存资源形成;
客户端,向所述资源池发送任务及固定时间间隔内的任务相关增量数据,申请任务执行;
资源调度器,接收客户端发送的任务执行的申请,根据任务需要在资源池中调配内存资源,并指定相应内存节点对任务相关的增量数据进行计算;
其中,每个内存节点进一步设置有节点管理模块和内存计算模块;
所述节点管理模块对本节点的内存资源进行调度和管理,接收资源调度器发送的任务调度的指令,维护和监控内存计算模块的工作;
所述内存计算模块对任务相关的增量数据进行计算,得到相应的局部结果并进行保存;所述资源池中由被指定的各个内存节点计算得到的所有局部结果,通过合并运算得到全局的计算结果,发送给用户。
8.如权利要求7所述的系统,其特征在于,
对于数据源持续产生的数据,客户端在每次达到固定时间间隔时,将该时间间隔内的数据打包形成的数据包作为增量数据,发送至资源调度器申请执行。
9.如权利要求7所述的系统,其特征在于,
所述内存节点的内存资源不足或者整个任务执行完成时,所述内存计算模块释放计算时使用的内存资源,由所述节点管理模块进行回收该内存节点的内存资源并向资源管理器重新注册,以便将该内存节点的内存资源重新列入资源池中的队列,等待收到后续任务时分配。
CN201510110508.1A 2015-03-13 2015-03-13 一种基于分布式内存计算的大数据实时处理系统及方法 Pending CN104636199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510110508.1A CN104636199A (zh) 2015-03-13 2015-03-13 一种基于分布式内存计算的大数据实时处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510110508.1A CN104636199A (zh) 2015-03-13 2015-03-13 一种基于分布式内存计算的大数据实时处理系统及方法

Publications (1)

Publication Number Publication Date
CN104636199A true CN104636199A (zh) 2015-05-20

Family

ID=53214990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510110508.1A Pending CN104636199A (zh) 2015-03-13 2015-03-13 一种基于分布式内存计算的大数据实时处理系统及方法

Country Status (1)

Country Link
CN (1) CN104636199A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069068A (zh) * 2015-07-30 2015-11-18 宁波数方信息技术有限公司 一种基于分布式内存中计算的大数据一体机
CN105426489A (zh) * 2015-11-23 2016-03-23 宁波数方信息技术有限公司 基于内存计算的分布式可扩展数据搜索系统
CN105700998A (zh) * 2016-01-13 2016-06-22 浪潮(北京)电子信息产业有限公司 一种对并行程序的性能进行监测分析的方法及装置
CN106850849A (zh) * 2017-03-15 2017-06-13 联想(北京)有限公司 一种数据处理方法、装置和服务器
WO2017114141A1 (en) * 2015-12-30 2017-07-06 Sengled Optoelectronics Co., Ltd Distributed task system and service processing method based on internet of things
CN106981024A (zh) * 2016-12-23 2017-07-25 中国银联股份有限公司 一种交易限额计算处理系统及其处理方法
CN107515786A (zh) * 2017-08-04 2017-12-26 北京奇虎科技有限公司 资源分配方法、主装置、从装置和分布式计算系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894050A (zh) * 2010-07-28 2010-11-24 山东中创软件工程股份有限公司 云资源池的jee应用资源弹性调度方法、装置及系统
US20110041006A1 (en) * 2009-08-12 2011-02-17 New Technology/Enterprise Limited Distributed transaction processing
CN103345514A (zh) * 2013-07-09 2013-10-09 焦点科技股份有限公司 大数据环境下的流式数据处理方法
CN103488699A (zh) * 2013-09-04 2014-01-01 用友软件股份有限公司 基于内存数据网格的数据处理装置和方法
CN103593243A (zh) * 2013-11-01 2014-02-19 浪潮电子信息产业股份有限公司 一种动态可扩展的增加虚拟机资源的方法
CN103605567A (zh) * 2013-10-29 2014-02-26 河海大学 面向实时性需求变化的云计算任务调度方法
CN103955491A (zh) * 2014-04-15 2014-07-30 南威软件股份有限公司 一种定时数据增量同步的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110041006A1 (en) * 2009-08-12 2011-02-17 New Technology/Enterprise Limited Distributed transaction processing
CN101894050A (zh) * 2010-07-28 2010-11-24 山东中创软件工程股份有限公司 云资源池的jee应用资源弹性调度方法、装置及系统
CN103345514A (zh) * 2013-07-09 2013-10-09 焦点科技股份有限公司 大数据环境下的流式数据处理方法
CN103488699A (zh) * 2013-09-04 2014-01-01 用友软件股份有限公司 基于内存数据网格的数据处理装置和方法
CN103605567A (zh) * 2013-10-29 2014-02-26 河海大学 面向实时性需求变化的云计算任务调度方法
CN103593243A (zh) * 2013-11-01 2014-02-19 浪潮电子信息产业股份有限公司 一种动态可扩展的增加虚拟机资源的方法
CN103955491A (zh) * 2014-04-15 2014-07-30 南威软件股份有限公司 一种定时数据增量同步的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069068A (zh) * 2015-07-30 2015-11-18 宁波数方信息技术有限公司 一种基于分布式内存中计算的大数据一体机
CN105426489A (zh) * 2015-11-23 2016-03-23 宁波数方信息技术有限公司 基于内存计算的分布式可扩展数据搜索系统
WO2017114141A1 (en) * 2015-12-30 2017-07-06 Sengled Optoelectronics Co., Ltd Distributed task system and service processing method based on internet of things
US10303509B2 (en) 2015-12-30 2019-05-28 Sengled Optoelectronics Co., Ltd. Distributed task system based on internet of things and service processing method for distributed tasks based on the same
CN105700998A (zh) * 2016-01-13 2016-06-22 浪潮(北京)电子信息产业有限公司 一种对并行程序的性能进行监测分析的方法及装置
CN106981024A (zh) * 2016-12-23 2017-07-25 中国银联股份有限公司 一种交易限额计算处理系统及其处理方法
CN106850849A (zh) * 2017-03-15 2017-06-13 联想(北京)有限公司 一种数据处理方法、装置和服务器
CN107515786A (zh) * 2017-08-04 2017-12-26 北京奇虎科技有限公司 资源分配方法、主装置、从装置和分布式计算系统

Similar Documents

Publication Publication Date Title
CN104636199A (zh) 一种基于分布式内存计算的大数据实时处理系统及方法
Mungoli Scalable, Distributed AI Frameworks: Leveraging Cloud Computing for Enhanced Deep Learning Performance and Efficiency
Di Martino et al. Building a mosaic of clouds
CN102096596B (zh) 一种基于虚拟机内存模板的云计算服务Cache系统
CN104657220A (zh) 混合云中基于截止时间和费用约束的调度模型及方法
Jangiti et al. Scalable and direct vector bin-packing heuristic based on residual resource ratios for virtual machine placement in cloud data centers
Kijsipongse et al. A hybrid GPU cluster and volunteer computing platform for scalable deep learning
Premsankar et al. Energy-efficient service placement for latency-sensitive applications in edge computing
KR101640231B1 (ko) 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법
Hashemi et al. Gwo-sa: Gray wolf optimization algorithm for service activation management in fog computing
Cirne et al. Scheduling in bag-of-task grids: The PAUÁ case
Guo et al. Multi-objective optimization for data placement strategy in cloud computing
Jakovits et al. Stratus: A distributed computing framework for scientific simulations on the cloud
Banjar et al. Intelligent Scheduling Algorithms for the Enhancement of Drone Based Innovative Logistic Supply Chain Systems
Blanchart et al. EPIS: a grid platform to ease and optimize multi-agent simulators running
Aydin et al. Bin packing problem with time dimension: an application in cloud computing
Gupta et al. Transfer time-aware workflow scheduling for multi-cloud environment
CN104933110A (zh) 一种基于MapReduce的数据预取方法
Salama A swarm intelligence based model for mobile cloud computing
Liang et al. Pseudo transformation mechanism between resource allocation and bin-packing in batching environments
CN107203633A (zh) 数据表推数处理方法、装置及电子设备
Maheswari et al. Hybridisation of oppositional centre-based genetic algorithms for resource allocation in cloud
CN111427687A (zh) 一种人工智能云平台
Punia et al. An Improved Scheduling Algorithm for Grey Wolf Fitness Task Enrichment with Cloud
Bloom CMS software and computing for LHC Run 2

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150520

RJ01 Rejection of invention patent application after publication