CN106686117B - 一种分布式计算集群的数据存储处理系统及方法 - Google Patents

一种分布式计算集群的数据存储处理系统及方法 Download PDF

Info

Publication number
CN106686117B
CN106686117B CN201710042403.6A CN201710042403A CN106686117B CN 106686117 B CN106686117 B CN 106686117B CN 201710042403 A CN201710042403 A CN 201710042403A CN 106686117 B CN106686117 B CN 106686117B
Authority
CN
China
Prior art keywords
unit
file
computing
data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710042403.6A
Other languages
English (en)
Other versions
CN106686117A (zh
Inventor
王志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710042403.6A priority Critical patent/CN106686117B/zh
Publication of CN106686117A publication Critical patent/CN106686117A/zh
Application granted granted Critical
Publication of CN106686117B publication Critical patent/CN106686117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种分布式计算集群的数据存储处理系统及方法,从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;将每个块文件的地址分发给一个计算单元;每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元。这样在计算机集群中,控制单元获取承载量超出阈值的数据文件,将该数据文件进行拆分,通过计算单元进行处理。这样将大文件进行了拆分并进行了分块处理提示处理效率,充分利用集群中的处理资源。

Description

一种分布式计算集群的数据存储处理系统及方法
技术领域
本发明涉及计算机文件处理领域,尤其涉及一种分布式计算集群的数据存储处理系统及方法。
背景技术
当前,计算机集群技术现在已经广泛的应用于大数据、云计算、高性能计算等多个IT领域。分布式文件系统(distributedfile system)是计算机集群,特别是高性能计算集群系统中常见的组成部分,通过分布式文件系统,集群中的计算单元可以共享位于其他单元上的数据。
在计算机集群中如果待处理的数据文件较大,会占用集群中数据处理量,消耗集群的资源,导致数据处理效率低下,而且容易集群数据通道。
发明内容
为了克服上述现有技术中的不足,本发明提供一种分布式计算集群的数据存储处理系统,包括:存储单元,控制单元和至少一个计算单元;
控制单元用于从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;
每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;
控制单元还用于接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元;
存储单元用于储存数据文件,计算结果文件以及系统的数据信息,并将数据共享给集群中单元使用。
优选地,还包括:管理单元,交换机,IP地址设置模块,挂载模块;
控制单元,管理单元,存储单元及多个计算单元通过交换机连接到一起;
管理单元用于使用户通过管理单元登录,并使用计算单元上的计算资源;
IP地址设置模块用于对管理单元,存储单元,每个计算单元设置IP地址;
控制单元,管理单元,存储单元及每个计算单元均部署操作系统;
在存储单元上部署ssh协议的服务器端守护进程sshd服务;
在控制单元,每个计算单元和管理单元上部署用户空间文件系统;
在控制单元,每个计算单元和管理单元上部署sshfs服务;
挂载模块用于集群中的任意用户在存储单元中存储的数据,并通过sshfs服务挂载到计算单元和管理单元上的对应目录下。
优选地,还包括:用户注册模块;
用户注册模块用于使系统提供普通用户注册客户端及root用户注册客户端;
普通用户注册客户端提供给用户注册普通用户账户及密码,root用户注册客户端提供给用户注册root用户账户及密码;
普通用户使用sshfs服务卸载以该用户权限挂载在计算单元和管理单元上的目录;
root用户把存储单元中的数据,挂载到计算单元和管理单元上的对应目录下;root用户使用sshfs服务卸载所有通过上述方式挂载的,计算单元和管理单元上的目录。
优选地,还包括:一个或者多个交换机;设置多个交换机则整个集群的采用星型网络拓扑结构,或环形网络拓扑结构,或总线网络拓扑结构,或树形网络拓扑结构,或网状网络拓扑结构。
优选地,控制单元,管理单元,存储单元,每个计算单元均使用的是同一个Linux操作系统。类型和版本号。
优选地,所有单元通过NIS服务共享同一套用户账户和密码,或者管理单元,存储单元,每个计算单元均建立单独的用户账户和密码。
优选地,还包括:数据文件承载量阈值设置模块;
数据文件承载量阈值设置模块用于设置存储单元中数据文件承载量的阈值。
一种分布式计算集群的数据存储处理方法,方法包括,
步骤1、从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;
步骤2、设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;
步骤3、每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;
步骤4、接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元。
从以上技术方案可以看出,本发明具有以下优点:
从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;将每个块文件的地址分发给一个计算单元;每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元。这样在计算机集群中,控制单元获取承载量超出阈值的数据文件,也就是在计算机集群中,数据文件比较大的文件,将该数据文件进行拆分,通过计算单元进行处理。这样将大文件进行了拆分并进行了分块处理提示处理效率,充分利用集群中的处理资源,避免集群数据通道。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为分布式计算集群的数据存储处理系统的整体示意图;
图2为分布式计算集群的数据存储处理系统实施例示意图;
图3为分布式计算集群的数据存储处理方法流程图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将运用具体的实施例及附图,对本发明保护的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。
本实施例提供一种分布式计算集群的数据存储处理系统,如图1所示,包括:存储单元2,控制单元5和至少一个计算单元;
控制单元5用于从存储单元2中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;控制单元5还用于接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元;
存储单元2用于储存数据文件,计算结果文件以及系统的数据信息,并将数据共享给集群中单元使用。
系统还包括:管理单元1,交换机3,IP地址设置模块,挂载模块;
控制单元5,管理单元1,存储单元2及多个计算单元通过交换机连接到一起;管理单元1用于使用户通过管理单元登录,并使用计算单元上的计算资源;IP地址设置模块用于对管理单元,存储单元,每个计算单元设置IP地址;控制单元5,管理单元1,存储单元2及每个计算单元均部署操作系统;
在存储单元2上部署ssh协议的服务器端守护进程sshd服务;在控制单元5,每个计算单元和管理单元上部署用户空间文件系统;在控制单元5,每个计算单元和管理单元上部署sshfs服务;挂载模块用于集群中的任意用户在存储单元中存储的数据,并通过sshfs服务挂载到控制单元5,计算单元和管理单元上的对应目录下。
系统还包括:用户注册模块;用户注册模块用于使系统提供普通用户注册客户端及root用户注册客户端;普通用户注册客户端提供给用户注册普通用户账户及密码,root用户注册客户端提供给用户注册root用户账户及密码;普通用户使用sshfs服务卸载以该用户权限挂载在控制单元,计算单元和管理单元上的目录;root用户把存储单元中的数据,挂载到控制单元,计算单元和管理单元上的对应目录下;root用户使用sshfs服务卸载所有通过上述方式挂载的,计算单元,控制单元和管理单元上的目录。
控制单元,管理单元和存储单元共享一个物理单元,即存储单元兼做管理单元的功能.系统还包括:一个或者多个交换机;设置多个交换机则整个集群的采用星型网络拓扑结构,或环形网络拓扑结构,或总线网络拓扑结构,或树形网络拓扑结构,或网状网络拓扑结构。
控制单元5,管理单元1,存储单元2,每个计算单元均使用的是同一个Linux操作系统。类型和版本号所有单元通过NIS服务共享同一套用户账户和密码,或者管理单元,存储单元,每个计算单元均建立单独的用户账户和密码。
本实施例以控制单元5,管理单元1,存储单元2,交换机3,计算单元11,计算单元12,计算单元13为例,如图2所示,
将所有单元部署于同一子网,操作系统部署完成后,分别设置控制单元5,管理单元1,存储单元2,计算单元11,计算单元12,计算单元13的IP地址,使控制单元5,管理单元1,存储单元2,计算单元11,计算单元12,计算单元13相互ping通;比如192.168.1.*或者10.10.10.*。
在管理单元1创建普通用户,比如user1、user2、user3,并设置对应的用户密码以及创建root用户并设置对应密码;控制单元5,存储单元2,计算单元11,计算单元12,计算单元13通过NIS服务共享管理单元1上的用户名和密码;或在存储单元2创建普通用户user1、user2、user3和对应的密码以及在计算单元创建普通用户user1、user2、user3和对应的密码。
部署用户空间文件系统,在控制单元5,管理单元、存储单元、计算单元上配置并启动SSH服务;配置后普通用户可以从控制单元5,管理单元1,存储单元2,计算单元11,计算单元12,计算单元13之间可以通过ssh相互登录。并可以通过scp、rsync等命令发送,接收数据。
挂载操作和卸载操作是只有root用户才能执行的操作,普通用户权限不能执行这两项操作。
部署sshfs服务提供了普通用户挂载文件系统的权限,为了使某计算单元上的普通用户可以访问其他单元上的文件,需要使用一些网络传输协议,比如ftp、sftp、http等。通过网络传输协议进行远程挂载,比如sshfs、ftpfs、CurlFtpFS等。
普通用户的文件挂载和卸载,root用户的文件挂载和卸载。普通用户的文件挂载和卸载。以普通用户user1为例,user1的home目录为/home/user1/;在控制单元5,管理单元1,存储单元2、计算单元11,计算单元12,计算单元13上都有该目录。
user1用户在登录管理单元1后,使用如下命令,即可把存储单元2上的目录挂载到管理单元1上:
接下来,user1依次登录控制单元5,计算单元11,计算单元12,计算单元13,执行上述命令,即可把存储单元2上的目录挂载到计算单元11,计算单元12,计算单元13上。
此时,控制单元5,管理单元1和计算单元11,计算单元12,计算单元13的/home/user1/的内容均来自存储单元2上/home/user1/内容的共享。所以在管理单元1,计算单元11,计算单元12,计算单元13上的文件创建、读写、删除都实际对应于存储单元2上的相应文件的创建、读写和删除。
root用户的文件挂载和卸载,root用户可以一次性把所以普通用户的/home/目录进行挂载和卸载。
root用户用于把普通用户所有的/home/目录进行挂载或卸载,或者对所有的普通用户的/home/目录进行挂载或卸载。
本发明还提供一种分布式计算集群的数据存储处理方法,方法包括,如图3所示,
S1、从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;
S2、设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;
S3、每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;
S4、接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参考即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种分布式计算集群的数据存储处理方法,其特征在于,方法包括,
管理单元使用户通过管理单元登录,并使用计算单元上的计算资源;
IP地址设置模块对管理单元,存储单元,每个计算单元设置IP地址;
控制单元,管理单元,存储单元及每个计算单元均部署操作系统;
在存储单元上部署ssh协议的服务器端守护进程sshd服务;
在控制单元,每个计算单元和管理单元上部署用户空间文件系统;
在控制单元,每个计算单元和管理单元上部署sshfs服务;
挂载模块集群中的任意用户在存储单元中存储的数据,并通过sshfs服务挂载到计算单元和管理单元上的对应目录下;
从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;
设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;
每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;
控制单元接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元;
存储单元储存数据文件,计算结果文件以及系统的数据信息,并将数据共享给集群中单元使用。
2.根据权利要求1所述的分布式计算集群的数据存储处理方法,
还包括:用户注册模块;
用户注册模块用于使系统提供普通用户注册客户端及root用户注册客户端;
普通用户注册客户端提供给用户注册普通用户账户及密码,root用户注册客户端提供给用户注册root用户账户及密码;
普通用户使用sshfs服务卸载以该用户权限挂载在计算单元和管理单元上的目录;
root用户把存储单元中的数据,挂载到计算单元和管理单元上的对应目录下;root用户使用sshfs服务卸载所有通过上述方式挂载的,计算单元和管理单元上的目录。
3.根据权利要求1所述的分布式计算集群的数据存储处理方法,
还包括:一个或者多个交换机;设置多个交换机则整个集群的采用星型网络拓扑结构,或环形网络拓扑结构,或总线网络拓扑结构,或树形网络拓扑结构,或网状网络拓扑结构。
4.根据权利要求1所述的分布式计算集群的数据存储处理方法,
控制单元,管理单元,存储单元,每个计算单元均使用的是同一个Linux操作系统,类型和版本号。
5.根据权利要求1所述的分布式计算集群的数据存储处理方法,
所有单元通过NIS服务共享同一套用户账户和密码,或者管理单元,存储单元,每个计算单元均建立单独的用户账户和密码。
6.根据权利要求1所述的分布式计算集群的数据存储处理方法,
还包括:数据文件承载量阈值设置模块;
数据文件承载量阈值设置模块用于设置存储单元中数据文件承载量的阈值。
CN201710042403.6A 2017-01-20 2017-01-20 一种分布式计算集群的数据存储处理系统及方法 Active CN106686117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710042403.6A CN106686117B (zh) 2017-01-20 2017-01-20 一种分布式计算集群的数据存储处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710042403.6A CN106686117B (zh) 2017-01-20 2017-01-20 一种分布式计算集群的数据存储处理系统及方法

Publications (2)

Publication Number Publication Date
CN106686117A CN106686117A (zh) 2017-05-17
CN106686117B true CN106686117B (zh) 2020-04-03

Family

ID=58860633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710042403.6A Active CN106686117B (zh) 2017-01-20 2017-01-20 一种分布式计算集群的数据存储处理系统及方法

Country Status (1)

Country Link
CN (1) CN106686117B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107770261A (zh) * 2017-10-13 2018-03-06 郑州云海信息技术有限公司 一种基于分布式存储系统的计算方法及相关装置
WO2019140577A1 (zh) * 2018-01-17 2019-07-25 新联智慧信息技术(深圳)有限公司 大数据的计算方法及系统
CN108280161A (zh) * 2018-01-17 2018-07-13 新联智慧信息技术(深圳)有限公司 大数据的分析方法及系统
CN108279978A (zh) * 2018-01-17 2018-07-13 新联智慧信息技术(深圳)有限公司 大数据的计算方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622414A (zh) * 2012-02-17 2012-08-01 清华大学 基于对等结构的分布式高维索引并行查询框架
CN103051676A (zh) * 2012-11-26 2013-04-17 浪潮电子信息产业股份有限公司 一种分布式数据存储管理方法
CN104008152A (zh) * 2014-05-21 2014-08-27 华南理工大学 支持海量数据访问的分布式文件系统的架构方法
CN104239133A (zh) * 2014-09-26 2014-12-24 北京国双科技有限公司 一种日志处理方法、装置及服务器
CN106202152A (zh) * 2016-06-23 2016-12-07 浪潮(北京)电子信息产业有限公司 一种云平台的数据处理方法及系统
CN106294585A (zh) * 2016-07-28 2017-01-04 四川新环佳科技发展有限公司 一种云计算平台下的存储方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622414A (zh) * 2012-02-17 2012-08-01 清华大学 基于对等结构的分布式高维索引并行查询框架
CN103051676A (zh) * 2012-11-26 2013-04-17 浪潮电子信息产业股份有限公司 一种分布式数据存储管理方法
CN104008152A (zh) * 2014-05-21 2014-08-27 华南理工大学 支持海量数据访问的分布式文件系统的架构方法
CN104239133A (zh) * 2014-09-26 2014-12-24 北京国双科技有限公司 一种日志处理方法、装置及服务器
CN106202152A (zh) * 2016-06-23 2016-12-07 浪潮(北京)电子信息产业有限公司 一种云平台的数据处理方法及系统
CN106294585A (zh) * 2016-07-28 2017-01-04 四川新环佳科技发展有限公司 一种云计算平台下的存储方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
云计算环境下大规模数据处理的研究与初步实现;张兴旺等;《现代图书情报技术》;20110425(第4期);正文第2-4节 *

Also Published As

Publication number Publication date
CN106686117A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN106713493B (zh) 一种在计算机集群环境中构建分布式文件系统及方法
CN106686117B (zh) 一种分布式计算集群的数据存储处理系统及方法
JP2023532947A (ja) データ転送方法、プロキシサーバ、記憶媒体及び電子デバイス
CN107547654B (zh) 一种分布式对象存储集群、部署、服务方法及系统
CN110019125B (zh) 数据库管理的方法和装置
CN102591679B (zh) 一种集群系统应用软件快速部署方法
CN105260377B (zh) 一种基于分级存储的升级方法和系统
CN112612769B (zh) 文件处理方法、装置及存储介质
CN106911741B (zh) 一种虚拟化网管文件下载负载均衡的方法及网管服务器
CN104717314A (zh) 一种ip管理方法及系统、客户端、服务器
CN111225003B (zh) 一种nfs节点配置方法和装置
CN104252397A (zh) 支持云平台用户文件自动备份的实现方法
CN105187523A (zh) 一种目录访问方法及装置
CN106156044B (zh) 数据库切换方法及装置
CN111274191A (zh) 管理ceph集群的方法及云本地存储协调器
CN107623705B (zh) 基于视频云存储系统的存储模式升级方法、装置和系统
CN106709056B (zh) 一种nfs挂载目录导出方法及装置
CN111431951B (zh) 一种数据处理方法、节点设备、系统及存储介质
CN111404828A (zh) 实现全局流控的方法及装置
US9432476B1 (en) Proxy data storage system monitoring aggregator for a geographically-distributed environment
CN110798358A (zh) 分布式服务标识方法、装置、计算机可读介质及电子设备
CN108829340B (zh) 存储处理方法、装置、存储介质及处理器
CN116627925A (zh) 一种基于k8s环境的业务日志数据处理方法及装置
CN107491551B (zh) 一种分布式文件系统实现客户端访问的方法及装置
CN112087517B (zh) 存储集群的处理方法及处理装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant