CN101621537B - 一种低成本高光谱海量数据并行处理系统 - Google Patents

一种低成本高光谱海量数据并行处理系统 Download PDF

Info

Publication number
CN101621537B
CN101621537B CN200910089806A CN200910089806A CN101621537B CN 101621537 B CN101621537 B CN 101621537B CN 200910089806 A CN200910089806 A CN 200910089806A CN 200910089806 A CN200910089806 A CN 200910089806A CN 101621537 B CN101621537 B CN 101621537B
Authority
CN
China
Prior art keywords
server
hyperspectral
low cost
storage server
end server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910089806A
Other languages
English (en)
Other versions
CN101621537A (zh
Inventor
赵慧洁
董超
王维
李娜
贾国瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN200910089806A priority Critical patent/CN101621537B/zh
Publication of CN101621537A publication Critical patent/CN101621537A/zh
Application granted granted Critical
Publication of CN101621537B publication Critical patent/CN101621537B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种低成本高光谱海量数据并行处理系统,由前端服务器、计算服务器、存储服务器、内部交换网络、外部交换网络、键盘/显示器/鼠标(KeyboardVideo Mouse,KVM)切换器、终端组成,内部交换网络连接前端服务器、计算服务器和存储服务器,用户通过外部交换网络与前端服务器连接,两套终端监视系统运行状态,系统采用Beowulf集群架构,通过虚拟存储技术提供数据的并行访问,实现并行计算、资源监测和作业管理功能。本发明具有计算效率高、I/O带宽高、成本低等优点,对高光谱地面运营系统的研制具有重要价值。

Description

一种低成本高光谱海量数据并行处理系统
技术领域
本发明涉及一种低成本高光谱海量数据并行处理系统,用于高光谱海量数据的快速处理,特别适用于对时效性要求较高的应用场合,属于高光谱数据处理与应用技术领域。
背景技术
随着传感器空间分辨率、光谱分辨率的不断提高,高光谱遥感显示了其它遥感手段无法比拟的技术优势,它既对目标成像、又可以测量目标波谱特征,实现目标特性的综合探测与识别,大大扩宽了遥感技术的应用领域。但高光谱数据波段多、数据量大,处理系统的计算效率成为制约高光谱载荷有效应用的瓶颈。如对环境建模与评估、军事目标探测、森林火灾监测、生物危机监测、化学污染和石油井喷监控,这些应用领域对系统响应时间非常敏感,对处理系统的计算效率提出了非常高的要求。
并行计算技术发展至今,已成功解决部分数据密集型场合的应用问题,在高光谱海量数据处理领域也取得了初步成果,但仍存在以下三方面的缺陷。首先,传统处理系统多采用对称多处理器(Symmetric Multiple Proc-essor,SMP)、大规模并行处理机(Massively Parallel Processor,MPP)架构,这类系统技术起点高、使用难度大、成本高,不适合技术、资金较薄弱的部门使用。其次,海量数据处理对系统存储模块的性能要求较高,多采用网络接入存储(Network Access Server,NAS)或存储区域网络(StorageArea Network,SAN)解决,由于NAS和SAN包含光纤、小型计算机系统接口(Small Computer Systems Interface,SCSI)硬盘等高端设备,进一步提高了系统的使用门槛。最后,高端处理系统多使用商业软件,购买各种软件不仅费用高,且使用、维护难度大,对使用者的专业技能要求较高。针对上述问题,本发明提出一种低成本高光谱海量数据并行处理系统。
发明内容
本发明的目的在于提供一种低成本高光谱海量数据并行处理系统,以克服现有高光谱数据处理系统成本过高的缺点,构建一种低成本、高计算效率、高I/O带宽的高光谱海量数据并行处理系统。
本发明的技术解决方案是:一种低成本高光谱海量数据并行处理系统,由前端服务器、计算服务器、存储服务器、内部交换网络、外部交换网络、键盘/显示器/鼠标切换器(即KVM切换器)、终端组成。其中,内部交换网络为千兆以太网,连接前端服务器、计算服务器和存储服务器;外部交换网络为百兆以太网,用户通过外部交换网络与前端服务器连接,用户经该外部交换网络登录系统、传输数据;两套终端监视系统运行状态,计算服务器和存储服务器通过键盘/显示器/鼠标切换器(即KVM切换器)共享一套终端。
系统采用Beowulf集群架构,前端服务器、计算服务器、存储服务器内各节点为个人电脑(PC),并通过并行虚拟文件系统(Parallel Virtual FileSystem,PVFS)实现数据的并行访问。
用户通过安全外壳协议访问前端服务器(5),使用文件传输协议与存储服务器(6)进行数据传输。
前端服务器安装并行虚拟文件系统元数据服务(Metadata Server,mgr)进程,存储服务器安装并行虚拟文件系统数据服务(I/O Server,iod)进程,计算服务器安装并行虚拟文件系统库(Parallel Virtual File System NativeAPI,Iibpvfs),前端服务器mgr进程生成数据索引目录,计算服务器通过libpvfs与mgr进程交互,获取数据分布信息,然后与存储服务器iod进程建立连接,读写远程数据。
软件系统基于Rocks软件包,实现并行计算、资源监测和作业管理功能。首先在前端服务器上安装Rocks软件系统各功能模块,然后通过KickStart实现计算服务器、存储服务器操作系统和软件的自动化安装。计算服务器和存储服务器通过简单文件传输协议(Trivial File Transfer Protocol,tftp)从前端服务器获取安装配置文件,然后经网络文件系统(Network File System,NFS)下载软件包,安装结束后,计算服务器和存储服务器的信息被写入系统数据库。
本发明的原理是:利用PC、以太网等商用设备组建Beowulf集群,通过Rocks实现系统的集中管理;使用PVFS软件包组建存储服务器,将大文件分布地存储在各存储节点内,通过虚拟存储技术提高系统的数据访问能力,消除I/O瓶颈;通过KVM切换器和两套终端设备监控系统资源状态,一套终端直接连接在前端服务器,另一套终端通过KVM切换器在计算服务器和存储服务器分时复用;外部用户通过百兆交换网络访问前端服务器、提交处理任务,前端服务器根据系统的资源状态自动为用户请求分配作业和资源。
本发明与现有技术相比的优点在于:(1)系统采用Beowulf集群架构,通过PC、以太网等廉价设备组建并行处理平台,获得近似高端并行处理系统的计算性能,同时最小化成本,降低高光谱海量数据地面处理系统研制的前期投入。(2)通过PVFS缓解系统I/O瓶颈,存储服务器由IDE硬盘和以太网等廉价硬件构成,避免了NAS和SAN中光纤、SCSI硬盘使用难度大、成本高的缺点。(3)使用Rocks软件包实现操作系统、各种应用软件的自动安装、配置与维护,节省了高端系统中商业软件的开销,且避免了系统管理过程中繁琐的重复性工作,降低了使用门槛,对管理员和使用者无太多专业知识要求。
附图说明
图1为本发明的结构框架图;
图2为本发明的系统软件配置示意图;
图3为本发明的并行I/O访问示意图;
图4为本发明的系统使用方法示意图。
具体实施方式
如图1所示,本发明包括前端服务器5、计算服务器1、存储服务器6、内部交换网络7、外部交换网络4、KVM切换器2、终端3,其中内部交换网络7为千兆以太网,连接前端服务器5、计算服务器1和存储服务器6;外部交换网络4为百兆以太网,用户通过该网访问系统资源;系统包含两套终端3,计算服务器1和存储服务器6通过KVM切换器2共享一套终端,另一套终端连接前端服务器5。系统采用Beowulf集群架构,前端服务器5、计算服务器1、存储服务器6内各节点为PC,实施过程中各节点包含主频2.0G 64位单核心处理器、1G内存、80G硬盘和千兆以太网卡。
如图2所示,本发明的系统软件安装流程为:前端服务器5安装Rocks软件包,包括Linux操作系统、并行计算软件包、资源监测软件、SUN网格引擎(Sun Grid Engine,SGE)作业管理软件等,并设置主机名、IP地址、域名等关键系统参数,开启节点安装服务51、tftp服务52和NFS服务53;计算服务器1和存储服务器6内的子节点安装时,首先向节点安装服务51发送安装请求,通过审核后从tftp服务52下载安装配置文件,然后根据配置信息从NFS服务53下载相应的软件包进行安装,安装结束后向前端服务器5发送信号以更新集群信息数据库54的内容;计算服务器1和存储服务器6内的所有节点依次执行上述过程,直到所有节点完成安装。
如图3所示,本发明中采用PVFS解决海量数据存储问题。PVFS为计算机领域的公知技术,是虚拟存储技术的一种实现方式,通过将文件分布地存储在不同节点内提高数据读/写效率。前端服务器5安装PVFS元数据服务进程mgr,生成真实数据的索引目录;存储服务器6内各节点安装I/O后台服务iod进程,负责真实数据的传输;计算服务器1通过Iibpvfs库函数,实现远程数据在本地的浏览和修改。计算服务器1首先通过IibpVfs与mgr交互,查找索引目录、获取远程数据的真实分布信息,然后与相应的iod进程建立连接,进行数据传输。如上所述,存储服务器6内各节点的本地存储介质被整合为一个大容量、并发读写的虚拟硬盘,对外提供并行I/O服务。
如图4所示,本发明的系统使用方法为:用户通过ssh服务55远程登陆前端服务器5,经索引目录57浏览存储服务器6虚拟硬盘的内容,使用FTP服务58向存储服务器6传输待处理数据;用户使用SGE作业管理系统56向系统提交处理请求,SGE调用内部资源管理模块,根据计算服务器1的工作状态将用户请求插入作业队列并分配计算资源;用户可通过SGE作业管理系统56查询任务执行状态,完成后可通过FTP服务58将结果下载到本地硬盘。

Claims (6)

1.一种低成本高光谱海量数据并行处理系统,其特征在于:由前端服务器(5)、计算服务器(1)、存储服务器(6)、内部交换网络(7)、外部交换网络(4)、键盘/显示器/鼠标切换器(2)、终端(3)组成,内部交换网络(7)连接前端服务器(5)、计算服务器(1)和存储服务器(6),用户通过外部交换网络(4)与前端服务器(5)连接,计算服务器(1)和存储服务器(6)通过键盘/显示器/鼠标切换器(2)共享一套终端(3),另一套终端(3)连接前端服务器(5);两套终端监视系统运行状态;
其中,所述的前端服务器(5)安装并行虚拟文件系统元数据服务进程,存储服务器(6)安装并行虚拟文件系统数据服务进程,计算服务器(1)安装并行虚拟文件系统库;
其中,软件系统基于Rocks软件包,首先在前端服务器(5)上安装Rocks软件系统各功能模块,然后通过KickStart实现计算服务器(1)、存储服务器(6)内各节点操作系统和软件的自动化安装。
2.根据权利要求1所述的低成本高光谱海量数据并行处理系统,其特征在于:所述的前端服务器(5)、计算服务器(1)、存储服务器(6)内各节点为个人电脑。
3.根据权利要求1所述的低成本高光谱海量数据并行处理系统,其特征在于:所述的内部交换网络(7)采用千兆以太网,外部交换网络(4)采用百兆以太网。
4.根据权利要求1所述的低成本高光谱海量数据并行处理系统,其特征在于:用户通过安全外壳协议访问前端服务器(5),使用文件传输协议与存储服务器(6)进行数据传输。
5.根据权利要求1所述的低成本高光谱海量数据并行处理系统,其特征在于:所述的前端服务器(5)元数据服务进程生成数据索引目录,计算服务器(1)通过数据服务进程与元数据服务进程交互,获取数据分布信息,然后与存储服务器(6)并行虚拟文件系统数据服务进程建立连接,读写远程数据。
6.根据权利要求1所述的低成本高光谱海量数据并行处理系统,其特征在于:计算服务器(1)和存储服务器(6)使用简单文件传输协议,从前端服务器(5)获取安装配置文件,然后经网络文件系统下载软件包,安装结束后,计算服务器(1)和存储服务器(6)的信息被写入系统数据库。
CN200910089806A 2009-07-24 2009-07-24 一种低成本高光谱海量数据并行处理系统 Expired - Fee Related CN101621537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910089806A CN101621537B (zh) 2009-07-24 2009-07-24 一种低成本高光谱海量数据并行处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910089806A CN101621537B (zh) 2009-07-24 2009-07-24 一种低成本高光谱海量数据并行处理系统

Publications (2)

Publication Number Publication Date
CN101621537A CN101621537A (zh) 2010-01-06
CN101621537B true CN101621537B (zh) 2012-09-05

Family

ID=41514578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910089806A Expired - Fee Related CN101621537B (zh) 2009-07-24 2009-07-24 一种低成本高光谱海量数据并行处理系统

Country Status (1)

Country Link
CN (1) CN101621537B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436531A (zh) * 2011-11-25 2012-05-02 北京航空航天大学 一种基于分布式组件的高光谱数据仿真及应用平台
CN104915336B (zh) * 2014-03-12 2021-03-23 腾讯科技(深圳)有限公司 文档翻译的方法及装置
CN110647399A (zh) * 2019-09-22 2020-01-03 南京信易达计算技术有限公司 一种基于人工智能网络的高性能计算系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1664793A (zh) * 2005-03-11 2005-09-07 清华大学 基于元数据服务器的存储虚拟化管理方法
CN1696921A (zh) * 2004-05-14 2005-11-16 国际商业机器公司 利用睡眠状态进行动态节点分区的方法和系统
CN1758228A (zh) * 2004-10-10 2006-04-12 深圳市三道科技有限公司 虚拟结构式网络计算机支撑平台系统及构造方法
CN1851634A (zh) * 2005-04-22 2006-10-25 罗技欧洲公司 虚拟存储器远程控制
CN101105737A (zh) * 2006-07-11 2008-01-16 任永坚 存储介质处理方法、系统及数据读写操作方法、系统
US7519785B1 (en) * 2004-07-26 2009-04-14 Symantec Operating Corporation Storage layout and data replication

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1696921A (zh) * 2004-05-14 2005-11-16 国际商业机器公司 利用睡眠状态进行动态节点分区的方法和系统
US7519785B1 (en) * 2004-07-26 2009-04-14 Symantec Operating Corporation Storage layout and data replication
CN1758228A (zh) * 2004-10-10 2006-04-12 深圳市三道科技有限公司 虚拟结构式网络计算机支撑平台系统及构造方法
CN1664793A (zh) * 2005-03-11 2005-09-07 清华大学 基于元数据服务器的存储虚拟化管理方法
CN1851634A (zh) * 2005-04-22 2006-10-25 罗技欧洲公司 虚拟存储器远程控制
CN101105737A (zh) * 2006-07-11 2008-01-16 任永坚 存储介质处理方法、系统及数据读写操作方法、系统

Also Published As

Publication number Publication date
CN101621537A (zh) 2010-01-06

Similar Documents

Publication Publication Date Title
Chan et al. {HashKV}: Enabling Efficient Updates in {KV} Storage via Hashing
JP6510112B2 (ja) データストリーム取り込み及び永続性ポリシ
US10447806B1 (en) Workload scheduling across heterogeneous resource environments
US9684450B2 (en) Profile-based lifecycle management for data storage servers
CN111263938A (zh) 基于规则的自主数据库云服务框架
CN108572843B (zh) 基于单个微控制器的多个计算节点管理
CN103279380A (zh) 信息处理系统和方法
CN106777394B (zh) 一种集群文件系统
CN110727664A (zh) 用于对公有云数据执行目标操作的方法与设备
EP3425534A1 (en) Selecting backing stores based on data request
CN101621537B (zh) 一种低成本高光谱海量数据并行处理系统
US10324747B1 (en) Distributed configuration checking and troubleshooting in data center using best practices rules
US11805338B2 (en) Systems and methods for enabling smart network interface card as an advanced telemetry appliance
CN111247508B (zh) 网络存储架构
US20150261524A1 (en) Management pack service model for managed code framework
US11922159B2 (en) Systems and methods for cloning firmware updates from existing cluster for cluster expansion
Brandt et al. Large-scale persistent numerical data source monitoring system experiences
US20160110219A1 (en) Managing i/o operations in a shared file system
US20070174034A1 (en) Transparent intellectual network storage device
Ranade Shared data clusters: Scaleable, manageable, and highly available systems (Veritas Series)
US11870668B1 (en) System and method for managing data processing systems and hosted devices
Quintero et al. Implementing an IBM High-Performance Computing Solution on IBM Power System S822LC
CN117093158B (zh) 分布式存储系统的存储节点、系统、数据处理方法及装置
US20230409423A1 (en) Collection of forensic data after a processor freeze
US20240201856A1 (en) Provide host applications ability to dynamically manage application specific functionality on storage application

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120905

Termination date: 20130724