CN105487815A - 一种基于rdma机制的并行输入输出方法 - Google Patents
一种基于rdma机制的并行输入输出方法 Download PDFInfo
- Publication number
- CN105487815A CN105487815A CN201510828200.0A CN201510828200A CN105487815A CN 105487815 A CN105487815 A CN 105487815A CN 201510828200 A CN201510828200 A CN 201510828200A CN 105487815 A CN105487815 A CN 105487815A
- Authority
- CN
- China
- Prior art keywords
- input
- output operation
- output
- server
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
- G06F3/0611—Improving I/O performance in relation to response time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer And Data Communications (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种基于RDMA机制的并行输入输出方法。所述并行输入输出方法包括:客户端通过套接字端口向服务器发送输入输出操作信息;客户端通过InfiniBand端口向服务器传送输入输出操作数据;服务器根据接收到的输入输出操作信息和输入输出操作数据统一进行输入输出操作。
Description
技术领域
本发明涉及计算机技术领域,更具体地说,本发明涉及一种基于RDMA(RemoteDirectMemoryAccess,指远程直接内存访问)机制的并行输入输出方法。
背景技术
为了提高I/O(输入输出)性能,分布式处理系统基本都采用并行文件系统,对分布在集群内各节点上的所有文件、设备和网络资源进行全局访问,并且为用户呈现出单一系统映像。并行文件系统具有分布式、高性能、高扩展等特点,非常适合数据共享需求和高性能计算需求,但它也有一定的局限性,通常并行文件系统的稳定性随着规模的增加而逐步下降,对小文件不太适合,高可扩展也有一定的局限性,有可能成为系统或应用的瓶颈。
目前主流气象格式在新版中已经支持并行I/O功能,例如NetCDF,通过非阻塞I/O,在并发读写的基础上,能够聚合多个客户端请求,实现更好的I/O性能。但科学与工程计算类应用类型广泛,很多都有自己专用的数据格式,或者采用无格式数据格式,因此很有必要研发一个面向一般科学与工程计算类应用、支持一般数据格式的并行I/O中间件,与应用课题相对独立,以减少用户研发的难度和复杂度。
也就是说,虽然并行文件系统适合数据共享需求和高性能计算需求,但它的稳定性通常会随着规模的增加而逐步下降,同时也不太适合处理小文件的读写,在某些应用中可能会成为性能瓶颈。气象数据格式虽然支持并行I/O功能,但其不具有通用性,无法应用到其它的科学与工程计算类应用课题中。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种基于RDMA机制的并行输入输出方法,其面向一般的科学与工程计算类应用课题,支持一般数据格式,主要用于解决大规模情况下应用课题的I/O瓶颈问题。
为了实现上述技术目的,根据本发明,提供了一种基于RDMA机制的并行输入输出方法,所述并行输入输出方法基于客户端-服务器架构,所述并行输入输出方法包括:客户端通过套接字端口向服务器发送输入输出操作信息;客户端通过InfiniBand端口向服务器传送输入输出操作数据;服务器根据接收到的输入输出操作信息和输入输出操作数据统一进行输入输出操作。
优选地,所述输入输出操作是写操作。
优选地,所述输入输出操作信息和所述输入输出操作数据不具有固定数据格式。
优选地,所述输入输出操作信息和所述输入输出操作数据具有由客户端定义的数据格式。
根据本发明,还提供了一种基于RDMA机制的并行输入输出方法,所述并行输入输出方法基于客户端-服务器架构,而且所述客户端-服务器架构包括多个客户端和一个服务器;其特征在于所述并行输入输出方法包括:所述多个客户端中的两个或多个客户端同时进行通过套接字端口向服务器发送输入输出操作信息并通过InfiniBand端口向服务器传送输入输出操作数据的操作;服务器根据从各个客户端接收到的输入输出操作信息和输入输出操作数据统一进行各个输入输出操作。
优选地,所述输入输出操作是写操作。
优选地,所述输入输出操作信息和所述输入输出操作数据不具有固定数据格式。
优选地,所述输入输出操作信息和所述输入输出操作数据具有由客户端定义的数据格式。
本发明的优点在于:某些科学与工程计算类应用课题在大规模情况下存在I/O瓶颈问题,如WRF,在高分辨率预报大规模运行时,I/O时间与计算时间相当,I/O已严重影响到其性能;通过采用本发明,可避免这种I/O瓶颈问题,同时本发明对数据格式没有特定要求,用户可自定义自己需要的数据格式;对于某些专用的数据格式,如果采用本发明的I/O技术,可将并行I/O功能扩展到该专用数据格式,潜在应用场景广泛。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的基于RDMA机制的并行输入输出方法的流程图。
图2示意性地示出了根据本发明优选实施例的基于RDMA机制的并行输入输出方法的通信示意。
图3示意性地示出了根据本发明优选实施例的基于RDMA机制的并行输入输出方法的系统示意图。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
多数科学与工程计算类应用课题在迭代若干次后会输出一次中间结果,且基本都是调用系统自带的阻塞性写操作,I/O性能有时对课题的计算速度有较大影响,甚至成为瓶颈。本发明旨在解决大规模情况下某些科学与工程计算类课题的I/O瓶颈问题,以提升应用课题的性能。
图1示意性地示出了根据本发明优选实施例的基于RDMA机制的并行输入输出方法的流程图。图2示意性地示出了根据本发明优选实施例的基于RDMA机制的并行输入输出方法的通信示意。
如图2所示,根据本发明优选实施例的基于RDMA机制的并行输入输出方法基于客户端-服务器架构。例如,本发明的应用课题为客户端,I/O服务程序为服务器端。
如图1所示,根据本发明优选实施例的基于RDMA机制的并行输入输出方法包括依次执行的下述步骤:
第一步骤S1:客户端通过套接字(socket)端口向服务器发送输入输出操作信息;
第二步骤S2:客户端通过InfiniBand(无限带宽)端口向服务器传送输入输出操作数据;
第三步骤S3:服务器根据接收到的输入输出操作信息和输入输出操作数据统一进行输入输出操作。
例如,所述输入输出操作是写操作。
所述输入输出操作信息和所述输入输出操作数据不具有固定数据格式。
优选地,所述输入输出操作信息和所述输入输出操作数据具有由客户端定义的数据格式。
而且,进一步地,服务器与客户端之间是一对多的逻辑关系,如图3所示,服务器具备并发处理能力,可同时动态处理多个客户端(多个用户应用)的多个I/O服务请求;即,多个客户端(多个用户应用)可同时向服务器发送I/O请求,由服务器进行动态调度处理。
即,所述客户端-服务器架构包括多个客户端和一个服务器;而且其中所述多个客户端中的两个或多个客户端同时进行通过套接字端口向服务器发送输入输出操作信息并通过InfiniBand端口向服务器传送输入输出操作数据的操作;服务器根据从各个客户端接收到的输入输出操作信息和输入输出操作数据统一进行各个输入输出操作。
本发明提供了一种具有普适性的并行I/O方法,可并发处理有格式/无格式的I/O操作,而且其中并发处理能力主要是由服务器端的动态调度方法来完成。本发明覆盖应用级并行I/O中间件领域,采用了
面向一般数据格式的并行I/O接口以及I/O服务请求的动态调度方法。
本发明的优点在于:某些科学与工程计算类应用课题在大规模情况下存在I/O瓶颈问题,如WRF,在高分辨率预报大规模运行时,I/O时间与计算时间相当,I/O已严重影响到其性能;通过采用本发明,可避免这种I/O瓶颈问题,同时本发明对数据格式没有特定要求,用户可自定义自己需要的数据格式;对于某些专用的数据格式,如果采用本发明的I/O技术,可将并行I/O功能扩展到该专用数据格式,潜在应用场景广泛。
此外,需要说明的是,除非特别说明或者指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (8)
1.一种基于RDMA机制的并行输入输出方法,所述并行输入输出方法基于客户端-服务器架构,其特征在于所述并行输入输出方法包括:
客户端通过套接字端口向服务器发送输入输出操作信息;
客户端通过InfiniBand端口向服务器传送输入输出操作数据;
服务器根据接收到的输入输出操作信息和输入输出操作数据统一进行输入输出操作。
2.根据权利要求1所述的基于RDMA机制的并行输入输出方法,其特征在于,所述输入输出操作是写操作。
3.根据权利要求1或2所述的基于RDMA机制的并行输入输出方法,其特征在于,所述输入输出操作信息和所述输入输出操作数据不具有固定数据格式。
4.根据权利要求1或2所述的基于RDMA机制的并行输入输出方法,其特征在于,所述输入输出操作信息和所述输入输出操作数据具有由客户端定义的数据格式。
5.一种基于RDMA机制的并行输入输出方法,所述并行输入输出方法基于客户端-服务器架构,而且所述客户端-服务器架构包括多个客户端和一个服务器;其特征在于所述并行输入输出方法包括:所述多个客户端中的两个或多个客户端同时进行通过套接字端口向服务器发送输入输出操作信息并通过InfiniBand端口向服务器传送输入输出操作数据的操作;服务器根据从各个客户端接收到的输入输出操作信息和输入输出操作数据统一进行各个输入输出操作。
6.根据权利要求5所述的基于RDMA机制的并行输入输出方法,其特征在于,所述输入输出操作是写操作。
7.根据权利要求5或6所述的基于RDMA机制的并行输入输出方法,其特征在于,所述输入输出操作信息和所述输入输出操作数据不具有固定数据格式。
8.根据权利要求5或6所述的基于RDMA机制的并行输入输出方法,其特征在于,所述输入输出操作信息和所述输入输出操作数据具有由客户端定义的数据格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510828200.0A CN105487815B (zh) | 2015-11-24 | 2015-11-24 | 一种基于rdma机制的并行输入输出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510828200.0A CN105487815B (zh) | 2015-11-24 | 2015-11-24 | 一种基于rdma机制的并行输入输出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105487815A true CN105487815A (zh) | 2016-04-13 |
CN105487815B CN105487815B (zh) | 2018-04-10 |
Family
ID=55674820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510828200.0A Active CN105487815B (zh) | 2015-11-24 | 2015-11-24 | 一种基于rdma机制的并行输入输出方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105487815B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101577716A (zh) * | 2009-06-10 | 2009-11-11 | 中国科学院计算技术研究所 | 基于InfiniBand网络的分布式存储方法和系统 |
CN102404398A (zh) * | 2011-11-17 | 2012-04-04 | 曙光信息产业(北京)有限公司 | 一种支持多客户端的rdma消息发送方法 |
CN102404212A (zh) * | 2011-11-17 | 2012-04-04 | 曙光信息产业(北京)有限公司 | 一种基于InfiniBand网络的跨平台RDMA通信方法 |
CN103777992A (zh) * | 2012-10-18 | 2014-05-07 | 北京临近空间飞行器系统工程研究所 | 跨异构操作系统的一种i/o密集型协同交互仿真方法 |
-
2015
- 2015-11-24 CN CN201510828200.0A patent/CN105487815B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101577716A (zh) * | 2009-06-10 | 2009-11-11 | 中国科学院计算技术研究所 | 基于InfiniBand网络的分布式存储方法和系统 |
CN102404398A (zh) * | 2011-11-17 | 2012-04-04 | 曙光信息产业(北京)有限公司 | 一种支持多客户端的rdma消息发送方法 |
CN102404212A (zh) * | 2011-11-17 | 2012-04-04 | 曙光信息产业(北京)有限公司 | 一种基于InfiniBand网络的跨平台RDMA通信方法 |
CN103777992A (zh) * | 2012-10-18 | 2014-05-07 | 北京临近空间飞行器系统工程研究所 | 跨异构操作系统的一种i/o密集型协同交互仿真方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105487815B (zh) | 2018-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10394891B2 (en) | Distributed graph databases that facilitate streaming data insertion and queries by efficient throughput edge addition | |
US10380188B2 (en) | Distributed graph databases that facilitate streaming data insertion and queries by reducing number of messages required to add a new edge by employing asynchronous communication | |
US20200285514A1 (en) | Automated reconfiguration of real time data stream processing | |
US11093148B1 (en) | Accelerated volumes | |
US20190068690A1 (en) | Automated management of resource attributes across network-based services | |
US20190384774A1 (en) | Distributed graph databases that facilitate streaming data insertion and low latency graph queries | |
KR102634058B1 (ko) | 입력 및 출력 스키마 매핑 | |
US20200341670A1 (en) | Method, device, and computer readable medium for data deduplication | |
US9953071B2 (en) | Distributed storage of data | |
US10776325B2 (en) | Parallel access to data in a distributed file system | |
JP7047228B2 (ja) | データ照会方法、装置、電子機器、可読記憶媒体、及びコンピュータープログラム | |
CN111949693B (zh) | 一种数据处理装置、数据处理方法、存储介质及电子设备 | |
CN110263277B (zh) | 页面数据的显示方法、更新方法、装置、设备及存储介质 | |
CN103701935A (zh) | 一种云计算服务平台的构建方法及系统 | |
WO2022242425A1 (zh) | 区块链跨链服务管理方法及装置 | |
GB2520515A (en) | Publish and subscribe broker with multiple orthogonal topic trees | |
CN105487815A (zh) | 一种基于rdma机制的并行输入输出方法 | |
US11442990B2 (en) | Asserted relationship data structure | |
US10114864B1 (en) | List element query support and processing | |
US9542246B2 (en) | Sharing a partitioned data set across parallel applications | |
US9477516B1 (en) | Concurrent in-memory data publication and storage system | |
US20240264990A1 (en) | Large data object transfer and storage for microservices | |
CN105376273A (zh) | 一种标准化云服务接口及方法 | |
US20190034249A1 (en) | Message processing | |
US20230305918A1 (en) | Fault Tolerant Big Data Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |