CN105204787B - 一种pcie ssd阵列的数据读方法、系统及读写方法 - Google Patents
一种pcie ssd阵列的数据读方法、系统及读写方法 Download PDFInfo
- Publication number
- CN105204787B CN105204787B CN201510686928.4A CN201510686928A CN105204787B CN 105204787 B CN105204787 B CN 105204787B CN 201510686928 A CN201510686928 A CN 201510686928A CN 105204787 B CN105204787 B CN 105204787B
- Authority
- CN
- China
- Prior art keywords
- command
- data
- array
- disk
- buffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本发明公开了一种PCIE SSD阵列的数据读方法、系统及读写方法,数据不经过系统内存,直接从FC模块传输到PCIE SSD盘控制器的共享内存上。本发明避免了系统内存性能成为制约阵列性能的瓶颈,另外由于每块PCIE SSD盘都有自己的内存,只需要保证每块盘上的内存读写性能能达到本身磁盘读写带宽的两倍,就能保证磁盘上的内存性能不会成为制约阵列和磁盘性能的瓶颈了。
Description
技术领域
本发明涉及一种PCIE SSD阵列的数据读方法、系统及读写方法。
背景技术
现有操作系统和磁盘阵列方案都是按照早先机械盘的性能远远低于内存的性能设计的,和机械盘的读写延时相比,内存的读写延时几乎可以忽略不计,所以不管是常用的操作系统还是阵列的软件架构,读写的数据都是先放到系统内存中再往盘下或者返回给应用。读的时候会先在内存cache中先看数据能否命中,能命中的话则直接从内存cache中取出返回给应用,如不能命中才从磁盘中取出到内存中交给应用。我们以常见的磁盘阵列通过FC共享LUN到主机的情况看一下目前架构的读写流程,见图1。
图1和图2的方法没有考虑回写的情况,读流程也没有考虑cache命中的情况,并且因为FC的硬件设计差别或者用的以太网ISCSI共享LUN在流程的细节上会有一些差别,但是最终有一点是不会变的,就是IO的数据都是先写到阵列系统内存中再返回给请求方。这个方案在磁盘的性能较低的时候能极高的提高磁盘的读写性能(因为可以回写和cache命中),但采用此架构,磁盘的性能理论上只能达到内存带宽的一半以下(无论读写IO数据都要在系统内存中读写一次),实际还会更低(IO命令本身和阵列的操作系统和软件都会消耗系统内存的容量和带宽)。在极端理想的情况下,即cache足够大,所有写都可以回写不用下盘,所有读都可以命中,阵列的性能也只能接近内存带宽。
当SSD磁盘出现后,硬盘的读写性能已经得到了极大的提高。目前最新的高性能SSD硬盘普遍采取PCIE接口,性能已经突破了SATA和SAS协议本身的限制。如intel的p3700,读写带宽分别能达2800/2000MB/s的级别。而且SSD的性能还在持续的提高之中。而内存带宽的情况在DDR3-1600四通道的情况下读写都只有20+GB/s,就算在目前最快的超频内存DDR4-3000四通道的情况下读写也只能分别到达60+GB/s和40+GB/s。在这种情况下普通单机单磁盘的系统内存带宽还不足以成为性能的瓶颈,但在多磁盘组成RAID组的情况下,或者在阵列的多磁盘情况下,系统内存带宽则可能出现瓶颈。如48块intel的p3700固态硬盘组成的阵列理论写带宽可以达到96GB/s,读带宽则更高,在这种情况下目前的内存性能已成为阵列性能的瓶颈。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种PCIE SSD阵列的数据读方法、系统及读写方法。
为解决上述技术问题,本发明所采用的技术方案是:一种PCIE SSD阵列的数据读方法,包括以下步骤:
1)TGT端FC模块接收到读命令并通知阵列驱动;
2)阵列驱动将读命令根据LUN的RAID情况分为一个或多个IO命令,并分配给不同的PCIE SSD磁盘;
3)为每个IO在对应的盘共享内存上分配buffer;
4)阵列驱动将分配好的一个或多个IO命令发送给对应的PCIE SSD磁盘;
5)PCIE SSD磁盘收到IO命令后,从FLASH中读出数据放到位于PCIE SSD磁盘的共享内存的buffer中,完成IO命令;
6)阵列驱动得到IO命令完成消息后通知TGT端FC模块将buffer数据回传;
7)TGT端FC模块通过PCIE命令读取回传的buffer数据,回传给INI端,完成读命令。
本发明还提供了一种PCIE SSD阵列的数据读系统,包括:
TGT端FC模块:用于接收写命令并通知阵列驱动;通过PCIE命令读取回传的buffer数据,回传给INI端,完成读命令;
阵列驱动:用于将写命令根据LUN的RAID情况分为一个或多个IO命令,将IO命令分配给不同的PCIE SSD磁盘,并在Buffer分配单元为每个IO分配buffer后,将分配好的一个或多个IO命令发送给对应的PCIE SSD磁盘;在得到IO命令后通知IGT端FC模块将buffer数据回传;
Buffer分配单元:用于为每个IO命令在对应的盘共享内存上分配buffer;
PCIE SSD磁盘:用于在接收到IO命令后,从FLASH中读出数据放到位于PCIE SSD磁盘的共享内存的buffer中,完成IO命令。
本发明的PCIE SSD阵列的数据读写方法包括写数据方法和上述读数据方法;
所述写数据方法包括以下步骤:
1)TGT端FC模块接收到写命令并通知阵列驱动;
2)阵列驱动解析写命令后,根据LUN的RAID情况分为一个或多个IO,分配给不同的PCIE SSD磁盘;
3)为每个IO在对应的盘共享内存上分配buffer;
4)TGT端FC模块通知INI端接收数据;
5)TGT端FC模块直接将接收到的数据通过PCIE命令写入上述步骤3)分配的buffer之中;
6)阵列驱动将分配好的一个或多个IO发送给对应的PCIE SSD磁盘;
7)PCIE SSD磁盘接收到IO命令后,将位于共享内存中的数据下刷到FLASH颗粒,完成IO命令;
8)阵列驱动通知TGT端FC模块完成写命令并回复INI端FC模块。
与现有技术相比,本发明所具有的有益效果为:本发明读写请求的数据不经过阵列系统内存,所以性能不受阵列系统内存性能的限制,使得阵列读写带宽可以超过主机内存的带宽性能;由于读写请求数据不使用阵列系统内存,节约下来的阵列系统内存容量和带宽可以给阵列系统和IO命令本身使用,从总体上提高了阵列的性能;现有方法每一次读写请求的数据都需要在PCIE链路上分别完成一次写操作和一次读操作,而采用本发明方法每次读写请求都只需要完成一次读操作或写操作,从而减轻了阵列PCIE链路带宽压力。在阵列的读写业务带宽相同的情况下,采用本发明方法的PCIE链路传输请求数据的带宽只需要现有方法的一半。
附图说明
图1为现有的写流程图;
图2为现有的读流程图;
图3为本发明方法的写流程图;
图4为本发明方法的读流程图;
图5为现有架构IO的阵列内数据流;
图6为本发明方法IO阵列内数据流。
具体实施方式
本发明基于使用PCIE SSD作为存储介质的存储阵列,PCIE SSD包括但不限于基于AHCI、NVMe协议的SSD盘。
本发明需要将PCIE SSD盘的内存共享给主机(SSD盘的主机),目前NVMe 1.2协议已经包含了将磁盘内存共享给主机的接口,其它不支持NVMe 1.2协议的PCIE SSD盘也可以通过自定义拓展协议实现将磁盘控制器的内存共享给主机。
从图3和图4可知,本发明和现有方案最大的不同是数据不经过系统内存,而是直接从FC模块传输到PCIE SSD盘控制器的共享内存上,从而避免了系统内存性能成为阵列性能的瓶颈,另外由于每块PCIE SSD盘都有自己的内存,采用本发明我们只需要保证每块盘上的内存读写性能能达到本身磁盘读写带宽的两倍,就能保证磁盘上的内存性能不会成为阵列和磁盘性能的瓶颈了(IO数据经过PCIE SSD的共享内存也需要分别读写一次)。
对比图4和图5可知,在不考虑回写和cache命中的情况下,采用本发明方案读写命令都分别可以减少一次IO数据的写系统内存和读系统的操作。在实际对带宽性能要求最高的场景下,如地质勘探,都是在短时间内有大量数据需要存储,都是连续写业务或连续读业务,在这种情况下回写和cache命中的效果几乎可以忽略不计。所以在真实高带宽读写场景下,采用本发明的方法可以比传统方法节约相当于两倍阵列IO带宽的系统内存带宽,这样可以使阵列的带宽性能不受系统内存带宽的限制,节约出来的带宽和容量也让其它使用系统内存的程序如IO命令本身内容以及操作系统能运行得更快,从而提高阵列的整体性能表现。
Claims (3)
1.一种PCIE SSD阵列的数据读方法,其特征在于,包括以下步骤:
1)TGT端FC模块接收到读命令并通知阵列驱动;
2)阵列驱动将读命令根据LUN的RAID情况分为一个或多个IO命令,并分配给不同的PCIE SSD磁盘;
3)为每个IO命令在对应的盘共享内存上分配buffer;
4)阵列驱动将分配好的一个或多个IO命令发送给对应的PCIE SSD磁盘;
5)PCIE SSD磁盘收到IO命令后,从FLASH中读出数据放到位于PCIE SSD磁盘的共享内存的buffer中,完成IO命令;
6)阵列驱动得到IO命令完成消息后通知TGT端FC模块将buffer数据回传;
7)TGT端FC模块通过PCIE命令读取回传的buffer数据,回传给INI端,完成读命令。
2.一种PCIE SSD阵列的数据读系统,其特征在于,包括:
TGT端FC模块:用于接收读命令并通知阵列驱动模块;通过PCIE命令读取回传的buffer数据,回传给INI端,完成读命令;
阵列驱动模块:用于将读命令根据LUN的RAID情况分为一个或多个IO命令,将IO命令分配给不同的PCIE SSD磁盘,并在Buffer分配单元为每个IO命令分配buffer后,将分配好的一个或多个IO命令发送给对应的PCIE SSD磁盘;在得到IO命令后通知IGT端FC模块将buffer数据回传;
Buffer分配单元:用于为每个IO命令在对应的盘共享内存上分配buffer;
PCIE SSD磁盘:用于在接收到IO命令后,从FLASH中读出数据放到位于PCIE SSD磁盘的共享内存的buffer中,完成IO命令。
3.一种PCIE SSD阵列的数据读写方法,其特征在于,包括写数据方法和权利要求1所述的读数据方法;
所述写数据方法包括以下步骤:
1)TGT端FC模块接收到写命令并通知阵列驱动;
2)阵列驱动解析写命令后,根据LUN的RAID情况分为一个或多个IO,分配给不同的PCIESSD磁盘;
3)为每个IO命令在对应的盘共享内存上分配buffer;
4)TGT端FC模块通知INI端接收数据;
5)TGT端FC模块直接将接收到的数据通过PCIE命令写入上述步骤3)分配的buffer之中;
6)阵列驱动将分配好的一个或多个IO命令发送给对应的PCIE SSD磁盘;
7)PCIE SSD磁盘接收到IO命令后,将位于共享内存中的数据下刷到FLASH颗粒,完成IO命令;
8)阵列驱动通知TGT端FC模块完成写命令并回复INI端FC模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510686928.4A CN105204787B (zh) | 2015-10-22 | 2015-10-22 | 一种pcie ssd阵列的数据读方法、系统及读写方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510686928.4A CN105204787B (zh) | 2015-10-22 | 2015-10-22 | 一种pcie ssd阵列的数据读方法、系统及读写方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105204787A CN105204787A (zh) | 2015-12-30 |
CN105204787B true CN105204787B (zh) | 2017-03-08 |
Family
ID=54952506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510686928.4A Active CN105204787B (zh) | 2015-10-22 | 2015-10-22 | 一种pcie ssd阵列的数据读方法、系统及读写方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105204787B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301075B (zh) * | 2017-06-26 | 2021-12-24 | 联想(北京)有限公司 | 用于设置系统内存超频的方法、装置和电子设备 |
CN107515827B (zh) * | 2017-08-21 | 2021-07-27 | 湖南国科微电子股份有限公司 | Pcie ssd自定义日志的存储方法、装置及ssd |
CN109032859A (zh) * | 2018-06-26 | 2018-12-18 | 郑州云海信息技术有限公司 | 一种nvme ssd逻辑块检测方法、系统及相关装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8589723B2 (en) * | 2010-12-22 | 2013-11-19 | Intel Corporation | Method and apparatus to provide a high availability solid state drive |
US9767058B2 (en) * | 2011-11-17 | 2017-09-19 | Futurewei Technologies, Inc. | Method and apparatus for scalable low latency solid state drive interface |
CN103336745B (zh) * | 2013-07-01 | 2017-02-01 | 无锡北方数据计算股份有限公司 | 一种基于ssd缓存的fc hba及其设计方法 |
CN103885909B (zh) * | 2014-03-26 | 2017-07-11 | 国电南瑞科技股份有限公司 | 基于原生PCIe接口的SSD控制器及其控制方法 |
-
2015
- 2015-10-22 CN CN201510686928.4A patent/CN105204787B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105204787A (zh) | 2015-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101566927B (zh) | 存储系统和存储控制器以及数据缓存方法 | |
EP3195104B1 (en) | Efficient data movement within file system volumes | |
US9213612B2 (en) | Method and system for a storage area network | |
WO2018019119A1 (zh) | 一种面向连续数据存储的动态局部并行数据布局方法及装置 | |
CN101727293B (zh) | 一种固态硬盘ssd存储的设置方法、装置和系统 | |
US20130318196A1 (en) | Storage system and storage control method for using storage area based on secondary storage as cache area | |
US20140351300A1 (en) | Method and system for data transfer between compute clusters and file system | |
JP5184552B2 (ja) | コンピュータストレージシステム | |
CN103336745B (zh) | 一种基于ssd缓存的fc hba及其设计方法 | |
Moon et al. | Introducing ssds to the hadoop mapreduce framework | |
US20130138884A1 (en) | Load distribution system | |
CN104267912A (zh) | 一种nas加速方法及系统 | |
CN105204787B (zh) | 一种pcie ssd阵列的数据读方法、系统及读写方法 | |
CN102263818B (zh) | 一种文件数据存放和读取的方法和装置 | |
US20140089562A1 (en) | Efficient i/o processing in storage system | |
CN103617003A (zh) | 一种云存储环境存储资源组织实现方法和架构 | |
US10572464B2 (en) | Predictable allocation latency in fragmented log structured file systems | |
US9069471B2 (en) | Passing hint of page allocation of thin provisioning with multiple virtual volumes fit to parallel data access | |
CN102223388A (zh) | 一种集群存储器 | |
CN101997919B (zh) | 一种存储资源的管理方法及管理装置 | |
CN105204786B (zh) | 一种pcie ssd阵列的数据写方法及系统 | |
CN105353978B (zh) | 一种pcie ssd阵列的数据读方法、系统及读写方法 | |
US8447925B2 (en) | Home storage device and software including management and monitoring modules | |
CN105335103B (zh) | 一种pcie ssd阵列的数据写方法及系统 | |
CN105224261B (zh) | 一种块虚拟化阵列的实现方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20151230 Assignee: Jiangsu Xinsheng Intelligent Technology Co., Ltd. Assignor: GOKE MICROELECTRONICS CO., LTD. Contract record no.: 2018430000021 Denomination of invention: PCIE SSD array data reading method and system and PCIE SSD array data read-write method Granted publication date: 20170308 License type: Common License Record date: 20181203 |
|
EE01 | Entry into force of recordation of patent licensing contract |