CN106790645A - 一种分布式存储中协议流控设计方法 - Google Patents
一种分布式存储中协议流控设计方法 Download PDFInfo
- Publication number
- CN106790645A CN106790645A CN201710025320.6A CN201710025320A CN106790645A CN 106790645 A CN106790645 A CN 106790645A CN 201710025320 A CN201710025320 A CN 201710025320A CN 106790645 A CN106790645 A CN 106790645A
- Authority
- CN
- China
- Prior art keywords
- nas
- ceph
- protocol
- file system
- ability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分布式存储中协议流控设计方法,属于存储软件技术领域领域,方法如下:第一步,NAS协议访问CEPH文件系统时,CEPH文件系统返回一个能力值,NAS协议根据此能力值来接收一定量的请求;第二步,把请求交给CEPH文件系统处理,再返回能力值,形成一个能力值反馈的机制。CEPH根据缓存来计算剩余能力值的机制。本发明和现有技术相比,通过融合接口来传输私有信息,且NAS协议根据能力值来接收或者阻塞网络请求,实现系统能力最优化,且性能稳定。
Description
技术领域
本发明涉及存储软件技术领域,具体地说是一种分布式存储中协议流控设计方法。
背景技术
云计算、大数据、物联网、移动互联等第三平台业务快速发展,业务复杂度上升。而企业对数据服务的需求变得更加复杂、精细和个性化,对数据存储的高可靠性、高性能、高扩展以及面向云架构的延伸能力等层面提出了更高的要求。
而分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
现有的分布式存储系统,协议不知道下层的处理能力,接收到数据就丢给下层处理,这样会出现压力不均衡,导致下层处理有时空闲有时拥塞,性能波动大,不稳定。
发明内容
本发明的技术任务是提供一种分布式存储中协议流控设计方法。
本发明的技术任务是按以下方式实现的,一种分布式存储中协议流控设计方法,方法如下:
第一步,NAS协议访问CEPH文件系统时,CEPH文件系统返回一个能力值,NAS协议根据此能力值来接收一定量的请求;
第二步,把请求交给CEPH文件系统处理,再返回能力值,形成一个能力值反馈的机制;
第三步,从而实现流控。
进一步,优选的方法为,所述的详细步骤如下:
步骤一、NAS协议访问CEPH文件系统时,向CEPH文件系统发送读写请求;
步骤二、CEPH文件系统处理请求,并申请对应的缓存块;
步骤三、计算剩余能力返回CEPH文件系统;
步骤四、CEPH文件系统向NAS协议请求回应,并携带能力值;
步骤五、NAS协议根据能力值决定接收还是阻塞请求。
进一步,优选的方法为,所述的S3具体步骤如下:
CEPH文件系统根据配置的缓存大小,记录读写请求的数据量,计算剩余的缓存能力大小;
然后根据剩余的缓存能力大小,分三种情况在读写请求的回应中返回给NAS协议:
第一种:大于100MB,直接填写-1,表示无限制;
第二种:小于等于100MB,填写真实的剩余缓存能力的大小;
第三种:小于10MB,填写0,表示无空间了,不再接收读写业务。
进一步,优选的方法为,所述的S5中具体步骤如下:
NAS协议接收读写请求时,根据能力值判断接收还是阻塞请求;
阻塞请求,减少接收的数据量,使得NFS客户端的发送发生减缓,从而调节流量的传输,使得业务不会在下层拥塞。
进一步,优选的方法为,所述的能力值单位是字节数,表示处理数据量的能力。
进一步,优选的方法为,所述的NAS协议为使用TCP协议的以太网文件服务器,用于文件级数据处理。
一种协议流控系统,包括NAS协议模块,CEPH客户端,NFS客户端和缓存块系统;
其中,NAS协议模块,为TCP协议的以太网文件服务器,用于文件级的数据处理;
CEPH客户端,用于处理读写请求、申请对应缓存块,以及向NAS协议模块请求回应并携带能力值;
缓存块系统,用于接收读写请求的数据;
NFS客户端,用于计算机之间通过TCP协议进行共享资源。
进一步,优选的结构为,所述的NAS协议模块,是一个服务器群,包括应用服务器、邮件服务器。
一种分布式存储系统,包括存储服务器和协议流控系统,其中,存储服务器用于存放所有数据;协议流控系统,用于存储服务器的流量控制。
本发明的一种分布式存储中协议流控设计方法和现有技术相比,有益效果如下:1、CEPH文件系统根据缓存来计算剩余能力值的机制;2、融合接口来传输私有信息;3、NAS协议根据能力值来接收或者阻塞网络请求,从而使分布式存储系统能力最优化,性能达到最稳定。
附图说明
附图1为一种分布式存储中协议流控设计方法的流程示意图。
具体实施方式
LIB是静态库, NAS(Network Attached Storage:网络附属存储)它是一种专用数据存储服务器。NAS(Network Attached Storage,网络附加存储)的典型组成是使用TCP/IP协议的以太网文件服务器,数据处理是“文件级”(file level)。
CEPH作为分布式文件系统,其能够在维护 POSIX 兼容性的同时加入了复制和容错功能。
API(Application Programming Interface,应用程序编程接口)NFS(NetworkFileSystem)即网络文件系统。
SMB(Server Message Block)是协议名,它能被用于Wap连接和客户端与服务器之间的信息沟通。该服务是一种以响应方式为主的技术支持服务。
TCP(Transmission Control Protocol 传输控制协议)
TCP原理应用层向TCP层发送用于网间传输的、用8位字节表示的数据流,然后TCP把数据流分区成适当长度的报文段(通常受该计算机连接的网络的数据链路层的最大传输单元([1] MTU)的限制)。之后TCP把结果包传给IP层,由它来通过网络将包传送给接收端实体[1] 的TCP层。TCP为了保证不发生丢包,就给每个包一个序号,同时序号也保证了传送到接收端实体的包的按序接收。然后接收端实体对已成功收到的包发回一个相应的确认(ACK);如果发送端实体在合理的往返时延(RTT)内未收到确认,那么对应的数据包就被假设为已丢失将会被进行重传。TCP用一个校验和函数来检验数据是否有错误;在发送和接收时都要计算校验和。一般的所谓流量控制就是1、比如发送端能发送5个数据,接收端也能收到5个数据,给个确认(ack)给发送端,确认我收到5个数据。如果网络通信出现繁忙或者拥塞的时候,接收端只能收3个数据,接受端给个确认我只能收3个数据,那么发送端就自动调整发送的窗口为3,当线路又恢复通畅的时候,接受端又可以受到5个数据,那它会给确认给发送端,告诉它我的窗口为5,那发送端就把窗口又调整会5,这样进行流量控制的。2、比如说发送端窗口为3,发送到接收端,接收端的接收窗口为5的话,接受数据,并且会给发送端一个ack(确认)告诉发送端我的窗口为5,发送端收到确认后会把自己的发送端窗口调整为5,这样就可以加速数据传输了NFS协议和SMB协议和ceph系统对接的方式是融合接口,ceph文件系统提供lib库形式,直接API方式调用。这样方便在API接口函数中增加私有结构字段,来相互传递信息。
实施例1:
AS13000产品中, CEPH文件系统接收NAS协议的请求处理,而CEPH文件系统的处理能力与NAS协议接收请求的能力没有匹配关系,会造成NAS协议发送过多的请求给CEPH文件系统处理,请求处理变慢,性能不高,且不稳定。加入流控机制后,NAS协议根据CEPH系统返回的能力值来接收网络请求并传给CEPH处理,使得CEPH文件系统的处理能力最优化,性能最好,最稳定。
本发明的一种分布式存储中协议流控设计方法,详细步骤如下:
S1、NAS协议访问CEPH文件系统时,向CEPH文件系统发送读写请求;
S2、CEPH文件系统处理请求,并申请对应的缓存块;
S3、计算剩余能力返回CEPH文件系统;
S4、CEPH文件系统向NAS协议请求回应,并携带能力值;
S5、NAS协议根据能力值决定接收还是阻塞请求。
所述的S3具体步骤如下:
CEPH文件系统根据配置的缓存大小,记录读写请求的数据量,计算剩余的缓存能力大小;
然后根据剩余的缓存能力大小,分三种情况在读写请求的回应中返回给NAS协议:
第一种:大于100MB,直接填写-1,表示无限制;
第二种:小于等于100MB,填写真实的剩余缓存能力的大小;
第三种:小于10MB,填写0,表示无空间了,不再接收读写业务。
所述的S5中具体步骤如下:
NAS协议接收读写请求时,根据能力值判断接收还是阻塞请求;
阻塞请求,减少接收的数据量,使得NFS客户端的发送发生减缓,从而调节流量的传输,使得业务不会在下层拥塞。
所述的能力值单位是字节数,表示处理数据量的能力。
Struct FlowContrl
{
Int bytes;//下层系统还可以接收的数据量大小,为0表示不能再处理数据了,为-1,表示没有限制。
}
进一步的,利用上述方法的一种协议流控系统,包括NAS协议模块,CEPH客户端,NFS客户端和缓存块系统;
其中,NAS协议模块,为TCP协议的以太网文件服务器,用于文件级的数据处理;
CEPH客户端,用于处理读写请求、申请对应缓存块,以及向NAS协议模块请求回应并携带能力值;
缓存块系统,用于接收读写请求的数据;
NFS客户端,用于计算机之间通过TCP协议进行共享资源。
所述的NAS协议模块,是一个服务器群,包括应用服务器、邮件服务器。
进一步的,包含上述协议流控系统的一种分布式存储系统,包括存储服务器和协议流控系统,其中,存储服务器用于存放所有数据;协议流控系统,用于存储服务器的流量控制。
本发明基于AS13000存储系统,主要针对NAS协议和CEPH文件系统之间的流控机制。NAS协议访问CEPH文件系统时,CEPH文件系统返回一个能力值,NAS协议根据此能力值来接收一定量的请求;然后把请求交给CEPH文件系统处理,再返回能力值,形成一个能力值反馈的机制。使NAS协议对接CEPH文件系统,在高带宽访问模式下能达到最优的性能体现。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
Claims (9)
1.一种分布式存储中协议流控设计方法,其特征在于,方法如下:
第一步,NAS协议访问CEPH文件系统时,CEPH文件系统返回一个能力值,NAS协议根据此能力值来接收一定量的请求;
第二步,把请求交给CEPH文件系统处理,再返回能力值,形成一个能力值反馈的机制;
第三步,从而实现流控。
2.根据权利要求1所述的一种分布式存储中协议流控设计方法,其特征在于,所述的详细步骤如下:
步骤一、NAS协议访问CEPH文件系统时,向CEPH文件系统发送读写请求;
步骤二、CEPH文件系统处理请求,并申请对应的缓存块;
步骤三、计算剩余能力返回CEPH文件系统;
步骤四、CEPH文件系统向NAS协议请求回应,并携带能力值;
步骤五、NAS协议根据能力值决定接收还是阻塞请求。
3.根据权利要求2所述的一种分布式存储中协议流控设计方法,其特征在于,所述的S3具体步骤如下:
CEPH文件系统根据配置的缓存大小,记录读写请求的数据量,计算剩余的缓存能力大小;
然后根据剩余的缓存能力大小,分三种情况在读写请求的回应中返回给NAS协议:
第一种: 大于100MB,直接填写-1,表示无限制;
第二种: 小于等于100MB,填写真实的剩余缓存能力的大小;
第三种:小于10MB,填写0,表示无空间了,不再接收读写业务。
4.根据权利要求2所述的一种分布式存储中协议流控设计方法,其特征在于,所述的S5中具体步骤如下:
NAS协议接收读写请求时,根据能力值判断接收还是阻塞请求;
阻塞请求,减少接收的数据量,使得NFS客户端的发送发生减缓,从而调节流量的传输,使得业务不会在下层拥塞。
5.根据权利要求1所述的一种分布式存储中协议流控设计方法,其特征在于,所述的能力值单位是字节数,表示处理数据量的能力。
6.根据权利要求1所述的一种分布式存储中协议流控设计方法,其特征在于,所述的NAS协议为使用TCP协议的以太网文件服务器,用于文件级数据处理。
7.一种协议流控系统,其特征在于,包括NAS协议模块,CEPH客户端,NFS客户端和缓存块系统;
其中,NAS协议模块,为TCP协议的以太网文件服务器,用于文件级的数据处理;
CEPH客户端,用于处理读写请求、申请对应缓存块,以及向NAS协议模块请求回应并携带能力值;
缓存块系统,用于接收读写请求的数据;
NFS客户端,用于计算机之间通过TCP协议进行共享资源。
8.根据权利要求7所述的一种协议流控系统,其特征在于,所述的NAS协议模块,是一个服务器群,包括应用服务器、邮件服务器。
9.一种分布式存储系统,其特征在于,包括存储服务器和协议流控系统,其中,存储服务器用于存放所有数据;协议流控系统,用于存储服务器的流量控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710025320.6A CN106790645A (zh) | 2017-01-13 | 2017-01-13 | 一种分布式存储中协议流控设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710025320.6A CN106790645A (zh) | 2017-01-13 | 2017-01-13 | 一种分布式存储中协议流控设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106790645A true CN106790645A (zh) | 2017-05-31 |
Family
ID=58945412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710025320.6A Pending CN106790645A (zh) | 2017-01-13 | 2017-01-13 | 一种分布式存储中协议流控设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106790645A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107566514A (zh) * | 2017-09-22 | 2018-01-09 | 郑州云海信息技术有限公司 | 一种分布式存储系统中控制元数据请求数量的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1921447A (zh) * | 2006-09-06 | 2007-02-28 | 华为技术有限公司 | 一种消息流控方法和系统 |
CN102594888A (zh) * | 2012-02-16 | 2012-07-18 | 西北工业大学 | 一种网络文件系统实时化的方法 |
CN106126407A (zh) * | 2016-06-22 | 2016-11-16 | 西安交通大学 | 一种针对分布式存储系统的性能监控调优系统及方法 |
-
2017
- 2017-01-13 CN CN201710025320.6A patent/CN106790645A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1921447A (zh) * | 2006-09-06 | 2007-02-28 | 华为技术有限公司 | 一种消息流控方法和系统 |
CN102594888A (zh) * | 2012-02-16 | 2012-07-18 | 西北工业大学 | 一种网络文件系统实时化的方法 |
CN106126407A (zh) * | 2016-06-22 | 2016-11-16 | 西安交通大学 | 一种针对分布式存储系统的性能监控调优系统及方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107566514A (zh) * | 2017-09-22 | 2018-01-09 | 郑州云海信息技术有限公司 | 一种分布式存储系统中控制元数据请求数量的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11140084B2 (en) | TCP/UDP acceleration | |
US7313614B2 (en) | Switching system | |
US8949471B2 (en) | TCP/UDP acceleration | |
US7774492B2 (en) | System, method and computer program product to maximize server throughput while avoiding server overload by controlling the rate of establishing server-side net work connections | |
US7865596B2 (en) | Switching system for managing storage in digital networks | |
US7958199B2 (en) | Switching systems and methods for storage management in digital networks | |
US6985956B2 (en) | Switching system | |
US20080189383A1 (en) | Distributed cache between servers of a network | |
WO2002017034A2 (en) | System and method for highly scalable high-speed content-based filtering and load balancing in interconnected fabrics | |
CA2511083C (en) | Quality of service for iscsi | |
CN101567769A (zh) | 数据重传方法、系统及对等节点 | |
JP2002269061A (ja) | クライアントサーバシステム、中継サーバ、接続先サーバの決定方法 | |
WO2002037300A9 (en) | Switching system | |
CN106790645A (zh) | 一种分布式存储中协议流控设计方法 | |
Shimano et al. | An information propagation scheme for an autonomous distributed storage system in iSCSI environment | |
Karrer et al. | TCP-PARIS: a parallel download protocol for replicas | |
CN109413142A (zh) | 一种Linux下的iSCSI虚拟代理实现方法 | |
Nikitinskiy et al. | A stateless transport protocol in software defined networks | |
Pallampati | iSCSI Performance over RDMA-enabled Network | |
Kim et al. | MiSC: a new availability remote storage system for mobile appliance | |
Tyagi et al. | Optimizing iSCSI storage network: A direct data transfer scheme using connection migration | |
Khan et al. | Link layer buffer size distributions for HTTP and FTP Applications in an IS-2000 System | |
CN117240896A (zh) | 一种获取数据的方法以及相关装置 | |
Zhu et al. | Mechanisms for high volume data transfer in grids | |
WO2014036718A1 (zh) | 服务器端的数据发送方法和装置以及采用该装置的服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |