CN105760556B

CN105760556B - 低延时高吞吐量的多副本文件读写优化方法

Info

Publication number: CN105760556B
Application number: CN201610244181.1A
Authority: CN
Inventors: 王辉; 刘斌; 台宪青
Original assignee: Jiangsu IoT Research and Development Center
Current assignee: Jiangsu IoT Research and Development Center
Priority date: 2016-04-19
Filing date: 2016-04-19
Publication date: 2019-05-24
Anticipated expiration: 2036-04-19
Also published as: CN105760556A

Abstract

本发明涉及一种低延时高吞吐量的多副本文件读写优化方法，其包括允许若干客户端进行访问的分布式存储集群，所述分布式存储集群包括若干用于多个文件副本的数据节点，客户端能对分布式存储集群内数据节点存储进行多副本文件的读写操作；客户端内存储记录每个数据节点的访问耗时，在读取分布式存储集群内的副本文件时，确定分布式存储集群内存储待读取副本文件的数据节点，客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点，以读取所访问数据节点内的副本文件。本发明在读写流程优化后，能对在线业务支持低延时响应，且对离线业务保证高吞吐量，灵活性高，安全可靠。

Description

低延时高吞吐量的多副本文件读写优化方法

技术领域

本发明涉及一种文件读写方法，尤其是一种低延时高吞吐量的多副本文件读写优化方法，属于分布式文件读写的技术领域。

背景技术

随着分布式存储系统的发展，越来越多的企业在面对涉及到大量数据的业务时，都毫不犹豫的选择分布式存储系统作为底层的数据支撑。

但是随着软硬件环境的发展，例如万兆网络、异构硬件、业务混合部署等特点；传统的分布式文件读写模式已经无法有效地支撑高吞吐要求的离线业务和低延时要求的在线业务。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种低延时高吞吐量的多副本文件读写优化方法，其在读写流程优化后，能对在线业务支持低延时响应，且对离线业务保证高吞吐量，灵活性高，安全可靠。

按照本发明提供的技术方案，所述低延时高吞吐量的多副本文件读写优化方法，包括允许若干客户端进行访问的分布式存储集群，所述分布式存储集群包括若干用于多个文件副本的数据节点，客户端能对分布式存储集群内数据节点存储进行多副本文件的读写操作；

客户端内存储记录每个数据节点的访问耗时，在读取分布式存储集群内的副本文件时，确定分布式存储集群内存储待读取副本文件的数据节点，客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点，以读取所访问数据节点内的副本文件。

在利用流水线方式向分布式存储集群内数据节点写入所需数量的副本文件时，客户端在发起流水线写入请求后开始计时，当写请求在流水线上的响应时间超过预设时间阈值后，客户端根据当前流水线中每个数据节点的访问耗时，删除当前流水线中访问耗时最慢的数据节点，并利用剩余的数据节点组成流水线完成副本文件的写入，缺少的副本文件在流水线写入结束后采用异步写入相应的数据节点内。

在利用分发写入方式向分布式存储集群内的数据节点写入所需数量的副本文件时，在客户端内设置安全副本写入量，当向分布式存储集群内的数据节点写入的副本文件数量达到安全副本写入量时，则分布式存储集群向客户端返回写入成功，缺少的副本文件采用异步方式继续写入对应的数据节点内。

客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点时，同时对所访问数据节点进行响应计时，当经过预设响应时间后未收到数据节点的响应，则客户端会即刻向其他待读取副本文件所在的数据节点发起访问请求，在收到任意一数据节点的请求响应后，客户端取消对数据节点的访问请求，并对响应请求的数据节点进行访问，以读取所访问数据节点内的副本文件。

所述分布式存储集群还包括控制节点、命名空间节点以及元数据节点；元数据节点负责维护数据节点内文件的元数据信息，命名空间节点负责维护文件系统的目录树；控制节点能收集数据节点定时发送的保活心跳信息，并在统计数据节点的相关信息后，控制节点将统计的相关信息推送给元数据信息。

所述控制节点、命名空间节点以及元数据节点均具有对应的热备节点，若命名空间节点或元数据节点与对应的热备节点进行主从切换时，能通过控制节点找到命名空间节点对应的热备节点的地址以及元数据节点对应的热备节点的地址。

本发明的优点：能够在运行过程中及时检测出慢节点，并迅速规避，保证集群中所有工作机器都是状态良好的，数据写入模式是客户端可控的，用户可以根据当前集群特点以及业务特点动态调整写入方式，灵活性较高，从而读写流程能够对在线业务支持低延时响应，对离线业务保证高吞吐量，安全可靠。

附图说明

图1为本发明的结构图。

图2为现有流水线写入方式的示意图。

图3为本发明流水线写入方式的示意图。

图4为本发明分发写入方式的示意图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

如图1所示：为了在读写流程优化后，能对在线业务支持低延时响应，且对离线业务保证高吞吐量，本发明包括允许若干客户端进行访问的分布式存储集群，所述分布式存储集群包括若干用于多个文件副本的数据节点，客户端能对分布式存储集群内数据节点存储进行多副本文件的读写操作；

具体地，在实际情况中，不同的数据节点所处的状态不完全相同，可能会造成它们在处理相同的请求时所花费的时间不同，甚至有可能差异较大，所以客户端在访问时会记录其访问各个数据节点的耗时，访问耗时主要包括读文件耗时以及写文件耗时，所述访问耗时可以衡量数据节点当前的健康状态（工作负载、网络连通性等）。由于副本文件在分布式存储集群中是冗余存储，不同的副本文件放置在不同的数据节点上，所以客户端在读取副本文件时，会根据记录的存储了副本文件的数据节点的健康状态来挑选最优的数据节点来访问，以缩短副本文件读取时间。

具体实施时，客户端记录的数据节点健康状态有可能是过期信息，即此时客户端记录的健康状态良好的数据节点实际有可能已经变成了慢节点，为了避免数据请求误落入慢节点上，客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点时，同时对所访问数据节点进行响应计时，当经过预设响应时间后未收到数据节点的响应，则客户端会即刻向其他待读取副本文件所在的数据节点发起访问请求，在收到任意一数据节点的请求响应后，客户端取消对数据节点的访问请求，并对响应请求的数据节点进行访问，以读取所访问数据节点内的副本文件。

进一步地，所述分布式存储集群还包括控制节点、命名空间节点以及元数据节点；元数据节点负责维护数据节点内文件的元数据信息，命名空间节点负责维护文件系统的目录树；控制节点能收集数据节点定时发送的保活心跳信息，并在统计数据节点的相关信息（相关信息包括数据节点汇报的自己存储的数据块信息，控制节点根据收集到的数据节点上的数据块信息进行负载平衡；相关信息还包括控制节点到数据节点的网络延迟，数据节点当前正在处理的请求负载情况等）后，控制节点将统计的相关信息推送给元数据信息。

进一步地，所述控制节点、命名空间节点以及元数据节点均具有对应的热备节点，若命名空间节点或元数据节点与对应的热备节点进行主从切换时，能通过控制节点找到命名空间节点对应的热备节点的地址以及元数据节点对应的热备节点的地址。命名空间节点与对应的热备节点的主从切换，具体是指当前的命名空间节点与作为备用的热备节点相互切换，备用的热备节点作为当前的命名空间节点，进而，命名空间节点作为热备节点，具体过程为本技术领域人员所熟知，此处不再赘述。每个命名空间节点负责维护目录树中的一部分，元数据节点保持着与客户端之间的文件操作约束，另外，元数据节点在收到控制节点发送过来的数据节点的接入、离开通知书，需要做出相应的处理（所述处理包括元数据节点在收到控制节点发送过来的数据节点接入通知后，需要根据一定的负载平衡策略，将其他数据节点上的数据块转存到新加入的数据节点上；元数据节点在收到数据节点离开的通知时，需要将原先存储在该数据节点上的数据块通过其他数据节点上的副本进行重新转存）。副本文件在数据节点内是分块存储的，块的大小可以配置，当副本文件不满足配置块的大小时，按实际大小进行存储。

本发明实施例中，副本文件写入包括管道写入以及分发写入两种，客户端可以根据分布式存储集群的状态选择所需的写入方式。

管道写入是以流水线的方式将副本文件依次写入不同的数据中，例如要写入三个副本文件，客户端在得到写入的目标数据节点位置后，会先向第一个节点写入第一个副本；第一个节点在收到第一个数据包后，便直接向第二个节点写入第二副本的第一个数据包，依次类推，流水线模式如图2所示。

采用流水线方式写入数据的最大好处是能够充分利用客户端的网卡资源。但是如果流水线上任何一点处理速度慢，将会影响到流水线的整体效率。本发明实施例中，由于客户端会记录读、写请求在每个数据节点上的访问耗时，客户端在发起流水线写入请求后会开始计时，当写请求在流水线上的响应时间超过预设时间阈值后，客户端会根据最近一次写请求获得的三个数据节点的响应时间来删除当前流水线中最慢的数据节点，删除最慢的数据节点后，虽然减少了当下写入的副本文件数量，但是可以显著的提高流水线的速度，缺少的副本文件数量在流水线结束后重新异步写入，如图3所示。具体实施时，目标数据节点的数量与副本文件的数量相一致，预设时间阈值的具体大小可以根据实际需要进行设置，具体为本技术领域人员所熟知，此处不再赘述。

具体实施时，分发写入方式指的是在选定多台数据节点后同时向几台数据节点写入副本文件，与管道写入方式相反，分发写入的优点是慢节点不会影响到整体的写入效率，但是会平分客户端的网卡资源。本发明实施例中，为了解决网卡资源被平分带来的写入时间增加问题，在客户端以及分布式存储集群内设置安全副本写入量，即只要写入的副本文件数达到了安全副本写入量就给客户端返回写入成功，剩余的副本文件采用异步的方式继续写入，这样就避免了客户端的同步调用的长时间等待。在实际中如果客户端网卡资源没有瓶颈，在写入三副本时，可以向不低于四个数据节点发起写入请求，系统会先进行尝试性的数据写入，然后自动地将慢的以及多余的数据节点删除，这样可以以最快的速度写入三副本，分发写入方式如图4所示，图4中示出了写入三副本文件的示意。

本发明能够在运行过程中及时检测出慢节点，并迅速规避，保证集群中所有工作机器都是状态良好的，数据写入模式是客户端可控的，用户可以根据当前集群特点以及业务特点动态调整写入方式，灵活性较高，从而读写流程能够对在线业务支持低延时响应，对离线业务保证高吞吐量，安全可靠。

Claims

1.一种低延时高吞吐量的多副本文件读写优化方法，其特征是：包括允许若干客户端进行访问的分布式存储集群，所述分布式存储集群包括若干用于多个文件副本的数据节点，客户端能对分布式存储集群内数据节点存储进行多副本文件的读写操作；

客户端内存储记录每个数据节点的访问耗时，在读取分布式存储集群内的副本文件时，确定分布式存储集群内存储待读取副本文件的数据节点，客户端访问待读取副本文件所在数据节点中访问耗时最优的数据节点，以读取所访问数据节点内的副本文件；

在利用流水线方式向分布式存储集群内数据节点写入所需数量的副本文件时，客户端在发起流水线写入请求后开始计时，当写请求在流水线上的响应时间超过预设时间阈值后，客户端根据当前流水线中每个数据节点的访问耗时，删除当前流水线中访问耗时最慢的数据节点，并利用剩余的数据节点组成流水线完成副本文件的写入，缺少的副本文件在流水线写入结束后采用异步写入相应的数据节点内；

在利用分发写入方式向分布式存储集群内的数据节点写入所需数量的副本文件时，在客户端内设置安全副本写入量，当向分布式存储集群内的数据节点写入的副本文件数量达到安全副本写入量时，则分布式存储集群向客户端返回写入成功，缺少的副本文件采用异步方式继续写入对应的数据节点内；

2.根据权利要求1所述的低延时高吞吐量的多副本文件读写优化方法，其特征是：所述分布式存储集群还包括控制节点、命名空间节点以及元数据节点；元数据节点负责维护数据节点内文件的元数据信息，命名空间节点负责维护文件系统的目录树；控制节点能收集数据节点定时发送的保活心跳信息，并在统计数据节点的相关信息后，控制节点将统计的相关信息推送给元数据信息。

3.根据权利要求2所述的低延时高吞吐量的多副本文件读写优化方法，其特征是：所述控制节点、命名空间节点以及元数据节点均具有对应的热备节点，若命名空间节点或元数据节点与对应的热备节点进行主从切换时，能通过控制节点找到命名空间节点对应的热备节点的地址以及元数据节点对应的热备节点的地址。