CN110321080A - 一种跨节点的温数据池预读方法 - Google Patents

一种跨节点的温数据池预读方法 Download PDF

Info

Publication number
CN110321080A
CN110321080A CN201910587588.8A CN201910587588A CN110321080A CN 110321080 A CN110321080 A CN 110321080A CN 201910587588 A CN201910587588 A CN 201910587588A CN 110321080 A CN110321080 A CN 110321080A
Authority
CN
China
Prior art keywords
disk
file
node
memory node
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910587588.8A
Other languages
English (en)
Inventor
常旭
陕振
赵彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201910587588.8A priority Critical patent/CN110321080A/zh
Publication of CN110321080A publication Critical patent/CN110321080A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种跨节点的温数据池预读方法,其中,温数据池在第一存储节点使用第一磁盘和第二磁盘,第二存储节点使用第三磁盘、第四磁盘和第五磁盘,第三存储节点使用第六磁盘和第七磁盘,第四存储节点使用第八磁盘;第一组、第二组、第三组和第四组并发预读;文件1到文件16为顺序排列。本发明针对跨节点的存储系统的温数据池进行预读,从而提升跨节点存储系统整体磁盘读写I/O效率。本发明针对温数据池处理能力有限,访问响应时间长的特点对它的SATA磁盘池的读写I/O效率进行优化。

Description

一种跨节点的温数据池预读方法
技术领域
本发明涉及数据管理技术,特别涉及一种跨节点的温数据池预读方法
背景技术
随着计算机存储技术的发展和普及,越来越多大型应用采用分布式存储系统保存海量数据资源,由于绝大部分数据保存在磁介质硬盘上,需要频繁对磁盘进行读写I/O操作,因此当并发用户数越来越多的时候,读写I/O就会成为整个系统的性能瓶颈。
温数据是数据使用相对不频繁,数据并不是总有用户访问,其重要性逐渐降低。通常将温数据保存在SATA磁盘组中,但仍能够进行在线访问,由于处理能力有限,访问的响应时间比在线数据访问时间有所增加。
与温数据池相对应的是热数据池:应用系统新产生的数据往往访问频率较高,这些数据从产生开始一直在高频访问,这类数据叫做热数据,这时需要使用高速存储,保证数据的高速访问。热数据池将系统所有节点中的SSD等高速介质组合成在线存储池,保存热数据。
现有的预读方法中,都是对单节点的磁盘进行预读。目前SSD等高速介质价格相对于SATA磁盘价格高昂,只适合将新产生的数据存放在热数据池中,所以绝大多数数据都会保存在由SATA磁盘组合的温数据池里。
发明内容
本发明提供一种跨节点的温数据预读方法,用以解决现有技术中分布式存储系统中温数据池I/O效率需要提高的问题。
本发明一种跨节点的温数据池预读方法,其中,温数据池在第一存储节点使用第一磁盘和第二磁盘,第二存储节点使用第三磁盘、第四磁盘和第五磁盘,第三存储节点使用第六磁盘和第七磁盘,第四存储节点使用第八磁盘;读取16个跨节点文件的过程包括:读取分为4组:第一存储节点为第一组,第二存储节点为第二组,第三存储节点为第三组,第四存储节点为第四组;第一组,从第一存储节点的第一磁盘预读文件5和文件1,第二磁盘预读文件11、文件2和文件12;第二组,从第二存储节点的第三磁盘预读文件3和文件6,第四磁盘预读文件7和文件4,第五磁盘预读文件8;第三组,从第三存储节点的第六磁盘6预读文件13,第七磁盘预读文件9和文件10;第四组,从第四存储节点的第八磁盘8预读文件15、文件14和文件16;第一组、第二组、第三组和第四组并发预读;文件1到文件16为顺序排列。
根据本发明的跨节点的温数据池预读方法的一实施例,其中,第一存储节点的CPU平均使用率为10%,内存资源使用率30%,带宽资源使用率为60%;第二存储节点的CPU平均使用率为20%,内存资源使用率15%,带宽资源使用率为40%;第三存储节点的CPU平均使用率为30%,内存资源使用率30%,带宽资源使用率为40%;第四存储节点的CPU平均使用率为40%,内存资源使用率40%,带宽资源使用率为70%;各个节点权值计算为去掉百分号对数字进行累加。
根据本发明的跨节点的温数据池预读方法的一实施例,其中,4个存储节点将各自的预读文件推送到各自的高速缓存上,元数据服务器从高速缓存上再对预读文件进行组装。
根据本发明的跨节点的温数据池预读方法的一实施例,其中,四组存储节点之间通过RDMA网络进行交互认证,以验证4个存储节点数据总和是否和数据长度相等,如不等,则对相关节点进行重发。
根据本发明的跨节点的温数据池预读方法的一实施例,其中,权值越高,分配磁盘越少。
根据本发明的跨节点的温数据池预读方法的一实施例,其中,第一存储节点分配2块磁盘,第二存储节点分配3块磁盘,第三存储节点分配2块磁盘,第四存储节点分配1块磁盘。
本发明一种跨节点的温数据池预读方法,提升了分布式存储系统温数据池的读写I/O效率。
附图说明
图1所示为磁盘分配的示意图;
图2所示为存放方式的示意图;
图3所示为存储节点相互认证的示意图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1所示为磁盘分配的示意图,如图1所示,存储节点1的CPU平均使用率为10%,内存资源使用率30%,带宽资源使用率为60%;存储节点2的CPU平均使用率为20%,内存资源使用率15%,带宽资源使用率为40%;存储节点3的CPU平均使用率为30%,内存资源使用率30%,带宽资源使用率为40%;存储节点4的CPU平均使用率为40%,内存资源使用率40%,带宽资源使用率为70%;各个节点权值计算为去掉百分号对数字进行累加,如存储节点1的权值为10+30+60=100,存储节点2的权值为20+15+40=75,存储节点3的权值为30+30+40=100,存储节点4的权值为40+40+70=150;
如图1所示,权值越高,分配磁盘越少。所以存储节点1分配2块磁盘、存储节点2分配3块磁盘,存储节点3分配2块磁盘,存储节点4分配1块磁盘。为方便说明,对8块磁盘进行编号。
如图1所示,温数据池在存储节点1使用磁盘1和2,存储节点2使用磁盘3、4和5,存储节点3使用磁盘6和7,存储节点4使用磁盘8。
如图2所示,从单一磁盘来讲,以存储节点1的磁盘2为例,先寻址2后,需要在2的左面寻址文件11,下一个读取的文件12却又在2的右面。
依此类推直到4个节点8块磁盘都按此规则将所有待预读文件读取完毕。按照逻辑偏移进行寻址时,各个4个存储节点的8块磁盘的磁头需要来回寻址,这导致单次寻址时长增加,使得文件预读速度受限。
预读文件在跨节点的温数据池中的实际存放情况大部分是乱序存放的。
图2所示为存放方式的示意图,如图2所示,此图2为16个待预读文件在由4个节点共8磁盘组成的温数据池中的分布情况。
通常情况下,读取16个跨节点文件的过程如下:
从存储节点1的磁盘1预读文件1,从存储节点1的硬盘2预读文件2;
从存储节点2的磁盘3预读文件3,从存储节点2的磁盘4预读文件4;
从存储节点1的磁盘1预读文件5,从存储节点2的磁盘3预读文件6;
从存储节点2的磁盘4预读文件7,从存储节点2的磁盘5预读文件8;
从存储节点3的磁盘7预读文件9和10,从存储节点1的磁盘2预读文件11;
从存储节点1的磁盘2预读文件12,从存储节点3的磁盘6预读文件13;
从存储节点4的磁盘8依次预读文件14、15和16。
由此可见,预读文件在4个存储节点是按文件编号从1到16串联顺序读取。
本发明不再按照文件的逻辑偏移依序读取文件,而是按磁盘簇顺序读取,使得待预读文件的读取是按照文件在磁盘中存放的特点以及磁头寻址的先后有序读取的,所以磁头无需来回寻址,从而提高文件预读的效率。
本发明读取16个跨节点文件的过程如下:
读取分为4组:存储节点1为第一组,存储节点2为第二组,存储节点3为第三组,存储节点4为第四组。
第一组,从存储节点1的磁盘1预读文件5和1,磁盘2预读文件11、2和12。
第二组,从存储节点2的磁盘3预读文件3和6,磁盘4预读文件7和4,磁盘5预读文件。
第三组,从存储节点3的磁盘6预读文件13,磁盘7预读文件9和10。
第四组,从存储节点4的磁盘8预读文件15、14和16。
第一组、第二组、第三组和第四组并发预读。
定义一个数组,长度为16,代表16个预读文件,
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
存储节点1具有的预读文件如下所示。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
存储节点2具有的预读文件如下所示。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
存储节点3具有的预读文件如下所示。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
存储节点4具有的预读文件如下所示。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
图3所示为存储节点相互认证的示意图,如图3所示:四组存储节点之间通过RDMA网络进行交互认证,以验证4个存储节点数据总和是否和数据长度相等,如不等,则对相关节点进行重发。
4个存储节点将各自的预读文件推送到各自的高速缓存上,元数据服务器从高速缓存上再对预读文件进行组装,组装后的预读文件如下表所示:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
确定跨节点的存储系统的温数据池;
预读数据从不同节点组合读出。
本发明假设具有4个存储节点,每个存储节点配备8块SATA磁盘,4个节点共32块磁盘;如何从4台存储节点共32块SATA磁盘中选择当中8块磁盘作为温数据池,这个步骤并不是随机选择,而是首先需要统计4个存储节点的负载情况,将每个存储节点的CPU平均占用率、内存资源使用率和带宽资源使用率等性能指标进行计算。
跨节点是指预读数据从不同节点组合读出;所谓温数据池是指数据使用相对不频繁,数据并不是总有用户访问,其重要性逐渐降低。通常将数据保存在SATA池中,但仍能够进行在线访问,由于处理能力有限,访问的响应时间比在线数据访问时间有所增加。所谓预读是将所需的数据从磁盘读入缓存,从而提升了访问数据的速度。
本发明针对跨节点的存储系统的温数据池进行预读,从而提升跨节点存储系统整体磁盘读写I/O效率。本发明针对温数据池处理能力有限,访问响应时间长的特点对它的SATA磁盘池的读写I/O效率进行优化。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种跨节点的温数据池预读方法,其特征在于,温数据池在第一存储节点使用第一磁盘和第二磁盘,第二存储节点使用第三磁盘、第四磁盘和第五磁盘,第三存储节点使用第六磁盘和第七磁盘,第四存储节点使用第八磁盘;
读取16个跨节点文件的过程包括:
读取分为4组:第一存储节点为第一组,第二存储节点为第二组,第三存储节点为第三组,第四存储节点为第四组;
第一组,从第一存储节点的第一磁盘预读文件5和文件1,第二磁盘预读文件11、文件2和文件12;
第二组,从第二存储节点的第三磁盘预读文件3和文件6,第四磁盘预读文件7和文件4,第五磁盘预读文件8;
第三组,从第三存储节点的第六磁盘6预读文件13,第七磁盘预读文件9和文件10;
第四组,从第四存储节点的第八磁盘8预读文件15、文件14和文件16;
第一组、第二组、第三组和第四组并发预读;文件1到文件16为顺序排列。
2.如权利要求1所述的跨节点的温数据池预读方法,其特征在于,第一存储节点的CPU平均使用率为10%,内存资源使用率30%,带宽资源使用率为60%;第二存储节点的CPU平均使用率为20%,内存资源使用率15%,带宽资源使用率为40%;第三存储节点的CPU平均使用率为30%,内存资源使用率30%,带宽资源使用率为40%;第四存储节点的CPU平均使用率为40%,内存资源使用率40%,带宽资源使用率为70%;各个节点权值计算为去掉百分号对数字进行累加。
3.如权利要求1所述的跨节点的温数据池预读方法,其特征在于,4个存储节点将各自的预读文件推送到各自的高速缓存上,元数据服务器从高速缓存上再对预读文件进行组装。
4.如权利要求1所述的跨节点的温数据池预读方法,其特征在于,四组存储节点之间通过RDMA网络进行交互认证,以验证4个存储节点数据总和是否和数据长度相等,如不等,则对相关节点进行重发。
5.如权利要求2所述的跨节点的温数据池预读方法,其特征在于,权值越高,分配磁盘越少。
6.如权利要求1所述的跨节点的温数据池预读方法,其特征在于,第一存储节点分配2块磁盘,第二存储节点分配3块磁盘,第三存储节点分配2块磁盘,第四存储节点分配1块磁盘。
CN201910587588.8A 2019-07-02 2019-07-02 一种跨节点的温数据池预读方法 Pending CN110321080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910587588.8A CN110321080A (zh) 2019-07-02 2019-07-02 一种跨节点的温数据池预读方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910587588.8A CN110321080A (zh) 2019-07-02 2019-07-02 一种跨节点的温数据池预读方法

Publications (1)

Publication Number Publication Date
CN110321080A true CN110321080A (zh) 2019-10-11

Family

ID=68122313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910587588.8A Pending CN110321080A (zh) 2019-07-02 2019-07-02 一种跨节点的温数据池预读方法

Country Status (1)

Country Link
CN (1) CN110321080A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388824A (zh) * 2008-10-15 2009-03-18 中国科学院计算技术研究所 一种机群系统中分片存储模式下文件读取的方法及系统
CN102541985A (zh) * 2011-10-25 2012-07-04 曙光信息产业(北京)有限公司 一种分布式文件系统中客户端目录缓存的组织方法
US9153287B1 (en) * 2013-05-13 2015-10-06 Western Digital Technologies, Inc. Data access for shingled magnetic recording media
CN105653684A (zh) * 2015-12-29 2016-06-08 曙光云计算技术有限公司 分布式文件系统的预读方法和装置
CN106339326A (zh) * 2016-08-26 2017-01-18 记忆科技(深圳)有限公司 一种提升固态硬盘顺序读性能的方法
CN106951301A (zh) * 2017-04-27 2017-07-14 腾讯科技(深圳)有限公司 文件预读方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388824A (zh) * 2008-10-15 2009-03-18 中国科学院计算技术研究所 一种机群系统中分片存储模式下文件读取的方法及系统
CN102541985A (zh) * 2011-10-25 2012-07-04 曙光信息产业(北京)有限公司 一种分布式文件系统中客户端目录缓存的组织方法
US9153287B1 (en) * 2013-05-13 2015-10-06 Western Digital Technologies, Inc. Data access for shingled magnetic recording media
CN105653684A (zh) * 2015-12-29 2016-06-08 曙光云计算技术有限公司 分布式文件系统的预读方法和装置
CN106339326A (zh) * 2016-08-26 2017-01-18 记忆科技(深圳)有限公司 一种提升固态硬盘顺序读性能的方法
CN106951301A (zh) * 2017-04-27 2017-07-14 腾讯科技(深圳)有限公司 文件预读方法及装置

Similar Documents

Publication Publication Date Title
CN102760101B (zh) 一种基于ssd 的缓存管理方法及系统
US20160132541A1 (en) Efficient implementations for mapreduce systems
CN105117351B (zh) 向缓存写入数据的方法及装置
CN107436725A (zh) 一种数据写、读方法、装置及分布式对象存储集群
CN101533408A (zh) 一种海量数据的处理方法及处理装置
CN102523258A (zh) 一种面向云操作系统的数据存储架构及其负载均衡方法
CN104317736B (zh) 一种分布式文件系统多级缓存实现方法
CN104765575A (zh) 信息存储处理方法
CN104503703B (zh) 缓存的处理方法和装置
CN104050102B (zh) 一种电信系统中的对象存储方法及装置
CN106407224A (zh) 一种键值存储系统中文件压实的方法和装置
CN104765574A (zh) 数据云端存储方法
CN103399823A (zh) 业务数据的存储方法、设备和系统
CN109144406A (zh) 分布式存储系统中元数据存储方法、系统及存储介质
CN106375425A (zh) 分布式缓存的处理方法和装置
CN108089825A (zh) 一种基于分布式集群的存储系统
US7725654B2 (en) Affecting a caching algorithm used by a cache of storage system
CN116501249A (zh) 一种减少gpu内存重复数据读写的方法及相关设备
Englert et al. Reordering buffer management for non-uniform cost models
CN104778100A (zh) 一种安全备份数据的方法
Zhou et al. Hierarchical consistent hashing for heterogeneous object-based storage
CA2415018C (en) Adaptive parallel data clustering when loading a data structure containing data clustered along one or more dimensions
CN110321080A (zh) 一种跨节点的温数据池预读方法
CN105204787B (zh) 一种pcie ssd阵列的数据读方法、系统及读写方法
CN102541869B (zh) 写入文件的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191011