CN113535068A - 数据读取方法和系统 - Google Patents

数据读取方法和系统 Download PDF

Info

Publication number
CN113535068A
CN113535068A CN202010317466.XA CN202010317466A CN113535068A CN 113535068 A CN113535068 A CN 113535068A CN 202010317466 A CN202010317466 A CN 202010317466A CN 113535068 A CN113535068 A CN 113535068A
Authority
CN
China
Prior art keywords
data
read
storage
server
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010317466.XA
Other languages
English (en)
Inventor
罗四维
何益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010317466.XA priority Critical patent/CN113535068A/zh
Priority to PCT/CN2021/087859 priority patent/WO2021213281A1/zh
Publication of CN113535068A publication Critical patent/CN113535068A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据读取方法。该方法包括以下步骤:所述存储系统包括元数据服务器以及存储服务器,所述方法包括:所述元数据服务器接收客户端发送的数据读取请求,其中,所述数据读取请求用于读取所述存储服务器中的待读取数据;所述元数据服务器根据所述数据读取请求,获得所述待读取数据的位置信息;所述元数据服务器向所述存储服务器发送所述位置信息以请求数据;所述存储服务器根据所述位置信息获取所述待读取数据;所述存储服务器将所述待读取数据发送至所述客户端。

Description

数据读取方法和系统
技术领域
本申请涉及存储领域,尤其涉及数据读取方法和系统。
背景技术
随着科技的不断发展,人们对网络存储系统的性能要求越来越高。传统网络存储系统采用集中的存储服务器存放所有数据,使得存储服务器的性能成为系统性能的瓶颈,不能满足大规模存储应用的需要。因此,分布式存储系统应运而生,分布式存储系统指的是将数据分散存储在多台独立设备上,利用多台存储服务器分担存储负荷,利用元数据服务器定位存储数据的位置信息,与传统的网络存储系统相比,分布式存储系统不但提高了系统可靠性、可用性和存取效率,还易于扩展。
但是,分布式存储系统由于利用多台存储服务器分担存储负荷,需要利用元数据服务器定位存储数据的位置信息,因此每次用户使用客户端读取数据时,客户端和元数据服务器之间、元数据服务器和存储服务器之间、存储服务器和客户端之间都需要进行多次通信,产生了大量的通信开销,使得分布式系统的数据读取速度受到限制。
发明内容
本申请提供了数据读取方法和系统,用于解决上述分布式系统数据读取速度受到限制的问题。
第一方面,提供了一种数据读取方法,应用于存储系统,该存储系统包括元数据服务器以及存储服务器,该方法包括:
元数据服务器接收客户端发送的数据读取请求,其中,该数据读取请求用于读取存储服务器中的待读取数据;
元数据服务器根据该数据读取请求,获得待读取数据的位置信息;
元数据服务器向存储服务器发送位置信息以请求数据;
存储服务器根据所述位置信息获取待读取数据;
存储服务器将待读取数据发送至客户端。
可以理解的,上述数据读取过程中,客户端、元数据服务器以及存储服务器之间的数据交互次数只有3次,客户端和元数据服务器之间只需要一次通信,元数据服务器和存储服务器之间只需要一次通信,存储服务器和客户端之间只需要一次通信,使得数据读取过程中的传输开销大大减少,数据读取速度得到提升。
在一实施例中,数据读取请求包括客户端内存的地址信息,存储服务器包括远程直接数据存取网卡RNIC和存储介质,存储服务器根据位置信息获取待读取数据包括:存储服务器的RNIC根据位置信息,从存储介质中获取待读取数据;存储服务器将待读取数据发送至客户端包括:存储服务器的RNIC根据客户端内存的地址信息,通过远程直接数据存取RDMA方法,将待读取数据写入与地址信息对应的客户端内存中。
可以理解的,存储服务器的RNIC具体可以通过RDMA单边写操作,将待读取数据写入客户端内存中,RDMA单边写操作只需要发送端明确信息的源和目的地址,接收端不需要感知此次通信,数据的写入通过RDMA在RNIC和客户端内存(Buffer)之间完成,客户端无需再额外分出资源处理收发流程,使得客户端的资源占用大大减少,降低了客户端实现复杂度,客户端性能要求降低,进而使得本申请提供的方法适用场景更加广泛。
在一实施例中,位置信息包括待读取数据的多个副本数据的位置信息,元数据服务器向存储服务器发送位置信息以请求数据包括:元数据服务器向多个副本数据中的一个副本数据的位置信息对应的存储服务器,发送多个副本数据中的一个副本数据的位置信息以请求数据。可以理解的,如果存储系统使用副本策略进行数据存储,由于存储磁盘粒度需要对齐、数据被分区打散的缘故,元数据服务器在确定了待读取数据的位置信息后,需要从待读取数据的多个副本数据中确定可以被读取的有效数据,然后将有效的副本数据的位置信息向客户端110返回,该元数据只对应一台指定存储服务器。其中,有效数据可以是在多个副本数据中随机选择的一个完好的副本数据,如果客户端A恰好处于某个存储服务器上,那么有效数据还可以是存储于客户端A所在存储服务器的副本数据,本申请不作具体限定。
需要说明的,元数据服务器向存储服务器发送位置信息以请求数据时,也可以通过向存储服务器发送副本数据的读取请求的方式以请求数据,该副本数据的读取请求可以是对客户端发送的数据读取请求中的部分参数进行修改并重新封装后获得的,比如客户端发送的数据读取请求包括源地址、数据长度和待读取数据的数据ID等等,元数据服务器在获得副本数据中的有效数据的位置信息之后,可以将数据读取请求中的数据长度由客户需求的待读取数据的长度修改为有效数据的长度,然后将待读取数据的数据ID替换为有效数据的位置信息,从而获得该副本数据的读取请求,然后将该副本数据的读取请求发送给存储服务器。可以理解的,副本数据的数据读取请求还可以是使用其他方式对客户端发送的数据请求进行修改和封装后获得的,本申请不对获得副本数据的数据读取请求的具体方式进行限定。
在一实施例中,位置信息包括待读取数据的多个分片数据的位置信息,元数据服务器向存储服务器发送位置信息以请求数据包括:元数据服务器向多个分片数据中的每个分片数据的位置信息对应的存储服务器发送分片数据的位置信息,以获取分片数据;存储服务器根据位置信息获取待读取数据包括:存储服务器根据分片数据的位置信息,获取分片数据;存储服务器将待读取数据发送至客户端包括:存储服务器将分片数据发送至客户端,使得客户端根据接收到的多个分片数据,获得待读取数据。
可以理解的,如果存储系统使用纠删码(Erasure Coding,EC)策略进行数据存储,将会有多个存储服务器(多个分片数据对应的多个存储服务器)接收到分片数据的位置信息,多个存储服务器只能读取到待读取数据的多个分片数据,而无法直接读取到所述待读取数据,因此元数据服务器可以将每一个分片数据的位置信息发给对应的存储服务器,以供其读取分片数据,然后将读取得到的分片数据写入客户端的内存中。本申请实施例中元数据服务器只负责查询待存储数据的位置信息,以及确认多个副本数据中的有效数据这两个步骤,而无需额外处理如EC反编码等操作,使得元数据服务器的处理压力大大减少,元数据服务器出现故障并不会对整个数据读取流程造成过多影响,同时也减少了元数据服务器的业务逻辑的复杂度,提高元数据服务器的处理效率。
需要说明的,元数据服务器向存储服务器发送位置信息以请求数据时,也可以通过向存储服务器发送分片数据的读取请求的方式以请求数据,该分片数据的读取请求可以是对客户端发送的数据读取请求中的部分参数进行修改并重新封装后获得的,比如客户端发送的数据读取请求包括源地址、数据长度和待读取数据的数据ID等等,元数据服务器在获得多个分片数据的位置信息之后,可以将数据读取请求中的数据长度由客户需求的待读取数据的长度修改为分片数据的长度,然后将待读取数据的数据ID替换为分片数据的位置信息,从而获得每一个分片数据的读取请求,然后将该分片数据的读取请求发送给对应的存储服务器。可以理解的,分片数据的数据读取请求还可以是使用其他方式对客户端发送的数据请求进行修改和封装后获得的,本申请不对获得分片数据的数据读取请求的具体方式进行限定。
在一实施例中,该存储服务器的RNIC根据该位置信息,从该存储介质中获取该待读取数据包括:该存储服务器的RNIC根据该位置信息,从该存储介质中读取该位置信息对应的存储数据;该存储服务器的RNIC对该存储数据进行解压缩和解压紧操作,获得该待读取数据。
可以理解的,存储服务器存储的数据一般是按照粒度对齐处理的数据,比如按照512B粒度对齐的数据,并且,为了降低存储成本,存储服务器中的存储数据一般会经过数据压缩和数据压紧的操作,因此存储服务器的RNIC在读取到存储介质中的存储数据之后,可以对存储数据进行数据解压缩和解压紧的操作,从而获得待读取数据。由存储服务器的RNIC进行数据解压缩和解压紧的操作,可以减少客户端和元数据服务器的资源占用,使得客户端和元数据服务器的处理效率提高,客户端和元数据服务器性能要求降低,进而使得本申请提供的方法的适用场景更加广泛。
具体实现中,对于使用EC策略进行数据存储的存储系统来说,存储数据被分为多个分片数据,存储在不同的存储服务器中,而每个用户真正想要读取的数据可能只是每个被分片的原始数据的一部分,举例来说,被分片存储的原始数据A的长度总共有12K,以2个4K的数据块和1个4K校验块的形式存储在存储系统中,但是用户只想读取的数据A0只是被分片存储的原始数据A的前2K内容。因此在步骤S420处,元数据服务器还可以先确认用户的待读取数据A0所在的被分片的原始数据A的位置信息,然后将待读取数据A0与该原始数据A之间的对应关系(即待读取数据在该原始数据的哪一部分,比如前2K,中间2K-4K,后4K等等)放入位置信息,然后将其传输至存储服务器。步骤S440处,存储服务器的RNIC可以将原始数据A的全部分片数据写入客户端内存中,并将用户的待读取数据A0与原始数据A的对应关系同时发送给客户端,仍以前述例子为例,此时存储服务器可以将2个4K的数据块和1个4K校验块写入客户端的内存中,并将用户实际需要读取的数据A0与原始数据A的对应关系(即待读取数据是数据A的前2k)一同发送给客户端,客户端收到完整的12K数据后,先通过EC反编码计算出原始数据A0,然后摘取原始数据A的前2K返回给用户。可以理解的,本申请通过将用户的待读取数据与被分片的原始数据的对应关系进行映射,结合RDMA单边写入的技术,使得客户端只需要对分片数据进行EC反编码,而无需再额外分出资源处理收发流程,使得客户端的资源占用大大减少,降低了客户端实现复杂度,客户端性能要求降低,进而使得本申请提供的方法适用场景更加广泛。
第二方面,提供了一种数据读取方法,应用于存储系统,该存储系统包括元数据服务器以及存储服务器,该方法包括:
该元数据服务器接收客户端发送的数据读取请求,该数据读取请求用于读取该存储服务器中的待读取数据;
该元数据服务器根据该数据读取请求,获得该待读取数据的位置信息;
该元数据服务器根据该位置信息,向该位置信息对应的存储服务器发送该数据读取请求和该位置信息,使得该存储服务器根据该数据读取请求和该位置信息,获取该待读取数据,并将该待读取数据写入该客户端的内存中。
可以理解的,使用本申请提供的元数据服务,在存储系统中进行数据读取时,客户端元数据服务器以及存储服务器之间的数据交互次数只有3次,包括2次读取请求的传输和1次数据传输,传输开销大大减少,数据读取速度大大提升。
在一实施例中,该位置信息包括该待读取数据的多个副本数据的位置信息,该元数据服务器根据该位置信息,向该待读取数据对应的存储服务器发送该数据读取请求和该位置信息包括:该元数据服务器确定该多个副本数据中的一个有效数据;该元数据服务器向该有效数据的位置信息对应的存储服务器发送该数据读取请求和该位置信息。
可以理解的,如果存储系统使用副本策略进行数据存储,由于存储磁盘粒度需要对齐、数据被分区打散的缘故,元数据服务器在确定了待读取数据的位置信息后,需要从待读取数据的多个副本数据中确定可以被读取的有效数据,然后将有效的副本数据的位置信息向客户端110返回,该元数据只对应一台指定存储服务器。其中,有效数据可以是在多个副本数据中随机选择的一个完好的副本数据,如果客户端A恰好处于某个存储服务器上,那么有效数据还可以是存储于客户端A所在存储服务器的副本数据,本申请不作具体限定。
在一实施例中,该位置信息包括该待读取数据的多个分片数据的位置信息,该元数据服务器根据该位置信息,向该待读取数据对应的存储服务器发送该数据读取请求和该位置信息包括:该元数据服务器根据该位置信息,向该多个分片数据的位置信息对应的多个存储服务器发送该数据读取请求和该位置信息,使得该存储服务器根据该数据读取请求,获取该多个分片数据,并将该分片数据写入该客户端的内存中,以供客户端根据该多个分片数据,获得该待读取数据,其中,一个该分片数据的位置信息对应一个存储服务器。
可以理解的,如果存储系统使用纠删码(Erasure Coding,EC)策略进行数据存储,将会有多个存储服务器(多个分片数据对应的多个存储服务器)接收到数据读取请求和位置信息,多个存储服务器只能读取到待读取数据的多个分片数据,而无法直接读取到所述待读取数据,因此元数据服务器可以将数据读取请求和位置信息发给每一个分片数据对应的存储服务器,以供其读取分片数据,然后将读取得到的分片数据写入客户端的内存中。本申请实施例中元数据服务器只负责查询待存储数据的位置信息,以及确认多个副本数据中的有效数据这两个步骤,而无需额外处理如EC反编码等操作,使得元数据服务器的处理压力大大减少,元数据服务器出现故障并不会对整个数据读取流程造成过多影响,同时也减少了元数据服务器的业务逻辑的复杂度,提高元数据服务器的处理效率。
上述实施例中,元数据服务器只负责根据客户端发送的数据读取请求进行位置信息的查询,以及确认多个副本数据中的有效数据这两个步骤,而无需额外处理如EC反编码等操作,使得元数据服务器的处理压力大大减少,元数据服务器出现故障并不会对整个数据读取流程造成过多影响,同时也减少了元数据服务器的业务逻辑的复杂度,提高元数据服务器的处理效率。
第三方面,提供了一种数据读取方法,应用于存储系统,该存储系统包括元数据服务器以及存储服务器,该方法包括:
该存储服务器接收元数据服务器发送的数据读取请求和位置信息,其中,该数据读取请求是该元数据服务器接收的客户端发送的数据读取请求,该位置信息是该元数据服务器根据该数据读取请求获得的待读取数据的位置信息;
该存储服务器根据该数据读取请求和该位置信息,获取该待读取数据;
该存储服务器将该待读取数据写入该客户端的内存中。
可以理解的,使用本申请提供的存储服务器,在存储系统中进行数据读取时,客户端、元数据服务器以及存储服务器之间的数据交互次数只有3次,包括2次读取请求的传输和1次数据传输,传输开销大大减少,数据读取速度大大提升。
在一实施例中,该数据读取请求包括该客户端内存的地址信息,该存储服务器包括远程直接数据存取网卡RNIC和存储介质,该存储服务器根据该数据读取请求和该位置信息,获取该待读取数据包括:该存储服务器的RNIC根据该数据读取请求和该位置信息,从该存储介质中获取该待读取数据;该存储服务器将该待读取数据写入该客户端的内存中包括:该存储服务器的RNIC根据该客户端内存的地址信息,通过远程直接数据存取RDMA单边写入方法,将该待读取数据写入与该地址信息对应的客户端内存中。
可以理解的,RDMA单边写操作只需要发送端明确信息的源和目的地址,接收端不需要感知此次通信,数据的写入通过RDMA在RNIC和客户端内存(Buffer)之间完成,客户端无需再额外分出资源处理收发流程,使得客户端的资源占用大大减少,降低了客户端实现复杂度,客户端性能要求降低,进而使得本申请提供的方法适用场景更加广泛。
在一实施例中,该位置信息是该待读取数据的多个副本数据中的一个有效数据的位置信息。
可以理解的,如果存储系统使用副本策略进行数据存储,由于存储磁盘粒度需要对齐、数据被分区打散的缘故,元数据服务器在确定了待读取数据的位置信息后,需要从待读取数据的多个副本数据中确定可以被读取的有效数据,然后将有效的副本数据的位置信息向客户端110返回,该元数据只对应一台指定存储服务器。其中,有效数据可以是在多个副本数据中随机选择的一个完好的副本数据,如果客户端A恰好处于某个存储服务器上,那么有效数据还可以是存储于客户端A所在存储服务器的副本数据,本申请不作具体限定。
在一实施例中,该位置信息是该待读取数据的多个分片数据的位置信息,其中,一个分片数据的位置信息对应一个存储服务器,该存储服务器根据该数据读取请求和该位置信息,获取该待读取数据包括:该存储服务器根据该数据读取请求,获取分片数据;该存储服务器将该待读取数据写入该客户端的内存中包括:该存储服务器将该分片数据写入该客户端的内存中,使得该客户端根据多个存储服务器写入的多个分片数据,获得该待读取数据。
可以理解的,如果存储系统使用纠删码(Erasure Coding,EC)策略进行数据存储,将会有多个存储服务器(多个分片数据对应的多个存储服务器)接收到数据读取请求和位置信息,多个存储服务器只能读取到待读取数据的多个分片数据,而无法直接读取到所述待读取数据,因此元数据服务器可以将数据读取请求和位置信息发给每一个分片数据对应的存储服务器,以供其读取分片数据,然后将读取得到的分片数据写入客户端的内存中。本申请实施例中元数据服务器只负责查询待存储数据的位置信息,以及确认多个副本数据中的有效数据这两个步骤,而无需额外处理如EC反编码等操作,使得元数据服务器的处理压力大大减少,元数据服务器出现故障并不会对整个数据读取流程造成过多影响,同时也减少了元数据服务器的业务逻辑的复杂度,提高元数据服务器的处理效率。
在一实施例中,该存储服务器的RNIC根据该数据读取请求和该位置信息,从该存储介质中获取该待读取数据包括:该存储服务器的RNIC根据该数据读取请求和该位置信息,从该存储介质中读取该位置信息对应的存储数据;该存储服务器的RNIC对该存储数据进行解压缩和解压紧操作,获得该待读取数据。
可以理解的,存储服务器存储的数据一般是按照粒度对齐处理的数据,比如按照512B粒度对齐的数据,并且,为了降低存储成本,存储服务器中的存储数据一般会经过数据压缩和数据压紧的操作,因此存储服务器的RNIC在读取到存储介质中的存储数据之后,可以对存储数据进行数据解压缩和解压紧的操作,从而获得待读取数据。由存储服务器的RNIC进行数据解压缩和解压紧的操作,可以减少客户端和元数据服务器的资源占用,使得客户端和元数据服务器的处理效率提高,客户端和元数据服务器性能要求降低,进而使得本申请提供的方法的适用场景更加广泛。
第四方面,提供了一种元数据服务器,应用于存储系统,该存储系统包括元数据服务器以及存储服务器,该元数据服务器包括:
接收单元,用于接收客户端发送的数据读取请求,该数据读取请求用于读取该存储服务器中的待读取数据;
获取单元,用于根据该数据读取请求,获得该待读取数据的位置信息;
发送单元,用于根据该位置信息,向该位置信息对应的存储服务器发送该数据读取请求和该位置信息,使得该存储服务器根据该数据读取请求和该位置信息,获取该待读取数据,并将该待读取数据写入该客户端的内存中。
在一实施例中,该位置信息包括该待读取数据的多个副本数据的位置信息,该发送单元,用于确定该多个副本数据中的一个有效数据;该发送单元,用于向该有效数据的位置信息对应的存储服务器发送该数据读取请求和该位置信息。
在一实施例中,该位置信息包括该待读取数据的多个分片数据的位置信息,该发送单元,用于根据该位置信息,向该多个分片数据的位置信息对应的多个存储服务器发送该数据读取请求和该位置信息,使得该存储服务器根据该数据读取请求,获取该多个分片数据,并将该分片数据写入该客户端的内存中,以供客户端根据该多个分片数据,获得该待读取数据,其中,一个该分片数据的位置信息对应一个存储服务器。
第五方面,提供了一种存储服务器,应用于存储系统,该存储系统包括元数据服务器以及存储服务器,该存储服务器包括:
接收单元,用于接收元数据服务器发送的数据读取请求和位置信息,其中,该数据读取请求是该元数据服务器接收的客户端发送的数据读取请求,该位置信息是该元数据服务器根据该数据读取请求获得的待读取数据的位置信息;
获取单元,用于根据该数据读取请求和该位置信息,获取该待读取数据;
写入单元,用于将该待读取数据写入该客户端的内存中。
在一实施例中,该数据读取请求包括该客户端内存的地址信息,该存储服务器包括远程直接数据存取网卡RNIC和存储介质,该获取单元,用于根据该数据读取请求和该位置信息,通过该RNIC从该存储介质中获取该待读取数据;该写入单元,用于根据该客户端内存的地址信息,通过该RNIC使用远程直接数据存取RDMA单边写入方法,将该待读取数据写入与该地址信息对应的客户端内存中。
在一实施例中,该位置信息是该待读取数据的多个副本数据中的一个有效数据的位置信息。
在一实施例中,该位置信息是该待读取数据的多个分片数据的位置信息,其中,一个分片数据的位置信息对应一个存储服务器,该获取单元,用于根据该数据读取请求,获取分片数据;该写入单元,用于将该分片数据写入该客户端的内存中,使得该客户端根据多个存储服务器写入的多个分片数据,获得该待读取数据。
在一实施例中,该获取单元,用于根据该数据读取请求和该位置信息,通过该RNIC从该存储介质中读取该位置信息对应的存储数据;该获取单元,用于通过该RNIC对该存储数据进行解压缩和解压紧操作,获得该待读取数据。
第六方面,提供了一种数据读取系统,包括:
元数据服务器,用于接收客户端发送的数据读取请求,其中,所述数据读取请求用于读取所述存储服务器中的待读取数据;
所述元数据服务器,还用于根据所述数据读取请求,获得所述待读取数据的位置信息;
所述元数据服务器,还用于向所述存储服务器发送所述位置信息以请求数据;
存储服务器,用于根据所述位置信息获取所述待读取数据;
所述存储服务器,还用于将所述待读取数据发送至所述客户端。
在一实施例中,所述数据读取请求包括所述客户端内存的地址信息,所述存储服务器包括远程直接数据存取网卡RNIC和存储介质,所述存储服务器的所述RNIC用于根据所述位置信息,从所述存储介质中获取所述待读取数据;所述存储服务器的所述RNIC用于根据所述客户端内存的地址信息,通过远程直接数据存取RDMA方法,将所述待读取数据写入与所述地址信息对应的客户端内存中。
在一实施例中,所述位置信息包括所述待读取数据的多个副本数据的位置信息,所述元数据服务器用于向所述多个副本数据中的一个副本数据的位置信息对应的存储服务器,发送所述多个副本数据中的一个副本数据的位置信息以请求数据。
在一实施例中,所述位置信息包括所述待读取数据的多个分片数据的位置信息,所述元数据服务器用于向所述多个分片数据中的每个分片数据的位置信息对应的存储服务器发送所述分片数据的位置信息,以获取所述分片数据;所述存储服务器用于根据所述分片数据的位置信息,获取所述分片数据;所述存储服务器用于将所述分片数据发送至所述客户端,使得所述客户端根据接收到的多个分片数据,获得所述待读取数据。
在一实施例中,所述存储服务器的所述RNIC用于根据所述位置信息,从所述存储介质中读取所述位置信息对应的存储数据;所述存储服务器的所述RNIC用于对所述存储数据进行解压缩和解压紧操作,获得所述待读取数据。
第七方面,提供了一种计算机程序产品,当所述计算机程序产品被计算设备读取并执行时,实现如第一方面、第二方面以及第三方面描述的方法。
第八方面,提供了一种计算机非瞬态存储介质,包括指令,当所述指令在计算设备上运行时,使得所述计算设备实现如第一方面、第二方面以及第三方面描述的方法。
第九方面,提供了一种电子设备,包括处理器和存储器,所述处理器执行所述存储器中的代码时,实现如第一方面、第二方面以及第三方面描述的方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是一种存储系统的结构示意图;
图2是一种数据读取方法的流程示意图;
图3是另一种数据读取方法的流程示意图;
图4是本申请提供的一种数据读取方法的流程示意图;
图5是本申请提供的一种数据读取方法在一应用场景下的流程示意图;
图6是本申请提供的一种元数据服务器的结构示意图;
图7是本申请提供的一种存储服务器的结构示意图;
图8是本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解本申请实施例,首先,对本申请涉及的应用场景进行简要说明。
现代互联网已进入大数据时代,每天都有数以万计的数据产生,这些数据的规模非常之大,使得传统的单机存储早已捉襟见肘,根本无法满足大数据多存储系统的要求,因此,分布式存储系统应运而生。
分布式存储系统,指的是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,使得存储服务器的性能成为系统性能的瓶颈,不能满足大规模存储应用的需要。因此,分布式存储系统应运而生,分布式存储系统指的是将数据分散存储在多台独立设备上,利用多台存储服务器分担存储负荷,利用元数据服务器定位存储数据的位置信息,与传统的网络存储系统相比,分布式存储系统不但提高了系统可靠性、可用性和存取效率,还易于扩展。下面对分布式存储系统的结构进行简要说明。
图1是一种存储系统100的结构示意图。如图1所示,存储系统100可以包括客户端110、元数据服务器120以及存储服务器130,其中,元数据服务器120、存储服务器130和客户端的数量可以是一个或者多个。应理解,图1中客户端110、元数据服务器120和存储服务器130的数量仅用于举例,并不能构成具体限定。其中,
客户端(Client)110用于向用户提供交互界面,用户可以通过客户端输入指令,客户端将其翻译成用户的读取请求,并将其发送给元数据服务器,以供元数据服务器120根据用户的读数据请求,查询待读取数据的元数据。其中,客户端的具体形态可以是网页浏览器,也可以是在本地运行的应用程序,本申请不作具体限定。并且,客户端110部署十分灵活,可以部署在任意一个元数据服务器120上,也可以部署在任意一个存储服务器130上,还可以部署在独立的服务器或者终端上,该服务器既不是元数据服务器120也不是存储服务器130,本申请不作具体限定。
元数据服务器120用于存储元数据(Metadata),这里的元数据指的是描述存储服务器130中的存储数据的数据(Data About Data),主要描述存储数据的属性信息(Property),用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。具体地,存储数据A0的元数据可以包括:该存储数据A0的访问权限、文件拥有者以及数据的位置信息等,其中位置信息还可以包括存储数据A0所在的磁盘上的具体位置、该磁盘对应的存储服务器的具体位置等。简单来说,用户需要操作一个存储系统服务器中的文件,那么用户必须要先得到该文件的元数据,才能定位到文件的位置。
具体实现中,元数据服务器120可以是实体设备,也可以是虚拟设备。当元数据服务器是实体设备时,元数据服务器可以具有处理器、硬盘、内存、网卡以及系统总线等等。当元数据服务器是虚拟设备时,元数据服务器可以通过软件模拟具有完整硬件系统功能的、运行在一个完全隔离环境中计算设备。比如,元数据服务器可以是服务器上虚拟出来的虚拟机。虚拟机在计算机上运行的应用程序,它可以模拟一个基于x86的标准PC环境。这个环境和真实的计算机一样,都有芯片组、CPU、内存、显卡、声卡、网卡、软驱、硬盘、光驱、串口、并口、USB控制器、小型计算机系统接口(Small Computer System Interface,SCSI)控制器等等中的一种或者多种设备。
存储服务器130用于存储数据。具体地,存储服务器可以包括多个如图1所示的存储介质,而存储介质可以是用于存储数据的全部载体,比如软盘、光盘、硬盘、闪存、磁盘、记忆棒等等,本申请不作具体限定。在分布式云存储应用场景中,存储服务器还可以是数据中心中的存储域网络(Storage Area Network,SAN)中的存储设备,SAN中的存储设备是智能设备,比如独立磁盘副本阵列(Redundant Arrays of Independent Drives,RAID,RAID),也可称之为基于对象的存储设备(Object-based Storage Device,OSD),每个OSD具有自己的存储控制器/处理器、缓存以及网络系统,可以提供OSD对象接口,使得存储服务器可以通过OSD对象接口和元数据服务器120以及客户端110通信,为其提供数据存储和业务访问的功能。
需要说明的,在一些应用场景下,元数据服务器120和存储服务器可以以其他形式存在,比如适用于企业的数据存储场景中,存储服务器130可以以存储阵列或者硬盘框的形态存在,元数据服务器还可以以控制该存储阵列或者硬盘柜的控制器的形态存在,该控制器也用于存储上述元数据,本申请不作具体限定。
应理解,存储系统100为了保证海量数据的可靠性,一般通过冗余存储策略来防止数据丢失,其中,冗余存储策略包括副本策略以及纠删码(Erasure Coding,EC)策略。简单来说,副本策略指的是将待存储的数据进行镜像获得多个镜像文件,然后将原数据和多个镜像文件分别存储在不同的存储服务器中,EC策略指的是将待存储的存储数据按照一定的EC编码逻辑分为多个分片数据,分片数据包括数据块和检验块,数据块即为原存储数据中的部分数据,当数据块丢失时,可以使用检验块重新计算出丢失的数据块。将这些分片数据分别存储在不同的存储服务器中。举例来说,可以根据分片数据的某一种数据特征(比如分片ID)计算哈希值,并将哈希值与多个存储服务器130建立映射关系,从而将不同哈希值的分片数据分布到不同的存储服务器上。还可以将key为[1,10000]的分片数据放在存储服务器1,将key为[100001,20000]的分片数据放在存储服务器2,以此类推。应理解,上述举例仅用于说明,本申请不对具体实现中的EC编码逻辑进行限定。
因此,存储系统100中的存储数据多为分片数据或者副本数据,这样,存储服务器130每一次接收到数据读取请求时,将会先获取分片数据或者副本数据,然后对分片数据或者副本数据进行处理后,才能获得待读取数据。具体的,如果存储服务器130使用副本策略进行存储,那么存储服务器130在接收到数据读取请求后,将会先获取多个副本数据,然后从多个副本数据中获取有效数据,将其返回至客户端。如果分布式存储系统使用EC策略进行存储,那么存储服务器130在接收到数据读取请求后,需要先获取多个分片数据,然后根据存储时使用的EC编码逻辑,使用对应的EC反编码逻辑完成分片数据的组装,将组装后的数据返回至客户端。
下面将分别对上述分布式存储系统100进行数据读取的两种方法进行解释说明。其中,图2实施例中通过客户端进行数据分片的组装,图3实施例中通过元数据服务器进行数据分片的组装。
图2是一种分布式存储系统数据读取方法的流程图。如图2所示,图2所示的数据读取方法可以包括以下步骤:
步骤11:客户端110向元数据服务器120发送数据A0的数据读取请求,该数据读取请求可以包括数据A0的数据ID或者属性信息等等,以使得元数据服务120可以根据该数据ID或者属性信息等等查询到数据A0的元数据。可以理解的,元数据服务器120包括至少一个元数据服务器,因此客户端110可以将数据A0的读取请求发送给元数据服务器中的一个元数据服务器X,比如默认的元数据服务器,或者离客户端A的地理位置距离最近的一台元数据服务器,或者随机一台元数据服务器,本申请不作具体限定。
步骤12:元数据服务器120向客户端110返回数据A0的元数据。
可以理解的,元数据服务器中的各个元数据服务器由于负载均衡、可靠性等缘故,各自负责不同的存储资源元数据管理,也就是说,每一个元数据服务器120可以维护一个元数据库,元数据服务器X在步骤S210接收到客户端110发送的数据A0的读取请求之后,元数据服务器X将会查询自己的元数据库,如果自己的元数据库中包含了数据A0的元数据信息,那么元数据服务器X可以直接将数据A0的元数据信息返回客户端110;如果自己的元数据库中没有数据A0的元数据信息,元数据服务器X需要查询该数据A0的元数据存储在哪一个元数据服务器上,并向该元数据服务器转发数据A0的读取请求供其进行元数据的查询。
举例来说,假设数据A0的元数据存储在元数据服务器Y,那么元数据服务器X在步骤S12接收到数据A0的数据读取请求后,可以确定数据A0元数据所在的元数据服务器Y的地址,并将该数据读取请求转发给元数据服务器Y,元数据服务器Y在查询得到数据A0的元数据之后,元数据服务器Y可以将数据A0的元数据返回给客户端110。应理解,上述举例仅用于说明,并不能构成具体限定。
具体实现中,元数据服务器X可以通过对数据读取请求中的数据ID和元数据服务器总数取模的方式,确定存储数据A0元数据的元数据服务Y。可以理解的,用户需要读取某个数据A0时,需要输入一些数据A0相关信息才能查询到待读取数据A0,比如数据A0的数据ID,那么元数据服务器可以通过对数据读取信息中的数据A0的数据ID和元数据服务器总数之间取模的形式,确定数据A0的元数据存储在哪一个元数据服务器。其中,取模指的是两个数相除后获得的余数。举例来说,假设元数据服务器总共有3台,元数据服务器的编号分别为0、1、2,数据A0的ID为90,那么数据A0可以存储在编号0的元数据服务器上,如果数据A0的数据ID为88,那么数据A0可以存储在编号为1的元数据服务器上。当元数据服务器接收到数据读取请求时,可以根据数据读取请求中的数据编号,查询到存储该数据的元数据服务器的编号,每台元数据服务器可以存储有每个元数据服务器编号对应的网络地址,从而实现元数据服务器X需要查询该数据A0的元数据存储在哪一个元数据服务器上,并向该元数据服务器转发数据A0的读取请求供其进行元数据的查询。
元数据服务器X还可以通过查询索引来确定存储数据A0元数据的元数据服务Y。其中,索引中包含了多个路由信息,每个路由信息包括一个数据ID(可以是数字也可以是字符串)和对应的存储地址,当数据A0的元数据被写入元数据服务器Y时,元数据服务器Y可以在自己维护的索引中创建一条路由A’,该路由A’记录了数据ID“A0”对应的地址信息为元数据服务器Y的地址信息,然后元数据服务器Y将该条路由A’同步到集群中的每一个元数据服务器维护的索引上。这样,当任何一台元数据服务器接收到的数据查询请求包含数据ID“A0”时,每一个元数据服务器都可以根据索引中的路由A’记录的信息,获得“数据A0”对应的地址信息,即元数据服务器Y的地址信息。需要说明的,上述两种确定存储数据A0元数据的元数据服务器Y的方法仅用于举例说明,本申请不对元数据服务器X如何确定存储数据A0元数据服务器Y的具体方式进行限定。
具体实现中,数据A0的元数据可以包括数据A0的位置信息,位置信息具体可以包括存储服务器地址、分区信息、盘上的起始位置和数据长度等等,具体可以参考前述内容,这里不再展开赘述。
需要说明的,如果存储系统使用副本策略进行数据存储,由于存储磁盘粒度需要对齐、数据被分区打散的缘故,元数据服务器在确定了数据A0的元数据之后,需要从多个副本数据中确定可以被读取的1个有效数据,然后将有效的副本数据的元数据向客户端110返回,此时的位置信息只对应了1个指定存储服务器。其中,有效数据可以是在多个副本数据中随机选择的一个完好的副本数据,如果客户端A恰好处于某个存储服务器上,那么有效数据还可以是存储于客户端A所在存储服务器的副本数据,本申请不作具体限定。
需要说明的,如果存储系统使用EC策略进行数据存储,由于数据被分为多个分片数据存储在不同的存储服务器中,此时数据A0的元数据将包括多个分片数据的位置信息,这些位置信息分别对应了不同的指定存储服务器。
步骤13:客户端110根据数据A0的元数据,访问指定存储服务器。
参考步骤12可知,存储系统使用副本策略进行存储时,数据A0的元数据只包括了一个有效副本数据的位置信息,因此步骤13处客户端110可以只访问一台与元数据对应的存储服务器即可;分布式存储系统使用EC策略进行存储时,数据A0的元数据包括了多个冗余数据的位置信息,因此客户端110可以根据这些位置信息,一一访问位置信息对应多个指定存储服务器,向指定存储服务器获取数据A0的多个分片数据。
步骤14:指定存储服务器向客户端110返回数据A0或者数据A0的多个分片数据。
可以理解的,如果分布式存储系统使用副本策略进行存储,那么步骤14返回的是副本数据中的有效数据,即完整的数据A0,数据读取完成。但是,如果分布式存储系统使用EC策略进行存储,那么步骤14返回的是多个分片数据,还需要继续执行步骤15。
步骤15:客户端110将多个分片数据进行组装,获得需要读取的数据A0。
具体实现中,如果分布式存储系统使用EC策略将数据分为多个分片数据进行存储,客户端110可以使用与其对应的EC反编码逻辑对分片数据进行组装,从而获得需要读取的数据A0。其中,客户端使用的EC反编码逻辑可以是在存储系统110搭建后,从元数据服务器120处获取的,也就是说,存储系统110在系统搭建结束后,将会通知与系统相连的客户端,本存储系统110使用的EC编码存储逻辑和EC反编码逻辑。
可以理解的,上述数据读取流程中,客户端110、元数据服务器120以及存储服务器130之间的数据交互次数共有4次,包括3次读取请求的传输和1次数据传输,网络交互次数较多,过多的传输开销导致数据读取速度出现瓶颈。
图3是另一种分布式存储系统数据读取方法的流程图。如图3所示,图3所示的数据读取方法可以包括以下步骤:
步骤21:客户端110向元数据服务器120发送数据A0的读取请求。具体可以参考步骤11,这里不再进行赘述。
步骤22:元数据服务器120根据数据A0的读取请求,获取数据A0的元数据。参考步骤12可知,不同的元数据服务器负责不同的存储资源元数据管理,因此元数据服务器X接收到数据A0的读取请求后,将会通过对数据读取请求中的数据ID取模的方式,或者查询本地维护的索引的方式,获得待读取数据的元数据所在的元数据服务器Y的地址,然后将数据A0的读取请求发送给该元数据服务器Y,以供其查询获得数据A0的元数据。
步骤23、元数据服务器120根据元数据信息访问指定存储服务器。
具体实现中,负责管理数据A0的元数据服务器Y在获取到数据A0的元数据之后,直接根据数据A0的元数据中的位置信息,然后向位置信息对应的一个或者多个指定存储服务器发送数据读取请求,其中,位置信息的具体描述可以参考前述内容中的步骤12,这里不再展开赘述。
需要说明的,如果分布式存储系统使用副本策略进行数据存储,那么元数据服务器Y在确定了数据A0的元数据之后,需要从多个副本数据中确定可以被读取的有效数据,然后根据该有效数据的位置信息,访问对应的存储服务器。如果分布式存储系统使用EC策略进行数据存储,由于数据通过EC编码操作被分为多个分片数据存储在不同的存储服务器中,此时数据A0的元数据将包括多个分片数据的位置信息,这些位置信息分别对应了不同的指定存储服务器,元数据服务器Y将分别访问每一个分片数据对应的指定存储服务器。
步骤24、元数据服务器120接收指定存储服务器返回数据A0或者数据A0的多个分片数据。
具体实现中,多个指定存储服务器可以根据读取请求,完成数据读取操作,并将数据返回给发起读取请求的元数据服务Y,使得元数据服务器Y可以接收到数据A0或者数据A0的多个分片数据。其中,在分布式存储系统是按副本策略进行存储的情况下,元数据服务器Y将接收到数据A0,元数据服务器Y可以直接执行步骤26;在分布式存储系统是在EC策略进行存储的情况下,元数据服务器Y将接收到数据A0的多个分片数据,因此还需要执行步骤25将分片数据组装后,才可以执行步骤S26。
步骤25、元数据服务器120将数据A0的分片数据进行组装,获得数据A0。具体可以参考前述内容中的步骤S15,即通过EC反编码操作将接收到的多个分片数据进行组装,从而获得完整的数据A0,这里不展开赘述。
步骤26:元数据服务器120向客户端120发送数据A0。
可以理解的,上述数据读取流程中存在诸多弊端,首先,客户端110、元数据服务器120以及存储服务器130之间的数据交互次数共有4次,包括2次读取请求的传输和2次数据传输,网络交互次数较多,过多的传输开销导致数据读取速度出现瓶颈;其次,元数据服务器还要根据分布式存储系统的存储策略(EC或者副本),对数据进行处理,在副本策略的情况下,元数据服务器需要在多个副本数据中获取有效数据,在EC策略的情况下,元数据服务器还需要完成数据分片的组装,增加了元数据服务器110业务逻辑的复杂度,导致元数据服务器110的处理效率低;第三,由于大部分数据处理过程都由元数据服务器进行,因此在数据读取过程中如果元数据服务器出现了故障,很多步骤流程都无法进行,需要等待元数据服务器恢复后才能继续完成数据读取操作,增大了客户端读取数据时延,降低用户体验,同时导致整个数据读取流程的稳定性差。
综上可知,分布式存储系统由于利用多台存储服务器分担存储负荷,需要利用元数据服务器定位存储数据的位置信息,并且为了提高数据的可靠性,采用副本策略和EC策略进行数据存储,每个存储数据对应了多个副本数据和/或分片数据,导致用户使用客户端读取数据时,无论使用图2实施例的数据读取方法在客户端处进行分片数据的组装,还是图3实施例的数据读取方法在元数据服务器进行分片数据的组装,都需要在元数据服务器和存储服务器之间进行多次通信,产生了大量的通信开销,同时也对客户端或者元数据服务器带来了巨大的处理压力,使得分布式系统的数据读取速度受到限制,客户端读取数据的时延较大。
为了解决上述分布式存储系统的数据读取速度受到限制的问题,本申请提供了一种数据存储方法,该方法应用于如图1所示的存储系统中,其中,该存储系统包括至少一个客户端、至少一个元数据服务器以及至少一个存储服务器。如图4所示,该方法包括以下步骤:
S410:元数据服务器接收客户端发送的数据读取请求。
具体实现中,客户端可以将数据读取请求发送给至少一个元数据服务器中的某一个元数据服务器上,该数据读取请求可以包括待读取数据的数据ID等可以被元数据服务器用来查询元数据信息的关键字信息,使得元数据服务器X可以通过对数据读取请求中的数据ID取模的方式,或者查询本地维护的索引的方式,获得待读取数据的元数据所在的元数据服务器Y的地址,并将数据读取请求转发给元数据服务器Y,这一过程可以参考前述内容中的步骤11-步骤12以及步骤21-步骤22,这里不再进行赘述。
在一实施例中,所述数据读取请求包括所述客户端内存的地址信息,该地址信息可以包括客户端内存的地址、长度等信息。简单来说,在客户端向元数据服务器发送读取请求之前,还可以在客户端的内存中申请一片用于写入待读取数据的缓存空间(buffer),然后将该缓存空间的地址、长度等信息封装入所述数据读取请求,应理解,该地址信息将随着数据读取请求依次发送给元数据服务器和存储服务器,这样,当元数据服务器将该数据读取请求发送给存储服务器时,存储服务器可以直接根据数据读取请求中包含的客户端内存的地址信息,将待读取数据写入所述客户端的内存。
S420:元数据服务器120根据所述数据读取请求,获得所述待读取数据的位置信息。
其中,所述位置信息可以是前述内容中的元数据,元数据服务器120可以维护一个位置信息数据库(即元数据库)如果存储系统100使用副本策略进行数据存储,那么位置信息可以包括待读取数据的多个副本数据的位置信息,如果存储系统100使用EC策略进行数据存储,那么位置信息可以包括待读取数据的多个分片数据的位置信息。
S430:元数据服务器向存储服务器发送位置信息以请求数据。
在一实施例中,如果存储系统100使用副本策略进行数据存储,元数据服务器可以在多个副本数据中选择一个有效数据,然后向有效数据的位置信息对应的存储服务器发送数据读取请求和位置信息,也就是说,位置信息包括待读取数据的多个副本数据的位置信息,元数据服务器向存储服务器发送位置信息以请求数据包括:元数据服务器向多个副本数据中的一个副本数据的位置信息对应的存储服务器,发送多个副本数据中的一个副本数据的位置信息以请求数据。其中,有效数据的选取过程可以参考前述内容的步骤12,这里不再展开赘述。
需要说明的,元数据服务器向存储服务器发送位置信息以请求数据时,也可以通过向存储服务器发送副本数据的读取请求的方式以请求数据,该副本数据的读取请求可以是对客户端发送的数据读取请求中的部分参数进行修改并重新封装后获得的,比如客户端发送的数据读取请求包括源地址、数据长度和待读取数据的数据ID等等,元数据服务器在获得副本数据中的有效数据的位置信息之后,可以将数据读取请求中的数据长度由客户需求的待读取数据的长度修改为有效数据的长度,然后将待读取数据的数据ID替换为有效数据的位置信息,从而获得该副本数据的读取请求,然后将该副本数据的读取请求发送给存储服务器。可以理解的,副本数据的数据读取请求还可以是使用其他方式对客户端发送的数据请求进行修改和封装后获得的,本申请不对获得副本数据的数据读取请求的具体方式进行限定。
在一实施例中,如果存储系统100使用EC策略进行数据存储,元数据服务器可以向多个分片数据对应的存储服务器一一发送数据读取请求和位置信息。也就是说,位置信息包括待读取数据的多个分片数据的位置信息,元数据服务器向存储服务器发送位置信息以请求数据包括:元数据服务器向多个分片数据中的每个分片数据的位置信息对应的存储服务器发送分片数据的位置信息,以获取分片数据。
需要说明的,元数据服务器向存储服务器发送位置信息以请求数据时,也可以通过向存储服务器发送分片数据的读取请求的方式以请求数据,该分片数据的读取请求可以是对客户端发送的数据读取请求中的部分参数进行修改并重新封装后获得的,比如客户端发送的数据读取请求包括源地址、数据长度和待读取数据的数据ID等等,元数据服务器在获得多个分片数据的位置信息之后,可以将数据读取请求中的数据长度由客户需求的待读取数据的长度修改为分片数据的长度,然后将待读取数据的数据ID替换为分片数据的位置信息,从而获得每一个分片数据的读取请求,然后将该分片数据的读取请求发送给对应的存储服务器。可以理解的,分片数据的数据读取请求还可以是使用其他方式对客户端发送的数据请求进行修改和封装后获得的,本申请不对获得分片数据的数据读取请求的具体方式进行限定。
可以理解的,本申请实施例中元数据服务器只负责查询待存储数据的位置信息,以及确认多个副本数据中的有效数据这两个步骤,相比于图3实施例描述的数据读取方法,元数据服务器的处理压力大大减少,元数据服务器出现故障并不会对整个数据读取流程造成过多影响,同时也减少了元数据服务器的业务逻辑的复杂度,提高元数据服务器的处理效率。
S440:存储服务器根据所述位置信息获取待读取数据。
具体实现中,如果存储系统100使用副本策略进行数据存储,只有一个存储服务器(即有效数据的存储服务器)将会接收到副本数据的读取请求,该请求中包含了多个副本数据中的一个有效数据的位置信息,因此,在存储服务器接收到上述副本数据的读取请求之后,存储服务器可以直接根据有效数据的位置信息读取有效数据,然后将其写入客户端的内存中。
但是,如果存储系统100使用EC策略进行数据存储,将会有多个存储服务器(多个分片数据对应的多个存储服务器)接收到分片数据的读取请求,该请求中包含了一个分片数据的位置信息,每一个接收到分片数据的读取请求的存储服务器只能读取各自的分片数据,而无法直接读取到完整的待读取数据,因此,在步骤S450处,每个存储服务器将读取到的分片数据写入客户端之后,客户端可以对多个分片数据进行EC反编码,从而获得待读取数据。也就是说,存储服务器根据位置信息获取待读取数据包括:存储服务器根据分片数据的位置信息,获取分片数据;存储服务器将待读取数据发送至客户端包括:存储服务器将分片数据发送至客户端,使得客户端根据接收到的多个分片数据,获得待读取数据。
在一实施例中,如图4所示,所述存储服务器包括远程直接数据存取网卡RNIC和存储介质,所述存储服务器根据所述位置信息,获取所述待读取数据包括:所述存储服务器的RNIC根据所述位置信息,从所述存储介质中获取所述待读取数据。其中,存储介质的定义可以参考图1实施例中的内容,具体可以是硬盘、存储芯片、智能盘等等,这里不再进行赘述;RNIC(RDMA enabled NIC)是具有远程直接内存访问(Remote Direct Memory Access,RDMA)功能的网卡(Nic),RNIC通过RDMA单边写操作,可以通过网络将待读取数据从存储服务器快速移动到远程客户端的内存中,而不对客户端的操作系统造成任何影响,可以理解的,存储服务器直接通过RDMA单边写操作将待读取数据写入客户端,使得客户端资源占用大大降低,从而提高客户端的处理效率。
S450:存储服务器将待读取数据发送至客户端。
在一实施例中,所述存储服务器将所述待读取数据发送至所述客户端包括:所述存储服务器的RNIC根据所述客户端内存的地址信息,通过远程直接数据存取RDMA方法,将所述待读取数据写入与所述地址信息对应的客户端内存中。具体地,RNIC可以通过RDMA单边写入方法将所述待读取数据写入与所述地址信息对应的客户端内存中。应理解,RDMA单边写操作只需要发送端明确信息的源和目的地址,接收端不需要感知此次通信,数据的写入通过RDMA在RNIC和客户端内存(Buffer)之间完成,相比图2实施例,客户端的处理压力大大减少,提高了数据读取的速度。具体实现中,客户端的网卡也是RNIC,这样客户端才可以兼容存储服务器的RDMA操作。
在一实施例中,存储服务器的存储介质中存储的数据一般是按照粒度对齐处理的数据,比如按照512B粒度对齐的数据,并且,为了降低存储成本,存储介质中存储的数据一般会经过数据压缩(Data Compression)和数据压紧(Data Compaction)的操作,因此存储服务器的RNIC在读取到存储介质中的存储数据之后,可以对存储数据进行数据解压缩和解压紧的操作,从而获得待读取数据。也就是说,所述存储服务器的RNIC根据所述位置信息,从所述存储介质中获取所述待读取数据包括:所述存储服务器的RNIC根据所述位置信息,从所述存储介质中读取所述位置信息对应的存储数据;所述存储服务器的RNIC对所述存储数据进行解压缩和解压紧操作,获得所述待读取数据。可以理解的,该步骤交由存储服务器的RNIC进行,可以减少客户端的资源占用,相比图2实施例,客户端处理效率提高,客户端性能要求降低,进而使得本申请提供的方法的适用场景更加广泛,相比图3实施例,元数据服务器处理效率提高,客户端性能要求降低,进而使得本申请提供的方法适用场景更加广泛。
具体实现中,对于使用EC策略进行存储的存储系统来说,存储数据被分为多个分片数据,存储在不同的存储服务器中,而每个用户真正想要读取的数据可能只是每个被分片的原始数据的一部分,举例来说,被分片存储的原始数据A的长度总共有12K,以2个4K的数据块和1个4K校验块的形式存储在存储系统中,但是用户只想读取的数据A0只是被分片存储的原始数据A的前2K内容。因此在步骤S420处,元数据服务器还可以先确认用户的待读取数据A0所在的被分片的原始数据A的位置信息,然后将待读取数据A0与该原始数据A之间的对应关系(即待读取数据在该原始数据的哪一部分,比如前2K,中间2K-4K,后4K等等)放入位置信息,然后将其封装进分片数据的读取请求,将分片数据的读取请求传输至存储服务器。步骤S440处,存储服务器的RNIC可以将原始数据A的全部分片数据写入客户端内存中,并将用户的待读取数据A0与原始数据A的对应关系同时发送给客户端,仍以前述例子为例,此时存储服务器可以将2个4K的数据块和1个4K校验块写入客户端的内存中,并将用户实际需要读取的数据A0与原始数据A的对应关系(即待读取数据是数据A的前2k)一同发送给客户端,客户端收到完整的12K数据后,先通过EC反编码计算出原始数据A0,然后摘取原始数据A的前2K返回给用户。可以理解的,本申请通过将用户的待读取数据与被分片的原始数据的对应关系进行映射,结合RDMA单边写入的技术,使得客户端只需要对分片数据进行EC反编码,而无需再额外分出资源处理收发流程,使得客户端的资源占用大大减少,降低了客户端实现复杂度,客户端性能要求降低,进而使得本申请提供的方法适用场景更加广泛。
综上可知,前述内容中图2实施例描述的数据读取方法需要交互4次,包括3次读取请求的传输和1次数据传输,前述内容中图3实施例描述的数据读取方法需要交互4次,包括2次读取请求的传输和2次数据传输。而本申请提供的数据读取方法的整个流程中,如图4所示,客户端110、元数据服务器120以及存储服务器130之间的数据交互次数只有3次,包括2次读取请求的传输和1次数据传输,本申请提供的数据读取方法相比图2和图3实施例描述的数据读取方法,传输开销大大减少,数据读取速度大大提升。
下面以EC2+1冗余模式为例,对本申请提供的数据读取方法进行举例说明。其中,EC2+1指的是存储系统中的数据将通过EC编码将每个数据分为3个分片数据进行存储,3个分片数据包括2个数据块和1个校验块。如图5所示,本申请提供的数据读取方法可以包括以下步骤:
步骤1、客户端在内存空间中申请一片缓存空间,并向元数据服务器X发送数据A0的数据读取请求,其中,数据读取请求包括该内存空间的地址信息。具体可以参考前述内容的步骤S410及其可选步骤,这里不再展开赘述。
步骤2、元数据服务器X通过对数据读取请求中的数据ID取模的方式,或者查询本地维护的索引的方式,获得待读取数据的元数据所在的元数据服务器Y的地址,向元数据服务器Y转发该数据读取请求,元数据服务器Y接收该数据读取请求。其中,元数据服务器X可以是客户端随机选择的一个元数据服务器,也可以是离客户端最近的元数据服务器,也可以是存储系统的默认元数据服务器,本申请不作具体限定,具体可以参考前述内容的步骤S410、步骤12、步骤22及其可选步骤,这里不再展开赘述。
步骤3、元数据服务器Y确认所述数据A0是存储数据A的前2K数据,进而确认存储数据A的多个分片数据的位置信息,向每一个分片数据对应的存储服务器发送分片数据的读取请求。其中,存储数据A包括3个分片数据,分片数据1(数据块1)存储于存储服务器1,分片数据2(数据块2)存储于存储服务器4,分片数据3(校验块1)存储于存储服务器5,因此元数据服务器Y可以向存储服务器1发送分片数据1的读取请求,该请求包含了分片数据1的位置信息和数据长度、用户需要读取的A0与存储数据A的对应关系(数据A0是数据A的前2K数据)、客户端A的写入地址等信息;向存储服务器2发送分片数据2的读取请求,该请求包含了分片数据2的位置信息和数据长度、用户需要读取的A0与存储数据A的对应关系(数据A0是数据A的前2K数据)、客户端A的写入地址等信息;向存储服务器3发送分片数据3的读取请求,该请求包含了分片数据3的位置信息和数据长度、用户需要读取的A0与存储数据A的对应关系(数据A0是数据A的前2K数据)、客户端A的写入地址等信息。具体可以参考前述内容的步骤S420、步骤S430及其可选步骤,这里不再展开赘述。
步骤4、存储服务器的RNIC根据接收到的分片数据的读取请求,从本服务器管理下的存储介质中读取分片数据,比如存储服务器1可以根据分片数据1的位置信息进行数据读取,然后对读取得到的与位置信息对应的存储数据进行解压紧和解压缩处理,从而获得分片数据1,同理,存储服务器4的RNIC可以获得分片数据2,存储服务器5的RNIC可以获得分片数据3。当然,如果存储服务器的盘上之前并没有进行过粒度对齐处理和压缩处理,那么存储服务器可以直接根据位置信息读取得到分片数据,具体可以参考前述内容的步骤S440及其可选步骤,这里不再展开赘述。
步骤5、存储服务器的RNIC根据接收到的分片数据的读取请求中,客户端内存空间的地址信息,通过RDMA单边写操作将分片数据写入该地址信息对应的客户端内存中。存储服务器1的RNIC将分片数据1写入客户端内存中,存储服务器2的RNIC将分片数据2写入客户端内存中,存储服务器3的RNIC将分片数据3写入客户端内存中。具体可以参考前述内容的步骤S450及其可选步骤,这里不再展开赘述。
步骤6、客户端通过EC反编码操作将分片数据1、分片数据2和分片数据3组装为存储数据A,根据待读取数据A0和存储数据A之间的对应关系,确定待读取数据A0。具体可以参考前述内容的步骤S450、步骤15、步骤25及其可选步骤,这里不再展开赘述。
步骤7、客户端将待读取数据A0返回至用户。
综上可知,前述内容中图2实施例描述的数据读取方法需要交互4次,包括3次读取请求的传输和1次数据传输,前述内容中图3实施例描述的数据读取方法需要交互4次,包括2次读取请求的传输和2次数据传输。而本申请提供的数据读取方法的整个流程中,如图4所示,客户端110、元数据服务器120以及存储服务器130之间的数据交互次数只有3次,包括2次读取请求的传输和1次数据传输,本申请提供的数据读取方法相比图2和图3实施例描述的数据读取方法,传输开销大大减少,数据读取速度大大提升。
上述详细阐述了本申请实施例的方法,为了便于更好的实施本申请实施例上述方案,相应地,下面还提供用于配合实施上述方案的相关设备。
图6是本申请提供的一种元数据服务器600的结构示意图。该元数据服务器600可以是前述内容中的元数据服务器120,如图6所示,该元数据服务器600包括接收单元610、获取单元620、发送单元630以及位置信息数据库640。
接收单元610,用于接收客户端发送的数据读取请求,所述数据读取请求用于读取所述存储服务器中的待读取数据;
获取单元620,用于根据所述数据读取请求,获得所述待读取数据的位置信息,具体地,可以从元数据服务器600维护的位置信息数据库640中获取待读取数据的位置信息。
发送单元630,用于根据所述位置信息,向所述位置信息对应的存储服务器发送所述数据读取请求和所述位置信息,使得所述存储服务器根据所述数据读取请求和所述位置信息,获取所述待读取数据,并将所述待读取数据写入所述客户端的内存中。
在一实施例中,所述位置信息包括所述待读取数据的多个副本数据的位置信息,所述发送单元630,用于确定所述多个副本数据中的一个有效数据;所述发送单元630,用于向所述有效数据的位置信息对应的存储服务器发送所述数据读取请求和所述位置信息。
在一实施例中,所述位置信息包括所述待读取数据的多个分片数据的位置信息,所述发送单元630,用于根据所述位置信息,向所述多个分片数据的位置信息对应的多个存储服务器发送所述数据读取请求和所述位置信息,使得所述存储服务器根据所述数据读取请求,获取所述多个分片数据,并将所述分片数据写入所述客户端的内存中,以供客户端根据所述多个分片数据,获得所述待读取数据,其中,一个所述分片数据的位置信息对应一个存储服务器。
可以理解的,使用本申请提供的元数据服务600,在存储系统100中进行数据读取时,客户端110、元数据服务器120以及存储服务器130之间的数据交互次数只有3次,包括2次读取请求的传输和1次数据传输,相比于图2和图3实施例,传输开销大大减少,数据读取速度大大提升。并且,由于元数据服务器600只负责根据客户端发送的数据读取请求进行位置信息的查询,以及确认多个副本数据中的有效数据这两个步骤,相比于图3实施例描述的数据读取方法,元数据服务器的处理压力大大减少,元数据服务器出现故障并不会对整个数据读取流程造成过多影响,同时也减少了元数据服务器的业务逻辑的复杂度,提高元数据服务器的处理效率。
图7是本申请提供的一种存储服务器700的结构示意图。该存储服务器700可以是前述内容中的存储服务器130,如图7所示,该存储服务器700包括RNIC 710和存储介质720,其中,RNIC 710包括接收单元711、获取单元712以及写入单元713。
接收单元711,用于接收元数据服务器发送的数据读取请求和位置信息,其中,所述数据读取请求是所述元数据服务器接收的客户端发送的数据读取请求,所述位置信息是所述元数据服务器根据所述数据读取请求获得的待读取数据的位置信息;
获取单元712,用于根据所述数据读取请求和所述位置信息,从所述存储介质720中获取所述待读取数据;
写入单元713,用于将所述待读取数据写入所述客户端的内存中。
在一实施例中,所述数据读取请求包括所述客户端内存的地址信息,所述存储服务器包括远程直接数据存取网卡RNIC710和存储介质720,所述获取单元712,用于根据所述数据读取请求和所述位置信息,通过所述RNIC从所述存储介质720中获取所述待读取数据;所述写入单元,713用于根据所述客户端内存的地址信息,通过所述RNIC使用远程直接数据存取RDMA单边写入方法,将所述待读取数据写入与所述地址信息对应的客户端内存中。
在一实施例中,所述位置信息是所述待读取数据的多个副本数据中的一个有效数据的位置信息。
在一实施例中,所述位置信息是所述待读取数据的多个分片数据的位置信息,其中,一个分片数据的位置信息对应一个存储服务器,所述获取单元712,用于根据所述数据读取请求,获取分片数据;所述写入单元713,用于将所述分片数据写入所述客户端的内存中,使得所述客户端根据多个存储服务器写入的多个分片数据,获得所述待读取数据。
在一实施例中,所述获取单元712,用于根据所述数据读取请求和所述位置信息,通过所述RNIC从所述存储介质中读取所述位置信息对应的存储数据;所述获取单元713,用于通过所述RNIC对所述存储数据进行解压缩和解压紧操作,获得所述待读取数据。
可以理解的,使用本申请提供的存储服务器700,在存储系统中进行数据读取时,客户端、元数据服务器以及存储服务器之间的数据交互次数只有3次,包括2次读取请求的传输和1次数据传输,相比于图2和图3实施例,传输开销大大减少,数据读取速度大大提升。并且,存储服务器的RNIC结合RDMA单边写入的技术,使得客户端只需要对分片数据进行EC反编码,而无需再额外分出资源处理收发流程,客户端的资源占用大大减少,降低了客户端实现复杂度,进而使得本申请提供的方法适用场景更加广泛。
图8为本申请实施例提供的一种电子设备800的结构示意图。其中,所述电子设备800可以是前述内容中的元数据服务器600或者存储服务器700。如图8所示,电子设备800包括:处理器810、通信接口820以及存储器830。其中,处理器810、通信接口820以及存储器830可以通过内部总线840相互连接,也可通过无线传输等其他手段实现通信。本申请实施例以通过总线840连接为例,总线840可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。所述总线840可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
所述处理器810可以由至少一个通用处理器构成,例如中央处理器(CentralProcessing Unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(Application-Specific Inegrated Circuit,ASIC)、可编程逻辑器件(ProgrammableLogic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD)、现场可编程逻辑门阵列(Field-Programmable GateArray,FPGA)、通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。处理器810执行各种类型的数字存储指令,例如存储在存储器830中的软件或者固件程序,它能使电子设备800提供较宽的多种服务。
在电子设备800是前述内容中的元数据服务器600的情况下,所述存储器830用于存储程序代码,并由处理器810来控制执行,以执行上述图4或图5中任一实施例中元数据服务器的处理步骤。
所述程序代码中可以包括一个或多个软件模块。这一个或多个软件模块可以为图6所示实施例中提供的软件模块(在该实施例中各软件模块,如接收单元,获取单元以及发送单元,为软件模块的情况下)。例如接收单元可以用于接收客户端发送的数据读取请求;获取单元可以用于根据数据读取请求,获得待读取数据的位置信息;发送单元可以用于根据位置信息,向位置信息对应的存储服务器发送数据读取请求和所述位置信息,使得存储服务器根据数据读取请求和位置信息获取待读取数据,并将待读取数据写入客户端的内存中。具体可用于执行前述方法的步骤S410-步骤S440、步骤1-步骤3及其可选步骤,还可以用于执行图4或图5实施例描述的其他步骤,这里不再进行赘述。
需要说明的是,本实施例可以是通用的物理服务器实现的,例如,物理服务器,如X86服务器等,也可以是基于通用的物理服务器结合网络功能虚拟化(NetworkFunctionsVirtualization,NFV)技术实现的虚拟机(Virtual Machine,VM)实现的,所述虚拟机指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。本申请不作具体限定。
在电子设备800是前述内容中的存储服务器700的情况下,所述存储器830用于存储程序代码,并由处理器810来控制执行,以执行上述图4或图6中任一实施例中存储服务器的处理步骤。
所述程序代码中可以包括一个或多个软件模块。这一个或多个软件模块可以为图6所示实施例中提供的软件模块(在该实施例中各软件模块,如接收单元,获取单元以及写入单元,为软件模块的情况下)。例如接收单元可以用于接收元数据服务器发送的数据读取请求和位置信息,获取单元可以用于根据所述数据读取请求和所述位置信息,获取所述待读取数据,写入单元可以用于将所述待读取数据写入所述客户端的内存中。具体可用于执行前述方法的S430-步骤S450、步骤3-步骤6及其可选步骤,还可以用于执行图2-图5实施例描述的其他步骤,这里不再进行赘述。
需要说明的是,本实施例可以是通用的物理服务器实现的,例如,物理服务器,如X86服务器等,也可以是基于通用的物理服务器结合网络功能虚拟化(Network FunctionsVirtualization,NFV)技术实现的虚拟机(Virtual Machine,VM)实现的,所述虚拟机指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。本申请不作具体限定。
所述存储器830可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器830也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);存储器830还可以包括上述种类的组合。存储器830可以存储有程序代码,具体可以包括用于执行图4或图5实施例描述的其他步骤的程序代码,这里不再进行赘述。
通信接口820可以为有线接口(例如以太网接口),可以为内部接口(例如高速串行计算机扩展总线(Peripheral Component Interconnect express,PCIe)总线接口)、有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口),用于与与其他设备或模块进行通信。
需要说明的,图8仅仅是本申请实施例的一种可能的实现方式,实际应用中,所述电子设备还可以包括更多或更少的部件,这里不作限制。关于本申请实施例中未示出或未描述的内容,可参见前述图4或图5所述实施例中的相关阐述,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在处理器上运行时,图4或图5所示的方法流程得以实现。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在处理器上运行时,图4或图5所示的方法流程得以实现。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括至少一个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含至少一个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(Digital Video Disc,DVD)、或者半导体介质。半导体介质可以是SSD。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据读取方法,其特征在于,应用于存储系统,所述存储系统包括元数据服务器以及存储服务器,所述方法包括:
所述元数据服务器接收客户端发送的数据读取请求,其中,所述数据读取请求用于读取所述存储服务器中的待读取数据;
所述元数据服务器根据所述数据读取请求,获得所述待读取数据的位置信息;
所述元数据服务器向所述存储服务器发送所述位置信息以请求数据;
所述存储服务器根据所述位置信息获取所述待读取数据;
所述存储服务器将所述待读取数据发送至所述客户端。
2.根据权利要求1所述的方法,其特征在于,所述数据读取请求包括所述客户端内存的地址信息,所述存储服务器包括远程直接数据存取网卡RNIC和存储介质,所述存储服务器根据所述位置信息获取所述待读取数据包括:
所述存储服务器的RNIC根据所述位置信息,从所述存储介质中获取所述待读取数据;
所述存储服务器将所述待读取数据发送至所述客户端包括:
所述存储服务器的RNIC根据所述客户端内存的地址信息,通过远程直接数据存取RDMA方法,将所述待读取数据写入与所述地址信息对应的客户端内存中。
3.根据权利要求2所述的方法,其特征在于,所述位置信息包括所述待读取数据的多个副本数据的位置信息,所述元数据服务器向所述存储服务器发送所述位置信息以请求数据包括:
所述元数据服务器向所述多个副本数据中的一个副本数据的位置信息对应的存储服务器,发送所述多个副本数据中的一个副本数据的位置信息以请求数据。
4.根据权利要求2所述的方法,其特征在于,所述位置信息包括所述待读取数据的多个分片数据的位置信息,所述元数据服务器向所述存储服务器发送所述位置信息以请求数据包括:
所述元数据服务器向所述多个分片数据中的每个分片数据的位置信息对应的存储服务器发送所述分片数据的位置信息,以获取所述分片数据;
所述存储服务器根据所述位置信息获取所述待读取数据包括:
所述存储服务器根据所述分片数据的位置信息,获取所述分片数据;
所述存储服务器将所述待读取数据发送至所述客户端包括:
所述存储服务器将所述分片数据发送至所述客户端,使得所述客户端根据接收到的多个分片数据,获得所述待读取数据。
5.根据权利要求2所述的方法,其特征在于,所述存储服务器的RNIC根据所述位置信息,从所述存储介质中获取所述待读取数据包括:
所述存储服务器的RNIC根据所述位置信息,从所述存储介质中读取所述位置信息对应的存储数据;
所述存储服务器的RNIC对所述存储数据进行解压缩和解压紧操作,获得所述待读取数据。
6.一种数据读取系统,其特征在于,包括:
元数据服务器,用于接收客户端发送的数据读取请求,其中,所述数据读取请求用于读取所述存储服务器中的待读取数据;
所述元数据服务器,还用于根据所述数据读取请求,获得所述待读取数据的位置信息;
所述元数据服务器,还用于向所述存储服务器发送所述位置信息以请求数据;
存储服务器,用于根据所述位置信息获取所述待读取数据;
所述存储服务器,还用于将所述待读取数据发送至所述客户端。
7.根据权利要求6所述的系统,其特征在于,所述数据读取请求包括所述客户端内存的地址信息,所述存储服务器包括远程直接数据存取网卡RNIC和存储介质,
所述存储服务器的所述RNIC用于根据所述位置信息,从所述存储介质中获取所述待读取数据;
所述存储服务器的所述RNIC用于根据所述客户端内存的地址信息,通过远程直接数据存取RDMA方法,将所述待读取数据写入与所述地址信息对应的客户端内存中。
8.根据权利要求7所述的系统,其特征在于,所述位置信息包括所述待读取数据的多个副本数据的位置信息,所述元数据服务器用于向所述多个副本数据中的一个副本数据的位置信息对应的存储服务器,发送所述多个副本数据中的一个副本数据的位置信息以请求数据。
9.根据权利要求7所述的系统,其特征在于,所述位置信息包括所述待读取数据的多个分片数据的位置信息,
所述元数据服务器用于向所述多个分片数据中的每个分片数据的位置信息对应的存储服务器发送所述分片数据的位置信息,以获取所述分片数据;
所述存储服务器用于根据所述分片数据的位置信息,获取所述分片数据;
所述存储服务器用于将所述分片数据发送至所述客户端,使得所述客户端根据接收到的多个分片数据,获得所述待读取数据。
10.根据权利要求7所述的系统,其特征在于,
所述存储服务器的所述RNIC用于根据所述位置信息,从所述存储介质中读取所述位置信息对应的存储数据;
所述存储服务器的所述RNIC用于对所述存储数据进行解压缩和解压紧操作,获得所述待读取数据。
CN202010317466.XA 2020-04-21 2020-04-21 数据读取方法和系统 Pending CN113535068A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010317466.XA CN113535068A (zh) 2020-04-21 2020-04-21 数据读取方法和系统
PCT/CN2021/087859 WO2021213281A1 (zh) 2020-04-21 2021-04-16 数据读取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010317466.XA CN113535068A (zh) 2020-04-21 2020-04-21 数据读取方法和系统

Publications (1)

Publication Number Publication Date
CN113535068A true CN113535068A (zh) 2021-10-22

Family

ID=78093876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010317466.XA Pending CN113535068A (zh) 2020-04-21 2020-04-21 数据读取方法和系统

Country Status (2)

Country Link
CN (1) CN113535068A (zh)
WO (1) WO2021213281A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114827178A (zh) * 2022-04-29 2022-07-29 济南浪潮数据技术有限公司 一种数据处理方法、装置、设备及可读存储介质
CN116521091A (zh) * 2023-06-28 2023-08-01 苏州浪潮智能科技有限公司 数据读取方法、装置、设备、数据传输系统及存储介质
WO2023173999A1 (zh) * 2022-03-18 2023-09-21 华为技术有限公司 一种数据读取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1771495A (zh) * 2003-05-07 2006-05-10 国际商业机器公司 分布式文件服务体系结构系统
CN104731516A (zh) * 2013-12-18 2015-06-24 腾讯科技(深圳)有限公司 一种存取文件的方法、装置及分布式存储系统
CN105487818A (zh) * 2015-11-27 2016-04-13 清华大学 针对云存储系统中重复冗余数据的高效去重方法
CN108459824A (zh) * 2017-12-19 2018-08-28 西安华为技术有限公司 一种数据修改写方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931450B2 (en) * 2000-12-18 2005-08-16 Sun Microsystems, Inc. Direct access from client to storage device
CN102833580B (zh) * 2012-09-19 2016-03-02 南京斯坦德云科技股份有限公司 基于infiniband的高清视频应用系统及方法
KR20160082089A (ko) * 2014-12-30 2016-07-08 한국전자통신연구원 분산 메모리 통합 프레임워크 기반 다중 속성 메모리 캐시의 동적 운영 방법 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1771495A (zh) * 2003-05-07 2006-05-10 国际商业机器公司 分布式文件服务体系结构系统
CN104731516A (zh) * 2013-12-18 2015-06-24 腾讯科技(深圳)有限公司 一种存取文件的方法、装置及分布式存储系统
CN105487818A (zh) * 2015-11-27 2016-04-13 清华大学 针对云存储系统中重复冗余数据的高效去重方法
CN108459824A (zh) * 2017-12-19 2018-08-28 西安华为技术有限公司 一种数据修改写方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023173999A1 (zh) * 2022-03-18 2023-09-21 华为技术有限公司 一种数据读取方法及装置
CN114827178A (zh) * 2022-04-29 2022-07-29 济南浪潮数据技术有限公司 一种数据处理方法、装置、设备及可读存储介质
CN116521091A (zh) * 2023-06-28 2023-08-01 苏州浪潮智能科技有限公司 数据读取方法、装置、设备、数据传输系统及存储介质
CN116521091B (zh) * 2023-06-28 2023-09-15 苏州浪潮智能科技有限公司 数据读取方法、装置、设备、数据传输系统及存储介质

Also Published As

Publication number Publication date
WO2021213281A1 (zh) 2021-10-28

Similar Documents

Publication Publication Date Title
US10489422B2 (en) Reducing data volume durability state for block-based storage
US9983825B2 (en) Efficient data volume replication for block-based storage
US11093148B1 (en) Accelerated volumes
US9928210B1 (en) Constrained backup image defragmentation optimization within deduplication system
JP2022524487A (ja) 計算データ記憶システム
US20190342418A1 (en) Efficient High Availability and Storage Efficiency in a Multi-Site Object Storage Environment
WO2021213281A1 (zh) 数据读取方法和系统
US9426219B1 (en) Efficient multi-part upload for a data warehouse
US11442627B2 (en) Data compression utilizing low-ratio compression and delayed high-ratio compression
US20140289463A1 (en) Replication target service
CN105701178A (zh) 分布式图片存储系统
US20170161150A1 (en) Method and system for efficient replication of files using shared null mappings when having trim operations on files
KR101531564B1 (ko) 네트워크 분산 파일 시스템 기반 iSCSI 스토리지 시스템에서의 부하 분산 방법 및 시스템
US11163782B2 (en) Storage of time series data using dynamic schema
US11003629B2 (en) Dual layer deduplication for application specific file types in an information processing system
US10083121B2 (en) Storage system and storage method
US11194498B1 (en) Inline compression with small-write compression avoidance
CN116594551A (zh) 一种数据存储方法及装置
KR101589122B1 (ko) 네트워크 분산 파일 시스템 기반 iSCSI 스토리지 시스템에서의 장애 복구 방법 및 시스템
WO2014077451A1 (ko) Iscsi 스토리지 시스템을 이용한 네트워크 분산 파일 시스템 및 방법
US8356016B1 (en) Forwarding filesystem-level information to a storage management system
WO2016122841A1 (en) Exposing storage entity consistency capability status
US10698862B2 (en) Enhanced snapshot performance, storage efficiency improvement, dynamic snapshot policy in erasure code supported object storage environment
US11526286B1 (en) Adaptive snapshot chunk sizing for snapshots of block storage volumes
US11347596B2 (en) Preliminary data protection using composite copies of data in a data storage system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination