CN106775450A - 一种混合存储系统中的数据分布方法 - Google Patents

一种混合存储系统中的数据分布方法 Download PDF

Info

Publication number
CN106775450A
CN106775450A CN201611032887.8A CN201611032887A CN106775450A CN 106775450 A CN106775450 A CN 106775450A CN 201611032887 A CN201611032887 A CN 201611032887A CN 106775450 A CN106775450 A CN 106775450A
Authority
CN
China
Prior art keywords
performance
storage
storage device
critical data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611032887.8A
Other languages
English (en)
Other versions
CN106775450B (zh
Inventor
谭支鹏
冯丹
周炜
王芳
徐高翔
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201611032887.8A priority Critical patent/CN106775450B/zh
Publication of CN106775450A publication Critical patent/CN106775450A/zh
Application granted granted Critical
Publication of CN106775450B publication Critical patent/CN106775450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种混合存储系统中的数据分布方法,包括:将非关键数据分布在低性能存储设备上;将关键数据在高性能存储设备和低性能存储设备上按比例分布。不将所有的关键数据全部集中分布在高性能存储设备上,而是根据关键数据在高性能存储设备与低性能存储设备上能达到的存储性能的比,在各存储设备之间分布关键数据,一方面缓解高性能存储设备被密集访问带来的瓶颈问题,另一方面利用低性能存储设备提高数据访问并行性,从而提高系统的整体存储性能。

Description

一种混合存储系统中的数据分布方法
技术领域
本发明属于计算机信息存储技术领域,更具体地,涉及一种混合存储系统中的数据分布方法。
背景技术
为了提高存储性能加速数据访问,许多新型存储设备如Flash SSD、PCM等被广泛研究应用,使得混合存储成为一种趋势。在混合存储环境下,如何有效地组织管理数据,使各存储设备得到充分利用,是提高存储性能的一个关键问题。
关键数据是当其分布在高性能存储设备上时能有效提高整体存储性能的数据,关键数据的识别主要是通过数据的大小、访问频率、存储设备读写性能等因素计算得出。目前的混合存储数据组织方案主要关注如何有效识别关键数据,将关键数据分布于高性能存储设备上来提高存储性能。
但是,将关键数据集中分布在高性能存储设备上的方式,忽略了充分利用各个存储设备的聚合性能来进一步提升存储性能。当关键数据集中于高性能存储设备时,高性能存储设备很可能高负荷运行成为性能瓶颈,而其它存储设备则被空置。虽然,由于之前的混合存储大多是固态硬盘SSD与机械硬盘HDD混合,由于HDD的随机小写性能小于SSD数个数量级,该问题并不明显。而随着技术发展各种新型存储设备的不断出现,各种SSD之间混合,甚至SSD与NVRAM之间的混合越来越多,该问题也将逐渐变得突出。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种混合存储系统中的数据分布方法,不将所有的关键数据全部集中分布在高性能存储设备上,而是根据高性能存储设备与低性能存储设备的性能比,在各存储设备之间分布关键数据,一方面缓解高性能存储设备被密集访问带来的瓶颈问题,另一方面利用低性能存储设备提高数据访问并行性,从而提高系统的整体存储性能,由此解决现有技术中将关键数据全部集中于高性能存储设备时给高性能存储设备带来的性能瓶颈以及其它存储设备被空置造成性能降低的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种混合存储系统中的数据分布方法,包括:
(1)将非关键数据分布在低性能存储设备上;
(2)将关键数据在高性能存储设备和低性能存储设备上按比例分布。
优选地,所述将关键数据在高性能存储设备和低性能存储设备上按比例分布,包括:计算关键数据在高性能存储设备和低性能存储设备上能达到的存储性能的比值;按照存储性能的比值将关键数据分布在高性能存储设备和低性能存储设备上。
优选地,所述计算关键数据在高性能存储设备和低性能存储设备上能达到的存储性能的比值,包括:计算关键数据在低性能存储设备上的访问延迟与关键数据在高性能存储设备上的访问延迟的比值,其中,访问延迟等于等待时间与传输时间之和,传输时间等于关键数据的大小与传输带宽的比值。
优选地,所述关键数据中包括N个独立的子关键数据包;在计算出关键数据在高性能存储设备和低性能存储设备上能达到的存储性能的比值之后,所述方法还包括:设定一个阈值T,以关键数据在各存储设备上能达到的存储性能的比值,分别将超过阈值T的各子关键数据包拆分成多个数据块分布在各存储设备上;将大小不超过阈值T的各子关键数据包在各存储设备上逐个分布,最终各存储设备上分布的总的关键数据量的比例为所有关键数据在各存储设备上能达到的存储性能的比值。
优选地,设定一个阈值T包括:设大小为T的关键数据在高性能存储设备和低性能存储设备上的性能比为m:n,再设大小为T*[m/(m+n)]的关键数据在高性能存储设备上的存储性能与大小为T*[n/(m+n)]的关键数据在低性能存储设备上的存储性能之比为p:q,则设定的阈值T应使(m:n)/(p:q)∈[α,β],α与β为经验值,用来表示m:n与p:q基本相等。
附图说明
图1为本发明实施例公开的一种混合存储系统中的数据分布的结构示意图;
图2为本发明实施例公开的一种混合存储系统中的数据分布方法的流程示意图;
图3为本发明实施例公开的一种混合存储数据组织方法的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种混合存储系统中的数据分布方法,不将关键数据全部集中分布在高性能存储设备上,而是根据关键数据在高性能存储设备与低性能存储设备上能达到的存储性能比,在各存储设备之间分布关键数据,一方面缓解高性能存储设备被密集访问带来的瓶颈问题,另一方面利用低性能存储设备提高数据访问并行性,从而提高系统的整体存储性能。
如图1所示,为本发明实施例公开的一种混合存储系统中的数据分布的结构示意图,具体包括识别关键数据和数据分布两个步骤:
(1)识别关键数据:关键数据是当其分布在高性能存储设备上时能有效提高整体存储性能的数据,关键数据的识别主要是通过数据的大小、数据的访问频率、存储设备的读写性能等因素计算得出,通常情况关键数据为访问频率高的热点数据;
(2)数据分布:按数据分布方法将数据分布在各存储设备上。
如图2所示,为本发明实施例公开的一种混合存储系统中的数据分布方法的流程示意图,该方法包括:
201:将非关键数据分布在低性能存储设备上;
202:将关键数据在高性能存储设备和低性能存储设备上按比例分布。
其中,关键数据在高性能存储设备与低性能存储设备上的分布比例为关键数据在高性能存储设备与低性能存储设备上能达到的存储性能之比。不同大小的关键数据在同一存储设备上的存储性能可能变化,因此,关键数据在高性能存储设备与低性能存储设备上能达到的存储性能之比也可能随关键数据的大小变化。所以对不同大小的关键数据进行分布时按照关键数据的大小对应的比例进行分布。
其中,关键数据在高性能存储设备与低性能存储设备上能达到的存储性能之比的计算方法为:关键数据在低性能存储设备上的访问延迟与关键数据在高性能存储设备上的访问延迟的比值,其中访问延迟等于等待时间与传输时间之和,例如,SSD的等待时间为0,HDD的等待时间取平均寻道时间,传输时间等于关键数据的大小与传输带宽的比值,平均寻道时间、传输带宽为存储设备的固有参数。
需要说明的是,本发明实施例所述的关键数据中包括N个独立的子关键数据包,例如关键数据S1,关键数据S2,关键数据S3等,可以设定一个阈值T,以所有的关键数据在各存储设备上能达到的存储性能的比值,分别将超过阈值T的各子关键数据包拆分成多个数据块分布在各存储设备上;将大小不超过阈值T的各子关键数据包在各存储设备上逐个分布,最终各存储设备上分布的总的关键数据量的比例为所有关键数据在各存储设备上能达到的存储性能的比值,如图3所示,为本发明实施例公开的一种混合存储数据组织方法的结构示意图。
从图3中可以看出,关键数据中包含4个子关键数据包,分别为数据S1、数据S2、数据S3以及数据S4,其中数据S1的大小超过阈值T,则将数据S1分成两个数据块分别分布在高性能设备与低性能设备上,分布比例按照所有关键数据在高性能设备与低性能设备所能达到的性能的比值进行分布,而数据S2、数据S3以及数据S4的大小均未超过阈值T,则不进行拆分,将数据S2和数据S3分布在高性能设备上,数据S4分布在低性能设备上,按照上述分布方式后,最终在高性能设备上分布的总的关键数据量与最终在低性能设备上分布的总的关键数据量的比例为所有关键数据在高性能设备与低性能设备上能达到的存储性能的比值。
其中,可以采用如下方式设定阈值T:设大小为T的关键数据在高性能存储设备与低性能存储设备上的性能比为m:n,再设大小为T*[m/(m+n)]的关键数据在高性能存储设备上的存储性能与大小为T*[n/(m+n)]的关键数据在低性能存储设备上的存储性能之比为p:q,则设定的阈值T应使(m:n)/(p:q)∈[α,β],α与β为经验值,用来表示m:n与p:q基本相等,一般可选取为[0.8,1.2]。
下面以一个具体实施例来具体介绍如何完成关键数据的分布操作,选取数个固定大小的关键数据S1,S2,S3,…,Si,…,如S1=4KB,S2=8KB,S3=16KB,S4=32KB,S5=64KB,S6=256KB,S7=512KB,S8=1MB,S9=2MB等,分别计算这些大小的关键数据在高性能存储设备与低性能存储设备上的存储性能之比,以大小为Si的关键数据在高性能存储设备与低性能存储设备上的存储性能之比代表所处区间(Si-1,Si]内其它大小的关键数据在高性能存储设备与低性能存储设备上的存储性能之比。如果相邻区间的性能比接近则向前合并成为一个区间。对于每个小于阈值T的区间(Si-1,Si],在关键数据分布过程中分别监控高性能存储设备上和低性能存储设备上已经存在的处于该区间的关键数据的数据量,直到最终在高性能存储设备上分布的处于该区间的关键数据量与最终在低性能存储设备上分布的处于该区间的关键数据的比值等于大小为Si的数据在高性能存储设备和低性能存储设备上的存储性能之比。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种混合存储系统中的数据分布方法,其特征在于,包括:
(1)将非关键数据分布在低性能存储设备上;
(2)将关键数据在高性能存储设备和低性能存储设备上按比例分布。
2.根据权利要求1所述的方法,其特征在于,所述将关键数据在高性能存储设备和低性能存储设备上按比例分布,包括:
计算关键数据在高性能存储设备和低性能存储设备上能达到的存储性能的比值;
按照存储性能的比值将关键数据分布在高性能存储设备和低性能存储设备上。
3.根据权利要求2所述的方法,其特征在于,所述计算关键数据在高性能存储设备和低性能存储设备上能达到的存储性能的比值,包括:
计算关键数据在低性能存储设备上的访问延迟与关键数据在高性能存储设备上的访问延迟的比值,其中,访问延迟等于等待时间与传输时间之和,传输时间等于关键数据的大小与传输带宽的比值。
4.根据权利要求3所述的方法,其特征在于,所述关键数据中包括N个独立的子关键数据包;在计算出关键数据在高性能存储设备和低性能存储设备上能达到的存储性能的比值之后,所述方法还包括:
设定一个阈值T,以关键数据在各存储设备上能达到的存储性能的比值,分别将超过阈值T的各子关键数据包拆分成多个数据块分布在各存储设备上;
将大小不超过阈值T的各子关键数据包在各存储设备上逐个分布,最终各存储设备上分布的总的关键数据量的比例为所有关键数据在各存储设备上能达到的存储性能的比值。
5.根据权利要求4所述的方法,其特征在于,设定一个阈值T包括:
设大小为T的关键数据在高性能存储设备和低性能存储设备上的性能比为m:n,再设大小为T*[m/(m+n)]的关键数据在高性能存储设备上的存储性能与大小为T*[n/(m+n)]的关键数据在低性能存储设备上的存储性能之比为p:q,则设定的阈值T应使(m:n)/(p:q)∈[α,β],α与β为经验值,用来表示m:n与p:q基本相等。
CN201611032887.8A 2016-11-18 2016-11-18 一种混合存储系统中的数据分布方法 Active CN106775450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611032887.8A CN106775450B (zh) 2016-11-18 2016-11-18 一种混合存储系统中的数据分布方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611032887.8A CN106775450B (zh) 2016-11-18 2016-11-18 一种混合存储系统中的数据分布方法

Publications (2)

Publication Number Publication Date
CN106775450A true CN106775450A (zh) 2017-05-31
CN106775450B CN106775450B (zh) 2019-08-30

Family

ID=58971869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611032887.8A Active CN106775450B (zh) 2016-11-18 2016-11-18 一种混合存储系统中的数据分布方法

Country Status (1)

Country Link
CN (1) CN106775450B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829554A (zh) * 2018-06-25 2018-11-16 郑州云海信息技术有限公司 一种用于提升spc-1测试性价比的方法及装置
CN110659733A (zh) * 2019-09-20 2020-01-07 上海新储集成电路有限公司 一种加速神经网络模型预测过程的处理器系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689678A (en) * 1993-03-11 1997-11-18 Emc Corporation Distributed storage array system having a plurality of modular control units
US6502166B1 (en) * 1999-12-29 2002-12-31 International Business Machines Corporation Method and apparatus for distributing data across multiple disk drives
CN103064926A (zh) * 2012-12-21 2013-04-24 华为技术有限公司 数据处理方法和装置
CN105739911A (zh) * 2014-12-12 2016-07-06 华为技术有限公司 存储数据的分配方法、装置以及存储系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689678A (en) * 1993-03-11 1997-11-18 Emc Corporation Distributed storage array system having a plurality of modular control units
US6502166B1 (en) * 1999-12-29 2002-12-31 International Business Machines Corporation Method and apparatus for distributing data across multiple disk drives
CN103064926A (zh) * 2012-12-21 2013-04-24 华为技术有限公司 数据处理方法和装置
CN105739911A (zh) * 2014-12-12 2016-07-06 华为技术有限公司 存储数据的分配方法、装置以及存储系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829554A (zh) * 2018-06-25 2018-11-16 郑州云海信息技术有限公司 一种用于提升spc-1测试性价比的方法及装置
CN110659733A (zh) * 2019-09-20 2020-01-07 上海新储集成电路有限公司 一种加速神经网络模型预测过程的处理器系统

Also Published As

Publication number Publication date
CN106775450B (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN105589812B (zh) 磁盘碎片整理方法、装置及主机
EP2564321B1 (en) Memory usage scanning
CN103902465B (zh) 一种固态硬盘垃圾回收的方法、系统和固态硬盘控制器
CN103020174B (zh) 相似性分析方法、装置及系统
US8909887B1 (en) Selective defragmentation based on IO hot spots
CN100476742C (zh) 基于对象存储设备的负载平衡方法
CN107870981A (zh) 电子装置、数据表归档处理的方法及存储介质
CN104408163B (zh) 一种数据分级存储方法和装置
CN103442070A (zh) 基于统计预测的私有云存储资源调配方法
CN103778071A (zh) 缓存的空间分配方法及装置
CN107209714A (zh) 分布式存储系统及分布式存储系统的控制方法
CN105468642A (zh) 数据的存储方法及装置
CN105787037B (zh) 一种重复数据的删除方法及装置
CN103370691A (zh) 管理缓冲器溢出状况
CN104750620B (zh) 一种内存迁移方法及装置
CN102129442A (zh) 一种分布式数据库系统和数据访问方法
CN104750826B (zh) 一种结构化数据资源元数据自动甄别与动态注册方法
CN109086141B (zh) 内存管理方法和装置以及计算机可读存储介质
CN104268099A (zh) 一种管理数据读写的方法及装置
CN102253985B (zh) 一种文件系统数据的管理方法及系统
CN102685219B (zh) San存储系统中通过动态扩容提高存储资源利用率的方法
CN104572505A (zh) 一种保证海量数据缓存最终一致性的系统及方法
CN101645802B (zh) 内容控制方法及装置
CN103049508A (zh) 一种数据处理方法及装置
CN104750432A (zh) 一种数据存储方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant