CN111026337A - 一种基于机器学习和ceph思想的分布式储存方法 - Google Patents
一种基于机器学习和ceph思想的分布式储存方法 Download PDFInfo
- Publication number
- CN111026337A CN111026337A CN201911389335.6A CN201911389335A CN111026337A CN 111026337 A CN111026337 A CN 111026337A CN 201911389335 A CN201911389335 A CN 201911389335A CN 111026337 A CN111026337 A CN 111026337A
- Authority
- CN
- China
- Prior art keywords
- file
- hard disk
- storage
- osd
- ceph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000010801 machine learning Methods 0.000 title claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 238000012706 support-vector machine Methods 0.000 claims abstract description 9
- 238000005520 cutting process Methods 0.000 claims abstract description 8
- 238000012937 correction Methods 0.000 claims abstract description 6
- 238000010606 normalization Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 4
- 239000002245 particle Substances 0.000 claims description 3
- 239000007787 solid Substances 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 238000012549 training Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 101100121776 Arabidopsis thaliana GIG1 gene Proteins 0.000 description 2
- 101100267551 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) YME1 gene Proteins 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/0643—Management of files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于机器学习和ceph思想的分布式储存方法,包括如下步骤:步骤1:硬盘识别系统通过采用基于归一化和支持向量机的硬盘识别模型,根据现有存储介质的特征进行存储介质分类,分为高、中、低等级;步骤2:文件识别系统通过基于文件特征权值的无监督学习模型,对分类错误的文件的结果进行模型矫正;对分类正确的文件所需的存储介质等级进行匹配,选择存储介质使用策略;步骤3:用户需要读写的文件与储存介质的位置根据改进后的CRUSHING算法进行映射,根据映射将文件进行分布式储存。本发明通过将存储文件切块,将各个模块逻辑化,解耦了存储业务中各个模块,加入了分类机制,使得热数据与高效的盘对应;低效的盘做备份,使系统更安全,造价更低廉。
Description
技术领域
本发明涉及数据存储领域,尤其是一种于机器学习和ceph思想的分布式储存方法。
背景技术
随着大规模分布式存储系统(PB级的数据和成百上千台存储设备)的出现。这些系统必须平衡的分布数据和负载(提高资源利用率),最大化系统的性能,并且要处理系统的扩展和硬件失效。ceph设计了CRUSH(一个可扩展的伪随机数据分布算法),用在分布式对象存储系统上,可以有效映射数据对象到存储设备上(不需要中心设备)。因为大型系统的结构是动态变化的,CRUSH能够处理存储设备的添加和移除,并最小化存储设备的的添加和移动而导致的数据迁移。
传统的Ceph架构,由于它的去中心化和伪随机分布,平等化的思想,无法更高效的利用硬盘,存在以下缺点:
传统分布式储存方法将存储模块集中在一起进行储存,无法实现分布式数据储存且储存资源利用率低。如今,全球数据存储量呈现爆炸式增长,数据业务的急剧增加,传统单一的SAN存储或NAS存储方式已经不适应业务发展需要。SAN存储:成本高,不适合PB级大规模存储系统。数据共享性不好,无法支持多用户文件共享。NAS存储:共享网络带宽,并发性能差。随系统扩展,性能会进一步下降;
传统集中存储的将物理介质集中布放;数据上传到存储中心对机房环境要求高,要求机房空间大,承重、空调等都是需要考虑的问题;
传统储存方法存储数据大多以块为单位,忽略了用户对不同数据有不同的存储需求,导致某些低存储需求的数据抢占高存储需求数据的存储资源;
其无法分辨硬盘的好坏,无法将热数据放入条件更好的硬盘中。无法将高性能的盘作为存储的主节点,低性能的盘作为备份。
发明内容
为了解决上述问题,本发明提出了可分类(文件和硬盘),高性能,高可用性,高扩展性的分布式存储方法,利用机器学习,给上传文件和底层的存储盘分类。每个分类就是给Ceph加上的限定,在限定范围内,实现其去中心化,平等化思想,更好的适应我们的应用场景。
本发明提出一种基于机器学习和ceph思想的分布式储存方法,包括如下步骤:
步骤1:硬盘识别系统通过采用基于归一化和支持向量机的硬盘识别模型,根据现有存储介质的特征进行存储介质分类,分为不同级别的多个等级;
步骤2:文件识别系统通过基于文件特征权值的无监督学习模型,对分类错误的文件的结果进行模型矫正;对分类正确的文件所需的存储介质等级进行匹配,选择存储介质使用策略;
步骤3:用户需要读写的文件与储存介质的位置根据改进的CRUSHING算法进行映射,根据映射将文件进行分布式储存。
进一步的,所述步骤1中,基于机器学习进行硬盘识别,包括:选择硬盘并获取硬盘信息,具体包括:是否是固态、是否为机械、主控方案、颗粒等级、出厂日期、硬盘读写速度作为识别特征,计算特征的均值、标准差进行均值归一化,再通过基于支持向量机模型训练硬盘类型识别的识别模型,利用基于支持向量机训练的硬盘识别模型对硬盘进行识别;所述分为不同级别的多个等级包括分为高、中、低三个等级。
进一步的,所述步骤2中,基于文件特征权值的无监督学习模型进行文件识别包括:
选取文件:获取文件大小、文件后缀、文件类型、文件流状态、子文件数目、文件服务名称、用户id、文件附带信息列表、文件流上下行字节数、文件流上下行包数、文件流上下行包头字节数、文件流上下行负载字节数、文件流上下行包长均值、文件流上下行包长方差、文件流上下行速率、文件流总字节数、文件流传输起始时间、文件流到达时间、文件流传输持续时间、丢包率、文件流传输时延带宽积作为文件类型识别特征,采用余弦相似度作为距离度量,采用k-means聚类算法进行文件类型的聚类得到识别模型,利用k-means聚类算法得到的识别模型进行文件类型的识别。
进一步的,所述步骤3中,改进的CRUSHING算法具体为:将所有的硬盘根据高、中、低等级分为三组目标文件对象存储设备OSD;并且保持每组OSD中各个硬盘的空间利用程度或剩余磁盘容量相同。
进一步的,所述步骤3中,文件识别系统将所要存储的文件,依据使用频率分类,也分为高、中、低三个等级,使用频率最高的文件,存储的主节点为性能最高的OSD中的某个硬盘上,备份节点为性能最低的OSD中的某个硬盘上,存两份备份;使用频率中等的文件,存储的主节点为性能中等的OSD中的某个硬盘上,备份节点为性能最低的OSD中的某个硬盘上,存两份备份;使用频率最低的文件,存储的主节点为性能最低的OSD中的某个硬盘上,备份节点为性能最低的OSD中的某个硬盘上,存两份备份。
进一步的,一个放置组PG存储为一个目标文件存储设备OSD组,每个目标文件存储设备OSD组由三个上面所述的对应高中低三种级别的三种目标文件存储设备OSD组成,包括一个主存储两个备份。
进一步的,文件存储的过程为:首先将待存储的文件信息识别后得到文件类型id,并将文件进行切块,根据文件id,文件类型id,文件切分序号完成文件与文件块的映射;通过静态Hash函数计算文件块id的Hash值,然后与掩码进行按位相与操作得到文件块的放置组id,完成文件块与放置组的映射,得到pgid,其中掩码为放置组总数-1。
进一步的,利用改进后的CRUSHING算法,将pgid带入,得到一组OSD,权值较高的节点主要负责读写,其余权值较低的负责容灾。
有益效果:
本发明基于机器学习和ceph思想的分布式储存方法,优点主要体现在如下方面:
1、本发明将存储文件切块,抽象成object,利用pg连接底层抽象的osd,将各个模块逻辑化;
2、本发明解耦了存储业务中各个模块,方便整合;
3、本发明加入了分类机制,使得热数据与高效的盘对应;
4、本发明以低效的盘做备份,使系统更安全,造价更低廉。
附图说明
图1:为本发明文件识别系统;
图2:为本发明硬盘识别系统;
图3:为本发明进行文件存储的过程;
图4:为本发明的存储系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本发明的一个实施例,参见图4,为客户端读写存储系统的总体方法框图。图1为本发明的文件识别系统,文件系统目的是将被存储的文件根据需求进行分类,以满足不同文件所需的差异化存储需求。文件识别系统采用无监督学习模型。文件识别系统将文件的识别特征交予被训练的无监督学习模型,模型便会对特征进行分析得出识别类型。在模型训练过程时,将多种类型文件及预期分类数交于模型进行训练,将训练结果的错误进行纠正返回给训练模型,以此反复得到无监督训练模型。
客户端在写操作时,先通过文件识别系统,将文件分类再存入分布式存储系统。
客户端在读操作时,直接访问分布式存储系统。
根据本发明的一个实施例,假设有一份文件,存入了本发明的分布式存储系统,分布式文件系统底层有三块硬盘。硬盘等级分别为高、中、低三个等级。
本发明的文件识别系统,用于对文件进行分类;
所述文件的分类依据有很多,比如,文件的大小;文件创建时间,修改时间,访问时间;文件的类型,例如txt、ppt、pdf,或者是矢量、影像、文档;文件的用处,例如系统的底图的渲染,系统地图的加载,系统的说明文档等等都可以作为分类依据。
这些分类依据都可以由所在的使用场景,定义其的权值,通过无监督学习模型对文件的分类,分为高、中、低三类,也不限于这三类,然后对其分类结果进行错误矫正。
本发明还包括有无监督学习模型,通过矫正,在大量的数据训练下,可以根据使用习惯,预测出文件的分类。分类错误之后,可以修改,并进一步完善模型。
参见图2,为本发明的硬盘识别系统,可以根据使用的场景,依据不同的硬盘特征,识别硬盘类别。硬盘识别采用基于归一化和支持向量机的监督学习。本发明的硬盘识别系统选取硬盘的是否是固态、是否为机械、主控方案、颗粒等级、出厂日期、硬盘读写速度等作为识别特征。首先对硬盘的上述特征进行提取后进行归一化处理,目的是将各项特征对结果的影响尺度降为同一维度。对归一化后的特征信息和硬盘的类别作为训练集交由支持向量机进行拟合,反复训练得到训练模型,以此作为硬盘识别模型。依据模型,通过输入硬盘的参数和所分类的个数,将硬盘均匀分成几个等级。
图3为本发明进行文件存储的过程。首先将待存储的文件信息识别后得到文件类型id,并将文件进行切块(默认以4MB为单位),根据文件id,文件类型id,文件切分序号完成文件与文件块的映射。通过静态Hash函数计算文件块id的Hash值,然后与掩码进行按位相与操作得到文件块的放置组id,完成文件块与放置组的映射。其中掩码为放置组总数-1。最后利用改进后的CRUSHING算法完成放置组与存储介质的映射。储存介质内由三个存储单元组成,其中权值较高单元主要负责读写,其余单元的负责容灾。
根据本发明的一个实施例,本发明所述的分布式储存系统,说明如下:
一、组件对象
Object:被存储的文件,会分成一个个小的Object。分布式存储系统底层的存储单元是Object对象,每个Object包含元数据和原始数据;
PG:放置组PG全称Placement Groups,是一个逻辑的概念,引入PG这一层其实是为了更好的分配数据和定位数据。
目标文件存储设备OSD:OSD全称Object Storage Device,也就是目标文件存储设备。一个存储集群一般都有很多个OSD。
OSD(Object Storage Device)是对存储资源进行抽象,它可以是一个盘的一个分区也可以是几个盘的集合。
可选的,本发明可以将几个盘的集合作为一个OSD。比如,一共有30块品质不一硬盘(存储性能高的硬盘,一般储存空间相对较小;存储性能低的硬盘,一般储存空间相对较大),硬盘识别系统将所用硬盘分为了三类,高中低,那么10块性能最高的硬盘组成一个OSD,性能为高;10块性能中级的硬盘组成一个OSD,性能为中,10块性能最低的硬盘组成一个OSD,性能为低。文件识别系统将所要存储的文件,依据使用频率分类,也分为高中低。使用频率最高的文件,存储的主节点为性能最高的OSD中的某个硬盘上,备份节点为性能最低的OSD中的某个硬盘上,存两份备份;使用频率中等的文件,存储的主节点为性能中等的OSD中的某个硬盘上,备份节点为性能最低的OSD中的某个硬盘上,存两份备份;使用频率最低的文件,存储的主节点为性能最低的OSD中的某个硬盘上,备份节点为性能最低的OSD中的某个硬盘上,存两份备份。一个PG存储为一个OSD组,每个OSD组由三个上面所说的对应高中低三种级别的三种OSD组成,一个主存储两个备份。
二、容灾
当一个OSD挂掉之后,系统通过心跳的机制感知到,备份OSD会临时充当主节点,进行读写。同时将其上面的全量数据,利用CRUSHING算法,均匀分发到挂掉的OSD节点的同类硬盘上。
三、扩容
当一个新的硬盘加入集群后,利用CRUSHING算法,将新加入的硬盘的同类硬盘上的数据均分到所有同类硬盘上。
根据本发明的一个实施例,本发明的存储流程如下:
步骤1:存储文件File与文件块Object的映射。通过文件识别系统获得用于标识文件类型的文件类别id(Typeid),完成文件的识别后,进行文件切块(默认以4MB为单位),每一块文件块有一个切分id(ono)用于标识是文件的第几个切块。通过文件id(ion)、类别id(Typeid)、切分id(ono)将存储文件File映射到文件块Object的id(oid)。
步骤2:文件块Object与放置组PG(Placement Groups)的映射。采用静态Hash函数计算oid的值,将oid映射成一个近似均匀分布的伪随机值,然后和掩码mask按位相与,得到pgid。完成Object到PG的映射。其中mask=PG(总数)-1。
步骤3:利用改进后的CRUSHING算法,将pgid带入,得到一组OSD,权值较高(性能更好)的节点主要负责读写,其余权值较低的负责容灾。在计算的时候,不同性能,不同机房,不同机架等都是CRUSHING算法的计算要素。
(1)PG到OSD的映射过程如下:
定义File为用户需要读写的文件。
File到Object映射如下:
Typeid(文件类别id);
ion(File的唯一id);
ono(File切分成Object的序号,默认以4M切分一个块的大小);
oid(Objectid)为文件块Object的id(oid)。
静态hash函数计算oid的值,将oid映射成一个近似均匀分布的伪随机值,然后和mask按位相与,得到pgid。
(2)Object到PG的映射如下:
hash(oid)&mask得pgid;
mask=PG(总数)-1;
利用改进后的CRUSHING算法进行OSD中分配,原有的CRUSH算法是绝对的公平话原则,比如我们有30块硬盘,它会将这些硬盘看成一样的存储介质,当第一块硬盘存储空间还剩60%的时候,其他29块硬盘的储空间也还剩60%。我们将其算法改进,让其在一定的基础上绝对公平,我们称之为CRUSHING算法。比如,我们有30块硬盘,硬盘识别系统将我们的硬盘分为高中低三个等级,每个等级10块硬盘,这样我们也就得到了三个OSD,改进后的CRUSHING算法能够让数据在每个OSD中分配的绝对的公平。如果第一个OSD中的第一个硬盘的存储空间还剩60%的话,那么其余剩余的9块硬盘的剩余存储空间也还剩60%。
将pgid带入,得到一组OSD,权值较高(性能更好)的节点主要负责读写,其余权值较低的负责容灾。在计算的时候,不同性能,不同机房,不同机架等都是CRUSHING算法的计算要素。
(3)PG到OSD的映射:
CRUSHING(pgid)得(osd1,osd2,osd3)即,通过改进的CRUSHING算法根据pgid值计算得到分配后对应的osd1,osd2,osd3三种OSD设备。
本发明通过以上过程实现了对存储数据进行基于无监督学习和主观错误纠正的数据分类,将数据按照不同的数据存储需求分为多种优先级,不同优先级对应不同放置组PG。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (8)
1.一种基于机器学习和ceph思想的分布式储存方法,其特征在于:
包括如下步骤:
步骤1:硬盘识别系统通过采用基于归一化和支持向量机的硬盘识别模型,根据现有存储介质的特征进行存储介质分类,分为不同级别的多个等级;
步骤2:文件识别系统通过基于文件特征权值的无监督学习模型,对分类错误的文件的结果进行模型矫正;对分类正确的文件所需的存储介质等级进行匹配,选择存储介质使用策略;
步骤3:用户需要读写的文件与储存介质的位置根据改进的CRUSHING算法进行映射,根据映射将文件进行分布式储存。
2.根据权利要求1所述的一种基于机器学习和ceph思想的分布式储存方法,其特征在于:
所述步骤1中,基于机器学习进行硬盘识别,包括:选择硬盘并获取硬盘信息,具体包括:是否是固态、是否为机械、主控方案、颗粒等级、出厂日期、硬盘读写速度作为识别特征,计算特征的均值、标准差进行均值归一化,再通过基于支持向量机模型训练硬盘类型识别的识别模型,利用基于支持向量机训练的硬盘识别模型对硬盘进行识别;所述分为不同级别的多个等级包括分为高、中、低三个等级。
3.根据权利要求1所述的一种基于机器学习和ceph思想的分布式储存方法,其特征在于:所述步骤2中,基于文件特征权值的无监督学习模型进行文件识别包括:
选取文件:获取文件大小、文件后缀、文件类型、文件流状态、子文件数目、文件服务名称、用户id、文件附带信息列表、文件流上下行字节数、文件流上下行包数、文件流上下行包头字节数、文件流上下行负载字节数、文件流上下行包长均值、文件流上下行包长方差、文件流上下行速率、文件流总字节数、文件流传输起始时间、文件流到达时间、文件流传输持续时间、丢包率、文件流传输时延带宽积作为文件类型识别特征,采用余弦相似度作为距离度量,采用k-means聚类算法进行文件类型的聚类得到识别模型,利用k-means聚类算法得到的识别模型进行文件类型的识别。
4.根据权利要求1所述的一种基于机器学习和ceph思想的分布式储存方法,其特征在于:
所述步骤3中,改进的CRUSHING算法具体为:将所有的硬盘根据高、中、低等级分为三组目标文件对象存储设备OSD;并且保持每组OSD中各个硬盘的空间利用程度或剩余磁盘容量相同。
5.根据权利要求1所述的一种基于机器学习和ceph思想的分布式储存方法,其特征在于:
所述步骤3中,文件识别系统将所要存储的文件,依据使用频率分类,也分为高、中、低三个等级,使用频率最高的文件,存储的主节点为性能最高的OSD中的某个硬盘上,备份节点为性能最低的OSD中的某个硬盘上,存两份备份;使用频率中等的文件,存储的主节点为性能中等的OSD中的某个硬盘上,备份节点为性能最低的OSD中的某个硬盘上,存两份备份;使用频率最低的文件,存储的主节点为性能最低的OSD中的某个硬盘上,备份节点为性能最低的OSD中的某个硬盘上,存两份备份。
6.根据权利要求5所述的一种基于机器学习和ceph思想的分布式储存方法,其特征在于:
一个放置组PG存储为一个目标文件存储设备OSD组,每个目标文件存储设备OSD组由三个上面所述的对应高中低三种级别的三种目标文件存储设备OSD组成,包括一个主存储两个备份。
7.根据权利要求1所述的一种基于机器学习和ceph思想的分布式储存方法,其特征在于:
文件存储的过程为:首先将待存储的文件信息识别后得到文件类型id,并将文件进行切块,根据文件id,文件类型id,文件切分序号完成文件与文件块的映射;通过静态Hash函数计算文件块id的Hash值,然后与掩码进行按位相与操作得到文件块的放置组id,完成文件块与放置组的映射,得到pgid,其中掩码为放置组总数-1。
8.根据权利要求7所述的一种基于机器学习和ceph思想的分布式储存方法,其特征在于:
利用改进后的CRUSHING算法,将pgid带入,得到一组OSD,权值较高的节点主要负责读写,其余权值较低的负责容灾。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911389335.6A CN111026337A (zh) | 2019-12-30 | 2019-12-30 | 一种基于机器学习和ceph思想的分布式储存方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911389335.6A CN111026337A (zh) | 2019-12-30 | 2019-12-30 | 一种基于机器学习和ceph思想的分布式储存方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111026337A true CN111026337A (zh) | 2020-04-17 |
Family
ID=70199290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911389335.6A Pending CN111026337A (zh) | 2019-12-30 | 2019-12-30 | 一种基于机器学习和ceph思想的分布式储存方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026337A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778341A (zh) * | 2021-09-17 | 2021-12-10 | 北京航天泰坦科技股份有限公司 | 遥感数据分布式存储方法和装置及遥感数据读取方法 |
CN114138194A (zh) * | 2021-11-25 | 2022-03-04 | 苏州浪潮智能科技有限公司 | 一种数据分布存储方法、装置、设备及介质 |
CN115016743A (zh) * | 2022-08-08 | 2022-09-06 | 广东省信息工程有限公司 | 分布式文件存储和访问控制方法、计算机设备和存储介质 |
CN117234435A (zh) * | 2023-11-14 | 2023-12-15 | 苏州元脑智能科技有限公司 | 文件存储方法及装置 |
Citations (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711711B1 (en) * | 2006-03-29 | 2010-05-04 | Emc Corporation | Networked storage system employing information lifecycle management in conjunction with a distributed global file system |
CN102499649A (zh) * | 2011-11-19 | 2012-06-20 | 江苏大学 | 基于机器视觉的猪的体温检测方法 |
CN102841931A (zh) * | 2012-08-03 | 2012-12-26 | 中兴通讯股份有限公司 | 分布式文件系统的存储方法及装置 |
US20130110423A1 (en) * | 2011-11-01 | 2013-05-02 | Microsoft Corporation | Analyzing power consumption in mobile computing devices |
CN103902224A (zh) * | 2012-12-26 | 2014-07-02 | 华为技术有限公司 | 数据存储的方法及数据存储管理设备及系统 |
CN103914516A (zh) * | 2014-02-25 | 2014-07-09 | 深圳市中博科创信息技术有限公司 | 一种存储系统分层管理的方法与系统 |
US20140310455A1 (en) * | 2013-04-12 | 2014-10-16 | International Business Machines Corporation | System, method and computer program product for deduplication aware quality of service over data tiering |
US8935493B1 (en) * | 2011-06-30 | 2015-01-13 | Emc Corporation | Performing data storage optimizations across multiple data storage systems |
CN104283960A (zh) * | 2014-10-15 | 2015-01-14 | 福建亿榕信息技术有限公司 | 实现异构网络存储的虚拟化整合及分级管理的系统 |
WO2015044934A1 (en) * | 2013-09-30 | 2015-04-02 | ABIDIN, Indira Ratna Dewi | A method for adaptively classifying sentiment of document snippets |
CN104598495A (zh) * | 2013-10-31 | 2015-05-06 | 南京中兴新软件有限责任公司 | 基于分布式文件系统的分级存储方法及系统 |
CN105187502A (zh) * | 2015-08-07 | 2015-12-23 | 北京思特奇信息技术股份有限公司 | 一种基于分布式弹性块存储的方法和系统 |
CN105338118A (zh) * | 2015-11-30 | 2016-02-17 | 上海斐讯数据通信技术有限公司 | 分布式存储系统 |
CN106055277A (zh) * | 2016-05-31 | 2016-10-26 | 重庆大学 | 一种去中心化的分布式异构存储系统数据分布方法 |
US9652471B1 (en) * | 2014-12-15 | 2017-05-16 | Amazon Technologies, Inc. | Intelligent file system with transparent storage tiering |
CN107169598A (zh) * | 2017-05-05 | 2017-09-15 | 上海斐讯数据通信技术有限公司 | 一种基于深度学习的天气预测方法及系统 |
CN107832323A (zh) * | 2017-09-14 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于图数据库的分布式实现系统及方法 |
US20180088870A1 (en) * | 2016-09-23 | 2018-03-29 | EMC IP Holding Company LLC | Method and device for storage management |
CN107908367A (zh) * | 2017-11-16 | 2018-04-13 | 郑州云海信息技术有限公司 | 存储系统中数据存储的方法、装置、设备及存储介质 |
CN108268217A (zh) * | 2018-01-10 | 2018-07-10 | 北京航天云路有限公司 | 一种基于时序数据冷热分类的分层存储方法 |
CN108920095A (zh) * | 2018-06-06 | 2018-11-30 | 深圳市脉山龙信息技术股份有限公司 | 一种基于crush的数据存储优化方法和装置 |
CN109033298A (zh) * | 2018-07-14 | 2018-12-18 | 北方工业大学 | 一种在异构hdfs集群下的数据分配方法 |
CN109508140A (zh) * | 2017-09-15 | 2019-03-22 | 阿里巴巴集团控股有限公司 | 存储资源管理方法、装置、电子设备及电子设备、系统 |
CN109582509A (zh) * | 2017-09-29 | 2019-04-05 | 中兴通讯股份有限公司 | 分布式文件系统容灾配置方法、装置和可读存储介质 |
US20190188025A1 (en) * | 2019-02-08 | 2019-06-20 | Intel Corporation | Provision of input/output classification in a storage system |
US10339470B1 (en) * | 2015-12-11 | 2019-07-02 | Amazon Technologies, Inc. | Techniques for generating machine learning training data |
US20190228006A1 (en) * | 2018-01-19 | 2019-07-25 | Acronis International Gmbh | Blockchain-based verification of machine learning |
CN110083306A (zh) * | 2019-03-14 | 2019-08-02 | 南京时沃信息科技有限公司 | 一种分布式对象存储系统及存储方法 |
CN110164501A (zh) * | 2018-06-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种硬盘检测方法、装置、存储介质及设备 |
-
2019
- 2019-12-30 CN CN201911389335.6A patent/CN111026337A/zh active Pending
Patent Citations (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711711B1 (en) * | 2006-03-29 | 2010-05-04 | Emc Corporation | Networked storage system employing information lifecycle management in conjunction with a distributed global file system |
US8935493B1 (en) * | 2011-06-30 | 2015-01-13 | Emc Corporation | Performing data storage optimizations across multiple data storage systems |
US20130110423A1 (en) * | 2011-11-01 | 2013-05-02 | Microsoft Corporation | Analyzing power consumption in mobile computing devices |
CN102499649A (zh) * | 2011-11-19 | 2012-06-20 | 江苏大学 | 基于机器视觉的猪的体温检测方法 |
CN102841931A (zh) * | 2012-08-03 | 2012-12-26 | 中兴通讯股份有限公司 | 分布式文件系统的存储方法及装置 |
CN103902224A (zh) * | 2012-12-26 | 2014-07-02 | 华为技术有限公司 | 数据存储的方法及数据存储管理设备及系统 |
US20140310455A1 (en) * | 2013-04-12 | 2014-10-16 | International Business Machines Corporation | System, method and computer program product for deduplication aware quality of service over data tiering |
WO2015044934A1 (en) * | 2013-09-30 | 2015-04-02 | ABIDIN, Indira Ratna Dewi | A method for adaptively classifying sentiment of document snippets |
CN104598495A (zh) * | 2013-10-31 | 2015-05-06 | 南京中兴新软件有限责任公司 | 基于分布式文件系统的分级存储方法及系统 |
CN103914516A (zh) * | 2014-02-25 | 2014-07-09 | 深圳市中博科创信息技术有限公司 | 一种存储系统分层管理的方法与系统 |
CN104283960A (zh) * | 2014-10-15 | 2015-01-14 | 福建亿榕信息技术有限公司 | 实现异构网络存储的虚拟化整合及分级管理的系统 |
US9652471B1 (en) * | 2014-12-15 | 2017-05-16 | Amazon Technologies, Inc. | Intelligent file system with transparent storage tiering |
CN105187502A (zh) * | 2015-08-07 | 2015-12-23 | 北京思特奇信息技术股份有限公司 | 一种基于分布式弹性块存储的方法和系统 |
CN105338118A (zh) * | 2015-11-30 | 2016-02-17 | 上海斐讯数据通信技术有限公司 | 分布式存储系统 |
US10339470B1 (en) * | 2015-12-11 | 2019-07-02 | Amazon Technologies, Inc. | Techniques for generating machine learning training data |
CN109196459A (zh) * | 2016-05-31 | 2019-01-11 | 重庆大学 | 一种去中心化的分布式异构存储系统数据分布方法 |
CN106055277A (zh) * | 2016-05-31 | 2016-10-26 | 重庆大学 | 一种去中心化的分布式异构存储系统数据分布方法 |
WO2017206649A1 (zh) * | 2016-05-31 | 2017-12-07 | 重庆大学 | 一种去中心化的分布式异构存储系统数据分布方法 |
US20180088870A1 (en) * | 2016-09-23 | 2018-03-29 | EMC IP Holding Company LLC | Method and device for storage management |
CN107169598A (zh) * | 2017-05-05 | 2017-09-15 | 上海斐讯数据通信技术有限公司 | 一种基于深度学习的天气预测方法及系统 |
CN107832323A (zh) * | 2017-09-14 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于图数据库的分布式实现系统及方法 |
CN109508140A (zh) * | 2017-09-15 | 2019-03-22 | 阿里巴巴集团控股有限公司 | 存储资源管理方法、装置、电子设备及电子设备、系统 |
CN109582509A (zh) * | 2017-09-29 | 2019-04-05 | 中兴通讯股份有限公司 | 分布式文件系统容灾配置方法、装置和可读存储介质 |
CN107908367A (zh) * | 2017-11-16 | 2018-04-13 | 郑州云海信息技术有限公司 | 存储系统中数据存储的方法、装置、设备及存储介质 |
CN108268217A (zh) * | 2018-01-10 | 2018-07-10 | 北京航天云路有限公司 | 一种基于时序数据冷热分类的分层存储方法 |
US20190228006A1 (en) * | 2018-01-19 | 2019-07-25 | Acronis International Gmbh | Blockchain-based verification of machine learning |
CN108920095A (zh) * | 2018-06-06 | 2018-11-30 | 深圳市脉山龙信息技术股份有限公司 | 一种基于crush的数据存储优化方法和装置 |
CN110164501A (zh) * | 2018-06-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种硬盘检测方法、装置、存储介质及设备 |
CN109033298A (zh) * | 2018-07-14 | 2018-12-18 | 北方工业大学 | 一种在异构hdfs集群下的数据分配方法 |
US20190188025A1 (en) * | 2019-02-08 | 2019-06-20 | Intel Corporation | Provision of input/output classification in a storage system |
CN110083306A (zh) * | 2019-03-14 | 2019-08-02 | 南京时沃信息科技有限公司 | 一种分布式对象存储系统及存储方法 |
Non-Patent Citations (3)
Title |
---|
刘莎;楚传仁;: "基于文件等级的Ceph数据冗余存储策略的研究" * |
文静;陈达;于璐;: "云计算环境下的分布式存储技术研究与应用" * |
马骏;陈玉林;: "基于面向对象的分布式遥感数据存储模型研究" * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778341A (zh) * | 2021-09-17 | 2021-12-10 | 北京航天泰坦科技股份有限公司 | 遥感数据分布式存储方法和装置及遥感数据读取方法 |
CN114138194A (zh) * | 2021-11-25 | 2022-03-04 | 苏州浪潮智能科技有限公司 | 一种数据分布存储方法、装置、设备及介质 |
CN114138194B (zh) * | 2021-11-25 | 2023-06-09 | 苏州浪潮智能科技有限公司 | 一种数据分布存储方法、装置、设备及介质 |
CN115016743A (zh) * | 2022-08-08 | 2022-09-06 | 广东省信息工程有限公司 | 分布式文件存储和访问控制方法、计算机设备和存储介质 |
CN115016743B (zh) * | 2022-08-08 | 2022-12-20 | 广东省信息工程有限公司 | 分布式文件存储和访问控制方法、计算机设备和存储介质 |
CN117234435A (zh) * | 2023-11-14 | 2023-12-15 | 苏州元脑智能科技有限公司 | 文件存储方法及装置 |
CN117234435B (zh) * | 2023-11-14 | 2024-02-20 | 苏州元脑智能科技有限公司 | 文件存储方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026337A (zh) | 一种基于机器学习和ceph思想的分布式储存方法 | |
US8250310B2 (en) | Assigning data to NVRAM of shared access hybrid hard drives | |
US20170149883A1 (en) | Data replication in a data storage system having a disjointed network | |
US9733835B2 (en) | Data storage method and storage server | |
CN110362277B (zh) | 基于混合存储系统的数据分类存储方法 | |
CN104615606A (zh) | 一种Hadoop分布式文件系统及其管理方法 | |
CN103929454A (zh) | 一种云计算平台中负载均衡存储的方法和系统 | |
CN107506145B (zh) | 一种物理存储调度方法及云主机创建方法 | |
CN106331075B (zh) | 用于存储文件的方法、元数据服务器和管理器 | |
CN107357522B (zh) | 数据处理方法和装置 | |
CN111580746A (zh) | 在存储服务器中进行数据压缩管理的方法及设备 | |
CN108804661A (zh) | 一种云存储系统中基于模糊聚类的重复数据删除方法 | |
CN111708497A (zh) | 一种基于hdfs的云环境数据存储优化方法 | |
CN113946291A (zh) | 数据访问方法、装置、存储节点及可读存储介质 | |
CN110019017B (zh) | 一种基于访问特征的高能物理文件存储方法 | |
CN104054076A (zh) | 数据存储方法、数据库存储节点故障处理方法及装置 | |
US8527565B2 (en) | Selecting and reassigning a blade for a logical partition for service scheduling of a blade server | |
CN113778341A (zh) | 遥感数据分布式存储方法和装置及遥感数据读取方法 | |
CN101630332A (zh) | 数据存储管理方法、数据存储管理装置和系统 | |
CN109298949B (zh) | 一种分布式文件系统的资源调度系统 | |
CN106951338A (zh) | 一种基于GlusterFS的高容错分布式存储方法 | |
WO2018210178A1 (zh) | 文件存储方法和存储装置 | |
CN115454331A (zh) | 一种用于追加对象的存储方法及存储系统 | |
CN106527960B (zh) | 多存储盘负载管理方法、装置、文件系统及存储网络系统 | |
CN112347036B (zh) | 一种云存储系统的云间迁移方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200417 |
|
WD01 | Invention patent application deemed withdrawn after publication |