CN111427842B - 一种分布式文件系统优化的方法和设备 - Google Patents
一种分布式文件系统优化的方法和设备 Download PDFInfo
- Publication number
- CN111427842B CN111427842B CN202010175308.5A CN202010175308A CN111427842B CN 111427842 B CN111427842 B CN 111427842B CN 202010175308 A CN202010175308 A CN 202010175308A CN 111427842 B CN111427842 B CN 111427842B
- Authority
- CN
- China
- Prior art keywords
- disk
- service flow
- rate
- flow job
- configuration file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000001514 detection method Methods 0.000 claims abstract description 59
- 238000003860 storage Methods 0.000 claims abstract description 46
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 230000036541 health Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000009826 distribution Methods 0.000 abstract description 7
- 238000012423 maintenance Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/062—Securing storage systems
- G06F3/0623—Securing storage systems in relation to content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0632—Configuration or reconfiguration of storage systems by initialisation or re-initialisation of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0653—Monitoring storage devices or systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种分布式文件系统优化的方法和设备,该方法包括以下步骤:在系统中创建配置文件,并将配置文件以特定的存储方式进行存储;响应于业务流Job提交,判断业务流Job相应的配置文件中的检测参数并分析业务流Job的业务特征;响应于检测参数为真,检测业务流Job所需磁盘Block单元;根据业务流Job的业务特征和磁盘Block单元的检测结果采用HDFS异构存储技术对业务流Job进行差异化存储。通过使用本发明的方案,能够使磁盘的利用最大化,保证集群数据的安全,同时降低部分磁盘维护成本,还能够避免数据分配不均衡导致的倾斜问题。
Description
技术领域
本领域涉及计算机领域,并且更具体地涉及一种分布式文件系统优化的方法和设备。
背景技术
随着大数据集群规模的扩大,集群磁盘的健康监测也变得复杂。传统的分布式文件系统坏盘检测的方法为:周期性检测集群磁盘的IO速率,将磁盘当前IO(输入输出)速率与常规IO速率作比较,以判定磁盘是否为坏盘。该方法存在三个弊端,一是检测周期难以估量,周期长则耗费集群资源,周期短则无法及时更新坏盘;二是若磁盘存在坏Block(块),则其IO速率必然较差,若仅以读写速率较差作为标准判定坏盘,会造成磁盘的浪费;三是业务流Job与磁盘检测Job是分离的,无法及时将检测信息运用到业务流Job执行中。
发明内容
有鉴于此,本发明实施例的目的在于提出一种分布式文件系统优化的方法和设备,通过使用本发明的方法,能够使磁盘的利用最大化,保证集群数据的安全,同时降低部分磁盘维护成本,还能够避免数据分配不均衡导致的倾斜问题。
基于上述目的,本发明的实施例的一个方面提供了一种分布式文件系统优化的方法,包括以下步骤:
在系统中创建配置文件,并将配置文件以特定的存储方式进行存储;
响应于业务流Job提交,判断业务流Job相应的配置文件中的检测参数并分析业务流Job的业务特征;
响应于检测参数为真,检测业务流Job所需磁盘Block单元;
根据业务流Job的业务特征和磁盘Block单元的检测结果采用HDFS异构存储技术对业务流Job进行差异化存储。
根据本发明的一个实施例,根据业务流Job的业务特征和磁盘Block单元的检测结果采用HDFS异构存储技术对业务流Job进行差异化存储包括:
响应于检测到磁盘Block单元损坏,将损坏的磁盘Block单元在系统中删除。
根据本发明的一个实施例,检测业务流Job所需磁盘Block单元包括:
使用fsck工具获取磁盘Block的信息和位置信息;
将磁盘Block的IO速率与配置文件中最小速率进行比较;
响应于IO速率不小于正常磁盘IO速率,判断磁盘Block为正常;
响应于IO速率小于正常磁盘IO速率,且大于最小速率,判断磁盘Block存在损坏;
响应于IO速率小于最小速率,判定磁盘为坏盘。
根据本发明的一个实施例,配置文件可以定义的项目包括集群可允许的磁盘最低读写特性、允许的最小Block数、是否开启Block健康检测、备用磁盘信息。
根据本发明的一个实施例,还包括:
获取当前集群的Block数,与配置文件中允许的最小Block数进行比较;
响应于当前集群的Block数小于允许的最小Block数,启动备份磁盘空间单元,对配置文件中的备用磁盘进行初始化和挂载操作。
本发明的实施例的另一个方面,还提供了一种分布式文件系统优化的设备,设备包括:
创建模块,创建模块配置为在系统中创建配置文件,并将配置文件以特定的存储方式进行存储;
判断模块,判断模块配置为响应于业务流Job提交,判断业务流Job相应的配置文件中的检测参数并分析业务流Job的业务特征;
检测模块,检测模块配置为响应于检测参数为真,检测业务流Job所需磁盘Block单元;
存储模块,存储模块配置为响应于未检测到磁盘Block单元损坏,根据业务流Job的业务特征和磁盘Block单元的检测结果采用HDFS异构存储技术对业务流Job进行差异化存储。
根据本发明的一个实施例,还包括删除模块,删除模块配置为响应于检测到磁盘Block单元损坏,将损坏的磁盘Block单元在系统中删除。
根据本发明的一个实施例,检测模块还配置为:
使用fsck工具获取磁盘Block的信息和位置信息;
将磁盘Block的IO速率与配置文件中最小速率进行比较;
响应于IO速率不小于正常磁盘IO速率,判断磁盘Block为正常;
响应于IO速率小于正常磁盘IO速率,且大于最小速率,判断磁盘Block存在损坏;
响应于IO速率小于最小速率,判定磁盘为坏盘。
根据本发明的一个实施例,配置文件可以定义的项目包括集群可允许的磁盘最低读写特性、允许的最小Block数、是否开启Block健康检测、备用磁盘信息。
根据本发明的一个实施例,还包括备份模块,备份模块配置为:
获取当前集群的Block数,与配置文件中允许的最小Block数进行比较;
响应于当前集群的Block数小于允许的最小Block数,启动备份磁盘空间单元,对配置文件中的备用磁盘进行初始化和挂载操作。
本发明具有以下有益技术效果:本发明实施例提供的分布式文件系统优化的方法,通过在系统中创建配置文件,并将配置文件以特定的存储方式进行存储;响应于业务流Job提交,判断业务流Job相应的配置文件中的检测参数并分析业务流Job的业务特征;响应于检测参数为真,检测业务流Job所需磁盘Block单元;根据业务流Job的业务特征和磁盘Block单元的检测结果采用HDFS异构存储技术对业务流Job进行差异化存储的技术方案,能够使磁盘的利用最大化,保证集群数据的安全,同时降低部分磁盘维护成本,还能够避免数据分配不均衡导致的倾斜问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的分布式文件系统优化的方法的示意性流程图;
图2为根据本发明一个实施例的分布式文件系统优化的设备的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种分布式文件系统优化的方法的一个实施例。图1示出的是该方法的示意性流程图。
如图1中所示,该方法可以包括以下步骤:
S1在系统中创建配置文件,并将配置文件以特定的存储方式进行存储,为了尽可能保证业务流Job不受引入Block健康检测和磁盘IO检测Job的影响,设置配置文件的存储方式为LAZY PERSIST内存存储;
S2响应于业务流Job提交,判断业务流Job相应的配置文件中的检测参数并分析业务流Job的业务特征,分析业务流Job的业务特征,分析其对磁盘IO速率的要求,同时将业务流及其特征纳入业务流特征库,将业务流Job以读数据和写数据为界进行分流处理;
S3响应于检测参数为真,检测业务流Job所需磁盘Block单元,Block健康检测可使用工具fsck(file system check),将检测结果更新或纳入至配置文件中;
S4根据业务流Job的业务特征和磁盘Block单元的检测结果采用HDFS异构存储技术对业务流Job进行差异化存储,每个业务流Job的运行,归根结底都是对磁盘进行写操作或者对磁盘数据的读操作,当然也存在读写内存和读写缓存,这里只谈读写磁盘相关Job,在写操作过程,可将临时数据(如历史日志)或者不重要业务Job的一个备份优先存放在可满足Job要求的磁盘中(存在损坏Block的可用磁盘中),充分利用坏盘空间,节省优质磁盘给重要业务Job或者对磁盘要求高的业务Job,在读操作过程中,若所读的数据存在坏Block,且数据较重要或影响性能,那么就可以进行数据迁移,迁移过程其实也就是写操作过程,其中HDFS异构存储技术是可以根据存储介质读写的特性来差异化进行数据存储分配。
本发明的技术方案可应用大数据集群规模较大,或数据流动性频繁的企业,如淘宝、移动,每天都有TB级PB级的数据在不断的交互运转,服务器磁盘承受着持续性压力的场景。在业务流中融合磁盘健康检测,很好的利用了分布式文件系统HDFS的异构存储、负载均衡特性的同时,对磁盘进行差异化利用,将磁盘最大化利用,同时降低部分磁盘维护成本。将业务流Job与坏盘检测Job相融合。分析业务流特征及数据访问特征,细化检测磁盘Block健康状态,并将两者相结合,实时更新配置文件。用配置文件中Block参数变更来触发磁盘检测服务,并将磁盘IO检测结果引入于HDFS异构存储中。另外,引入智能启动备份磁盘空间功能,在保证磁盘最大化利用的同时,保证集群数据安全。
通过本发明的技术方案,能够使磁盘的利用最大化,保证集群数据的安全,同时降低部分磁盘维护成本,还能够避免数据分配不均衡导致的倾斜问题。
在本发明的一个优选实施例中,配置文件可以定义的项目包括集群可允许的磁盘最低读写特性、允许的最小Block数、是否开启Block健康检测、备用磁盘信息。为了方便磁盘管理,需要创建配置文件diskmgmt.conf。该文件需自定义该集群可允许的磁盘最低读写特性min_DiskRate;允许的最小Block数min_Blocknum;是否开启Block健康检测Block_check;备用磁盘信息如/dev/sdl等,另外可为HDFS重要信息存放磁盘配置特有的损坏率阈值bad_Blockrate。
另外,为了尽可能保证业务流Job不受引入Block健康检测和磁盘IO检测Job的影响,将设置配置文件diskmgmt.conf的存储方式为LAZYPERSIST内存存储。
在配置文件diskmgmt.conf初始化时,仅存放以上用户配置信息。后续的磁盘IO速率及集群Block信息在检测中不断写入其中。
在本发明的一个优选实施例中,根据业务流Job的业务特征和磁盘Block单元的检测结果采用HDFS异构存储技术对业务流Job进行差异化存储包括:
响应于检测到磁盘Block单元损坏,将损坏的磁盘Block单元在系统中删除。使用bin/hdfs fsck/-delete删除配置文件中记录的Block,并清除已删除的信息,以保证配置文件为轻量级文件。以Block删除操作作为触发点,触发磁盘IO检测Job,对磁盘进行定向检测,比较当前磁盘IO速率curr_DiskRate与配置文件中min_DiskRate,若curr_DiskRate<min_DiskRate,则判定为坏盘,进行剔除磁盘相关操作。这一步主要是清除坏Block,清理坏盘。优化集群存储空间。清除坏Block,避免对坏Block多次检测,及时更新HDFS的可用Block数。清理坏盘,是为了保证集群磁盘空间的可用性,及时触发备份磁盘的启动任务。
另外,增加新的磁盘后,不用担心数据倾斜的问题,只需要执行HDFS数据均衡操作就行。
在本发明的一个优选实施例中,检测业务流Job所需磁盘Block单元包括:
使用fsck工具获取磁盘Block的信息和位置信息;
将磁盘Block的IO速率与配置文件中最小速率进行比较;
响应于IO速率不小于正常磁盘IO速率,判断磁盘Block为正常;
响应于IO速率小于正常磁盘IO速率,且大于最小速率,判断磁盘Block存在损坏;
响应于IO速率小于最小速率,判定磁盘为坏盘。在分布式文件系统中,数据是以块存储的(每个块一般为128M或64M)。这样做的好处是充分利用了分布式文件系统业务Job的特点(全天无休,Job不间断),业务Job可根据磁盘Block检测的结果自适应调整存储方位(写操作时),又可以模块化扫描热点区域(读操作时),还可以针对性触发优化磁盘的任务。
在本发明的一个优选实施例中,还包括:
获取当前集群的Block数,与配置文件中允许的最小Block数进行比较;
响应于当前集群的Block数小于允许的最小Block数,启动备份磁盘空间单元,对配置文件中的备用磁盘进行初始化和挂载操作。通过Rest_api获取当前集群的Block数curr_Blocknum,与配置文件中min_Blocknum相比较,若curr_Blocknum<min_Blocknum,则启动备份磁盘空间单元,自动化对配置文件中备用磁盘进行初始化、挂载操作。集群新增空间后,可发挥HDFS数据均衡的特性,避免了数据分配不均衡导致倾斜问题。
通过本发明的技术方案,能够使磁盘的利用最大化,保证集群数据的安全,同时降低部分磁盘维护成本,还能够避免数据分配不均衡导致的倾斜问题。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
基于上述目的,本发明的实施例的第二个方面,提出了一种分布式文件系统优化的设备,如图2所示,设备200包括:
创建模块,创建模块配置为在系统中创建配置文件,并将配置文件以特定的存储方式进行存储;
判断模块,判断模块配置为响应于业务流Job提交,判断业务流Job相应的配置文件中的检测参数并分析业务流Job的业务特征;
检测模块,检测模块配置为响应于检测参数为真,检测业务流Job所需磁盘Block单元;
存储模块,存储模块配置为根据业务流Job的业务特征和磁盘Block单元的检测结果采用HDFS异构存储技术对业务流Job进行差异化存储。
在本发明的一个优选实施例中,还包括删除模块,删除模块配置为响应于检测到磁盘Block单元损坏,将损坏的磁盘Block单元在系统中删除。
在本发明的一个优选实施例中,检测模块还配置为:
使用fsck工具获取磁盘Block的信息和位置信息;
将磁盘Block的IO速率与配置文件中最小速率进行比较;
响应于IO速率不小于正常磁盘IO速率,判断磁盘Block为正常;
响应于IO速率小于正常磁盘IO速率,且大于最小速率,判断磁盘Block存在损坏;
响应于IO速率小于最小速率,判定磁盘为坏盘。
在本发明的一个优选实施例中,配置文件可以定义的项目包括集群可允许的磁盘最低读写特性、允许的最小Block数、是否开启Block健康检测、备用磁盘信息。
在本发明的一个优选实施例中,还包括备份模块,备份模块配置为:
获取当前集群的Block数,与配置文件中允许的最小Block数进行比较;
响应于当前集群的Block数小于允许的最小Block数,启动备份磁盘空间单元,对配置文件中的备用磁盘进行初始化和挂载操作。
需要特别指出的是,上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到上述方法的其他实施例中。
此外,上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
上述实施例,特别是任何“优选”实施例是实现的可能示例,并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。
Claims (10)
1.一种分布式文件系统优化的方法,其特征在于,包括以下步骤:
在所述系统中创建配置文件,并将所述配置文件以特定的存储方式进行存储;
响应于业务流Job提交,判断所述业务流Job相应的所述配置文件中的检测参数并分析所述业务流Job的业务特征,分析所述业务流Job对磁盘IO速率的要求,将业务流Job及业务流Job特征纳入业务流特征库,将业务流Job以读数据和写数据为界进行分流处理;
响应于所述检测参数为真,检测所述业务流Job所需磁盘Block单元;
根据所述业务流Job的业务特征和所述磁盘Block单元的检测结果采用HDFS异构存储技术对所述业务流Job进行差异化存储。
2.根据权利要求1所述的方法,其特征在于,根据所述业务流Job的业务特征和所述磁盘Block单元的检测结果采用HDFS异构存储技术对所述业务流Job进行差异化存储包括:
响应于检测到磁盘Block单元损坏,将损坏的磁盘Block单元在所述系统中删除。
3.根据权利要求1所述的方法,其特征在于,检测所述业务流Job所需磁盘Block单元包括:
使用fsck工具获取磁盘Block的信息和位置信息;
将所述磁盘Block的IO速率与所述配置文件中最小速率进行比较;
响应于所述IO速率不小于正常磁盘IO速率,判断所述磁盘Block为正常;
响应于所述IO速率小于所述正常磁盘IO速率,且大于所述最小速率,判断所述磁盘Block存在损坏;
响应于所述IO速率小于所述最小速率,判定磁盘为坏盘。
4.根据权利要求1所述的方法,其特征在于,所述配置文件定义的项目包括集群可允许的磁盘最低读写特性、允许的最小Block数、是否开启Block健康检测、备用磁盘信息。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取当前集群的Block数,与所述配置文件中允许的最小Block数进行比较;
响应于所述当前集群的Block数小于所述允许的最小Block数,启动备份磁盘空间单元,对所述配置文件中的备用磁盘进行初始化和挂载操作。
6.一种分布式文件系统优化的设备,其特征在于,所述设备包括:
创建模块,所述创建模块配置为在所述系统中创建配置文件,并将所述配置文件以特定的存储方式进行存储;
判断模块,所述判断模块配置为响应于业务流Job提交,判断所述业务流Job相应的所述配置文件中的检测参数并分析所述业务流Job的业务特征,分析所述业务流Job对磁盘IO速率的要求,将业务流Job及业务流Job特征纳入业务流特征库,将业务流Job以读数据和写数据为界进行分流处理;
检测模块,所述检测模块配置为响应于所述检测参数为真,检测所述业务流Job所需磁盘Block单元;
存储模块,所述存储模块配置为根据所述业务流Job的业务特征和所述磁盘Block单元的检测结果采用HDFS异构存储技术对所述业务流Job进行差异化存储。
7.根据权利要求6所述的设备,其特征在于,还包括删除模块,所述删除模块配置为响应于检测到磁盘Block单元损坏,将损坏的磁盘Block单元在所述系统中删除。
8.根据权利要求6所述的设备,其特征在于,所述检测模块还配置为:
使用fsck工具获取磁盘Block的信息和位置信息;
将所述磁盘Block的IO速率与所述配置文件中最小速率进行比较;
响应于所述IO速率不小于正常磁盘IO速率,判断所述磁盘Block为正常;
响应于所述IO速率小于所述正常磁盘IO速率,且大于所述最小速率,判断所述磁盘Block存在损坏;
响应于所述IO速率小于所述最小速率,判定磁盘为坏盘。
9.根据权利要求6所述的设备,其特征在于,所述配置文件定义的项目包括集群可允许的磁盘最低读写特性、允许的最小Block数、是否开启Block健康检测、备用磁盘信息。
10.根据权利要求6所述的设备,其特征在于,还包括备份模块,所述备份模块配置为:
获取当前集群的Block数,与所述配置文件中允许的最小Block数进行比较;
响应于所述当前集群的Block数小于所述允许的最小Block数,启动备份磁盘空间单元,对所述配置文件中的备用磁盘进行初始化和挂载操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010175308.5A CN111427842B (zh) | 2020-03-13 | 2020-03-13 | 一种分布式文件系统优化的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010175308.5A CN111427842B (zh) | 2020-03-13 | 2020-03-13 | 一种分布式文件系统优化的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111427842A CN111427842A (zh) | 2020-07-17 |
CN111427842B true CN111427842B (zh) | 2023-01-06 |
Family
ID=71546310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010175308.5A Active CN111427842B (zh) | 2020-03-13 | 2020-03-13 | 一种分布式文件系统优化的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111427842B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105242998A (zh) * | 2015-09-01 | 2016-01-13 | 福建新大陆软件工程有限公司 | 一种基于hdfs的磁盘故障检测方法及系统 |
CN106406754A (zh) * | 2016-08-31 | 2017-02-15 | 北京小米移动软件有限公司 | 数据迁移方法及装置 |
CN110515539A (zh) * | 2019-07-22 | 2019-11-29 | 平安科技(深圳)有限公司 | 基于云存储的云磁盘挂载方法、装置、设备和存储介质 |
CN110532187A (zh) * | 2019-08-30 | 2019-12-03 | 苏州浪潮智能科技有限公司 | 一种hdfs吞吐性能测试方法、系统、终端及存储介质 |
-
2020
- 2020-03-13 CN CN202010175308.5A patent/CN111427842B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105242998A (zh) * | 2015-09-01 | 2016-01-13 | 福建新大陆软件工程有限公司 | 一种基于hdfs的磁盘故障检测方法及系统 |
CN106406754A (zh) * | 2016-08-31 | 2017-02-15 | 北京小米移动软件有限公司 | 数据迁移方法及装置 |
CN110515539A (zh) * | 2019-07-22 | 2019-11-29 | 平安科技(深圳)有限公司 | 基于云存储的云磁盘挂载方法、装置、设备和存储介质 |
CN110532187A (zh) * | 2019-08-30 | 2019-12-03 | 苏州浪潮智能科技有限公司 | 一种hdfs吞吐性能测试方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111427842A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8122158B1 (en) | Method for improving I/O performance of host systems by applying future time interval policies when using external storage systems | |
US10466924B1 (en) | Systems and methods for generating memory images of computing devices | |
CN108667740B (zh) | 流量控制的方法、装置及系统 | |
US10452486B2 (en) | Selecting a backup process for a file system | |
CN111342986B (zh) | 分布式节点管理方法及装置、分布式系统、存储介质 | |
US10621123B2 (en) | Managing storage system performance | |
CN114675791A (zh) | 一种磁盘处理方法、系统及电子设备 | |
CN111427842B (zh) | 一种分布式文件系统优化的方法和设备 | |
US11023144B2 (en) | Method and system for dynamically allocating front end ports in a storage device | |
CN111984196B (zh) | 一种文件迁移方法、装置、设备及可读存储介质 | |
CN110879764B (zh) | 一种位图设置方法、装置、设备及可读存储介质 | |
CN111177104B (zh) | 一种nas存储系统的日志下刷方法及装置 | |
US8250402B2 (en) | Method to precondition a storage controller for automated data collection based on host input | |
CN114884836A (zh) | 一种虚拟机高可用方法、装置及介质 | |
CN110658993A (zh) | 一种快照回滚方法、装置、设备及存储介质 | |
US7500141B2 (en) | Saving state data in parallel in a multi-processor system | |
CN115174596A (zh) | 一种设备远程复制方法、装置以及介质 | |
CN110795276A (zh) | 一种存储介质的修复方法、计算机设备、存储介质 | |
CN114237957A (zh) | 异常磁盘分区的处理方法与装置 | |
CN115240759A (zh) | 一种固态硬盘检测方法、装置、设备及存储介质 | |
CN111176568B (zh) | 一种数据分析的方法和装置 | |
CN109753222A (zh) | 数据删除方法、服务器及计算机可读介质 | |
CN106648985A (zh) | 一种文本数据库的容灾修复方法及装置 | |
CN112905484A (zh) | 一种自适应闭环性能测试方法、系统及介质 | |
CN106599046B (zh) | 分布式文件系统的写入方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |