CN113111031A - 一种异构海量数据文件的智能化存储方法 - Google Patents

一种异构海量数据文件的智能化存储方法 Download PDF

Info

Publication number
CN113111031A
CN113111031A CN202110388858.XA CN202110388858A CN113111031A CN 113111031 A CN113111031 A CN 113111031A CN 202110388858 A CN202110388858 A CN 202110388858A CN 113111031 A CN113111031 A CN 113111031A
Authority
CN
China
Prior art keywords
file
parameters
block volume
hdfs
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110388858.XA
Other languages
English (en)
Inventor
李世彬
江明哲
赵卓宁
刘魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sunsheen Technology Co ltd
Chengdu University of Information Technology
Original Assignee
Chengdu Sunsheen Technology Co ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sunsheen Technology Co ltd, Chengdu University of Information Technology filed Critical Chengdu Sunsheen Technology Co ltd
Priority to CN202110388858.XA priority Critical patent/CN113111031A/zh
Publication of CN113111031A publication Critical patent/CN113111031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种异构海量数据文件的智能化存储方法,包括以下步骤:参数配置,根据配置文件中用户配置的参数来配置HDFS的块容积参数以及有效时长参数;参数执行,当系统接收到上传文件请求时,对块容积参数的有效性进行检测,并根据检测结果将配置的参数加载到系统中;文件存储,对上传文件请求中的文件实际大小进行分析,通过配置HDFS的块容积大小与文件实际大小比较,根据比较结果选择对应的存储方式存储到对应的系统中。本发明中用户只需通过配置一些必要的参数,就能够根据参数的设定,智能选择存储方式,自动实现不同大小文件的分类存储,提高了数据存储效率。

Description

一种异构海量数据文件的智能化存储方法
技术领域
本发明涉及数据存储领域,尤其涉及一种异构海量数据文件的智能化存储方法。
背景技术
随着信息化的日渐发展,在数据中蕴含的价值逐渐被人们所挖掘发现,数据存储成了目前最热门的话题之一,其中对于不同类型、大小文件的高性能存储更是重中之重。目前传统的HDFS文件存储对于大量的小文件存储存在诸多问题。
如申请号为CN201110155324.9移动云存储系统及移动云存储实现方法,该方案中的系统包括具有内部存储介质的云计算终端、外接存储器,该外接存储器与云计算终端的内部存储介质构成多级异构存储介质;云计算终端的内部存储介质中存储有分布式文件;云计算终端根据该分布式文件对多级异构存储介质中存储的数据建立快速索引,并基于该分布式文件控制多级异构存储介质对数据进行分级存储。该方案虽然可以对移动设备原有的有限存储资源进行扩展,但是并不能实现对上传的文件进行大小判断和分类分级存储,数据存储效率不高。
发明内容
本发明的目的在于克服现有技术的不足,提供一种异构海量数据文件的智能化存储方法,通过智能化技术,自动实现不同大小文件的分类存储,提高了数据存储效率。
本发明的目的是通过以下技术方案来实现的:
一种异构海量数据文件的智能化存储方法,包括以下步骤:
步骤一:参数配置,根据配置文件中用户配置的参数来配置HDFS的块容积参数以及有效时长参数;
步骤二:参数执行,当系统接收到上传文件请求时,对块容积参数的有效性进行检测,并根据检测结果将配置的参数加载到系统中;
步骤三:文件存储,对上传文件请求进行分析,根据分析结果选择对应的存储方式将上传的文件存储到对应的系统中。
具体的,所述步骤二具体包括:当接收到上传文件请求时,系统对块容积参数的有效性进行检测,判断块容积参数是否仍在有效期内,若块容积参数失效时,获取用户配置的参数,并加载入系统中,同时根据设置的有效时长参数设置有效期,在有效期内接收的上传文件请求均按照此配置参数执行存储操作。
具体的,所述步骤三具体包括:对上传文件请求中的文件实际大小进行分析,通过配置HDFS的块容积大小与文件实际大小比较,根据比较结果选择对应的存储方式进行存储。
具体的,所述根据比较结果选择对应的存储方式进行存储过程具体包括:如果上传文件的长度大于HDFS的块容积,则使用HDFS进行文件存储;如果上传文件的长度小于HDFS的块容积,则使用FastDFS进行文件存储。
具体的,还包括将上传文件存储到HDFS或FastDFS后,分别生成文件存储路径的元数据并存储至元数据数据库中。
本发明的有益效果:大幅度提升了小文件的存储效率,用户只需要配置一些简单的配置信息,就可以实现文件存储的智能化。
附图说明
图1是本发明的方法流程图。
图2是本发明的文件读取流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本实施例中,如图1所示,一种异构海量数据文件的智能化存储方法,包括以下步骤:
步骤一:参数配置,根据配置文件中用户配置的参数来配置HDFS的块容积参数以及有效时长参数;
步骤二:参数执行,当系统接收到上传文件请求时,对块容积参数的有效性进行检测,并根据检测结果将配置的参数加载到系统中;
步骤三:文件存储,对上传文件请求进行分析,根据分析结果选择对应的存储方式将上传的文件存储到对应的系统中。
具体的,所述步骤二具体包括:当接收到上传文件请求时,系统对块容积参数的有效性进行检测,判断块容积参数是否仍在有效期内,若块容积参数失效时,获取用户配置的参数,并加载入系统中,同时根据设置的有效时长参数设置有效期,在有效期内接收的上传文件请求均按照此配置参数执行存储操作。
具体的,所述步骤三具体包括:对上传文件请求中的文件实际大小进行分析,通过配置HDFS的块容积大小与文件实际大小比较,根据比较结果选择对应的存储方式进行存储。
具体的,所述根据比较结果选择对应的存储方式进行存储过程具体包括:如果上传文件的长度大于HDFS的块容积,则使用HDFS进行文件存储;如果上传文件的长度小于HDFS的块容积,则使用FastDFS进行文件存储。
具体的,还包括将上传文件存储到HDFS或FastDFS后,分别生成文件存储路径的元数据并存储至元数据数据库中。
本发明通过配置文件来配置HDFS的块容积参数以及有效时长参数,当接收到上传文件请求时,系统检查是否存在仍在有效期内的块容积参数。块容积参数失效时,获取配置的参数,并加载入系统,根据设置的有效时长参数设置有效期,在有效期内接收的请求按照此参数执行。同时分析请求中的文件大小,通过配置HDFS的块容积与文件的实际大小比较,选择对应的存储策略:如果文件长度大于HDFS的块容积,则使用HDFS进行存储,如果文件长度小于HDFS的块容积,则使用FastDFS进行存储。
本发明的文件存储过程包括:1.当相应软件启动后,系统会读取HDFS的配置文件,获取HDFS的存储块设置信息。默认HDFS的块为128MB。2.服务器启动后,当服务器接收到文件写入请求后,判断要写入文件的大小。3.根据文件大小的不同将文件存入不同的存储系统,并生成文件存储的路径信息。4.将存储路径的元数据存入元数据库。
本发明的文件读取过程如图2所示,包括:1.服务器接收读取文件的请求后,查询元数据库,获取文件的路径。2.根据获得的文件路径,读取对应的文件。3.将读取的文件返回。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种异构海量数据文件的智能化存储方法,其特征在于,包括以下步骤:
步骤一:参数配置,根据配置文件中用户配置的参数来配置HDFS的块容积参数以及有效时长参数;
步骤二:参数执行,当系统接收到上传文件请求时,对块容积参数的有效性进行检测,并根据检测结果将配置的参数加载到系统中;
步骤三:文件存储,对上传文件请求进行分析,根据分析结果选择对应的存储方式将上传的文件存储到对应的系统中。
2.根据权利要求1所述的一种异构海量数据文件的智能化存储方法,其特征在于,所述步骤二具体包括:当接收到上传文件请求时,系统对块容积参数的有效性进行检测,判断块容积参数是否仍在有效期内,若块容积参数失效时,获取用户配置的参数,并加载入系统中,同时根据设置的有效时长参数设置有效期,在有效期内接收的上传文件请求均按照此配置参数执行存储操作。
3.根据权利要求1所述的一种异构海量数据文件的智能化存储方法,其特征在于,所述步骤三具体包括:对上传文件请求中的文件实际大小进行分析,通过配置HDFS的块容积大小与文件实际大小比较,根据比较结果选择对应的存储方式进行存储。
4.根据权利要求3所述的一种异构海量数据文件的智能化存储方法,其特征在于,所述根据比较结果选择对应的存储方式进行存储过程具体包括:如果上传文件的长度大于HDFS的块容积,则使用HDFS进行文件存储;如果上传文件的长度小于HDFS的块容积,则使用FastDFS进行文件存储。
5.根据权利要求4所述的一种异构海量数据文件的智能化存储方法,其特征在于,还包括将上传文件存储到HDFS或FastDFS后,分别生成文件存储路径的元数据并存储至元数据数据库中。
CN202110388858.XA 2021-04-12 2021-04-12 一种异构海量数据文件的智能化存储方法 Pending CN113111031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110388858.XA CN113111031A (zh) 2021-04-12 2021-04-12 一种异构海量数据文件的智能化存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110388858.XA CN113111031A (zh) 2021-04-12 2021-04-12 一种异构海量数据文件的智能化存储方法

Publications (1)

Publication Number Publication Date
CN113111031A true CN113111031A (zh) 2021-07-13

Family

ID=76715944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110388858.XA Pending CN113111031A (zh) 2021-04-12 2021-04-12 一种异构海量数据文件的智能化存储方法

Country Status (1)

Country Link
CN (1) CN113111031A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150277802A1 (en) * 2014-03-31 2015-10-01 Amazon Technologies, Inc. File storage using variable stripe sizes
CN109002543A (zh) * 2018-07-24 2018-12-14 北京京东尚科信息技术有限公司 一种文件存储的方法和装置
CN109669925A (zh) * 2018-11-21 2019-04-23 北京市天元网络技术股份有限公司 非结构化数据的管理方法及装置
CN110941588A (zh) * 2018-09-21 2020-03-31 北京国双科技有限公司 文件的配置方法及装置
CN112084156A (zh) * 2020-09-24 2020-12-15 中国农业银行股份有限公司上海市分行 混合存储系统及文件的自适应备份方法
CN112437078A (zh) * 2020-11-20 2021-03-02 腾讯科技(深圳)有限公司 文件存储方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150277802A1 (en) * 2014-03-31 2015-10-01 Amazon Technologies, Inc. File storage using variable stripe sizes
CN106233264A (zh) * 2014-03-31 2016-12-14 亚马逊科技公司 使用可变条带大小的文件存储装置
CN109002543A (zh) * 2018-07-24 2018-12-14 北京京东尚科信息技术有限公司 一种文件存储的方法和装置
CN110941588A (zh) * 2018-09-21 2020-03-31 北京国双科技有限公司 文件的配置方法及装置
CN109669925A (zh) * 2018-11-21 2019-04-23 北京市天元网络技术股份有限公司 非结构化数据的管理方法及装置
CN112084156A (zh) * 2020-09-24 2020-12-15 中国农业银行股份有限公司上海市分行 混合存储系统及文件的自适应备份方法
CN112437078A (zh) * 2020-11-20 2021-03-02 腾讯科技(深圳)有限公司 文件存储方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108319654B (zh) 计算系统、冷热数据分离方法及装置、计算机可读存储介质
US9712646B2 (en) Automated client/server operation partitioning
CN102147711B (zh) 一种基于数据内容识别的存储方法及装置
CN106874348B (zh) 文件存储和索引方法、装置及读取文件的方法
CN104281533B (zh) 一种存储数据的方法及装置
CN108776682B (zh) 基于对象存储的随机读写对象的方法和系统
CN105224237A (zh) 一种数据存储方法及装置
CN103595797B (zh) 一种分布式存储系统中的缓存方法
WO2012041110A1 (zh) 数据比对方法和装置
CN103593436A (zh) 文件合并方法和装置
CN103488766A (zh) 应用程序搜索方法和装置
CN109240607B (zh) 一种文件读取方法和装置
CN110515920A (zh) 一种基于Hadoop的海量小文件存取方法和系统
CN105723347A (zh) 通过写扼制的廉价固态存储
CN108563743A (zh) 一种文件读写方法、系统及设备和存储介质
WO2015027731A1 (zh) 布隆过滤器生成方法和装置
CN110727406A (zh) 一种数据存储调度方法及装置
CN107423321B (zh) 适用大批量小文件云存储的方法及其装置
CN110222046B (zh) 列表数据的处理方法、装置、服务器和存储介质
CN110532228A (zh) 一种区块链数据读取的方法、系统、设备及可读存储介质
CN111752941B (zh) 一种数据存储、访问方法、装置、服务器及存储介质
CN113297267A (zh) 数据缓存和任务处理方法、装置、设备以及存储介质
CN112130759A (zh) 一种存储系统的参数配置方法、系统及相关装置
CN113111031A (zh) 一种异构海量数据文件的智能化存储方法
US20180276290A1 (en) Relevance optimized representative content associated with a data storage system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210713

RJ01 Rejection of invention patent application after publication