CN117762348A - 文件的分布式存储方法、装置、设备以及存储介质 - Google Patents

文件的分布式存储方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN117762348A
CN117762348A CN202410043936.6A CN202410043936A CN117762348A CN 117762348 A CN117762348 A CN 117762348A CN 202410043936 A CN202410043936 A CN 202410043936A CN 117762348 A CN117762348 A CN 117762348A
Authority
CN
China
Prior art keywords
file
size
stored
storage
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410043936.6A
Other languages
English (en)
Inventor
严湘辉
戴立志
王彬
钟鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongtong Uniform Chuangfa Science And Technology Co ltd
Original Assignee
Zhongtong Uniform Chuangfa Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongtong Uniform Chuangfa Science And Technology Co ltd filed Critical Zhongtong Uniform Chuangfa Science And Technology Co ltd
Priority to CN202410043936.6A priority Critical patent/CN117762348A/zh
Publication of CN117762348A publication Critical patent/CN117762348A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供了文件的分布式存储方法、装置、设备以及存储介质,应用于数据存储技术领域。所述方法包括采集多个节点的存储信息;构建所述存储信息与对应节点的映射关系;根据所述存储信息和所述映射关系,进行文件的写入和/或读取。以此方式,可以对单机分区存储不下的文件自动进行分割和合并,实现超大文件存储,大大提升了各个磁盘的利用率。

Description

文件的分布式存储方法、装置、设备以及存储介质
技术领域
本公开涉及数据存储技术领域,尤其涉及文件的分布式存储方法、装置、设备以及存储介质。
背景技术
在大数据环境下,元数据的体量也非常大,元数据的存取性能是整个文件系统性能的关键。常见的元数据管理可以分为集中式和分布式元数据管理架构。
集中式元数据管理架构采用单一的元数据服务器,实现简单,但是存在单点故障等问题。分布式元数据管理架构则将元数据分散在多个节点上,进而解决了元数据服务器的性能瓶颈等问题,并提高了元数据管理架构的可扩展性,但实现较为复杂,并引入了元数据一致性的问题。
另外,还有一种无元数据服务器的分布式架构,通过在线算法组织数据,不需要专用的元数据服务器。但是该架构对数据一致性的保障很困难.实现较为复杂。文件目录遍历操作效率低下,并且缺乏文件系统全局监控管理功能。
因此,亟需构建高效合理的文件的分布式存储方法。
发明内容
本公开提供了一种文件的分布式存储方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种文件的分布式存储方法。该方法包括:
采集多个节点的存储信息;
构建所述存储信息与对应节点的映射关系;
根据所述存储信息和所述映射关系,进行文件的写入和/或读取。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述存储信息包括对应节点的当前剩余存储空间大小和inode信息;
根据所述存储信息和所述映射关系,进行文件的写入,包括:
接收待存储文件;
将所述待存储文件的文件大小与最大的当前剩余存储空间大小进行比较;
若所述文件大小小于等于最大的当前剩余存储空间大小,则将所述待存储文件写入最大的剩余存储空间大小对应的节点;
若所述文件大小大于最大的剩余存储空间大小,则根据所述当前剩余存储空间大小和所述inode信息,确定所述待存储文件的切分策略;
根据所述切分策略将所述待存储文件进行切分并写入对应的节点。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述inode信息包括inode总数目和当前inode数目;
所述根据所述当前剩余存储空间大小和所述inode信息,确定所述待存储文件的切分策略,包括:
根据所述当前剩余存储空间大小和所述文件大小,确定多个第一存储节点;
分别计算所述第一存储节点的当前inode数目与inode总数目之间的比值;
若所述比值大于等于预设阈值,则将对应的第一存储节点作为所述待存储文件的第一节点,并将所述第一节点的剩余存储空间大小作为对所述待存储文件的第一切分大小;
根据所述第一存储节点中除第一节点之外的节点的剩余存储空间大小,以及剩余待存储文件的大小,确定待存储文件的第二切分大小;
将所述第一切分大小和所述第二切分大小作为切分策略;
其中,所述剩余待存储文件的大小为所述文件大小与所述第一切分大小的差值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述当前剩余存储空间大小和所述文件大小,确定多个第一存储节点,包括:
将所述当前剩余存储空间大小进行随机组合,并求和;
将求得的和大于等于所述文件大小的任一组合对应的节点,作为第一存储节点。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述第一存储节点中除第一节点之外的节点的剩余存储空间大小,以及剩余待存储文件的大小,确定待存储文件的第二切分大小,包括:
将所述第一存储节点中除第一节点之外的节点确定为第二存储节点;
在小于等于所述第二存储节点的当前剩余存储空间大小范围内分别进行随机取值,并求和;
将求得的和等于所述剩余待存储文件的大小的任一组随机数值作为第二切分大小。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述切分策略将所述待存储文件进行切分并写入对应的节点,包括:
根据所述第一切分大小和所述第二切分大小,对所述待存储文件进行切分,得到多个分段文件;
将所述分段文件写入对应的节点;并更新所述映射关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述存储信息和所述映射关系,进行文件的读取,包括:
接收文件读取命令;所述文件读取命令包括待读取文件;
根据所述待读取文件,确定对应的映射关系,并进一步确定对应的节点及inode信息;
根据确定的inode信息从对应的节点读取文件。
根据本公开的第二方面,提供了一种文件的分布式存储装置。该装置包括:
信息采集模块,用于采集多个节点的存储信息;
映射关系构建模块,用于构建所述存储信息与对应节点的映射关系;
文件存储模块,用于根据所述存储信息和所述映射关系,进行文件的写入和/或读取。
根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面所述的方法。
本公开的实施例提供的文件的分布式存储方法、装置、设备以及存储介质,通过构建各个节点的存储信息与对应节点的映射关系来进行文件的写入和/或读取,对单机分区存储不下的文件自动进行分割和合并,实现超大文件存储,大大提升了各个磁盘的利用率。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本公开的实施例的文件的分布式存储方法的流程图;
图2示出了根据本公开的实施例的文件的写入的流程图;
图3示出了根据本公开的实施例的待存储文件的切分策略流程图;
图4示出了根据本公开的实施例的文件的分布式存储装置的框图;
图5示出了能够实施本公开的实施例的示例性电子设备的方框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本公开中,主服务器通过构建各个节点的存储信息与对应节点的映射关系,来实现把多个单机上的文件系统动态合并成一个巨大的存储空间,实现超大文件存储,并大大提升各个磁盘的利用率。
图1示出了根据本公开实施例的文件的分布式存储方法100的流程图。方法100包括:
步骤110,采集多个节点的存储信息。
在一些实施例中,所述节点为分布式节点,所述存储信息包括对应节点的当前剩余存储空间大小和inode信息。所述inode信息包括inode总数目和当前inode数目。具体地,可以通过远程命令的方式采集各个节点上的磁盘分区和inode信息。其中,各个节点上的磁盘分区信息中包含有当前剩余存储空间大小这一信息。其中,inode,又称索引节点,文件存储在硬盘上,硬盘最小单位为扇区,每个扇区大小为512字节,系统提高硬盘读取效率是一次连续读取多个扇区,而多个扇区整合一个块(block),块就是文件存取最小单位,一个块大小4k,而文件属性、创建时间、权限、所占块大小、数量等这些信息即为inode信息。
在一些实施例中,inode中信息包括:文件类型、权限、UID(文件所有者的User ID,即用户标识或用户身份识别码)、GID(文件的Group ID,即文件的唯一标识码)、链接数、文件大小和不同的时间戳、指向磁盘上文件的数据块指针等有关文件的数据·
步骤120,构建所述存储信息与对应节点的映射关系。
在一些实施例中,构建通过步骤110获得的存储信息与对应节点之间的映射关系,以hashmap哈希映射数据结构形式保存到主服务器的内存中。
步骤130,根据所述存储信息和所述映射关系,进行文件的写入和/或读取。
在一些实施例中,如图2所示的文件的写入的流程图,包括以下步骤:
步骤210,接收待存储文件。
在一些实施例中,接收需要存储的文件,并从中提取出待存储文件的文件大小。
步骤220,将所述待存储文件的文件大小与最大的当前剩余存储空间大小进行比较。
在一些实施例中,需要将通过步骤210得到的待存储文件的文件大小和当前剩余存储空间大小中的最大值进行比较,确定是否存在某个节点就能直接存储。
步骤230,若所述文件大小小于等于最大的当前剩余存储空间大小,则将所述待存储文件写入最大的剩余存储空间大小对应的节点。
在一些实施例中,如果待存储文件的文件大小小于等于当前剩余存储空间大小中的最大值,则说明存在某个节点可以直接存储该文件,那么直接将待存储文件存储至满足这一条件的任一节点中。
步骤240,若所述文件大小大于最大的剩余存储空间大小,则根据所述当前剩余存储空间大小和所述inode信息,确定所述待存储文件的切分策略。
在一些实施例中,如果待存储文件的文件大小大于当前剩余存储空间大小中的最大值,说明不存在某个节点可以直接存储该文件,文件超大,需要对待存储文件进行切分。
在一些实施例中,如图3所示的待存储文件的切分策略流程图,具体包括以下步骤:
步骤310,根据当前剩余存储空间大小和文件大小,确定多个第一存储节点。
在一些实施例中,步骤310具体包括:将所述当前剩余存储空间大小进行随机组合,并求和;将求得的和大于等于所述文件大小的任一组合对应的节点,作为第一存储节点。例如,待存储文件的文件大小为100GB,按当前剩余存储空间大小进行随机组合,即只要当前剩余存储空间大小的和加起来大于等于100GB即可,随机组合出来的满足这一条件的情况,比如:组合一-节点a(当前剩余存储空间大小为50GB)+节点b(当前剩余存储空间大小为30GB)+节点c(当前剩余存储空间大小为20GB);组合二-节点d(当前剩余存储空间大小为70GB)+节点e(当前剩余存储空间大小为40GB)等等。那么随机选择一组作为第一存储节点,例如,选择组合一。
步骤320,分别计算所述第一存储节点的当前inode数目与inode总数目之间的比值。
在一些实施例中,假设选择组合一作为第一存储节点,那么需要分别计算节点a、节点b和节点c的每个节点的当前inode数目与该节点的inode总数目之间的比值x。
步骤330,若所述比值大于等于预设阈值,则将对应的第一存储节点作为所述待存储文件的第一节点,并将所述第一节点的剩余存储空间大小作为对所述待存储文件的第一切分大小。
在一些实施例中,如果通过步骤320计算得到的每个节点的比值x中,有其中一个比值大于等于预设阈值(例如95%),也就是在该节点中,其当前inode数目已接近饱和,那么优先选择这一节点作为第一节点,例如,节点b,那么将节点b的剩余存储空间大小30GB作为第一切分大小。以便于在考虑当前剩余存储空间大小的同时,还能考虑当前inode数目是否已接近饱和这一情况,并确定优先级,以实现磁盘空间的有效利用,提高利用率。避免例如剩余inode数目只剩下一条的情况下,去写入一个远小于该节点当前剩余存储空间的文件,势必会导致该节点存储资源的浪费。
在一些实施例中,如果通过步骤320计算得到的每个节点的比值x中,不存在任一比值大于等于预设阈值的情况,那么便将这一组合中各个节点所对应的当前剩余存储空间大小,以及所述文件大小,确定切分大小。例如,上述的组合一中,直接将50GB、30GB和20GB直接作为待存储文件的切分大小进行切分。当然如果是选中的第一存储节点的当前剩余存储空间大小是大于待存储文件的文件大小的,那么就进行任意数值的切分,只需要确保切分之后加起来的大小能够等于待存储文件的文件大小且不超过自身节点的当前剩余存储空间大小即可。例如上述组合二,可以的随机切分策略可以是:65GB+35GB、70GB+30GB、68GB+32GB等等。
步骤340,根据所述第一存储节点中除第一节点之外的节点的剩余存储空间大小,以及剩余待存储文件的大小,确定待存储文件的第二切分大小。
在一些实施例中,步骤340,具体包括:将所述第一存储节点中除第一节点之外的节点确定为第二存储节点;在小于等于所述第二存储节点的当前剩余存储空间大小范围内分别进行随机取值,并求和;将求得的和等于所述剩余待存储文件的大小的任一组随机数值作为第二切分大小。
在一些实施例中,例如上述组合一,选择了节点b的剩余存储空间大小30GB作为第一切分大小,那么切分之后的待存储文件还剩余70GB,在剩下的节点a和节点c的当前剩余存储空间大小范围内分别进行随机取值后求和,将求得的和等于剩余待存储文件的大小的任一组随机数值作为第二切分大小。在此处,由于上述举例的限制,剩下的节点a和节点c的当前剩余存储空间大小恰好满足存储待存储文件,当然,在实际实践操作中,会有各种的情况,只需要按照上述设定的规则进行选取即可,不受上述举例的限制。
步骤350,将所述第一切分大小和所述第二切分大小作为切分策略。
其中,所述剩余待存储文件的大小为所述文件大小与所述第一切分大小的差值。
在一些实施例中,按照上述步骤确定出来的第一切分大小和第二切分大小去待存储文件作为切分策略。
以此,可以实现空闲磁盘分区的集成组合使用,提高了对物理磁盘的使用率、灵活性,有效的节省硬件的成本投入。
步骤250,根据所述切分策略将所述待存储文件进行切分并写入对应的节点。
在一些实施例中,根据确定出来的切分策略对待存储文件进行切分并写入到对应的节点中进行存储。
在一些实施例中,为便于后续读取到的切分文件进行合并,还可以对切分文件按照切分顺序进行编号,后续根据编号进行文件的合并。
那么,通过监控整个存储集群的节点,对所有的节点和分区的资源使用率进行实时监控,作为文件分发的依据,在满足能够将待存储文件完全写入的同时,还可以提高各节点的磁盘空间利用率。
基于上述实施方式,在本公开提供的又一实施方式的所述文件的读取包括:接收文件读取命令;所述文件读取命令包括待读取文件;根据所述待读取文件,确定对应的映射关系,并进一步确定对应的节点及inode信息;根据确定的inode信息从对应的节点读取文件。
在一些实施例中,接收文件读取命令,根据文件读取命令中的待读取文件的文件名确定对应的映射关系,也可以是在存储时对文件根据文件名生成对应的id,作为寻找映射关系的唯一标识。然后从映射关系中找到待读取文件所在的节点,以及节点的inode信息,最后根据inode信息,找到文件数据所在的block存储块,读出数据。以此,可以自动把某个文件拷贝到不同节点,提高文件副本跨节点的高可用性。
基于上述实施方式,在本公开提供的又一实施方式的所述方法,还包括:存储的节点出现死机可能导致该节点存储的文件丢失的情况下,该节点将存储的文件发送至主服务器,由主服务器安排该文件存储至其他节点,存储规则参照上文实施例内容,在此不再赘述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图4示出了根据本公开的实施例的文件的分布式存储装置400的方框图。如图4所示,装置400包括:
信息采集模块410,用于采集多个节点的存储信息;
映射关系构建模块420,用于构建所述存储信息与对应节点的映射关系;
文件存储模块430,用于根据所述存储信息和所述映射关系,进行文件的写入和/或读取。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质。
图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
电子设备500包括计算单元501,其可以根据存储在ROM502中的计算机程序或者从存储单元508加载到RAM503中的计算机程序,来执行各种适当的动作和处理。在RAM503中,还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM503通过总线504彼此相连。I/O接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如文件的分布式存储方法。例如,在一些实施例中,文件的分布式存储方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM503并由计算单元501执行时,可以执行上文描述的文件的分布式存储方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文件的分布式存储方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种文件的分布式存储方法,其特征在于,包括:
采集多个节点的存储信息;
构建所述存储信息与对应节点的映射关系;
根据所述存储信息和所述映射关系,进行文件的写入和/或读取。
2.根据权利要求1所述的方法,其特征在于,
所述存储信息包括对应节点的当前剩余存储空间大小和inode信息;
根据所述存储信息和所述映射关系,进行文件的写入,包括:
接收待存储文件;
将所述待存储文件的文件大小与最大的当前剩余存储空间大小进行比较;
若所述文件大小小于等于最大的当前剩余存储空间大小,则将所述待存储文件写入最大的剩余存储空间大小对应的节点;
若所述文件大小大于最大的剩余存储空间大小,则根据所述当前剩余存储空间大小和所述inode信息,确定所述待存储文件的切分策略;
根据所述切分策略将所述待存储文件进行切分并写入对应的节点。
3.根据权利要求2所述的方法,其特征在于,
所述inode信息包括inode总数目和当前inode数目;
所述根据所述当前剩余存储空间大小和所述inode信息,确定所述待存储文件的切分策略,包括:
根据所述当前剩余存储空间大小和所述文件大小,确定多个第一存储节点;
分别计算所述第一存储节点的当前inode数目与inode总数目之间的比值;
若所述比值大于等于预设阈值,则将对应的第一存储节点作为所述待存储文件的第一节点,并将所述第一节点的剩余存储空间大小作为对所述待存储文件的第一切分大小;
根据所述第一存储节点中除第一节点之外的节点的剩余存储空间大小,以及剩余待存储文件的大小,确定待存储文件的第二切分大小;
将所述第一切分大小和所述第二切分大小作为切分策略;
其中,所述剩余待存储文件的大小为所述文件大小与所述第一切分大小的差值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述当前剩余存储空间大小和所述文件大小,确定多个第一存储节点,包括:
将所述当前剩余存储空间大小进行随机组合,并求和;
将求得的和大于等于所述文件大小的任一组合对应的节点,作为第一存储节点。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一存储节点中除第一节点之外的节点的剩余存储空间大小,以及剩余待存储文件的大小,确定待存储文件的第二切分大小,包括:
将所述第一存储节点中除第一节点之外的节点确定为第二存储节点;
在小于等于所述第二存储节点的当前剩余存储空间大小范围内分别进行随机取值,并求和;
将求得的和等于所述剩余待存储文件的大小的任一组随机数值作为第二切分大小。
6.根据权利要求3所述的方法,其特征在于,
所述根据所述切分策略将所述待存储文件进行切分并写入对应的节点,包括:
根据所述第一切分大小和所述第二切分大小,对所述待存储文件进行切分,得到多个分段文件;
将所述分段文件写入对应的节点;并更新所述映射关系。
7.根据权利要求1所述的方法,其特征在于,根据所述存储信息和所述映射关系,进行文件的读取,包括:
接收文件读取命令;所述文件读取命令包括待读取文件;
根据所述待读取文件,确定对应的映射关系,并进一步确定对应的节点及inode信息;
根据确定的inode信息从对应的节点读取文件。
8.一种文件的分布式存储装置,其特征在于,包括:
信息采集模块,用于采集多个节点的存储信息;
映射关系构建模块,用于构建所述存储信息与对应节点的映射关系;
文件存储模块,用于根据所述存储信息和所述映射关系,进行文件的写入和/或读取。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一权利要求所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一权利要求所述的方法。
CN202410043936.6A 2024-01-11 2024-01-11 文件的分布式存储方法、装置、设备以及存储介质 Pending CN117762348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410043936.6A CN117762348A (zh) 2024-01-11 2024-01-11 文件的分布式存储方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410043936.6A CN117762348A (zh) 2024-01-11 2024-01-11 文件的分布式存储方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN117762348A true CN117762348A (zh) 2024-03-26

Family

ID=90322195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410043936.6A Pending CN117762348A (zh) 2024-01-11 2024-01-11 文件的分布式存储方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN117762348A (zh)

Similar Documents

Publication Publication Date Title
US11841864B2 (en) Method, device, and program product for managing index of streaming data storage system
CN112148693A (zh) 一种数据处理方法、装置及存储介质
CN112269661B (zh) 基于Kafka集群的分区迁移方法和装置
CN116755939B (zh) 一种基于系统资源的智能化数据备份任务规划方法及系统
CN111523004B (zh) 一种边缘计算网关数据的存储方法及系统
AU2017288044B2 (en) Method and system for flexible, high performance structured data processing
CN113868434A (zh) 图数据库的数据处理方法、设备和存储介质
CN105635285A (zh) 一种基于状态感知的vm迁移调度方法
WO2021082928A1 (zh) 数据缩减的方法、装置、计算设备和存储介质
CN113761293A (zh) 图数据强连通分量挖掘方法、装置、设备及存储介质
CN113449052A (zh) 空间索引的建立方法、空间区域查询方法及装置
CN117762348A (zh) 文件的分布式存储方法、装置、设备以及存储介质
CN115438007A (zh) 一种文件合并方法、装置、电子设备及介质
CN113778645A (zh) 基于边缘计算的任务调度方法、装置、设备及存储介质
CN112115123A (zh) 用于分布式数据库的性能优化的方法和装置
CN113641670B (zh) 数据存储及数据检索方法、装置、电子设备及存储介质
CN113448957A (zh) 一种数据查询方法和装置
KR101772955B1 (ko) 맵리듀스 기반의 분산 처리 시스템에서 인덱스를 이용하여 레코드를 처리하는 방법
CN111782588A (zh) 一种文件读取方法、装置、设备和介质
Zhang et al. Intelligent big data service for meteorological cloud platform
CN117520461B (zh) 逻辑分片的分发方法、装置、设备和介质
CN115065685B (zh) 云计算资源调度方法、装置、设备及介质
CN117056133B (zh) 一种基于分布式物联网架构的数据备份方法、装置及介质
CN117633116A (zh) 数据同步方法、装置、电子设备及存储介质
CN113946702A (zh) 图像特征的存储方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination