CN110413589A

CN110413589A - 基于星际文件系统的信息管理方法及平台

Info

Publication number: CN110413589A
Application number: CN201910696327.XA
Authority: CN
Inventors: 邢雨桐; 李晖
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-11-05

Abstract

本发明提供一种基于星际文件系统的信息管理方法及平台，该方法包括：逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同；若相同，则建立所述数据与所述数据块的寻址关系；若不同，则将所述数据独立建块，形成新数据块；在所述待存文件的所有数据判断完成后，将所述新数据块和/或所述寻址关系存入所述IPFS系统中形成新文件，并将所述新文件以及与其有寻址关系的已存文件建立关联关系。通过本发明，提升IPFS系统中节点的存储空间利用率。

Description

基于星际文件系统的信息管理方法及平台

技术领域

本发明涉及信息管理技术领域，具体地，涉及一种基于星际文件系统的信息管理方法及平台。

背景技术

星际文件系统(InterPlanetary File System，以下简称IPFS)是一种点对点的分布式文件系统，用于存储和访问文件、网站、应用和数据。IPFS旨在连接所有的运行IPFS软件的计算机设备。IPFS结合了分布式哈希表技术、带激励机制的数据块交换和基于默克尔树的文件存储技术，从而打造了一个没有单点故障的互联网文件存储系统。

在IPFS中，文件对象首先会根据IPFS协议的初始化定义被切分成多个数据块，IPFS现有初始化定义一个数据块是最大是256kb，则一个1290k的文件A根据定义会被切分为5个数据块，前4个数据块每个都是256kb，最后1个是10kb。然后计算出每个数据块的HASH值，同时这5个数据块的hash值代表着这个文件的hash值，如图1所示，IPFS系统查看这个文件A的时候可以用两种方法：1)直接调用文件的hash值；2)连续调用5个数据块的hash值。

用户修改文件A’中的部分内容生成新的文件B’，当用户把文件B’存储在IPFS系统时，会出现I)与II)以下两种情况：

I)用户修改或新增了文件B’的最后部分的内容；

II)用户修改或新增了文件B’的非最后部分的内容。

针对情况I)，用户修改了或新增了文件B’最后部分的内容，此时文件B’在进入IPFS系统时由于前面的数据没有变化，所以按照数据块切分时前面第1、第2、第3、第4数据块跟文件A’实际是一模一样的(经过hash值对比)，因此这四块数据可以不用存储，直接引用文件A’的前四个数据块。对于修改或新增内容的第5个数据块，其hash必定跟之前文件A’的不一致，因此需要将其存储到IPFS节点中，并为文件B’建立一个新的hash值，如图2所示。

针对情况II)，用户修改或新增了文件B’的非最后部分的内容，此时文件B’在进入IPFS系统时，根据用户的修改或新增内容的位置，重新切分数据块，例如，用户可能修改或新增了最开始部分的数据，则因为原来第1块数据增加了导致第1块和后续所有的数据块都要重新切块，重新切块后文件B’的所有数据块将和文件A’完全不一致，导致文件B’的数据在所有相关节点中出现冗余。占用了节点的存储空间，同时文件B’和文件A’失去了本应存在的物理关联关系。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提出了一种基于星际文件系统的信息管理方法及平台，以提升星际文件系统中节点的存储空间利用率。

为实现本发明的目的而提供一种基于星际文件系统的信息管理方法，所述方法包括：

逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同；

若相同，则建立所述数据与所述数据块的寻址关系；若不同，则将所述数据独立建块，形成新数据块；

在所述待存文件的所有数据判断完成后，将所述新数据块和/或所述寻址关系存入所述IPFS系统中形成新文件，并将所述新文件以及与其有寻址关系的已存文件建立关联关系。

优选地，在所述逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同的步骤之前，所述方法还包括：

将所述待存文件逐个与IPFS系统中已存文件进行参数相似度匹配，以判断所述待存文件与所述已存文件是否匹配；

若匹配，继续逐个判断待存文件中每组数据是否与所述待存文件匹配的已存文件的数据块相同；

若不配，则将所述待存文件存入所述IPFS系统中。

优选地，所述将所述待存文件逐个与IPFS系统中已存文件进行参数相似度匹配，以判断所述待存文件与所述已存文件是否匹配，具体包括：

判断所述待存文件与所述已存文件的占用空间是否相同；若是，判断所述待存文件与所述已存文件的格式是否一致；

若所述待存文件与所述已存文件的格式不一致，确定所述待存文件与所述已存文件不匹配；若所述待存文件与所述已存文件的格式一致，则所述待存文件与所述已存文件匹配。

优选地，在所述待存文件与所述已存文件的格式一致的步骤之后，以及所述逐个检测所述待存文件的数据与当前满足匹配条件的已存文件的数据块是否相同的步骤之前，还包括：

计算所述待存文件的数据与所述已存文件的数据块的相似度，由所述相似度判断所述待存文件与所述已存文件是否完全匹配或部分匹配，在所述待存文件与所述已存文件完全匹配或部分匹配时，逐个判断待存文件中每组数据是否与所述待存文件匹配的已存文件的数据块相同。

优选地，所述由所述相似度确定所述待存文件与所述已存文件完全匹配或部分匹配，具体包括：

当所述相似度为100％时，所述相似度匹配结果为完全匹配；

当所述相似度大于预设阈值时，所述相似度匹配结果为部分匹配。

优选地，在所述判断所述待存文件与所述已存文件的占用空间是否相同；若是，判断所述待存文件与所述已存文件的格式是否一致；的步骤之前，还包括：

判断所述待存文件的占用空间是否小于所述IPFS系统中预定数据空间；若是，确定所述待存文件与所述已存文件不匹配。

优选地，在所述待存文件的所有数据判断完成后，将所述新数据块和/或所述寻址关系存入所述IPFS系统中形成新文件，并将所述新文件以及与其有寻址关系的已存文件建立关联关系的步骤之后，还包括：

计算所述新数据块的第一哈希值；

由所述第一哈希值与所述寻址关系计算所述新文件的第二哈希值；

判断所述第二哈希值与所述IPFS系统生成的所述新文件的哈希值是否相同；若是，确定所述新文件形成正确。

一种基于星际文件系统的信息管理平台，包括：

分址模块以及生成模块；

所述分址模块用于逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同；若相同，则建立所述数据与所述数据块的寻址关系；若不同，则将所述数据独立建块，形成新数据块；

所述生成模块用于在所述待存文件的所有数据判断完成后，将所述新数据块和/或所述寻址关系存入所述IPFS系统中形成新文件，并将所述新文件以及与其有寻址关系的已存文件建立关联关系。

优选地，还包括：匹配模块；

所述匹配模块用于将所述待存文件逐个与IPFS系统中已存文件进行参数相似度匹配，以判断所述待存文件与所述已存文件是否匹配；若匹配，继续逐个判断待存文件中每组数据是否与所述待存文件匹配的已存文件的数据块相同；若不配，则将所述待存文件存入所述IPFS系统中。

优选地，所述匹配模块包括：第一判断模块，第二判断模块以及分析模块；

所述第一判断模块用于判断所述待存文件与所述已存文件的占用空间是否相同，并将判断结果发送给所述第二判断模块；

所述第二判断模块用于在所述待存文件与所述已存文件的占用空间相同时，判断所述待存文件与所述已存文件的格式是否一致，并将判断结果发送给所述分析模块；

所述分析模块用于在所述待存文件与所述已存文件的格式不一致，确定所述待存文件与所述已存文件不匹配；在所述待存文件与所述已存文件的格式一致时，确定所述待存文件与所述已存文件匹配。

本发明具有以下有益效果：

本发明提供的基于星际文件系统的信息管理方法及平台，逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同；若相同，则建立数据与数据块的寻址关系；若不同，则将数据独立建块，形成新数据块；在待存文件的所有数据判断完成后，将新数据块和/或寻址关系存入IPFS系统中形成新文件，并将新文件以及与其有寻址关系的已存文件建立关联关系。通过本发明，可以使IPFS系统中两个近似文件可以更多的共用相同的数据块，提升IPFS系统中节点的存储空间利用率，并为近似文件提供关联关系，提高了整个IPFS系统中所有节点的传输效率。

附图说明

图1为现有IPFS系统中文件A’的数据块分布图；

图2为现有IPFS系统中文件B’的数据块分布图；

图3为本发明实施例提供的基于星际文件系统的信息管理方法的第一种流程图；

图4为本发明实施例提供的基于星际文件系统的信息管理方法的第二种流程图；

图5为本发明实施例中将待存文件逐个与IPFS系统中已存文件进行参数相似度匹配，以判断待存文件与已存文件是否匹配的一种流程图；

图6为本发明实施例提供的基于星际文件系统的信息管理方法的第三种流程图；

图7为本发明实施例提供的基于星际文件系统的信息管理平台的一种结构示意图；

图8为本发明实施例提供的基于星际文件系统的信息管理平台的另一种结构示意图；

图9为已存文件B的数据块分布图；

图10为待存文件A的数据块分布图；

图11为新文件的数据块分布图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图来对本发明提供的基于星际文件系统的信息管理方法及平台进行详细描述。

实施例一

如图3所示为本发明实施例提供的基于星际文件系统的信息管理方法的第一种流程图，本实施例中基于星际文件系统的信息管理方法包括以下步骤：

步骤101：逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同；若是，执行步骤102；否则，执行步骤103。

步骤102：建立数据与数据块的寻址关系，执行步骤104。

步骤103：将数据独立建块，形成新数据块，执行步骤104。

步骤104：在待存文件的所有数据判断完成后，将新数据块和/或寻址关系存入IPFS系统中形成新文件，并将新文件以及与其有寻址关系的已存文件建立关联关系。

本发明实施例提供的基于星际文件系统的信息管理方法，逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同；若相同，则建立数据与数据块的寻址关系；若不同，则将数据独立建块，形成新数据块；在待存文件的所有数据判断完成后，将新数据块和/或寻址关系存入IPFS系统中形成新文件，并将新文件以及与其有寻址关系的已存文件建立关联关系。通过本发明，可以使IPFS系统中两个近似文件可以更多的共用相同的数据块，提升IPFS系统中节点的存储空间利用率，并为近似文件提供关联关系，提高了整个IPFS系统中所有节点的传输效率。

实施例二

如图4所示为本发明实施例提供的基于星际文件系统的信息管理方法的第二种流程图，本实施例中基于星际文件系统的信息管理方法包括以下步骤：

步骤200：将待存文件逐个与IPFS系统中已存文件进行参数相似度匹配，以判断待存文件与已存文件是否匹配；若是，执行步骤201；否则，执行步骤206。

步骤201：逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同；若是，执行步骤202；否则，执行步骤203。

步骤202：建立数据与数据块的寻址关系，执行步骤204。

步骤203：将数据独立建块，形成新数据块，执行步骤204。

步骤204：在待存文件的所有数据判断完成后，将新数据块和/或寻址关系存入IPFS系统中形成新文件，并将新文件以及与其有寻址关系的已存文件建立关联关系。

步骤205：结束。

步骤206：将待存文件存入IPFS系统中。

本发明实施例提供的基于星际文件系统的信息管理方法，在逐个判断待存文件每组数据与已存文件的数据块是否相同之前，首先判断待存文件与已存文件是否匹配，不匹配时直接在IPFS系统中存入待存文件，从而提升了待存文件每组数据与已存文件的数据块之间比对的效率，节省了判断流程。

具体地，本发明一个实施例中，如图5所示，步骤200具体还包括以下分步：

步骤2001：判断待存文件与已存文件的占用空间是否相同；若是，执行步骤2002；若否，执行步骤201。

步骤2002：判断待存文件与已存文件的格式是否一致；若是，执行步骤2003；若否，执行步骤2004。

步骤2003：待存文件与已存文件匹配，执行步骤201。

步骤2004：确定待存文件与已存文件不匹配，执行步骤206。

本发明实施例提供的待存文件与已存文件匹配判断过程，包括占用空间是否相同以及格式是否一致，当占用空间与格式均一致时，确定待存文件与已存文件相匹配，本实施例过程简单，容易实现。

进一步，本发明另一个实施例中，步骤200具体包括以下分步：

步骤S1：判断待存文件与已存文件的占用空间是否相同；若是，执行步骤S2；若否，执行步骤201。

步骤S2：判断待存文件与已存文件的格式是否一致；若是，执行步骤S3；若否，执行步骤S6。

步骤S3：待存文件与已存文件匹配，执行步骤S4。

步骤S4：计算待存文件的数据与已存文件的数据块的相似度。

步骤S5：由相似度判断待存文件与已存文件是否完全匹配或部分匹配；若是，执行步骤201；若否，执行步骤S6。

具体地，由相似度判断待存文件与已存文件是否完全匹配或部分匹配包括：

当相似度为100％时，相似度匹配结果为完全匹配。

当相似度大于预设阈值时，相似度匹配结果为部分匹配。

进一步，预设阈值可以根据IPFS系统确定，比如，预设阈值为80％。

步骤S6：确定待存文件与已存文件不匹配，执行步骤206。

本实施例提供的待存文件与已存文件匹配判断过程，还包括：待存文件的数据与已存文件的数据库之间相似度判断过程，通过该判断保证了之后逐个判断待存文件中每组数据与已存文件的数据块是否相同的有效性。

步骤T0：判断待存文件的占用空间是否小于IPFS系统中预定数据空间；若是，执行步骤T6；若否，执行步骤T1。

具体地，预定数据空间可以为IPFS系统中定义的一个数据块是最大值，比如，预定数据空间为256kb。

步骤T1：判断待存文件与已存文件的占用空间是否相同；若是，执行步骤T2；若否，执行步骤201。

步骤T2：判断待存文件与已存文件的格式是否一致；若是，执行步骤T3；若否，执行步骤T6。

步骤T3：待存文件与已存文件匹配，执行步骤T4。

步骤T4：计算待存文件的数据与已存文件的数据块的相似度。

步骤T5：由相似度判断待存文件与已存文件是否完全匹配或部分匹配；若是，执行步骤201；若否，执行步骤T6。

步骤T6：确定待存文件与已存文件不匹配，执行步骤206。

本实施例提供的待存文件与已存文件匹配判断过程，还包括：待存文件的占用空间是否小于IPFS系统中预定数据空间的判断过程，通过该判断保证了之后逐个判断待存文件中每组数据与已存文件的数据块是否相同的有效性。

实施例三

如图6所示为本发明实施例提供的基于星际文件系统的信息管理方法的第三种流程图，本实施例中基于星际文件系统的信息管理方法包括以下步骤：

步骤300：将待存文件逐个与IPFS系统中已存文件进行参数相似度匹配，以判断待存文件与已存文件是否匹配；若是，执行步骤301；否则，执行步骤311。

步骤301：逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同；若是，执行步骤302；否则，执行步骤303。

步骤302：建立数据与数据块的寻址关系，执行步骤304。

步骤303：将数据独立建块，形成新数据块，执行步骤304。

步骤304：在待存文件的所有数据判断完成后，将新数据块和/或寻址关系存入IPFS系统中形成新文件，并将新文件以及与其有寻址关系的已存文件建立关联关系。

步骤305：计算新数据块的第一哈希值。

步骤306：由第一哈希值与寻址关系计算新文件的第二哈希值。

步骤307：判断第二哈希值与IPFS系统生成的新文件的哈希值是否相同；若是，执行步骤308；否则，执行步骤310。

步骤308：新文件形成正确。

步骤309：结束。

步骤310：新文件形成不正确。

步骤311：将待存文件存入IPFS系统中，执行步骤308。

本发明实施例提供的基于星际文件系统的信息管理方法，在形成新文件之后，计算新数据块的第一哈希值，由第一哈希值与寻址关系计算新文件的第二哈希值，将第二哈希值与IPFS系统生成的新文件的哈希值进行比较可以确定新文件是否形成正确。

实施例四

针对上述基于星际文件系统的信息管理方法，本发明还提供了一种基于星际文件系统的信息管理平台，如图7所示，包括：分址模块以及生成模块。

分址模块用于逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同；若相同，则建立数据与数据块的寻址关系；若不同，则将数据独立建块，形成新数据块；

生成模块用于在待存文件的所有数据判断完成后，将新数据块和/或寻址关系存入IPFS系统中形成新文件，并将新文件以及与其有寻址关系的已存文件建立关联关系。

本发明实施例提供的基于星际文件系统的信息管理平台，通过分址生成寻址关系或/和新数据块，通过生成模块形成新文件，并将新文件与其有寻址关系的已存文件建立关联关系。通过本发明，可以使IPFS系统中两个近似文件可以更多的共用相同的数据块，提升IPFS系统中节点的存储空间利用率，并为近似文件提供关联关系，提高了整个IPFS系统中所有节点的传输效率。

进一步，本发明另一个实施例中，如图8所示，还包括：匹配模块。

匹配模块用于将待存文件逐个与IPFS系统中已存文件进行参数相似度匹配，以判断待存文件与已存文件是否匹配；若匹配，继续逐个判断待存文件中每组数据是否与待存文件匹配的已存文件的数据块相同；若不配，则将待存文件存入IPFS系统中。

具体地，匹配模块包括：第一判断模块，第二判断模块以及分析模块；

第一判断模块用于判断待存文件与已存文件的占用空间是否相同，并将判断结果发送给第二判断模块；

第二判断模块用于在待存文件与已存文件的占用空间相同时，判断待存文件与已存文件的格式是否一致，并将判断结果发送给分析模块；

分析模块用于在待存文件与已存文件的格式不一致，确定待存文件与已存文件不匹配；在待存文件与已存文件的格式一致时，确定待存文件与已存文件匹配。

为了便于了解本发明的技术内容，我们假设IPFS系统已存文件B的内容是“Youknow some birds are not meant to be caged,their feathers are just toobright.Hope is a good thing and no good thing ever dies.”其在IPFS系统中已被分为5个数据块，参见图9所示。

待存文件A的内容是“hello world.You know some birds are not meant to becaged,their feathers are just too bright.Hope is a good thing and maybe thebest of things,and no good thing ever dies.”经过待存文件A与已存文件B对比，已知”hello world.”和“and maybe the best of things，“是两个文件的数据差异，分址模块将其独立建块，形成两个新数据块，并计算得到该两个新数据块的hash值：hashA1和hashA2，同时还可以计算出待存文件A的hash值hashA。至此待存文件A就被切分成图10所示的数据块。

进一步，生成模块将待存文件A的第1块和第5块写入IPFS系统中，剩下的5个数据块和IPFS系统中已存文件B相同，因此无需重复写入，只需将其寻址关系记录到IPFS系统中，如图11所示，写入完毕后将IPFS系统自动生成的待存文件A的hash值与上述计算生成的hashA进行对比，对比一致则说明数据块和寻址关系写入正确，即形成新文件正确。

本发明提供基于星际文件系统的信息管理方法及平台，具有一下特点：

1、在待存文件存储到IPFS系统之前，先将其与IPFS系统中已存文件进行相似度匹配。

2、根据匹配结果，将完全相同的数据指向IPFS系统中已存文件的数据块地址，将不同的数据单独切成独立的数据块，即新数据块。

3、将新数据块写入到IPFS系统中，同时为新的文件对象与相似的对象建立关联关系。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于星际文件系统的信息管理方法，其特征在于，所述方法包括：

2.根据权利要求书1所述的基于星际文件系统的信息管理方法，其特征在于，在所述逐个判断待存文件中每组数据是否与IPFS系统中已存文件的数据块相同的步骤之前，所述方法还包括：

若不配，则将所述待存文件存入所述IPFS系统中。

3.根据权利要求2所述的基于星际文件系统的信息管理方法，其特征在于，所述将所述待存文件逐个与IPFS系统中已存文件进行参数相似度匹配，以判断所述待存文件与所述已存文件是否匹配，具体包括：

4.根据权利要求3所述的基于星际文件系统的信息管理方法，其特征在于，在所述待存文件与所述已存文件的格式一致的步骤之后，以及所述逐个检测所述待存文件的数据与当前满足匹配条件的已存文件的数据块是否相同的步骤之前，还包括：

5.根据权利要求4所述的基于星际文件系统的信息管理方法，其特征在于，所述由所述相似度确定所述待存文件与所述已存文件完全匹配或部分匹配，具体包括：

当所述相似度为100％时，所述相似度匹配结果为完全匹配；

6.根据权利要求3所述的基于星际文件系统的信息管理方法，其特征在于，在所述判断所述待存文件与所述已存文件的占用空间是否相同；若是，判断所述待存文件与所述已存文件的格式是否一致；的步骤之前，还包括：

7.根据权利要求1-6任一项所述的基于星际文件系统的信息管理方法，其特征在于，在所述待存文件的所有数据判断完成后，将所述新数据块和/或所述寻址关系存入所述IPFS系统中形成新文件，并将所述新文件以及与其有寻址关系的已存文件建立关联关系的步骤之后，还包括：

计算所述新数据块的第一哈希值；

8.一种基于星际文件系统的信息管理平台，其特征在于，包括：

分址模块以及生成模块；

9.根据权利要求8所述的基于星际文件系统的信息管理平台，其特征在于，还包括：匹配模块；

10.根据权利要求9所述的基于星际文件系统的信息管理平台，其特征在于，所述匹配模块包括：第一判断模块，第二判断模块以及分析模块；