CN114297145A

CN114297145A - 一种ipfs节点本地基于关键词搜索文件的方法、介质及系统

Info

Publication number: CN114297145A
Application number: CN202111563658.XA
Authority: CN
Inventors: 曹岭; 李岳; 张炎; 刘宗元
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-08

Abstract

本发明请求保护一种IPFS节点本地基于关键词搜索文件的方法、介质及系统，包括步骤：S1索引提取，将文件解析元数据并使用TF‑IDF确定关键词，对文件建立索引七元组；S2获取该关键词倒排索引文件哈希，通过哈希在IPFS获取倒排索引文件，并将新的索引元组插入对应的倒排索引文件中，用新的倒排索引文件CID更新本地记录；S3关键词搜索时先比对缓存是否命中，若未命中则本地记录查找倒排索引CID，再根据CID在IPFS获取倒排索引文件，并将索引信息返回。本发明结合自然语言处理技术对文件提取主题词合成索引信息，对文件关键词建立倒排索引实现快速的关键词搜索，同时本地维护倒排索引CID将倒排索引文件存于IPFS有利于节省存储空间。

Description

一种IPFS节点本地基于关键词搜索文件的方法、介质及系统

技术领域

本发明属于数据检索技术领域，尤其涉及一种基于IPFS本地文件关键词检索方法。

背景技术

随着计算机与互联网的高速发展，产生的数据也呈爆炸式增长，数据的安全存储与高效检索需求也越来越成为人们重视的问题。星际文件系统(IPFS)是一个分布式文件系统，目前已得到广泛使用。IPFS是一个基于内容索引，可版本化的，点对点的文件系统。IPFS有三大技术：通过内容寻址进行唯一标识，通过有向无环图(DAG)链接内容，通过分布式哈希表(DHT)发现内容。它的核心原则是将所有数据作为同一Merkel-DAG的一部分来建模。IPFS在DAG的基础上定义了四种对象类型：block，list，tree，commit；block指大小可变数据块，list指block或者list集合，tree指block，list或者tree的集合，commit指tree版本历史快照，这四种类型建立了一种可版本化的文件系统。在IPFS系统内，文件默认以256k进行分块，list组织数据块集合，tree组织list集合，访问tree便能访问整个文件树，资源请求者只需要知道tree的哈希便能下载相应文件。

IPFS与传统HTTP协议根据物理地址定位不同，它根据文件的CID进行内容定位，也就是说IPFS系统内只支持精确查找，并且文件内容哈希冗长且晦涩，不利于文件的传播共享。互联网庞大的信息使得搜索引擎如今已然成了互联网使用者在网上查找他们所需内容信息的不可或缺的检索工具。传统的集中式存储系统能够应用到各个领域的一个关键原因是它们提供了丰富的查询服务，这正是IPFS分布式存储的缺陷。对IPFS数据检索方式研究，可以打通信息壁垒，使用户可以根据需求有多种获取文件方式，同时还可以增加网络内数据使用率，使IPFS满足更多的使用场景。

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。带有倒排索引的文件称为倒排索引文件，简称倒排文件。倒排索引是实现单词文档矩阵的一种具体存储形式。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。

现有IPFS数据关键词搜索方法大多基于分布式哈希表，将建立的索引信息存入分布式哈希表中，依靠一致性哈希进行检索，并将检索的数据在节点间传递直至目标节点，这样做一方面当数据量大时会造成等待时间过长，另一方面当节点网络异常或提供资源节点与检索节点之间需要较多次的传递容易造成数据丢失。

基于此，本发明针对IPFS文件检索提出一种关键词倒排索引构建和检索方式。通过自然语言处理提取关键词可以为用户提供更丰富的文件信息，而不再是仅依靠冗长晦涩的文件哈希；通过构建倒排索引可以实现文件快速查找，同时两层的索引又可以尽量减少存储空间的占用，本方案可以在IPFS节点上广泛使用。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种IPFS节点本地基于关键词搜索文件的方法、介质及系统。本发明的技术方案如下：

一种IPFS节点本地基于关键词搜索文件的方法，其包括以下步骤：

S1、索引提取，将文件解析元数据并使用TF-IDF算法确定关键词，对文件建立索引七元组；

S2、获取该关键词倒排索引文件哈希，通过哈希在IPFS获取倒排索引文件，并将新的索引七元组插入对应的倒排索引文件中，用新的倒排索引文件CID更新本地记录；

S3、关键词搜索时先比对缓存是否命中，若未命中则本地记录查找倒排索引CID，再根据CID在IPFS获取倒排索引文件，并将索引信息返回。

进一步的，所述步骤S1中使用Apache Tika对文件提取元数据，Tika对文件处理后能返回文件的纯文本信息；然后使用TF-IDF算法对文件的文本信息提取关键词，计算公式如下：

TF_W指某词w的词频，N_W是某一文本中词w出现的次数，N是该文本总词条数，TF_W反映了词w在该文本中出现频率；IDF_W指某词w的逆向文件频率，Y指语料库中文件总数，Y_W指包含词语w的文档总数，IDF_W反映了词w在整个文本出现频率，TF-IDF_W的计算公式如下：

TF-IDF_W＝TF_W*IDF_W (3)

进一步的，所述步骤S1中的索引七元组为(Keyword,CID,Type,Illegal,F-date，Name,Size)，其中Keyword表示文件提取的主题词，CID表示文件内容哈希，Type表示文件类型，Illegal表示文件内容是否合法，F-date表示建立时间，Name表示文件名，Size表示文件大小。

进一步的，所述步骤S2中的文件索引使用倒排索引数据结构存储，即不是由记录来确定属性值，而是由属性值来确定记录的位置，索引分为两层，倒排索引文件存储在IPFS，本地存储倒排索引的内容哈希与关键词的对应关系。

进一步的，所述倒排索引由单词词典和倒排文件两部分组成，单词词典即所有关键词集合，倒排文件即以该关键词为主题的所有文件集合，通过倒排索引可以快速获取包含这个单词的文档列表；为了减少带宽和存储要求，倒排文档编号使用CID存储，先根据本地记录获取该关键词对应倒排文档CID，通过IPFS获取该CID对应倒排文档之后将新索引插入该倒排文档，最后将新的倒排文档存入IPFS并用返回的CID更新倒排文件CID；倒排索引使用哈希加链表来存储和查询，每个哈希表项存储一个指针指向冲突链表，相同哈希值的单词构成链表结构，链表每个节点由单词和对应倒排文件CID表示。

进一步的，所述S3、关键词搜索时先比对缓存是否命中，若未命中则本地记录查找倒排索引CID，再根据CID在IPFS获取倒排索引文件，并将索引信息返回，具体包括：

当用户对自己节点发起搜索时，节点会先检查缓存中的数据，看是否会命中缓存，若命中缓存则直接返回结果；若未命中缓存，则在HashMap中查找，拿到关键词对用的倒排索引CID之后在IPFS中获取倒排索引文件，在对索引信息整合过滤之后返回给用户；采用最近最久未访问算法对缓存结果进行置换，即将搜索结果放入缓存前加入时间戳对象并置零，同时已经在缓存内的索引时间戳自增，每次访问缓存中的索引项时都将其时间戳置零，当缓存空间满了之后将时间戳最大的项淘汰。

一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如任一项所述的IPFS节点本地基于关键词搜索文件的方法。

一种基于任一项所述方法的关键词搜索文件的系统，其包括：

索引建立模块：用于索引提取，将文件解析元数据并使用TF-IDF算法确定关键词，对文件建立索引七元组；

倒排索引文件更新模块：用于获取该关键词倒排索引文件哈希，通过哈希在IPFS获取倒排索引文件，并将新的索引七元组插入对应的倒排索引文件中，用新的倒排索引文件CID更新本地记录；

索引获取模块：关键词搜索时先比对缓存是否命中，若未命中则本地记录查找倒排索引CID，再根据CID在IPFS获取倒排索引文件，并将索引信息返回。

本发明的优点及有益效果如下：

本发明通过自然语言处理中的TF-IDF对文件进行主题词提取，同时将多元的文件信息组合为文件索引，一方面降低了用户对哈希的依赖，用户可以不再仅依靠哈希来获取数据，减少了管理哈希的成本；另一方面为IPFS上其他应用的构建提供了更多的选择。同时，通过建立倒排索引以及缓存，可以在海量文件面前实现极快检索，由于IPFS数据块的重用机制，双层索引可以极大减少存储空间的占用，降低系统的资源占用。

附图说明

图1是本发明提供优选实施例提出索引结构示意图；

图2为本发明索引建立流程图；

图3为本发明响应搜索流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明提出索引结构示意图如图1所示。

本发明索引建立流程图为图2。

本发明响应搜索流程图为图3。

具体步骤：

步骤S1：文件上传至IPFS后，系统会将文件碎片化处理，组装成一棵默克尔树，并将根哈希也就是文件CID返回给用户。文件在IPFS存储之后对文件分析，首先使用ApacheTika对文件提取元数据，然后使用TF-IDF(term frequency-inverse documentfrequency)算法对文件提取关键词，计算公式如下：

TF_W指某词w的词频，N_W是某一文本中词w出现的次数，N是该文本总词条数，TF_W反映了词w在该文本中出现频率。IDF_W指某词w的逆向文件频率，Y指语料库中文件总数，Y_W指包含词语w的文档总数，IDF_W反映了词w在整个文本出现频率。TF-IDF_W的计算公式如下：

TF-IDF_W＝TF_W*IDF_W (3)

TF-IDF可以过滤常见词语，保留重要词语。提取出关键词之后将关键元素组合成一个七元组(Keyword,CID,Type,Illegal,F-date,name,Size)，其中Keyword表示文件提取的主题词，CID表示文件内容哈希，Type表示文件类型，Illegal表示文件内容是否合法，F-date表示建立时间，Name表示文件名，Size表示文件大小。

步骤S2：文件索引提取出之后，需要将新索引插入到相应的倒排索引中。倒排索引由单词词典和倒排文件两部分组成，单词词典即所有关键词集合，倒排文件即以该关键词为主题的所有文件集合，通过倒排索引可以快速获取包含这个单词的文档列表。为了减少带宽和存储要求，倒排文档编号使用CID存储，先根据本地记录获取该关键词对应倒排文档CID，通过IPFS获取该CID对应倒排文档之后将新索引插入该倒排文档，最后将新的倒排文档存入IPFS并用返回的CID更新倒排文件CID。倒排索引使用哈希加链表来存储和查询，每个哈希表项存储一个指针指向冲突链表，相同哈希值的单词构成链表结构，链表每个节点由单词和对应倒排文件CID表示。

步骤S3：如图3所示，当用户对自己节点发起搜索时，节点会先检查缓存中的数据，看是否会命中缓存，若命中缓存则直接返回结果；若未命中缓存，则在HashMap中查找，拿到关键词对用的倒排索引CID之后在IPFS中获取倒排索引文件，在对索引信息整合过滤之后返回给用户。由于缓存空间有限，为了避免出现随着缓存空间增大缓存的使用反而减少的情况，将采用最近最久未访问算法对缓存结果进行置换，即将搜索结果放入缓存前加入时间戳对象并置零，同时已经在缓存内的索引时间戳自增，每次访问缓存中的索引项时都将其时间戳置零，当缓存空间满了之后将时间戳最大的项淘汰，这样保证对热数据的快速搜索，同时减少缓存的空间开销。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种IPFS节点本地基于关键词搜索文件的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种IPFS节点本地基于关键词搜索文件的方法，其特征在于，所述步骤S1中使用Apache Tika对文件提取元数据，Tika对文件处理后能返回文件的纯文本信息；然后使用TF-IDF算法对文件的文本信息提取关键词，计算公式如下：

TF-IDF_W＝TF_W*IDF_W (3)

3.根据权利要求1或2所述的一种IPFS节点本地基于关键词搜索文件的方法，其特征在于，所述步骤S1中的索引七元组为(Keyword,CID,Type,Illegal,F-date，Name,Size)，其中Keyword表示文件提取的主题词，CID表示文件内容哈希，Type表示文件类型，Illegal表示文件内容是否合法，F-date表示建立时间，Name表示文件名，Size表示文件大小。

4.根据权利要求3所述的一种IPFS节点本地基于关键词搜索文件的方法，其特征在于，所述步骤S2中的文件索引使用倒排索引数据结构存储，即不是由记录来确定属性值，而是由属性值来确定记录的位置，索引分为两层，倒排索引文件存储在IPFS，本地存储倒排索引的内容哈希与关键词的对应关系。

5.根据权利要求4所述的一种IPFS节点本地基于关键词搜索文件的方法，其特征在于，所述倒排索引由单词词典和倒排文件两部分组成，单词词典即所有关键词集合，倒排文件即以该关键词为主题的所有文件集合，通过倒排索引可以快速获取包含这个单词的文档列表；为了减少带宽和存储要求，倒排文档编号使用CID存储，先根据本地记录获取该关键词对应倒排文档CID，通过IPFS获取该CID对应倒排文档之后将新索引插入该倒排文档，最后将新的倒排文档存入IPFS并用返回的CID更新倒排文件CID；倒排索引使用哈希加链表来存储和查询，每个哈希表项存储一个指针指向冲突链表，相同哈希值的单词构成链表结构，链表每个节点由单词和对应倒排文件CID表示。

6.根据权利要求5所述的一种IPFS节点本地基于关键词搜索文件的方法，其特征在于，所述S3、关键词搜索时先比对缓存是否命中，若未命中则本地记录查找倒排索引CID，再根据CID在IPFS获取倒排索引文件，并将索引信息返回，具体包括：

7.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-6任一项所述的IPFS节点本地基于关键词搜索文件的方法。

8.一种基于权利要求1-6任一项所述方法的关键词搜索文件的系统，其特征在于，包括：