CN114297145A - 一种ipfs节点本地基于关键词搜索文件的方法、介质及系统 - Google Patents

一种ipfs节点本地基于关键词搜索文件的方法、介质及系统 Download PDF

Info

Publication number
CN114297145A
CN114297145A CN202111563658.XA CN202111563658A CN114297145A CN 114297145 A CN114297145 A CN 114297145A CN 202111563658 A CN202111563658 A CN 202111563658A CN 114297145 A CN114297145 A CN 114297145A
Authority
CN
China
Prior art keywords
file
index
inverted
cid
ipfs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111563658.XA
Other languages
English (en)
Inventor
曹岭
李岳
张炎
刘宗元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111563658.XA priority Critical patent/CN114297145A/zh
Publication of CN114297145A publication Critical patent/CN114297145A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种IPFS节点本地基于关键词搜索文件的方法、介质及系统,包括步骤:S1索引提取,将文件解析元数据并使用TF‑IDF确定关键词,对文件建立索引七元组;S2获取该关键词倒排索引文件哈希,通过哈希在IPFS获取倒排索引文件,并将新的索引元组插入对应的倒排索引文件中,用新的倒排索引文件CID更新本地记录;S3关键词搜索时先比对缓存是否命中,若未命中则本地记录查找倒排索引CID,再根据CID在IPFS获取倒排索引文件,并将索引信息返回。本发明结合自然语言处理技术对文件提取主题词合成索引信息,对文件关键词建立倒排索引实现快速的关键词搜索,同时本地维护倒排索引CID将倒排索引文件存于IPFS有利于节省存储空间。

Description

一种IPFS节点本地基于关键词搜索文件的方法、介质及系统
技术领域
本发明属于数据检索技术领域,尤其涉及一种基于IPFS本地文件关键词检索方法。
背景技术
随着计算机与互联网的高速发展,产生的数据也呈爆炸式增长,数据的安全存储与高效检索需求也越来越成为人们重视的问题。星际文件系统(IPFS)是一个分布式文件系统,目前已得到广泛使用。IPFS是一个基于内容索引,可版本化的,点对点的文件系统。IPFS有三大技术:通过内容寻址进行唯一标识,通过有向无环图(DAG)链接内容,通过分布式哈希表(DHT)发现内容。它的核心原则是将所有数据作为同一Merkel-DAG的一部分来建模。IPFS在DAG的基础上定义了四种对象类型:block,list,tree,commit;block指大小可变数据块,list指block或者list集合,tree指block,list或者tree的集合,commit指tree版本历史快照,这四种类型建立了一种可版本化的文件系统。在IPFS系统内,文件默认以256k进行分块,list组织数据块集合,tree组织list集合,访问tree便能访问整个文件树,资源请求者只需要知道tree的哈希便能下载相应文件。
IPFS与传统HTTP协议根据物理地址定位不同,它根据文件的CID进行内容定位,也就是说IPFS系统内只支持精确查找,并且文件内容哈希冗长且晦涩,不利于文件的传播共享。互联网庞大的信息使得搜索引擎如今已然成了互联网使用者在网上查找他们所需内容信息的不可或缺的检索工具。传统的集中式存储系统能够应用到各个领域的一个关键原因是它们提供了丰富的查询服务,这正是IPFS分布式存储的缺陷。对IPFS数据检索方式研究,可以打通信息壁垒,使用户可以根据需求有多种获取文件方式,同时还可以增加网络内数据使用率,使IPFS满足更多的使用场景。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。带有倒排索引的文件称为倒排索引文件,简称倒排文件。倒排索引是实现单词文档矩阵的一种具体存储形式。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
现有IPFS数据关键词搜索方法大多基于分布式哈希表,将建立的索引信息存入分布式哈希表中,依靠一致性哈希进行检索,并将检索的数据在节点间传递直至目标节点,这样做一方面当数据量大时会造成等待时间过长,另一方面当节点网络异常或提供资源节点与检索节点之间需要较多次的传递容易造成数据丢失。
基于此,本发明针对IPFS文件检索提出一种关键词倒排索引构建和检索方式。通过自然语言处理提取关键词可以为用户提供更丰富的文件信息,而不再是仅依靠冗长晦涩的文件哈希;通过构建倒排索引可以实现文件快速查找,同时两层的索引又可以尽量减少存储空间的占用,本方案可以在IPFS节点上广泛使用。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种IPFS节点本地基于关键词搜索文件的方法、介质及系统。本发明的技术方案如下:
一种IPFS节点本地基于关键词搜索文件的方法,其包括以下步骤:
S1、索引提取,将文件解析元数据并使用TF-IDF算法确定关键词,对文件建立索引七元组;
S2、获取该关键词倒排索引文件哈希,通过哈希在IPFS获取倒排索引文件,并将新的索引七元组插入对应的倒排索引文件中,用新的倒排索引文件CID更新本地记录;
S3、关键词搜索时先比对缓存是否命中,若未命中则本地记录查找倒排索引CID,再根据CID在IPFS获取倒排索引文件,并将索引信息返回。
进一步的,所述步骤S1中使用Apache Tika对文件提取元数据,Tika对文件处理后能返回文件的纯文本信息;然后使用TF-IDF算法对文件的文本信息提取关键词,计算公式如下:
Figure BDA0003421325280000031
Figure BDA0003421325280000032
TFW指某词w的词频,NW是某一文本中词w出现的次数,N是该文本总词条数,TFW反映了词w在该文本中出现频率;IDFW指某词w的逆向文件频率,Y指语料库中文件总数,YW指包含词语w的文档总数,IDFW反映了词w在整个文本出现频率,TF-IDFW的计算公式如下:
TF-IDFW=TFW*IDFW (3)
进一步的,所述步骤S1中的索引七元组为(Keyword,CID,Type,Illegal,F-date,Name,Size),其中Keyword表示文件提取的主题词,CID表示文件内容哈希,Type表示文件类型,Illegal表示文件内容是否合法,F-date表示建立时间,Name表示文件名,Size表示文件大小。
进一步的,所述步骤S2中的文件索引使用倒排索引数据结构存储,即不是由记录来确定属性值,而是由属性值来确定记录的位置,索引分为两层,倒排索引文件存储在IPFS,本地存储倒排索引的内容哈希与关键词的对应关系。
进一步的,所述倒排索引由单词词典和倒排文件两部分组成,单词词典即所有关键词集合,倒排文件即以该关键词为主题的所有文件集合,通过倒排索引可以快速获取包含这个单词的文档列表;为了减少带宽和存储要求,倒排文档编号使用CID存储,先根据本地记录获取该关键词对应倒排文档CID,通过IPFS获取该CID对应倒排文档之后将新索引插入该倒排文档,最后将新的倒排文档存入IPFS并用返回的CID更新倒排文件CID;倒排索引使用哈希加链表来存储和查询,每个哈希表项存储一个指针指向冲突链表,相同哈希值的单词构成链表结构,链表每个节点由单词和对应倒排文件CID表示。
进一步的,所述S3、关键词搜索时先比对缓存是否命中,若未命中则本地记录查找倒排索引CID,再根据CID在IPFS获取倒排索引文件,并将索引信息返回,具体包括:
当用户对自己节点发起搜索时,节点会先检查缓存中的数据,看是否会命中缓存,若命中缓存则直接返回结果;若未命中缓存,则在HashMap中查找,拿到关键词对用的倒排索引CID之后在IPFS中获取倒排索引文件,在对索引信息整合过滤之后返回给用户;采用最近最久未访问算法对缓存结果进行置换,即将搜索结果放入缓存前加入时间戳对象并置零,同时已经在缓存内的索引时间戳自增,每次访问缓存中的索引项时都将其时间戳置零,当缓存空间满了之后将时间戳最大的项淘汰。
一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如任一项所述的IPFS节点本地基于关键词搜索文件的方法。
一种基于任一项所述方法的关键词搜索文件的系统,其包括:
索引建立模块:用于索引提取,将文件解析元数据并使用TF-IDF算法确定关键词,对文件建立索引七元组;
倒排索引文件更新模块:用于获取该关键词倒排索引文件哈希,通过哈希在IPFS获取倒排索引文件,并将新的索引七元组插入对应的倒排索引文件中,用新的倒排索引文件CID更新本地记录;
索引获取模块:关键词搜索时先比对缓存是否命中,若未命中则本地记录查找倒排索引CID,再根据CID在IPFS获取倒排索引文件,并将索引信息返回。
本发明的优点及有益效果如下:
本发明通过自然语言处理中的TF-IDF对文件进行主题词提取,同时将多元的文件信息组合为文件索引,一方面降低了用户对哈希的依赖,用户可以不再仅依靠哈希来获取数据,减少了管理哈希的成本;另一方面为IPFS上其他应用的构建提供了更多的选择。同时,通过建立倒排索引以及缓存,可以在海量文件面前实现极快检索,由于IPFS数据块的重用机制,双层索引可以极大减少存储空间的占用,降低系统的资源占用。
附图说明
图1是本发明提供优选实施例提出索引结构示意图;
图2为本发明索引建立流程图;
图3为本发明响应搜索流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明提出索引结构示意图如图1所示。
本发明索引建立流程图为图2。
本发明响应搜索流程图为图3。
具体步骤:
步骤S1:文件上传至IPFS后,系统会将文件碎片化处理,组装成一棵默克尔树,并将根哈希也就是文件CID返回给用户。文件在IPFS存储之后对文件分析,首先使用ApacheTika对文件提取元数据,然后使用TF-IDF(term frequency-inverse documentfrequency)算法对文件提取关键词,计算公式如下:
Figure BDA0003421325280000051
Figure BDA0003421325280000052
TFW指某词w的词频,NW是某一文本中词w出现的次数,N是该文本总词条数,TFW反映了词w在该文本中出现频率。IDFW指某词w的逆向文件频率,Y指语料库中文件总数,YW指包含词语w的文档总数,IDFW反映了词w在整个文本出现频率。TF-IDFW的计算公式如下:
TF-IDFW=TFW*IDFW (3)
TF-IDF可以过滤常见词语,保留重要词语。提取出关键词之后将关键元素组合成一个七元组(Keyword,CID,Type,Illegal,F-date,name,Size),其中Keyword表示文件提取的主题词,CID表示文件内容哈希,Type表示文件类型,Illegal表示文件内容是否合法,F-date表示建立时间,Name表示文件名,Size表示文件大小。
步骤S2:文件索引提取出之后,需要将新索引插入到相应的倒排索引中。倒排索引由单词词典和倒排文件两部分组成,单词词典即所有关键词集合,倒排文件即以该关键词为主题的所有文件集合,通过倒排索引可以快速获取包含这个单词的文档列表。为了减少带宽和存储要求,倒排文档编号使用CID存储,先根据本地记录获取该关键词对应倒排文档CID,通过IPFS获取该CID对应倒排文档之后将新索引插入该倒排文档,最后将新的倒排文档存入IPFS并用返回的CID更新倒排文件CID。倒排索引使用哈希加链表来存储和查询,每个哈希表项存储一个指针指向冲突链表,相同哈希值的单词构成链表结构,链表每个节点由单词和对应倒排文件CID表示。
步骤S3:如图3所示,当用户对自己节点发起搜索时,节点会先检查缓存中的数据,看是否会命中缓存,若命中缓存则直接返回结果;若未命中缓存,则在HashMap中查找,拿到关键词对用的倒排索引CID之后在IPFS中获取倒排索引文件,在对索引信息整合过滤之后返回给用户。由于缓存空间有限,为了避免出现随着缓存空间增大缓存的使用反而减少的情况,将采用最近最久未访问算法对缓存结果进行置换,即将搜索结果放入缓存前加入时间戳对象并置零,同时已经在缓存内的索引时间戳自增,每次访问缓存中的索引项时都将其时间戳置零,当缓存空间满了之后将时间戳最大的项淘汰,这样保证对热数据的快速搜索,同时减少缓存的空间开销。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,包括以下步骤:
S1、索引提取,将文件解析元数据并使用TF-IDF算法确定关键词,对文件建立索引七元组;
S2、获取该关键词倒排索引文件哈希,通过哈希在IPFS获取倒排索引文件,并将新的索引七元组插入对应的倒排索引文件中,用新的倒排索引文件CID更新本地记录;
S3、关键词搜索时先比对缓存是否命中,若未命中则本地记录查找倒排索引CID,再根据CID在IPFS获取倒排索引文件,并将索引信息返回。
2.根据权利要求1所述的一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,所述步骤S1中使用Apache Tika对文件提取元数据,Tika对文件处理后能返回文件的纯文本信息;然后使用TF-IDF算法对文件的文本信息提取关键词,计算公式如下:
Figure FDA0003421325270000011
Figure FDA0003421325270000012
TFW指某词w的词频,NW是某一文本中词w出现的次数,N是该文本总词条数,TFW反映了词w在该文本中出现频率;IDFW指某词w的逆向文件频率,Y指语料库中文件总数,YW指包含词语w的文档总数,IDFW反映了词w在整个文本出现频率,TF-IDFW的计算公式如下:
TF-IDFW=TFW*IDFW (3)
3.根据权利要求1或2所述的一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,所述步骤S1中的索引七元组为(Keyword,CID,Type,Illegal,F-date,Name,Size),其中Keyword表示文件提取的主题词,CID表示文件内容哈希,Type表示文件类型,Illegal表示文件内容是否合法,F-date表示建立时间,Name表示文件名,Size表示文件大小。
4.根据权利要求3所述的一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,所述步骤S2中的文件索引使用倒排索引数据结构存储,即不是由记录来确定属性值,而是由属性值来确定记录的位置,索引分为两层,倒排索引文件存储在IPFS,本地存储倒排索引的内容哈希与关键词的对应关系。
5.根据权利要求4所述的一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,所述倒排索引由单词词典和倒排文件两部分组成,单词词典即所有关键词集合,倒排文件即以该关键词为主题的所有文件集合,通过倒排索引可以快速获取包含这个单词的文档列表;为了减少带宽和存储要求,倒排文档编号使用CID存储,先根据本地记录获取该关键词对应倒排文档CID,通过IPFS获取该CID对应倒排文档之后将新索引插入该倒排文档,最后将新的倒排文档存入IPFS并用返回的CID更新倒排文件CID;倒排索引使用哈希加链表来存储和查询,每个哈希表项存储一个指针指向冲突链表,相同哈希值的单词构成链表结构,链表每个节点由单词和对应倒排文件CID表示。
6.根据权利要求5所述的一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,所述S3、关键词搜索时先比对缓存是否命中,若未命中则本地记录查找倒排索引CID,再根据CID在IPFS获取倒排索引文件,并将索引信息返回,具体包括:
当用户对自己节点发起搜索时,节点会先检查缓存中的数据,看是否会命中缓存,若命中缓存则直接返回结果;若未命中缓存,则在HashMap中查找,拿到关键词对用的倒排索引CID之后在IPFS中获取倒排索引文件,在对索引信息整合过滤之后返回给用户;采用最近最久未访问算法对缓存结果进行置换,即将搜索结果放入缓存前加入时间戳对象并置零,同时已经在缓存内的索引时间戳自增,每次访问缓存中的索引项时都将其时间戳置零,当缓存空间满了之后将时间戳最大的项淘汰。
7.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-6任一项所述的IPFS节点本地基于关键词搜索文件的方法。
8.一种基于权利要求1-6任一项所述方法的关键词搜索文件的系统,其特征在于,包括:
索引建立模块:用于索引提取,将文件解析元数据并使用TF-IDF算法确定关键词,对文件建立索引七元组;
倒排索引文件更新模块:用于获取该关键词倒排索引文件哈希,通过哈希在IPFS获取倒排索引文件,并将新的索引七元组插入对应的倒排索引文件中,用新的倒排索引文件CID更新本地记录;
索引获取模块:关键词搜索时先比对缓存是否命中,若未命中则本地记录查找倒排索引CID,再根据CID在IPFS获取倒排索引文件,并将索引信息返回。
CN202111563658.XA 2021-12-20 2021-12-20 一种ipfs节点本地基于关键词搜索文件的方法、介质及系统 Pending CN114297145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111563658.XA CN114297145A (zh) 2021-12-20 2021-12-20 一种ipfs节点本地基于关键词搜索文件的方法、介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111563658.XA CN114297145A (zh) 2021-12-20 2021-12-20 一种ipfs节点本地基于关键词搜索文件的方法、介质及系统

Publications (1)

Publication Number Publication Date
CN114297145A true CN114297145A (zh) 2022-04-08

Family

ID=80968372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111563658.XA Pending CN114297145A (zh) 2021-12-20 2021-12-20 一种ipfs节点本地基于关键词搜索文件的方法、介质及系统

Country Status (1)

Country Link
CN (1) CN114297145A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344619A (zh) * 2022-10-17 2022-11-15 天津联想协同科技有限公司 信息搜索方法、终端设备、服务器、电子设备及存储介质
CN117573704A (zh) * 2024-01-17 2024-02-20 上海合见工业软件集团有限公司 Eda软件的复合文档索引方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916173A (zh) * 2020-08-07 2020-11-10 安徽师范大学 基于ipfs和联盟链的医疗数据安全共享系统及方法
CN112039855A (zh) * 2020-08-14 2020-12-04 海南大学 一种基于联盟链的科技资源数据安全存储与共享方法
CN112817916A (zh) * 2021-02-07 2021-05-18 中国科学院新疆理化技术研究所 基于ipfs的数据获取方法及系统
CN113434094A (zh) * 2021-07-08 2021-09-24 山东中科好靓科技有限公司 一种基于ipfs的数据文件存储提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916173A (zh) * 2020-08-07 2020-11-10 安徽师范大学 基于ipfs和联盟链的医疗数据安全共享系统及方法
CN112039855A (zh) * 2020-08-14 2020-12-04 海南大学 一种基于联盟链的科技资源数据安全存储与共享方法
CN112817916A (zh) * 2021-02-07 2021-05-18 中国科学院新疆理化技术研究所 基于ipfs的数据获取方法及系统
CN113434094A (zh) * 2021-07-08 2021-09-24 山东中科好靓科技有限公司 一种基于ipfs的数据文件存储提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAWRAS KHUDHUR,SATOSHI FUJITA: ""Siva-The IPFS Search Engine"", 《2019 SEVENTH INTERNATIONAL SYMPOSIUM ON COMPUTING AND NETWORKING (CANDAR)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344619A (zh) * 2022-10-17 2022-11-15 天津联想协同科技有限公司 信息搜索方法、终端设备、服务器、电子设备及存储介质
CN117573704A (zh) * 2024-01-17 2024-02-20 上海合见工业软件集团有限公司 Eda软件的复合文档索引方法、装置、设备及介质
CN117573704B (zh) * 2024-01-17 2024-04-12 上海合见工业软件集团有限公司 Eda软件的复合文档索引方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US8938459B2 (en) System and method for distributed index searching of electronic content
US9411840B2 (en) Scalable data structures
US7953731B2 (en) Enhancing and optimizing enterprise search
Zhang et al. Processing spatial keyword query as a top-k aggregation query
US8725730B2 (en) Responding to a query in a data processing system
US9697258B2 (en) Supporting enhanced content searches in an online content-management system
US9165033B1 (en) Efficient query rewriting
US8977623B2 (en) Method and system for search engine indexing and searching using the index
US20170255652A1 (en) Method for dynamically matching images with content items based on keywords in response to search queries
CN104536959A (zh) 一种Hadoop存取海量小文件的优化方法
US20120173510A1 (en) Priority hash index
WO2022057739A1 (zh) 数据分区存储方法、装置及系统
CN106874481B (zh) 一种分布式文件系统元数据信息读取方法及系统
CN114297145A (zh) 一种ipfs节点本地基于关键词搜索文件的方法、介质及系统
CN111324665B (zh) 一种日志回放方法及装置
US20070055697A1 (en) Generating and monitoring a multimedia database
US9262511B2 (en) System and method for indexing streams containing unstructured text data
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
CN105468644B (zh) 一种用于在数据库中进行查询的方法与设备
WO2023179787A1 (zh) 分布式文件系统的元数据管理方法和装置
CN111459945A (zh) 一种基于HBase的分层式索引查询方法
CN104166649B (zh) 一种用于搜索引擎的缓存方法和设备
Trotman et al. Future web growth and its consequences for web search architectures
CN116483829A (zh) 数据查询方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220408