CN116578609A - 一种基于倒排索引的分布式搜索方法及装置 - Google Patents

一种基于倒排索引的分布式搜索方法及装置 Download PDF

Info

Publication number
CN116578609A
CN116578609A CN202310521926.4A CN202310521926A CN116578609A CN 116578609 A CN116578609 A CN 116578609A CN 202310521926 A CN202310521926 A CN 202310521926A CN 116578609 A CN116578609 A CN 116578609A
Authority
CN
China
Prior art keywords
index
data
machine
local
inverted index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310521926.4A
Other languages
English (en)
Inventor
崔德方
谢兴昶
翟海涛
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Langchao New Infrastructure Technology Co ltd
Original Assignee
Shandong Langchao New Infrastructure Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Langchao New Infrastructure Technology Co ltd filed Critical Shandong Langchao New Infrastructure Technology Co ltd
Priority to CN202310521926.4A priority Critical patent/CN116578609A/zh
Publication of CN116578609A publication Critical patent/CN116578609A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及软件算法领域,具体提供了一种基于倒排索引的分布式搜索方法及装置,具有如下步骤:S1、数据预处理;S2、数据分片;S3、建立本地索引;S4、合并索引;S5、查询操作。与现有技术相比,本发明可以利用集群中多台计算机的计算资源,实现数据的并行处理和查询加速,从而提高系统的性能。

Description

一种基于倒排索引的分布式搜索方法及装置
技术领域
本发明涉及软件算法领域,具体提供一种基于倒排索引的分布式搜索方法及装置。
背景技术
数据搜索算法经历了从正向地、集中地搜索到倒序地、分布地发展过程。
倒排索引(Inverted Index),也称为倒排索引、反向索引、反向文件等,是一种数据结构,用于快速查找给定单词(关键字)在文本中出现的位置。它将单词作为索引,将单词在文本中出现的位置作为记录,以此建立起单词到文本位置的映射关系。
示例如下,假设有以下三个文本:
文本1:我中午吃了水饺。
文本2:我中午吃了面条。
文本3:我中午吃了素水饺。
倒排索引的建立过程如下:
将每个文本按照单词分割,得到以下单词列表:
文本1:我,中,午,吃,了,水,饺。
文本2:我,中,午,吃,了,面,条。
文本3:我,中,午,吃,了,素,水,饺。
对每个单词建立倒排索引,将单词作为索引,将单词在文本中出现的位置作为记录,得到以下倒排索引表:
单词:我,文本位置:1,2,3;单词:中,文本位置:1,2,3;单词:午,文本位置:1,2,3;单词:吃,文本位置:1,2,3;单词:了,文本位置:1,2,3;单词:水,文本位置:1,3;单词:饺,文本位置:1,3;单词:素,文本位置:3;单词:面,文本位置:2;单词:条,文本位置:2。
在进行查询前,需要创建一张单词和出现位置的库表,也称作倒排索引表。在查询时,只需在倒排索引表中查找给定单词对应的记录,即可快速定位到文本中出现该单词的位置。
尽管倒排索引是一种高效的数据结构,但它也存在着缺点,倒排索引需要维护单词到文本位置的映射关系,因此需要存储大量的索引信息,占用较大的存储空间,且当索引信息量累计足够大的时候,索引搜索效率下降,导致整体搜索性能下降。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的基于倒排索引的分布式搜索方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的基于倒排索引的分布式搜索装置。
本发明解决其技术问题所采用的技术方案是:
一种基于倒排索引的分布式搜索方法,具有如下步骤:
S1、数据预处理;
S2、数据分片;
S3、建立本地索引;
S4、合并索引;
S5、查询操作。
进一步的,在步骤S1中,从文本数据中提取出关键词,并对关键词进行一些必要的预处理,去除分词和停用词。
进一步的,在步骤S2中,数据划分采用哈希分片的方式,将原始数据分散存储在多台机器上,哈希分片的实现如下:
(1)数据均匀切分,哈希算法保证分布均匀;
(2)分片后数据之间无关联,每个分片中的数据之间独立。
进一步的,在步骤S3中,在分布式集群中,集群中的每台机器都需要建立本地索引,所述本地索引是每个机器上的倒排索引,所述倒排索引仅包含本地数据的索引信息。
进一步的,建立本地索引需要满足以下要求:
(1)索引数据存储在机器本地磁盘上;
(2)索引数据格式化存储。
进一步的,在步骤S4中,合并索引采用MapReduce框架进行实现;
所述MapReduce框架的实现如下:
(1)Map过程:每台机器根据本地索引进行Map操作,将Map结果输出到对应的Reduce节点;
(2)Shuffle过程:MapReduce框架自动将Map结果按照key值进行分发,分发到对应的Reduce节点上;
(3)Reduce过程:每个Reduce节点根据收到的Map结果进行Reduce操作,将Reduce结果输出到全局索引文件中。
进一步的,在步骤S5中,查询操作的实现如下:
(1)查询请求发送到各个机器上,由各个机器根据本地索引进行查询操作;
(2)将各个机器返回的结果进行合并,最终得到完整的查询结果;
(3)采用缓存机制,提高查询效率。
一种基于倒排索引的分布式搜索装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种基于倒排索引的分布式搜索方法。
本发明的一种基于倒排索引的分布式搜索方法及装置和现有技术相比,具有以下突出的有益效果:
本发明可以利用集群中多台计算机的计算资源,实现数据的并行处理和查询加速,从而提高系统的性能。
分布式倒排索引可以将数据存储在多台计算机上,实现数据的冗余存储和备份,从而提高系统的可用性和可靠性。
分布式倒排索引可以动态扩展集群规模,从而支持更大规模的数据处理和查询需求。同时,也可以根据业务需求和系统瓶颈进行分片和负载均衡等优化。
分布式倒排索引可以将数据分配到不同的节点上进行存储,从而实现数据的局部性,降低节点之间的通信和数据传输成本,提高系统的效率。
分布式倒排索引可以根据不同的业务需求和系统特点进行优化和定制化开发,满足不同的场景和应用需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种基于倒排索引的分布式搜索方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种基于倒排索引的分布式搜索方法,具有如下步骤:
S1、数据预处理;
从文本数据中提取出关键词,并对关键词进行一些必要的预处理,去除分词和停用词。这一步使用分布式爬虫或者分布式数据预处理工具来实现。
S2、数据分片;
数据划分采用哈希分片的方式,将原始数据分散存储在多台机器上。哈希分片的实现如下:
(1)数据均匀切分,哈希算法保证分布均匀,避免数据倾斜。
(2)分片后数据之间无关联。每个分片中的数据之间应该是独立的,避免因为数据关联性导致的分片操作不合理。
S3、建立本地索引;
在分布式集群中,集群中的每台机器都需要建立本地索引,这个本地索引是每个机器上的倒排索引。这个索引只包含本地数据的索引信息。建立本地索引需要满足以下要求:
(1)索引数据存储在机器本地磁盘上,避免网络传输过程中的数据延迟和丢失。
(2)索引数据格式化存储,避免数据冗余和数据格式不一致的问题。
S4、合并索引;
合并索引采用MapReduce框架进行实现。MapReduce框架的实现如下:
(1)Map过程:每台机器根据本地索引进行Map操作,将Map结果输出到对应的Reduce节点。
(2)Shuffle过程:MapReduce框架自动将Map结果按照key值进行分发,分发到对应的Reduce节点上。
(3)Reduce过程:每个Reduce节点根据收到的Map结果进行Reduce操作,将Reduce结果输出到全局索引文件中。
S5、查询操作;
查询操作的实现如下:
(1)查询请求发送到各个机器上,由各个机器根据本地索引进行查询操作。
(2)将各个机器返回的结果进行合并,最终得到完整的查询结果。
(3)采用缓存机制,避免多次查询相同的结果,提高查询效率。
基于上述方法,本实施例中的一种基于倒排索引的分布式搜索装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种基于倒排索引的分布式搜索方法。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种基于倒排索引的分布式搜索方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于倒排索引的分布式搜索方法,其特征在于,具有如下步骤:
S1、数据预处理;
S2、数据分片;
S3、建立本地索引;
S4、合并索引;
S5、查询操作。
2.根据权利要求1所述的一种基于倒排索引的分布式搜索方法,其特征在于,在步骤S1中,从文本数据中提取出关键词,并对关键词进行一些必要的预处理,去除分词和停用词。
3.根据权利要求2所述的一种基于倒排索引的分布式搜索方法,其特征在于,在步骤S2中,数据划分采用哈希分片的方式,将原始数据分散存储在多台机器上,哈希分片的实现如下:
(1)数据均匀切分,哈希算法保证分布均匀;
(2)分片后数据之间无关联,每个分片中的数据之间独立。
4.根据权利要求3所述的一种基于倒排索引的分布式搜索方法,其特征在于,在步骤S3中,在分布式集群中,集群中的每台机器都需要建立本地索引,所述本地索引是每个机器上的倒排索引,所述倒排索引仅包含本地数据的索引信息。
5.根据权利要求4所述的一种基于倒排索引的分布式搜索方法,其特征在于,建立本地索引需要满足以下要求:
(1)索引数据存储在机器本地磁盘上;
(2)索引数据格式化存储。
6.根据权利要求5所述的一种基于倒排索引的分布式搜索方法,其特征在于,在步骤S4中,合并索引采用MapReduce框架进行实现;
所述MapReduce框架的实现如下:
(1)Map过程:每台机器根据本地索引进行Map操作,将Map结果输出到对应的Reduce节点;
(2)Shuffle过程:MapReduce框架自动将Map结果按照key值进行分发,分发到对应的Reduce节点上;
(3)Reduce过程:每个Reduce节点根据收到的Map结果进行Reduce操作,将Reduce结果输出到全局索引文件中。
7.根据权利要求5所述的一种基于倒排索引的分布式搜索方法,其特征在于,在步骤S5中,查询操作的实现如下:
(1)查询请求发送到各个机器上,由各个机器根据本地索引进行查询操作;
(2)将各个机器返回的结果进行合并,最终得到完整的查询结果;
(3)采用缓存机制,提高查询效率。
8.一种基于倒排索引的分布式搜索装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7中任一所述的方法。
CN202310521926.4A 2023-05-10 2023-05-10 一种基于倒排索引的分布式搜索方法及装置 Pending CN116578609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310521926.4A CN116578609A (zh) 2023-05-10 2023-05-10 一种基于倒排索引的分布式搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310521926.4A CN116578609A (zh) 2023-05-10 2023-05-10 一种基于倒排索引的分布式搜索方法及装置

Publications (1)

Publication Number Publication Date
CN116578609A true CN116578609A (zh) 2023-08-11

Family

ID=87540631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310521926.4A Pending CN116578609A (zh) 2023-05-10 2023-05-10 一种基于倒排索引的分布式搜索方法及装置

Country Status (1)

Country Link
CN (1) CN116578609A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349321A (zh) * 2023-12-04 2024-01-05 凯美瑞德(苏州)信息科技股份有限公司 一种文档数据库多表连接查询方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349321A (zh) * 2023-12-04 2024-01-05 凯美瑞德(苏州)信息科技股份有限公司 一种文档数据库多表连接查询方法及装置
CN117349321B (zh) * 2023-12-04 2024-03-05 凯美瑞德(苏州)信息科技股份有限公司 一种文档数据库多表连接查询方法及装置

Similar Documents

Publication Publication Date Title
Lakshman et al. Cassandra: a decentralized structured storage system
CN109740037B (zh) 多源、异构流态大数据分布式在线实时处理方法及系统
Makris et al. A classification of NoSQL data stores based on key design characteristics
US11093468B1 (en) Advanced metadata management
US9639590B2 (en) Database system and method for searching database
CN100462979C (zh) 分布式索引文件的检索方法、检索系统及检索服务器
EP3499388B1 (en) Method and device for processing join query
CN107180113B (zh) 一种大数据检索平台
WO2013155752A1 (zh) 面向数据库与Hadoop混合平台的OLAP查询处理方法
CN115114374B (zh) 事务执行方法、装置、计算设备及存储介质
CN110941618A (zh) 一种海量异构数据存储方法及系统
CN111428140B (zh) 高并发数据检索方法、装置、设备及存储介质
CN116578609A (zh) 一种基于倒排索引的分布式搜索方法及装置
CN115114294A (zh) 数据库存储模式的自适应方法、装置、计算机设备
CN118227337B (zh) 一种键值对存储系统的处理方法和装置
CN113672583B (zh) 基于存储与计算分离的大数据多数据源分析方法及系统
CN108932258B (zh) 数据索引处理方法及装置
CN113282618A (zh) 一种Elasticsearch活跃集群检索优化方案及系统
CN116226139B (zh) 一种适用大规模海洋数据的分布式存储和处理方法及系统
CN114385577A (zh) 一种分布式文件系统
CN114003580A (zh) 一种运用于分布式调度系统的数据库构建方法及装置
Srinivasan et al. Techniques and Efficiencies from Building a Real-Time DBMS
CN115437836A (zh) 一种元数据处理方法及相关设备
CN111984756A (zh) 一种实现Hbase二级索引的方法
CN110597809A (zh) 一种支持树状数据结构的一致性算法系统及其实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination