CN114741467A

CN114741467A - 一种全文检索的方法及系统

Info

Publication number: CN114741467A
Application number: CN202210215393.2A
Authority: CN
Inventors: 张辉; 刘剑彬
Original assignee: Fujian Centerm Information Co Ltd
Current assignee: Fujian Centerm Information Co Ltd
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-07-12

Abstract

本发明公开了一种全文检索的方法及系统，其中，搜索服务集群从待处理文档中检测并提取出文本内容，并将文本内容和文档的结构化数据一起作为文档内容发送至ES集群；ES集群将文档内容进行分词，得到分词结果，根据分词结果建立文档内容的索引文件，将索引文件和文档内容存储到分片中；ES集群在接收到搜索服务集群发送的检索请求时，由Lucene组件根据检索请求从分片中检索到对应文档。本发明实现了对非结构化数据的全文检索，从而使得用户可以在线对文档的文本内容进行全文检索，提高用户体验。

Description

一种全文检索的方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种全文检索的方法及系统。

背景技术

在当前项目中，云文档存储的文件数据可分为两部分：结构化数据和非结构化数据。

其中，结构化数据部分包括所有者、所在的用户组、文件的大小、文件的类型和文件的MD5值等。针对这部分是已实现搜索，当前使用PostgreSQL数据库进行管理。

至于非结构化数据，这里特指各种文档的内容，比如DOC、PDF、TEXT等格式的文档中的文本内容。针对非结构化数据，由于关系型数据库(RDBMS)底层结构的缘故使得它管理大量非结构化数据显得有些先天不足，特别是查询这些海量非结构化数据的速度较慢。所以，当前项目中，未支持对文档内容的检索。

发明内容

本发明所要解决的技术问题是：提供一种全文检索的方法及系统，实现对非结构化数据的全文检索。

为了解决上述技术问题，本发明采用的技术方案为：

一种全文检索的方法，包括步骤：

搜索服务集群从待处理文档中检测并提取出文本内容，并将所述文本内容和所述文档的结构化数据一起作为文档内容发送至ES集群；

ES集群将所述文档内容进行分词，得到分词结果，根据所述分词结果建立所述文档内容的索引文件，将所述索引文件和所述文档内容存储到分片中；

ES集群在接收到搜索服务集群发送的检索请求时，由Lucene组件根据所述检索请求从所述分片中检索到对应文档。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种全文检索的系统，包括：

搜索服务集群，用于从待处理文档中检测并提取出文本内容，并将所述文本内容和所述文档的结构化数据一起作为文档内容发送至ES集群；

ES集群，用于将所述文档内容进行分词，得到分词结果，根据所述分词结果建立所述文档内容的索引文件，将所述索引文件和所述文档内容存储到分片中；用于在接收到搜索服务集群发送的检索请求时，由Lucene组件根据所述检索请求从所述分片中检索到对应文档。

本发明的有益效果在于：一种全文检索的方法及系统，由搜索服务集群从待处理文档中检测并提取出文本内容，并将文本内容和文档的结构化数据一起作为文档内容发送至ES集群，ES集群将文档内容进行分词、建立索引以及存储到分片之后。当用户发起检索时，ES集群在接收到搜索服务集群发送的检索请求时，由Lucene组件根据检索请求从分片中检索到对应文档，实现了对非结构化数据的全文检索，从而使得用户可以在线对文档的文本内容进行全文检索，提高用户体验。

附图说明

图1为本发明实施例的一种全文检索的方法的流程示意图；

图2为本发明实施例的一种全文检索的系统的架构示意图；

图3为本发明实施例的一种全文检索的系统集成到云文档之后的架构示意图。

图4为本发明实施例涉及的ManageWeb与Search的关系示意图；

图5为本发明实施例涉及的DocEngine调用Search的关系示意图；

图6为本发明实施例涉及的Search调用DocEngine的关系示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

在本发明中涉及到的缩略语和关键术语定义如下表1：

表1.缩略语和关键术语定义

请参照图1，一种全文检索的方法，包括步骤：

从上述描述可知，本发明的有益效果在于：由搜索服务集群从待处理文档中检测并提取出文本内容，并将文本内容和文档的结构化数据一起作为文档内容发送至ES集群，ES集群将文档内容进行分词、建立索引以及存储到分片之后。当用户发起检索时，ES集群在接收到搜索服务集群发送的检索请求时，由Lucene组件根据检索请求从分片中检索到对应文档，实现了对非结构化数据的全文检索，从而使得用户可以在线对文档的文本内容进行全文检索，提高用户体验。

进一步地，还包括以下步骤：

Nginx服务器通过负载均衡技术将用户请求分发至搜索服务集群中的搜索服务器上，所述搜索服务集群包括至少两个搜索服务器。

从上述描述可知，Nginx服务器通过负载均衡技术将用户请求进行分发，从而减轻了各个服务器的压力。

进一步地，所述将所述索引文件和所述文档内容存储到分片中具体为：

将所述索引文件和所述文档内容分布式存储分片上，所述ES集群包括有至少两个ES节点，每一个ES节点上至少包括一个主分片和一个副分片。

从上述描述可知，ES的分片机制保证了索引的高可用，也实现了索引的分布式存储和分布式搜索，ES的集群化，提供了高性能的搜索。

进一步地，所述ES集群将所述文档内容进行分词具体为：

所述ES集群通过集成的IK中文分词器将所述文档内容进行分词。

从上述描述可知，ES的标准分词器(Standard Analyzer)对中文的支持不友好，集成IK中文分词器，可以更好的处理中文文本，以达到更好的分词效果。

进一步地，所述搜索服务集群中的搜索服务器和所述ES集群中的ES节点均采用Docker容器化部署。

从上述描述可知，本发明采用了Docker容器化技术，整体作为一个子系统，可以稍微做少量的修改就能嵌套到其他项目中，可移植性强。

请参照图2至图6，一种全文检索的系统，包括：

进一步地，还包括Nginx服务器，所述搜索服务集群包括至少两个搜索服务器；

所述Nginx服务器，用于通过负载均衡技术将用户请求分发至搜索服务集群中的搜索服务器上。

进一步地，所述ES集群包括有至少两个ES节点，每一个ES节点上至少包括一个主分片和一个副分片；

所述ES集群，用于将所述索引文件和所述文档内容分布式存储分片上。

进一步地，所述ES集群集成有IK中文分词器；

所述IK中文分词器，用于将所述文档内容进行分词。

本发明的一种全文检索的方法及系统能够适用需要全文检索的场景，以下通过具体的实施方式进行说明：

请参照图1，本发明的实施例一为：

一种全文检索的方法，包括步骤：

S1、Nginx服务器通过负载均衡技术将用户请求分发至搜索服务集群中的搜索服务器上，搜索服务集群包括至少两个搜索服务器。

即本实施例采用Nginx服务器作为文档系统的入口，既承担着代理服务器的作用，还提供了负载均衡技术，采用负载均衡采用轮询策略，将用户的请求分发到后端的搜索服务集群(Search Service Cluster)，减轻了各个服务器的压力。

S2、搜索服务集群从待处理文档中检测并提取出文本内容，并将文本内容和文档的结构化数据一起作为文档内容发送至ES集群；

其中，全文检索可以分为索引和搜索，其中索引步骤包含：文档预处理，分词，创建索引。文档预处理功能由搜索服务集群提供，即步骤S2，分词、创建索引和搜索由ES集群(ESDB Cluster)提供，即步骤S3至步骤S4。

对于步骤S2来说，搜索服务是核心组件，是一个JAVA应用程序，采用Docker容器化部署。

其主要功能有两点：

一是文档预处理功能，提供解析文档功能，由Tika组件来实现，将文档中的文本内容检测并提取出来，并将文本内容和文档的结构化数据一起存储到ES集群中。其中，文档的结构化数据包括所有者、所在的用户组、文件的大小、文件的类型和文件的MD5值(MD5Message-Digest Algorithm，一种被广泛使用的密码散列函数)等。

二是对外部提供全文检索功能，通过查询ES集群实现。

S3、ES集群将文档内容进行分词，得到分词结果，根据分词结果建立文档内容的索引文件，将索引文件和文档内容存储到分片中；

其中，分词即为把全文本转换一系列词的过程，它是全文检索功能的重要组成部分。在本实施例中，ES集群将文档内容进行分词具体为：

ES集群通过集成的IK中文分词器将文档内容进行分词。

由此，由于ES的标准分词器(Standard Analyzer)对中文的支持不友好，集成IK中文分词器，可以更好的处理中文文本。

在本实施例中，将索引文件和文档内容存储到分片中具体为：

将索引文件和文档内容分布式存储分片上，ES集群包括有至少两个ES节点，每一个ES节点上至少包括一个主分片和一个副分片。

具体而言，ES集群的索引数据结构采用的是Lucene倒排序索引。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。

举个例子，用户搜索的时候先找到关键词，也就找到了含有该关键词的相关文章。其中，分词是索引步骤中的第一步。分片是索引步骤中的第三步建立索引中相关的概念，在添加数据时需要用到索引。索引是保存相关数据的地方，它实际上是指向一个或者多个物理分片的逻辑命名空间，而其中一个分片是一个底层的工作单元它仅保存了全部数据中的一部分。

一个分片(Shard)是一个Lucene的实例，它本身就是一个完整的搜索引擎。文档内容被存储和索引到分片内。一个分片可以是主分片或者副分片。分片机制实现了分布式存储，分布式检索的功能，分片的副本机制实现了横向动态扩容的功能。

ES集群是利用分片将数据分发到集群内各处的。分片是数据的容器，文档保存在分片内，分片又被分配到集群内的各个节点里。当你的集群规模扩大或者缩小时，ES会自动的在各节点中迁移分片，使得数据仍然均匀分布在集群里。

结合图2可知，在本实施例中，索引的分片设置采用三主(Primary Shard)三副(Replica Shard)，三主在图2中表示为主分片1、主分片2和主分片3，三副在图2中表示为副分片1、副分片2和副分片3。ES集群的分片机制保证了索引的高可用，也实现了索引的分布式存储和分布式搜索。

结合图2可知，ES集群采用小规模集群，三节点模式，一主节点(Master Node)两从节点(Slave Node)，它们都是数据节点(Data Node)，都设置为备选主节点(Backup Node)，都可以参与选举，实现节点的高可用。

S4、ES集群在接收到搜索服务集群发送的检索请求时，由Lucene组件根据检索请求从分片中检索到对应文档。

在本实施例中，ES集群中的ES节点也采用Docker容器化部署。

请参照图2至图6，本发明的实施例二为：

一种全文检索的系统，包括种全文检索的系统，包括搜索服务集群、ES集群和Nginx服务器，其各自实现的步骤参照实施例一种均可。

如图3至图6，本实施例中，以一种全文检索的系统应用到云文档中进行进一步的说明如下：

其中，云文档(CloudDoc-Server)是基于VIP(very important person，重要人物)的Keepalived高可用集群架构，外部访问都是通过VIP。VIP在云文档角色服务器一和云文档角色服务二之间漂移。

如图3所示，一种全文检索的系统对应到云文档中具体有：2个搜索服务器(图中以Search表示)、2个Nginx服务器(图中以Nginx负载均衡表示)以及包括3个ES节点(图中以ESSlave表示)的ES集群，其中，3个ES节点为一主两从。搜索服务器和ES节点都是采用Docker容器化部署。

在本实施例中，一种全文检索的系统所对应的三个组件与其他的组件之间的关系，对原有的云文档组件之间关系不描述，且图3至图6以及后续说明中涉及到原有的云文档组件AdminWeb、ManageWeb、DocEngine，Docupdate、Auth、License、Hodoop、PostgreSQL以及Redis均参照现有定义即可。

1)Search组件与其他组件的关系：

如图4所示，Search组件与ManageWeb组件的关系为：Search组件作为具体的业务处理服务，对ManageWeb提供全文检索服务相关的接口，目前已经提供了如下的接口：个人文档搜索，群组文档搜索，共享文档搜索。

如图5和6所示，Search组件与DocEngine组件的关系为：DocEngine组件作为云文档中处理云文档的核心组件。Search组件与DocEngine组件的关系为互相调用。在创建文档解析任务时两者的具体时序图如图5所示，DocEngine组件将带解析的文档的标识提交到Search组件，Search组件再创建解析任务，并创建完后返回结果给DocEngine。在执行文档解析任务时时两者的具体时序图如图6所示，由此，DocEngine组件需要实现指定的方法供Search组件调用，具体为2个方法，一个获取文件信息的，另一个是获取文件流。

2)ES组件与其他组件的关系：

ES组件作为搜索引擎数据库，只与Search组件存在关系，只能被Search组件调用。

即本实施例至少需要3台服务器，其中两台服务器需要部署Keepalived，用来实现基于VIP的Keepalived服务集群的高可用，并且这两台服务器需要部署Nginx，用来实现服务的负载均衡。

其中AdminWeb、ManageWeb、DocEngine，Docupdate、Auth、License、Search服务，服务都是采用双活实现高可用，部署模式都是采用Docker容器化部署。

PostgreSQL和Redis不采用容器化部署，都采用一主一备的高可用模式。

Hadoop采用一主两从的集群模式，来实现高可用，并且也采用容器化部署。

ES集群采用一主两从的集群模式，实现节点的高可用，ES的索引采用三主分片三副本分片来实现索引的高可用，并且也采用容器化部署，具体可得表2。

表2云文档部署方案

综上所述，本发明提供的一种全文检索的方法及系统，实现了对非结构化数据的全文检索，从而使得用户可以在线对文档的文本内容进行全文检索，提高用户体验，且具有高可用性，高搜索性能以及强可移植性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种全文检索的方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种全文检索的方法，其特征在于，还包括以下步骤：

3.根据权利要求1所述的一种全文检索的方法，其特征在于，所述将所述索引文件和所述文档内容存储到分片中具体为：

4.根据权利要求1所述的一种全文检索的方法，其特征在于，所述ES集群将所述文档内容进行分词具体为：

5.根据权利要求1所述的一种全文检索的方法，其特征在于，所述搜索服务集群中的搜索服务器和所述ES集群中的ES节点均采用Docker容器化部署。

6.一种全文检索的系统，其特征在于，包括：

7.根据权利要求6所述的一种全文检索的系统，其特征在于，还包括Nginx服务器，所述搜索服务集群包括至少两个搜索服务器；

8.根据权利要求6所述的一种全文检索的系统，其特征在于，所述ES集群包括有至少两个ES节点，每一个ES节点上至少包括一个主分片和一个副分片；

9.根据权利要求6所述的一种全文检索的系统，其特征在于，所述ES集群集成有IK中文分词器；

所述IK中文分词器，用于将所述文档内容进行分词。

10.根据权利要求6所述的一种全文检索的系统，其特征在于，所述搜索服务集群中的搜索服务器和所述ES集群中的ES节点均采用Docker容器化部署。