CN104820693A

CN104820693A - 一种数据搜索的方法及装置

Info

Publication number: CN104820693A
Application number: CN201510208340.8A
Authority: CN
Inventors: 陈红
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2015-04-28
Filing date: 2015-04-28
Publication date: 2015-08-05
Anticipated expiration: 2035-04-28
Also published as: CN104820693B

Abstract

本发明实施例公开了一种数据搜索的方法及装置，通过建立采集的索引数据的刷入索引；根据预设的第一算法合并所述刷入索引，生成合并索引；将所述合并索引与当前的全量索引根据预设的第二算法进行合并，生成新的全量索引，所述新的全量索引用于用户进行数据搜索，从而实现对大量的数据进行实时索引时，会造成大量的索引文件碎片，通过分布式计算对索引碎片与全量索引进行合并，降低了索引碎片对搜索性能的影响。

Description

一种数据搜索的方法及装置

技术领域

本发明实施例涉及数据处理的技术领域，尤其涉及一种数据搜索的方法及装置。

背景技术

当数据量大的时候，索引的建立需要消耗大量的时间和IO，而搜索也属于IO密集型，将严重影响搜索业务的性能和用户的体验。同时，对于实时搜索引擎来说，索引的碎片化的问题会很严重，因此，随着搜索业务的不断发展，网络数据也呈现井喷式的增长，随之而来的实时数据搜索的问题也越来越严重，无法实现数据信息的近实时查询。

发明内容

本发明实施例的目的在于提出一种数据搜索的方法及装置，旨在解决如何实现数据的近实时查询的问题。

为达此目的，本发明实施例采用以下技术方案：

一种数据搜索的方法，所述方法包括：

建立采集的索引数据的刷入索引；

根据预设的第一算法合并所述刷入索引，生成合并索引；

将所述合并索引与当前的全量索引根据预设的第二算法进行合并，生成新的全量索引，所述新的全量索引用于用户进行数据搜索。

优选地，所述根据预设的第一算法合并所述刷入索引，生成合并索引，包括：

将所述刷入索引存储到内存的索引A区；

当存入到所述索引A区的刷入索引的大小达到预设的第一阈值时，则将所述索引A区的刷入索引的数据复制到内存的索引B区；

当存入到所述索引B区的刷入索引的大小达到预设的第二阈值时，则将所述索引B区的刷入索引的数据写入存储模块中。

优选地，所述将所述合并索引与当前的全量索引根据预设的第二算法进行合并，生成新的全量索引，包括：

将所述合并索引与当前的全量索引进行合并，生成新的全量索引和新的合并任务，建立所述新的全量索引和所述新的合并任务的连接；

将所述新的全量索引存储到存储模块中，监控是否完成所述当前全量索引对应的搜索任务；

在监控到已完成所述当前全量对应的搜索任务后，删除所述当前全量索引。

优选地，所述方法在建立采集的索引数据的刷入索引之前，还包括：

对采集的数据的类型进行判别；

若采集的数据的类型为搜索数据时，则获取所述搜索数据中的关键词组合，搜索所述关键词组合对应的数据内容，并将所述数据内容进行合并后发送给用户；

若采集的数据的类型为索引数据时，则执行建立采集的索引数据的刷入索引的步骤。

优选地，所述方法还包括：

将采集的索引数据以写日志的方式写入预设的内存区，将所述日志写入存储模块。

一种数据搜索的装置，所述装置包括：

建立单元，用于建立采集的索引数据的刷入索引；

第一生成单元，用于根据预设的第一算法合并所述刷入索引，生成合并索引；

第二生成单元，用于将所述合并索引与当前的全量索引根据预设的第二算法进行合并，生成新的全量索引，所述新的全量索引用于用户进行数据搜索。

优选地，所述第一生成单元，用于：

将所述刷入索引存储到内存的索引A区；

优选地，所述第二生成单元，用于：

优选地，所述装置还包括：

判别单元，用于对采集的数据的类型进行判别；

搜索单元，用于若采集的数据的类型为搜索数据时，则获取所述搜索数据中的关键词组合，搜索所述关键词组合对应的数据内容，并将所述数据内容进行合并后发送给用户；

建立单元，用于若采集的数据的类型为索引数据时，则执行建立采集的索引数据的刷入索引。

优选地，所述装置还包括：

写入单元，用于将采集的索引数据以写日志的方式写入预设的内存区，将所述日志写入存储模块。

本发明实施例通过建立采集的索引数据的刷入索引；根据预设的第一算法合并所述刷入索引，生成合并索引；将所述合并索引与当前的全量索引根据预设的第二算法进行合并，生成新的全量索引，所述新的全量索引用于用户进行数据搜索，从而实现对大量的数据进行实时索引时，会造成大量的索引文件碎片，通过分布式计算对索引碎片与全量索引进行合并，降低了索引碎片对搜索性能的影响。

附图说明

图1是本发明数据搜索的方法第一实施例的方法流程示意图；

图2是本发明数据搜索的方法第二实施例的方法流程示意图；

图3是本发明数据搜索的方法第三实施例的方法流程示意图；

图4是本发明数据搜索的装置的功能模块示意图；

图5是本发明数据搜索的装置的功能模块示意图；

图6是本发明数据搜索的装置的功能模块示意图；

图7是本发明数据搜索的装置的功能模块示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

参考图1，图1是本发明数据搜索的方法第一实施例的方法流程示意图。

在实施例一中，所述数据搜索的方法包括：

步骤101，建立采集的索引数据的刷入索引；

具体的，通过采集模块获取数据，对采集的数据的类型进行判别。当采集数据的类型为索引数据时，建立索引数据的刷入索引。

其中，刷入索引是刷入磁盘的子索引，没有进行合并，而且大小较小，不对外提供搜索服务，合并刷入索引后生成合并索引。

步骤102，根据预设的第一算法合并所述刷入索引，生成合并索引；

将所述刷入索引存储到内存的索引A区；

具体的，建立索引数据的索引，并将建立后的索引存储到内存的索引A区，当内存索引A区的大小达到阈值，则将内存索引A区的数据拷贝到索引B区，将内存索引B区的索引刷入存储空间中，以子索引形式切区分于全量索引存储。

其中，所述全量索引为合并出的最大的索引集合，并对外提供搜索服务。

所述合并索引是由刷入索引按照一定机制合并后形成的索引，有它与当前的全量索引进行合并，生成新的全量索引，也对外提供搜索服务。

步骤103，将所述合并索引与当前的全量索引根据预设的第二算法进行合并，生成新的全量索引，所述新的全量索引用于用户进行数据搜索。

具体的，当合并索引的数量增加时，将合并索引与全量索引进行合并，生成相关的合并任务。将合并任务提交给分布式计算集群进行合并索引和全量索引的合并，合并后的新的全量索引存储到存储模块中，监控现在对于旧的全量索引的搜索任务，将新的搜索任务连接到新的全量索引，等待旧的全量索引上的搜索任务的完成，新的全量索引平滑切换旧的全量索引，当全量索引切换完成，删除旧的全量索引，新的全量索引开始全面对外提供搜索任务。

实施例二

参考图2，图2是本发明数据搜索的方法第一实施例的方法流程示意图。

在实施例一的基础上，所述方法还包括：

步骤104，对采集的数据的类型进行判别；

步骤105，若采集的数据的类型为搜索数据时，则获取所述搜索数据中的关键词组合，搜索所述关键词组合对应的数据内容，并将所述数据内容进行合并后发送给用户；

若采集的数据的类型为索引数据时，则执行步骤101。

具体的，对搜索请求的数据进行逻辑处理，逻辑处理包括与、或、非等，对搜索数据行分词处理，获取搜索关键词组合，根据关键词组合请求索引合并模块，索引合并模块将搜索结果返回给搜索合并模块，搜索合并模块将结构进行一定的合并。

实施例三

参考图3，图3是本发明数据搜索的方法第一实施例的方法流程示意图。

在实施例二的基础上，所述方法还包括：

步骤106，将采集的索引数据以写日志的方式写入预设的内存区，将所述日志写入存储模块。

具体的，将采集的索引数据以写日志的方式写入专属内存区，数据接收模块按照一定的机制(时间间隔、日志大小)将数据刷入存储模块，所述存储模块中存储着对应的日志文件，并以追加的方式写入。

实施例四

参考图4，图4是本发明数据搜索的装置的功能模块示意图；

在实施例四中，所述数据搜索的装置包括：

建立单元401，用于建立采集的索引数据的刷入索引；

第一生成单元402，用于根据预设的第一算法合并所述刷入索引，生成合并索引；

优选地，所述第一生成单元402，用于：

将所述刷入索引存储到内存的索引A区；

第二生成单元403，用于将所述合并索引与当前的全量索引根据预设的第二算法进行合并，生成新的全量索引，所述新的全量索引用于用户进行数据搜索。

优选地，所述第二生成单元403，用于：

实施例五

参考图5，图5是本发明数据搜索的装置的功能模块示意图。

在实施例五中，所述装置还包括：

判别单元404，用于对采集的数据的类型进行判别；

搜索单元405，用于若采集的数据的类型为搜索数据时，则获取所述搜索数据中的关键词组合，搜索所述关键词组合对应的数据内容，并将所述数据内容进行合并后发送给用户；

建立单元401，用于若采集的数据的类型为索引数据时，则执行建立采集的索引数据的刷入索引。

实施例六

参考图6，图6是本发明数据搜索的装置的功能模块示意图。

在实施例六中，所述装置还包括：

写入单元406，用于将采集的索引数据以写日志的方式写入预设的内存区，将所述日志写入存储模块。

实施例七

参考图7，图7是本发明数据搜索的装置的功能模块示意图。

在实施例七中，所述数据搜索的装置包括：

采集模块、数据接收模块、索引更新模块、搜索合并模块、索引合并模块、存储模块。

如图7所示，采集模块用于采集数据，对采集的数据类型进行判别，采集数据类型为搜索数据，则将数据提交给搜索合并模块；若采集数据类型为索引数据，则将数据提交给索引更新模块。

搜索合并模块用于对搜索请求数据进行逻辑处理(与、或、非等)，对搜索数据进行分词处理，获取搜索关键词组合，根据关键词组合请求索引合并模块，索引合并模块将搜索结构返回给搜索合并模块，搜索合并模块将结果进行一定的合并。

数据接收模块用于将采集模块传过来索引数据由数据接收模块采用写日志的方式写入专属内存区，数据接收模块按照一定的机制(时间间隔、日志大小)将数据刷入存储模块，存储模块中存储着对应的日志文件，并且以追加的方式写入。

索引更新模块用于从数据接收模块接收已存储的需索引数据，将索引数据建立索引，存储到内存中的索引A区，当内存索引A区的大小达到阈值，则将内存索引A区的数据拷贝到索引B区，并将内存索引B区的索引刷入存储空间中，以子索引形式切区分于全量索引存储。

索引合并模块用于当合并索引的数量增加时，将合并索引与全量索引进行合并，生成相关的合并任务。将合并任务提交给分布式计算集群进行合并索引和全量索引的合并，合并后的新的全量索引存储到存储模块中，监控现在对于旧的全量索引的搜索任务，将新的搜索任务连接到新的全量索引，等待旧的全量索引上的搜索任务的完成，新的全量索引平滑切换旧的全量索引，当全量索引切换完成，删除旧的全量索引，新的全量索引开始全面对外提供搜索任务。

其中，实时搜索的搜索装置从多个方面保证了搜索的性能，满足应用的接近实时的搜索效果。

数据接收模块可以先将大量索引数据进行缓存，然后由索引更行模块进行消费，这样在实时数据量过大的情况下缓解了索引更新模块的压力，从而提高了整个装置的可用性。

索引更新模块中通过内存索引A区和内存索引B区的方法避免了索引写入存储模块过于频繁，内存索引A区负责接收实时产生的索引，索引B区则负责将索引写入存储模块，只有达到一定的阈值，才会将内存索引A区的数据拷贝至索引B区。这种方法避免了磁盘IO的拥堵问题，避免搜索任务的性能极速下降的问题。

索引合并模块则通过采用分布式计算框架(hadoop)进行合并索引和全量索引的合并任务，由于合并任务需要达到一定的时间才会运行，从而很好的减少了索引切换的影响，合并后索引碎片减少，提高了搜索性能。

搜索合并模块会将搜索请求会对全量索引和合并索引同时进行搜索，从而保证了搜索的实时性。

以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理，而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式，这些方式都将落入本发明实施例的保护范围之内。

Claims

1.一种数据搜索的方法，其特征在于，所述方法包括：

建立采集的索引数据的刷入索引；

根据预设的第一算法合并所述刷入索引，生成合并索引；

2.根据权利要求1所述的方法，其特征在于，所述根据预设的第一算法合并所述刷入索引，生成合并索引，包括：

将所述刷入索引存储到内存的索引A区；

3.根据权利要求1所述的方法，其特征在于，所述将所述合并索引与当前的全量索引根据预设的第二算法进行合并，生成新的全量索引，包括：

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述方法在建立采集的索引数据的刷入索引之前，还包括：

对采集的数据的类型进行判别；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种数据搜索的装置，其特征在于，所述装置包括：

建立单元，用于建立采集的索引数据的刷入索引；

7.根据权利要求6所述的装置，其特征在于，所述第一生成单元，用于：

将所述刷入索引存储到内存的索引A区；

8.根据权利要求6所述的装置，其特征在于，所述第二生成单元，用于：

9.根据权利要求6至8任意一项所述的装置，其特征在于，所述装置还包括：

判别单元，用于对采集的数据的类型进行判别；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：